4 月 09
Luke FanAIGC, Meta的故事 AI伦理, AI生成, AI评测, AI负责人辟谣, Benchmark作弊, DLIU DLIU, Llama 4, LLM, Meta, Meta AI, Meta回应, 人工智能, 作弊指控, 内部爆料, 基准测试, 大语言模型, 学术不端, 实际使用效果, 开源模型, 开源社区, 快速发布后果, 性能评估, 技术报告缺失, 数据污染, 模型蒸馏, 沃顿商学院教授, 测试集污染 (背真题), 版本不一致 (开源vs测试), 科技争议, 科技新闻, 稳定性问题, 编程能力差, 自然语言处理, 跑分作弊, 过度优化, 验证方法
Meta的Llama4发布之后,深陷作弊风潮。大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Meta的Llama4被人怀疑作弊,他到底是不是真的作弊了。
前面我们做过一期视频,说Llama4发布的时候没有太大的响动,因为它出来以后发现,虽然评测还不错,但是使用起来并没有感觉比现在主流的模型强到哪去。现在不行了,负面消息传出来了,说你大模型出来的时候跑分的成绩很高,但是我们使起来不是这么回事,有点名不副实的样子,特别是编程的效果极差。
为什么大家去比较编程呢?两个原因:
第一个,去玩这些开源大模型的,一般都是程序员。
第二个,编程是一个相对来说标准比较统一的评测。你编得出来编不出来,编完了效果怎么样,这个一眼就能看出来,没法作假。你说我写个诗或者写个小说,这个玩意还有仁者见仁、智者见智的时候。这编程这个东西,对就是对,不对就是不对,或者你做完了以后它的效果有问题,一眼就能看出来。所以现在被人质疑了。
More
4 月 07
Luke FanAIGC 1000万Token上下文, 400B, AI Agent, AI应用场景, AI新闻, AI未来发展, AI模型发布, AI竞赛, AI算力, Claude 3.7, DeepSeek, FP8精度, Function Call, Gemini 2.5 Pro, GPT-4o, Grok (XAI), H100 GPU, INT4量化, Llama 3, Llama 4, Llama 4 Behemoth, Llama 4 MARVELIC, Llama 4 Scout, Llama 4发布反响平淡原因, LLM, Meta AI, Meta战略, Mixture of Experts, MOE架构, 专家模块, 中文能力提升, 人工智能, 全模态AI进展, 千问 (Qwen), 卡估值, 多模态输入, 大语言模型, 字节AI, 小模型竞争, 开源LLM对比, 开源模型, 开源模型内卷, 开源社区, 推理速度, 文本输出, 模型微调, 模型性能比较, 模型测评, 模型训练, 活跃参数, 流量入口, 知识蒸馏, 硬件要求, 端到端模型, 腾讯AI, 谷歌AI, 超级APP趋势, 长上下文, 阿里AI
Llama4发布了。这里的黎明静悄悄,没有什么响动。这是怎么回事?
大家好,欢迎收听老范讲故事的YouTube频道。一觉醒来,Llama4就发布了。扎克伯格亲自在Facebook的REELS(也就是Facebook的短视频里面)发了一条视频,说Llama4发布了,今天是Llama4日。
Llama4呢,一共是有三个版本:
第一个叫Scout(侦察兵版本),总参数1,090亿(也就是109B),活跃参数是170亿,包含16个专家模块。对的,Llama终于也放弃抵抗了,从Llama4开始变成Moe了。在Llama4之前的版本都是单一体的模型,Llama3.3还给了一个400多B的单一模型,到Llama4彻底放弃抵抗了。
现在呢,支持1,000万TOKEN这种上下文,这个是Llama4最大的一个特点。DeepSeek是64K(也就是64,000个TOKEN上下文),现在上下文比较大的Gemini大概是能到2兆(200万),Llama4直接给了一个10兆(1,000万TOKEN),这是它做的一个很创新的点。
More
5 月 17
Luke FanAIGC, 华为很厉害 AI, Bolan, bug, contranite, DOS攻击, e latch, HUAWEI, image list, in bedding, inviting, LLM, MindSpore, MindX, Python, RAG, Retry, rpm限制, sleep 6, stable diffusion, stream输出, time.sleep, YouTube, 人工智能, 代码, 企业用户, 升腾大模型, 华为, 华为大模型, 史量化, 后台进程, 图像生成, 图片 RAG, 大模型, 字节跳动, 安卓, 客观中立, 嵌入, 拉玛, 拉玛3, 提示搜工程, 提示词, 政府用户, 昇腾, 欺骗, 流式输出, 游戏, 演示, 状态监控, 电商, 真相, 矢量空间, 翻车, 老范, 老范讲故事, 职业编程, 萝卜急了不稀泥, 解读, 谷歌, 谷歌IO, 豆包, 通义千问, 锁定状态, 零一万物, 骑士
大家好,
欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲华为大模型演示翻车现场。
近期呢,非常多的AI相关的项目都在进行演示和发布,特别是国内。为什么它?因为时间到了。通常每年在这个时候也会有很多发布,因为每年在这个时候会开谷歌IO,大家喜欢在谷歌IO的前后进行信息的发布啊。因为谷歌IO算是全世界程序员或者开发者的一个盛会吧。那这个前后进行信息发布的话,如果它被安卓采用了,或者再跟谷歌搭上一点关系的这种技术会有更好的发展空间。
那今年呢,还有另外一个事情,就是拉玛3发布。前面其实国产很多大模型都是跟拉玛2有千丝万缕的联系。其实当时就已经预言过,我说拉玛3出来看多长时间之后,国内的大模型会争先恐后的再更新换代一波。现在呢,这个时间点就到了。前面阿里的通1,000问2.5发布,这两天还有几个,一个是零一万物的啊,叫e latch大模型发布,然后字节跳动的豆包大模型前两天也发布了啊。这豆包大模型主打的一个便宜,对别人的价格都便宜非常多,因为大模型的价格一般是按TOKEN算的啊,一般一个汉字是一个TOKEN,大概四个字母,还是几个字母的英文单词,是一个TOKEN啊,它这个算法比较奇怪。
More