4 月 09
Luke FanAIGC, Meta的故事 AI伦理, AI生成, AI评测, AI负责人辟谣, Benchmark作弊, DLIU DLIU, Llama 4, LLM, Meta, Meta AI, Meta回应, 人工智能, 作弊指控, 内部爆料, 基准测试, 大语言模型, 学术不端, 实际使用效果, 开源模型, 开源社区, 快速发布后果, 性能评估, 技术报告缺失, 数据污染, 模型蒸馏, 沃顿商学院教授, 测试集污染 (背真题), 版本不一致 (开源vs测试), 科技争议, 科技新闻, 稳定性问题, 编程能力差, 自然语言处理, 跑分作弊, 过度优化, 验证方法
Meta的Llama4发布之后,深陷作弊风潮。大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Meta的Llama4被人怀疑作弊,他到底是不是真的作弊了。
前面我们做过一期视频,说Llama4发布的时候没有太大的响动,因为它出来以后发现,虽然评测还不错,但是使用起来并没有感觉比现在主流的模型强到哪去。现在不行了,负面消息传出来了,说你大模型出来的时候跑分的成绩很高,但是我们使起来不是这么回事,有点名不副实的样子,特别是编程的效果极差。
为什么大家去比较编程呢?两个原因:
第一个,去玩这些开源大模型的,一般都是程序员。
第二个,编程是一个相对来说标准比较统一的评测。你编得出来编不出来,编完了效果怎么样,这个一眼就能看出来,没法作假。你说我写个诗或者写个小说,这个玩意还有仁者见仁、智者见智的时候。这编程这个东西,对就是对,不对就是不对,或者你做完了以后它的效果有问题,一眼就能看出来。所以现在被人质疑了。
More
11 月 19
范, 路AIGC AI Agent, AIagent, AI创新, AI发展路径, AI商业化, AI商业探索, AI工具, AI市场, AI平台, AI技术, AI方向, AI模型调用, AI生成, AI竞争, AI节目主持, AI落地应用, AI行业, AI行业评论, AI视觉生成, AI革命, AI项目, IRAG, IRAG系统, OpenAI, Scaling law, Sora, Token计费, YouTube频道, 中国AI, 中国式创新, 云计算, 产品发布, 创新保守, 创新挑战, 前沿科技, 发展趋势, 商业逻辑, 图像RAG, 图像技术, 多模态, 大企业应用, 市场策略, 市场需求, 幻觉问题, 快手, 技术发展, 技术定向, 技术路线, 抖音, 搜索增强生成, 政府应用, 文心一言, 文心智能体, 文心研, 无代码工具, 智能体, 智能体平台, 智能技术, 智能生成, 未来展望, 未来技术, 李彦宏, 消除幻觉, 涌现, 爱奇艺, 现有需求, 百度, 百度AI战略, 百度AI技术路径, 百度世界大会, 百度发布会, 百度应用, 百度战略分析, 百度技术展示, 百度智能眼镜, 百度的未来, 百度视频平台, 确定性创新, 科学家质疑, 科技前沿, 科技评论, 秒哒, 老范讲故事, 规模法则, 视觉数据库, 视频模型, 超级APP, 超级智能体
百度为什么不做Sora?是不是吃不到葡萄就说葡萄是酸的呢?大家好,这里是老范讲故事的YouTube频道。
11月12号,百度世界大会上就透露出来说,百度从来就没有想去过做Sora这样的世界模型,或者叫视频模型,从来没想过。百度呢,是一直希望走自己的多模态道路,不希望去跟OpenAI这样的公司卷入世界模型的竞争。虽然到现在为止,Sora也没出来,但是跟在后面跑的人还是很多的,特别是抖音、快手,都推出了各自的视频模型,还有很多国际上的厂商也在视频模型上争先恐后地往前跑。
但百度说,我不干这个事,我有更重要的事情在做。这是百度李彦宏亲口说的。那么,百度努力的方向到底是什么呢?百度努力的方向是消除幻觉。大模型都是有幻觉的,百度呢说,我们作为一个中国公司,你可以不说话,但是说错了是很麻烦的,所以我们不能产生幻觉,保证我们说的都是对的。而且这个是在各种角度上,所有的评判标准来看,都得是对的,不能有任何问题。因为有的时候,你说的你觉得对了,但别人觉得不开心,这也是不行的。
More