怒喷大模型连狗都不如?揭秘硅谷集体幻觉与物理常识缺失,为何只有新架构才能通往通用人工智能|Yann LeCun World Models AMI LLMs AI Startup

怒喷大模型连狗都不如?揭秘硅谷集体幻觉与物理常识缺失,为何只有新架构才能通往通用人工智能|Yann LeCun World Models AMI LLMs AI Startup已关闭评论

杨乐坤“暴论”:大语言模型是扯淡,连狗都不如?解读他的世界模型与新创业项目AMI

“我认为这完全是扯淡,这条路根本就不可能成功。”这是杨乐坤在最新的访谈中对大语言模型路线的评价。这是语不惊人死不休的这种暴论吗?还是说他真的有一些什么事情想做?

大家好,欢迎收听老范讲故事的YouTube频道

12月15日,杨乐坤发布了他最新的访谈。访谈是在一个叫做“信息瓶颈”的播客中进行的,位置应该是在纽约大学。杨乐坤当时还在Meta站好最后一班岗,三周以后会正式离职。访谈接近两个小时,我尽量讲一些里边有意思的部分。

现在的大语言模型还无法跟狗的智能相比,这个也是其中比较有趣的一点。到底杨乐坤想做的世界模型,以及他的JEPA是如何工作的?对于我这个讲述者和各位听众来说,都是一个挑战。请耐心听到最后,然后告诉我,我到底讲明白了没有?你们到底听懂了没有?杨乐坤要去做的AMI,也就是创业要做的这个新公司,到底是干什么的?怎么挣钱?咱们今天就讲这几块。


第一块:杨乐坤为什么觉得大语言模型完全是扯淡?

这里头要讲到的最核心的观点叫“序列化”。大语言模型工作的方式,是把整个世界的这些语言进行序列化。所谓序列化是什么?就是把所有的语言变成TOKEN,然后把这些TOKEN离散掉,谁跟谁之间都没有关系,再通过把全世界的语言搁在一起进行统计、进行训练,重新建立起这些TOKEN与TOKEN之间的关系。它是这样来工作的。

而且要注意一点,语言这个东西本身就是一个世界映射,语言只能表达世界中的很少一部分。哪怕是同样的语言,你用不同的语气语调来说,都会表达不同的意思。而不同的语气语调,你在语言中是完全无法看到的。所以语言只是真实世界的一个稀疏映射,大量的信息被错漏了。所以在TOKEN化的这个过程中,大语言模型其实把大量世界本身相关的信息都扔掉了,特别是那种连续的信息。

因为大语言模型通常能干的事是什么?就是预测下一个词应该说什么,哪个词是最好的。但是在这个过程中,它对于让世界演变这些连续事件,它是没有办法去进行预测的,因为它在序列化的过程中就把所有这些关联全扔了。

More

OpenAI发布会没说的秘密:新指标遥遥领先,为何在关键的人类偏好测试中,它仍然输给了对手?|GPT-5.2 vs Gemini 3 Pro benchmarks comparison

OpenAI发布会没说的秘密:新指标遥遥领先,为何在关键的人类偏好测试中,它仍然输给了对手?|GPT-5.2 vs Gemini 3 Pro benchmarks comparison已关闭评论

GPT-5.2我已经用了两天了,效果到底怎么样?

大家好,欢迎收听老范讲故事的YouTube频道。

GPT-5.2:应对Gemini的“红色警报”产品

GPT-5.2是12月11日发布的,它是在OpenAI的十周年生日这一天发布的。虽然ChatGPT-3.5,我们记得是有三年,但是在这之前,OpenAI已经苦逼了好多年了,所以这是OpenAI自己的十周年生日礼物。这个产品,应该是应对谷歌的Gemini 3 Pro的一个紧急版本,是在GPT-5的基础上进行了调整和训练得到的,更加注重长时间推理结果,结构化的输出更像系统,也就是更不像人。这个东西很多指标都遥遥领先,当然还有一个重要的特点——就是更贵。

两天来的个人使用感受

优点:输出质量显著提升

用了两天了,我自己使用的感受是什么样的?输出的结果确实要比GPT-5.1要好很多,它的输出结果更全面、更准确,而且输出的结果整个的排版格式也是非常舒服的。

缺点:速度极慢与应对策略

但是,好慢好慢好慢!重要的事情说三遍,这个东西真的是很慢。当然,也有可能是新版本刚发布,用的人很多,但确实是慢,让我把默认的thinking模式都给取消了,改成了自动模式或者直出模式。自动模式就是它根据你的问题来判断是thinking还是直出;如果是直出模式的话,就是不判断,直接给结果就完事了。当然了,我还有一个方式来应对速度,就是在GPT旁边再开个豆包,豆包是相对来说要比它快很多的。

More

Deepseek V3.2高分真相:我们被“遥遥领先”忽悠了?Special版跑分超GPT-5,但API成本砍半才是真杀招|DeepSeek-V3.2、DSA

Deepseek V3.2高分真相:我们被“遥遥领先”忽悠了?Special版跑分超GPT-5,但API成本砍半才是真杀招|DeepSeek-V3.2、DSA已关闭评论

Deepseek V3.2,12月1号发布了。是不是又遥遥领先了呢?

大家好,欢迎收听老范讲故事的YouTube频道

Deepseek V3.2的发布应该是12月1日。我们始终没有等来心心念念的Deepseek R2。在今年春节的时候,深度求索突然发布了Deepseek R1,算是扔下了一颗深水炸弹,把整个AI圈都震动了,甚至还造成了英伟达股价的闪崩——一段时间内闪崩吧。甚至老黄都跑出来喊,说:“Deepseek发布对我是利好,你们不要卖英伟达的股票。”大家就一直等着这个R1,既然这么厉害,咱们上R2。但是等了这么久,都没有等来R2。

Deepseek V系列版本回顾

下面呢,我们来捋一下Deepseek V系列的版本到底是怎么样的一个发布过程。

  • Deepseek V3 (去年12月26日发布): 这是非常非常重要的一个版本。实际上我们后面看到的所有版本,包括R1,都是在Deepseek V3的基础上进行微调、进行蒸馏、进行强化学习。今天发布的Deepseek V3.2,也依然是在这个版本的基础上做出来的。
  • Deepseek V3-0324 (3月24日发布): 主要是在专项能力上做了一些增强,比如说编代码或者写文章。
  • Deepseek V3.1 (8月21日发布): 主要是工程化和智能体方面做了增强。因为当时大家都要去做AI agent,而之前的版本在AI agent这一块都比较弱。
  • Deepseek V3.1 Terminals (9月22日发布): 这个版本叫V3.1的终极版,实际上是对V3.1做了一些修复和精调,并告知这是V3.1的最终版本。
  • V3.2 EXP (9月29日发布): 一个实验版本,在V3.1终极版的基础上加入了DSA技术。最主要的变化是降价,直接把API调用的价格砍了一半。
  • Deepseek OCR (10月20日发布): 一个很小的模型(约6G),用于图片解释,效果很好。
  • maths VR (11月27日发布): 专门做数学推理和数学证明的一个版本,在各种数学题测试中评分非常高。
  • Deepseek V3.2 正式版 & V3.2 special 特别版 (12月1号发布): 本次发布的主角。
More

90 分钟专访揭秘:Ilya 为何抛弃 OpenAI 路线,创办 SSI 公司半年估值从 50 亿飙到 320 亿?|Safe Superintelligence、Superintelligence

90 分钟专访揭秘:Ilya 为何抛弃 OpenAI 路线,创办 SSI 公司半年估值从 50 亿飙到 320 亿?|Safe Superintelligence、Superintelligence已关闭评论

伊利尔·苏斯克维的专访:他到底说了些什么?

大家好,欢迎收听老范讲故事的YouTube频道

伊列尔·苏斯克维,很多人说:“这哥们是谁?”就是和马斯克、山姆·奥特曼一起创建OpenAI那哥们。在2023年11月份,对山姆·奥特曼进行逼宫以后,休假了很长时间,然后从OpenAI离职的。这一位算是OpenAI的创始人吧,他离职了以后呢,自己闷头去做研究,好长时间没有他的声音了,现在突然出来接受了一次专访。

引言:AI界的科学家与当下的迷茫

首先要注意,这哥们不是一个工程师,他是一个科学家。工程师跟科学家之间还是有很大差异的。使用确定的技术、加大投入、获得可预期的结果,这是工程师干的活;研究不确定的方向,这是科学家干的事情。所以,他是一位科学家。

现在很多人都在讨论AI是不是有泡沫。现在距离走通“最后一步”还有一点点小的差距。到底什么叫“最后一步”?就是AI真正的落地,真正的开始改变很多东西,开始挣钱。这一步现在还是有一点点差距的。但是呢,很多人也在否认AI泡沫的存在。AI虽然没有走通最后一步,但是AI真的带来很多失业。“钱我没挣着,但是我真的把人的工作干掉了。”现在是大家都比较迷茫的一个时间点。

原来那些应该默默无闻做研究的科学家,就携带了巨大的光环跑出来说话了。本来这些科学家说的话呢,应该是在很小的圈子里边流传,但是现在大家看看李飞飞、杨乐坤,包括今天咱们讲的伊利尔说的这些话,也成为了大众讨论的话题。

核心观点一:科学研究与工程研发的转化

“科研现在需要相互转化了”,这就是这一次伊利尔访谈的一个核心观点。你说,科研科研不是一回事吗?不是,科学跟研究是两回事,它是分为“科学研究”和“工程研发”,它是两个不同的概念。

科学研究呢,是在发现方向。发现了方向以后,就可以堆钱、堆算力、堆数据,在各种行业里边进行测试,这个呢都叫工程研发。就像前面他们研究了半天,到底哪个算法是可以把这个大模型做出来的,最后发现Transformer算法是可以搞定的,发现方向了。到发现Transformer方法有效之前,都是在做科学研究。在Transformer出来以后,大家说:“咱们堆钱吧!”玩这个scaling law,就是直接往里头去堆算力、堆数据、堆这些东西了,这就开始玩工程研发了。这个都是确定的东西,我们只管往里堆钱就完了。

工程研发呢,有一个不可避免的问题,就是你万一站到了一个小山头上,朝任何一个方向走都是下坡。工程研发的时候,他也是会寻找更高的一个山头往上爬,但是你爬到一个最高的山头的时候,你就没法往前走了,因为你不知道应该往哪个方向走了。如果有一个离你很近的山头,你还可以去尝试的跳一跳;如果下一个山峰离你非常遥远的话,这个工程研发是没有办法去跨越鸿沟的。那么在这个时候就应该重新走回来,做科学研究了,重新去尝试那些现在不确定的方向。这就是这一次伊利尔访谈的一个核心观点。

所有的科学家最大的能力是不是科学?其实不是这样。所有的科学家,特别是成功的科学家,他们最大的能力是筹措经费和资金。特别是现在这个时间点,任何一项科学研究都是需要海量资金去堆砌的。现在已经不能说科学家坐在家里头,闭门造车多少年,最后研究出一个神奇的东西出来,现在已经过了那个时间点了。

More

杨乐坤出走创业,Meta反成股东,这场“和平分手”背后是路线的彻底决裂:世界模型vs大语言模型,谁在赌对未来?Yann LeCun、Meta、AI、launch startup、world model

杨乐坤出走创业,Meta反成股东,这场“和平分手”背后是路线的彻底决裂:世界模型vs大语言模型,谁在赌对未来?Yann LeCun、Meta、AI、launch startup、world model已关闭评论

杨乐坤出走Meta:一场关于战略、用人和未来的博弈

大家好,欢迎收听老范讲故事的YouTube频道。

这一天还是来了。前面我们已经猜测了很久,说杨立昆到底什么时候会离开,因为所有人都眼睁睁地看着Meta的AI战略转换方向。亚历山大·汪进入Meta,一个28岁的辍学生,在管理65岁的大学教授和图灵奖得主,这个事一定不能长久。而且前面还对杨立昆手下的FAIR部门进行了600人的裁员。

靴子落地:杨乐坤宣布离职

现在靴子终于落地了。2025年11月19日,当地时间13:20,杨立昆发了一个长文宣布离职了。在这个文章里边,他回顾了一下在Meta待了12年,感谢了小扎和一堆高管,然后准备要去做他的AMI。他这个AMI呢,叫做“高级机器智能”,说:“我在Meta期间就一直在干这件事,现在呢我准备出去了以后接着干。”而且新公司呢,Meta依然还有参与,具体的情况后续再公布。他呢,也终于可以不受Meta的限制,去研究自己的世界模型了。

杨立昆也要去做世界模型,跟李飞飞有些相近。最后咱们再说一下,他的世界模型跟李飞飞的世界模型到底有什么差别。

Meta呢,应该在这个里边还是给了钱的。你请这样的一位大神出去,而且大神在发文的时候还感谢了扎克伯格,那一定还是要给钱的。所以杨立昆未来的公司里头,Meta应该还是一位重要的股东。但是到底给了多少钱,占了多少股份,可能还要等未来Meta的官宣,现在应该公司还在注册过程中吧。

More

千问APP对决豆包,阿里会重演“来往”悲剧吗?揭秘大厂创新“起大早赶晚集”的残酷真相,内部山头林立比外部竞争更致命|Alibaba Qwen 通义千问 AI Open Source

千问APP对决豆包,阿里会重演“来往”悲剧吗?揭秘大厂创新“起大早赶晚集”的残酷真相,内部山头林立比外部竞争更致命|Alibaba Qwen 通义千问 AI Open Source已关闭评论

千问APP:阿里的绝地反击,还是又一个“来往”?

千问APP大家都试过了吗?这是阿里的绝地反击,还是又来了一次“来往”一样的故事呢?大厂为什么总是在创新的时候,起个大早,赶个晚集呢?大家好,欢迎收听老范讲故事的YouTube频道

千问APP的短暂狂欢与第一印象

千问APP带来了一个短暂的狂欢。阿里这个模型这么强的公司,终于也要出一款APP,C端的APP要去对标ChatGPT了。阿里的股价短暂上涨,然后被一个很奇怪的小作文,据说是有人看了白宫里边泄密的文件,说阿里为中国军方提供服务,马上要接受制裁了,所以阿里股价又跌回去了。

这一次的短暂狂欢呢,来自于一个很拙劣的吹风方式,说阿里在搞一个秘密项目,据说呢是集团高层定的战略,大家都在一起封闭开发,具体在干什么不知道。但是呢,突然发现食堂里边吃大量的粤菜,食堂的师傅被要求做粤菜,这一定是由广东过来的团队在做项目。当时就在吹风说在做千问APP。那么为什么是广东团队在做?待会咱们后边再讲。

产品上线呢,也确实引发了关注。第一天服务器短暂崩了一次。现在新产品上线,如果连服务器都不崩一次的话,好像流程没有走完,所以千问上线的时候也短暂的崩了一下。用起来的感觉呢,一言难尽。我确实把它下载下来用了一下,这个东西说是对标ChatGPT,却是比豆包更“豆包”的一个产品。

More

妈妈说,看手机会瞎,刷短视频,会傻。佐证来了,AI大模型,刷多了垃圾信息,也会变弱智。而且事后无法恢复,伤害是不可修复的。

妈妈说,看手机会瞎,刷短视频,会傻。佐证来了,AI大模型,刷多了垃圾信息,也会变弱智。而且事后无法恢复,伤害是不可修复的。已关闭评论

大家好,欢迎收听老范讲故事的YouTube频道

德州华人学者的新发现:大模型也能得“脑腐”

德州的一群从小被妈妈们说“手机看多了会瞎”的华人发了一篇文章。德州农工大学、德州大学奥斯汀分校、普渡大学,这三个学校有8位作者联合发了一篇文章。从名字上看,有一个人是非拼音名字的,看着像个老外,其他所有人的名字,特别是一作和通讯作者的名字,都是拼音的名字,应该是华人。

那这个文章叫什么呢?叫《LLMS can get brain rot》,它的意思呢,叫做大语言模型也能得“脑腐”。就像是咱们新冠疫情以后经常说,脑子上好像总有一层雾,感觉注意力不集中,总是觉得想事情想不清楚,经常忘事情。现在说,大语言模型也可以干这件事。

首先呢,有一个简单的结论,就是给大语言模型喂垃圾数据,大语言模型就像得了脑腐一样变傻了。即使再用好的数据进行修复,中间喂过垃圾数据了,我后边一直喂好数据,可以改善,但是呢,永远无法达到原来的状态。也就是说,喂垃圾数据的这种伤害是永远不可能完全修复的。这是一个很悲观的结论。

More

OpenAI公开了GPT5降低幻觉的秘密,像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜,这才是真正的进步|GPT-5 AI Hallucination OpenAI Hallucinations

OpenAI公开了GPT5降低幻觉的秘密,像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜,这才是真正的进步|GPT-5 AI Hallucination OpenAI Hallucinations已关闭评论

GPT5降低幻觉的秘密被OpenAI给公开了。现在看来,训练AI真的是越来越像训练小孩子了。

大家好,欢迎收听老范讲故事的YouTube频道

九月五号真的是一个神奇的日子,非常多的模型都在九月五号被发布出来。OpenAI在这一天也发表了一篇论文,这个论文叫做《为什么语言模型会产生幻觉》。

大语言模型从进入我们的日常生活那一天开始,我们就发现了,这个东西最擅长干的事情是什么?叫“一本正经的胡说八道”。

现在OpenAI公布了,说产生幻觉有两个主要原因。

第一个原因叫做“错误的评估体系”。什么意思呢?就是我们现在去考试了,做对了1分,做错了0分,不做也是0分。其实我们所参加的绝大部分的考试,都是这样去设计的,甭管你是考英语、考数学,都是这样设计。像考数学这种,他还有步骤分,哪怕最后你的结果没有,或者结果是错误的,你只要前面的步骤写对了几步,他都是给你分的。

More

AI用多了人会变笨吗?深度解读AI对人类思维与独立思考的深远影响

AI用多了人会变笨吗?深度解读AI对人类思维与独立思考的深远影响已关闭评论

AI用多了人会变笨吗?

大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲MIT最新的一个研究:用AI会让人变笨。

文章的标题是“你的大脑与ChatGPT:使用人工智能助手完成论文写作任务时的认知负债积累”。说白了,就是你用ChatGPT用得越多,你的认知负债也就越多。这个文章是MIT的媒体实验室发出来的,MIT这个媒体实验室还是非常著名的一个实验室。这篇文章呢,是2025年6月10日在Arxiv上的预印本的论文。现在有一个新的发论文的地方叫Arxiv,很多没有经过编辑审核、没有杂志社确认的这些论文就都可以放在这了。数学、计算机等等这些学科的大量论文都是会先放在这里,大家可以先开始看起来,因为科技实在是发展得太快了。有一些呢,修改过以后会重新发到杂志社上去,放到这上面并不算抢发。杂志社发的时候还会提出修改意见,你改完了以后会去更新Arxiv上的论文。

这个实验做了什么呢?18-39岁的54个人分成三组:纯脑力组、使用谷歌搜索引擎组和使用ChatGPT组。这三组呢,在20分钟之内写一篇SAT水平的考试作文。SAT呢,一般要求是开放式的、哲学或社会性讨论的这种问题,比如艺术的力量、成就的意义等等这样的题目。所以相对来说比较文科,比较开放的一个题目。

More

跟AI女友聊骚,竟被判「传播淫秽物品罪」?真实案例揭秘AI法律红线!

跟AI女友聊骚,竟被判「传播淫秽物品罪」?真实案例揭秘AI法律红线!已关闭评论

新时代和AI女友聊骚,有可能会触犯传播淫秽物品罪,这到底是一个什么样奇葩的故事?

大家好,欢迎收听老范讲故事的YouTube频道

今天我一个朋友,向我推荐了一个有趣的案例。他是在视频号上,这个账号的名字呢,叫做“武汉刑事律师郭庆子”,是一个黄标认证的律师。这位律师呢,经常会把自己接听有刑事诉讼需求的听众的一些电话的过程录下来,再进行剪辑。因为这种东西,我估计不太好直播,总是要剪辑一下。一方面呢,是一些太敏感的信息就可以去掉;另外一方面呢,剪辑了以后呢,也会更有吸引力一些。

这个里头呢,有一位听众来电了,说使用AI应用,这个AI应用里头就提供一些AI女友,你可以跟她们去聊天。他通过自己捏脸,塑造了一些AI女友,大概塑造了9个,起的名字呢,都是比较有诱惑力的名字吧。这些AI女友,除了它定义的名字和捏脸之外呢,估计有可能会可以定义一些系统提示词。但是呢,这个视频很短,并没有去详细说具体是哪一个AI应用,或者说他到底在里边定制了哪些东西。总之呢,他定制了9个AI女友。

More

Older Entries