AI技术突破 – 老范讲故事｜AI、大模型与商业世界的故事

李飞飞S1K模型引爆AI界：仅50美金成本完胜DeepSeek R1与ChatGPT o1！

Luke Fan — Tue, 11 Feb 2025 12:02:45 +0000

大家好！欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲李飞飞的S1K模型。50美金成本超越DeepSeek R1和ChatGPT O1。

首先呢，DeepSeek到底是怎么震惊全球的？就是因为训练成本低。他的训练成本是OpenAI的3%，所以震惊了全球。

那么现在李飞飞的S1K模型，16张H100的显卡，跑了26分钟跑完了，拿到了一个32B的模型。多项测试超越了DeepSeek R1和GPTO1。

大家要注意，评测大模型呢，它有很多很多测试项。一般我们说基本上达到什么什么水平，就属于叫互有伯仲。有些你强点，有些他强点。原来大家都超不过GPT 4O，是因为只能接近它，距离它的全项指标都有差距。现在的话，大家就已经基本上可以达到GPT 4o的水平了。

现在R1跟O1算是最强的推理模型。李飞飞做的这个S1k，也算是部分超过了R1和O1，绝对超越了DeepSeek R1的32B。

DeepSeek R1呢，讲的时候一般有两个不同的说法。第一个呢叫蛮血版。什么是蛮血版？671B的那个是蛮血版。然后另外一个呢，是通过通义千问也好，LLama也好，这些模型蒸馏了以后重新微调出来的版本。所有你看到什么70B，什么32B，都是这种微调出来的版本。

李飞飞这个50美金他这个版本呢，要比他自己的32B版本还要好。大家是不是先想想，先站个队。这到底是原创呢，还是抄袭呢？对于粉红来说这是绝对原创，对于支黑来说这可能是抄袭。

因为李飞飞是个中国人，他是个北京人。后来呢是跑去四川上的学，他是成都七中出来的。SOGO的王小川，B站的陈瑞，都是他的中学校友。但是呢，另外一头呢，他是个美国的大学教授。普林斯顿大学物理学学士学位，出于对东西方哲学和科学奥秘的探索，他前往西藏研究过藏药。后来是在加州理工学院得到的电子工程博士学位，现在是斯坦福大学的教授，人工智能教母。这算是个创新吗？还是个抄袭呢？

我估计很多人可以炒半天这个事。咱们先不炒这个，在我这个频道里头，吵这个事没意义。咱们去讲讲这50美金到底咋花的。

首先呢，是蒸馏一个小样本模型。有一个什么基座呢？通义千问32B。拿这个模型去做微调，就跟刚才我们讲的那个DeepSeek R1 32B的那个基座是一样的，都是通义千问2.5 32B。但是呢，拿进去做微调的这个样本是不一样的。DeepSeek R1 32B 是使用DeepSeek R1满血版产生的数据去微调的千分2.5。而现在李飞飞呢，他使用的是谷歌的推理模型Gemini 2.0 Flash thinking产生的问题去进行的微调。而且还有一个呢，就是它的问题特别少。就是DeepSeek自己微调的时候，有多少个问题？80万个问题。而李飞飞的问题有多少个呢？1,000个。拿了1,000个问题，就把这个模型给微调出来了。所以1K就是1,000，1,000个问题的意思。S1K这个模型只有1,000个问题。每一个问题呢，都是通过Gemini 2.0 Flash thinking进行解答，并且获得思考的过程与结果。因为他总共就1,000个问题嘛，你把他塞进去16块显卡，26分钟就跑完了。成本也就是50美金。那么是不是我来我也行？我也找1,000个问题上去，50美金我也整一个出来。

最近互联网上有个新梗，什么呢？就是“中国行我也行”。这个是嘲笑那些不自量力，想要学习中国大力出奇迹，结果翻车了的外国友人的一个新梗。这个并不是那么容易。你要想说，我用1,000个问题把这事训练好，那你想去挑这1,000道题，一定是非常非常难的。它这个S1K里头，实际上有两个大的创新点。一个是1,000道问题的筛选，另外一个呢特别神奇的东西，叫做预算强制，budget forcing。咱们先去讲这1,000个问题怎么筛出来。首先呢，这一帮的学者们从16个不同的来源，收集到了5万多个问题。

在59,029个问题中筛选出1,000个问题，其筛选标准主要包括以下几点：

1. **质量要高**：所谓质量高，指的是问题的解答过程和最终结果的格式完整、逻辑清晰。如果某些问题的解答过程格式不完整或混乱，则不予考虑。
2. **难度要大**：难度大的问题通常具有更长的推理过程、更详细的步骤、更多的推理步数和更长的推理时间。
3. **全面**：最终从50个不同领域中选取了1,000个问题，确保覆盖广泛，避免领域单一。

这三个原则——质量高、难度高、全面性，是筛选的基础。在此基础上，还需要探讨艺术、技术与科学之间的差异：

– **艺术**：偶然所得，无法重现。
– **技术**：在技艺基础上不断迭代与创新，但无法跨领域应用。
– **科学**：理解底层原理，可以跨领域应用。

中国在技术上表现强劲，但在科学方面略有不足。S1K实际上是一种科学，因为其筛选和训练过程并非简单的试错，而是通过科学的方法验证和优化。例如，仅筛选出最优质的1,000个问题进行训练，效果并不理想；同样，仅筛选出最难的或最全面的1,000个问题，效果也不佳。最终，将全部59,000个问题一起训练，效果虽有提升，但并不显著。这一过程体现了科学的严谨性和系统性。

就是真正在找到底层逻辑了。找到了逻辑以后，我就可以在这个逻辑上进行优化了。下次再去选问题的时候，我就选这1,000个题。大家注意，你选的题越多，他肯定是效果越好。但是呢，选的问题很多了以后，他你这个效果提升变得非常非常的不显著了。等于你花了很多的钱，后边都没有什么用了，这个就没有必要了。我们就到第1,000道题就可以了。所以大家就可以按照这个逻辑，在不同的领域里去应用这个筛选1,000道题的方法了。这个是一个真正进入科学范畴的东西。

建议以后这些大模型团队呢，可以去学而思、新东方找一些老师回来筛选问题。这个过程其实很像什么？我这个学生要去参加竞赛了，我这个学生要去参加高考了，他的时间非常非常有限。怎么能够筛选出一套特定的题目来，让他去训练？训练完了以后，可以在有限的时间内得到最好的提分。这个过程是不是跟学而思的这帮老师们干的活非常非常像？以后再去选问题的时候，比如说我们今天要去选一些物理相关的、数学相关的，或者什么这样的题的时候，那你就找这些老师来，他就有效果。

下一个创新是什么呢？下一个创新叫预算强制。这个特别有意思，其实还是学而思老师的范畴。预算强制说白了是什么？就这个题如果太难了，就别浪费功夫了，直接终止，写一答案在这就行了。你也不是说终止就不写答案，因为咱们知道考试的时候，你万一写对了呢？该蒙你还是得蒙一个答案出来的。如果这个问题你觉得太简单了，没有用到相应的时间，你就把答案直接做出来了，那你是不是等一等，再回去想一想，稍微检查一下。但是呢，到底哪道题需要尽快结束，哪道题需要多想想呢？这才是关键点。

咱都知道说，这个题如果太难了，咱就把它扔掉。我儿子小时候学奥数的时候，他就讲过哪道题你先看一眼，如果发现没什么这个概念，就直接pass就别做了。这就不是给你预备的。如果你把时间耗在这上头了，下边题就没法做了。而且那个时候考奥数的时候，还告诉你说第几题是多少分。

多少分的题，你应该在上面耗多长时间？如果你发现你在一个3分的题上耗了多长时间以上，你就赶快放弃掉。咱们现在就需要去做这个测算了，它叫预算强制法嘛。这个budget到底怎么定的呢？推理的步数和推理的时间，以此来定这个budget。首先要对任务进行复杂度评估，先看一下这个任务大概应该推多少步，花多少时间。

然后呢，在当前推理过程中得到一些中间结果。因为我们做题的时候也是，有时候做的中间结果出来。这个时候呢，我们就要对中间结果进行一个评估。第一个评估是什么？叫置信度评估。什么叫置信度？给大家讲一个故事吧。比如说今天这个天气预报说了，降水概率99%，这就属于置信度很高，那就肯定下雨，别费劲了，就下雨吧。咱们就不用再去花时间在后边推理去了。待会来一个专家说，这个专家认为今天降水概率是51%，这个呢就叫置信度不够高。您再花点功夫，再好好想想，能不能把这事说说的确定一点。这叫置信度。

然后下一个是什么呢？叫收敛性评估。什么叫收敛性？如果你得到了几个结果，这些结果相对来说都是稳定的，而且越来越稳定，这个就结束了，就是他吧。就算是我给出的结果不是一个完全准确的结果，但是呢，应该误差也不大了。这叫收敛性。但如果说，我现在得到了三五个结果，但是这结果呢值上蹿下跳的，这都差异非常非常远。那你在这种情况下，你就回去再想一想，多花一点时间再思考一下，再重新给一个结果。然后对结果进行质量评估。

还有是什么呢？就是任务特性和标准。因为你不同的任务，对结果的质量要求是不一样的。咱比如说吧，都是打比赛。篮球比赛比赛结果100:70，看着有点像，差不太多可以交差了，就这样吧。足球比赛结果100:60，您回去再算算吧，这事好像不太对。那么在这个基础上，再进行一些动态的调整，再进行一些预设的结果。什么叫预设结果？就是当我发现某些结果达到的时候，就直接停止。比如说我推理了半天，开始骂人了，那停下来吧。

或者推理了半天，发现涉黄涉黑了，那这事停下来吧。他也会有一些这样的停止命令在里头。他呢，就是这样来工作。第一个，我们先看看这个题值多少分。你可以给他一个多大的预算？你应该是推500步，还是推50步，把它推出来？先有一个预算，然后呢，我们在推的过程中就不停地来检查结果。哎，这结果已经不错了，那就到这吧。这跟考试的过程很像。

再往后呢，就是要去看你的预算了。比如说，我的结果出来了，发现我预算呢，应该做500步的，现在做了50步就把这个结果做出来了。那你再回去想想，可能有问题。但如果有时候超预算了，我原来评估说这个结果推出来应该是50步就推到头了，但是呢，我已经推到第80步了，还没推出来呢，那就赶快停止，别浪费时间了。写一个你觉得最靠谱的答案上去，就完事了，接着做下一题。这个就叫做预算强制。

那么这种论文发出来以后的话，我估计未来所有的推理模型应该都会去使用这套东西。实际上，整个过程是不是真的很像我们儿子小时候做奥数题的过程？你先看看这个题，3分的题你应该用几分钟，5分的题你应该用几分钟。你做的过程中再去看看说，中间这个答案已经很像了，直接把它写上就完事了。这个答案看着怎么看怎么不像。咱们经常说，数学这个东西，正确答案都很美。我没感到那种美，回去再想想。

还有什么呢？我儿子小时候学的也是说这个，做题做着发现，你写出来公式越来越复杂，最后算不出来了。那这个你再回去算算可能哪错了。或者说明明挺大的一个题这么难，我怎么三步两步就把它做完了。回去再想想，大概就是这样的一个过程。

当这些东西有了以后，S1K这个模型就有了今天这样神奇的结果。所以50美金就是1,000道题。训练是50美金。咱们把刚才讲的质量最好的1,000道题，最难的1,000道题，最全面的1,000道题，59,000道题都训练，再加上什么数据准备，这些东西都算一块。这个50美金是打不住的。

但是，你就训练1,000道题，就是50美金，再加上后边这个预算强制，它就可以达到很好的效果。现在，科学的车轮滚滚向前了。S1K模型出来以后，虽然没有用到Deepseak，但是方向是明确的，筛选问题就好了。老师们又有价值了，甭管你原来是教数学的，教物理的，赶快出来说，我们再筛选一下。我们要像培养奥数种子选手那样，去微调训练这种推理模型了。而且在不同的领域里头，都可以快速的蒸馏出小模型来，并且呢，实现领域内的突破。

你比如说，我今儿不是说做数学题，我们今天想推一个这种法律的，或者想推一个财务的，那其实都是可以找到一些专门做这个法考的老师，或者专门做财务资格证考试的老师，来给我们筛题。筛完题以后进去去这个训练去，这都是可以搞定的嘛。而且呢，让所有的推理模型可以一起解答，他没必要说我一定用DeepSeek R1去解答，还是说我要去用Gemini去解答，用O1，O3去解答。我们可以把所有的推理模型都抛下来，你们挨个给我答一遍，答完了以后，我们去挑里头质量好的1,000道题或者几千道题，然后再去训练也就可以了。

现在呢，有一堆的推理模型，DeepSeek R1、GPT的O1、O3 Mini、Gemini 2.0 Flash thinking。这一次李飞飞用的就是Gemini 2.0 Flash thinking。国内还有一堆的推理模型，比如说QWQ32B，就是一个标准的推理模型。Minimax和Kimi也都有各自的推理模型。哪怕你付费的这些模型，那就付呗，反正付完了钱以后，我就得到这一堆结果，拿着这个结果，我再去训练自己的这个小模型就完了。像这种32B的模型，我是完完全全可以在我自己电脑上跑的，我就不需要再交任何钱了，这个效果就好极了。所以以后这些付费推理模型，都应该会被拿来做蒸馏。千问2.5 32B的这个模型的底子很好，下面就都是老师的事情了。就是有人去试过，比如说千问的72B的。

Llama的70B、14B、7B、1B等模型现在普遍认为，能够产生比较好的中间结果。目前，大家主要在调整32B的模型，并且已经形成了一定的共识。接下来，可以进行更精细的质量管控。因为当我们调整完模型后，就可以进行测试，比如有多少道标准题库，跑完以后有多少对多少错，就可以去测试它是否正确。如果不对怎么办？不对就再花50美金，看看是不是好一点。又不对，再花50美金，然后再整1,000个题，再试试是不是好一点。最后找到一个最优解不就完事了吗？这样，你就得到了一个在某个特定领域里特别好用的32B小模型，然后进行微调和评测。

未来，比如像硅基流动、Together这些开源微调模型就要起飞了。因为我们现在可以在硅基流动上直接点出一个32B的模型来，实际上就是你把1,000道题做好了以后，把这个文档上传给他，然后一键确认，他可能连50美金都不需要，就给你搞定了。做完了以后，你就有自己的模型可以去使用了。Together是在美国的，他们调一个模型，我记得32B的模型也差不多是几十美金就可以调一次，在国内应该会更便宜。

很多小公司原来都在喊“适合你的小模型才是最好的”，但原来这个话其实是错的。为什么呢？因为微调出来的小模型原来的效果是没有那么好的，它未必比这些大模型加上RAG效果更好。现在，李飞飞给出了科学的方法，那么行业推理蒸馏小模型的春天就来了。因为你一旦推理了小模型以后，你就有什么东西叫用户粘度，用户会继续购买你的服务，继续让你去服务下去，而不是说上来说“哎，我今天用你的，明天用他的，反正模型都不是你们家的”，这个就没有任何用户粘度。原来有这样的问题，现在就好很多了。现在的话，就直接跑到人家行业里边去做问题筛选就可以了。问题筛选完了以后，再不断的测试、调优、评估。

这个路径其实已经很清晰了。以后小公司的春天就来了，就是可以卖模型、卖服务、卖数据。原来都说我要去做一个AI公司，那你手里头没有个一两亿美金，你都不好意思说你是做AI公司的。因为你需要去租显卡、去租GPU，去做预训练模型的训练。现在不用了，现在只要筛选好问题，哪怕你多试几次，最后花个几百美金试了十次，也不是什么大不了的事情嘛。而且这些模型，就是你的用户最需要的这些东西。

我记得我原来在学软件的时候，那还是九几年，整个软件行业有一个梦想，什么呢？叫系统咨询构架工程师。什么意思呢？原来我们都说，这个软件是需要分开的，先去做需求分析，然后去做这个加工设计，然后编码，编码完了以后测试，测试完了以后部署，然后再实施它，是这样的一个过程。说以后这个软件系统就很厉害了，他就不需要这些东西了，我们只管坐到用户面前，一边问用户你需要什么呀，等于在做咨询嘛，同时就在手里点点点，确认确认确认，打钩打叉，把这事情做完了以后说，哎，你这个问题都讲清楚了，你的软件也做好了，你可以拿去使去了。从九几年就有这样的梦想，现在的话这离这个梦想就又近了一步。

现在呢，让大模型改变每一个行业，终于要开始了。原来折腾了一两年都没有什么动静。以前都说大模型可以把每一个APP都重做一遍，大模型可以把每一个行业都改变一遍。为什么喊的这么大声音？大家都在使劲裁员，都在降本增效，原因很简单，就是以前很多的公司上了大模型以后，没有效果或者效果很难评估。那么现在的话，这种可感知的效果已经到面前来了，很多的公司就要开始上大模型，去改变他整个的业务链了。因为他现在改变了以后，就可以在特定的领域里头竞争胜利，他就可以把其他竞争对手干掉，快速的往前跑了。

你想咱们做了两年大模型，每一年看到的都是什么？谷歌裁员、微软裁员，国内也是什么百度裁员、阿里裁员，全是这个。但是，李飞飞这个模型的建立，以及靠这个蒸馏推理模型去进行微调小模型的这个方式。

发布了以后，我觉得未来的2025年，就会有大量的公司出来说：“我们去给你们微调小模型吧，我去给你解决实际问题吧。”真的是可以解决问题的，就会实实在在的发生改变了。这就是咱们今天讲的第一个故事，就是李飞飞的这个50美金的模型到底是怎么做出来的，里头到底干了点什么。

xAI拿下60亿美金融资PK OpenAI，Elon Musk的AI帝国能否改变游戏规则？

Luke Fan — Fri, 27 Dec 2024 00:45:21 +0000

埃隆·马斯克的 xAI 拿了 60 亿美金的投资，估值达到 500 亿美金，准备去追赶 OpenAI 了。他还追得上吗？

大家好，欢迎收听老范讲故事的 YouTube 频道。咱们今天来讲一讲 xAI 拿了 60 亿美金投资，追赶 OpenAI 的故事。这一轮的投资里面，英伟达、AMD 都在，还有一些上一轮的投资者。

大家注意，不是说谁想投资他谁就可以的，只有上一轮的投资者，才有资格去投资 xAI。还有哪些人呢？就是协助埃隆·马斯克去收购 Twitter 的这些人，他们是有资格去投资 xAI 的。但是有限制，协助埃隆·马斯克收购 Twitter 的这些人呢，占股不超过 25%。其他的说我是上一轮投资人，他是可以无限制地在里面去进行投资的。你说我这两个都没沾边，那对不起，这个事跟你没关系。

拿到这笔钱之后，现在 xAI 已经是行业老二了。现在整个行业里边最大的大佬是 OpenAI，估值 1,570 亿美金，500 亿美金的 xAI 是第二名，400 亿美金的 Anthropic 是第三名。那你说还有谷歌，还有梅塔，还有字节跳动呢？这个不算，因为人家还有很多的其他业务，是一个巨大的巨头，你不能单独的跟这些纯粹的大模型公司去比估值，这事是不划算的。

这个团队现在也就是一百来人，非常非常精简的一个团队。现在呢，说他拿到大量的美金之后，要干嘛呢？去采购 H200，就是上英伟达那去买显卡去，然后准备组建世界上最大规模的 AI 算力集群。年底了，AIGC 正在进行狂欢。前面 OpenAI 连续开了 12 天的发布会，虽然发布的东西让人觉得稍微有点点小失望，但是也为整个行业指明了方向，这个非常非常重要。

待会儿我们来讲，谷歌呢已经跟上了，出了 Gemini 2.0 Flash 以及 Gemini 2.0 Flash thinking，就是思考模型。谷歌呢还推出了 VEO2 和 imagine 3，一个视频模型，一个图像模型。特别是谷歌的视频模型，现在看演示的话……

要比OpenAI的Sora强非常非常多。其他的国内快手推出的可灵，出了1.6版本的模型，效果也是相当不错的。通义千问最近出了两个模型，一个是2.5版本的QWQ，一个是QVQ。这两个模型呢，一个是做推理的，另外一个是做多模态识别的，就是给他一张画以后，他来告诉你画上都画的什么，效果非常非常的好。

这是现在年底了，所有的大模型公司都在狂奔，然后融资，特别是到第四季度以后，大家也都在狂奔。9月份，Anthropic融了40亿美金，估值是400亿美金，主要给钱的是亚马逊。亚马逊估计实在不行，就把它收下来得了。Anthropic年收入是10亿美金，已经开始有收入了，但是距离盈利还非常非常远。现在所有大模型公司距离盈利都很远。

下面10月份，OpenAI融了66亿美金，估值1,570亿美金，年收入40亿美金。到12月份，xAI融了60亿美金，估值500亿美金。然后国内呢，大家也在折腾，智谱AI融了30亿人民币，街月星辰在上海，这个公司融了数亿美金。一般讲数亿美金的话，就一定是多于1亿美金，你比如叫1.1亿美金，他也敢叫数亿美金。面壁智能融了数亿人民币。这就是现在年底了，大家都在拼命的融钱。

那么xAI到底做成什么样了？首先，Grok 1基本上没什么响度，就说我做出来了，然后号称开源，开源完了丢上去，实际上也没有人去用这个东西，因为这个模型实在太大了，一般人也部署不起。就算你把它部署上来以后，它的各种性能什么的，其实跟现在其他的一些像LLama这种开源模型是完全没法比的，所以Grok 1是没有任何想用的。

Grok 2呢，在x平台上其实我已经用了很久了。现在呢是免费开放，原来你必须是x的付费用户，他才让你用，现在的话不用付费也可以去使用了。Grok 2呢是我在x平台上的主流搜索引擎。如果我想搜点什么事，我不会到x平台上面这个搜索框去搜的，我都会点一下Grok，来告诉我这个是怎么回事。

那个是怎么回事？效果呢算差强人意。为什么呢？就是他生成的内容其实还可以，但是他的输入内容的质量会差一些。为什么呢？你比如说我现在使用谷歌的这种带有搜索的AI引擎，或者是使用豆包，就是字节跳动的，或者使用OpenAI的GPT Search这样的引擎的话，它等于先去搜索，搜索完了以后呢，再根据搜索结果来给你生成相应的这个答案。但是呢，Grok 2的话，它只能够在Twitter里边搜索。

那Twitter里边搜索的话，就会遇到几个问题。第一个呢，就是Twitter的文章都很短，所以呢，它不会有那种特别长篇大论的东西。虽然现在Twitter允许我们发长篇，但反正我每次发推的时候，都尽可能地把它精简到不要折叠的这么一个位置上。否则的话，我总觉得后面的内容对于流量的获取或者对于信息的传递是没有帮助的。所以Twitter上大量的这种短信，搜索完了以后再去发出来的话，效果就没有那么好。

还有一个呢，Twitter上的信息时效性太强，你想去搜索一些以前的事情，其实经常效果不好。这就是我使用Grok的一个感受。那Grok另外一个感受是什么呢？就是比较敢说。你甭管是用Gemini、用Claude还是用ChatGPT，相对来说都比较文雅，说话这个前怕狼后怕虎那么个样子。但Grok的话就相对来说要虎一些，反正我是比较喜欢这种说话的语气语调了，这个不一定每个人都会喜欢。

现在呢，Grok已经开放了API，这个我也申请了。目前为止呢，不能算免费吧，但是它是这样，申请了以后给你25美金，每个新账号有25美金。你把这25美金使完了之前，他不会再找你要钱了。效果呢跟GBT4O比起来，还是稍微有一点点小差异，跟这个Claude 3.5、Sonnet呀、Gemini 2.0、Flash比起来，这个是有差异的，但应该已经可以去用了。你说跟国内豆包、千问，跟这些模型比起来。

基本上是不会有特别大的这个差异，但是呢，它的API里头也有一些缺陷。第一个缺陷是没有语音，包括Grok 2的这个聊天工具，也是没有语音的，必须是打字。因为现在其他的，甭管是Gemini还是ChatGPT，包括我们使用豆包，都是可以进行语音沟通了，他这还没做。

还有呢，就是没有推理。因为现在OpenAI在疯狂地带着大家往推理这条路上走，他没有好好去干这个事情。然后图片生成模型应该叫Arura吧，这个词的意思叫曙光女神。效果呢，还可以，可以接受，但是艺术水平呢，应该是没有MidJourney好。

这个曙光女神的图像模型呢，最大的好处就是百无禁忌。他倒也不至于说跟大家生成很多这个血腥暴力色情，但是你说你给我按照谁的风格生成内容，或者给我生成马斯克的头像，给我生成川普的头像，给我生成任何这种名人头像，这个他是不管你的，七差咔嚓就给你画出来了。

我现在Arura用的还是蛮多的，最主要的用法是什么呢？我用MidJourney去画背景，用Arura去画人物，然后呢，再用一些像Canva之类的这种工具进行抠图和拼接，就可以得到非常非常棒的效果，这个大家可以用起来。现在应该对免费用户也开放了，就是你要到Twitter上，或者是到x平台上，你是可以去拿它画图的，效果很好。

然后视频模型没做，coder模型也就是编码模型和i Embedding模型也没做，就是这种嵌入模型它也没做，没有提供微调RAG，索引增强生成的这个RAG，它都没有提供相应的支持，就相对来说还比较简陋。

然后x自己的API你是没法去调用的，因为刚才我们讲的是xAI的API。你说我希望它能够达到x平台里边Grok的直接的效果行不行，这事是不行的，因为那个里头是有x的数据的。想要用x的数据配合到xAI上Grok的API，想达到同样的效果的话，那个是非常非常昂贵的。

iOS的应用呢，目前据说正在测试，其实我并不认为马斯克。

应该去做一个单独的应用出来，因为你只要做了应用出来，就需要获取流量，这个事还是比较麻烦的。Grok 3 目前正在训练，这就是 Grook 当前的一个状态。然后呢，xAI 还是有收入的，挣了 1 亿美金，但是呢，这 1 亿美金应该是特斯拉给的。现在特斯拉的股东们正在为这个事起诉马斯克。为什么呢？特斯拉的股东们认为马斯克损害了他们的利益。你组建了 xAI，这个事情本身跟特斯拉的 FSD 的部门就是有利益冲突的。然后你还把原来应该属于 FSD 的显卡拨到了这个 xAI。当然是后来他们辟谣了，说我们并没有干这个事情，只是呢，xAI 是优先得到了这些显卡。然后这个该属于特斯拉的显卡呢，后面还是拿到了，并没有让特斯拉花钱买显卡，然后给 xAI 用，这个事情至少从账面上的做平了吧。

时间上呢，应该有一个时间差。马斯克还把很多的原来特斯拉的员工迁移到了 xAI 里边去。你原来在特斯拉这边做人工智能的，现在你到 xAI 那边去做，特斯拉的股东就不乐意了。然后你还让特斯拉向 xAI 去采购了 1 亿美金的这个研发服务，这个就有点过分了。等于你拿了我的显卡，拿了我的人，自己投筹了一公司，跟我还没关系，还得找我要钱。这个呢，有点让我们想起了陆正耀当年在瑞幸咖啡上干的这个活。他这头做了神州租车这样的公司，那头做了瑞幸咖啡，然后让神州租车向瑞幸咖啡买了大量的咖啡券，给瑞幸咖啡去充这个销售额。最后上市了以后，直接被揪出来，说你这个算关联交易，算做假账，七差咔嚓就给做退市了。现在这个官司还在打，还没有结果。

咱们来讲下一个问题，xAI 现在去追赶 OpenAI 还来得及吗？还能不能追上，有没有机会呢？首先咱们来看模型训练这一块。在这一块上呢，OpenAI 已经指明了方向。那么剩下的人呢，梅塔、谷歌、Anthropic 也都把这个雷趟过了，都试了一遍，而且证明了说这条路是走得通的。那么下一件事该干嘛？大力出奇迹嘛，至少在追平 GPT-4O 之前。

马斯克和他的xAI应该是不会有任何问题，因为方向已经确认了，别人都试好了。这个东西其实有点像什么呢？有点像新中国去发两弹一星似的，美国人都试好了，这个东西没有任何问题。我们不用再去担心说条路能不能走得通这个事，我们只需要照着原来已经试通的这条路，冲过去就完了。

在这个过程中，只要是大干快上，招更多的人。那你说很多的技术壁垒怎么判呢？咱们当时处理的方式，就是把这个华人华裔科学家从美国忽悠回来，来加入我们的团队，来去干活吧。然后对于马斯克来说也很简单，挖人呗，挖OpenAI的人呗。这个事总共圈子就没多大，而且OpenAI原来很多人就是他挖进去的，那现在再把他挖出来几个，这个并没有那么困难。

那么下一件事是什么呢？下一件事叫客户获取。你把东西做出来，还得有人用。在这件事情上，xAI是有天然优势的，因为后边有一个x平台，它有一个天然的流量池。x平台的月活用户数有多少呢？6.11亿，就是超过6亿吧。这些用户都是Grok或者叫xAI平台的天然用户，在用户获取上没有什么大问题。

至于收入获取上呢，SpaceX、特斯拉以及x平台都会给他花钱。花钱这里头只有特斯拉是上市公司，有可能会被起诉；SpaceX是不上市的公司，x平台呢更是马斯克一人说了算的。你把一部分的利润挪到这个xAI上来，应该是不会有人说三道四的。

至于应用开发这件事，马斯克现在在做iOS平台上的xAI的应用，这件事应该不是马斯克擅长的。其实谷歌也不擅长这个事，因为Gemini的应用做得简直像屎一样。OpenAI跟Anthropic在努力，做的好坏大家自己去评价，我感觉反而将就能使，但效果也没有那么好，这个主要是因为挂梯子的原因。挂了梯子以后，使用他们的APP的效果就会有问题。

现在谁做得最好呢？实际上是豆包和CC，国外叫CC，国内叫豆包。它目前为止用户量紧跟着OpenAI的，就是现在所有的。

这个AI应用里边儿，用户量最高的肯定是OpenAI，然后第二名就是豆包和CC，第三名的话可能是剪映。再往后应该是一个AI教育的，也是字节跳动出的这个产品。这个就没法整了。

按流量算前十名的AI应用的话，字节跳动大概占两三款，或者三四款的一个样子，而这个是非常吓人的。所以，做应用、做APP这一块，字节跳动是最强的。

现在xAI真正差在哪呢？它差在场景拓展。你可以进行文字聊天，可以进行图像生成了，但其实也可以进行图像识别了，因为Grok有一个杠v的这个模型，我们可以通过API直接去调用，效果我试了一下还可以。就这些事呢，他已经都做好了，但是其他的，甭管是RAG嵌入，还是说做推理、做视频生成，做一些更复杂的这种应用的话，现在这一块还缺乏场景。这个xAI还要往前冲，但这一块呢，就是耗人数，并没有那么大的技术难度，因为真正难的还是把模型往上推，这块是要更难一些。

那咱们稍微比较一下字节跳动跟xAI吧。第一个方向都确定了，因为OpenAI跑最前面嘛，连续12天发布会，给大家指明了方向。那么字节和xAI咱一块追就完了，这个不用再去探索了，也不用再去验证了，大家都去玩这个，大力出奇迹就行了。

在这一点里头呢，xAI的人少，但是呢，要更精一些，有很多顶级科学家在里面。说花钱这件事，肯定马斯克是最有钱的，因为他是世界首富嘛，但是呢，他真正能够直接动用的现金应该没有那么多。就是他想去花钱的时候，也要去融资，也要去找一些朋友们募一些钱回来。

字节跳动呢，就是手里头就有大量的现金，买显卡他们都是很努力的在买。甭管是xAI还是字节跳动，把全世界买到显卡的这些公司里边，第一名一定是微软，第二名就是字节跳动，第三名是腾讯，第四名是Meta，再往后才能是xAI。就是马斯克在这一点上，还是要稍微往后退一退的。

然后，甭管是xAI还是字节跳动，都有一个很棒的特性，自带流量和数据。

就是你想字节跳动有多少流量和数据，x平台有多少流量和数据，这块都是他们的优势。其他的呢，各自的长处。xAI是非常擅长融资，马斯克的名头在这，顶尖科学家的资源是xAI的优势。而字节跳动的话，第一个也还是比较有钱的。字节跳动其实有一点是比xAI强的，是它的场景要比xAI丰富。

像xAI实际上只有一个x平台在前面，是它的用户和它的数据。但是字节跳动的话，有今日头条，国外其实也有这种头条类的产品在运营，还有抖音和TikTok，然后还有很多的商业相关的东西，还有这个飞书，在国外叫Lark，就是办公场景，它也是很完整的。而对于像xAI来说的话，后边这些场景它是不存在的。就算你能把功能做出来，我希望找到相应的用户，然后把这个场景拓展过去，这个还是有些难度的。在这点上，字节跳动是具有相对比较大的优势的。

而且字节跳动在整个的商业化上，也要比x要强很多。大家注意x平台，我们这里讲的是原来Twitter，Twitter只有广告，然后有一些订阅，其他的呢，现在还没有尝试出来。而字节跳动里头，电商、直播、什么游戏，所有的这些东西都在里头跑着，而且跑的都很高。所以在整个的商业场景上，字节跳动要更丰富一些。

然后字节跳动还有一个优势，什么就是APP的开发和运营的能力，天下无双，全世界没有人跟他比好。这就是跟大家稍微比较一下，这两家在AI领域里头正在奋起直追的公司的一个情况。

好，最后总结一下，现在呢，肯定是更多的人参与追赶，这是一个好事。如果现在说都没人追了，剩下OpenAI一骑绝尘，所有人都看不到他跑哪去了，这个事就很麻烦。因为一旦出现这种情况，跑在最前面那公司会干嘛？会躺平，会挤牙膏。Intel前面给咱们演示过了，苹果也得给咱们演示。这件事情就是一旦遥遥领先了以后，他就躺平挤牙膏了。现在遥遥领先了以后，依然在疯狂的奔跑的只有一个公司，叫英伟达。他现在已经完完全全的把其他人都甩掉了。

但是还是在拼命地，不停地出这个新的显卡。像他这么拼命的人，全世界大概也只有他了。希望马斯克可以为AIGC领域贡献一些不一样的东西出来吧。

而马斯克真正贡献出来的AI工具，我对于他的这个能力本身其实并没有那么大的预期。你说马斯克一下推出了Grok 3，比这个GPT-4O或者比这个Gemini强多少，这个事儿我是不没有任何的预期的。但是，有一个什么事儿可以预期呢？就是在审核和对齐这方面。

因为Grok是以“什么都敢说嘴，还特别猛”而出名的，他们的曙光女神的图像生成器是以“百无禁忌”出名的。所以，这是对于AI内容审核、内容合规、内容对齐的一个不同方向的测试。因此，一定要让XI继续跑下去。否则的话，我们就会看到一堆温文尔雅的先生，在那里越来越说得不像人话。

有X AI在里边综合一下的话，也许整个AI平台说的更多东西还是会更像人话一点点。好，这一期就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群；也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI用12天发布会，为业界指明方向。丨从O1到O3，这些革命性进展将如何定义AI未来？

Luke Fan — Wed, 25 Dec 2024 00:51:55 +0000

OpenAI连续12天的发布会到底为世界指明了什么样的方向？大家好，欢迎收听老范讲故事的YouTube频道。

OpenAI的12天发布会已经结束了。首先，从我个人的感受上来说，稍微有一点点失望。没有带来新一代的Dalle，也就是绘图模型；也没有GPT-5，哪怕是GPT-4.5的升级都没有。Sora虽然发布了，但是他所发布出来的产品跟大家的预期是严重不符的。

那么，这12天到底都发了些什么呢？前面7天其实已经录了一期节目进行总结了，咱们这里就不再重复。后边5天，第八天是搜索和实时语音进行了合并。我在前面7天总结最后的时候，讲了一下我说，现在OpenAI发布了大量的工具，是隔离的。语音是语音，搜索是搜索，canvas这种画板，还有其他的很多工具，是相互隔离的。就是你要选择其中一个功能，其他的功能就不能选了。未来的话，一定会逐渐把他们再合并起来。

第八天就给大家演示了通过带有搜索功能的实时语音，解决很多现实的问题。原来实时语音你跟他聊了半天，他是就给你瞎编的，就是截止到某一个时间点的知识，然后以此为基础来跟你去闲聊。现在的话，你就真的可以问他：“今天天气怎么样？哪个地方餐馆是不是定满座位了？”他可以用一些真实的信息来给你回答，这个就会变得非常有趣。甚至，他们还演示了一下去结合地图跟大家做一些回复，说哪个地方有什么什么东西。他可以把这个地图调出来，你附近有哪些好的餐厅，有哪些好玩的地方。

到第九天，叫开发者日。这么多功能出来了以后，他给大家了一些API，也就是像我们这些程序员可以通过API把这些功能集成到我们自己的程序里边去。所以，先给大家看了O1的API进行升级。大家注意，O1原来我们是可以通过API去调用的，只是它很多东西都没有，包括函数调用、结构化输出、视觉输入，这些东西实际上都没有。这些是在4O上都有的东西，但O1上没有。稍微跟大家讲一下什么叫函数调用。

就是我们在调用大模型的时候，按道理说应该是我们给他一个提示词，他就吭哧吭哧就干去了。但为了能够让他有一些更多的功能呢，OpenAI也好，或者很多其他的这种大模型也好，都有这种函数调用功能。就是你跟他描述一下，说这个函数是查天气的，以后遇到查天气，请调用这个函数，直接把这个天气查出来。等于你把一个实际天气预报的网站就可以封装成一个函数，告诉这个大模型，然后它就可以去做这样的工作，等于它就具备了查天气的功能。

这个就叫做函数调用。而所谓结构化输出是什么呢？就是我们正常看到大模型输出的，都是乌七八糟的一大堆话。你想在里边找到真正有用的东西，然后再到下一个模型里去调用的话，有几种方式。第一种呢，就是你再给他一个大模型，说来把这个里头有用的信息总结总结，然后到下一个地方再去使用。但是这种方式呢，会有一个问题，过了大模型这个过程了以后的话，每一次的结果是不可预期的。有的时候找得着，有的时候未必找得着，这个会挺麻烦的。

另外一种方式，就是我们常用的方式，是把它写程序，直接在这个输出的内容里边进行正则表达式的过滤。就是说我过滤一下，这个里头有没有谁的名字呀，有什么性别呀，还有什么这些东西，然后把这些数据拎出来，然后到下一个环节继续使用。以前我们是这么使，但后来OpenAI就发明了一个方式，说哎，我干脆结构化输出吧。我再输出出来的东西，就不是一个完整的文字了，而是把它拆成程序员比较习惯使用的JSON格式。他上来就告诉你，这个人的姓名是什么，性别是什么，然后有3个人形成数组，每一个的属性都按这个方式写好。那这样的话，我们在后边拿程序去接收这个数据的时候，就直接可以拿这个已经结构化好的数据去把相应的信息拎出来，往下一个环节去走。这块还是很棒的。

至于视觉输入的话，他其实干的事情很简单，现在的O1的API可以直接往里塞图片了。原来都是你需要用文字去描述，它是不支持图片的，现在支持了。

这就是O1的API增强的东西。然后呢，给大家演示了一个叫WebRTC。加上WebRTC以后呢，等于我们自己的程序里头就可以有这个实时语音功能了。原来我们没有办法做这个实时语音，是因为呢，我们需要通过像API的方式来去调用它。必须是我先得到了一段声音，然后把声音塞到这个后台的服务器上去，先给我识别说说文字，然后呢，它产生结果，再去给我念。原来是这样。现在的话，就是它可以做WebRTC了。

RTC什么意思呢？叫Real Time Communication，叫实时通讯。所谓实时通讯就是说，你给了它这个音频流或者是视频流，给了它以后呢，它等于实时的去处理了。像我们使用的OpenAI的高级语音功能，就是它是说着说着你可以打断它，它会听到你的声音，然后接着跟你聊。这个东西就是WebRTC实现的。

咱们日常生活中各种的会议软件，还有很多直播软件，实际上它背后用的技术都是WebRTC。那么现在都是我们给大家提供WebRTC的这种API，你也可以让你的应用或者网页呢，拥有这种可以被实时打断的高级语音功能。这个也是一个非常棒的技术，至少对于程序员来说，稍微有点激动人心哦。

还有一个让程序员比较开心的事情，就是API降价。你调用了API，它是按TOKEN来收费的嘛，要每过一段时间都会降价，降一点点。那么又降价了，这个是让程序员开心的事情。

这是第九天开发者日。到第十天呢，发布了一个特别有趣的功能，就是直接电话通话功能。他给ChatGPT申请了一个电话号码，大概是1-800-ChatGPT。大家可以直接给他打电话，而且呢，应该是每一个电话，每个月应该有十几分钟的免费时长，可以去跟他进行通讯。他发布了这么一个有趣的东西，就是你不需要安装APP，上网页登录账号都没有，随时抄起一部电话来，就可以去跟他聊天了。

除了这种方式之外呢，还可以做WhatsApp。你把刚才那个1800……

后边ChatGPT的这个电话号码呢，写在联系人里，以后就可以使用WhatsApp跟他进行通讯了。跟他聊天也是允许的，这样的话，他等于极大地去扩容他的用户层面。很多的老人小孩，原来从来没有接触过电脑，没有接触过网络，没有接触过手机的人，就开始可以成为他的用户了。这个也是很有趣的一个发布吧。

我尝试了一下，我没法使，因为我的WhatsApp是用大陆手机号注册的。我使用大陆的手机号去给他打这个电话的话，肯定他也不会有任何回应，所以呢，就不用费劲了。

这是第十天。到第十一天呢，做了一个Mac桌面版的升级，可以呢看到Notion以及其他笔记软件里边的信息，然后还做了一些高级语音功能的整合，也就是刚才我们讲的ChatGPT的Mac版。你连到本机的Notion以后，或者连到本机的各种应用上，今后你现在可以跟他说话，通过说话的方式来控制这些应用了。

这是第11天。到第12天说终于到最后一天了。我记得到第11天的时候，就去讲说明天特别激动人心。在前边应该是发布apple intelligence那天呢，也在说说这个，以后有一天我们会发布这个AGI的，激动人心的AGI。所以呢，就是留足了悬念，大家就都等第十二天了。终于到第十二天了，坐在这看发什么了。

他发了一个叫O3的模型，这个就实在是太厉害了，都不好意思叫O2，因为前面一个模型叫O1嘛。说O2我们跳过了，我们直接叫O3了。整了这么个东西，是一个非常强大的推理模型，然后也发布了O3 mini，还有一个叫谨慎对齐的技术。

现在呢，这些O3模型呢都是期货，O3 mini是到明年1月底可以跟大家见面，而O3的话还要再往后推一些，据说是在O3 mini发布以后的一个时间跟大家见面。目前呢是开放了安全员申请，就是你可以申请成为安全员，进去呢帮他评测一下他们的安全机制是不是有效。因为这么厉害的模型出来以后的话，一旦是被坏人利用了，那等于坏人也如虎添翼吗。

这个是他们不希望看到的。具体第12天的东西呢，咱们后边详细讲一下，这个还是有点意思的。然后到第十三天，对，连续发布12天嘛。第13天还有事。到第13天呢，山姆奥特曼发了条推特，说从今天开始，Sora一直到年底，免费给大家使用，就是不限额随便使。我估计呢，它Sora发布出来以后，发现完全没有什么热度，没有什么人愿意在上面折腾。因为呢，很多人试了以后发现效果并不好，特别是很多物理bug，比如说多个手指头，或者什么腿往外弯了，两条腿变三条腿了呀，什么这种事情稍微有一点点多。而且呢，他限制非常严，像我到现在在他的Sora上，不可以画有人的视频。所以呢，我就试了一次，以后就再也没登录过。虽然我作为plus用户，每月还是有一些绘画的，或者绘制视频的这个额度的，但是没兴趣。

现在他又出来找补来了，说我们第13天还有东西，就是大家可以继续去使用Sora，作为圣诞庆祝，因为他觉得后边该过圣诞节了，大家都应该去画一些视频出来，然后去四处发发社交媒体，给人祝福祝福，这是一个很好的时间点。但是从现在来看呢，我并没有看到什么响动。怎么叫看到响动？别人画没画我怎么知道呢？也很简单，就是你到Twitter里边去，到YouTube里头去，如果你发现有大量由Sora渲染生成的这种视频在传播，在大家互相的转发点赞，那说明呢，这个策略是成功的。但是他发了这个推特以后呢，我并没有发现有任何变化，所以我觉得这个事情，应该他的目标没有达成。

好，下面呢，咱们稍微详细的讲一下第12天的O3发布吧。O3模型呢，就是这种博士生模型，前面我们还专门录了一期视频，再去讲如果花2,000美元一个月，让你去雇佣一个达到博士级别的AI助手，你到底愿不愿意？那么现在看来，人家也不是无地放矢，实际上都是在为O3去打基础。O3模型呢，在编程比赛里头获得了2,700多分，当场做主持的那哥们大概是做了2,500分，然后旁边的山姆奥特曼就问他说：“你多少分？”

他说2,500，当时那个脸就不是那么好看。但是他马上纠正说：“哎，我知道公司里头是有人得到3,000分的。”对于他们来说，我估计达到2,500就已经很强了。因为那个比赛我自己没有跑过，但是我估计以我的能力，应该是差得比较远。因为现在脑子已经比较木了，不是原来每天坐那写程序的那种脑子了。

然后呢，他说：“哎，公司里有人是3,000分的。”然后山姆·奥特曼的反应特别逗，他说：“这个3,000分，这哥们也蹦跶不了几天了。”为什么呢？因为以AI的进化速度，他想去追上人类的这一点点分数差异是非常容易的。特别是在这种规则比较明确的挑战赛上，人类是不太可能很长时间保持优势的。

第二个是参加数学竞赛，也得到了一个非常高的分数，就做错了一个题。山姆·奥特曼就想起来问说：“兄弟，你那个数学竞赛考了多少分？”那哥们赶快松了一口气，在老板面前保住面子了。他说：“我是满分，我一个题也没错。”后来又赶快找补，他说：“我是做出过满分答案的。”

对于这个O3来说，对于这种大模型来说，你让他反复去做，他最后肯定也是能够做出满分答案的。甚至原来还有那种猴子理论，就是你让一堆猴子在这随机的点点点，或者随机的打字的话，都有可能能够形成有意义的长文本。所以你让O3反复叙事，他肯定也能够达到满分，这个不用担心。我估计这哥们也是压力挺大的，老板坐在旁边，随便出点什么数：“你多少分？”这个还是稍微有一点点吓人。

而且他说他满分了以后，估计他也想明白了：“说不对，这个不是老板在面试我，不是在考教我，我们是在发布新产品，还是要说产品牛。”然后赶快又找补回来了这个东西，这个也是很厉害的。但这一点上呢，一定是O3体现出了极强的编程能力和数学能力。

然后参加了一个叫ARC AGI的测试，这呢是一个全球可以开放的测试，所有做AI的人都可以去拿自己的模型上面去跑去。GPT-3在里面大概是0分，GPT-4是5分，4O可能比这个4稍微好那么一点点，O3的话是达到了87.5分。

这是一个非常非常高的分数了。人类的平均水平是84分，所以它已经超过人类了。我们正式向AGI进发了。这个比赛呢，超过85分的就可以获得60万美金的奖励，还是一个非常棒的比赛。但是呢，它也展示了另外一个事情，就是O3模型的运行是需要超高的运行成本的。

为了应对这个超高运行成本，他们还设计了一个很有趣的东西，就是在你每一次向O3问问题的时候，可以设置说，我到底是用这个高成本运算、中成本运算，还是用低成本运算，而不是像原来使用GPT式的，就是你只管问，它自己来根据你的问题决定使用多少算力、多少成本来算出结果来。

他们参加这个ARC AGI的测试的时候，如果使用低成本运算的话，只能得到75.7分。虽然没有达到人类的平均水平，但已经很高了。然而，这样的75.7分的结果是用20美金算出来的，不是20美金一个月，而是20美金一次哦。这是非常非常恐怖的。

他们刚才说的这个87.5的分数，超过人类平均智力水平，这个分数是用高成本算出来的。他算一次需要花几千美金，这是非常吓人的。所以前面录节目讲的这个2000美金一个月的，我觉得2000美金未必够他烧的。就是你按照运转一次就需要花几千美金的这种高成本运算来算的话，那这个收费的方式可能还需要重新思考一下。

除了发布这个O3之外，还有O3mini。O3mini呢，是高中低三档算力开关，也是如此。效能呢做了很大的提升，低成本推理这一档呢，速度很快，基本上跟GPT4O的速度是一样的。现在我们使用O1 mini、O1这样的模型的话，它的速度是非常慢的，你需要等半天才能有结果出来。但是呢，使用O3mini基本上是可以达到4O水平的。

然后使用中档推理的时候，可以达到O1的这个效果，但肯定它比O1要便宜嘛，因为它是叫迷你的一个版本嘛。但是呢，它的运算的结果跟O1是一样的，但是高档就没事没得比了嘛。

而且呢，O3 mini呢，提供了丰富的API，就是结构化输出函数调用，这些都给了大家可以去写程序去使用了。但是O3的API到底长什么样，这个就不好说了。除了O3和O3 mini之外呢，还发布了一个东西叫谨慎对齐。你发了这么神奇的东西，万一有坏人用怎么办呢？所以这个事情一定要去讲一下。

他们整了这样的一个谨慎对齐，实际上是什么？这是原来我们要去对齐的时候，或者说我们要去甄别用户提进来的提示词，是不是恶意或者隐藏恶意的时候呢，他们以前都是通过这种静态的关键词去进行过滤的。现在说不用了，我们训练了一个模型，然后这个模型呢，自己可以推理出一个标准来，灵活地去甄别每一次的提示词。但是这个呢，现在请大家报名去做测试，看看到底能不能突破它。因为我对于他们的这种数学和推理能力，其实是缺乏理解的。就是以我的这个理解状态来说，我觉得这个谨慎对齐的这些安全方式的话，应该突破不难。这个等他慢慢后面进化去吧。

通过第三天的发布呢，我们看到了一个非常有趣的现象，也就是OpenAI的用人原则。他们其实就是通过各种的智力测验、各种的编程比赛、数学比赛，挑了一堆的这种天才儿童坐在这。但是我们去讲“天才儿童”这个词的时候，听到的朋友们，你觉得这是一个完全正面褒义的词吗？好像不是吧。

现在这一群的天才儿童坐在一起，给我们带来的产品就是O3、O3 mini，一些普通人已经完全无法去理解和使用的一个强推理模型。没有给我们所期盼的普通人能够用的GPT-4.5或者GPT-5，而是给了我们一个O3。我们对天才儿童的这种认知，一般是什么样的？咱们从字面意思上去理解的话，大概是这样。这帮人在某一些特定的环境下，已经跑得非常远了，一骑绝尘跑出去了，让其他人完全无法望其项背了。但是呢，对于正常的生活，柴米油盐酱醋茶来说，基本上是弱智。反正至少我的对于天才儿童的理解是这样的。所以呢，现在GPT的O3以及他的谨慎对齐的话。

我基本上是按照天才儿童的方式来理解他们的，这个事没有什么依据，这就是完全的感受。好，这就是第十二天发布的产品了。往后呢，我们来讲一下OpenAI的方向判断，通过12天的发布，他们到底想干什么，这个我们要去看一下。

第一个，OpenAI现在一定是希望拉更多的用户进来，甭管是Apple Intelligence，还是直接可以给他打电话，直接可以用WhatsApp跟他联系。他还是希望拉更多的用户进来，而且呢，可以覆盖更大的应用范围，比如CANVAS Project或者其他一些新的功能。它希望可以覆盖很多原来，比如说Office或者是其他的一些软件所覆盖的这些功能。

包括第11天所演示的ChatGPT麦克端的APP，可以直接跟大家的Notion、Notebook也可以跟这些产品一起工作的这个能力。他希望把AI带到所有的边边角角、方方面面里边去。我觉得这个Notion AI可以哭晕在厕所里边了。

另外一块呢就是降价。OpenAI的降价其实一直都没有停下来，每过一段时间就会降价。但是对于普通用户来说，你一个月20美金也好，或者是200美金，或者其他这种版本也好，这个它不会降。但是什么东西在降价呢？就是API在降价。每过一段时间API就会降价，降价的原因呢，就是现在其实我们在程序员使用API调用的各种大模型里面，OpenAI的ChatGPT还算是最好用的之一。现在只能算之一了，因为呢，它跟这个Anthropic Claude 3.5 Sonnet比起来，算是不分伯仲吧。在这样的一个情况下，他只要是不断的降低API TOKEN的成本，那么我们这些人就会继续去使用他的API，那么他就可以很有效地去挤压他的竞争对手。这件事情一直在前进，然后瞄准高端狂奔，这就是这一次12天发布会里的实际最主要的东西。像第一天欧一完整版。

第二天，什么是强化学习？然后到最后，上了一个O3。中间其实还有很多，是专门进行这种研究型应用的模型，已经完全脱离了普通人使用的这种模型。这个方向其实在O1的时候就已经指明了，我们要向这个方向前进，不再去做5了，或者再做什么这些东西了，我们就要去做强推理。

在这样的方向指明了以后，现在谷歌、国内的像Moonshot、Deepseek、阿里这些都已经纷纷跟进，分别推出了自己的数学模型。谷歌推出的叫Gemini 2.0，Flash Thinking，Kimi的话应该也是推出了一个叫m系列的模型。Deepseek应该也有一个类似的模型，国内还有一些这种数学模型。阿里推出的叫QWQ，也就是通义千问QWQ模型。有一些我已经用过了，效果其实还可以。

OpenAI已经成功地把整个行业的方向向着研究方向带过去了。再往下一步，OpenAI要做的事情，继续是各种工具之间的联通和统合，这里还有很多工作需要做。你比如说，现在你想用CANVAS的时候，还是不能用搜索。虽然可以在实时语音里头用搜索，但在CANVAS里用不了。CANVAS跟其他各种功能结合起来，或者绘图什么结合起来，这个还需要逐渐把它自己这些功能打通，这需要下功夫。

然后，面向普通人的大模型进化，OpenAI还在探索。现在有传闻说，GPT-5训练了几次，效果不好，依然在训练。就是成本非常非常高，周期很长，训练一次几个月的时间，花5亿美金才能训练一次，但是训练了两次都没有出来结果。不过目前这些都是传闻，我自己也没有详细考证过，还是慢慢等进一步详细的消息出来吧。

那么未来AICC行业的方向是什么？这刚才我们讲了OpenAI的方向。大家要注意，12天连续发布会，实际上对整个行业来说，有一个重大的利好。这个利好是什么呢？就是两大困扰创业者的问题。

有一个暂时没有爆发。两个问题是什么？第一个是底层架构不稳定，第二个呢，是上层应用被覆盖。这个什么意思？咱们先想后边这个。就是你吭哧瘪肚坐半天，等OpenAI再去开发布会的时候，你发现你的功能被覆盖掉了，你的事情白干了。就是每一次OpenAI一开发布会，就说又有一大片的创业公司倒下了，就是功能被它覆盖了。这个问题依然没有解决。

这一次这个OpenAI 12天发布会里头，依然是覆盖了一些东西，比如说ChatGPT的Mac客户端可以直接跟Notion结合了。那么Notion AI的一部分功能实际上是被它覆盖掉了。甚至呢，Mac端的ChatGPT的应用可以直接跟各种的IDE开发工具去结合去写程序了。为了应对这件事，微软说来GitHub Copilot免费了。所以现在你想写程序的话，可以直接使最好的那个，不用去跟其他的那些免费模型较劲了。这也是这个倒逼微软降价吧。所以这块依然没有解决。

但是另外一个问题呢，基本解决了。什么呢？就是底层架构的不稳定。原来你要去做一个创业，说：“哎，我在GPT2的基础上做了一个东西。”等你这个东西吭哧瘪肚开发了一年，写出来了，人家说我GPT3出来了。那说咱们升级，GPT3上我吭哧瘪肚写了半年，又把它写出来了。我3.5了，那咱再升级，又吭哧瘪肚写了一年，说我这个现在是完全适应GPT3.5的了。我们要去开发布会了，正要出门了，我们这个GPT4出来了，然后4O出来了。这个就叫底层架构不稳定。

现在一看说，哎，5依然遥遥无期，5的各种特性都不知道。因为我告诉你，不需要把5做出来。如果OpenAI能够做出来，说我5是按哪个方向做的，朝哪个方向发展的，这个事他如果敢出来说的话，那么整个行业就会奔着那个方向开始跑。就跟他2024年年初说我要做Sora，我放了一堆演示出来的过程是一样的。实际上他已经把整个行业带着跑了一年了。所以现在5到底是什么样，不知道。那么这件事就算稳定了。

底层基本上稳定了。现在呢，甭管是LLama、通义千问、Gemini、Claude、OpenAI，还有其他的各种模型，都基本上停留在GPT-4的这样一个水平上，上上下下吧。然后呢，他们的调用方式，整个的反馈的这个结构基本上是跟OpenAI一致的。就OpenAI制定了一个标准，规定好了这个东西是怎么调用的，提示词大概怎么写，调用的时候是分几个命令进去，出来了以后可以有哪些功能。像刚才我们讲的什么函数调用、这个结构化输出，这些东西其他人都是照这个标准做的。

所以呢，现在再去做什么应用，或者做AI Agent，大量的这种工作流都串起来，干这个事情的话，那中间的这些大模型就有极强的可替代性。我用OpenAI可以用，我用Gemini可以用，我用Claude可以用，我可以随便换。这个的话，其实是对于开发者来说，或者对于创业者来说，是一个巨大的好消息。就是底层暂时稳定了，大家赶快冲上去，把一些具体的应用做掉，这是很好的机会。

OpenAI自己呢，还会继续去将各种分散的功能逐步整合起来。所以在这个时候，千万不要尝试去做拼接工具。什么意思呢？你比如说，哎，我现在是不是做一个带有搜索的CANVAS功能？这个你就别费劲了。你要相信我，OpenAI自己一定可以搞定这个事。而且他一旦搞定了以后，你做的那个产品一定会被覆盖掉，这个事不要去干，直接面向混合后的OpenAI功能就可以了。

你比如说，我们认为带有搜索和这个项目功能的OpenAI的这种API未来会出来，那么我们就直接以此为目标进行开发就行了。等它一出来的时候，我们其他东西就开发完了，这也许是一个方向和玩法。那么用户交互方面呢，肯定还是会有很多可以值得探索的东西。这一次OpenAI给了我们两个提示，第一个提示就是如何让AI更好地跟现有的系统相结合，到底是通过Mac上面的ChatGPT APP。

直接去跟各种APP进行结合，还是说我到这个网页里边，直接给你上canvas或上画板，这块呢是大家值得去探索的，也是呢这个OpenAI给大家做的一些演示或指明的方向吧。这块是值得去试试的。

另外一块的话，就是如何将复杂的需求准确地表达给AI，这个是OpenAI这一次开发布会的时候给大家演示了。那说哪一个是做的这块的演示呢？Sora的故事版。我怎么能够把一个有持续的信息分成持续提进去？这个其实是OpenAI给大家做了一个创新，虽然这个创新很小，但呢非常有意义。

以后我们不用再去想说，我如何可以在一个提示词里一次性把一个完整视频所需要的信息都扔进去。你可以在故事版上，在时间线上，这个地方要干什么，那个地方要扭个头，这个地方要变个颜色，这个时间点要起始，要画什么东西，然后到几分几秒的某一个时间点，这个主人公向哪个方向走，或者做什么动作，或者到几分几秒这个颜色发生什么变化，或者亮起什么样的灯光。他可以通过这样的方式呢，进行更精确的有持续性的信息输入。

而且这些的话，应该会很快被像什么吉梦、可灵、Runway这些模型应用起来，这个我觉得可能一两个月就会看到变化了。现在呢是研究和推理领域，肯定会越来越小众。面向普通用户的方向的话，各种的APP，各种的这个用户交互方式，这块呢现在大家就可以去干了，2025年应该是这一块可以出成绩的时候。

另外呢，就是具身智能必然会爆发。其实我们这一次看OpenAI 12天的连续发布会里头，真正让我感觉很震撼的东西是什么？就是带有视觉的高级语音。你可以开着摄像头对着自己跟他聊天了。这种东西你扔给了具身智能的机器人，再要求OpenAI直接输出代码，说来你给我输出代码，然后我用这个代码去控制机械手。技术变化了以后再给你进行一些反馈。

现在的OpenAI大模型，其实已经距离控制机器人非常非常接近了。所以呢，这些机器人公司应该发力了。

新的具身智能未必长得像人，只需要做好插件、传感器、动作执行以及反馈这一块就行了。下边就是怎么提高技能、提高准确度、降低成本。这就是2025年可能提给所有具身智能行业的一个要求了。后边大模型的部分不用管了，扔给OpenAI就完事了。

带有视觉的实时语音，会改变每一个人的生活方式。这个智能的硬件产品包括一些新软件产品或者网页，在2025年的话，应该会有非常多的涌现。

最终总结，2025年依然是AIGC的一年。虽然前面OpenAI连续12天的发布会让我感到稍微有些失望，但是他还是尽到了责任。不是说发布了什么让我特别感到眼前一亮的革命性产品或者什么iPhone时刻，没有。但是呢，他依然作为老大，执行使了他的义务，就是为整个行业指明了方向。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Meta Llama3.1——405b大模型震撼发布——性能全面超越GPT-4o，中国AI厂商是否迎来春天？新的时代到来了，历史的车轮滚滚向前。

Luke Fan — Thu, 25 Jul 2024 01:00:20 +0000

Llama3.1 405b突然开放，指标上全面超越GPT-4。中国厂商们是不是又可以充了呢？大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲Llama3.1 405b 开放的事情。

Llama的开放，每一次都比较有戏剧性，都会有偷跑。什么叫偷跑？就不是由官方开了发布会，说我今天发布了一个什么产品，而是一般都是在Reddit这样的论坛里，突然就有人放出磁力链来，大家可以去BT下载Llama3.1 405B，包括Llama3.1 405B相关的各种测试数据，都是这么被发现的。头一天偷跑了以后，第二天梅塔说那算了，我开了吧。当时好像Llama2也是这么开出来的，现在Llama3.1 也是这么偷跑，完了以后就正式开放了。

他在跑分上已经全面地超越了GPT-4，基本上在各个指标上都超越了。这是非常非常难的，因为以前大家推出的各种模型里头，都是在个别指标里面超越GPT-4O或者超越GPT-4。那么在各项指标上全都超越的，这应该是第一次。当然了，它也是分很多版本的，分为8B、70B以及405B这三个版本。405B已经完全超越了，下面小一点的8B，应该比原来的Llama370B的效果还要再好一些。它的70B基本上针对前两天发布的GBT4OMINI，属于碾压状态。

Llama3.1 现在支持8种语言：英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

这个里面没有中文啊，不用他们担心，中文我们自己会搞定的。这就是他们现在发布出来的模型，上下文窗口呢，从8K直接涨到了128K。Llama3是8K的，啊，现在Llama3.1 就直接128K，但是我还用不上，为什么呢？我想要去用这个Llama3.1 的，啊，405B这样的模型我肯定没法在本机上用，这玩意你肯定还是要很多的显卡，才可以把它刨起来的。所以一定是云端，用这么大的模型，你要给它这么长的上下文的话，通常那个压力是很大的。

所以现在我去看到的，比如像together AI上面的Llama3.1 的模型，里面啊，应该是8B的和70B的给的是32K，405B只给了4K，就是你超过4,400以上他就不干活了。超过了以后，我估计就会变得非常非常贵，工作的耗或者工作的成本就会变得很高。所以我现在能够用到的Llama3.1 ，405B只能是4K的，就是上下文4K。405B呢，也是Llama系列的第一个支持多模态的大模型，原来的都是纯语言模型，现在可以支持多模态了。

但是怎么说呢，如果只能用到4K的话，多模态意义不是很大，你塞不进去东西去。这还要看未来，是否有人愿意开放完全上下文的这种Llama3.1 的模型给大家去使用了。Llama到底算不算开源，对吧？我们刚才讲他开源开出来了，Llama是不是开源这件事情呢，也是有一定争议的。开源这件事情并不是说我把所有东西都开出来，你就随便去用就叫开源。

开源本身是一个在法律框架下，遵守一定的开源协议的商业模式。这个东西是要收钱的，大家可以去规定说我开哪部分，不开哪部分。当然了，也有一些原教旨主义者，他们其实是开放软件的一帮推崇者。他们认为Llama不算开源，为什么呢？

第一个，Llama只开放了部分代码，并没有把所有的代码都开出来；第二个，只开放了模型和参数，没有开源训练数据和完整的训练过程。如果是开放软件，这些东西都应该拿出来。而且只开放使用，他对使用还是有一定限制。开放软件这帮人说，你要叫开源，就得把所有的权利都拿出来，不能有自己任何权利保留。

这个是Llama在这块有一点点的小争议。对于Llama来说，它到底是限制了什么？在使用上，你说大家都下载了，都去用一下，我在本地上也下载了，它到底限制什么呢？

第一个，他不允许用Llama3训练新模型。这也很有趣，实际上现在国内大量的新模型都是拿Llama去训练的，但他这个是不允许的。第二个，用户超过7亿的，需要单独向梅塔申请。这其实就是针对中国的，全世界的公司里头，用户量超过7亿的，除了美国的那些之外，剩下的基本都在中国。他现在也有要求说我已经设置好了，超过7亿都不行。

但是，这个都属于叫君子协定。什么叫君子协定呢？就是我不告你，你也没办法。如果算告的话，可能也很麻烦，你去取证，做各种各样的法院诉讼的过程都会很长。但是，从道德制高点上来看……

他已经站在上了。你比如说，用户量超过7亿，还拿他去训练模型啊。假设是字节跳动吧，对吧？那个用户量肯定超过7亿了，而且跟美坦直接竞争啊。如果字节跳动拿着梅塔的Llama3去训练自己的模型了，这个事情对于Llama来说，他是可以告你的。

另外一个超过7亿用户，还去训练自己模型的是谁呢？天问啊，闻心眼，百度啊，都是在这个范围内。那么，Lama呢？如果不是走这个原教旨主义的判别标准的话，它算是开源的。但是，按照原教旨主义的标准来判定的话，它也算是个假开源吧。甭管是不是真的开源，但是Llama现在已经开始从开源受益了。很多人搞不清楚开源这事到底咋挣钱，正好趁着今天Llama3.1 405B的这个项目，来跟大家讲一讲开源到底是怎么盈利的。它为什么是一个商业模式啊？不是雷锋。

现在呢，Llama已经让时代的车轮滚滚向前，停不下来了啊，肯定是往前滚滚过去了。那些号称使用开源就是交智商税的CEO们，应该会在车轮下发出悲鸣了。Llama在Llama1、Llama2、Llama3到现在的Llama3.1 之间，一直在这开源模型里头是扛鼎的。他是做得最好的一个，做得最大的一个，其他人就会跟着他去做。对吧？我会在Llama的基础上进行微调。我在Llama的基础上准备微调Llama的数据，准备微调Llama的各种指令集，或者说准备使用Llama3微调一个什么呢？微调一个多模态的模型出来。前两天，斯坦福大学抄袭清华大学的那个模型，就是拿Llama3微调的多模态模型，还有很多人在Llama3的基础上……

去微调上下纹，让上下纹变长。所有的这些，你没有发现吗？就是从Llama3到Llama3.1 之间的这些变化，波太了啊，成上下文了。再加上什么？再加上各种各样的开源数据集，以及开源的指令微调数据集的参与训练，就从Llama3变成了Llama3.1 。它等于现在成为了一个潮流的标志，所有人做的这些数据也都是开放的。这些数据在哪呢？在HIKING face上啊，HIKING face上存了非常多的这种兼容Llama3格式的数据，兼容Llama3格式的指令微调数据集，以及各种各样的用Llama3已经微调成功的新的模型，甭管是长上下文的，还是多模态的都有。

好，现在Llama3说来，我把你们都收下来，我也开放了，你们也开放了，我收下来，然后我再把Llama3再重新训练一下，再把剩下的参数都堆进去，啊，堆一个405B出来，4,050亿参数啊，直接推出来。所以呢，他这个开源真正盈利的方式，大家听懂了没有？这两个字啊，叫做标准。Llama是通过成为标准，让所有在做大模型开源的人都依附于这个标准。这不是强制标准，这个是事实标准，大家依附于这个标准，然后做出生态来，整个生态的价值提升了。

Llama3直接把Llama3基础上的这些开放数据拎回来再去训练，就变成Llama3.1 。Llama3.1 出来以后，一定还会有很多人再在这个基础上，再去做大量的新的数据，再去微调，让Llama3.1 可以去适应更多的场景。那么是不是就快该有Lama 3.2了？就是开元战胜必元，或者开元。

整个的盈利方式就是这样。第一个叫做标准，事实标准；第二个呢，叫做生态。这两个东西一起往前走的时候，整个开源的系统就会快速地超越闭源系统。

很多人在讨论，开源到底便不便宜？咱们Llama3.1 的价格到底怎么算呢？我看了一下together上的价格，因为它是开源的，你可以把它拉到本地来自己去装。虽然我现在没有装这些东西的设备，斑马3在我的机器上可以跑8B，跑到70币已经跑不起来了。70币的话，至少是一块四零九零，再加上大量内存才可以跑起来。

像这种四零五币这样的模型，我已经不愿意去算我需要什么样的硬件它可以跑起来了。这个事情对于我没有意义了。所以呢，我们用云端可以跑Llama3服务或者Llama3.1 服务的这些服务器上给的价格为参考。他们给的是什么呢？就是Lama三点一的70币，每生成100万TOKEN是0.9美元，就是90美分；405B就是这4,050亿参数的这种大模型，生成100万TOKEN是5美金。

咱们呢跟其他人比一比，比如说open AI的。open AI现在当打的是GPT4欧，GPT4欧的输入是5美金，每100万TOKEN，输出的话是15美金。100万TOKEN desert上的这个TOKEN的价格应该是输入输出都一样的吧，但是5美金。统一的最新的呢是GPT4欧mini，是0.15美金输入，0.6美金输出，这个价格呢。

跟Llama3.1 的8臂的价格其实是差不多的，所以那个时候，为什么猜测GBT4欧MINI可能是一个8臂的模型，因为从价格上算的。Anceropic，那他们家的cloud是什么样的价格呢？3.5 sonit是输入3美金，输出15美金，也要比to get在上面Lama 3.1405币要贵。

至于Opus啊，就是Anceropic的cloud 3 Opus，这是它们最贵的、最大的一个模型。输入100万TOKEN，15美金，输出100万TOKEN居然要75美金，非常非常昂贵啊。Gemini呢，相对来说便宜点啊，Flash是输入两美金，输出6美金。Pro呢是一倍，输入是4美金，100万TOKEN输出呢是12美金。

所以啊，Llama3405B呢，相对来说还算便宜啊，就是输入输出是5美金，还算便宜。如果他的100万TOKEN在10美金，但是你让我使用128K的上下文，可以让我使用多模态，可以上传图片，可以进行识别，上传声音可以进行识别的话，那么我觉得这个价格也还是可以接受的。

在Llama3.1 405B发布之后，这肯定是一个诱化时代的产品发布了，代表着车历史车轮滚滚向前，把历史翻开了新的篇章。那么谁会挣钱啊？挣钱的呢，就应该是这种开放的云托管平台就会开始挣钱了，对吧？因为刚才我讲了，405B这种东西在我们本机是跑不起来的，哪怕是我一个单位里头自己有服务器，你想把它跑起来也是基本不可能的。

所以，一定是到云端去使用这种模型。那么，谁在干这个呢？刚才我们讲的 Together 就干这个的。另一个呢，是 Grop，专注于推理芯片的，他们也是在做类似的工作。现在，Grop 和 Together 上已经开始有Llama 3.1 的模型可以用了。这个刚才我查的Llama 3.1 的价格，就是在 Together 上查的。

然后，危机流动，也就是国内对标 Together 的这个项目，现在他们也可以在这种项目上受益。虽然这个上面没有Llama，因为Llama没有在中国进行过审核备案，但在中国使用的话，一定会有问题。不过，要相信我，中国团队会冲的。既然煤炭已经出了 405b，中国人就会出 410b，420b也会出现这样的模型。

那么，这种模型出来以后，也会到硅积流动上去跑。他也可以收到一个，比如说 100 万 TOKEN，十几美金的这样的一个价格。其他的这些云计算厂商，比如谷歌、微软、亚马逊，国内的像阿里云，都将受到这样的利好影响。

最后，我们讲一下中国团队是不是要冲锋。原来都讲人家一开源，我们就自主研发，自主知识产权。这个事一定会的。很多人说，中国的大模型就是自己研发的，跟他没有什么关系。这个你要相信，没有任何问题。我也可以相信。我们来看一看，中国最早的大模型，其实跟Llama是没有关系的。这个事一定要讲清楚。最早的是什么呢？最早的是拿 GPT2 开源的版本去修改，去使用出来的。

国内的某些最早期出大模型的大厂，他们的大模型里头有一定的GPT2的影子。后面Llama开源之后，国内才开始涌现了一批开源大模型公司，但他们都不承认使用的是Lama的模型。他们都说我们是在Lama的启发下，从头训练的。在Lama 2发布之后，各种应用公司就开始冲锋了，不再是模型公司了。很多应用公司也有一些新的模型出来可以用。这些模型到底是从头训练的，还是拿Lama 2去做的微调和修改，这个不得而知。

国内大量的企事业单位开始用上这些模型。等到Lama 3出来之后，各个开源模型公司纷纷更新版本。像Llama3发布后，影义万物、同一千问，包括很多这种不开源的模型公司，都在纷纷更新自己的版本，号称我们都去对标GPT4了。在中文领域里头可以超过Llama3了，英文里头稍微有一些偏差，也还是可以理解的。

这就会有这样的一个明确的时间划分，到底抄没抄，这事我们也没有明确的证据。我们只能说，这个时间点都非常非常的巧合，你爱信不信。而且在Llama3出来以后，中国的各个模型公司在做的一件事是什么？就是开始打价格战。咱们开卷吧，这个是为什么呢？因为中国大模型公司卡在100币这个位置上，因为Llama3开源出来的就是8币以及70币。所以中国很多是9币和72币，我在这个基础上再加一点点。你说我再往上训练，到底拿什么样的东西去训练，或者往哪个方向训练。

其实是不知道的，所以卡在100币，没有往上走的通道了。那我们先卷价格，等一等看看风向再说。现在风向又变了，405B出来了。而且405B并不是Moe。什么是Moe？就是专家模型。405B，它是一个单体的Transformer的模型。这样的话，大家就知道，原来大模型长这样，我们可以去搞一次了。这个是值得去借鉴的。

国内其实也出了一些Moe的模型，比如像千问自己，有一个五十几b的Moe模型。另外也出过一些100多币的这种Moe的模型。但这种100多币呢，它是由很多个小模型拼起来的。每一个小模型可能还是二三十币，或者这样的一个水平。拼起来的单体的上百币的模型，原来中国人是没做过的，现在有开放出来的。那么中国公司是必须充，方向都已经指明了，不冲等啥呢？咱们就看这个到底需要多长时间了。

但是，对于Llama3.1 405B来说，能够冲上去的公司并不多。为什么呢？咱们看一下，Llama3.1 8B呢，用的146万GPU小时。这个玩意儿怎么算呢？就是说用H100，我用146万个小时，就可以细算出来Llama3.1 8B。那你说这么多怎么弄啊？人家又不是一块在这算，对吧？人家一下上几万块。梅塔手里头号称有50万块GPU，他这个数据一除除的话，就很快就可以算出一个斑马3.18B。然后呢，Llama3.1 70b呢，用了700万GPU小时，也就是H100 GPU小时吧，应该这么讲。

然后，Llama3.1 405b 用了多少呢？3,084万H100 GPU小时。梅塔自己呢，是用了1.6万张H100进行的训练。他并不是说我分别训练8B、70B和405B啊，他们正常应该是训练了一个405B，蒸馏出70B和8B。但是，你还是要去用3,084万H100 GPU小时的这个时长去算。如果是1.6万张H100的话，那么是需要多长时间呢？80天，两个多月就可以把它训练完的。这个价格是很贵的啊，H100是4万美金一张。而你，比如说我能够有这么多钱，人家还不卖给你。就算人家卖给你了，你烧得起电吗？这个H100的功率是700瓦一张啊。你想，这一万多张，他有多大的功率，这是非常恐怖的一个数字。这还光算了H100，主机的这个电压、主机的功率还没算在里头。算完了主机之后，机房里头最大的耗电户既不是H100，也不是主机。那么，也有人说，难道是交换机吗？难道是路由器吗？难道是这些东西吗？都不是啊。我告诉大家，所有的机房里头，真正的耗电大户是空调。H100耗了700瓦的电，疯狂的发热了。以后，你不能等着它冒烟着火，对吧？一个封闭的机房里，你再要把这些热量排出去，你还要再用更大功率的空调来把这个热量交换掉。所以，这是一个非常巨大的工程。在国内，玩得起的公司基本上都被扎戈伯格限制了。第一个，人家想了说，你不可以拿Llama再去训练新模型了。第二个，所有用户量超过7亿的公司。

你要想去用Llama，你要跟雷塔申请特殊的许可证。咱们国内能够训练这样的模型，又有7亿用户的阿里、字节、腾讯，他们如果没有向美塔专门申请过许可证，那你就只能说这是我自主研发、自主知识产权，跟你没关系。但到最后，如果被海外应用的时候，被梅塔抓住把柄，说：“哎，你这个里头跟我那是一样的。”那么这个官司就有的打了。

那扎克伯格自己对于中国开源项目的看法是什么样的呢？你说他装没看见，这事肯定是不行的啊。在Llama的基础上进行开源、内容创作、进行微调、进行数据准备，最积极、干的活最多的就是中国团队啊。那么扎克伯格肯定不能装没看见。

所以扎克伯格也说了，开源可以让中国之外的盟友和小公司一起进步。如果我闭园了，大家去通过间谍、通过拷优盘拷贝、通过各种方式得到模型参数、得到模型数据的能力都还是很强的，并不是说我闭园了，中国团队就得不到了。我要开园了呢，中国团队也能得到，我其他的像什么法国、欧洲的盟友，还有很多的小公司，他们也可以得到这些数据，他们就可以跟我一块进步。

他讲的是这样的一个逻辑。这其实特别有意思啊，美国你去看看，现在美股七姐妹也好，或者是其他的比较靠上的这些美股科技公司也好，他们都是有大量的中国市场订单或中国市场份额的。每一家都是在这揣着明白装糊涂。你把这个东西开放出来了，一定是极大地刺激中国的大模型发展，而且现在已经没有天花板，没有任何问题。

我们就可以快速地达到，超越GPT-4的这个水平了。我相信，可能在未来的一到两个月里，各种模型就会再去更新升级，推出全面超越GPT-4的版本出来。现在这个压力给了OpenAI，如果比赛不更新，再拿不出GPT-5的话，就要彻底落后了。所以，扎克伯格自己心里是心知肚明的啊。他完完全全是为中国大魔星开绿灯。

至于其他的他的盟友，这些小公司到底有没有赶上，可能在努力追赶，但应该并没有。从梅塔的开源里，真正得到最大利益和实惠的事情是没有办法的。但是同时，他也抹了一个悉尼，说：“你看我开不开源，他们都能得到。”这个都是这么干。

另外，他也讲说闭源是让个别公司憋大招。他说：“我们从来不认为最后只有一种达摩型。”那些只认为最后应该只有一种达摩型的人，他们是在干嘛？他们是在自己偷偷创造上帝。这个事是非常可耻的啊。我不知道作为一个犹太人，他如何去解答这种，或者如何去看待这种自己偷偷创造上帝的这个过程。

总之，他说这事不行，非常可耻，一定要开源出来。而且现在看，开源正在超越闭源。这就是我们今天要讲的，拉嘛3.1405B的发布，如何搅动风雨，如何让中国团队冲锋，给中国团队指明方向，以及扎克伯克对于这个事情本身到底是怎么看的一个故事。

好，感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。