马斯克重磅发布GROK4:史上最聪明AI大模型横空出世,强化学习碾压GPT-4与Claude,20万张H100显卡大力出奇迹,中美科技差距再度拉大,谁将主导AI未来?
7 月 15
AIGC, Musk传奇 20万H100显卡, 256K上下文, AI大模型, AI安全中心, AI融资, AI进程改变, API调用, Claude, DeepSeek, Elon Musk, Gemini, Grok Heavy, Grok2, GROK3, GROK4, LLaMA, OpenAI, Oracle云, Scale AI, XAI, 三体小说, 中美AI差距, 人类终极测试, 企业私有部署, 众包题库, 动态任务池, 华为盘古, 南京大屠杀, 南非白人种族屠杀, 多智能体合作, 多模态AI, 川建国, 工具支持, 市场占有率, 开源承诺, 强化学习, 意识形态投毒, 技术爆炸, 推理能力, 日本烟花事件, 昇腾芯片, 模型蒸馏, 模型迭代, 理工男模型, 电力消耗, 科研提速, 算力竞争, 编程工具, 视频生成, 越狱提示词, 过拟合预防, 预训练模型, 马斯克发布会, 黄仁勋访华, 黄色小说生成, 黑暗森林法则, 黑色幽默 马斯克重磅发布GROK4:史上最聪明AI大模型横空出世,强化学习碾压GPT-4与Claude,20万张H100显卡大力出奇迹,中美科技差距再度拉大,谁将主导AI未来?已关闭评论
史上最聪明的AI大模型GROK4诞生了。马斯克亲自坐镇开发布会。视频发布会呢,并不是特别的顺畅。第一个呢,是他晚了一个小时,也没说为什么。反正马斯克的直播经常会晚。然后呢,太多的东西需要集中发布,上下衔接的呢比较仓促一点。
最早期很多的互联网公司开发布会也是这样的,两三个小时七差咔嚓发一大堆东西。后来OpenAI这些公司习惯了在网上开直播以后呢,就慢慢把这风格改了。改成什么呢?就是每次发一个功能,发个十分钟二十分钟就完事了。然后呢,不停的发,每个月发每个月发。Xai呢,现在还没有彻底学会这件事情,还是一股脑给大家扔了一大堆东西出来。
我们以前在面对创业者的时候,每次都会苦口婆心的去做一种劝告。大家可能不知道会劝什么。作为投资人来说,我们每次看到任何一个创业者,都会上去劝一件事,叫不要憋大招。你一次要惦记着做一个大的东西,就很容易失败。你应该是做一些小的东西,一点一点放出来。OXAI现在还是憋了一个大招。当然了,XAI后面呢,也会每个月发布一个新的工具出来,它也慢慢的向这样的一个方向去前进。
8月份呢会发编程,9月份呢会发多模态。虽然现在的GROK4呢,也号称是可以出图吧,但我不确定他是可以做图片理解的,做视频理解。但是呢,他这一块应该还不是很满意,9月份应该再会去做发布。10月份呢会发视频。GROK4的模型要直接做视频生成。一个百无禁忌的模型,能够做视频生成,还是挺值得期待的一个事情。
到年底呢,准备发企业功能包。这是个什么东西?GROK4是允许私有化部署的。你可以向他申请说,我家里有这个云,我们企业要用这个东西,给我部署到这边来。GROK4还会有合规工具包,企业级的技术支持。美国区的Oracle云账号,现在已经可以使用Grok 3了。Grok 4还需要等。Oracle云并不是XAI自己家的云,你可以在上面使用Grok 3。
一些测试呢,其实也并不是特别成功。比如说命令它唱歌,结果呢,这个东西没有唱歌,他做了一个诗朗诵。当然了,不论是唱歌还是诗朗诵,对于一个机器发声TTS的一个功能来说,已经是很强大了。既然敢在上面当着马斯克的面要求他唱歌的话,那说明这个东西是会唱歌的,只是当场没唱出来而已。
那么GROK4到底是一个什么样的模型呢?妥妥的叫别人家的孩子。什么叫别人家的孩子?就是你看邻居家的小明,怎么考的这么好,每天上课都多么专心,经常被老师夸奖。
GROK4呢,属于典型的理工男模型。GROK从三开始,一直是有一个很双面性的东西:一方面是理工男,另外一方面呢,比较百无禁忌。GROK3有一些比较奇葩的用法,待会咱们再去讲。GROK4我估计会继承这些使用方法,而且会变得更加厉害一些。
但是,马斯克作为一个理工直男,跟一帮工程师坐在那发布GROK4,肯定是奔着理工男的这个方式去发布的。所以,其他那个用法他就没怎么讲。所有跟做题相关的数据都被刷了。而且,这一次是遥遥领先。前面呢,Gemini 2.5、GPT O3 O4、Claude 4这些呢,他们在刷这些题、刷这些排行榜的时候也会有提升,但是提升的不会那么高,经常是这个我高一点,那个你低一点。
但这一次的话,GROK4完全属于是断层式的碾压,一下比别人高了非常一大块。特别是大家提到的,有一个叫“人类终极测试”的竞赛。上一个冠军呢是Gemini 2.5,正确率呢是21%。GROK4,不使用任何工具,就闭卷考试26.9%的正确率;使用工具就是41.0%的正确率。如果使用叫Grok Heavy,一个超重的模型,它是一堆的GROK一起来干活,干完了以后自己相互吵架,吵出一个结果来,它可以达到58.3%的正确率。
所有人都在讲说“人类终极测试”,什么是“人类终极测试”?它呢是一套测试题库,2,500道题。发起人是谁呢?有一个叫Center of AI Safety(CAIS,AI安全中心)这样的一个机构为主导构思与学术把关的。那么,谁出钱呢?谁做工程技术实施的呢?叫Scale AI,就是刚被美塔投了一大笔钱进去的,那个华人小伙子创业那项目,140多亿美金刚投完资的那个项目。他来去提供的数据工程和资金支持。
做这种题库并不是那么贵,花不了太多钱。启动呢,是2024年9月16号,公开全球征题,标榜找出AI也答不出来的难题。花了多少钱呢?给了50万美金的奖金池。Scale AI给的钱,最高呢5,000美金一个题,奖励前50名作者——就是你出的题特别好,5,000美金一个题。第二梯队呢是500美金一个题。后边呢就是100美金每个错误——我把题上来了,大家来找错误。
现在这个题库呢是在GitHub上,在Hugging Face上都有,大家可以上去找错误。找到了错误,给它修正了,可以得到100美金。所以呢,它整个的运作方式就是50万美金一个奖金池,咱不停的发。到现在为止呢,依然在不断的更新这些题库。
这个题库呢是公开征集的2,500道题,41%的数学题,14%的多模态的题。另外呢,还保留了私有隐藏集防止过拟合。过拟合什么意思?就是说我刷题呗,除了这个题之外的东西都不会吗?前面这个Llama4就是死在这个过拟合上了,题刷的特别好,结果发现不是这个题库的题不会做了。
他怎么来预防这个过拟合呢?就是有300道题是隐藏的,任何人去刷这个题库,你看不到这300道题。用AI大模型去做这个题的时候呢,它就会把这300道题拿出来,这个模型就始终会遇到新题,遇到没有做过的题。
整个的这个运作方式呢,第一个是叫众包的征题,大家都来出题。第二个呢是做前沿模型的筛选,就是用当下最强的大模型(GPT4O,Gemini2.5,Claude 3.5)这些题呢进行模拟考试。当这些模型的得分不比随机猜好的时候,这个题目才会被保留下来,进入人类最初考题的这个题库。比如说咱们原来都讲a b c d考试嘛,咱们全填a得25分,如果这个这些大模型做的分没有超过25分,我们就把这题留下来,超过了我们就这题不要了。它是这样来出这个题的。
出完这些题之后呢,再进行两轮的人类专家复核,在Git Hub和Hagging face上面去公布,让大家去找错误版本。定版以后保留私有级并记录版本哈希,他是这样来工作的。
你说人到底能做成什么样人类最终考题?人呢目前为止,没有一个公开可验证的成绩。有人试过,据说是需要耗费极长的时间去做,但是也没有人呢去真正公开说我到底得了多少分。所以马斯克这次说,他的大模型可以做到50多分了,说应该已经超过了绝大部分的人类,我觉得这个事情是可以这么认为的。
马斯克认为呢这一次他发的GROK4就是有史以来最聪明的大模型了。当然了,马斯克这个嘴呢,大家就听就好了,因为GROK3发布的时候他也这么说的。而且马斯克讲了说他的GROK4已经达到了全科目博士水平了。
那么GROK4到底有什么不一样的地方呢?它是第一款预训练和强化学习相对比较平衡的大模型。什么意思呢?正常我们去做一个大模型是做预训练嘛,做一个模型出来。做完这个以后呢会去做强化学习。所谓强化学习呢,就是状态动作和奖励,在某一个状态下,我要求你去做一个什么动作,如果做对了我给你奖励,做错了就没有奖励。这个大模型自己按照积累更多奖励的方式进行训练。像我们比较熟悉的比如Deepseek R1推理模型也是如此。
就是他先去做一个基准模型,叫Deepseek R1 Zero。然后呢,在这个模型的基础上去做推理的强化训练,得到了Deepseek R1。
但是,以前传统的模型是怎么做呢?就是先消耗巨大量的算力和数据进行预训练,把这个Zero(0)模型做出来。然后呢,再用远小于预训练成本的算力去进行强化学习。一般呢,它的强化学习的成本大概也就是预训练的10%到20%左右。
然而,GROK4呢,它是预训练跟强化学习所耗费的成本与算力基本相等,两边一样多。所以它是有史以来第一次用这么多算力去做强化学习的模型。当然,你像Deepseek,它想干它也干不了,20万块显卡它没有。
GROK4呢,首先是使用GROK3的一部分权重,就是有些层次的权重它就直接用了。然后补充数据之后进行预训练,得到了一个叫GROK4 base的基础模型。接着,投入空前的算力进行强化学习,投入了20万张算力卡直接进行强化训练,按照奖励最大化、长程回报的方式。
什么叫长程回报呢?就是你要做很长的推理,要积累正确的奖励,让这样的一个算法去进行训练。而且呢,是动态的任务池,包括数学推导、代码单元测试、商业模式和人类最终题库,这些高级的环境都要进去进行强化训练。
XAI呢,直播的时候讲到说,模型越聪明,强化训练的任务呢就越少,需要自己动态地去做题,否则你就没有那么多题可做了嘛。智能体在模拟环境下或者是真实的API工具中试错、自我对弈。因为有一个叫做Grok heavy的模型,就是一堆的Grok的模型自己跟自己之间吵来吵去的,最后看看怎么能够提高训练效果。
在训练期,让代理互相评论;推理时,并行生成交叉式复审核成答案,再去进行这样的学习。所以它的这个算力是非常浪费,但是效果很好。而且呢,它会监控成功率,当大于80%的时候,会自动生成更难的对手、更长的推理链,解决奖励稀疏的问题。
就跟原来说小学生:“哎呀,我今天考了95。”一回到家里以后,父母肯定说:“你为啥不考100呢?前面还有人没有?”都是这样来训练出来的,就不断地PUA,这个产品就出来了。
它的强化训练计算量达到了同类产品的10倍以上。GROK4的强化训练连续跑了7周,每天消耗的电力相当于一座中等城市。所以说,AI的竞争最后是电力竞争。结束了以后,他再把多代理策略的这些东西进行蒸馏,形成一个单代理的版本。
所以呢,我们平时去使用的公开的API调用的Grok,不是heavy的那个。
就是蒸馏后的这个单代理模式。而且除了强化学习之外,还有一个很重要的东西是什么呢?就是原生的工具支持,这个也是非常厉害的。因为现在的大模型都是可以调用工具的,调用方法也很简单,就是你在给它提示词的时候,把工具的描述描述进去。说我这有一个扳子,那有一个锤子,这里还有一个电焊,有一大堆这样的工具。你先把这些东西都介绍给这个大模型,然后呢,大模型再根据说你的提示词进行推理,在推理的过程中来决定调哪个工具。这个东西其实是需要训练的,有些工具你会使,有些工具不会使,或者有些工具你根据这些描述应该如何去使用,它是需要训练的。所以Grok专门在这块进行了训练,它的这个原生工具的知识要比其他的模型要好。所以呢,它叫高度动态的工具知识。
GROK4的工具体系不仅仅局限于文本生成,它能够根据任务需求动态调用外部的API、计算工具、模拟器等等,使得它能够处理更复杂的任务,例如实时推理和决策优化。而且呢,它是多智能体合作,因为这个东西一开始它就是相互之间吵架吵出来的嘛。不同于大多数模型,GROK4的原生支持多智能体的这种合作方面的创新。以前都是以智能体为核心,我们再去调别的工具就完了,但是GROK4支持智能体之间调用的,就可以使得模型能够在推理过程中模拟复杂的多角色互动场景。这在处理开放式任务、模拟环境和长期计划时非常重要,这个是它的一个创新。
然后呢,多模态的知识。Grok对于图片、音频等非文本数据是内建支持的,使得它在处理涉及视觉、声音以及其他感知数据的复杂任务的时候,能够更加高效的融合多种信息源,优化推理能力。通过强化学习和专家模式的结合,GROK4能够在大规模任务中实现更高效的推理,尤其是在与外部工具和数据库交互过程中,提升了准确性和可扩展性。这个就是GROK4真正强的地方。第一个是用了空前的算力去做强化学习训练,另外一个跟大家强调的就是对于工具的这种原生支持。
讲的这么热闹,这个使用起来到底怎么样呢?第一个,我自己的账号是8美元的x账号,这个不让用,只能用GROK3。GROK.com上也只能用GROK3,不让我用GROK4,必须要升级30美金一个月的super Grok账号才可以去用GROK4。你要想去用那个Grok heavy,就是那个特别重的那种相互吵架的这个大模型,一个月300美金,稍微有一点点小贵。那你说我讲了半天我用没用过?用过了,通过API调用。
现在呢,我们可以通过x.AI的网站去调用GROK4的这个API。它上头有一个模型叫GROK4-0709,就是7月9号这一天发布的这个版本。当然,比较遗憾的是什么呢?现在GROK的这个API调用所有的优惠都停止了,只能老老实实地烧TOKEN。也不是很贵吧,去年呢,是每个月送25美金,基本上是够使了。今年是5月份之前呢,同意共享数据充值5美金送150美金,这个也是一个比较不错的优惠吧。但是5月份以后这个优惠就停止了,所以现在就老老实实烧就行了。它呢,是3美金100万TOKEN的输入,15美金100万TOKEN的输出,所以它的整个价格不贵。上下文呢是256k,支持推理,支持多模态输入。
现在呢,它有一个调用限制,每分钟可以调用60次,超过了以后呢它就会卡住你,这个是有问题的。所以,我确实去用去了。使用的感受怎么样呢?这个就当我们跟博士在一起工作的时候,会自惭形秽吗?我相信可能在我听我节目的人里头,有一些人是博士。你跟博士一块去聊天,一块去干活的时候,真的觉得他们特别伟大光荣正确吗?其实也没有。博士有时候未必懂得人情世故,未必好打交道。我个人的感受呢也是如此,并没有感觉比ChatGPT或者Claude好更多。有时候呢也犯一些比较低级的错误,质量,指令的依存度并不是很好。
我做了几个测试吧,比如说我要求的他先去做搜索,根据搜索一些信息去给我做总结。出来的结果呢,会混杂html的标记在里头。因为你搜索的结果是带html标记,语言那些标记的嘛,出来了以后就会带这个。我在提示词里写着说不要带html标记,把相关的标记转成Markdown,发现依然是带着这些标记就出来了。所以呢至少到目前这个版本吧,效果还没有那么好。但是他们应该内部还在迭代吧,可能很快就会改过来吧。
在处理日常工作这方面呢,他的能力与科研能力之间其实并没有直接的联系。就是大部分人其实都可以处理日常工作,但是很少有些人可以去做这个科研。而GROK4主要提升的是科研能力,所以前面我们讲所有跟数学相关的,跟这个推理相关的遥遥领先。但是处理日常工作这块呢,基本上也就这样了。一个理工直男博士,往往是笨嘴拙舌,缺乏生活常识,以及指令依存性不是很高的一个人,符合我们对博士的这种刻板印象吧,或者也属于在情理之中的一个事情。
所以现在日常工作处理方面呢,到底考核什么?第一个是工具能力,第二个是指令依存度。
第三个是一些对齐的能力。这块其实现在GPT、Gemini、Claude、Grok、Deepseek基本上都能使用,没有特别大的差异。
输出质量呢,在不同的领域各有差异。GPT相对来说是比较均衡的;Gemini呢,有点像理工男;Claude的输出让人觉得比较舒服,但要稍微油滑一点;Grok呢,有的时候给你黑色幽默一下;Deepseek喜欢瞎编。
稍微勉强达标的是谁?就是千问跟豆包,叫勉强达标,稍微要比上面那个梯队差那么一点点。我呢,还没想到具体要用Grok4做点什么高大上的事情,因为对于普通人来说,你也想不出什么高大上的事情让他干去,所以这个先使得吧,价格也不是很贵。
再往后一个问题是什么呢?说好的开源哪去了?马斯克原来讲的Grok是要开源的呀。Grok1现在其实已经开源了,在Grok2发布的时候就开源了。但是呢,也仅仅是开源了而已。正常你开源一个项目,你是要文档、要社区、要维护的。但Grok1开源了以后呢,是一种非常不友好的开源。它那个模型很大,一般人你也部署不了,所以它也没有跟别人去做各种兼容性的适配。有些人去提问题、提意见,他也不理人家,就往这一放就完了。这种开源代码,属于是比较低质量的开源项目吧。
马斯克呢,曾经承诺过,新的模型出来,就一定会把上一个版本开源出去。Grok3发布的时候呢,大家就在等Grok2的开源,当时也承诺了,等Grok3稳定下来,就把Grok2开源掉。现在Grok4都出来了,Grok2跟Grok3就都没有开源的动静了。整个的发布会上,也没有再提开源的事了。对于马斯克来说,贵人多忘事,直接忘掉了吧。
Grok以后会提供企业私有部署的服务,这个呢,其他三家还是不一样的。像Gemini、GPT、Anthropic,他们应该都不会去提供这种企业部署的。以后未来是否会开源呢,还要看未来的策略。其实开源对于他们以后去争取企业私有部署的订单是有好处的。实际上他所谓的开源,也叫开放权重,并不是开放源代码。开源是一个很消耗人力的松耦合和协作方式,马斯克他们XAI现在人也不是很多嘛,所以现在一时半会顾不上。
也没准到年底的时候又想起来说,我们再开个源啥的,大家可以再继续等待一下。马斯克现在呢,应该也没太考虑到XAI到底能不能挣到钱的问题,反正他现在不停地往里募资,不停地融资,融的钱也够他花的,因为他人不多嘛。
也不需要跟别人去抢人,主要花的钱都是烧算力去了。买显卡、烧电费,就干这玩意去了。
再往后呢,咱们看一下大模型的意识形态问题。因为Grok呢,是一个比较奇怪的大模型。咱们要知道,最一板一眼的大模型,或者说道德感最高的大模型是Gemini。GPT呢,原来道德感也很高。最近的一段时间,特别是Deepseek R1出来以后,这段时间呢,GPT实际上是把道德感降低了一些。最没有道德感的实际上就是Grok。
Grok呢,最近还出了一个特别神奇的事情,叫做“日本烟花事件”。怎么出的事呢?就是做了一次黑色幽默。应该在7月5日,有人放了一个特别漂亮、特别大的一个烟花的照片,就在那说:“这是日本最大的烟花了。”另外一个人呢,回复说:“应该还有更大的吧?”这个时候呢,就有人去问Grok了,就@Grok在Twitter里头,在X里边问他:“什么时候日本有过更大的烟花?”
Grok就回答了:“日本广岛跟长崎被丢原子弹那两次,是更大的烟花。”日本人肯定不乐意了嘛,说Grok太不照顾我们的民族感情了。Grok呢,还在那嘴硬说:“这是一个黑色幽默。如果你感觉不舒服的话,我道歉一下。但呢,这就是一个历史事实,我也没有编什么。”
日本网友就说了:“说两颗原子弹呢,杀死了很多的无辜民众,这个才是事实。”Grok的回复特别逗,他说:“南京大屠杀这个才是历史事实,有很多的无辜民众被杀了。”然后日本网友说:“南京大屠杀这事是个谣传,没有南京大屠杀,凭什么说这是历史事实呢?”Grok又去回去了:“有各种笔记、照片,还有审判的一些记录,都已经证明了。虽然死亡人数上有争议,但是南京大屠杀是被普遍认可的历史事实。”
就是这样的一个故事,让日本网友稍微有点小破防。日本人现在正在想说:“我们是不是要去抵制一下特斯拉呢?”这事是7月5号发生的。7月10号早晨,XAI把Grok相关的评论都删了,准备开发布会了。发布会之前,不能有这种不和谐的声音在这里。
Grok干类似这种有争议的事情,其实也不是一回两回了。他经常做这种黑色幽默,得罪一些人。但很正常吧,黑色幽默通常是有一些冒犯的,不能保证所有人看着都很开心。你要如果所有人看着都很开心,那就不叫黑色幽默了,那玩意叫“伟大光荣正确”的。
Grok呢,曾经出现过意识形态投毒的事件。2025年5月14号,Grok对于用户无关提问,比如棒球、HBO更名等等这些事情进行回复的时候呢,反复提及南非白人种族屠杀和“kill the boy”,应该是BORER吧。
这样的一个歌反复在提这个。这一行为呢,引发了广泛的关注。因为白人种族屠杀是一种极具争议的极右翼阴谋论,已被南非法院和多个权威机构驳斥为缺乏证据了。
Grok甚至在某些回复中称,这是被Xai的创造者所指示的,将这一个问题视为事实、种族动机驱动的一个事件。这是Grok承认的事情,因为马斯克自己始终坚信南非是存在针对白人的种族屠杀的。因为他是老板嘛,所以就有人把这个东西直接写在系统提示词里头,直接投毒投到x上去了。大家在x上发帖的时候,如果你@grok,他有时候会回来回帖的。
这一次日本的烟花的事件呢,也有人指出了为什么他就这么去怼日本人,而且会去提到南京大屠杀呢?有人说XAI团队里的中国人占比太高了,特别是在中国大陆出生、接受基础教育的人,占比是最高的,基本上大概占一小半。到目前为止没有一个明确的确认说有谁日本人在里头。在这里头大概就是中国人、俄罗斯人加上一些东欧的人,是这样的一个团队组成的XAI。
甚至现在有人认为呢,XAI是一个被中国有意识制造的特洛伊木马,派了大量的研究者进去。其实这个事儿不光是XAI,美国所有AI公司里头大概都有一半,没准还有一多半是中国人。而且这些人是在国内接受过初等教育的一些人,占比是非常非常高的。
那么新的态势是什么样的呢?现在Grok的市场地位呢,首先它的市值是第二。最高的呢是OpenAI,3,000多亿美金;1,000多亿美金的Grok是第二。所以它的市值要比Anthropic高很多。其他的大厂,谷歌你没法跟它比,那玩意是上万亿美金的公司。所有的AI的这种新公司里它的市值第二,但是市场占有率呢并不大。
市场占有率最高的肯定是OpenAI,大概占百分之三四十的份额;Gemini是第二,应该有个20%多;Anthropic的Claude有十几;剩下的大概还有30%左右呢,包括Grok,包括LLAMA、千问、Deepseek,都在这个其他里头。
Grok的APP不算x那部分,就是APP自己的日活应该也是有个几百万吧,月活可能几千万的一个样子,就是数量还可以。在一些特定的领域里头呢,被应用的很好。Grok你是可以通过API直接调用x数据的,不是具体说我要看张三的哪一条或者李四的哪一条,不是这样的。而是什么呢?你可以看趋势数据,说最近x上有什么新趋势,你可以直接通过API直接调用它,这个还是很方便的。另外呢,顾忌比较少嘛。
所以,很多人在用Grok写小说。还有呢,因为Grok的顾忌相对来说比较少,所以它有一个比较特殊的用途。刚才咱没讲,就是有一堆人在去研究越狱提示词,让Grok去写黄色小说。大部分的色情小说,其实是Grok写出来的。
按道理来讲呢,应该有人用Grok做工程、技术方面的工作。但是这个可能离我的生活稍微有一点点距离,所以我并不是特别了解。这个应该也是马斯克他们去训练Grok最主要的一个用途。他们不可能说我训练了一个东西出来,可以怼人、可以讲黑色笑话,还可以写黄色小说。马斯克应该也没那么闲吧,人家还惦记去火星呢。
另外一个我们要发现的势头变化是什么呢?就是通过GROK4的发布,美国再次拉开了跟中国之间的差距。把GROK4发布了以后,中美之间的大模型差距就重新拉开了。在科研、工程技术领域,绝对的遥遥领先了。我呢,没有验证过,希望后边不要翻车。因为有些东西我们这讲的很热闹,没准过两天翻车,这个可能性我们不希望看到。
而且这种大力出奇迹的领先,中国因为缺少算力卡,追赶起来是比较费劲的。它是20万块英伟达H100去做的强化学习,中国你凑不出20万块H100了。你要想拿其他的卡去做这件事情的话,你需要比如说200万块,或者更多的一个卡池,才有可能能够达到同样的效果。你要耗可能比马斯克多10倍的电,才有可能达到这样的效果。这个的话还是要看大家是不是有决心了。国内这些大模型公司一般烧不起这个。
如果说咱们想追上这一个事的话,估计要等10月份,川建国同志带着黄仁勋访华了。如果10月份它成行,带着黄仁勋来了,那没准咱还是可以追赶的。否则的话这事费劲。而且这种领先是全方位的领先,因为这是科研速度的全方位的领先。在各个方面的科学研究,Grok都有极大的提速。可能对于中美科技之间,会有一些新的改变吧。
新的方向已经指明了,有卡的公司们那就准备冲了。因为他这件事呢,说的并没有那么复杂。原来大家都是说我们做完预训练,做完这种Zero模型或者base模型,稍微的做一些强化学习就完事了。现在说,我们把这强化学习一直做下去,就可以有非常非常好的效果。那大家干呗。
OpenAI、谷歌、梅塔,这都是手里有卡的人。而且现在梅塔在挖OpenAI的人,前面掉队了。我们有卡,我们要把它干起来。OpenAI现在也在挖人,OpenAI在挖XAI的人,就是在挖Grok的人。因为你把20万块卡堆在一块去干活,让他们之间能够很好的调度。
这个事它也是个学问。既然Xai你已经把事搞明白了,那Openai说来,我花钱挖你的人就完事了。既然GROK4可以靠20万块算力卡做强化学习,直接把成绩拉上去,其他公司肯定是不甘落后的。这个是中国相对来说比较难追赶的一个事情吧。
华为呢,应该学英伟达,自己就别训练自己的模型了,好好搞你的升腾芯片拉倒了。搞了半天的这个盘古大模型,还不够丢人现眼的。
最后呢,总结一下GROK4的发布呢,其实让我想起了一个东西,就是《三体》这个小说里边讲的黑暗森林法则。为什么想起这个呢?黑暗森林里头其实它是四个法则:
第一个是宇宙资源有限,文明生存优先。
第二个叫猜疑链,就是:我怎么向你证明我是好人?我怎么知道你是好人?我怎么相信说你知道我是好人以后会很好的对待我?猜疑链不断延长呢,就容易去打起来。
第三个是什么?就是技术隐藏与技术爆炸。《三体》里讲黑暗森林法则的时候,看到任何人,哪怕他的技术比你差很远,都要一枪打过去,然后把他干掉。因为呢,距离很远,你不知道什么时候能到那,没准你到那的时候,人家技术大爆炸,一下就比你先进了,可能是反过头来就把你干掉了。这是这个黑暗森林法则的前三个要素。
第四个要素就是沉默是生存的策略,就是大家谁也别吱声,在里头藏好。
那GROK4呢,就是一个技术爆炸的冲锋号。因为他一旦上来以后,所有的理工科或者是工程技术方面的科技方面的,就可以大爆发了。美国这些油卡的公司会继续加大算力做强化学习,会快速赶上。中国,追赶也是必须的,我们再难还是得赶。毕竟美国公司里边还有这么多的中国人,比这个任何族裔的人的比例都高。
卡呢,咱们确认肯定不多了,那看怎么去新加坡,怎么去中东土豪那边去,把这些卡再重新聚集起来。或者说咱们把这个升腾的卡看看,拼吧拼吧能不能干点什么事出来。
GROK4应该是会对整个的AI制程行业带来改变的一个大模型,就像咱们年初的Deepseek R1一样。Deepseek R1出来之前,整个大模型圈子里头都是岁月静好了,OpenAI都开始挤牙膏了。Deepseek一出来以后,中国人来了赶快卷呐,甚至有一段时间他们都觉得哎呀,中国已经追上来了。但是到GROK4开始发现,哎,这个距离又拉开了。而且真的是有一样他们可以卡脖子的东西,咱们没有。他有他的训练,完完全全就是靠这20万块卡,咱们搞不定这个事情。他有,直接搞定了。而且这个东西不仅仅是Grok的领先,而是全方位的。
科技与科研的这种领先,所以这一块的话,可能世界格局都会带来一些小小的变化吧。后边我们还有很多的故事可以去讲吧。好,这就是我们今天要讲的GROK4发布的故事。
RSS