Grok 3发布:Elon Musk称其为“宇宙最聪明”大模型,暴力出奇迹的xAI,是否可以成为AI时代的世界工厂?
2 月 20
AIGC, Musk传奇 20万GPU, AI API, AI参数, AI商业化, AI大模型, AI安全性, AI对比, AI幻觉, AI开源, AI快速迭代, AI排行榜, AI架构, AI模型评测, AI模型选择, AI流量大战, AI测试策略, AI用户体验, AI直播发布, AI订阅, AI训练, AI语音识别, AI迭代, Deep Research功能, Deep Search功能, DeepSeek, DeepSeek R1, Deepseek V3, DeepSeek对比, DeepSeek开源, DeepSeek模型, DeepSeek训练, DeepSeek论文, Grok 2, Grok 3, Grok 3发布会, Grok 3对齐, Grok 3费用, Grok APP, OpenAI对比, Think与Deep Search对比, Think功能, XAI, XAI发展, XAI发布会, XAI合伙人, XAI商业方向, XAI测试, x平台, X平台订阅, 世界工厂, 人工智能, 合成数据, 大模型, 大模型幻觉, 幻觉问题, 推理功能, 数据清洗问题, 智能模型, 暴力迭代, 最聪明模型, 深度学习, 深度研究功能, 马斯克, 马斯克AI, 马斯克的大模型 Grok 3发布:Elon Musk称其为“宇宙最聪明”大模型,暴力出奇迹的xAI,是否可以成为AI时代的世界工厂?已关闭评论
马斯克的Grok 3到底是不是世界上最聪明的大模型?暴力真的能出奇迹吗?大家好,欢迎收听老范讲故事的YouTube频道。世界上最聪明的大模型,这是马斯克对他自己家的Grok 3给的定义。如果有人不同意的话,那么会被开除的。因为XAI某一位员工在X上发帖说,Grok 3好像并没有那么聪明,然后就被XAI找到说,你要么删帖要么开除。后来这哥们想了想说,我得捍卫一下自己的言论自由,于是这哥们就被开除了。
在说所有细节之前,咱们先说说Grok 3到底怎么用。在2月18号北京时间中午12点的时候,马斯克跟另外三位小伙伴,一共四个人坐着开了场直播,把这个Grok 3发布了。我就四处去找,首先我是X每个月交8美金的Premium用户,我在X上使不了。X上你必须是40美元的Premium+用户,才可以去使用。在Grok的这个网站上呢,你也需要30美元一个月的账号才可以用。免费用户只能用Grok 2,API不充钱已经不让用了。如果是团队的话,至少花了5美元以上,每个月他会赠送你150美金,但前提呢是要跟XAI共享你的数据。
目前Grok 3的版本还没有上,你就算交钱了,你在XAI的网站上,也只能得到Grok 2的API,还要再等几周才会上线。Grok的苹果APP上面,是可以使用Grok 3 Beta这个版本的,即使是免费用户也可以去用。因为我呢对于XAI来说是一个免费用户,我就通过iOS,也就是iPhone和iPad这个版本上去,好好儿的测试了一下。后边儿呢咱们再去讲具体效果怎么样。
Grok 3有哪些具体信息呢?在整个的发布过程中呢,并没有特别详细的讲,只是说,我各种排行榜都排在第一了。Grok 3,Grok 3 mini是怎么去排上去的,讲了很多这样的话。但是呢,这个系统本身的一些细节,并没有那么详细的公开。因为可能在Grok 3稳定下来以后,会把Grok 2开源。现在Grok 1是开源的。
Grok 2可能有一些细节会被披露出来,但是Grok 3的话应该很长一段时间不会有特别详细的细节披露出来。现在能够知道的就是,Grok 3应该也是一个MoE模型,跟DeepSeek是一样的。它到底有多少参数呢?现在猜测是有1.2万亿个参数,DeepSeek是6,710亿,它呢应该是在DeepSeek的基础上翻了一番。至于这个数字是不是准确,我不知道,因为呢我去问了Grok 3,也去问了ChatGPT,最终是给了我一个这样的数字,我并没有去查原文件。
Grok 3的使用感受到底是什么样的?它呢,下边有两个按钮,一个叫Deep Search,一个呢叫Think。Deep Search实际上就类似于OpenAI的Deep Research,就是这种深度研究,它会搜索大量的内容,然后呢,再去给你出报告。Think的话实际上就是类似于O1、O3这样的推理模型。这两个按钮它特别有意思,这两个按钮呢你可以都不按,也可以按其中一个,但是不允许两个都按。这个意思大家能够理解吧?你不能又要Think,又要Deep Search,这个事是不允许的。那你说我既不Think也不Deep Search,这事行不行?可以。
然后呢,我都试了一下。在Deep Search的时候,它会直接引用几十个甚至上百个网页,非常非常多的网页,然后呢给你一个似模似样的报告,很长,格式非常非常好的一份报告。在Think的时候呢也会搜索,并不是自己去瞎编的,他呢,会搜索25个网页,以及呢X上的帖子。大家注意,Deep Search时候是不搜索X的,在Think的时候是会搜索25个网页,加上X上的可能5个帖子吧,反正我搜了几次都是5个帖子,然后给你进行一定的推理,总结出一个小的文案出来。这就是这两个功能。如果两个都不选,我既不Think也不Deep Search,它呢就不联网了,就直接是给你编一个结果出来。
大家注意,所有的大模型,甭管是谁家模型多聪明,你让他直接编出来的这个结果,都是最不靠谱的。那么,他这三个功能,就是两个都不选,或者选其中任何一个。这三个功能呢,特别有意思的一点是什么?他可以混用。
在OpenAI上呢,这种模型混用是比较严格的。你如果开始一个新话题,选择了一个模型,提了几个问题之后,你现在想去切模型的时候,你这个模型,比如说允许有图片呢,下面你要去切的时候,只允许再切换到允许图片的模型。它不允许你切换到不允许读图片的模型去。这个是有限制的。但是呢,在Grok里面它是没有限制的。就是你随时可以开始新对话,对话的过程中可以随时切模型,你可以来回切来切去。
但是呢,在这个过程中呢,有一些不是那么有趣的地方是什么?就是如果你俩都不点上来,直接让模型去编,他就不联网了。他编完第一句以后呢,你说我现在要开始进行深度的搜索了,deep search了,这个时候他也不联了。或者说我现在需要think了,他也不会去联网,他就根据现有的内容接着编下去。他是这样的一种过程。
但如果你是以deep search开始的,那么think的时候呢,他就不去搜索帖子,因为deep search是不搜索X的。如果你是以deep search或者think开始,然后你最后切换回到完全编的,既不deep search,也不think的这样的一个裸模型,去输出的时候,继续搜索。所以它整个的逻辑,还稍微有一点点小混乱吧。
那么,Grok 3到底是不是宇宙第一聪明的这个模型呢?因为你如果用iOS APP你去选的时候,后面会写一个叫smartest,最聪明的。它是Grok 3 beta,后边写一个小括号,smartest,这个是最聪明的。到底是不是?我个人感受呢,现在相差还比较远。为什么呢?为了准备这期节目呢,我其实用Grok 3去做了很多的工作,包括是他的deep search或者think。但是最终呢。
Grok3生成的所有结果都被我扔掉了。最后的内容还是靠豆包和GPT search来完成的。原因也很简单,Grok 3 deep search现在报告的格式非常好,非常中规中矩,但是大量的段落是重复的。前边写了一遍,后边车轱辘话又写了一遍,用不同的格式,用同样的话来回来去说,这个是很讨厌的。
还有一个问题是幻觉大到完全无法使用的一个状态。比如说,我问他XAI现在有多少人了,图说现在有900多人了。后来我问了其他几个模型,都告诉我是有100多人,这个可能还是稍微靠谱一点点。都是联网搜索吗?你都不是自己瞎编的,那我不知道他这个900多人这个数是哪来的。
然后我说四个人在上面开发布会嘛,中间两个人是华人。这两天在国内又嗨起来了,说你看马斯克发布Grok3的时候,马斯克只能在一边点头,点头机器。中间是做C位的两个都是华人,旁边还有一个白人。那我就问他,我说这俩华人到底是谁,什么教育背景,然后就开始给我胡说八道。他也是举的XAI里边的一些华人高管,但是呢并不是当时坐在台上这两个人。
发生这种事情的原因很简单,就是他在deep search的时候,一下瞪了可能几十个上百个网页,回来拿这么多个网页进行总结的时候呢,把内容搞串了,实际上就产生幻觉嘛,就完全没法使。
然后呢,我去尝试了一下think。think呢其实没有特别细致的测试,为什么呢?本来我想去让他做编程,但是呢,他没有API。你没有API的话,就没有办法接到IDE里边去,你没办法作为插件接进去,就没有办法详细地参与到我的这整个的编程过程里头去。我做了些简单的测试,但是感觉呢think模型对于各种编程的复杂的环境,和各种的版本和类库的话,并不是那么熟悉。这块的话可能以后等他有了API以后,再去做详细测试了。直接生成还过得去,就是如果两个都不点,让他直接生成。但是呢,因为在手机上用,并没有办法进行。
特别大规模的使用和测试,现在看来呢,XAI的Grok 3采用的是叫分梯度发布的一个方式。就是说,我先发布一点,然后慢慢地让更多的人能用,再慢慢地发布更多的内容出来,然后不断地去迭代。他现在干这样的事情。现在呢,就是手机用户可以用。那么手机用户呢,第一个用户量不会特别大,而且在这个时候,可能还能够为Grok APP带来一批的下载,这个也算是一个小心思吧。
在手机用户使用的过程中呢,你不会给他特别繁重的任务。因为你要跟他做这种很复杂的沟通的话,你需要打好多字,举了个手机在这噼里啪啦打字,很费劲的。你像我,为了做这个测试,最后是把我的iPad接到了机械键盘上,夸啦夸啦往里打字,这个还是能够问一些稍微复杂一点东西。要真是拿着手机,在那个屏幕上打字的话,这个还是挺费劲的。还有什么呢,就是不会有太正式的任务是通过手机来进行的。比较正式的任务一般会通过网页,通过电脑来去工作。
Grok跟X网站上还是有一些付费的人能够使用的。你不能说老范你没交钱,你就说这玩意不好使。这些比较高付费的用户,比如说在X平台上交了40美金一个月的,或者在Grok平台上交了30美金一个月的,这些用户呢,他是可以去用的。但是这些用户呢,数量肯定会少很多。还有一点呢,就是皇帝的新衣嘛,我付了这么多钱了,我就不能允许任何人说我是傻子,我一定要说这个钱付的是值的。所以呢,就算他们遇到问题了,上来骂街的可能性也不是那么大。这个就是马斯克当前发布了一个版本,比较聪明的地方吧。
后面语音模式的话,可能还要再等一周。我估计语音识别率这块还有待优化吧,因为语音你认不出来就是认不出来,还有口音还有乱七八糟这种事情。咱们再看看,后边会做出一个什么样的结果出来。API的话,还需要再等几周。为什么API要这么费劲,原因呢是现在大家只能看马斯克官方的排行榜,我的测试数据是什么样的,排行榜是什么样的,你自己没法去测取,给你一个手机版本。
或者给你一个网页版本。你现在想把这几千道题输进去,测试这个事太费劲了。你要想测试这东西,必须要拿API写程序去测。这个过程其实有点像法拉利的一个跑车。法拉利就说了,这个东西太贵,而且做测速的时候太危险。如果你自己去测的话,非常不安全,而且保险公司也不允许我们干这个事情。所以,法拉利跑车的最高极速,只有法拉利官方出的这个版本是唯一标准,任何人不得私自去测试法拉利跑车的最高极速。这个事情我们不承认,而且这个事我们也不允许。
现在,XAI的Grok也就是在这样的一个阶段。等以后API上来以后,每一个人都会自己去跑各种各样的测试,或者做多模型的输出结果比较。到那个时候,丑媳妇就真的要见公婆了。下一步的话是要开源Grok 2。DeepSeek是上来直接把最新的模型开源了,而且上来说,你们每家部署的跟我现在自己官网上跑的是一模一样,没有任何差别的。而且不断的有新的技术演进,不断的有新的技术新发现,都直接发论文发出来了。
但是,马斯克永远是开源上一代模型。就是他在用Grok 2的时候,他把Grok 1开源了。Grok 3能够稳定正常运转的时候,他会把Grok 2开源出来,可能还要再等那么几周或者是几个月的时间。山姆·奥特曼现在也惦记开源,刚在X平台上发了帖子说:“唉,咱们投个票吧,你们觉得OpenAI应该开源什么样的模型出来?我们是不是应该开源一个在PC本地就可以跑的O3 mini模型出来,还是说我可以在手机端跑一个这个小模型出来?”
他们是准备走谷歌跟微软这条路的。谷歌也是这样,它有一个叫Gemmar的模型,比较小的这个模型是开源的,主要也是让大家在端侧来用的。还有,微软做的这个Phi模型,这个模型也是开源的,也是让大家在端侧去使用的。但是我觉得,OpenAI如果真的把它的O3的模型,或者哪怕是O3 mini的模型拿出来开源了,或者让大家能用上了。
这也是一个值得期待的事情。讲远了,再往后呢?发布会上,中间两个华人做C位了。这种事情呢,肯定会引起国内的热议嘛。你看,还得看华人吧?华人也比较好认嘛,中国脸。
台上是四个人。第一个是马斯克,马斯克坐一个角嘛。另外一个角呢,这个人叫巴布斯基,这个人呢,是个俄罗斯人。中间的两个人呢,一个呢,叫做吴宇怀,XAI的合伙人,浙江人,在国内上完初中,15岁去了加拿大多伦多大学的博士,后来呢,是斯坦福大学的博士后,现在是XAI的合伙人。还有一个呢,叫Jamie BA,这个人呢,没有看到他前面的一些履历,是多伦多大学计算机科学系的助理教授,AI教父Joffrey Hinton的学生。
等于一边一个白人,中间两个华人。但其实你要再仔细看一下,这个是全世界人民在美国进行AI创业。一个俄罗斯人,剩下三个可能都是加拿大人。马斯克自己其实是有美国国籍、加拿大国籍和南非国籍的。中间两个,一个是多伦多大学的博士,他大概从15岁就开始在加拿大生活。另外一个的话,Jamie BA是多伦多大学计算机科学系的助理教授。所以有可能,这台上坐的是三个加拿大人和一个俄罗斯人。只是看着脸的话,是这个两个白人和两个华人。
那么,XAI未来的策略会是什么样的呢?XAI现在应该也就是100多人吧。它具体是多少,这个数字呢,并没有那么确定。但我还是相信GPT search给我的结果吧,就是不要说900多人了,就是100多人的一个公司。这种公司呢,不太可能进行全面开花,七扯咔嚓我把整个的C端到B端所有东西都做起来。这个事其实有点难度。
20万张卡这个事呢,其实是别人都不具备的这个条件。它就可以进行快速的迭代。各种方法只要确认了,说我知道这个方法是什么样的。比如说DeepSeek出了论文了,出了开源模型了,那我方法确认以后,我就可以快速的在20万张卡上给你重现出来,甚至把你的参数翻多少倍再重现一遍。这个事他都是可以干的。这呢,就是暴力出奇迹。
就会有这样的结果。这个过程其实大家看看有点像什么呀?是不是有点像世界工厂?别人只要做出来了,反正我这有的是生产力,快速的复制、迭代更新就完了。所以,这个应该就是AI未来的路,就是甭管谁做出来的东西,我都可以快速验证、快速改进我的模型。
而且呢,它使用了完全的合成数据进行训练,可能有很少一部分真实数据吧,绝大部分数据都是合成数据。所谓合成数据呢,就是由其他大模型生成的数据。他通过一定的策略,要求其他大模型去给他吐数据出来,然后拿这个模型去训练。
Grok 3一旦使用了合同数据的话,会不断的说自己是Grok 2,或者说自己遵守open AI标准。这个事情你就避免不了,因为是用别的模型生成的数据嘛。虽然XAI说我们在生成数据的过程中呢,我们还进行了反复的检查,有错误都给去处理掉了,但是他不断的说自己是Grok2,说自己是遵守open AI的安全准则,这件事来说呢清洗的还不够干净。
Grok3呢,应该只做了很少的对齐和测试,就扔出来了。后面呢,是准备快速迭代的。你如果现在去问Grok3,或者是问open AI的话,他们都会告诉你说,Grok3本身呢安全性还是不错的。但是有一点是不可否认的,他训练完成一个月就发布了,训练完了以后,只是在XAI内部测试了两周,就直接把产品扔出来了。这个是挺难以想象的,因为像open AI这样的这种模型,它每一次训练完了以后,可能后边都是需要用年为单位去进行对抗测试,或者说进行调整,然后才敢把这东西放出来。现在XAI就是我这边训练完了,我就把它扔出来了。
而现在呢,对外公布的是,Grok呢是通过思维列进行道德商值评测,就是它等于是一个思考过程吧。那我在思考的时候,我就把所有的输入输出的信息,进行道德商值的加权平均,或者说做一个加权复合吧,做一个这样的这个分数出来。如果这个分数达到一定的阈值以后,就禁止回答了。他大概是用通过这种方式来去工作的。
但是呢,并没有进行大规模的真人对抗测试。当然了,这个东西你说以后是不是都需要像OpenAI这么干呢?不好说。OpenAI现在还没有特别大的问题,但是谷歌就属于有点走火入魔了,直接被忽悠瘸了那种,就是画出黑人华盛顿那样的,这个就属于忽悠瘸了。未来可能大家都会去像XAI这样往前走。其实像DeepSeek也是这样,它从2.5到3.0之间的发布,也是大概一个多月或者一个月左右的时间就扔出来了,所以都不会做特别详细的或者长时间的这种真人对抗。未来可能都是通过逻辑的方式,让模型的安全性达到一个可以接受的程度就完了。我不保证这东西绝对安全,大家凑合使就可以了。我在不进行严格测试的情况下,不断地去迭代,这个其实才是DeepSeek也好,像Grok也好,最大的一个优势。每个小时都在改进和升级,全世界都在开发新的算法和架构嘛。马斯克有20万张卡,就可以把所有的这些公开的信息都在我这20万张卡里头去试一下。别人只能进行小规模测试的时候,XAI就可以进行全量测试,甚至我可以在你原来的数据基础上,用两三倍或者更大的数据集进行测试,得到一个世界上最聪明的大模型。所以我说这个就像中国世界工厂的工作方式是一模一样的。
那么XAI的下一步会是什么样呢?应该是会通过快速迭代,把当前的模型整个先稳定下来。现在已经可能是世界上最聪明的模型了,咱们就相信马斯克说的吧。但是呢,这个世界上最聪明的模型还经常会胡说八道。当它的模型彻底稳定下来,基本上可以达到可用的状态以后,下一步其实呢都是流量大战。这些人去搞C端估计应该是比较难,因为就100来口子人吧。最新的模型不开源,你去在B端竞争的话,也是有一定难度的。你比如说我现在一个公司里边需要去部署大模型了,那我不能去部署Grok 2吧,我肯定是部署DeepSeek V3或者DeepSeek R1这样的模型。
因为这是当前开源的最好模型,所以在这一块儿的竞争上也会有一些难度。那么,XAI的策略应该是依靠不断的快速迭代更新,始终保持自己是世界上最聪明的模型,这样的一个位置,吸引部分B端和C端的用户加入进来。自己虽然是有一定的流量,但是X自己的流量对于XAI来说应该是不够的,因为Open AI已经花费1,400万美金打超级碗广告了。所以,现在的AI行业已经进入了一个流量争夺的时代。在这个时候,可以靠产品好,靠模型最聪明,吸引一部分用户进来。像DeepSeek美国排行榜排第一,就是因为模型好,不是因为其他任何原因。他也没有那么多钱去烧这个流量去,他也不可能花1,400万美金去砸超级碗。XAI可能以后也只能是向这个方向走了。后面的路其实并不明朗,怎么依靠XAI把这个钱挣回来,现在还不清楚,还要等马斯克脑筋急转弯,让大家眼前一亮。
好,这就是我们今天讲的XAI的Grok 3大模型,到底是不是世界上最聪明的模型?暴力真的可以出奇迹吗?感谢大家收听,请帮忙点赞、点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。