Grok 3发布:Elon Musk称其为“宇宙最聪明”大模型,暴力出奇迹的xAI,是否可以成为AI时代的世界工厂?

Grok 3发布:Elon Musk称其为“宇宙最聪明”大模型,暴力出奇迹的xAI,是否可以成为AI时代的世界工厂?已关闭评论

马斯克的Grok 3到底是不是世界上最聪明的大模型?暴力真的能出奇迹吗?大家好,欢迎收听老范讲故事的YouTube频道。世界上最聪明的大模型,这是马斯克对他自己家的Grok 3给的定义。如果有人不同意的话,那么会被开除的。因为XAI某一位员工在X上发帖说,Grok 3好像并没有那么聪明,然后就被XAI找到说,你要么删帖要么开除。后来这哥们想了想说,我得捍卫一下自己的言论自由,于是这哥们就被开除了。

在说所有细节之前,咱们先说说Grok 3到底怎么用。在2月18号北京时间中午12点的时候,马斯克跟另外三位小伙伴,一共四个人坐着开了场直播,把这个Grok 3发布了。我就四处去找,首先我是X每个月交8美金的Premium用户,我在X上使不了。X上你必须是40美元的Premium+用户,才可以去使用。在Grok的这个网站上呢,你也需要30美元一个月的账号才可以用。免费用户只能用Grok 2,API不充钱已经不让用了。如果是团队的话,至少花了5美元以上,每个月他会赠送你150美金,但前提呢是要跟XAI共享你的数据。

目前Grok 3的版本还没有上,你就算交钱了,你在XAI的网站上,也只能得到Grok 2的API,还要再等几周才会上线。Grok的苹果APP上面,是可以使用Grok 3 Beta这个版本的,即使是免费用户也可以去用。因为我呢对于XAI来说是一个免费用户,我就通过iOS,也就是iPhone和iPad这个版本上去,好好儿的测试了一下。后边儿呢咱们再去讲具体效果怎么样。

Grok 3有哪些具体信息呢?在整个的发布过程中呢,并没有特别详细的讲,只是说,我各种排行榜都排在第一了。Grok 3,Grok 3 mini是怎么去排上去的,讲了很多这样的话。但是呢,这个系统本身的一些细节,并没有那么详细的公开。因为可能在Grok 3稳定下来以后,会把Grok 2开源。现在Grok 1是开源的。

Grok 2可能有一些细节会被披露出来,但是Grok 3的话应该很长一段时间不会有特别详细的细节披露出来。现在能够知道的就是,Grok 3应该也是一个MoE模型,跟DeepSeek是一样的。它到底有多少参数呢?现在猜测是有1.2万亿个参数,DeepSeek是6,710亿,它呢应该是在DeepSeek的基础上翻了一番。至于这个数字是不是准确,我不知道,因为呢我去问了Grok 3,也去问了ChatGPT,最终是给了我一个这样的数字,我并没有去查原文件。

Grok 3的使用感受到底是什么样的?它呢,下边有两个按钮,一个叫Deep Search,一个呢叫Think。Deep Search实际上就类似于OpenAI的Deep Research,就是这种深度研究,它会搜索大量的内容,然后呢,再去给你出报告。Think的话实际上就是类似于O1、O3这样的推理模型。这两个按钮它特别有意思,这两个按钮呢你可以都不按,也可以按其中一个,但是不允许两个都按。这个意思大家能够理解吧?你不能又要Think,又要Deep Search,这个事是不允许的。那你说我既不Think也不Deep Search,这事行不行?可以。

然后呢,我都试了一下。在Deep Search的时候,它会直接引用几十个甚至上百个网页,非常非常多的网页,然后呢给你一个似模似样的报告,很长,格式非常非常好的一份报告。在Think的时候呢也会搜索,并不是自己去瞎编的,他呢,会搜索25个网页,以及呢X上的帖子。大家注意,Deep Search时候是不搜索X的,在Think的时候是会搜索25个网页,加上X上的可能5个帖子吧,反正我搜了几次都是5个帖子,然后给你进行一定的推理,总结出一个小的文案出来。这就是这两个功能。如果两个都不选,我既不Think也不Deep Search,它呢就不联网了,就直接是给你编一个结果出来。

大家注意,所有的大模型,甭管是谁家模型多聪明,你让他直接编出来的这个结果,都是最不靠谱的。那么,他这三个功能,就是两个都不选,或者选其中任何一个。这三个功能呢,特别有意思的一点是什么?他可以混用。

在OpenAI上呢,这种模型混用是比较严格的。你如果开始一个新话题,选择了一个模型,提了几个问题之后,你现在想去切模型的时候,你这个模型,比如说允许有图片呢,下面你要去切的时候,只允许再切换到允许图片的模型。它不允许你切换到不允许读图片的模型去。这个是有限制的。但是呢,在Grok里面它是没有限制的。就是你随时可以开始新对话,对话的过程中可以随时切模型,你可以来回切来切去。

但是呢,在这个过程中呢,有一些不是那么有趣的地方是什么?就是如果你俩都不点上来,直接让模型去编,他就不联网了。他编完第一句以后呢,你说我现在要开始进行深度的搜索了,deep search了,这个时候他也不联了。或者说我现在需要think了,他也不会去联网,他就根据现有的内容接着编下去。他是这样的一种过程。

但如果你是以deep search开始的,那么think的时候呢,他就不去搜索帖子,因为deep search是不搜索X的。如果你是以deep search或者think开始,然后你最后切换回到完全编的,既不deep search,也不think的这样的一个裸模型,去输出的时候,继续搜索。所以它整个的逻辑,还稍微有一点点小混乱吧。

那么,Grok 3到底是不是宇宙第一聪明的这个模型呢?因为你如果用iOS APP你去选的时候,后面会写一个叫smartest,最聪明的。它是Grok 3 beta,后边写一个小括号,smartest,这个是最聪明的。到底是不是?我个人感受呢,现在相差还比较远。为什么呢?为了准备这期节目呢,我其实用Grok 3去做了很多的工作,包括是他的deep search或者think。但是最终呢。

Grok3生成的所有结果都被我扔掉了。最后的内容还是靠豆包和GPT search来完成的。原因也很简单,Grok 3 deep search现在报告的格式非常好,非常中规中矩,但是大量的段落是重复的。前边写了一遍,后边车轱辘话又写了一遍,用不同的格式,用同样的话来回来去说,这个是很讨厌的。

还有一个问题是幻觉大到完全无法使用的一个状态。比如说,我问他XAI现在有多少人了,图说现在有900多人了。后来我问了其他几个模型,都告诉我是有100多人,这个可能还是稍微靠谱一点点。都是联网搜索吗?你都不是自己瞎编的,那我不知道他这个900多人这个数是哪来的。

然后我说四个人在上面开发布会嘛,中间两个人是华人。这两天在国内又嗨起来了,说你看马斯克发布Grok3的时候,马斯克只能在一边点头,点头机器。中间是做C位的两个都是华人,旁边还有一个白人。那我就问他,我说这俩华人到底是谁,什么教育背景,然后就开始给我胡说八道。他也是举的XAI里边的一些华人高管,但是呢并不是当时坐在台上这两个人。

发生这种事情的原因很简单,就是他在deep search的时候,一下瞪了可能几十个上百个网页,回来拿这么多个网页进行总结的时候呢,把内容搞串了,实际上就产生幻觉嘛,就完全没法使。

然后呢,我去尝试了一下think。think呢其实没有特别细致的测试,为什么呢?本来我想去让他做编程,但是呢,他没有API。你没有API的话,就没有办法接到IDE里边去,你没办法作为插件接进去,就没有办法详细地参与到我的这整个的编程过程里头去。我做了些简单的测试,但是感觉呢think模型对于各种编程的复杂的环境,和各种的版本和类库的话,并不是那么熟悉。这块的话可能以后等他有了API以后,再去做详细测试了。直接生成还过得去,就是如果两个都不点,让他直接生成。但是呢,因为在手机上用,并没有办法进行。

特别大规模的使用和测试,现在看来呢,XAI的Grok 3采用的是叫分梯度发布的一个方式。就是说,我先发布一点,然后慢慢地让更多的人能用,再慢慢地发布更多的内容出来,然后不断地去迭代。他现在干这样的事情。现在呢,就是手机用户可以用。那么手机用户呢,第一个用户量不会特别大,而且在这个时候,可能还能够为Grok APP带来一批的下载,这个也算是一个小心思吧。

在手机用户使用的过程中呢,你不会给他特别繁重的任务。因为你要跟他做这种很复杂的沟通的话,你需要打好多字,举了个手机在这噼里啪啦打字,很费劲的。你像我,为了做这个测试,最后是把我的iPad接到了机械键盘上,夸啦夸啦往里打字,这个还是能够问一些稍微复杂一点东西。要真是拿着手机,在那个屏幕上打字的话,这个还是挺费劲的。还有什么呢,就是不会有太正式的任务是通过手机来进行的。比较正式的任务一般会通过网页,通过电脑来去工作。

Grok跟X网站上还是有一些付费的人能够使用的。你不能说老范你没交钱,你就说这玩意不好使。这些比较高付费的用户,比如说在X平台上交了40美金一个月的,或者在Grok平台上交了30美金一个月的,这些用户呢,他是可以去用的。但是这些用户呢,数量肯定会少很多。还有一点呢,就是皇帝的新衣嘛,我付了这么多钱了,我就不能允许任何人说我是傻子,我一定要说这个钱付的是值的。所以呢,就算他们遇到问题了,上来骂街的可能性也不是那么大。这个就是马斯克当前发布了一个版本,比较聪明的地方吧。

后面语音模式的话,可能还要再等一周。我估计语音识别率这块还有待优化吧,因为语音你认不出来就是认不出来,还有口音还有乱七八糟这种事情。咱们再看看,后边会做出一个什么样的结果出来。API的话,还需要再等几周。为什么API要这么费劲,原因呢是现在大家只能看马斯克官方的排行榜,我的测试数据是什么样的,排行榜是什么样的,你自己没法去测取,给你一个手机版本。

或者给你一个网页版本。你现在想把这几千道题输进去,测试这个事太费劲了。你要想测试这东西,必须要拿API写程序去测。这个过程其实有点像法拉利的一个跑车。法拉利就说了,这个东西太贵,而且做测速的时候太危险。如果你自己去测的话,非常不安全,而且保险公司也不允许我们干这个事情。所以,法拉利跑车的最高极速,只有法拉利官方出的这个版本是唯一标准,任何人不得私自去测试法拉利跑车的最高极速。这个事情我们不承认,而且这个事我们也不允许。

现在,XAI的Grok也就是在这样的一个阶段。等以后API上来以后,每一个人都会自己去跑各种各样的测试,或者做多模型的输出结果比较。到那个时候,丑媳妇就真的要见公婆了。下一步的话是要开源Grok 2。DeepSeek是上来直接把最新的模型开源了,而且上来说,你们每家部署的跟我现在自己官网上跑的是一模一样,没有任何差别的。而且不断的有新的技术演进,不断的有新的技术新发现,都直接发论文发出来了。

但是,马斯克永远是开源上一代模型。就是他在用Grok 2的时候,他把Grok 1开源了。Grok 3能够稳定正常运转的时候,他会把Grok 2开源出来,可能还要再等那么几周或者是几个月的时间。山姆·奥特曼现在也惦记开源,刚在X平台上发了帖子说:“唉,咱们投个票吧,你们觉得OpenAI应该开源什么样的模型出来?我们是不是应该开源一个在PC本地就可以跑的O3 mini模型出来,还是说我可以在手机端跑一个这个小模型出来?”

他们是准备走谷歌跟微软这条路的。谷歌也是这样,它有一个叫Gemmar的模型,比较小的这个模型是开源的,主要也是让大家在端侧来用的。还有,微软做的这个Phi模型,这个模型也是开源的,也是让大家在端侧去使用的。但是我觉得,OpenAI如果真的把它的O3的模型,或者哪怕是O3 mini的模型拿出来开源了,或者让大家能用上了。

这也是一个值得期待的事情。讲远了,再往后呢?发布会上,中间两个华人做C位了。这种事情呢,肯定会引起国内的热议嘛。你看,还得看华人吧?华人也比较好认嘛,中国脸。

台上是四个人。第一个是马斯克,马斯克坐一个角嘛。另外一个角呢,这个人叫巴布斯基,这个人呢,是个俄罗斯人。中间的两个人呢,一个呢,叫做吴宇怀,XAI的合伙人,浙江人,在国内上完初中,15岁去了加拿大多伦多大学的博士,后来呢,是斯坦福大学的博士后,现在是XAI的合伙人。还有一个呢,叫Jamie BA,这个人呢,没有看到他前面的一些履历,是多伦多大学计算机科学系的助理教授,AI教父Joffrey Hinton的学生。

等于一边一个白人,中间两个华人。但其实你要再仔细看一下,这个是全世界人民在美国进行AI创业。一个俄罗斯人,剩下三个可能都是加拿大人。马斯克自己其实是有美国国籍、加拿大国籍和南非国籍的。中间两个,一个是多伦多大学的博士,他大概从15岁就开始在加拿大生活。另外一个的话,Jamie BA是多伦多大学计算机科学系的助理教授。所以有可能,这台上坐的是三个加拿大人和一个俄罗斯人。只是看着脸的话,是这个两个白人和两个华人。

那么,XAI未来的策略会是什么样的呢?XAI现在应该也就是100多人吧。它具体是多少,这个数字呢,并没有那么确定。但我还是相信GPT search给我的结果吧,就是不要说900多人了,就是100多人的一个公司。这种公司呢,不太可能进行全面开花,七扯咔嚓我把整个的C端到B端所有东西都做起来。这个事其实有点难度。

20万张卡这个事呢,其实是别人都不具备的这个条件。它就可以进行快速的迭代。各种方法只要确认了,说我知道这个方法是什么样的。比如说DeepSeek出了论文了,出了开源模型了,那我方法确认以后,我就可以快速的在20万张卡上给你重现出来,甚至把你的参数翻多少倍再重现一遍。这个事他都是可以干的。这呢,就是暴力出奇迹。

就会有这样的结果。这个过程其实大家看看有点像什么呀?是不是有点像世界工厂?别人只要做出来了,反正我这有的是生产力,快速的复制、迭代更新就完了。所以,这个应该就是AI未来的路,就是甭管谁做出来的东西,我都可以快速验证、快速改进我的模型。

而且呢,它使用了完全的合成数据进行训练,可能有很少一部分真实数据吧,绝大部分数据都是合成数据。所谓合成数据呢,就是由其他大模型生成的数据。他通过一定的策略,要求其他大模型去给他吐数据出来,然后拿这个模型去训练。

Grok 3一旦使用了合同数据的话,会不断的说自己是Grok 2,或者说自己遵守open AI标准。这个事情你就避免不了,因为是用别的模型生成的数据嘛。虽然XAI说我们在生成数据的过程中呢,我们还进行了反复的检查,有错误都给去处理掉了,但是他不断的说自己是Grok2,说自己是遵守open AI的安全准则,这件事来说呢清洗的还不够干净。

Grok3呢,应该只做了很少的对齐和测试,就扔出来了。后面呢,是准备快速迭代的。你如果现在去问Grok3,或者是问open AI的话,他们都会告诉你说,Grok3本身呢安全性还是不错的。但是有一点是不可否认的,他训练完成一个月就发布了,训练完了以后,只是在XAI内部测试了两周,就直接把产品扔出来了。这个是挺难以想象的,因为像open AI这样的这种模型,它每一次训练完了以后,可能后边都是需要用年为单位去进行对抗测试,或者说进行调整,然后才敢把这东西放出来。现在XAI就是我这边训练完了,我就把它扔出来了。

而现在呢,对外公布的是,Grok呢是通过思维列进行道德商值评测,就是它等于是一个思考过程吧。那我在思考的时候,我就把所有的输入输出的信息,进行道德商值的加权平均,或者说做一个加权复合吧,做一个这样的这个分数出来。如果这个分数达到一定的阈值以后,就禁止回答了。他大概是用通过这种方式来去工作的。

但是呢,并没有进行大规模的真人对抗测试。当然了,这个东西你说以后是不是都需要像OpenAI这么干呢?不好说。OpenAI现在还没有特别大的问题,但是谷歌就属于有点走火入魔了,直接被忽悠瘸了那种,就是画出黑人华盛顿那样的,这个就属于忽悠瘸了。未来可能大家都会去像XAI这样往前走。其实像DeepSeek也是这样,它从2.5到3.0之间的发布,也是大概一个多月或者一个月左右的时间就扔出来了,所以都不会做特别详细的或者长时间的这种真人对抗。未来可能都是通过逻辑的方式,让模型的安全性达到一个可以接受的程度就完了。我不保证这东西绝对安全,大家凑合使就可以了。我在不进行严格测试的情况下,不断地去迭代,这个其实才是DeepSeek也好,像Grok也好,最大的一个优势。每个小时都在改进和升级,全世界都在开发新的算法和架构嘛。马斯克有20万张卡,就可以把所有的这些公开的信息都在我这20万张卡里头去试一下。别人只能进行小规模测试的时候,XAI就可以进行全量测试,甚至我可以在你原来的数据基础上,用两三倍或者更大的数据集进行测试,得到一个世界上最聪明的大模型。所以我说这个就像中国世界工厂的工作方式是一模一样的。

那么XAI的下一步会是什么样呢?应该是会通过快速迭代,把当前的模型整个先稳定下来。现在已经可能是世界上最聪明的模型了,咱们就相信马斯克说的吧。但是呢,这个世界上最聪明的模型还经常会胡说八道。当它的模型彻底稳定下来,基本上可以达到可用的状态以后,下一步其实呢都是流量大战。这些人去搞C端估计应该是比较难,因为就100来口子人吧。最新的模型不开源,你去在B端竞争的话,也是有一定难度的。你比如说我现在一个公司里边需要去部署大模型了,那我不能去部署Grok 2吧,我肯定是部署DeepSeek V3或者DeepSeek R1这样的模型。

因为这是当前开源的最好模型,所以在这一块儿的竞争上也会有一些难度。那么,XAI的策略应该是依靠不断的快速迭代更新,始终保持自己是世界上最聪明的模型,这样的一个位置,吸引部分B端和C端的用户加入进来。自己虽然是有一定的流量,但是X自己的流量对于XAI来说应该是不够的,因为Open AI已经花费1,400万美金打超级碗广告了。所以,现在的AI行业已经进入了一个流量争夺的时代。在这个时候,可以靠产品好,靠模型最聪明,吸引一部分用户进来。像DeepSeek美国排行榜排第一,就是因为模型好,不是因为其他任何原因。他也没有那么多钱去烧这个流量去,他也不可能花1,400万美金去砸超级碗。XAI可能以后也只能是向这个方向走了。后面的路其实并不明朗,怎么依靠XAI把这个钱挣回来,现在还不清楚,还要等马斯克脑筋急转弯,让大家眼前一亮。

好,这就是我们今天讲的XAI的Grok 3大模型,到底是不是世界上最聪明的模型?暴力真的可以出奇迹吗?感谢大家收听,请帮忙点赞、点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Comments are closed.