小米在发布他们的AI手机功能,也就是超级小爱的直播时翻车了。这到底是一个什么故事?大家好,欢迎收听老范讲故事的YouTube频道。常在河边走,没有不湿鞋。小米这样的一个可以在抖音、在各种平台直播间里头混得风生水起的品牌,直播多了以后,总是要有翻车那一天的。那么这就翻车了。
12月27号,在演示超级小爱功能的时候,台上坐了三人,老雷没在里头,雷军不在。第一个呢是卢伟冰,集团总裁兼任手机部总裁,也算是小米的很高的高管了。第二个人呢是王腾,红米的老大。负责演示的这个人呢叫张国权,小米手机系统软件部的总监。
结果演示的时候呢,就直接翻车了。AI手机这件事呢,从小米的情况来看,它在硬件上其实已经做得不错了,买的高通最先进的最新的芯片在里头,自己也研发了一些专门进行摄像或者是影像优化的芯片在里头,还使用了徕卡的色彩还原的一些算法在里头。现在说我也得演示一下我的AI手机了,结果就第一个无法唤醒小爱。他们在手机最底下有一个横线,就是在手机屏幕最下面,按道理呢,就是你推上去的时候,它可以退出应用,可以去做很多的这种多任务切换这样的功能。
他们呢做了一个设计,就是双击这个横线的时候应该可以把超级小爱唤醒。结果呢,演示两三次都没有成功唤醒,当场就丢人了。负责演示的张国权,我估计脸上汗就下来了。卢伟冰还是被现场做成了表情包,叫黑脸的卢伟冰。语音交互无反应,你跟他说请按照这个导航去哪哪哪,他们呢其实想演示一个什么。他可能搜索到了一些饭馆或者是一些公园的这种地址,按道理呢应该是要演示一个叫跨应用合作的一个功能,就是先把屏幕截下来,屏幕上的地址认出来,然后呢再去把后边的导航软件叫出来,再把这个地址塞进去,说请给我导航到那去。想去演示这样一功能,结果呢喊了几声,这个超级小爱没反应,肯定又翻车了嘛。
然后继续说,咱们照张相吧,说你给我照张相,这会没问题,把这个相机调出来了。这三个人呢……
很尴尬的在台前照了张合影。照完了以后,张国权呢就说了:“请帮我去发到微博上,然后呢再加一个什么什么主题。”这句话说完了以后,超级小爱呢就把微信拎起来了。当时说:“哎,这是怎么回事?什么情况?”再往后好像就没有再去演示一些其他东西了。这两天呢,大家也都在网上看,说:“你看,他们翻车了,怎么搞成这样?”哎,这个到底是一个什么样的情况?咱们今儿讲一讲。
小米呢最近是在AI领域里头发力,但是他发力的方式呢,肯定是叫放消息。他放了很多很多的消息。原来的小爱同学背后是谁呢?其实是豆包,就是字节跳动的火山引擎。下边的豆包大模型,其实国内的安卓手机,除了华为之外,用的都是它。小米、OPPO、vivo、荣耀,用的都是豆包大模型,只有华为号称是我自己整了一个。这个好不好使,反正我也没用过,咱们就不去评价了。
然后小米呢,自己肯定也是要去做训练的,只是没有什么声音发出来。就是所有这些做手机的厂商,都有一个绕不过去的弯,什么呢?就是你要不要把本地的数据发到云端去。大家都在讲说:“我要去保护用户隐私,这个数据是我的,我不能随随便便发到云端去,让这个云端的模型去处理。”那么他就一定要在本地使用一些小一点的模型。小米呢自己也有,他训练了一个,好像也是3B的一个模型吧,但是效果怎么样呢,待会我们再讲。
小米一方面在说我自己在训练,另外一方面呢,最近小米放出消息来说:“我们要凑这个万卡集群了。”就是1万张算力卡,我们把它凑在一起,然后去训练小米自己的模型。但是呢,并没有对外说他到底是一万张什么卡,有可能是升腾910,也有可能是摩尔线程,当然也有可能是AMD或者是英伟达的卡,但是现在不知道。据说原来有6,000多张,反正是说小米现在又花了一笔钱来干这个事。小米手里的现金还是比较多的,他是真要舍得花钱买的话,他还是可以搞起来的。
另外还有一个消息是什么呢,就是千万年薪挖了一个AI罗利,这个人呢叫罗福莉,95年的吧,千万年薪这种事呢。
大家就知道是一个宣传就好了。这种千万年薪通常是有大量的股票赔在里面的,所以他最后能够拿到手多少,得多长时间不离职,才可以兑现所有的股票,这个还需要慢慢的看。但是小米也就是表了一个决心,说我们真的是挖回大牛来了,真的要在大模型这块发力了。
这个罗福莉是一个什么样的人呢?北京师范大学计算机系本科,北京大学计算语言学的一个硕士。后来呢,是去了阿里达摩院,也是做大模型这一块。再往后呢,是去了幻方量化。你说做量化的跟大模型有什么关系?现在中国最好的大模型,就是这家炒股票的公司做的,叫Deepseek。它呢是Deepseek VR版本的主要开发者之一,现在被雷军给挖回来了,还作为典型进行了宣传。
千万年薪挖回来的这个AI罗莉,因为他叫罗芙利嘛,所以呢很多人就管他叫罗莉,这个跟名字稍微有点谐音,不要想歪了。现在这个小米,肯定也是要向Deepseek这条路上去走,也是去做MOE。他准备自己做一些类似这种东西。小米的模型呢,其实不光在手机上跑,他还有平板,还有很多的家用电器,还有汽车。我是下单买了小米苏7,小米苏7上,其实跑的是小米自己家的模型。云端的模型的话,未来小米肯定也是想自己去做。
小米汽车的智能驾驶呢,现在也是自己往前推进,没有说我要去用理想的呀,或者是小鹏的呀,或者是要去用华为呢。小米说我自己慢慢研究,自己往前推。目前呢,小米的智能驾驶算是在国内所有智能驾驶里头,他第一梯队靠后。第一梯队比较靠前的,像华为、理想、小鹏,但是呢,也绝对不会落到第二梯队。就小米还是在第一梯队里混着。
那么小米的这个超级小爱到底是怎么翻车的呢?刚才我们已经讲了,他翻车的一个过程,等于试验了三个场景,这三个场景呢都翻了。首先呢,大家要注意,他真正要演示的不仅仅是超级小爱,他真正要演示的东西其实是澎湃OS2.0。现在呢,大家都要去搞自己的操作系统,你没有自己的操作系统,就是有人问你说,哎,你为啥不用鸿蒙呢?鸿蒙喊了这么久。
而小米说:“我就是不用 OPPO、vivo,包括荣耀。”说荣耀这两天应该是改成功了,准备去上市了。甭管手机卖怎么样,先把股票发行了,看看能不能再圈一批韭菜进来。但是大家呢,一定要有自己的搜索系统。小米也去搞了,小米的搜索系统就叫澎湃OS。
中国的安卓生态呢,其实一直比较奇怪。中国在安卓最开始出来的时候,是上了一帮的这个厂进去,做各种的定制化。定制完了以后呢,谷歌就惊着了,说:“你们不能这么干。”对于谷歌这种安卓生态的维护者来说,他们最害怕的是什么?最害怕的是分叉。就是你们每一个人都在我这个安卓基础上做了一个分支,然后呢,我在升级的时候,你们就不跟着我升了,这个叫分叉。
那么他怎么办呢?谷歌对付这种分叉的方式就是一招,就是疯狂升级。我雇最好的程序员开始往前升级,这样的话你就必须要跟着我这个一起升,那你就没有工夫去分叉了,或者你就没有能力在我最新的版本上走太远的斜路。因为下一个版本出来以后,你还得往前跟着。
所以谷歌干了这么个事。后来呢,这些中国的安卓厂商说:“算了,我们也不去做这种深度定制了,咱们就做得简单一些吧。”他们做的这个东西呢,叫launcher,中文呢,有的叫桌面,不是那个Desktop。这个呢,在英文里叫启动器。什么意思呢?我们在安卓的手机界面上,你可以看到不同的图标、不同的字体、不同的桌面、不同的小组件,这些东西都是完完全全不一样的,就好像是完全换了一个手机似的。
因为安卓底层是给大家开放了很多这种权限,你可以自己去做它。不像iOS,iOS这些权限都没开,所以你拿谁的iPhone手机来都差不太多。但是你要拿着安卓手机来,你就可以变得千差万别。所以中国手机厂商说:“算了,底层我不动了,我就在上层做文章。”所以最早的中国的这些定制的安卓系统呢,都叫什么什么UI。小米叫米UI,华为呢应该也是叫什么UI,但我忘了叫什么了,因为现在就都是鸿蒙了。OPPO、vivo。
包括荣耀都是有自己的什么什么UI。它为什么是UI呢?就是user INTERFACE,就是他就做了个界面,底下东西我是不动的。原来大家都是干这件事。后来呢,还有一些新的问题需要解决,比如说什么呢?要把这个GMS干掉,叫Google Mobile Service,因为这个是Google Play、Gmail什么这些东西的一个底层支持,在中国是不允许落地的,所以要把它干掉。
所以每一家都有一些替代GMS的一些功能在里头。然后呢,中国的安卓系统还会干一个比较奇葩的事情,就是老外不干的,是什么呢?就是杀后台、限制启动以及启动对齐。这是干嘛呢?就是安卓系统本身的这种多任务调度其实是比较差的。所以这个手机为什么越用越卡,因为后台东西越来越多嘛。为了让它不卡怎么办呢?就是我们想办法把后台的项目给它杀掉,不要让它在后台跑。
好处是什么呢?就是你的后台应用会变少,你的手机没有那么卡顿。但坏处是什么呢?你比如说你这个该收到通知的时候,他没收着。你按道理说他应该在后台慢慢跑着,如果有通知的话,他会弹出来。但是呢,他就被前台的操作系统杀掉了。杀后台杀得最狠的其实是华为。就是华为手机经常有人说:“哎呀,你看我这华为手机使了这么多年了,还都不卡。”其实他就是把大量的后台应用给你杀掉了。
你经常会说:“哎,我这个为什么收到邮件没有弹窗呢?”或者“我为什么哪个应用后台有一些通知出来我没有弹窗呢?”他会有这种情况。中国的安卓手机做得比较好的,还有一个什么呢?就是叫启动对齐。这什么意思呢?就是有很多这种后台的进程,它是这个休息的,它每过多长时间启动一次,比如说你自己设定,我每一分钟启动一次,看看有什么消息回来没有。还有人说呢,我每45秒启动一次,这个就是你自己可以设的。
如果是所有的应用都在后台设这个东西的话,实际上你这个手机压根就没休息。大家还都是,现在该张三起了,下一个该李四起了,然后再该王五起了。
所以,中国的安卓手机里做了一个叫启动对齐的功能。就是,哎,现在到时间了,所有人都起来看一眼,要不要去上厕所呀。咱们讲的就是起夜似的,然后呢,回去睡觉,再到下一个时间点,我再统一把你们叫起来。这个其实也是可以让手机相对来说比较省电的方式。中国的安卓系统就是做了这些改变。
但是呢,到了AI时代,这个事就不好使了。为什么呢?因为到了AI时代,你需要做跨应用操作了。就像刚才我们讲的,现在屏幕上有一个地址,然后你就喊“小爱同学,请按照这个地址给我导航过去”。那么应该干嘛呢?应该是截屏,把当前的这个地址找到。比如说,你这是个饭馆的信息,里头有一块是地址,还有的呢,可能是饭馆的名字,还有这个饭馆的什么人均消费、照片这些东西。
所以,你首先要截屏,把这个饭馆的地址这块找到,然后再找到你本机里头默认的这个导航软件,把这个地址输进去,然后再说:“现在开始导航,带我去。”这个呢,就是需要跨应用协作了。如果按照原来他们做UI的这个方式,就是我就做launcher这个方式,你搞不定这个事。你必须要在底层里去下一些手脚,才有可能把它搞定。
那么,你就需要在界面上用更高的权限去拦截输入输出。当你去喊话的时候,相当于有一个应用要突然到前台去,然后把屏幕整个截下来。截完了以后,还要到里边去做识别。最好还是不要到图片上识别,因为大家知道,你去认这个地址时候有两种认法。第一种呢,就是我通过组件去认,显示饭馆地址的这个软件上头可能有一个组件,这个组件上叫地址显示,上头呢是用文字写着“我这个东西在哪哪哪”。还有一种方式呢,就是我直接把图片截下来,然后在这个图片上去做识别。
这两种方式,那一定是要从文字上去认。为什么?因为手机屏幕小,你经常这个地址写着写着就变成点点点,比如这个地方叫“北京市丰台区点点点”,这个是很正常的。你把这玩意儿识别出来,你要去导航,这不是疯了吗?这肯定导不到的。所以,一定是说。
我要把这个整个的屏幕拉出来。以后,用一个在计算机程序里头叫勾子,就是我们通过勾子的方式,把里边的一些信息,就是这个写地址的一个信息,把它拎出来,看看他后边到底写的完整的地址是什么。再把这个信息塞到其他的一些应用里边去导航。这是你要去干的。
这个的话,对于现在这个安卓系统,或者对于现在在安卓系统做模改来说,就要稍微费劲一些。安卓本身呢,在多任务调度设计上呢,就是被诟病,因为他经常后台任务抢前台的一些运算资源,让前台显得卡顿,导致这种比如无法激活,或者语音操控无反应。这三次翻车里的前两次,基本上呢,就是这么来的。
所以咱们就去看,可能就是小米在去做澎湃OS2.0的时候,涉及了一些他原来不太涉及的领域,导致了安卓本来就不太好使的这种前后台任务切换的这个过程中,发生了一些死锁的状态。前两次就这么坏掉了。那么第三次是怎么坏的呢?你让他发微博,他给你打开微信。这个呢,是本地小模型能力的问题。这个事全球无解。
什么意思呢?大家都想着说,我怎么能够让本地的数据在本地就可以处理完,不要到云端处理去。你按道理说,把这些信息扔到云端去做识别、去处理的话,是不会出错的。现在甭管是豆包,还是通义千问,或者是ChatGPT,它们现在做中文语音识别都非常准确,不会出这个问题的。一定是用的本地的语音识别模块,用的本地的模型去工作,它就会出这种事情。
这个不光是小米干这种烂事,苹果最近实际上也干了好多这种事,因为Apple Intelligence现在也在向全球的用户,尤其是中国之外的全球用户,去进行推送,他们就出现了很多问题。是什么呢?比如说苹果Apple Intelligence说了BBC说了,枪杀美国那个保险公司CEO的这位帅哥,自己在监狱里自杀了。这明显是个假新闻嘛。他其实就是小模型产生幻觉了,他把很多的信息凑在一起进行总结的时候,他没有分清楚谁哪条信息是真的,哪条信息是假的,或者说这些信息。
应该如何去进行总结归纳?他没搞明白。这种事情呢,就是你在这种3B的模型,即30亿参数的模型里头,挺难避免的。那你说,我能不能用一个更大一点的模型?你手机上有那么多内存,有那么多GPU吗?你没有。所以呢,这是一个不可能三角,就是本地的硬件算力、模型的能力和隐私保护,这三个在一起。你说我想让他这个很好地为我工作,那很简单,把数据扔到云端,让云端大模型去搞定,肯定没有任何毛病。
那你说我想让他在本地搞定,我不想把他放到云端去,那你上一个大点的模型也行。我现在看呢,相对来说还功能比较健全的模型,至少是7B或者是14B以上的模型,还是可以跑的。这种3B的模型呢,你让他做一些非常简单的工作OK,稍微复杂一点点的工作都搞不定。像这次小米翻车,包括最近苹果大量的Apple Intelligence的翻车,都是因为本地小模型跑不起来的一个原因。
这个事谁都没办法。未来有可能,他们会尝试在本地跑一些更大的模型,或者呢,比如苹果也好,小米也好,这个模型是我自己,我自己设计了一些云端模型,那他可能会让一些数据到云端去跑,这样的话就不会出现类似这种问题。现在大家都在想这个事怎么办。
那你说就算有这么多毛病,你演示之前稍微的测试测试行不行?那这件事呢,小米肯定是没有认真做。就是到年底了,估计几位老板也相对比较忙,这个演示机演示流程,肯定呢没有做很好的练习。但是安卓这个事情你没法整,就算你做了再好的练习,他可能后台有一个什么升级任务,或者有一些什么其他的任务没跑完,可能还在这跑着呢。
或者是这位人可能在现场直播之前说,我先给你看一看,看完了以后他把手机搁这了。但是可能很多的,特别是大模型相关的任务,在后台没杀掉呢,占了大量的资源,导致前端再去唤醒的时候,没有去正常的唤醒,这个都是有可能的。但是说一千道一万,他们还是准备的不够充分。还有呢,就是这个前面的演示者也相对来说比较紧张。我告诉你,这个人呢。
特别是在老板面前去做这种面向大众的直播的时候,绝对紧张,因为丢人丢的是老板的人。这些老板是可以决定你生杀大权的,回去说:“唉,你这个回去好好思考一下,对不对?这个担子是不是太重了?给你卸下一些来。”这个是很吓人的,所以他肯定是比较紧张,导致演示失败。如果他没有那么紧张的话,有时候可能掩饰就会成功。
因为像我原来也经常给人做掩饰,演示失败或者现场下不来台,也干过这种事情。但是你要想说:“哎,我自己在下边试得好好的,怎么上来就不行了呢?”就是上来就是紧张了。情况呢大概就是这样的一个情况。
那么继续,咱们再说什么AI手机的交互设计呢?其实现在大家还都在摸索。就是从现在超级小爱放出来的这个成功演示的各种视频来看,包括苹果的Apple Intelligence的这些成功的演示的情况,大家都在尝试做几件事情。
第一个是什么?就是语音交互的跨应用操作,这个是大家都想干的。因为如果你,比如说豆包或者是ChatGPT这一个应用,你跟他聊来聊去的,那你何必要把它集中在手机里面嘛?你直接跟这个APP聊就行了。所以你如果是要把它集成在手机的操作系统里头,一定是要有更高权限,跟手机里边的所有的应用去沟通。
而现在手机里的应用呢,它都是有这种外部调用方式的,就是你可以直接带着一个操作一起调用。不是说我要打开高德导航,然后再输入地址,它可以导航。它是允许你说直接调用,把地址塞进去,它就自动开始导航的,这个事都可以。所以调用是没问题的。
真正难的是什么?就是你要把当前应用上的信息流读出来,然后再根据你的这个语音指令,形成新的这种操作手机的指令,这块是比较费劲的。AI助手呢都希望可以直接读取屏幕信息,比如说这个屏幕上这个图是什么回事儿,那个是怎么回事儿,我怎么画圈儿还是怎么选择呀?这个呢现在是各个AI助手都在努力去做的。很多AI助手呢也在尝试获得应用内的信息,但是这块呢就要稍微麻烦一点。
因为安卓也好,iOS也好,都是在鼓吹沙箱。什么叫沙箱?就是一个应用只能访问自己的数据,你是不可以访问别人数据的。虽然这些AI应用助手都是操作系统级的,他可以访问所有人的数据,但是这些数据本身并没有对访问进行友好化的设置。什么意思呢?就是如果我预备着有人要来访问我的数据,那我至少应该贴一些锁隐条在上面,告诉你这是什么什么数据,那是什么什么数据,哪个数据你千万别动,哪个数据你是可以去阅读出什么信息来的。你要写一些这些东西在里头。
现在呢,这些做安卓应用的人是没有这个意识的,他就不写。因为像我们以前做这个清理软件Clean Master,我们是怎么干的?都是反复的在机器上测,测完了以后来猜这个东西到底是什么,删除了以后再看这个程序还能不能跑。所以这块其实对于AI的系统是挺不友好的。甚至还有一些应用会直接给自己的数据进行加密,这个对于AI的使用就更加不友好一些。而这也是现在AI手机探索的功能之一吧。
然后现在还有什么呢?就是通常AI都可以干的事,就是照片处理,甭管谁家的手机,一般照片处理都已经做出来了。什么抠图、美颜、去掉行人杂物,或者是扩图。我照完了以后说:“哎,请在旁边再给我扩出一小溜来。”这个现在都可以做,做的呢都还不错。用户到底是不是买账呢?现在我看到的大部分用户,其实对于这些AI功能并没有那么买账。苹果目前也还在挤牙膏,慢慢往前挤,甭管是不是翻车,但还是在慢慢的往前走,因为他也没有想明白用户到底要怎么用这个AI。
小米呢,自己其实并不是一个交互设计很强的公司,小米是一个性价比堆料公司,上来就是不服跑个分。你看我买了最新的CPU了,我的屏幕比别人刷新率高,我的镜头比别人的分辨率高。至于交互上呢,小米就属于叫及格水平,你指望他设计出一些你从来没见过的交互方式来,这个我觉得就不用想了,不是他擅长干的活。那么你说小米的AI还值得期待吗?我觉得也还值得期待吧。
为什么呢?因为小米是一个人车家全生态,就是它有手机、有手表、有耳机、平板,它还造车,还造所有的家用电器。所以它的生态比苹果还全。因此,对于它来说,如果有一个AI的功能在里边的话,还会是一个比较有趣、比较值得期待的事情。
小米算是家用智能里头场景最全的公司,它比华为、苹果以及所有这些公司的场景都全。你到小米的店里去看,只要你用的没有它不卖的,从电热水壶、保温杯、电饭锅,所有这些东西它全派。而且这些东西都可以通过Wi-Fi连接在一起,通过一套智能程序进行管理。
所以一旦AI管理了这么多场景之后,会很有意思。而且小米现在还在干一个特别有意思的事,它接入苹果生态链。它的汽车是可以使用Carplay的,它的这个家用的所有设备现在通通都去接苹果的这个Homekit。苹果有一个这种中间控制器,叫Homekit,就是你可以用iPhone、用iPad去控制你家里头所有支持Homekit的智能设备。现在小米说我自己去支持了,只要是你买小米家的东西,用苹果手机都可以很好的控制。
它现在走了这么一条路。你说小米这一次翻车了,后边怎么办?那工程师的事呗,翻了车回去努力折腾不就完了吗?小米干的活向来是这样,就是不会太出彩,但是也会在水准之上。小米属于工程师文化,它不是科学家,不是领袖,也不是艺术家。工程师文化就是我在一个可以接受的成本范围内,尽可能用好的东西,拆开了揉碎了给你看,然后把这些东西拼起来,造出一个你觉得可以接受的东西。
当前结合AI的杀手机应用应该还没有出现,这件事2025年依然可以期待一下。然后像小米这样的工程师公司,或者叫工程公司的话,我相信一旦有人能够摸索出来,如何在手机上、在电脑上、在车上、在家居产品上使用AI,他们会快速迭代、快速跟进。实在不行,在千万人民币找地挖人去呗,这个是小米擅长的事情。你等它自己创新这件事呢。
还是就别太想,就是他擅长堆料,不擅长创新。这就是这一次小米去演示超级小爱翻车的故事。好,这期就讲到这里。感谢大家收听,请帮忙点赞,点小铃铛,参加 Discord 讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
Both comments and pings are currently closed.