Meta为何砸下百亿重金投资而非直接收购AI数据标注巨头Scale AI?揭秘扎克伯格剑指AI生态霸权,欲借华人天才少年之力挽救Llama开源模型困局的深层战略与考量。

Meta为何砸下百亿重金投资而非直接收购AI数据标注巨头Scale AI?揭秘扎克伯格剑指AI生态霸权,欲借华人天才少年之力挽救Llama开源模型困局的深层战略与考量。已关闭评论

Scale AI得到了Meta超过百亿美金的投资,AI圈又热闹起来了。大家好,欢迎收听老范讲故事的YouTube频道。

Scale AI这个名字怎么好像在哪听说过呢?好像有点耳熟,对吧?他呢,有一位特别传奇的CEO,或者叫创始人吧,叫华人天才少年CEO亚历山大王。当时呢,跳出来指责DeepSeek用H100的就是他。

DeepSeek R1到底是怎么训练的?引起了广泛的关注。DeepSeek自己讲呢,我使用了2,000多块的H800就完成了训练。但是亚历山大王呢,在一次接受采访的时候就出来说了,中国实验室里边拥有的H100的数量远超大家的想象,DeepSeek自己至少有5万块H100。但是这个话呢,没有实际证据,讲完了也就完了。DeepSeek跟亚历山大王之间呢,并没有就这个事情进行认真的探讨,所以这个我们把它当成一种谣传吧。

3月份呢,DeepSeek自己再次发了声明,说他们训练的都是使用的合规的GPU,也就是允许向中国出口的这些GPU。因为如果不说这个的话,美国就有可能要求说禁止使用这玩意儿。DeepSeek就讲了说,甭管是R1也好,V3也好,训练呢都是使用的H800,或者是后面的H20这些GPU训练的。

黄仁勋来北京的时候呢,还专门跟梁文峰两个人坐在一块去沟通过,肯定是对得上口径。所以呢,这应该是唯一的事实,不要再去猜测到底有多少H100在DeepSeek手里这件事情了。

这位华人小哥呢,这件事让我记住了,因为他也是个很大的公司,估值250亿美金的公司。因为它是一个ToB的公司,是为别人服务的公司,所以不太跟普通用户打交道,很多人没有听说过。

Meta的投资呢,这一次算是有点一反常态。为什么呢?你说互联网企业出来投资个别人项目,不是很正常吗?不行,这个里头,美国有一家比较奇特的互联网企业,中国有一家比较奇特的互联网企业,都是不怎么投资别人的。美国的就是Meta,中国的是拼多多,就是我自己有钱,自己就憋了死干,不怎么投资。

但是Meta呢,还不太一样。扎克伯格的原则是什么?叫收购或者埋葬,要不然我把你买下来,要不然我把你干掉,这就是不服就干那种状态。所以我一直说,Meta这个公司的玩法挺中国的。而且到目前为止,因为扎克伯格是创始人,依然在管理Meta,所以Meta还是有非常强的创始人风格的。

像皮才管理谷歌,或者是提姆库克管理苹果这样,这就是职业经理人了,他们是没有什么风格的。

但是,扎克伯格的风格就是这样:买你,或者把你干掉。到目前为止,唯一失败的就是Snapchat。这个没买成,也没把人干掉,其他的都算是成功的。

Meta过往的收购历程:

2012年,10亿美金收购Instagram。现在Instagram也是多么如日中天的一款产品。2013年,曾经想用60亿美金去收购Snapchat,被拒绝了,没把人干掉。这是唯一的败绩。

2014年,190亿美金收购WhatsApp。现在有这么多的人使用WhatsApp。除了中国使用微信,美国可能Facebook message跟WhatsApp是各占一半儿。泰国、日本、台湾使用line,其他的国家都是使用WhatsApp的。

2014年,20亿美金买了Oculus,就是现在我们看到的Meta VR产品。2020年,4亿美金买了一个公司叫GIPHY。这公司干嘛的呢?是做动态图标,或者说一个通俗易懂的话,就这公司做表情包的。

2020年,10亿美金买了一个公司叫Kustomer。它呢是k开头,这个是做客户服务CRM平台的。因为呢,Meta有大量的广告业务,很多人需要通过Meta去进行一些管理,干脆我花钱买一个吧。

2023年,4亿美金买了VC unlimited这样的一个公司。这个呢是虚拟现实内容开发的。你想他做了这么半天VR产品,VR产品的内容很难开发,那我干脆买一个吧。但是这一次呢就有点费劲了,虽然钱不多,4亿美金,他被FTC,也就是美国联邦贸易委员会起诉了,说你这个是要垄断。你自己做Oculus,Meta自己的VR产品,你还把提供VR内容的公司买下来,这事有问题。后来胜诉了才完成收购。2021年就跑去收购了,到2023年胜诉了,才把这个收购完成。

这一次投资而不是收购呢,应该也是怕FTC起诉他。因为Scale AI是整个AI数据标注行业的老大,绝对龙头。那你要把它收购下来,肯定是要被起诉的,而且这次可能还打不赢这官司。250亿美金的估值,直接投进去100多亿美金,基本上也算是控制了,但是应该没有控股。这种公司你控股了估计都会被起诉。微软不敢控股OpenAI,应该也是同样的原因。

那么,Scale怎么就这么敏感呢?咱们好好看一下Scale到底干嘛的。Scale AI和他的天才少年华人CEO,你看这么多定语在前头,咱们稍微给大家介绍一下。AI时代三要素,大家还记得是什么吗?技术、算力、数据。

这个Scale AI就是做数据的。Scale AI是世界上最大的数据标注公司,它的估值是竞争对手第二名的10倍。就是它250亿美金,在它后边跟它竞争的人25亿美金。

Scale AI的客户有哪些?微软、OpenAI、Meta、谷歌、亚马逊、英伟达。做大模型的公司都是他客户,然后做汽车的公司也都是他的客户:特斯拉、Volvo、Cruise(就是通用做的这个无人车公司),还有丰田和通用都是他的客户。Paypal、Airbnb都是他客户,三星以及美国国防部。

一旦美国国防部成为你的客户了,你就很难被收购了。我原来服务过的一家公司叫Borland,Borland到最后就想被人收购,说我已经玩不太下去了,谁来买我?卖不掉,为什么?他也是有一个客户叫美国国防部。他当时是给好像海军陆战队,还是给谁去做指挥链路的数据链系统。其实也不是一个特别底层的服务,就是做了这样的一个项目以后,谁想收购他就需要经过特别严格的审核。到最后也没有被收购成功。

这也是解释了为什么Meta不能收购它,只能投资它,连控股它都不能。第一个,它的位置很尴尬。它是所有这些做AI项目的公司的数据提供商,你一旦把它收购了,你就又垄断了,FTC一定会起诉它。另外一个,他还有一个很重要的客户叫美国国防部,一旦收购他就会被很严格的审查,这种案子基本上没法通过。

再讲一下这位天才少年华人CEO吧。这个亚历山大王呢,1997年出生于美国新墨西哥州,父母为洛斯阿拉莫斯国家实验室的物理学家。这就是物理学家生出来的天才少年。为什么叫少年呢?就是他创业的时候一定要特别年轻才叫少年。高中时候就获得了USACO(也就是美国计算机奥林匹克)的金牌,所以算是根红苗正。

曾经被美国的Addepar和Quora等公司破格录用,担任过Quora技术主管。在担任主管时主导了推荐系统的优化,使得问答匹配效率提升了40%。Quora呢其实是知乎抄的它,就算是美国版的知乎,全世界最大的问答网站。这个里面的推荐系统是亚历山大王优化的。

再往后呢,就是美国这帮天才少年CEO必须要干的一件事儿,是什么?叫辍学创业。2015年以满分GPA考入了麻省理工学院(就是MIT),大一期间因为Alphago引起的AI热潮,决定辍学创业,就创立了今天的Scale AI。Scale AI的种子轮融资是YC给的,给了12万美金。YC的CEO是谁?或者说给他钱的人,这个人叫什么?

这个人叫山姆·奥特曼,所以这个圈子真的很小。

然后,Scale AI的发展历程是什么样的呢?2016年,亚历山大·王19岁辍学创业。最开始呢,是在这个AI圈子里头叫“拉框”干这个事的。什么是拉框呢?就是给自动驾驶领域标注数据。自动驾驶里头有很多的摄像头、激光雷达呀。实际上,激光雷达也是个摄像头,只是拍出来的是一个黑白的、深度信息的照片。然后,哪个地方是人,哪个地方是车,哪个地方是牌子,或者说交通标志标线,你呢,需要靠人去拉一个框,把它标注下来。所以他最早就干这个。像什么Waymo(就是谷歌的自动驾驶公司),还有Cruise这些无人驾驶车的公司呢,最早的数据都是从他这来的。

全球首个规模化众包标注网络,涵盖50多个国家和10万名标注员。你标这个事情,他肯定是很耗人工的嘛。所以呢,他最后说:“我们众包吧,你们谁愿意标,谁就在我这平台上去注册,你来给我标来。”所以呢,他干的活叫“数据处理的人肉云计算”。虽然是云计算,但是底下都是真人。“越人工越智能”就是从这儿来的。

逐渐发展到为整个行业提供高质量的数据。它等于是从拉框开始,到最后,比如说OpenAI使用的各种对话数据什么的,都是由Scale AI来去标注的。后面和美国国防部合作,标注军用数据。你说这个无人机满天飞,导弹满天飞,我怎么能够说把正确的目标炸中了?那你也需要拉框,你也需要去做标注,看清楚这个是平民,那个是军用目标,你要做这样的标注。这个都是Scale AI提供的服务,包括伦理服务,包括对齐服务,他都要去提供。

而且呢,他也对标注呢进行分级。你说:“我是一个普通标注员,一个小时8美金,我去给人拉框去。”你说:“我是一个医学博士,那你可以来标注什么呢?医疗数据。”现在医疗影像数据也都标注过了,你是可以直接用大模型去进行什么X光片读片的,那个效率非常高,而且要比普通人读的还要准。

现在全行业的数据都有标注:医疗的、多模态的数据、国防的,各种数据它全标了。应该是全世界最大的一个,而且标注数据最全的一个标注公司,就是Scale AI。

下面咱们来讲一讲Meta为什么给了这么多钱给Scale AI呢?你说你花钱买的服务就完了,你干嘛要去直接100多亿美金砸进去呢?按道理来说,像我们投资案子有几个阶段。第一个阶段就是占20%以内,250亿美金,20%的话应该是50亿美金吧。为什么是这样呢?花钱投了,你也拿到钱了,我还不影响报表。超过20%呢,叫重大影响。

每年,Meta出这个财报的时候,你要把它也审计一遍,才可以去投超过20%。所以,像我们以前经常投资的,投19.9%就是为了躲避这个审计成本。

还有呢,就是直接控股,直接占51%,那我说了就算,甚至可以把CEO干掉,剩下我自己管。再往后就是我直接把你并购进来,整个公司的这个财务报表全进来了。特别是这个公司有很大的用户数据,或者有很大的营收的时候,你把它买下来是很划算的。买下来以后,就可以跟自己原来的业务去做整合了。

那么,在他这干这个活就很怪,给的钱很多。你想,250亿美金的估值,他给了100多亿美金,就属于绝对超过20%。但是呢,又不控股。不控股的原因咱们刚才也讲了,国防部的项目,你要敢控股它,你就等着接受审查吧,这事很麻烦。

那为什么要给这么多钱呢?这个不符合投资逻辑。那咱们来分析分析这件事情呢,还是要从Llama 4的翻车开始说。Llama呢,是开源大模型的领军,Llama1、Llama2都算是领军。到Llama3呢,很多人都在这上面去进行开发,拿Llama3去做微调,拿Llama3去构建自己的系统,构建自己的模型。但是还被DeepSeek跟千问直接抄了后路了。

你说现在最好用的,可能DeepSeek R1是所有开源模型里最好用的(咱不跟闭源的比)。使用量最大的千问,为什么千问使用量最大呢?也还算好使,而且呢,它提供的特别全,从0.6B的一直到200多B的,就是各种大小全都给了。大家去微调模型的时候,肯定是选一个自己合适的拿出来用。

Llama4就翻车了。第一个给的模型的版本就很少,你说我想找一个小模型去微调,他没给。另外一个翻车的核心原因是什么?就数据不行。他呢,使用的是合成数据。在训练Llama 3的时候,其实基本上已经把全世界能用的数据都给用光了。等到Llama4的时候,你说我要继续提高数据量,更大的规模去进行训练,那你这数据哪来呢?基本上能用数据都用掉了呀。

那么,Llama这帮人想了,是我们干脆合成吧,自己合成一堆数据去训练吧。结果Llama4就翻车了。合成数据三大致命缺陷:第一个是什么?叫领域泛化能力缺失。

什么叫领域泛化能力?Meta其实有的是数据,你想它几十亿用户,大家每天在上面聊个天,发个动态,它有多少数据?它是最不缺数据的。全世界可能不缺数据的公司,一个是谷歌,一个是Meta,其他人都没有他们这么多的数据。但是呢,Meta的数据有个问题,Meta的数据呢都是日常对话。

咱们在里头聊个天,在里边发个日常动态。其他领域的数据,比如医疗、国防,这些领域的数据它是没有的。导致呢,M4在垂直领域里的应用基本上全线崩溃。你问他说:“这个人今天是不是开心?”他可以回答得很好。你给他张片子说:“这个是不是有癌症?”他都答不出来了,这很正常嘛。

第二个呢,就是多模态对齐失效。什么叫多模态对齐失效呢?Llama4生成了很多的图片,说来:“咱们拿这玩意儿去做实验吧,咱们拿这个东西去做这个训练吧。”但是呢,Llama4的很多训练的生成数据本身是错的。比如说吧,他生成了一个红色轿车在雨中行驶的一张图片,但是呢,雨滴的方向跟车的运动轨迹是错的,这个就没法整了。Llama自己生成图片的能力就很差,他再拿这种数据去训练的话,就一定是各种错误就都出来了。

第三个呢,就是鲁棒性对抗不足。很多黑客呢通过注入对抗样本,也就是说把一些错误数据扔进去,导致呢Llama4的图像识别的准确率直接从89%降低到12%。这就是Llama4使用自己生成的数据,或者叫合成数据,训练出来以后翻车的一个核心原因。

那哪里摔倒了在哪里爬起来呗,就数据不行吗?咱就整数据就完了。Llama自己又不缺数据,那么多用户数据咱们就标注呗,花大钱把它买下来。虽然现在不让买嘛,但是我花大钱基本上还是能控制的,应该算是第一大股东了。有了Scale AI,我们就算把最后一块短板给补上了,这个就是煤炭为什么要投资它的原因。

但是呢,这里还有一个问题,就是刚才我们讲了投资逻辑。我投个19%就不就够了吗?为什么要投这么多呢?这肯定是第一大股东,已经超过亚历山大王的这种创始人的股份了。那你到底想干嘛呢?

Meta自己现在的战略其实是很清晰的:60万块显卡,算力我有了;杨乐坤大神在这呢,技术我也有了;不就是缺数据吗?Scale AI我是第一大股东,基本上控制住了。而且开源大模型我原来是领军人物,现在被DeepSeek跟千问超越了。那我现在要靠什么东西弄回来?你说我光靠提供Llama4的能力,或者后边比如说我出一个Llama4.1、4.5,我把能力提上去,我就能够战胜DeepSeek R1吗?我就能够战胜千问吗?胜不了的。

那怎么办呢?大家想一想,Scale AI它的客户都是什么人?它的客户比如微软。你说我用了Scale AI训练完,标注了数据了,我后边能够用Llama吗?这不可能。OpenAI你说我后边用Llama去……

这也不可能。那谁会去用Llama呢?大家要想一想:除了最大的这些Scale AI的客户之外,其他那些小一点的Scale AI的客户,他们请Scale AI去标注了数据以后,这些被标注的数据拿去干嘛用了呢?训练自己的大模型去了?开玩笑呢!只有最大的这几家公司——谷歌、微软、英伟达、OpenAI这样的公司,你是标注了数据回去训练大模型了。所有小一点的公司,或者说除了这几家之外的这些公司,你用Scale AI去标注了数据回来,只能干一件事儿,就是微调小模型。

现在好了,Meta把Scale AI基本上算控制了——虽然不是控股,但基本控制了。那以后用Scale AI标注的数据,微调谁家的大模型效果最好呢?一定是微调Llama家的大模型效果最好!内部是一波人各种的优化,咱们自己内部的搞定完事。原来大家都是拿这个Scale AI标注的数据去微调千问的模型,现在不用挑了,一定是自己家的最好。所以呢,这算是AI生态建设的关键一步,直接形成了闭环了:你用Scale AI训练,你用Scale AI标注数据,然后我给你同时提供微调解决方案,一次搞定哈!这是这一次Meta投资Scale AI的一个底层逻辑。

但是因为Scale AI的行业地位,一旦收购必然被FTC起诉,再加上Scale AI是美国国防部的供应商,一旦收购必然被美国国防部去审查,所以Meta就被迫采取了这样的一种很不舒服的投资方案——投了100多亿美金,成为Scale AI的第一大股东。这个故事到这儿就跟大家讲完了。

感谢大家收听,请帮忙点赞、点小铃铛,参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见!

Comments are closed.