Meta为何砸下百亿重金投资而非直接收购AI数据标注巨头Scale AI?揭秘扎克伯格剑指AI生态霸权,欲借华人天才少年之力挽救Llama开源模型困局的深层战略与考量。
6 月 11
AIGC, Meta的故事 AI产业链, AI伦理, AI大模型, AI技术, AI投资, AI数据, AI算力, DeepSeek, FTC, H100, H800, LLaMA, Llama 4, Meta, OpenAI, Sam Altman, Scale AI, YC, 亚历山大王, 亚马逊, 华人创业, 合成数据, 商业分析, 微软, 扎克伯格, 数据垄断, 数据标注, 模型微调, 科技巨头并购, 科技行业动态, 科技评论, 美国国防部, 老范讲故事, 自动驾驶数据, 英伟达, 谷歌 Meta为何砸下百亿重金投资而非直接收购AI数据标注巨头Scale AI?揭秘扎克伯格剑指AI生态霸权,欲借华人天才少年之力挽救Llama开源模型困局的深层战略与考量。已关闭评论
Scale AI得到了Meta超过百亿美金的投资,AI圈又热闹起来了。大家好,欢迎收听老范讲故事的YouTube频道。
Scale AI这个名字怎么好像在哪听说过呢?好像有点耳熟,对吧?他呢,有一位特别传奇的CEO,或者叫创始人吧,叫华人天才少年CEO亚历山大王。当时呢,跳出来指责DeepSeek用H100的就是他。
DeepSeek R1到底是怎么训练的?引起了广泛的关注。DeepSeek自己讲呢,我使用了2,000多块的H800就完成了训练。但是亚历山大王呢,在一次接受采访的时候就出来说了,中国实验室里边拥有的H100的数量远超大家的想象,DeepSeek自己至少有5万块H100。但是这个话呢,没有实际证据,讲完了也就完了。DeepSeek跟亚历山大王之间呢,并没有就这个事情进行认真的探讨,所以这个我们把它当成一种谣传吧。
3月份呢,DeepSeek自己再次发了声明,说他们训练的都是使用的合规的GPU,也就是允许向中国出口的这些GPU。因为如果不说这个的话,美国就有可能要求说禁止使用这玩意儿。DeepSeek就讲了说,甭管是R1也好,V3也好,训练呢都是使用的H800,或者是后面的H20这些GPU训练的。
黄仁勋来北京的时候呢,还专门跟梁文峰两个人坐在一块去沟通过,肯定是对得上口径。所以呢,这应该是唯一的事实,不要再去猜测到底有多少H100在DeepSeek手里这件事情了。
这位华人小哥呢,这件事让我记住了,因为他也是个很大的公司,估值250亿美金的公司。因为它是一个ToB的公司,是为别人服务的公司,所以不太跟普通用户打交道,很多人没有听说过。
Meta的投资呢,这一次算是有点一反常态。为什么呢?你说互联网企业出来投资个别人项目,不是很正常吗?不行,这个里头,美国有一家比较奇特的互联网企业,中国有一家比较奇特的互联网企业,都是不怎么投资别人的。美国的就是Meta,中国的是拼多多,就是我自己有钱,自己就憋了死干,不怎么投资。
但是Meta呢,还不太一样。扎克伯格的原则是什么?叫收购或者埋葬,要不然我把你买下来,要不然我把你干掉,这就是不服就干那种状态。所以我一直说,Meta这个公司的玩法挺中国的。而且到目前为止,因为扎克伯格是创始人,依然在管理Meta,所以Meta还是有非常强的创始人风格的。
像皮才管理谷歌,或者是提姆库克管理苹果这样,这就是职业经理人了,他们是没有什么风格的。
但是,扎克伯格的风格就是这样:买你,或者把你干掉。到目前为止,唯一失败的就是Snapchat。这个没买成,也没把人干掉,其他的都算是成功的。
Meta过往的收购历程:
2012年,10亿美金收购Instagram。现在Instagram也是多么如日中天的一款产品。2013年,曾经想用60亿美金去收购Snapchat,被拒绝了,没把人干掉。这是唯一的败绩。
2014年,190亿美金收购WhatsApp。现在有这么多的人使用WhatsApp。除了中国使用微信,美国可能Facebook message跟WhatsApp是各占一半儿。泰国、日本、台湾使用line,其他的国家都是使用WhatsApp的。
2014年,20亿美金买了Oculus,就是现在我们看到的Meta VR产品。2020年,4亿美金买了一个公司叫GIPHY。这公司干嘛的呢?是做动态图标,或者说一个通俗易懂的话,就这公司做表情包的。
2020年,10亿美金买了一个公司叫Kustomer。它呢是k开头,这个是做客户服务CRM平台的。因为呢,Meta有大量的广告业务,很多人需要通过Meta去进行一些管理,干脆我花钱买一个吧。
2023年,4亿美金买了VC unlimited这样的一个公司。这个呢是虚拟现实内容开发的。你想他做了这么半天VR产品,VR产品的内容很难开发,那我干脆买一个吧。但是这一次呢就有点费劲了,虽然钱不多,4亿美金,他被FTC,也就是美国联邦贸易委员会起诉了,说你这个是要垄断。你自己做Oculus,Meta自己的VR产品,你还把提供VR内容的公司买下来,这事有问题。后来胜诉了才完成收购。2021年就跑去收购了,到2023年胜诉了,才把这个收购完成。
这一次投资而不是收购呢,应该也是怕FTC起诉他。因为Scale AI是整个AI数据标注行业的老大,绝对龙头。那你要把它收购下来,肯定是要被起诉的,而且这次可能还打不赢这官司。250亿美金的估值,直接投进去100多亿美金,基本上也算是控制了,但是应该没有控股。这种公司你控股了估计都会被起诉。微软不敢控股OpenAI,应该也是同样的原因。
那么,Scale怎么就这么敏感呢?咱们好好看一下Scale到底干嘛的。Scale AI和他的天才少年华人CEO,你看这么多定语在前头,咱们稍微给大家介绍一下。AI时代三要素,大家还记得是什么吗?技术、算力、数据。
这个Scale AI就是做数据的。Scale AI是世界上最大的数据标注公司,它的估值是竞争对手第二名的10倍。就是它250亿美金,在它后边跟它竞争的人25亿美金。
Scale AI的客户有哪些?微软、OpenAI、Meta、谷歌、亚马逊、英伟达。做大模型的公司都是他客户,然后做汽车的公司也都是他的客户:特斯拉、Volvo、Cruise(就是通用做的这个无人车公司),还有丰田和通用都是他的客户。Paypal、Airbnb都是他客户,三星以及美国国防部。
一旦美国国防部成为你的客户了,你就很难被收购了。我原来服务过的一家公司叫Borland,Borland到最后就想被人收购,说我已经玩不太下去了,谁来买我?卖不掉,为什么?他也是有一个客户叫美国国防部。他当时是给好像海军陆战队,还是给谁去做指挥链路的数据链系统。其实也不是一个特别底层的服务,就是做了这样的一个项目以后,谁想收购他就需要经过特别严格的审核。到最后也没有被收购成功。
这也是解释了为什么Meta不能收购它,只能投资它,连控股它都不能。第一个,它的位置很尴尬。它是所有这些做AI项目的公司的数据提供商,你一旦把它收购了,你就又垄断了,FTC一定会起诉它。另外一个,他还有一个很重要的客户叫美国国防部,一旦收购他就会被很严格的审查,这种案子基本上没法通过。
再讲一下这位天才少年华人CEO吧。这个亚历山大王呢,1997年出生于美国新墨西哥州,父母为洛斯阿拉莫斯国家实验室的物理学家。这就是物理学家生出来的天才少年。为什么叫少年呢?就是他创业的时候一定要特别年轻才叫少年。高中时候就获得了USACO(也就是美国计算机奥林匹克)的金牌,所以算是根红苗正。
曾经被美国的Addepar和Quora等公司破格录用,担任过Quora技术主管。在担任主管时主导了推荐系统的优化,使得问答匹配效率提升了40%。Quora呢其实是知乎抄的它,就算是美国版的知乎,全世界最大的问答网站。这个里面的推荐系统是亚历山大王优化的。
再往后呢,就是美国这帮天才少年CEO必须要干的一件事儿,是什么?叫辍学创业。2015年以满分GPA考入了麻省理工学院(就是MIT),大一期间因为Alphago引起的AI热潮,决定辍学创业,就创立了今天的Scale AI。Scale AI的种子轮融资是YC给的,给了12万美金。YC的CEO是谁?或者说给他钱的人,这个人叫什么?
这个人叫山姆·奥特曼,所以这个圈子真的很小。
然后,Scale AI的发展历程是什么样的呢?2016年,亚历山大·王19岁辍学创业。最开始呢,是在这个AI圈子里头叫“拉框”干这个事的。什么是拉框呢?就是给自动驾驶领域标注数据。自动驾驶里头有很多的摄像头、激光雷达呀。实际上,激光雷达也是个摄像头,只是拍出来的是一个黑白的、深度信息的照片。然后,哪个地方是人,哪个地方是车,哪个地方是牌子,或者说交通标志标线,你呢,需要靠人去拉一个框,把它标注下来。所以他最早就干这个。像什么Waymo(就是谷歌的自动驾驶公司),还有Cruise这些无人驾驶车的公司呢,最早的数据都是从他这来的。
全球首个规模化众包标注网络,涵盖50多个国家和10万名标注员。你标这个事情,他肯定是很耗人工的嘛。所以呢,他最后说:“我们众包吧,你们谁愿意标,谁就在我这平台上去注册,你来给我标来。”所以呢,他干的活叫“数据处理的人肉云计算”。虽然是云计算,但是底下都是真人。“越人工越智能”就是从这儿来的。
逐渐发展到为整个行业提供高质量的数据。它等于是从拉框开始,到最后,比如说OpenAI使用的各种对话数据什么的,都是由Scale AI来去标注的。后面和美国国防部合作,标注军用数据。你说这个无人机满天飞,导弹满天飞,我怎么能够说把正确的目标炸中了?那你也需要拉框,你也需要去做标注,看清楚这个是平民,那个是军用目标,你要做这样的标注。这个都是Scale AI提供的服务,包括伦理服务,包括对齐服务,他都要去提供。
而且呢,他也对标注呢进行分级。你说:“我是一个普通标注员,一个小时8美金,我去给人拉框去。”你说:“我是一个医学博士,那你可以来标注什么呢?医疗数据。”现在医疗影像数据也都标注过了,你是可以直接用大模型去进行什么X光片读片的,那个效率非常高,而且要比普通人读的还要准。
现在全行业的数据都有标注:医疗的、多模态的数据、国防的,各种数据它全标了。应该是全世界最大的一个,而且标注数据最全的一个标注公司,就是Scale AI。
下面咱们来讲一讲Meta为什么给了这么多钱给Scale AI呢?你说你花钱买的服务就完了,你干嘛要去直接100多亿美金砸进去呢?按道理来说,像我们投资案子有几个阶段。第一个阶段就是占20%以内,250亿美金,20%的话应该是50亿美金吧。为什么是这样呢?花钱投了,你也拿到钱了,我还不影响报表。超过20%呢,叫重大影响。
每年,Meta出这个财报的时候,你要把它也审计一遍,才可以去投超过20%。所以,像我们以前经常投资的,投19.9%就是为了躲避这个审计成本。
还有呢,就是直接控股,直接占51%,那我说了就算,甚至可以把CEO干掉,剩下我自己管。再往后就是我直接把你并购进来,整个公司的这个财务报表全进来了。特别是这个公司有很大的用户数据,或者有很大的营收的时候,你把它买下来是很划算的。买下来以后,就可以跟自己原来的业务去做整合了。
那么,在他这干这个活就很怪,给的钱很多。你想,250亿美金的估值,他给了100多亿美金,就属于绝对超过20%。但是呢,又不控股。不控股的原因咱们刚才也讲了,国防部的项目,你要敢控股它,你就等着接受审查吧,这事很麻烦。
那为什么要给这么多钱呢?这个不符合投资逻辑。那咱们来分析分析这件事情呢,还是要从Llama 4的翻车开始说。Llama呢,是开源大模型的领军,Llama1、Llama2都算是领军。到Llama3呢,很多人都在这上面去进行开发,拿Llama3去做微调,拿Llama3去构建自己的系统,构建自己的模型。但是还被DeepSeek跟千问直接抄了后路了。
你说现在最好用的,可能DeepSeek R1是所有开源模型里最好用的(咱不跟闭源的比)。使用量最大的千问,为什么千问使用量最大呢?也还算好使,而且呢,它提供的特别全,从0.6B的一直到200多B的,就是各种大小全都给了。大家去微调模型的时候,肯定是选一个自己合适的拿出来用。
Llama4就翻车了。第一个给的模型的版本就很少,你说我想找一个小模型去微调,他没给。另外一个翻车的核心原因是什么?就数据不行。他呢,使用的是合成数据。在训练Llama 3的时候,其实基本上已经把全世界能用的数据都给用光了。等到Llama4的时候,你说我要继续提高数据量,更大的规模去进行训练,那你这数据哪来呢?基本上能用数据都用掉了呀。
那么,Llama这帮人想了,是我们干脆合成吧,自己合成一堆数据去训练吧。结果Llama4就翻车了。合成数据三大致命缺陷:第一个是什么?叫领域泛化能力缺失。
什么叫领域泛化能力?Meta其实有的是数据,你想它几十亿用户,大家每天在上面聊个天,发个动态,它有多少数据?它是最不缺数据的。全世界可能不缺数据的公司,一个是谷歌,一个是Meta,其他人都没有他们这么多的数据。但是呢,Meta的数据有个问题,Meta的数据呢都是日常对话。
咱们在里头聊个天,在里边发个日常动态。其他领域的数据,比如医疗、国防,这些领域的数据它是没有的。导致呢,M4在垂直领域里的应用基本上全线崩溃。你问他说:“这个人今天是不是开心?”他可以回答得很好。你给他张片子说:“这个是不是有癌症?”他都答不出来了,这很正常嘛。
第二个呢,就是多模态对齐失效。什么叫多模态对齐失效呢?Llama4生成了很多的图片,说来:“咱们拿这玩意儿去做实验吧,咱们拿这个东西去做这个训练吧。”但是呢,Llama4的很多训练的生成数据本身是错的。比如说吧,他生成了一个红色轿车在雨中行驶的一张图片,但是呢,雨滴的方向跟车的运动轨迹是错的,这个就没法整了。Llama自己生成图片的能力就很差,他再拿这种数据去训练的话,就一定是各种错误就都出来了。
第三个呢,就是鲁棒性对抗不足。很多黑客呢通过注入对抗样本,也就是说把一些错误数据扔进去,导致呢Llama4的图像识别的准确率直接从89%降低到12%。这就是Llama4使用自己生成的数据,或者叫合成数据,训练出来以后翻车的一个核心原因。
那哪里摔倒了在哪里爬起来呗,就数据不行吗?咱就整数据就完了。Llama自己又不缺数据,那么多用户数据咱们就标注呗,花大钱把它买下来。虽然现在不让买嘛,但是我花大钱基本上还是能控制的,应该算是第一大股东了。有了Scale AI,我们就算把最后一块短板给补上了,这个就是煤炭为什么要投资它的原因。
但是呢,这里还有一个问题,就是刚才我们讲了投资逻辑。我投个19%就不就够了吗?为什么要投这么多呢?这肯定是第一大股东,已经超过亚历山大王的这种创始人的股份了。那你到底想干嘛呢?
Meta自己现在的战略其实是很清晰的:60万块显卡,算力我有了;杨乐坤大神在这呢,技术我也有了;不就是缺数据吗?Scale AI我是第一大股东,基本上控制住了。而且开源大模型我原来是领军人物,现在被DeepSeek跟千问超越了。那我现在要靠什么东西弄回来?你说我光靠提供Llama4的能力,或者后边比如说我出一个Llama4.1、4.5,我把能力提上去,我就能够战胜DeepSeek R1吗?我就能够战胜千问吗?胜不了的。
那怎么办呢?大家想一想,Scale AI它的客户都是什么人?它的客户比如微软。你说我用了Scale AI训练完,标注了数据了,我后边能够用Llama吗?这不可能。OpenAI你说我后边用Llama去……
这也不可能。那谁会去用Llama呢?大家要想一想:除了最大的这些Scale AI的客户之外,其他那些小一点的Scale AI的客户,他们请Scale AI去标注了数据以后,这些被标注的数据拿去干嘛用了呢?训练自己的大模型去了?开玩笑呢!只有最大的这几家公司——谷歌、微软、英伟达、OpenAI这样的公司,你是标注了数据回去训练大模型了。所有小一点的公司,或者说除了这几家之外的这些公司,你用Scale AI去标注了数据回来,只能干一件事儿,就是微调小模型。
现在好了,Meta把Scale AI基本上算控制了——虽然不是控股,但基本控制了。那以后用Scale AI标注的数据,微调谁家的大模型效果最好呢?一定是微调Llama家的大模型效果最好!内部是一波人各种的优化,咱们自己内部的搞定完事。原来大家都是拿这个Scale AI标注的数据去微调千问的模型,现在不用挑了,一定是自己家的最好。所以呢,这算是AI生态建设的关键一步,直接形成了闭环了:你用Scale AI训练,你用Scale AI标注数据,然后我给你同时提供微调解决方案,一次搞定哈!这是这一次Meta投资Scale AI的一个底层逻辑。
但是因为Scale AI的行业地位,一旦收购必然被FTC起诉,再加上Scale AI是美国国防部的供应商,一旦收购必然被美国国防部去审查,所以Meta就被迫采取了这样的一种很不舒服的投资方案——投了100多亿美金,成为Scale AI的第一大股东。这个故事到这儿就跟大家讲完了。
感谢大家收听,请帮忙点赞、点小铃铛,参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见!