Token账单爆炸:大厂到底错在哪里?

巨大的企业仪表盘上 Token 账单红色飙升,旁边旧式预算表和新型 AI 引擎发生碰撞,几位管理者在会议桌前震惊查看数字,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

大家好,欢迎收听老范讲故事的 YouTube 频道。

Token 账单爆炸,旧的管理方式正在杀死公司。

最近有一些消息传出来。第一个是一个巨吓人的数字:有人说某企业一个月 Claude 账单烧了 5 亿美金。第二个是预算失控:Uber 被报道说,到了 2026 年 4 月份,Claude Code 的预算已经把全年的额度都烧光了。第三个是 ROI 失灵:AI 工具用了很多,Token 跑了很多,代码生成得也不少,但是管理层就开始问一句话:这钱换回什么来了?用户多了吗?收入多了吗?

这些消息有些是报道,有些是转述,有些公司并没有点名。比如前面这个一个月烧了 5 亿美金的,没有点名。有人猜可能是微软,还有一种猜测可能是亚马逊。但是要注意,实际上这个 5 亿美金应该并没有这么多,为什么待会儿咱们再继续讲。

但真正的问题不是这些。真正的问题是,如果最会用技术的大厂都被账单吓住了,那普通企业该怎么办?如果一个工程团队 4 个月烧完了全年的预算,是工程师太浪费了,还是预算的方法过时了?如果 AI 用量上去了,产品没有立刻变好,到底是应该继续烧,还是应该停下来?

所以今天的内容,咱们先把调子定下来:AI 账单的爆炸不说明 AI 没有价值,它只说明一件事情:旧的管理方式、旧的 SaaS 账本、旧的 KPI 不好使了。更直白一点说,这是旧企业、旧公司制度撞上了新的生产资料;这是拿差旅报销的逻辑去管理智能体;这是拿“先证明 ROI 再花钱”的旧表格,去要求一个还在爆发进化的新工具交作业。这个是不对的。

Token 账单爆炸不是 AI 失控,是旧仪表盘看不懂新引擎了。三家公司,三种错误:排行榜错了,预算错了,ROI 问题更错。

三家公司,三种错误

三座写着不同企业标签的办公楼前分别摆着排行榜、预算油表和 ROI 表格,三条错误路径汇入同一个 Token 账单漩涡,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

咱们今天举这三个例子,一个是亚马逊,一个是 Meta,一个是 Uber。他们都遇到了 Token 爆炸的问题,但是他们犯的毛病不是同一个,咱们要分开来看。

第一类问题:设错了排行榜

第一类问题,就是设错了排行榜。亚马逊跟 Meta 就是犯的这个错误,他们设立 Token 榜单的做法,其实是错的。Business Insider 报道说,亚马逊内部有一个叫 KiroRank 的程序员员工榜单,但是这个榜单是自建的,后来被下线了。Meta 内部有一个叫 Claudeonomics,还有一个叫 Token Legend,类似这样的榜单主要来自于自媒体报道,也是一种 Token 使用量的榜单。

这里最大的问题不是有人烧 Token,最大的问题是你把 Token 用量做成榜单,就等于是告诉员工:谁烧得多,谁更先进。这就是错误的 KPI。

其实我们想一想,互联网早期的时候,大家的焦虑是什么?现在叫 Token 焦虑,互联网早期的时候,大家的焦虑叫流量焦虑。但是有人见过流量榜单这种东西吗?没有的。在互联网早期、移动互联网早期的时候,谁会设计流量榜单?也没有哪个 App 说“我消耗流量多,我光荣”,没有人干这个活。

但是 AI 时代魔幻的地方就在这儿:大家开始玩 AI 榜单了。这玩意儿多吓人。那你说这怎么就搞出这样奇怪的事情来呢?上梁不正下梁歪,一定是有人带了坏头,有人起了坏的榜样作用。这个坏人是谁呢?这个坏人的名字叫 Anthropic。

为什么把锅甩到它身上呢?因为 Claude Code 里头有一个命令叫 /usage,会显示 Token 的使用量和本地估算的成本。比如说,你买了一个 200 美金的套餐,你用完了以后,它告诉你:你已经用了 5,000 美金了,你已经用了 1 万美金了。这个数是怎么来的?它是用实际 Token 的消耗量,去乘上官方的 Token 报价,直接这么算出来的。

这个事情为什么会造成这样不良的影响呢?这个过程其实有点像自助餐厅。我今天出去吃自助餐了,238 一位。你们到自助餐厅以后,拿到的菜单上,每道菜是不是还有价格?为什么要给我标价格?原因就是要让你觉得吃爽了。我 238 进来的,我点一个这个,点一个那个,我已经吃了 500 了。它其实是在给你做一种心理暗示。

Anthropic 做这样的一个报表,其实就是让你觉得值了,让你觉得很爽,因为它那个 Token 本身很贵。既然它都已经把这放这儿了,而且数字还很大,那干脆咱们都学呗,有样学样,每个人都去做这个榜单。

前两天我还看到 Peter Stinebring,就是那个龙虾的创始人,他做了一个小工具叫 Codex Bar。这东西是干嘛的呢?就是在 MacBook 上面的顶栏放一个图标,你一点,它就会告诉你,你的 Codex 用了多少额度了,应该值多少钱;你的 Claude Code 用了多少,Cursor 用了多少。它把所有东西给你搁在一块。这个也都是跟 Anthropic 学的。最坏的人就是他们,这个坏头是它开的。

大家既然开始去比赛谁烧 Token 烧得多了,那就会有人去浪费。最简单的浪费方式,跟大家举一个,就是使用 computer use 这样的功能。不管你是用 Claude Code 还是用 Codex,都是可以做 computer use 的,就是让它直接操作你的电脑。

但是要注意,这个过程是非常非常不友好的,很慢,而且非常不精确,还特别消耗 Token。原因是什么?你做 computer use 的时候,实际上它是在你的屏幕上不断截图,截了一幅一幅的图片,截完图片以后送到大模型里去认,非常非常不划算。

像我们这种 20 美金的账号,基本上不用这功能,因为本身点就点不准,让它去做这种很复杂的长程操作又做不好,没做一会儿你的额度就没了。所以这个事是很不划算的。

但你说公司在鼓励我们干这个活。首先,公司不应该鼓励你;但是如果你愿意试试的话,可以拿公司账号去试。这是第一类问题,设错了排行榜,设错了榜单。

程序员们围着 Token 排行榜冲刺,屏幕旁的自动操作机器人不断截图消耗筹码,角落里真实产品目标被遮住,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

第二类问题:用去年的预算估算今年的 AI

第二类问题是什么呢?就是错在用去年的预算来估算今年的 AI。他们说 2026 年 4 月份,Claude Code 的预算已经把去年全年的额度烧光了。那么这件事不能说明 Uber 特别疯狂,它只能说明一件事:Uber 太保守了,它的预算做太低了。

而且你去年做的预算,到今年再去用的时候,整个 Claude Code 也升级了,所有这些 AI 的功能也都变得更好用了,整个模型也升级了。到 4 月份才把去年定的预算花完,就说明他们这帮人实在是太懒惰了,用得实在太少了。

去年的话,很多跟 AI 之间的沟通还是你问一句它答一句,这个其实是很省 Token 的。到今年已经都变 Agent 了,它自己拆任务,自己读文件,自己写代码,自己跑命令,然后复盘失败,继续做下一轮重复。Agent 跑的 Token,跟去年问答的 Token 根本就不在一个数量级上。所以如果 Uber 到 4 月份才烧光 Token,只能说明他们做得太保守了。

当然,Token 突然烧得特别快,还有一个很重要的原因,就是最近 OpenAI 也好,Anthropic 也好,包括国内的这些 AI 平台,都干了一个事情。这个事情所有人都在骂,就是改计费方式。

因为原来都是按提问次数来计费的,今年统一都按 Token 和上下文来计费了。原因也很简单:原来按提问次数计费的时候,我们会把问题写得特别长。像我原来到 ChatGPT、到各个地方去提问题的时候,我那个问题经常会写几千字,然后一把扔进去,等着它在那吭哧吭哧跑 10 分钟再出来。这个原来算一次。你现在再塞四五千字的小作文进来提问题,是要按 Token 来计费了。

所以整个计费实际上是要比去年贵了。他们这些公司其实是在做变相涨价。这是第二类问题,就是去年的预算设太低了。

第三类问题:ROI 的追问本身太旧世界

第三类问题是什么?就是 Uber COO 的那个追问,说你的 ROI 不对。这个问题本身就非常非常旧世界。他问说 AI 花费越来越难以证明 ROI 了,听起来很合理,但是我要讲得狠一点:在这个阶段要求每一笔 AI 探索立刻证明收入贡献,就是反动,就是想抱着公司一起死。

研发探索不能每一次都证明 ROI,销售去请客户吃饭也不能每一次都证明 ROI。像我们以前做销售、做投资什么的,出去吃饭回来,会计就会告诉你说,你这个发票应该记在哪个项目里?如果这个项目失败了,或者这个项目成功了,我们怎么来摊销成本?他们关心这种事,他不关心你最后项目能不能成。

但是你现在如果让工程师每次烧 Token 的时候,不让他去想我到底要做什么事情,而是先填一个收据:我这个 Token 是给什么项目烧掉的,我那个 Token 是给什么项目烧掉的。这样的话,基本上公司是活不下去的,绝对活不过这个冬天。

所以排行榜错在把油耗当成了勋章,预算错在用旧油表来评估新引擎,ROI 的问题错在让新的生产力先给旧世界下跪。这就是这次的三个错误。

职能部门和业务部门的冲突

一边是财务法务人员拿着预算夹板拉起红色审批线,另一边是产品研发团队推着 AI 引擎奔向客户目标,双方在办公室战场中对峙,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

讲到 ROI 这一块,我还要讲一个冲突,就是职能部门和业务部门的冲突。旧的管理方式在做最后的挣扎。所有抱着“先控制成本、先确定目的、先证明 ROI”不放的人,都在尝试杀死公司,或者抱着公司一起死。这句话说得不好听,但是今天必须这么讲。

因为 AI 压根就不是传统 SaaS,AI 是新的生产资料。你不能要求一个新的生产资料在刚刚进入公司的时候,就完全服从旧表格、旧审批、旧预算、旧 KPI。那些只会说“先调预算表、先证明收入、先控制额度”的岗位逻辑,本来就是最容易被 AI 取代的。他们本来应该是被干掉的人,现在拼命要把 AI 关进旧的流程里,本质上就是在做最后的垂死挣扎。更狠一点,他们不是在救公司,他们就是惦记抱着公司一起去死。

这里不是说财务、法务、运营这些人不重要。这属于职能部门,像我们以前属于业务部门,挣钱的部门。传统的职能部门有旧的管法,这些人就是受这套教育上来的。但是到今天,他们已经不配决定 AI 探索的边界了。

公司里永远是两拨人:一拨人负责往前打仗,研发、产品、教育,包括像我们以前做投资、BD;一拨人负责系统不能失控,财务、法务、运营、合规。过去两拨人可以做预算、审批、报销、KPI 来进行平衡。但是 AI 时代不一样了,因为探索的速度太快,工具变化太快,成本曲线太陡峭了。如果你还让传统的职能部门用旧的方式来决定 AI 边界,这公司只有死路一条。

正确的管法不是审批,正确的管法是教育。让每一个使用 Token 的人知道自己在做什么,知道为什么要用这些 Token,知道这个探索最后要推出哪些产品、哪些流程,以及要提供哪些用户价值;知道哪些 Token 是探索,哪些 Token 是空转。这个才是最重要的。

不要因为个别人浪费了 Token,就处罚所有人。像 Uber,发现有人浪费 Token 了,最后改成每个人的 Token 上限一个月是 1,500 美金,不能再超了。这个就属于因为个别人去处罚所有人。而且 Uber 的问题其实是他们自己没有设对预算,这本来就不应该通过预算的方式去跑。

不要因为有人拿 Opus 4.7、Opus 4.8 去问天气,就把所有工程师的 Claude Code 都封了;不要因为有人刷榜,就让整个团队回到手写代码和人工检查的阶段。传统职能部门可以提醒公司别撞墙,但是不能拿旧世界的刹车拆掉新时代的发动机。

模型分层失败:最贵的菜单被递给了用户

自助餐台上摆着 Haiku、Sonnet、Opus 三层模型菜单,用户端着盘子自然伸向最贵的 Opus 大餐,背后企业买单人捂着账单头疼,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

Token 爆炸还有另外一个小原因,就是模型分层失败。这个还得怪 Anthropic,因为我确实不太喜欢这公司。Anthropic 明知道正确的答案,但是揣着明白装糊涂,把最终的选择交给了用户。

什么意思呢?Anthropic 的模型是分层的:Haiku、Sonnet、Opus,后边还有……一共是分四层。Haiku 现在大家还用不到,前面是分三层。而且每一个模型的思考深度是不一样的,它有 low、medium、high、xhigh,可以通过这么多种思考方式去进行推理。如果你要求 xhigh,一定是消耗最多的 Token 去思考这个问题。

但是不同的问题到底应该用什么样的模型,应该用什么样的思考深度,Anthropic 自己其实是知道的。但是它没有这么做,它是把所有东西都扔到你面前来:你自己选吧。

这个玩意儿就跟咱们去吃自助餐一样。自助餐的菜单上,有些菜很贵,有些菜很便宜。那些很贵的菜真的很贵吗?可能确实是贵一些,但其实目的是什么?是为了让你尽可能去吃这个很贵的东西,这些东西我们多吃掉一些;那些它标价不是特别贵的东西,让你在心理上天然地去排斥。因为让用户去选,一定是这样的。

所以为什么我们说问个天气用 Opus、改个日期用 Opus,都是这样的心理:我明明已经花了最高的钱了,我已经拿到了企业账号了,我已经可以用 Opus 了,可以用 xhigh 这么高的推理了,我干嘛要委屈自己上 Sonnet?

其实 Anthropic 自己明白,最适合编程的模型是 Sonnet,Opus 是应该去做架构设计的。但是我们现在很多人是在拿 Opus 直接从头跑到尾。这个东西不能说是用户自己傻,这个东西就是 Anthropic 为了收更高的 Token 费用、为了卖更多的钱,故意做了一本诱导你的菜单,然后在价格上给你标好。你既然已经交了自助餐的钱,或者有人请客了,那我一定点贵的吃,一定是这样的心理。

这个对于 Anthropic 来说,它可以收到更多收入,但是对于请客吃饭的人,比如说公司要买单的人来说,他就会觉得很痛苦。这就是大模型公司现在的问题:不是没有分层,而是明知道应该去做自动路由,却还是把最贵的菜单直接递给用户了。

AI 不是 SaaS:它是会自己踩油门的生产资料

传统 SaaS 坐席表像整齐车票一样放在桌上,旁边一台 AI 机器自己踩下油门并喷出 Token 计数,管理者用旧表格追赶失控速度,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

还有,公司内部把 AI 当 SaaS 来管,本身其实就是错的。很多公司要求做预算,像 Uber 干的这个活:你给我做个预算吧,明年你们要多少 AI。它实际上就是把 AI 当 SaaS 来管的。

SaaS 是怎么干活的?SaaS 是靠收坐席费的。一个坐席多少钱,我只要一次性把这个钱谈完,然后我去给你砍价:你这个坐席能不能再便宜点,能不能再送我几个坐席?这个事就结束了。但是 AI 不是这么收钱的。AI 是先要收坐席费,然后再要收 Token 费,它是两个钱一起收。

大家不要老想着说我们这 20 美金、200 美金,这是个人账户。真正的企业账号是 Business 或者 Enterprise 这样的账号,Claude 也是 Enterprise。这种账号都是先给每个坐席交 20 美金,然后再去收 Token 费。这个玩意儿是很贵的。你要通过这样的方式去管理,一定会出现管理失败的情况。

所以 AI 不是软件订阅,它是会自己踩油门的生产资料。你还拿着坐席表来管它,那账单一定会爆炸。

SaaS 自己也很痛苦:传统软件卖复制,AI 卖消耗

SaaS 公司站在中间搬运 Token 箱子,左侧从大模型厂商高价进货,右侧卖给大量客户后箱子迅速漏光,复制软件光盘与消耗计量表形成对比,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

讲到 AI 不是 SaaS,咱们要讲到另外一面:SaaS 自己也很痛苦。传统软件卖的是复制,而 AI 卖的是消耗。

很多 SaaS 公司其实也会遇到 Token 爆炸的问题,但是它们遇到的问题跟刚才我们讲的这几家还不太一样。它们是在卖别人的 Token,拿了 OpenAI 的 Token,拿了 Anthropic 的 Token,然后卖给自己的客户。在这个过程中,它加了自己的提示词,加了自己的上下文,加了自己的一些流程管理,但实际上跑的还是 OpenAI 和 Anthropic 的 Token。

这里就会有一个很麻烦的问题。原来这些 SaaS 公司只管卖坐席就完了。我卖 1,000 个坐席,卖 1 万个坐席,中间的成本是一样的,因为对于你来说,我就写了一套软件嘛。但是现在不一样了,你有一个进货出货的过程。我这头买了 Anthropic 的 Token,买了 OpenAI 的 Token,我那头要卖给这 1,000 个客户,或者卖给这 1 万个客户。每一个客户的增加,每一次用户的使用,其实都会让你的 Token 成本,也就是你的进货成本上升。

而且还有一个很大的问题。以前大家希望什么?用户买了你们家 SaaS 以后,其实大家最希望他不用,就像健身房似的。你买了 1 万个用户回来,但是可能只有 100 个在用,剩下的人都在摸鱼,这是大家希望的。但是现在你一旦是从 Anthropic 买了 Token,然后在那边提供给别人用了,给了 1 万个坐席,大家就算不用你的功能,还会去挂着 Anthropic 的模型去干别的事。所以这是很不划算的一个事情。

如果想要继续做 SaaS,大家就需要重新思考了。这种带着 AI 的 SaaS,需要思考什么问题?就是在你一进一出的过程中,甚至你有可能进货的价格还没有客户直接上 Anthropic 去买的价格便宜,最后可能是同样的价格。在这样的情况下,你的附加值到底是什么?

如果你的附加值很小,说我只是这头买完了那头卖,中间加了点提示词,你很快就会被 OpenAI 和 Anthropic 直接替代掉。人家说我不跟你费这个劲了,我直接在 OpenAI、Anthropic 去买就完了,我不需要你了。你加的这些东西,人家都已经给你做了。现在很多 SaaS 公司要死,实际上是死在这儿了。

SaaS 的三条路

SaaS 其实有三条路可以走。

  1. 走 Cursor 这条路,干脆自己重新训练模型。训练一个相对便宜一点的模型。Cursor 就是拿 Composer 2.5 重新去做了后训练和强化学习,得到了 Composer 2.5 的一个新的模型。因为它自己有大量的用户编程数据,所以据说现在这个模型效果还不错。
  2. 直接调用最便宜的模型。比如 DeepSeek 这样的模型。我不需要什么 Opus,我不需要 GPT,我就给你上一个最便宜的,我把问题解决就完事了。我通过更严格的上下文管理、批处理、跟进,进行 AI Agent 的设计,用最便宜的模型也可以把它搞定。这也是一条路。
  3. 进行 Token 节省。现在有很多 Token 节省工具,就跟我们以前做 Clean Master 似的,把垃圾清掉。现在最简单的 Token 节省工具,有一个仓库叫 understand-anything,就是理解所有东西。大家有兴趣的话,可以到 GitHub 上去下载这个库来使用。

understand-anything 干的活其实很简单,就是把你整个项目全都读一遍,理解一遍,然后把整个项目建立一个索引树。每一次再去提问题、再去处理的时候,它都会自动通过索引树找到正确的上下文去进行注入,然后直接用最少的 Token 把问题解决掉。

因为 Claude Code 也好,Codex 也好,最耗 Token 的是什么?就是我去读项目,读完以后不知道该改什么。那你如果前头直接用 understand-anything 过了,它就会快速定位到需要调整的东西,快速知道我这个程序是干什么的,它们之间的依赖关系是怎么回事。这也是一个方式。

当然,understand-anything 这种东西在短期内有用,未来肯定会被淘汰掉。原因也很简单,未来这种东西会被系统做在里边,不会需要你自己去做。未来 Token 一定会变便宜,但是使用量还会继续爆发。

Token 价格:透明与不透明

画面左右分成两半,左边是不透明黑箱价格机器吐出随机 Token 账单,右边是透明玻璃工厂标出低价成本曲线,企业采购者站在中间比较选择,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

这里头有一个问题,就是 Token 的价格极其不透明。现在 Token 价格实际上分两派。一派就是 OpenAI、Anthropic、谷歌这些人,他们的 Token 价格极度不透明。现在你问 OpenAI,为什么 100 万 Token 输入是 5 美金?它不会给你解释这是怎么算出来的。或者说,你现在花钱买了新的机房进来,新的机房按黄仁勋的说法,越新的 GPU 应该越省钱,因为它的计算密集度高了,还省电了。那按道理说,你这个 Token 应该降价,它也不理你。所以它这个价格是极度不透明的。

他们有的时候会突然重置你的额度,前两天又重置了一回;有的时候会给额度直接翻倍,比如我这 20 美金的直接给我翻倍。但是翻倍了到底有多少,它也不会告诉你。他们就是不透明的玩法。

其实从互联网时代,这些大公司的价格都是不透明的,到 AI 时代依然如此。大家想一想,我们到谷歌上去投广告,到 Facebook 上去投广告,那个价格透明吗?那个价格一点都不透明。为什么贵,为什么便宜,这个底价你是搞不清楚的。你想谷歌这么大一公司,十几万人、几十万人的一公司,就靠广告撑着,那它这玩意儿怎么透明?

所以,只要他们彻底做到头上、做到垄断了,它就可以用不透明的价格去不停地反复收割你,而且你还没得选。

当然另外一条路,就是走彻底透明这条路。DeepSeek 就属于彻底透明这条路的。它可以透明到什么程度?我做到这个价格,谁都做不到。类似于比亚迪式的。日本人把比亚迪的车拿回去拆,拆完以后说,这个能达到安全要求吗?能。你们能按这成本做出来吗?不能。那就没戏。

DeepSeek 现在已经做到这样了。它现在这个价格,你让这些做推理服务的云厂商用英伟达的 B300 去做,都没有它现在给出的价格便宜,那就属于彻底透明了。我把这价格打穿了也行。

现在 DeepSeek 这个价格已经达到一个什么状态了呢?前两天腾讯云突然宣布降价,说我们 DeepSeek 降价了,降到跟 DeepSeek 官网一样的价格。其实干的是什么活?就是腾讯云说,我不在腾讯云上再去部署 DeepSeek 了,我现在直接把这个东西跳转到 DeepSeek 的官网去,我用它的 Token 就完事了,因为已经自己部署不划算了。现在变成这样了。

以后可能就是分两条路走。第一条路就是像 OpenAI 这样的,我就是不透明,你还没得选。另外一条路就是像 DeepSeek 这样的,我直接降价,让任何人部署都不划算,你就必须让我部署,或者干脆你跟我合作,让我到你那去部署。部署完以后你在那用,我怎么把这个价格降下来你别管,反正是我的独门绝技。现在是这么两条路在走,就是透明与不透明。但是未来因为有 DeepSeek 这样的搅屎棍在这儿,一定会越来越便宜。

不要为当前的 Token 焦虑

一条时间轴从 WiFi 万能钥匙、省流量、Clean Master 清空间延伸到未来低价 Token 海洋,焦虑图标逐渐变小,产品团队眺望新的用户需求,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

再往下讲一个问题。那你说现在 Token 这么贵,我们又搞不定这么多 Token,怎么办?这就叫 Token 焦虑。但是我要跟大家讲,以史为鉴,不要为当前的 Token 焦虑。因为我们以前其实也有焦虑,以前焦虑什么?叫流量焦虑、空间焦虑。我们都希望能够省一点流量,能够蹭一点流量,怎么能够省一点空间,怎么能够让这个空间更节约一些。

但是大家要注意,未来一定是流量无限、空间无限的状态。现在大家还在为流量发愁吗?没有了。我们现在的套餐都已经足够使了。还有人为手机空间发愁吗?也没有了。你只要别微信有好几千个联系人,一般都没有什么可发愁的事情。所以今天为 Token 发愁,以后 Token 一定不会让你发愁的。

每一代互联网都有一种短期的稀缺,短期看是大生意,长期看基本上都会被基础设施直接吞掉。所以要去做时间的朋友。

而且,为流量焦虑和为空间焦虑这两个事情,都是老范自己亲自赶上的。为流量焦虑的时候,我当时在盛大,在陈大年手底下,我们当时做的产品叫什么?叫 WiFi 万能钥匙。你不是没流量吗?我教你怎么去蹭 WiFi,这不就是为流量焦虑解决问题的吗?当时如日中天,现在还有谁在使这东西吗?没多少人了吧。

那你说为空间焦虑,老范怎么也赶上了?对,后来我离开盛大以后去猎豹了,那里做的东西叫 Clean Master,就是把你的手机空间给你清理清理,就干这件事,傅盛做的。

这些产品当时是有价值的,它解决了一个阶段性的基础设施缺口。但是后来 4G、5G、WiFi 普及了,存储变大了,手机算力也上去了,很多焦虑自然就消失了。

到现在,你说这些基础的东西还在吗?比如省流量这个事情还在,但不需要再去装 Clean Master。现在都是谁来搞定?操作系统搞定了。比如 Google Play,就是谷歌的应用市场,它在下载应用的时候会自动给你省流量。比如你原来有 1.0 版,现在需要给你装 1.1 版了,它把两个安装包给你比较一下,只把变化的那一部分给你传下来,没有变化的那部分就不给你传下来了,它自动给你把流量省掉。

真正需要去做的是未来,我们需要一些什么新的功能。所以现在你可能觉得,我跑一次 Agent 几十万 Token 就不见了,而且很贵。可能过几年,现在这些 Token 就会像手机流量一样。但是这是一个过程。

真正赚钱的人不一定是最省流量的人,真正厉害的人是最早想明白流量不值钱以后,用户到底要用什么产品的人。所以今天也一样,如果你只围绕着省 Token 在做产品,等 Token 变便宜了,你的价值就会被基础设施吃掉。比如刚才我们讲的 understand-anything 这样的产品,最后这种东西就会被 OpenCode、Codex、Claude Code 直接吃进去。以后人家会默认带这个功能,而且兼容性还特别好,比你这种外挂的系统肯定还要更好用一些。

我记得当时我去谷歌,跟谷歌的大中华区负责人去聊的时候,他们就问我们说,你们这个 Clean Master 到底是清硬盘还是清内存?就是清的是 storage 还是清 memory。后来我想了一下,我说我们只清 storage,我们是不去动 memory 的。他就讲说这是对的,memory 就应该由操作系统去管,你们不要去碰这个东西。你一旦碰了这个东西,操作系统稳定性就会下降,你们现在去清一清 storage 就算了。

当然后来这个哥们也挺坏,随着谷歌的升级,安卓慢慢沙箱化越来越严重以后,其实你连 storage 也清不了了。因为原来你可以去清理 storage,是因为你可以去把其他应用使用的这些空间都处理掉,现在你摸不到了,每个应用只能使用自己的空间。所以那哥们也挺坏的,先稳住了我们。

所以解决短期焦虑能够挣钱一阵子,但是站在长期趋势一边,才能决定你有没有未来。要做时间的朋友。

不要给 Token 上纪律,要让人看到目标

战场隐喻中一名工程师拿着装满 Token 子弹的工具枪瞄准客户价值目标,旁边管理者试图安装弹夹阻断器,远处目标旗帜清晰可见,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

最后的结论:不要给 Token 上纪律。像刚才咱们讲的 Uber 这样,给 Token 上纪律,说每个人 1,500 美金,不允许超,这是不对的。要让使用 Token 的人看到目标,这才是正确的方式。

我不想把结论说成要有 Token 纪律。纪律这个词太旧了,而且在这个时间点说这个词是非常非常危险的。今天真正要做的是教育每一个使用 Token 的人:你在做什么?你为什么要烧这些 Token?你最终要提供什么样的客户价值?这个才是真正要去做的事情。

不要给他做什么中间目标,中间目标会把队伍带偏的。我记得以前看过一篇文章,说一个以色列士兵讲,每一次出征之前会回家去看父母、看亲人,以后他就理解为什么要去战斗了。这不是因为他不懂战术,而是要让他看到目的。

使用 Token 也是一样,要让工程师看见,你为什么要去做这个事情,要让他理解什么是客户价值,而不要让他去看 /usage 里边显示的美元数字,不要让他去看什么 Token 榜单,更不要把这种事情交给什么 CFO、COO 这些人去盯月度账单。如果你说公司我不想要了,可以干这个活。

反过来,有人说我就要有纪律,没有纪律这事就不行。那咱们讲另外一个悲剧。英国有一款步枪叫李-恩菲尔德步枪,这个步枪是很古老的栓动步枪,但是它有一个 10 发的弹夹,射速很快,训练好的士兵可以快速打出很密集的火力来。

但是早期的版本,这个东西装了一个叫弹夹切断器的东西。因为害怕士兵浪费子弹,害怕士兵乒乒乓乓把这枪都打出去,瞎都打尽了,它就做了一个弹夹切断器。就是你每一次必须要上一发打一发,然后再手动装填一发再打一发。这样的话,射速不就降下来了吗?你的子弹也就省了。

但是你这样去打仗,会付出很多人的生命。到一战的时候,战争烈度上来以后,他们最后把这个弹夹阻断器就给去掉了,说这事不行,我们愿意多烧一些子弹,让士兵活下来,我们要赢得战争。

所以所谓的给 Token 加纪律,就是在往步枪上去加这种弹夹阻断器。你明明有 10 发弹夹可以快速射击,但是你加了这个东西,看起来省子弹了,但是会死人,会打败仗。而设计弹夹阻断器的人,这帮人永远不上战场。

给企业的四句话

企业会议室白板上写着四条行动原则,前线团队、职能部门和 AI 工具围成一圈,把账单仪表盘转向客户价值目标,浅色背景的商业评论版橡皮泥平面信息图的统一风格。
  1. 不要让传统职能部门用传统方式去衡量 Token 消耗本身。他们看见的是账单,不是战场,这些人也从来不上战场打仗。
  2. 不要因为个别人浪费了 Token,就处罚所有人。抓浪费的人,这个事没毛病;但是你如果禁止大家去探索,那这个战争一定会输。
  3. 要做时间的朋友。Token 一定会越来越便宜,不要围绕短期的稀缺去建立长期战略。你说我短期做一个产品去挣点钱,这事没毛病,但是最后这些省 Token 的事情,一定是操作系统或者 OpenAI、Anthropic 这些公司去干的活,普通人跟它没关系。
  4. 设计产品和服务的时候,要想清楚 Token 不设限以后会发生什么。如果 Token 便宜得像水电一样了,你的服务核心价值到底是什么?你又该怎么给它定价?

所以最后,抱着控制成本、确定目的、先证明 ROI 不放的人,会越来越像旧时代的遗留岗位。这些岗位就是应该被 AI 替代的。如果公司还让他们来决定 AI 探索的边界,那就不是在控制风险,而是准备抱着这些人一起去死。

不要管 Token,要管的是目标。不要处罚探索,惩罚的应该是错误的排行榜。不要做账单的朋友,要做时间的朋友。这就是咱们今天讲的故事。