Canvas – 老范讲故事｜AI、大模型与商业世界的故事

AI IDE 带来了真正的 AI 平权！AIGC最后一公里，每一个人都有权获得AI的福利，不管你是不是程序员。

Luke Fan — Fri, 21 Feb 2025 00:43:06 +0000

AI IDE，这就是AI平权的开始了。大家好，欢迎收听老范讲故事的YouTube频道。首先，什么是AI IDE？IDE叫集成开发环境，就是我们把编辑代码、编译代码、调试代码、部署代码，所有这些东西集成在一起的时候，它就叫集成开发环境了。由AI进行辅助工作的代码集成开发环境就是AI IDE。

那么，为什么AI IDE就可以讲到AI平权了呢？首先，在这里跟大家讲一个当年做抢票软件的故事吧。以前在猎豹移动的时候，我们去做了一个抢票软件。很多人就去说你这个不公平，为什么不公平呢？因为只有程序员可以搞定这件事情。如果你不是程序员，或者说你对于电脑没有什么了解，或者我是个老人，我就没有办法去使用这些工具去抢到火车票，那么这个事情就不公平了。后来我们说，这个我们已经是做了最大的平权了，因为我们做了抢票软件，至少有一部分年轻人是可以抢到票了，而原来这些票可能是被黄牛或者其他的一些有关系的人拿走了，这是一个更不公平的事情。而现在的话，你只要稍微的去学习一下浏览器怎么用，去使用这个网站，你就可以抢到票，这个已经是在平权的基础上迈出了一步了。

AI也是如此一个情况。现在虽然有AI了，但是通过聊天界面去跟AI聊天，这个过程其实只使用了AI的很小一部分功能。你现在想要使用AI更完整的功能的话，不会写程序基本上是不行的。那么，怎么能够让所有人都能够有机会，像当年用抢票软件抢到火车票一样，让我们去用到所有的这些功能，或尽可能完整的功能呢？就是要写一点点程序。很多人或者大部分人，其实是没有受过编程训练的，那这个时候AI IDE就可以把这个权利差给你抹的基本上平掉，就是做基本平权。

那你说有了这东西以后，是不是程序员就失业了呢？因为很多AI IDE上来以后都是说，9岁的小女孩用了多长时间写了个游戏，或者是多大的孩子写了一个插件，可以去跟AI聊天了。不用担心这种事情，在大家都会开车的时代，原来那些职业司机。

还有很多的岗位是需要他们的，比如说修车、改车、赛车、汽车保养与清洁，以及驾驶员培训。还有很多很多事情可以做。所以这个呢，并不会让原来那些程序员就失业了。AI IDE出来以后，原来的那些程序员可能需要做的事情，是在更广泛的一个范围内进行转型，而不是说只做原来这些事情了。

那么谁应该来使用AI IDE呢？首先要讲一个可能跟大家想象不太一样的事情，就是职业程序员。很多人是看不上AI IDE的，甚至有很多程序员连IDE都不用。刚才我们讲IDE叫集成开发环境，非常非常多的这种程序员，而且这些程序员都是资深程序员，工资很高的程序员，他们是使用命令行工具的，使用最简单的编辑器，完全都是靠命令一行一行在这打命令打指令去做事情。他认为你把它集成在一起以后，不如我原来使的方便，这个是很正常的。比如赛车手他们要去开手动挡车，职业的摄影师一定要用单反相机，都是一样的。所以职业程序员，其实对于这种自动化工具，反而没有那么看重。那你说单反相机，什么专业的剪辑软件Photoshop，这个才是专业人士要用的东西。职业程序员，就是要使用这种最专业的东西。这种AI IDE就像原来我们讲的一个傻瓜相机，它是一样的东西。傻瓜相机就是拿起来就摁，摁完了就出结果，你也没什么可调的，基本上结果可接受，也不会特别好，也不会特别差。

谁该去用它呢？就是有需求的业余程序员，像我这样的。我现在已经只能算业余程序员了。还有呢，就是非程序员，这些人是需要使用AI IDE来实现AI平权的。现在这个时代呢，甭管你原来学没学过编程，都稍微的学一点编程，这个并不是很难的一个事情。在当今乃至未来，社会运行的底层逻辑就是程序。如果你完全不了解程序是怎么运转的，那你可能就无法去理解社会运转的一些底层规律了。像我前两天还遇到人说，大模型说的难道不都是对的吗？当时这句话震得我是外焦里嫩，我说这个大模型最擅长的事情，是一本正经的胡说八道。

你每一次都要知道，我到底是给了大模型什么样的参考资料，给了他什么样的提示词，然后他是在什么样的约束下给我得到的答案，才能知道说这个答案到底有多可靠。如果你一上来就认为大模型说的都是对的，那就属于是你完全不了解这个东西的底层逻辑。甚至还有人跑到医院看病的时候说：“DeepSeek不是这么说的，医生你看错了。”医生也是搞得非常非常无语。所以在现在这个时代呢，稍微学一点点编程是有好处的。

我呢，是在会员频道里头放了一些针对文科生的计算机基础课，内容还在持续的整理和增加之中。这个东西确实是很费劲，因为像我们这种做过程序员的人，我去讲很多东西的话，还是喜欢使用专有名词。这种词其实很多没有做过程序员的人还是听不懂的，所以我也在逐渐的整理，逐渐的做这些课程。

讲远了，那你说我们现在有没有可能做出一些这种傻瓜相机似的东西，或者说不是给专业程序员用的这种东西，然后未来能够超越或者说比这些专业软件做的更好一些呢？这个好像是可以的，因为现在有很多新的软件，大家很广泛使用的软件，其实都是这么来的。都是一开始给非专业人士使用，把这个专业工具上的很多复杂的设定都给你删掉。像单反相机上有多少拨轮，多少开关都给你删掉，就剩一个快门键，搞成这样。当更多的人去用起来以后，他再逐渐的把功能加上来。

比如说像Figma，这是专门给设计师用的一个工具，还有Canvas，这个也是给设计师用的。你像我每一个YouTube的视频，前面这个图都是由Canvas来画的。我是不会使用Photoshop的，那个玩意太麻烦了，我用Canvas用的很好。现在Canvas也好，Figma也好，用户量都非常大。Figma后来是被Photoshop母公司Adobe给收购了。

然后剪映，你们看到我的视频，都是用剪映来去剪辑的。这个也是给非专业用户使用的，他现在的用户量要比所有的专业剪辑软件加起来还高。

而且，他现在的功能已经越来越完整，越来越完善了。很多这种专业剪辑软件上的东西也都出来了。还有一个大家可能最熟悉的东西是什么？iPhone。你说iPhone挺好的设备，它怎么不专业法了？大家想想照相这件事，原来人家是用专业相机照相的，现在我们说要照个相怎么办？掏出iPhone来，咔嚓摁一下就可以了。所以，这就是给非专业人士使用的工具。

那么，什么样的项目适合使用这些AI IDE呢？有人说了，我想写个抖音，我想写个微信，我一定可以比抖音和微信做得更好。原来有这么句话，叫你长得很美，所以就不要想的太美了。这个话呢，摘自猫腻的小说《将夜》，这个里边它的主人公宁缺说过的一个特别有名的话。所以呢，这个事大家别想，这不是给你们去做这种大型系统用的。很多人要去一起协作，我们要整一个500人团队，我们协作来做项目吧。对不起，这事跟你也没关系，AI IDE也不适合你去使用。

那你说我做了一个APP，所有人都喜欢，大家都去下载，我就排行榜第一了。这个还是想的太美，这事跟你也没什么关系。如果你能够做一个应用，自己能用起来，能够解决一点点问题，能够在身边的这个家庭或者是小团队里头解决一点点问题，就够了。这才是AI IDE现在要去做的事情。

就像刚才我抢那傻瓜相机似的，他就一快门键摁完了。比如说我出去旅游了，咔嚓摁了一下，标志着你来过了，但是没有那么好，也没有那么不好，也就如此了。这就是AI IDE现在的这个能力。他做的事情呢，其实叫做“最后一公里”。我把最后这一段给大家补上，完事了。

有一些比较特定的环境或者特定的技术架构，是适合AI IDE去实现的。因为在编程的时候，有很多很多的技术架构，很多很多的开发框架。如果说没有学过编程的人，光把这些名字记下来，就头晕眼花了。这个就别费劲了。有哪些东西是适合AI IDE这个架构来使用的呢？比如说轻量级的外部架构，就是你随便点点点，确认确认确认，就给你做个小网页出来。

咱们现在看到的这种，什么9岁小孩做出一什么呀，或者是比如说前两天Grok 3，随便提了一个简单的提示词，就给你做个贪吃蛇，做个俄罗斯方块。这种东西都是使用这种轻量级的Web架构去实现的一个前端应用。还可以做一些，比如说简单的跨平台应用。现在所谓跨平台应用，实际上就是在不同的平台上装一个浏览器，然后把这个轻量级外部框架的东西直接在浏览器里边给你放一下，这个也是可以的。

所以，你现在拿这种AI IDE，你说我做个安卓应用，做个iOS应用，做一个Windows应用，做个小网页，都没有毛病。还有很多人呢，拿它去做浏览器插件，比如说我们现在用Chrome浏览器、Edge浏览器，你都是可以给它做插件的，这个也没有毛病。然后各种各样的小程序，比如说抖音小程序、微信小程序，这些都是可以用这种AI IDE去实现的。你说我要做一个完整大系统，别想了。

使用AI IDE去做项目呢，其实有点像我们去使用Excel。Excel特别有意思，它非常博大精深，就是里边儿的功能极其强大。但是呢，绝大部分人可能都像我一样，就是我也会写个表格，我也会求个和，排个序，算个平均数，甚至呢，我还能画个图表，做个排版，最后排的还自己觉得好，挺好看的。为什么一定要自己觉得很好看呢？就是我们自己排的特好看的一些东西，给这种真正的Excel大师看，是完全没法看的。他们就是属于这种，什么财务、建模这种大师，那个是完全另外一个层次的人。

以后呢咱们不是讲AI平权吗？就是任何人都可以拿AI IDE，就像现在每个人可以用Excel的这个水平一样。我能够做个小表格，能够算个平均数，能够排个序，能够排个版，画个图表，这个就是我们现在用Excel能干的事情。那么以后可能大部分人，你都可以用AI IDE也做一个小应用，把自己在某一些AI平台上面的最后一点点不是特别满意，或者不是特别方便的一个接口，给它实现出来。

这就是大家以后要去做的事情。我们就不去跟专业财务或者专业建模、审计人员去比，这个Excel的图表谁做的好看。我们也不需要去跟专业程序员去比，谁做的系统更大，谁做的系统更棒。这个也没有意义。我们就是自己做了自己用，能够解决我们当前的问题就可以了。

这个过程呢，其实有点像美国人做各种小工具。什么意思呢？就是你看美国其实有好多车库文化，就是他们在车库里头倒腾很多这个小手工小工具。这就是以后AI IDE要干的事情。这些东西呢，不需要大规模的推广，也不需要产品化。我自己缺一个什么瓶子、盖子，或者缺一个盒子，我就自己装一个，自己做一个就完了。我也不惦记把它卖掉。各种bug呢，将就一下也可以用。比如说我做了个小的工具箱，要把一些工具放在里头，但这工具箱必须要是双手拿，一个手拎起来的话他会散架。这个对于自己用来说其实是没什么关系的，是可以接受的。

那么这些小工具呢，你也不需要做兼容性测试。什么叫兼容性测试？就是在我们家能使，在你们家是不是也能使。你不需要干这事，在你家能使就够了。你不需要去考虑说，别人家那个车库不是这么设计的，你搁那这工具没法使了。不用想这事不好用，没关系，我先将就用一段时间，下次我再写个新的就完了。这个就是现在AI IDE真正应该干的事情。

在AI IDE到来的这个时代里头，不同的角色应该做什么事情？比如说，像程序员，像我现在其实还是可以算是个程序员的，我们其实更多的应该是去做培训、技术支持以及框架开发。我们应该去做这样的事情。而非程序员的话，就是在车库里边做一些小工具，在家里头各种不太顺畅的地方稍微修补一下。这就是你们该干的事情。

那么最重要的是什么？是你真的做出小工具来了，真的提高效率了还是什么吗？不是的。大家想在车库里头这帮做小工具的人，或者在里面去修修补补、敲敲打打的人，他们得到的最大的东西是什么？是快乐。使用AI IDE的这个过程中，一定要得到快乐。

这个才是最重要的。那你说会不会有人在车库里做着做着，或者我用AI IDE做一些东西，慢慢的就做大了，做成功了呢？肯定也不能排除这种可能性，因为毕竟有这么多公司是从车库里边走出来的，比如说苹果、亚马逊、惠普、谷歌、迪士尼、哈雷戴维森和微软。美国有这么多公司一开始是在车库里创业的。现在大家在AI IDE里头做了很多的这样的原型，未来万一哪一个东西大家很喜欢，那没准他就慢慢做大了。或者说你在做的过程中，编程的技术逐渐的提升，慢慢的跟一些志同道合的小伙伴走在一起，把一个小的Idea慢慢做成一个大的生意，这个可能性是存在的。但是呢，不能用这个东西去忽悠别人，说你看苹果就是从这做出来的，你们开始做吧，然后一定也行，这个属于不负责任了。

为什么今天录这样的一期节目呢？就是后面有可能会组织一些AI IDE相关的教学和比赛，应该呢是以字节跳动的TRAE为基础。TRAE为基础，现在已经有Mac和Windows版本了，当然目前呢只支持Claude 3.5的大模型，应该是在2月底吧会支持Deepseek。然后呢这个产品就会开放到国内来使用，因为你只支持Claude的话，在国内是没法用的。我呢也准备找一些有兴趣的朋友，咱们呢做一些线上比赛，首先得到欢乐大家提出一些想法，咱们先确认一下，这个想法是不是适合用这个东西来做，如果适合那咱们就做一下试试，咱们各自在家里边去尝试一下。如果做出来了呢，咱们可以拿出来宣讲一下，比赛一下。赛完了以后，我去看看找字节跳动商量商量，能不能得到一些小奖品，或者呢是让字节跳动给咱们一些，比如说火山引擎上面的一些代金券什么的，这个我觉得还是可以去申请一下试试的。当然了，比赛谁输谁赢不那么重要，最重要的还是开心。

这就是这一期跟大家讲的AI IDE，带来真正的AI平权时代。好，这期就讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加discord讨论群。

也欢迎有兴趣、有能力的朋友加入付费频道。再见。

OpenAI连续12天发布会回顾：科技领军者的12大跨越式创新，Sora、Canvas与GPT-4O带来哪些启示？

老范讲故事 — Mon, 16 Dec 2024 00:39:10 +0000

OpenAI的连续12天发布会现在已经过半，发布了些什么东西呢？咱们来总结一下。

大家好，欢迎收听老范讲故事的YouTube频道。12天开12场发布会，算是前无古人了。人家以前的发布会都是在集中一两天的时间里，聚集尽可能多的人把它开掉。但是，OpenAI就是要不走寻常路，选择连续发布12天，每天发布一点新东西出来。而且他们的发布会是在网上开了个直播间，有时候山姆·奥特曼在，有时候他不在，大家就一起来讲讲这段时间又做了点什么新东西。这还是非常有趣的一种发布方式，算是把年底这一段时间所有人的注意力又都拉回了OpenAI以及AIGC这个赛道上。

那么到年底了，大家都得卷，大伙有没有？有。但是，肯定没有12个。如果真的说年底有12个重磅级产品发布的话，他们也不会用这种方式。应该还是会有很多零七八碎的小功能在这12天发布出来，但也会有一些比较激动人心的东西。而且要卷，大家一起卷嘛。OpenAI作为AIGC行业的领军人物，既然开始卷了，其他人必然会跟进。

前段时间我们讲过，OpenAI的最主要的社会贡献是什么？就是为行业指明方向。他指明了方向，其他人就会跟。那么都发了些什么东西呢？

第一天特别逗，首先涨价，上来先说我们做一个200美金一个月的订阅。如果你要去使用O1的完整版或者是O1 Pro，每个月的成本是200美金，这就是第一天发布的东西。而且，O1也好，O1 Pro也好，如果你不是科学家，不是那种真正需要进行推理的人，其实意义没有那么大。对于普通人来说，4O就已经足够了，O1完完全全就是很小众的一个产品。

第二天发布的其实还是一个科学家工具，叫强化微调。意思是什么呢？就是大家现在都在讲炼丹，说明这个大模型不知道你到底是什么，不知道你具体要干嘛，所以他经常会所答非所问。

我们对这个模型进行一定的微调之后，他就知道说：“哎，我今天是上岗来干什么什么事情呢。”就会做得好一些。OpenAI说来，我们发布一个强化微调的功能，你只需要提供比较少的数据，它就可以有一个非常好的微调的结果。这个呢也是一位科学家上来演示。像这种功能呢，跟前面我们讲的O1一样，就是普通人用不上，都是非常小众的科学家产品。

等到第三天，终于有这个大活上来了，Sora千呼万唤始出来。我呢，基本上是等了接近一周的时间才爬上去。Sora出来以后，大家就都疯狂的往上去爬，想去尝试使用。但是呢，他一直是关闭注册的状态。就是你可以在第一个页面上看到演示的这个视频，但是你没有办法登录进去自己去创作。大概是等了，我忘了是几天了，四五天吧，然后才进去。

Sora的模型呢，跟其他的一些视频模型比较起来，算是领先一点点。但是具体的感受，其实也没有那么大差异。对于像我这种一个月20美金的plus用户来说，我每个月应该可以生成50段动画。测试了感觉跟Runway、Pica，还有包括国内的可灵和集梦比起来，有差异，但是不是特别明显。从这个模型角度上说，更多的改进是什么呢？就是用户交互方式上改了。他给你了一些故事版，比如说你可以在一个时间线上写多段的这种提示词。这个呢，其实是给了大家很多的启示了。

因为以前大家生成图片的时候，你给他一个提示词，他给你画出来没毛病。但是呢，生成视频的时候，再给他一个提示词，让他给你画出来，这个事就有点难了。因为视频是很多张图片凑在一起的嘛。所以说别费劲了，咱们就是在不同的时间点上使用不同的提示词，让这个大模型知道我们怎么在这个场景里边进行转换。我相信很快就会有其他的产品来跟进。

到第四天呢，他们发了canvas。canvas其实原来就发过，只是现在告诉大家说，免费用户你也可以用了。现在canvas这个产品呢，基本上是垫进去隔office的命。什么意思呢？就是它等于是有一测试。

你可以去跟他聊天了，但是最大的一个窗口实际上是个编辑器。你可以在一个编辑器里边说：“哎，给我去增加点什么内容，删除点什么内容。”然后哪一段呢，稍微的怎么去调整一下。然后你说：“你给我整个检查一下。”再检查一下说：“哎，这段怎么样，那段怎么样？”它有点像Word的使用方式。

当然，你可以一边在这种对话框里跟他去聊天，另外一边什么呢？你可以直接在编辑器里改这个文件。改完了以后说：“哎，这样是不是好一点，那样是不是好一点？”就是人跟这个OpenAI的ChatGPT一起配合来去修改这个文件。如果这套东西大家使用习惯了以后，那么就不会再有Office什么事了。

它现在呢，只是一个Word文档，大家可以在上面折腾，但是代码也可以，Canvas改代码的效果也是极好的。现在你说有没有像PPT这样的东西，或者像Excel这个表格这样的东西，可以让他在Canvas这边去干活的？我相信未来会有，这一定是奔着Office全家桶去的一个产品，这个产品还是非常非常好用的。现在免费也可以用嘛，这个功能上来以后，整个的效率会提升非常非常多的。

然后到第五天，Apple Intelligence和Siri就上来了，其实就是给大家演示一下怎么可以在苹果设备上，甭管是电脑还是手机上，挂上ChatGPT，然后进行沟通、进行聊天，还可以做一些截屏，以及图片和视频方面的这种工作。这个呢确实是比较激动人心，但是对于中国来说其实没有用的。为什么？因为咱使不了。这个产品发布了以后，整个OpenAI的服务器，我觉得能有个五六个小时就直接宕机了。这个呢充分显示了苹果用户的威力，就是苹果的用户量还是非常非常大的，即使刨除掉中国，剩下的苹果用户也是非常给力的，直接把OpenAI的服务器干崩了。

到第六天呢，是Her真的来了。原来我记得在发布GPT-4O的时候，当时大家看完了以后非常激动，实在是太震撼了。只是呢，在GPT-4O发布之后。

它就又往回退了一点。它发布的是期货，并不是马上就能用的。刚才咱们讲的所有这些东西里头呢，有一个叫强化微调的功能，那也是个期货，现在使不了。其他的是马上就可以用下来了。OpenAI发布了GPT-4O之后呢，大概是过了也是几个月吧，才把高级语音功能拿出来，就是大家真的可以去跟GPT去聊天了。你可以打断它，它还可以去判断你的语气语调，这一块其实就已经强很多了。

在这个之前呢，它还是通过说把语音识别出来，然后变成文字处理，处理完了以后，再把这个文字念出来，通过这样的方式来工作的。但是高级语音功能呢，等于语音进去，语音出来，端到端的中间并没有变成文字的这个过程。虽然你最后结束了以后，是可以去看到所有生成的文字的，但是它会流畅得非常非常多。

但是呢，依然没有让我们看到完整的GPT-4O，或者叫Her，实际上是那个电影的名字，就是一个人工智能，像一个伴侣一样陪着你。这一次彻底出来了，加上什么呢？视频。我们可以打开摄像头，让GPT看着我们，跟我们去聊天。但是这个过程呢，GPT还是稍微有一点小滑头的。我让它看着我，我说你看我怎么样，它说你很精神。我说你看我年轻吗，它说你很有活力。后来我说，你能不能判断一下我的年龄，它说不行，我尽量不惹你生气。反正还是比较油滑的。

我还跟我太太两个人一起上镜，我说来，我们俩谁好看，它说你们两个都很有活力。好吧，这个就当是它骂人吧，反而给我们带来了很多的欢乐。让它去拍各种场景，你家里边的各种家具，屏幕上的各种截图，你让它拍下来以后，它都可以实时地去做出反馈了。甚至呢，你比如说，你让它拍自己的视频的时候，你不跟他说话，朝它笑一笑，它都会马上这个回应你：“哎，笑一笑真好。”这个就显得非常非常智能了。

这个功能极其好玩，如果你订阅了Plus，一定要去试一试，非常非常欢乐的一个产品。到第七天呢，发布了一个产品叫Project，Project的这个产品非常有意思，它等于是……

在ChatGPT里边给大家开了一个目录。你可以把它打开了以后，然后说：“我现在需要处理这些文件。”然后你把这些文件都上传上去。然后呢，它根据这些文件去进行响应。

原来呢，甭管是拆CPT也好，还有其他的所有这种聊天工具也好的，有一个很大的问题是什么？就是无状态。每一次去的时候，它都不认识你，需要从头去告诉它：“我今天有什么具体的事情。”如果你说：“哎，你把我的硬盘都搜索一下，在这个基础上跟我聊天呢？”它也很痛苦。为什么？因为你硬盘里的东西很多，它搞不清楚你到底要跟它聊具体什么事情。

所以，让它在某一个具体的任务上聚焦起来，现在我们就来做一个旅游规划。我把旅游相关的所有信息都给你，你就在这个范围内给我回答。这件事情原来是比较难以做到的。很多人去做AI Agent，去做工作流，去做RAG，实际上都是为了解决这个问题。

现在OpenAI说来了，咱们直接给你提供一个project的功能。你为了实现一个具体的功能，就把相应的文件都传上来，然后我就在你传上来的这批文件内给你去干活。这其实是OpenAI在向着自成操作系统的路上继续狂奔。他们认为以后不再需要操作系统了，什么Mac OS、Linux、Windows都不要这些玩意儿，我们自己干。我们自己把这些需要的东西找到了，以后就可以直接工作了。

大家以后就慢慢地把各种各样的文件都存在OpenAI的服务器上。你每次就问它：“我这个项目里头都有什么事情？我应该如何继续往前走？”“我另外一个项目里都有什么事情？有什么文件？有什么信息？我应该如何往前走？”这以后就不再需要操作系统了。

大家注意，前面谷歌出了一个产品，叫Workspace，其实已经部分实现了这件事情。Workspace就是你上去以后，实际上是个网盘，把各种文件都存上去。以后你就可以在网页端。

直接去有所有的Office功能，不再需要说我在硬盘上存在什么地方，我在这个其他地方怎么去存，然后怎么去找到它，不用干这个事了。我们在全世界任何一台电脑上，只要你能登陆到自己的谷歌账户，我们就可以使用云端的这台电脑，它里面存着我们所有需要的文件，有完整的Office相应的功能。

现在OpenAI说来，我们也照这个方式来。以后可能我们下一个产品，就是叫OpenAI网盘，大家以后就可以在那个上面干活了。那么以后你就问OpenAI说：“哎，某个目录里有些什么东西，或者是哪天放了一些什么东西上来呀？我最近有些什么样新的文件变化呀？”他就去工作去了。

那么OpenAI可能就会有新的收费方式，按照这个网盘存储空间这样去收钱。这可能也是未来大家可以去前进的方向，因为我一直讲OpenAI对于社会的最大贡献，就是指明方向。其实现在你用谷歌的Gemini已经可以部分完成这种工作了。如果你给谷歌Gemini去付费，它也可以在你的Workspace里边去干活。

但是Gemini目前为止呢，还没有那么聪明，虽然发了Gemini 2.0 Flash要稍微好一些，但是在各种的组件结合上，谷歌还有待提升。目前为止，12天里他已经过了7天了，大家注意，他礼拜六礼拜天是休息的，发布了7个新产品，后边呢还有5个新产品等待发布。其他公司呢，肯定也都没闲着，这个行业带头大哥已经冲了，其他人如果不跟着的话，肯定你的态度不够端正。

第一个冲上来的是谷歌，谷歌的Gemini 2.0 Flash这个版本上来了，它的整个工作效果确实是要比原来的Gemini 1.5要强非常非常多。而且它是个Flash版本，速度非常快还免费。它比咱们在1.5以及他们中间出的各种各样的版本的这个模型都要快得多，效果也非常的好。只是呢，他演示的非常多的东西，其实你压根找不着在哪。为什么？这是个技术型的公司，大家不要对谷歌这种。

技术型公司的产品能力抱有太高的期望，这个怎么讲呢？就是按他的说法，Gemini 2.0呢，完完全全可以像GPT-4那样，具备高级语音功能，像电影《Her》一样去工作。你可以与它对话，可以让它进行视频采集或图片采集。它生成的内容呢，甚至比PPT-4还要强。它可以生成混合内容，生成完文字后，再夹杂着图片一起生成出来。OpenAI现在只能生成图片或文字，无法将二者混合输出。

现在的谷歌的Gemini 2.0，据说可以做到这些。只是呢，它把所有的多模态输入和输出功能，都放在了开发者工具里，或者是一些未来项目中，让大家去加入waitlist，等待使用。因此，我们现在唯一使用它的方式，就是像我这样去申请开发者账号，然后将Gemini 2.0 Flash的模型挂到自己的应用里，可以使用它的部分功能。完整功能，生成混合的文字和图片，目前还做不了。

谷歌更新了之后，Meta肯定也不闲着。第一个呢，是把Llama 3.370币这个模型放出来了。现在Llama 3.370币的效能，比原来的Llama 3.1 405币高很多。其实在国内，我们一般不太尝试使用Llama，因为一旦Llama更新，可能过一个月左右，通义千问以及国内其他开源模型就会更新，补上这个窟窿。所以我觉得稍微等一等，可以期待下一步的产品。

Meta也公布了自己的视频生成模型，OpenAI已经上来了，Sora也出来了。Meta也要有其他的，比如说腾讯混元纹身视频大模型，这两天也突然开放，大家可以去试用。我去试了试，还是有点一言难尽。做这种视频生成模型里，最难的其实不是视频生成，而是模型操控。它的用户交互界面稍微差了点。但是既然OpenAI已经指明了方向，大家就朝着这个方向努力就好了。

Pica也更新了。Pica是华人团队做的一个美国的视频生成模型。他们呢，就很快地把OpenAI Sora的这些视频交互方式搁进去了。他怎么弄呢？就是你先上一副照片，说我要这个人，然后这个人呢，要去飞翔。他等于就可以很好地保持这个人的样子，然后去做后边这个动作。然后你再给他一幅图，说：“哎，现在要在这个环境下飞。”他这一块就可以编排得比较好了。现在已经可以做出一些非常有趣的小视频，在推特上面去传播了。

Pica更新了，MidJourney也更新了。MidJourney更新的那个产品特别有意思，它叫故事版。什么意思呢？就是大家原来不都抱怨说这个东西的一致性差吗？说我想让它连续地输出一些内容，输出不出来。MidJourney你说来，我们这次更新一个有趣的功能。在一个故事版里头，你先定义角色，这叫张三，那叫李四，这叫王五，这叫赵六，定义了一堆角色。然后呢，再定义一堆场景，这是厨房，这是厕所，这是客厅，那是卧室，哪个地方是教室。定义完了以后呢，你再去定义，说张三在厕所里边碰到了李四，李四在厨房里边给王五做饭，王五在教室里边去做什么。当你把这些提示词写完了以后，他就用你前面定义的角色，在你前面定义的这个场景里边发生各种互动了。

再往后，他家去做各种漫画，做各种的故事书，就非常非常方便了。你后边可以把这个故事写得很长，他在整个的生成过程中不会发生大的偏移。这个也是非常棒的。我觉得呢，也算是被Sora稍微提醒了一点吧，或者说大家可能殊途同归，都向这个方向走。只是呢，Sora发布了以后，MidJourney呢也再往前走一步。中国的各大模型公司呢，现在应该都在加班加点，Sora指明方向了以后，可灵还有像吉梦这样的视频模型，应该都会向这个方向前进，就是向故事版前进。视频生成过程中，某一些提示词在某几秒钟，或者某一些提示词在某个特定时间点里边起作用，这个大家应该都会跟上。

CANVAS和Project的这样的功能的话，字节的豆包还有像Kimi，他们应该都会去学习一下。至于数学大模型的话，从O1 Preview出来之后，大家其实就都已经在追赶了。比如说像阿里出的QWQ，通义千问下面专门有一个模型叫QWQ，就是做这种推理模型的，32B在我本机就可以跑起来，推理效果还是相当不错的。Kimi呢，也专门做了一个叫K0MAS，专门的一个数学模型，都是进行推理使用的。

搜索这一块的话，其实大家都已经做得还不错了。这就是前面七天给大家带来的这些变化。还有五天有可能发布什么呢？第一个很多人都在期待，Dalle是不是该出师了。Dalle3已经发布了很久很久了，没有什么更新。而且Dalle3现在明显的已经跟其他所有的图片生成模型比起来，落后非常多了。现在大家再去做视频生成的时候，都是用MidJourney生成的图片去做视频生成的地图。Dalle呢，是需要努力了，这个有可能会再往前走一步。

他们发布会的时候，其实是有一些暗示的。这一次在发布的时候，OpenAI X7BT在网页端做了一个比较大的这种改变。什么呢？就是他在聊天窗底下加了一堆工具栏，然后这工具栏里头有一批呢，是搜索、Dalle，还有Canvas，这些东西是在一个栏里头。你要先选我要用哪个工具，然后再去跟它说话。大家想，这个里头为什么会有一个Dalle呢？肯定他是有事情了。他把这样的一个已经稍微有一点点小落后的产品，跟这次新出来的这种搜索呀、Canvas放在一起，那么它有可能会更新。

然后新的智能体框架有可能也会出来。由于现在大家都在讲，说大模型就卷成这样可以了，后边呢，大家去搞一搞智能体。大家注意，现在的OpenAI呢，这么多新功能，其实是不能一起使的。什么意思呢？就是CANVAS、Search、语音功能，你每次必须选一个，你不能说我都选，说我一边语音功能，一边你去给我搜索。

这事不行。你说我一边canvas一边去搜索，这事也不行。或者说，哎，我去推理一下，推理完了以后，你给我放到canvas里头，或者去做语音这个事，都是不允许的。每次只需选一个，这个还是非常不方便。未来可能会有一些方法把这些功能串起来，而这些功能串起来以后，OpenAI的ChatGPT的可用性会提高非常大的一大截。

还有什么可以期待的呢？就还有人会去期待这个AI硬件。到年底了，折腾了这么长时间了，是不是也该拿出一个东西来？特别是前面，苹果当年iPhone的设计师，号称是在跟OpenAI一起合作做AI硬件。那么到年底了，是不是给大家瞅一瞅？这个有可能会出现，但这块呢，完全是咱们猜测，没有任何的依据。

还有一个是什么呢？就是有可能会出GPT4.5，就是它有可能会在GPT4的基础上再往前走一点。你说一下到GPT5，这个呢稍微有一点点难度，但应该还是会继续往前走的。因为在发布Siri那一天，他呢也做了一个暗示。在发布Siri那天呢，他们拿这个是iPhone，上面呢只有一个日历的框，在这个屏幕上，那个日历上写着说，我们要去发布下一代的AGI或者什么这样的东西。大家就去猜测说，这有可能是GPT4.5。这就是未来五天里头，大家还是可以去期待一下的事情。

等OpenAI把所有的12天、12个产品都发布齐了以后，我会再录视频跟大家进行总结。好，这一期就跟大家讲到这里，前面已经发布的产品，赶快去使用起来，非常好玩。好，感谢大家收听，帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣有能力的朋友加入我们，付费频道再见。

OpenAI完成超募融资，未来发展方向是否陷入停滞？

Luke Fan — Tue, 15 Oct 2024 01:29:43 +0000

我们开始第二个故事。OpenAI完成融资，开始摆烂了吗？Day Dev Day都发了些什么奇怪的东西呢？

首先，官宣已经完成这轮融资了，是在9月底这几天官宣的。现在呢，他是实现了超募。什么叫超募？就是我原来说要募多少钱，但实际上得到的钱比这个多，就叫超募啊。他原来说我要募65亿美金，现在实际上是66亿美金，就是多1亿。也是募投后的估值，原来说的是1,500亿，但其实我相信那个数是错的。原来那1,500亿美金应该是投前估值。他现在结束这一轮投资以后的投后估值是1,570亿，所以呢，实际上多了70亿。

那你说怎么会多出70亿出来呢？这个很奇怪，你明明投了66亿，那多出4亿是什么来呢？这个呢大概率是期权池。做这种投资案的时候啊，如果你投前估值是1,500亿，那么投了66亿美金进去以后呢，他的投后估值一般应该是1,566亿。多出4亿来是会做一些其他处理。

那你说如果是4亿美金的期权池，是占多少股份呢？期权池是0.255%。跟传闻中山姆·奥特曼要拿到的7%的股份比，这个事肯定是不匹配的。因为7%的股份如果在1,570亿里头的话，那是109.9亿美金，那是百亿美金富豪了。所以呢，这个具体怎么分配的，多出来的4亿现在并没有公布出来。

那么各家出了多少钱呢？领投方叫兴盛资本，多出了3亿美金。他原来说我出不少于10亿美金，现在一共出了13亿美金。但是呢，他这个特别有意思啊，他自己出了7.5亿美金，叫自有资金。然后呢，发行了一个叫特别目的载体，这个实际上就是说我现在发现一只小基金，这个小基金呢就是为了去投资OpenAI的。谁愿意上来，谁就在这只小基金里头放钱。这个小基金呢是募了4.5亿，所以这两个加一块13亿啊，这是这个领投方给的。

领投方呢还得到了一个特权，一般领投方都会给自己弹一点点特权出来。这个特权叫什么呢？叫Warrant，是认股权证。这个东西干嘛使了呢？实际上是个对赌协议，但是呢，这是一个正向的对赌协议。它规定到明年2025年，如果OpenAI实现了预期收入116亿美金的话，它可以再以1,500亿美金的估值再投10亿美金进去。

这个是一个什么样的权利呢？跟大家解释一下，OpenAI这样的一个公司，从2023年拿到上一轮融资，它的估值是300亿美金，到现在2024年10月拿到这一轮融资以后，达到了1,500亿美金。所以他的估值涨得是非常快的。
现在呢，能够达到1,500亿美金，肯定是做了一些这种承诺，说我今年挣多少钱，明年挣多少钱，后年挣多少钱。这叫财务预测。现在这个领投方说，你这个财务预测如果准了，那你要允许我再以1,500亿美金的估值再投10亿美金去。那可能过了一年以后，OpenAI的估值就已经到3,000亿美金，甚至5,000亿美金了。这种可能性都是存在的，但是你还是要让我用1,500亿美金的估值再往里投。这个东西叫认股权证。

很多的金融机构都喜欢干这件事情，就是说：“哎，我先谈一个价格，然后呢，也投一点钱，但是呢，我们来对赌。如果你实现了，我按当时的价格再投一步。”我以前所在的公司融资的时候，遇到过一次那种认股权证的交易。其实我们自己做早期投资，一般很少干这个事，只有是后期投资才会干这个事情。

当时我们遇到了谁呢？这个投资方叫做硅谷银行，就是后来倒闭了。这个硅谷银行，他呢，当时进来说：“我们也不投资你，我们借钱给你。你可以在我们贷款，而且没有抵押，也没有任何其他的担保。你就可以直接在我这借钱了。”但是呢，借钱的这个协议后，是带一个Warrant的条款的，就是要在五年以后，按照当时我们融资的那个价格，再进来百分之零点几的股份。那其实就很赚了吧，可能五年以后我们都上市了，可能都已经十几亿美金了，那他要按着一个五年前的价格再进来一点点。

这个是以前我们遇到过的，这个是领投方。第二个呢是微软。微软呢是给了7.5亿美金，还是49%。所以跟我上一个礼拜去讲的这个是一致的。就是微软其实动用的叫反稀释权，就是我原来占49%，我以后还占49%。那么差的这部分我给它补上就完了。他补了7.5亿美金，他还占49%。然后软银是第一次进来给了5亿美金，其他的参投方没有公布具体的金额，就是还有一些其他的基金，我们就不再去讲。

然后呢，还做了一些限制性的条款。这个限制性条款特别有意思啊，第一个2.5亿美金起投。如果你少于2.5亿美金，就别参与了。所以任何一个参投方应该都是多于2.5亿美金的。那你说我这没有2.5亿美金，我就有这个100万美金，我想投这个案子行不行？也不是不行，那你又怎么投进去呢？你去参加领投方的那个特殊目的载体，他这个基金里，你就可以转投到这个融资里边，够2.5亿美金了，你可以上桌来跟我谈这个事情。

再往后呢，是叫不竞争条款。这个其实也是比较奇葩的一个条款，通常呢会要求被投资方要做不竞争条款。什么意思啊……
比如说，有一个公司投了一个什么什么项目，那么你这个被投的项目，你不能跟母公司竞争，一般有这样的条款。但这次是反过来的，是要求投资方不可以跟OpenAI竞争，也不可以投资OpenAI的竞争对手。这个确实是有点奇葩，这也是说OpenAI自己太强势了。所以呢，他提出这样的条款以后，剩下的这些投资方都认可这个条款，在上面签字了。

现在所谓的不得投资OpenAI的竞争对手，主要指的是马斯克的XAI和Anthropic这两个公司。那么在这种情况下，红杉跟苹果最后就拒绝签字，表示我们不投了，这事我不玩了。为什么会出现这样的情况呢？一方面，可能是因为不满足前面的领投方特权，特别像苹果，肯定是希望有这种领投方特权的。待会讲为什么。另一个原因是没法去接受这种不竞争条款。红杉这样的公司，估计XAI也好，Anthropic也好，他们应该都投了。以后这些公司再融资的时候，至少要去处理这个反稀释条款，他们也得跟投。一旦投资了OpenAI的这一轮，签了字以后，就没法再去在XAI和Anthropic里边去追加了，所以他也没法接受这种条款，只能退出了。

那么OpenAI这一轮融资呢，是画了很大的大饼，在收入和数据上。第一个，现在他讲述我已经有3.5亿的月活了，这是非常非常大的一个数字。当然，这个数字应该还会大涨，为什么？因为iPhone 16发布了，Apple Intelligence来了，可以把这个数字再翻一翻。这是怎么算的呢？2023年苹果卖了2.35亿只iPhone，2023年里卖的是iPhone 15、iPhone 15 Pro、iPhone 15 Pro Max这些机型。其中iPhone 15的Pro和Pro Max都是可以使用Apple Intelligence的，加上2024年销售的iPhone 16，都是全系可以使用Apple Intelligence的。所以基本上可以认为，苹果现在可以使用Apple Intelligence的这些机型，去掉中国大陆用户和OpenAI重叠部分的话，再涨出3.5亿来，应该是一个相对合理的猜测。所以，它能够达到7亿左右的月活，在苹果进入之后。

所以，为什么我前面讲说苹果应该得到这个领投方特权，因为它要想让数据继续上升，那苹果在里头一定是功不可没的。后面的话，苹果没有参与这一轮投资。
所以后面，苹果上面继续使用OpenAI的GPT-4O这样的方案，可能就会受到一定的阻碍，有可能会转向。因为苹果原来讲说，我们除了OpenAI之外，我们也在考虑谷歌的，也没准在往后一段时间，真正的全线的Apple Intelligence上来以后，谷歌的服务也会加进来，这个可能性是很大的。

因为在整个这一个协议里边，苹果其实是亏大了。就是苹果如果给了钱，然后把它这个数据做上去，拿到这个领投方特权的话，苹果是能挣到很大一笔钱的。如果OpenAI以后能够放开中国用户的话，那它在原来这个基础上可以再长根，可能1亿多用户出来都是有可能的。

这个是OpenAI的数据，现在有多少人在付费呢？一个月20美金在订这个OpenAI的服务呢？1,000万付费用户。当然苹果加入以后，可能这个数字还能够再翻一翻，甚至更多一些。

现在有多少人在使用API在写程序呢？100万第三方开发者在使用OpenAI的API，再用这样的方式来付费。所以这个数据其实已经是非常好了。今年的收入是37亿美金，但是在今年亏损了50亿美金啊。这个50亿美金的亏损，还没有计算上股权激励计划。

大家说股权激励计划我又没发钱出去，怎么就亏了呢？所有股权激励计划就是你承诺给员工的，这个他未来是会去卖的啊，这个就还是应该把它算成一个成本。像我们以前有一次，有一年是怎么干的，就是公司实在没利润了，就直接把大量已经离职员工的期权注销掉，然后公司就有利润了，就直接可以到纽交所去录盈利了。这是他们比较会玩的一个方法吧。

今年37亿收入，明年呢是116亿美元的收入。如果明年实现了这个，前面的领投方还会再给10亿美金。然后后年呢，要做到256亿美元的收入，到2029年，准备做到1,000亿美元的收入，这个也是很大的收入进来啊。1,000亿美元一年的收入相当于谁啊？相当于Target和雀巢。

但是这个里头，Target的市值就比较低，只有700亿美金不到，雀巢的市值是比较高的，大概到2,800亿美金。但是你想，现在这个1,500亿美金的OpenAI，它一年的收入才三十几亿美金。所以为什么互联网公司或者人工智能公司，所有新科技公司的PE的倍数都很高啊，大家可以去想一想。这还不用算PE，因为没法算PE，它的盈利是负的，他只能算PS。

那么OpenAI准备怎么提高收入呢？很简单啊，涨价，这刚才我们讲的，第一个是用户量会上升。
第二个呢，是说我们的涨价，到年底就准备涨到22美金一个月了。准备在五年之内，把每个月的月费涨到44美金一个月，并没有涨到200美金一个月。到这呢，就是他们把这一次的融资彻底算做完了，已经正式官宣结束了。官宣结束了以后呢，就开始躺平摆烂了。

因为在十月一号刚刚开的开发者日，这个Open AI就是我们就躺在这不动了。十月一号在旧金山，10月30号准备在伦敦，11月21号准备在新加坡开Open AI的开发者日。这一次在旧金山的开发者日上呢，到底有多少人到现场，可能有100多人，反正人不多。预定了100份草莓，因为他们是在现场使用Open AI的API的技术，直接定了100份草莓给现场分发。所以啊，我们猜测现场的人并不是很多。

那么这一次到底发布了什么呢？第一个东西叫Real Time API。因为大家知道，GPT-4O有一个叫高级语音功能，最近是都可以用了吧，可以跟他聊天，效果还是非常不错的。这个产品现在就有API出来了，这个API呢叫实时API。它呢是等于可以随机的打断，而且在整个的开发过程中，会变得很简单。因为以前我们要想开发这种语言教学类的应用的话，必须是先识别，然后再进行处理，处理完了以后，再去进行朗读。而现在你使用Real Time API了，就可以一次性把语音给它，它就处理完了，然后一次性把语音给你输出出来，这个效果就会好很多啊。这是第一个发布的东西，而且这个东西呢，在语言学习、客服类里头会有极其广泛的应用，只是这个玩意儿很贵，它的API的价格是非常昂贵的。

第二个发布的东西呢，叫提示词缓存。什么意思呢？大家知道我们跟Open AI或者跟China CPT聊天的时候，它是怎么聊的吗？你聊的第一句给你一个回复，等你聊第二句的时候呢，你聊的第一句跟第一个回复，就作为下一次提示词一起都扔上去。等于我们在调用的时候，是第一个问题、第一个回复加上第二个问题一起扔上去，才能得到聊天的结果。在这样的情况下，你不是越聊聊的时间越长，这个提示词就累加的越来越多嘛。所以呢，现在Open AI说，那咱们少少了搞一点吧，把提示词缓存在云端，你就不用来回提交了啊。但是呢，并不是说这个钱就不用交了。原来Open AI的输入输出的价格是不一样的，一般输入的TOKEN是要便宜很多的，输出的TOKEN要变贵。现在呢，这些输入TOKEN，特别是重复的部分，你就不用再给他了。
都放在服务端就完事了。所以说这些TOKEN啊，你按五折给钱吧。原来比如说是100万TOKEN一美金的，现在你给50美分就可以了。反而我觉得降价降的不够多啊。这是第二个提示词缓存。第三个给的是什么呢？叫模型蒸馏技术。模型蒸馏是什么呢？就是可以把大模型生成和过滤一些内容，再把这些内容去蒸馏出一些适应特定场景的小模型来。这个呢应该是奔着封杀拉玛去的，并没有模型广场或者市场出来。按道理说，大家争流出一堆小模型来，你应该有一个地方拿来卖呀。但这次没错啊，OpenAI看来也确实发现了自己并不擅长干这个事情。

再往后呢，第四个出来的东西，也就是最后一样东西，是什么叫视觉微调。做了这么一奇怪的一个东西，这是干嘛呢？就是刚才我们讲了，OpenAI是可以允许我们去微调它的这种线上模型的，现在也允许我们用图片再去做微调了。可以输入提示词和图片，对视频模型进行一定的微调，也是对开源模型去的。因为现在我们使用Lama 3加上其他的一些模型，也可以直接实现这种视频微调。现在他准备去把这一条路也封死掉。

Grab就是东南亚打车软件，是第一个使用这个视觉微调技术的公司，做了一个demo，主要是干嘛呢？识别交通标识。这有可能是对着马斯克的FSD去的，给FSD添堵去了。

那这一次发布为什么说摆烂了呢？第一个是没有任何新模型出来，也没有任何新的方向出来。说我们又可以有些原来做不了的事，现在可以做了，都没有。这里头唯一可能稍微新一点的东西，就是实时API。其他的呢，其实都是别人已经做好的东西，他要上去给人家添堵，或者去跟人竞争用的东西。

开发者日里边，开发者真正关心的是什么？真正想看到的是什么呢？就是新的开发方向，原来做不了的事情你能做了。而real-time API是原来做不了的，现在能做了。但是其他的，比如说模型蒸馏、视觉微调，其实都没有新的功能，都是在跟拉玛竞争。

另外呢，开发者希望能够看到新的商业模式，这次完全没有。开发者希望看到一个东西，提速降费。因为大家知道，调用OpenAI的API是有速限制的，你不能调太多，也希望每一次调用可以便宜一点。这一次整个的发布的所有产品里头，只有提示词缓存算是变相的降价，但降的也不够彻底。我的提示词都已经在服务端了，你还是要找我收钱，只是收的比原来便宜而已。提速完全没提，成功故事也是开发者希望看到的东西，这一次只有两个成功故事。
一个就是现场吃到草莓了，因为现场呢使用 Realtime API 做了一个应用，直接去呼叫“请给我送草莓来”，订了一份外卖出来。另一个成功故事就是 Grab 进行交通标志的识别。

那你说去年的 Dev Day 发布什么东西？是不是这个 Dev Day 都是发布这种东西呢？咱们看看去年啊，第一个去年发布的是 GPT-4 Turbo，有新模型出来。然后第二个呢是去年发布了 GPTS，发布了 GPTS 商店，就是大家可以自己去做自己定制的 GPT，这也算是有一个新的商业模式，新的流量在赋能进来，就是 GPT 商店。很遗憾啊，GPTS 商店现在基本上烂尾了。

还有一个叫 Assistance API，是协助很多开发者开发自己的这种聊天机器人的，但这个现在好像也没有听到什么响动。然后达利 3 的 API 出来了，就是可以拿它去画图了，这个呢现在应该有人用，但是应该不多。在画图这一块上，我觉得 OpenAI 跟 Midjourney 和最新的 Flux 的竞争上，不是特别占优势。然后是 Audio API，也就是语音转文字、文字转语音，这些 API 是去年开发者日上发布的。

然后做了这个叫 Copyright Shield，就是对版权进行音乐的保护，还给出了用户模型计划，也就是让用户自己训练和建立自己的模型。做了 Vaspers 这个 Large V3，也就是这种语音识别模型的第三个版本，也对 GPT 进行了提速。这是去年做的，所以我说他今年呢基本上是摆烂了，给的东西非常少，反而融资已经结束了，咱们就再接着折腾就完了。

而且啊，按照苹果和红杉透露出的这些信息，OpenAI 在明年应该还要再融一次钱，因为他现在融到的 60 多亿美金应该不够他花的。明年如果不再融一次的话，他还是会死，所以这个也是很多人觉得很危险。

另外呢，今天早上还突然上线了一个产品，叫 GPT-4O with Canvas。这个东西呢，其实是有点像 Cloud 出的叫 Artifacts，一面是输出框，一面是输入框，另外一面是编辑的代码或者文档，你可以在两边同时进行处理，而且呢可以进行多人协作。GPT-4O with Canvas 这个东西呢，从用户体验上说一定是有提升的，但从模型本身来说，并没有什么大的改变。在现在的这样的一个时代，很多人都在去讨论说，唉，OpenAI 如果不行的话，是不是 AIGC 的泡沫就破掉了，是不是出问题了？这个呢肯定是会有一定问题的。
有可能会有一定的泡沫在里头啊。老大一旦摆烂，行业就会衰退啊，这个是非常危险的。现在OpenAI融资之前出的是GPT-01，融资以后就马上不一样了。就跟很多那个什么似的，结婚之前，甭管是男方还是女方，都是表现得很好。一旦结婚了以后，发现哎，都摆烂了。这个是我们原来谈恋爱的男朋友女朋友吗？好像就不是那么回事的那种感觉。

OpenAI这一次就没有给出任何新方向，而且前面挖的很多坑，到现在也没有填上。包括他的Sora的世界模型，就是做视频的一个模型，到现在也没出来。还有很多他们说要去做的事情，到现在都没有做出来。现在呢，OpenAI其实已经开始思考如何在现有的体系下挣钱了。这个其实是很危险的，因为呢，如果没有真正找到新的盈利模式，只想着在现在这个收年费的方式上去涨价，这种挣钱方式不是整个行业希望看到的。整个行业还是希望他能够给AI领域带来一些不同的商业模式。

现在OpenAI想干的事情就是，第一个涨价；第二个呢，跟政府合作。OpenAI要跟美国政府以及比较友好的一些政府直接进行合作。山姆·奥特曼也确实有一点点的这种政客的属性吧。那么老大的职责，肯定不应该是小富即安，而应该是为整个行业寻找方向。现在呢，OpenAI在老大这个位置上已经有点越来越怎么说呢，不那么合格的一个状态了。咱们还要看看未来到底是向哪个方向发展。

如果OpenAI就站在那不动了，可能到2025年就是AI agent都要爆发了。因为原来大家不太敢在AI agent上做过度投入的一个核心原因，是害怕OpenAI自己突然爆发，然后把AI agent所有的东西都给覆盖掉。如果OpenAI自己就站着站着了，后边涨涨价，然后就这么着了，可能围绕AI周边的各种创业和应用就会大量冒出来。不会说我做完了以后，哎，OpenAI1升级发现已经被干掉了。这个怎么说呢，也算是对行业的一个小利好吧。但是没有新方向的话，对于整个行业来说还是很危险的。

好啊，这就是我们今天讲的第二个故事，就是OpenAI终于完成了融资，融资完成了以后就开始摆烂，这样的一个故事啊。