模型训练 - 老范讲故事｜AI、大模型与商业世界的故事

Llama 4悄然发布震撼不足？对比DeepSeek与千问，Meta的MOE架构和千万级上下文能否挽回开源领导地位，避免被超级APP浪潮抛弃？

2025-04-102025-04-07 作者 Luke Fan

Llama4发布了。这里的黎明静悄悄，没有什么响动。这是怎么回事？

大家好，欢迎收听老范讲故事的YouTube频道。一觉醒来，Llama4就发布了。扎克伯格亲自在Facebook的REELS（也就是Facebook的短视频里面）发了一条视频，说Llama4发布了，今天是Llama4日。

Llama4呢，一共是有三个版本：
第一个叫Scout（侦察兵版本），总参数1,090亿（也就是109B），活跃参数是170亿，包含16个专家模块。对的，Llama终于也放弃抵抗了，从Llama4开始变成Moe了。在Llama4之前的版本都是单一体的模型，Llama3.3还给了一个400多B的单一模型，到Llama4彻底放弃抵抗了。

现在呢，支持1,000万TOKEN这种上下文，这个是Llama4最大的一个特点。DeepSeek是64K（也就是64,000个TOKEN上下文），现在上下文比较大的Gemini大概是能到2兆（200万），Llama4直接给了一个10兆（1,000万TOKEN），这是它做的一个很创新的点。

英伟达黄仁勋CES霸气登场！鳄鱼皮夹克发售5090显卡，钱包快捂住还是准备剁手？

2025-01-09 作者 Luke Fan

黄教主已经在CES上吹响了号角，准备好钱包了没有？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲CES上，全村最靓的仔黄仁勋。黄教主都发布了一些什么东西？我们是不是要准备好钱包去买东西了，还是说咱们稍微冷静一下？

现在AI嘛，市值最高的公司英伟达，作为英伟达的老板，黄仁勋在整个的CES大会上一定是最靓的仔。其他做AI的人，可能还没有他这么风光亮丽。为什么呢？因为CES呢叫做消费电子展，那些做云计算的人，你们靠后站。黄教主是要来发布游戏显卡的，他是来玩消费的，这个还是有很大差别的。而且整个的AIGC玩了两年多，唯一挣着钱的就只有黄教主自己了，其他人都在这赔本赚吆喝呢。所以呢，人家一定要风光亮丽的跟大家做一个演讲。

咱们先看一下皮衣教主，因为他走到哪穿个皮衣嘛。他这个皮衣呢，这一次是一件新皮衣，不是以前穿过的这些旧皮衣。这个叫Tom Ford设计的一个皮衣，这个皮衣呢叫鳄鱼皮印花皮夹克。就是我们可以看到这个皮夹克上有很多非常大的花纹，这个东西呢叫鳄鱼皮印花。就是你如果买了什么鳄鱼皮钱包或者是鳄鱼皮的皮鞋，上面就是这种大花。我还真没见过鳄鱼皮夹克，他这个皮夹克呢应该不是鳄鱼皮的，应该是牛皮的，只是呢把这个大花纹给你印上了而已。

xAI拿下60亿美金融资PK OpenAI，Elon Musk的AI帝国能否改变游戏规则？

2024-12-27 作者 Luke Fan

埃隆·马斯克的 xAI 拿了 60 亿美金的投资，估值达到 500 亿美金，准备去追赶 OpenAI 了。他还追得上吗？

大家好，欢迎收听老范讲故事的 YouTube 频道。咱们今天来讲一讲 xAI 拿了 60 亿美金投资，追赶 OpenAI 的故事。这一轮的投资里面，英伟达、AMD 都在，还有一些上一轮的投资者。

大家注意，不是说谁想投资他谁就可以的，只有上一轮的投资者，才有资格去投资 xAI。还有哪些人呢？就是协助埃隆·马斯克去收购 Twitter 的这些人，他们是有资格去投资 xAI 的。但是有限制，协助埃隆·马斯克收购 Twitter 的这些人呢，占股不超过 25%。其他的说我是上一轮投资人，他是可以无限制地在里面去进行投资的。你说我这两个都没沾边，那对不起，这个事跟你没关系。

Sora接口短暂泄露，艺术家们揭示Open AI的剥削内幕，是公关噱头还是真心合作？

2024-11-29 作者老范讲故事

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了。很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧；然后也出来做了一些解释，表示这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头，电影里头用这种镜头其实也不是那么多。这一次呢，只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

一年亏损50亿美元，OpenAI压力山大：再不推出GPT5，可能没有机会了——GPT-4面临Anthropic Claude 3.5 Sonnet和Meta的LLama 3.1 405b的挑战

2024-07-28 作者 Luke Fan

GPT5如果再不出的话，可能就没有机会了。大家好，这里是老范讲故事的YOUT5频道。今天咱们来讲一讲OpenAI现在身上的压力到底有多大。再不出GPT5，可能真的要出事儿了，因为前面吹过的牛实在太多了，特别是Sola这样的模型，号称可以直接生成长的视频出来，到现在已经半年了，还没有真正拿出来，只是每个月放出几个视频而已。而其他各个公司，按照Sora方向做的产品，已经都开始在公众测试了，这对他们来说一定是巨大的压力。

前一段时间发布的Anthropic Claude 3.5 Sonnet，也把压力给到了OpenAI，因为这个模型的效果已经非常好，而且极其便宜。更不要说昨天刚刚发布的Llama3.1405B这样的一个开源模型。前面咱们讲的Anthropic的模型还是闭源的，而Llama可是个开源模型。405B的话，在各个层次上，都赶超了OpenAI的Chat GPT-4。老大的位置有可能会丧失。

黄仁勋AI时代英伟达GPU革命：一场市值2.7万亿美金的狂欢，COMPUTEX 2024重磅发布Blackware GPU，1.8万亿参数GPT4揭秘！

2024-06-04 作者 Luke Fan

大家好，欢迎收听老范讲故事YouTube频道。今天，咱们来讲一讲黄仁勋在COMPUTEX上的狂欢。COMPUTEX是一年一度在台湾举行的计算机大会。黄仁勋，作为现在真正AI时代的当红炸子机，可能是唯一靠AI赚了大钱的人。虽然微软也在赚钱，但是微软整个靠AI挣的钱并没有那么多。真正靠AI赚了大钱的公司只有他一家——英伟达。刚才我看了一下，英伟达现在市值2.7万亿美金。大家知道，再往前就是微软的3.2万亿，第二名是苹果，2.9万亿，还差那么一点点。可能稍微一哆嗦，英伟达就有可能成为世界第二市值的公司了。那么，黄仁勋上面都讲了什么呢？作为网红，肯定还要先暴露一下行业秘密，别人都不知道他知道的事情。上来先说一下他现在讲的是什么——就是GPT-4到底有多少参数。GPT-3.5大家知道是1,700多亿参数，就是一个170多亿级别的模型。但是到GPT-4的时候，OpenAI就再也没有出来说它到底有多少参数。很多人说你是不是超过万亿了，对OpenAI来说，这个数据不是很准确。我来辟谣了，但是具体有多少，从来没有讲过。黄仁勋在前面的GTC，就是GPU技术大会上，每年一次的英伟达自己的开发者大会上，上面也讲了……

说起来1.8T，这个1.8T指的是什么呢？其实就是1.8万亿参数，而且它是一个Moe模型。当时OpenAI并没有对此多说什么，但这一次，在《Computer Text》上，他们又反复强调了这个事情，明确指出GPT-4的训练参数达到了1.8T。这让人们意识到，想要达到GPT-4的水平，还有很长的路要走。尽管现在大家都在努力研发号称能达到或接近GPT-4水平的模型，比如几百亿参数的模型，比如梅塔的拉马3可能会有一个400亿参数的模型，国内也出现了很多一两百亿参数的模型。但事实是，即使提到的1.8T参数，如果考虑到是Moe模型，分成八份来看，那么单个模型可能也就相当于200多亿参数的水平。