Tag: 大语言模型

Manus独领风骚成过往？字节扣子空间与百度心想APP强势入局，深度评测揭示AI Agent新格局下谁能主导复杂任务自动化与MCP生态。

4 月 24

Luke FanAIGC, 字节跳动，故事多 AI Agent, AI应用, AI竞争格局, Anno 1800, Anthropic, API接口, Baidu, ByteDance, Claude 3.5, Coze Space, Coze Space评测, DeepSeek R1, Gemini 2.5 Pro, Google, GPT-4o, Llama 4, LLM, Manus, MCP (模型控制插件/标准), Meta, OpenAI, PPT生成, Token消耗, Waiting List, 产品体验, 产品对比 (Coze vs Manus vs Grok vs XinXiang), 产品评测, 代码生成, 任务拆解, 优劣势分析, 免费试用, 内容生成, 功能演示, 可视化网页生成, 呼伦贝尔自驾, 复杂任务处理, 大语言模型, 字节跳动, 工具调用 (内部/外部), 市场调研, 心想APP, 扣子空间, 扣子空间使用, 搜索质量, 数据调用, 文档生成, 旅游攻略, 智能体, 游戏攻略, 现象级产品, 用户分析, 用户反馈, 电动车充电, 百度, 简历筛选, 自动化, 自我规划, 行程规划, 表格生成, 访谈记录整理, 豆包大模型, 通义千问, 邀请码, 阿里, 高德地图, 黑神话悟空 Manus独领风骚成过往？字节扣子空间与百度心想APP强势入局，深度评测揭示AI Agent新格局下谁能主导复杂任务自动化与MCP生态。已关闭评论

Manus的后劲来了。百度、字节都有了自己的agent产品上线。

大家好，欢迎收听老范讲故事的音乐节目频道。字节上线了扣子空间，百度上线了心想APP。Manus的光环不再。Manus本身就属于意外爆火，当时它突然火了以后，咱们还做了直播，说这个东西没有什么技术门槛，只是产品设计的很有意思。

Manus跑去跟阿里合作了之后，那字节、百度说这不行，咱们也得有自己的产品上线。又不是有多难做的东西，那就做呗。我呢，搞了一个字节扣子空间的邀请码，咱们呢试一试，看看这个产品到底怎么个用法儿。

Manus呢，到现在我也没用上。原因也很简单，我去申请测试，等了很久，到现在都已经开始收费了，也没有收到说你可以来玩一下的这个邀请。所以也就别费劲了。我自己呢也没有特别着急，我要特别着急想用的话，随便找两个人去要一些邀请码，也还是可以搞得定的。既然没有那么热心的话，也就没有上心去找嘛。

GPT-3与O4 mini不再高冷：融合工具调用、记忆与超强图像推理，普通人也能高效应用AI，一文看懂成本、限制与Copilot捷径

4 月 18

Luke FanAIGC AI发展趋势, AI局限性, AI幻觉, AI应用, AI易用性, AI普及, AI未来, AI模型发布, AI编程, AI视觉, AI记忆 (Memory), AI评测, API, API代理 (Open Router), API定价, ChatGPT Plus, Function Calling, Github Copilot, GPT-4o, GPT-5展望, Greg Brockman, IDE集成, Mark Chen, Meta data分析, O3, O4 mini, OpenAI, OpenAI发布会, Sam Altman, Scaling law, Sora, TikTok直播带货话题生成, YouTube话题推荐, 一站式AI服务 (Total Solution), 世界模型, 人工智能, 内容创作, 图片推理 (Image Reasoning), 大语言模型, 实时交互, 实用AI, 工具调用 (Tool Calling), 强化学习, 推理模型, 搜索集成, 模型对比 (OpenAI vs 竞品), 潭柘寺图片识别, 科技评论, 跨模态AI GPT-3与O4 mini不再高冷：融合工具调用、记忆与超强图像推理，普通人也能高效应用AI，一文看懂成本、限制与Copilot捷径已关闭评论

GPT-3和O4 mini发布了，这次绝不再仅仅是科学家们的玩具了。大家好，欢迎收听老范讲故事的YouTube频道。

本来GPT-3和O4 mini发布呢，我并没有抱太大的期望。为什么呢？因为前面O1和O3 mini发布的时候呢，看得我头晕眼花的。我记得应该是在去年12天连续发布会的时候发布的O3 mini，实在是太不明觉厉了。各种的复杂科学问题，咔咔就给解决了，然后各种的排名都排得很高。但是呢，我自己其实并不怎么用。

为什么呢？第一个，ChatGPT Plus用户里边呢，它是有用量限制的，并不是随便让你用的。所以在有用量限制的情况下，你就得省着用，而且你也感觉不出有太大差异来。你说你用它干嘛？据说编程很强，但是它没法跟IDE结合，基本上也就放弃了。你是可以出一大堆的代码，但是你还得向IDE里边去考来考去的，很麻烦。那你说我通过API调用吧，直接使用O1和O3 mini这些模型，实在是贵，所以就放弃了。

震撼发布！GPT-4.1，牛马的新工具来了，专为程序员打造百万Token上下文API利器，超低价与高指令遵从度能否颠覆Gemini与Claude主导的工程市场格局？

4 月 16

Luke FanAIGC 100万Token上下文, AI Agent, AI agent开发, AIGC, AI工具更新, AI市场竞争, AI成本优化, AI技术更新, AI模型对比, API发布, API调用, B端市场, Claude 3.5, Claude 3.7, C端用户, DeepSeek R1, Deepseek V3, Gemini 2.0, Gemini Pro 2.5, GPT-4.1, GPT-4.1评测, Grok 3 mini, LLM, MidJourney, OpenAI, OpenAI战略, RAG (检索增强生成), Sora, 人工智能, 价格便宜, 低成本AI, 可控性强, 多模态AI, 多版本 (Standard/Mini/Nano), 大海捞针测试, 大语言模型, 实时AI (Realtime AI), 工程应用, 工程需求, 开发者API, 开发者福音, 开源模型, 技术发展趋势, 技术解读, 技术选型, 指令遵循度高, 推理能力, 模型评测, 牛马工具 (程序员自嘲), 程序员工具, 稳定性好, 编程能力提升, 观点分享, 视频理解能力, 速度快, 长上下文处理, 高性价比, 高效AI模型震撼发布！GPT-4.1，牛马的新工具来了，专为程序员打造百万Token上下文API利器，超低价与高指令遵从度能否颠覆Gemini与Claude主导的工程市场格局？已关闭评论

GPT4.1发布了！牛马们的好工具终于上线了。大家好，欢迎收听老范讲故事的YouTube频道。

GPT4.1突然发布，这是程序员们的工具。普通的用户你是用不上的。你用网页版，你用APP，甭管是手机端的还是电脑端的，你是付费用户还是免费用户，你都用不到GPT4.1。只有程序员可以通过API调用GPT4.1。

但是这个事儿对于非程序员来说，也是有很大改变，很大帮助的。那么我们今天来讲一讲，GPT4.1到底是一个什么样的东西。

首先，它有100万TOKEN的上下文，这个是非常吓人。100万单词吧，基本上你可以直接塞到GPT4.1里头去，它统一给你处理。而且大海捞针做的也很不错。

开源巨头Meta深陷Llama 4作弊风波：高分低能引爆质疑，测试数据竟混入训练集，AI圈还能信任谁？

4 月 09

Luke FanAIGC, Meta的故事 AI伦理, AI生成, AI评测, AI负责人辟谣, Benchmark作弊, DLIU DLIU, Llama 4, LLM, Meta, Meta AI, Meta回应, 人工智能, 作弊指控, 内部爆料, 基准测试, 大语言模型, 学术不端, 实际使用效果, 开源模型, 开源社区, 快速发布后果, 性能评估, 技术报告缺失, 数据污染, 模型蒸馏, 沃顿商学院教授, 测试集污染 (背真题), 版本不一致 (开源vs测试), 科技争议, 科技新闻, 稳定性问题, 编程能力差, 自然语言处理, 跑分作弊, 过度优化, 验证方法开源巨头Meta深陷Llama 4作弊风波：高分低能引爆质疑，测试数据竟混入训练集，AI圈还能信任谁？已关闭评论

Meta的Llama4发布之后，深陷作弊风潮。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Meta的Llama4被人怀疑作弊，他到底是不是真的作弊了。

前面我们做过一期视频，说Llama4发布的时候没有太大的响动，因为它出来以后发现，虽然评测还不错，但是使用起来并没有感觉比现在主流的模型强到哪去。现在不行了，负面消息传出来了，说你大模型出来的时候跑分的成绩很高，但是我们使起来不是这么回事，有点名不副实的样子，特别是编程的效果极差。

为什么大家去比较编程呢？两个原因：
第一个，去玩这些开源大模型的，一般都是程序员。
第二个，编程是一个相对来说标准比较统一的评测。你编得出来编不出来，编完了效果怎么样，这个一眼就能看出来，没法作假。你说我写个诗或者写个小说，这个玩意还有仁者见仁、智者见智的时候。这编程这个东西，对就是对，不对就是不对，或者你做完了以后它的效果有问题，一眼就能看出来。所以现在被人质疑了。

Llama 4悄然发布震撼不足？对比DeepSeek与千问，Meta的MOE架构和千万级上下文能否挽回开源领导地位，避免被超级APP浪潮抛弃？

4 月 07

Luke FanAIGC 1000万Token上下文, 400B, AI Agent, AI应用场景, AI新闻, AI未来发展, AI模型发布, AI竞赛, AI算力, Claude 3.7, DeepSeek, FP8精度, Function Call, Gemini 2.5 Pro, GPT-4o, Grok (XAI), H100 GPU, INT4量化, Llama 3, Llama 4, Llama 4 Behemoth, Llama 4 MARVELIC, Llama 4 Scout, Llama 4发布反响平淡原因, LLM, Meta AI, Meta战略, Mixture of Experts, MOE架构, 专家模块, 中文能力提升, 人工智能, 全模态AI进展, 千问 (Qwen), 卡估值, 多模态输入, 大语言模型, 字节AI, 小模型竞争, 开源LLM对比, 开源模型, 开源模型内卷, 开源社区, 推理速度, 文本输出, 模型微调, 模型性能比较, 模型测评, 模型训练, 活跃参数, 流量入口, 知识蒸馏, 硬件要求, 端到端模型, 腾讯AI, 谷歌AI, 超级APP趋势, 长上下文, 阿里AI Llama 4悄然发布震撼不足？对比DeepSeek与千问，Meta的MOE架构和千万级上下文能否挽回开源领导地位，避免被超级APP浪潮抛弃？已关闭评论

Llama4发布了。这里的黎明静悄悄，没有什么响动。这是怎么回事？

大家好，欢迎收听老范讲故事的YouTube频道。一觉醒来，Llama4就发布了。扎克伯格亲自在Facebook的REELS（也就是Facebook的短视频里面）发了一条视频，说Llama4发布了，今天是Llama4日。

Llama4呢，一共是有三个版本：
第一个叫Scout（侦察兵版本），总参数1,090亿（也就是109B），活跃参数是170亿，包含16个专家模块。对的，Llama终于也放弃抵抗了，从Llama4开始变成Moe了。在Llama4之前的版本都是单一体的模型，Llama3.3还给了一个400多B的单一模型，到Llama4彻底放弃抵抗了。

现在呢，支持1,000万TOKEN这种上下文，这个是Llama4最大的一个特点。DeepSeek是64K（也就是64,000个TOKEN上下文），现在上下文比较大的Gemini大概是能到2兆（200万），Llama4直接给了一个10兆（1,000万TOKEN），这是它做的一个很创新的点。

OpenAI绝地反击！向美国政府控诉中国AI公司DeepSeek像华为那样获得政府补贴、被政府操控，希望可以禁止美国和他们的盟友们禁用中国大模型，打不过就报告老师。

3 月 16

Luke FanAIGC 32B模型, AI产业生态, AI产业补贴, AI供应链安全, AI军备竞赛, AI创作边界, AI反欺诈, AI合理使用范围, AI商业化路径, AI国家安全评估, AI应用场景, AI开发工具包, AI战略优势, AI技术出口管制, AI技术封锁, AI推理性能, AI政策, AI模型部署, AI版权法规, AI监管政策, AI竞争格局, AI舆论战, AI芯片禁运, AI订阅服务, AI训练数据, AI霸权, API安全, B端市场竞争, ChatGPT 4O, Claude 3.7, C端用户增长, DeepSeek, Huggingface, Llama模型, OpenAI, 中美科技战, 中美贸易战, 云计算市场, 云计算服务商, 人工智能伦理, 人工智能模型, 企业级AI, 全球数据采集, 内容生成风险, 千问模型, 参数规模, 国家安全, 多语言模型, 大语言模型, 宪法AI, 开源模型, 开源社区, 开源许可证, 技术冷战, 技术去全球化, 技术民族主义, 政府科技政策, 数字主权, 数据安全, 数据殖民主义, 模型对齐, 模型微调, 模型蒸馏, 模型透明度, 欧盟GDPR, 版权争议, 特斯拉中国, 甲骨文收购, 知识产权保护, 科技公司游说, 算法战争, 美国白宫科技政策办公室, 隐私保护 OpenAI绝地反击！向美国政府控诉中国AI公司DeepSeek像华为那样获得政府补贴、被政府操控，希望可以禁止美国和他们的盟友们禁用中国大模型，打不过就报告老师。已关闭评论

OpenAI哭诉被DeepSeek霸凌了，要求美国政府主持公道。大家好，欢迎收听老潘讲故事的YouTube频道。今天咱们来讲一讲OpenAI最近给美国政府发的这份文件里都写了点啥。OpenAI苦要去告状，他2025年3月13号向美国白宫科学技术政策办公室发了一封文件，这个文件15页，叫做《确保美国人工智能领导地位与国家安全的政策提案》。

OpenAI的政策建议呢，也不是说我今儿想起来就发了一个，这个事儿还是一个回应。它呢是对美国白宫科技政策办公室（叫OSTP）在2025年2月份发出的公众意见征询的一个回应。至于其他人是不是回应了，有可能回应了，大家没有太注意，也有可能有些大厂还没有回应。所以呢，我们可以在未来一段时间看看，是不是其他大厂也会进行回应。

它里边主要讲的是什么呢？中国AI企业主要讲的是DeepSeek，将其类比为另外一个华为，声称其存在国家控制、国家补贴、数据安全风险以及知识产权盗窃等问题。上面的一个是豆包给出的结果。然后我用OpenAI的SearchGPT，它里边呢提到了DeepSeek可能受到国家控制和国家补贴，但是呢，并没有提到华为的名字。而在Grok上面的查询结果，主要控诉的是DeepSeek蒸馏它的数据。有人用OpenAI的API开发了识别中国在海外反贼言论的一个应用，被他发现了。中国账户用OpenAI生成了西班牙语的骂美国的文章，到美国报纸上去发表。还有人用OpenAI生成简历去欺诈美国公司。这个是呃Grok查到的一些结果。

Meta的开源LLama3再度颠覆AI技术，鼓吹闭源的李彦宏是否真的打脸了？全新70B模型震撼发布，全方位超越GPT3.5，会给整个行业带来哪些改变？

4 月 23

Luke FanAIGC, OpenSource 70 billion parameters, 70B模型, AI Security, AI多语言处理, AI安全性, AI技术, Artificial Intelligence, Baidu, ChatGPT, Claude, Facebook, GPT3.5, GPT4, Instagram, Li Yanhong, LLama2, LLama3, Meta, Multilingual AI, OpenAI, Tech Innovation, Technology Breakthrough, WhatsApp, 业界影响, 人工智能, 大语言模型, 开源AI, 扎克伯格, 技术突破, 技术讨论, 文心一言, 李彦宏, 百度, 科技创新, 通义千问 Meta的开源LLama3再度颠覆AI技术，鼓吹闭源的李彦宏是否真的打脸了？全新70B模型震撼发布，全方位超越GPT3.5，会给整个行业带来哪些改变？已关闭评论

大家好，欢迎收听老范讲故事YouTube频道。今天咱们来讲第一个故事。

Llama3发布了，李彦宏是不是被打脸了呢？Llama3突然发布，又是一个遥遥领先。它呢，发布了8B和70B的两个版本。8B就是80亿参数，70B呢就是700亿参数。8B的，我其实已经试过了，就在本地已经装上了。这个某些方面，接近了原来，或者超过了原来的Llama2的70B。包括一些咱们在本地跑的这种30多B的，这种就是300多亿参数的模型，它已经都超过了。而且速度还飞快。

啊，70B呢，据说已经超越了cloud 3的中量级模型。Note 3是有三个模型的：一个是特别微小的，就是可以在手机上跑；一个是中等量级的，是可以在PC本地跑的；然后还有一个是那种特别大的，特别大的，是可以对标GPT4的。70B的基本上已经超过这个中等量级了，也超越了GMINI 1.5 Pro。现在大家想去试GMINI 1.5 Pro的，可以到AI studio.google.com上去试，那个是可以免费用的。也超越了现在70B发布出来的版本。普遍他们自己讲的是超越了GPT3.5，但是呢，还达不到GPT4。这在所有测试数据上都是这样。我相信梅塔应该不会像咱们似的，专门做一些调优以后去跑分，不像咱们这么无聊。

硕鼠的博客站