OpenAI硬件曝光：代号“橡皮糖”，形似一支笔

OpenAI的硬件方向被泄露了，可能长得像一支笔。网友起了个名字说“O-Pen”，这个东西可能要来了。大家好，欢迎收听“老范讲故事”的YouTube频道。

泄露源头与代号“橡皮糖”

这个消息是12月30号，一个叫做“智能皮卡丘”的账号暴露的。说OpenAI的智能硬件可能是长得像一支笔一样，还专门讲了说不是“PIN”，是“Pen”。说内部代号叫Gumdrop，大概叫“橡皮糖”，已经在和工厂谈量产的问题了，已经不是在实验室里了。

一开始谈的是立讯精密的独家制造，后来被立讯精密出来辟谣了。说这个事并不是完全的正确，但是这个事大家注意，咱们这边辟谣，就是你不知道他是完全不正确，还是大部分正确、有一部分不正确。这个事没法说，人家是说“不是完全正确的”。

那么OpenAI这一次泄露出来的消息，是要求立讯精密将生产线搬离中国。你不能在中国来生产这样的设备，要在越南或者美国生产。而立讯精密大概是没法满足这些要求，所以这个订单有可能转由富士康生产。

爆料者可信度与核心信息

那这位“智能皮卡丘”是谁？是一位活跃在微博上的中文数码博主，在X上面有英文的搬运内容。他经常爆料一些国内供应链方面的信息，比如谁代工了谁家的什么东西了。他经常爆料这种东西，关于安卓设备的爆料是有一定的准确性的，苹果相关设备的爆料准确性没有安卓设备那么高。

国外的很多媒体都对这条信息进行了转述和解读。而这次爆料的信息主要就是几点：

第一个不是PIN而是Pen；
准备从立讯转移到富士康；
工程代码叫做“橡皮糖”；
没有披露信息的来源。

媒体普遍猜测，这位博主有一些供应链方面的信源。

目前已确认的事实

现在已经可以确定的事情有哪些？

第一个，OpenAI确确实实是准备做一款硬件的。因为OpenAI收购了Jony Ive的IO产品团队，当时我还录了节目来讲过这个事情。虽然我们还不确定OpenAI具体想做一个什么，但是我们知道OpenAI不做什么。

2025年的6月份OpenAI被告了，告他抄袭。当时有另外一家IO公司，它这个名字叫IYO（念应该也念IO），这个公司是做智能耳机的。跑去找OpenAI合作，说咱们合作做这个东西吧，你投我点钱，我们出耳机，你出模型行不行？OpenAI在跟他们洽谈之后，拒绝了跟他合作，反手就把Jony Ive的IO公司给收购了。这个IYO的公司就认为说，你OpenAI剽窃了我的思路，我现在想做智能耳机，你不跟我合作，你去收了一家别人的，我被剽窃了。

OpenAI在应诉的时候做出过陈述，说我们不做耳机、不做可穿戴设备。注意这里头可能耳机、手环、眼镜就都被排除了，就这些东西都不会做。所以OpenAI不做什么我们是清楚的。

OpenAI也确确实实，在跟工厂谈判签约的事情。在去年的第四季度，其实传出过一大堆的美国公司跑到中国来看厂。就是他们每次要生产什么之前，要到中国的各个工厂去走，说你看我们要生产的东西能不能做？多少钱做？或者说我们有些什么样的技术要求，你能不能实现？比如像OpenAI这种，就要求你不能在中国生产，这个立讯精密就实现不了。

去年的谷歌也过来看厂，是生产TPU的一些周边零部件。TPU这种东西肯定是台积电给它做，但是它周边的一些模块、水冷、光通讯，这些东西就要在中国去找。特斯拉也在中国看厂，你别看它有这个上海超级工厂，但是它要生产擎天柱的话，你还要重新看厂。OpenAI当时也传出了在中国密集看场的这样的一个消息。所以这个事情应该是靠谱的。

2026年的OpenAI，确实准备推一款硬件设备，山姆·奥特曼也是反复确认过的事情。所以这些是已经可以确认的信息了。

音频大模型的重要性

那么音频设备，就必须要有音频大模型来支撑。IYO为什么搞不定这些东西？原因很简单，他们只能使用OpenAI已经发布的成熟的产品，在这个上面干活。所以他们就没有办法出自己的这种智能耳机。你要想做这件事情，一定是要有大模型公司配合，他们去专门给你调这个模型，甚至是说我专门为了这件事情发一个新模型出来，才有可能有真正的智能音频设备。

虽然现在我们看到很多智能音频设备，但是因为模型本身的能力不是那么强，所以效果都一般。现在我们见过最强的智能音频设备是什么？就是安卓手机上的蓝牙耳机。为什么？因为我们使用安卓设备上面的谷歌翻译，你就直接可以去做同声传译了。苹果手机搞不定，因为苹果手机对蓝牙的这个通道是属于一种独占式的，他没有办法进行一边听一边发的。你要同传的话，一定是一边听一边发。其他的你像字节或者其他一些公司做的这种智能耳机，效果其实都一般，因为它本身的模型没有那么强。

OpenAI自家肯定是知道需要一个什么样的模型的，预计今年一季度会发布全新的音频大模型。

音频设备的真正难点

1. 语气与情感交互

音频设备的难点，可能真的快要被攻破了。音频设备到底什么难？是不是吵架？前两天看了罗永浩跟豆包吵架的段子，那真的是惊艳到我了。准确的识别语言和语气，那罗永浩声音提高，语速加快，那豆包马上就跟上。快速的检索并且生成结果，不能说我问题提进去了，那边说我要推理10分钟，这肯定不行吧？可以快速的反馈，还能吵得有来有回的。

可以给出充满情感的回复，那真的是吵架，不是说你这边喊了半天，他给你温吞水、慢慢的给你Poker脸回复回来，不是这样的，真的能吵起来。而且说着说着你可以打断他，罗永浩吵架从来是不等别人说完的，效果非常好。这个已经惊艳到我了。

2. 唤醒与接话时机

但是这件事，其实并不是音频大模型最难的东西。最难的是什么？就是唤醒问题。在什么时候接茬？这个是最难的。你比如我一按钮，我一按你开始听我说话，这多简单。为什么咱们有很多的设备会有唤醒提示词，Siri、小爱、或者小e？为什么要有唤醒提示词？原因很简单，就是你如果不设这个东西的话，他这个设备等于始终在监听，他不知道什么时候该接话，他不知道哪件事是你跟他说的，哪件事是你跟他没关系的。这个是非常非常难判断的。

现在比如说我使用小米的汽车、小米的音箱，它的工作方式很简单，就是你每次唤醒它以后，它会来回复你的问题。回复了以后，它会再工作个比如一分钟，你在这一分钟之内再说什么话，它再接着跟你说。如果过了一分钟，那个设备就休息了，你需要再重新喊这个唤醒词，它才能接着干活。

所以语言大模型最难的难点，不是识别精确，不是可以打断，不是有上下文回答怎么怎么好，都不是，就是到底在什么时候应该接下茬。

我们以前上学的时候，老师最讨厌的一件事情，经常老师说什么，我们在下头接下茬，老师就觉得很烦。但是你要是德云社可以，下边的观众接个卦什么的，他们还挺开心的。但是你这个老师讲课的时候，你在底下接下茬，是老师很讨厌的一个事情。但你想吧，我们这聊着聊着天，这个语音大模型在旁边自己就醒了，这事是非常非常烦的。

不仅仅是一支笔

所以真正值得期待的，未必是这支笔，而是即将发布的语音大模型。GPT-4o当年发布的时候，绝对是震惊了很多人，有语气语调的一个语音模型。我记得好像是2024年谷歌I/O召开的前一天发布的，让一年一度的谷歌I/O黯然失色了不少。

这个长得像笔一样的东西，可能也未必是全部，可能只是诸多设备中的一部分。现在还有一个传言，就是OpenAI在做一批的设备，这一批设备里头，可能有一个长得像笔，叫做“橡皮糖”。

无屏设备的未来形态：后台陪伴

那么一个没有屏幕的智能设备，到底会如何影响我们？它可能并不是一个主要的智能设备。什么意思？我们的主要智能设备还是有屏幕的，甭管是电脑、平板，还是我们的手机，我们的主要的注意力还是在这种这些设备上面。

还有一种设备是什么？就属于叫后台设备，或者叫后台场景。比如说我的一些音箱、我的闹钟，它们就属于是后台设备。就是你平时你不理它，它也不理你。但是我们前台干活的时候，我现在在写稿，我现在在处理文件的时候，后台我还可以接着再放一个音乐，或者放一些其他的这种音频。它不是在前台我们的主要处理任务上去工作。

像前面我们讲的这个IYO的耳机，包括字节的耳机，其实都属于这一类。它们并不是要取代手机，而是在手机之外，再去占掉一部分的用户的注意力。我们需要一个陪伴型的后台设备，这个可能就是“橡皮糖”或者叫O-Pen，它的一个特定的使用场景了。

你不理它，它通常也不怎么打扰你；你和它说话，随时都能接的上来。你想我们有这样的一个设备，你希望什么？你不说的时候，它别给你插话，别给你捣乱；你跟它说的时候，它马上能知道你跟我说话，我马上能响应过来。你不要说你喊他半天他不理你，这事也不行。有需要的时候，还可以对你进行一定的提醒，过一会告诉我记得去喝水，或者记得站起来去运动运动，他到点他记着提醒你。它是这样的一种设备。

现有的类似形态设备

我这里其实有一些长得像笔一样的设备，大家看看是不是有可能会变成这样。比如说这个东西，你说它长得像笔吗？其实长得也有点像，就是一个辅助型的音视频设备，它自己其实是可以播放声音的。现在我们身边，不同形态的音视频设备已经越来越多了，正在快速的充满我们身边的各种空间。

比如说吧这样的一个设备，它后边有个夹子，这个东西实际上是大疆的OSMO Nano（刚才大家看到的是Pocket 3），我拿个夹子把它夹在什么地方，走到哪它可以看得着，可以听得着，这也有麦克风。但是这个玩意上的是没有Speaker的，没法发声音。

再给大家看一个好玩的东西，很薄，竖过来是一个音箱。这东西干嘛使的？你说为什么要把音箱做成这样？这个东西叫枕下音碟。有很多人说我睡觉之前，不听点什么东西睡不着。那你说我听东西还影响别人怎么办？特别有些人住宿舍。你可以把这东西搁枕头底下，它实际上是个蓝牙音箱，只有你自己听得着，别人听不着。这种设备现在越来越多的充斥在我们生活的空间之中。

对O-Pen的猜测与Jony Ive的设计

那么对于O-Pen这个“橡皮糖”，我们有哪些猜测？

这个O-Pen的名字是网友起的，没有经过官方验证。
至于“橡皮糖”这种工程代码有可能是真的，但是最后出来卖的时候，应该不叫这个名字。
这个设备应该是一个便携的、有电池的、可联网的音视频输入和音频输出的设备。上面没有屏幕嘛，所以只能音频输出，我不确定是不是有视频输入，希望有。
在OpenAI新一代的音频模型加持下，可以成为一种随身的、陪伴型的后台设备，不是我们主要注意力关注的这个设备。

新型模型有可能会叫做GPT-5.5o什么的，现在不是GPT-5.2了吗或者5.3，最后加个O。原来4o就是可以有语音这些东西嘛，OMNI大概是这样的，这个名字会把它加在这个模型的后面。人们会得到一个陪伴型的设备，平时不打扰，但是可以对我们身边的音视频信号做出反应。比如说你可以说：你刚才看到什么什么东西了吗？从我身边飞过去，到底是什么？它应该平时是在一个待机的状态下。

除了新模型之外，这种设备的用户交互设计一定也是非常艰难的。在什么时候打扰你，什么时候不打扰你，可能除了训练的模型之外，还是需要做一些硬件上面或者说交互上面的这种创新的。当然这一块就要看真正的大师了，Jony Ive要看他的了。

Jony Ive在苹果的时候设计了哪些东西？大家注意，滑动解锁不是他设计的，那是软件工程师设计的。他设计的东西是：

多点触控；
Home键（苹果手机上的最早的Home键）；
3D Touch（用力按、轻轻按是不一样的）；
长按反馈；
Home键从机械结构变成了一个马达驱动的一个硬板。

就这些东西，都是Jony他去设计出来的。

总结

所以总结一下，OpenAI的硬件设备应该正在路上，离我们不远了。东西要做出来，一定会不断的有各种信息被泄露。它做这样的一个设备出来，一定是有很长的供应链，不可能说我一家从头到尾关起门来把它做出来，这是不现实的。一个不是替代手机，而是陪伴型的音频设备，可能会在新的语音模型的加持下，逐步的改变我们的生活。

好，这就是这一次的故事，感谢大家收听。请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt: high-contrast watercolor illustration, futuristic iPhone assembly line in a sleek high-tech factory interior with pristine white as dominant decor tone, streamlined conveyor belts featuring precise robotic arms at each station meticulously assembling components, neon cyan rim lighting, deep navy blue background, sharp subject separation, glossy reflections on metallic surfaces and glass panels, minimal palette dominated by ink blue neon cyan and subtle gold accents, cinematic composition, expansive legible negative space for text overlay, intricate ink washes, ultra detailed, clean minimalist industrial design –ar 16:9 –raw –s 250 –v 7.0 –p lh4so59