<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>政府用户 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/%e6%94%bf%e5%ba%9c%e7%94%a8%e6%88%b7/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Sun, 19 May 2024 00:38:05 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>政府用户 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>被OpenAI的GPT-4o截胡的 Google I/O：与  indigo11  一起聊聊，AI技术变革与未来趋势，庞大的官僚机构Google，面对新生事物OpenAI，还行吗？</title>
		<link>https://lukefan.com/2024/05/19/%e8%a2%abopenai%e7%9a%84gpt-4o%e6%88%aa%e8%83%a1%e7%9a%84-google-i-o%ef%bc%9a%e4%b8%8e-indigo11-%e4%b8%80%e8%b5%b7%e8%81%8a%e8%81%8a%ef%bc%8cai%e6%8a%80%e6%9c%af%e5%8f%98%e9%9d%a9%e4%b8%8e/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Sun, 19 May 2024 00:38:02 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[Google的故事]]></category>
		<category><![CDATA[AI Infra]]></category>
		<category><![CDATA[AI交互]]></category>
		<category><![CDATA[AI市场]]></category>
		<category><![CDATA[AI平台竞争]]></category>
		<category><![CDATA[AI应用]]></category>
		<category><![CDATA[AI技术变革]]></category>
		<category><![CDATA[AI硬件]]></category>
		<category><![CDATA[ChatGPT]]></category>
		<category><![CDATA[Gemini]]></category>
		<category><![CDATA[Google cloud]]></category>
		<category><![CDATA[Google I/O]]></category>
		<category><![CDATA[GPT-4]]></category>
		<category><![CDATA[GPT-4o]]></category>
		<category><![CDATA[Ilya]]></category>
		<category><![CDATA[iPhone]]></category>
		<category><![CDATA[OpenAI]]></category>
		<category><![CDATA[Project Astra]]></category>
		<category><![CDATA[RAG图像生成]]></category>
		<category><![CDATA[Sam Altman]]></category>
		<category><![CDATA[TPU]]></category>
		<category><![CDATA[Workspace]]></category>
		<category><![CDATA[任天堂]]></category>
		<category><![CDATA[企业用户]]></category>
		<category><![CDATA[创新战略]]></category>
		<category><![CDATA[多模态训练]]></category>
		<category><![CDATA[大模型]]></category>
		<category><![CDATA[技术发展]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[政府用户]]></category>
		<category><![CDATA[智能体]]></category>
		<category><![CDATA[智能设备]]></category>
		<category><![CDATA[未来趋势]]></category>
		<category><![CDATA[杰米莱]]></category>
		<category><![CDATA[游戏]]></category>
		<category><![CDATA[用户体验创新]]></category>
		<category><![CDATA[电商]]></category>
		<category><![CDATA[算力]]></category>
		<category><![CDATA[语音交互]]></category>
		<category><![CDATA[谷歌IO]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1250</guid>

					<description><![CDATA[大家好，欢迎收听老范讲故事的YouTube频道。今天我们又请到了老朋友尹迪狗，给我们介绍一下刚刚召开完的谷歌艾 ... <a title="被OpenAI的GPT-4o截胡的 Google I/O：与  indigo11  一起聊聊，AI技术变革与未来趋势，庞大的官僚机构Google，面对新生事物OpenAI，还行吗？" class="read-more" href="https://lukefan.com/2024/05/19/%e8%a2%abopenai%e7%9a%84gpt-4o%e6%88%aa%e8%83%a1%e7%9a%84-google-i-o%ef%bc%9a%e4%b8%8e-indigo11-%e4%b8%80%e8%b5%b7%e8%81%8a%e8%81%8a%ef%bc%8cai%e6%8a%80%e6%9c%af%e5%8f%98%e9%9d%a9%e4%b8%8e/" aria-label="阅读 被OpenAI的GPT-4o截胡的 Google I/O：与  indigo11  一起聊聊，AI技术变革与未来趋势，庞大的官僚机构Google，面对新生事物OpenAI，还行吗？">阅读更多</a>]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="被OpenAI的GPT-4o截胡的 Google I/O：与 @indigo11 一起聊聊，AI技术变革与未来趋势，庞大的官僚机构Google，面对新生事物OpenAI，还行吗？" width="900" height="506" src="https://www.youtube.com/embed/97Pw4zfs8Bs?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>大家好，欢迎收听老范讲故事的YouTube频道。今天我们又请到了老朋友尹迪狗，给我们介绍一下刚刚召开完的谷歌艾欧。这一次到底发布了什么。而在谷歌艾欧之前的一天，OpenAI我觉得算是故意捣乱截胡，发了个GP4欧出来。我们就正好趁这个时机呢，把这两个发布会或者两两个产品吧，一起来总结一下。首先呢，我想先问一下，GBT4O到底算不算是划时代的产品。嗯，至少模型啊，分成两部分，它发的是PPT是o是模型混合模态嘛，他把语音视频和文字一块训练的嘛，可以同时输入和输出嘛。这个相当于是，嗯，也不叫划时代吧，就是他之前所有的工程技术的沉淀。嗯然后呢，做了一个特别好的一个交互形式，就是语音交互。而且那个语音交互的很大一个特点，发完之后不是马上就有人升级吗，一搜我的这个APP上面的模型以及GPT，搜了然后大家都想打开。那那个耳机，点上去之后呢，可以跟他聊聊天。实际上，那个聊天并不是他发布会上的那种APP，那个还是回合制的，用那个rest接口聊天。我，发出去然后回来，这个回合制的，但是呢，他在发布会上演示的是完全stream的，就是像就像我们现在一样，我们录节目，我们用的是Web RTC协议嘛，streaming，就是你的Server端，它的那个TOKEN，它就不停的接收是吧，做实时处理。这个特别耗流量，耗TOKEN，耗算力的。嗯现在还没用到这个模型，所以大家感受不到，所以我记得第二天还第三天的时候m奥特曼还是他们官方账号，发了一个说明嘛，说哎你们大家用的现在还不是，发布会上也是这个，哈哈哈，一堆人说说这一直完完全不对，这么慢的响应，我觉得借手报了一下，就是他是非常natural，非常自然。可能就是大家第一次用起来 GPT 的感觉，一样哎。哇哦，是他没这样回答问题。就是他确实是有那个时候的一个感觉。</p>



<span id="more-1250"></span>



<p>对，我们看到很多划时代的产品，其实并不是技术上的创新，而是用户体验和交互上的创新。对你像 iPhone，包括呃，足以吃就任天堂的很多东西。你说他发的时候，大家也都是觉得啊，这个又变天了。但其实你拿那个产品回来看，他在当时的技术条件下并不算创新，但是他把所有东西拼的很好，然后一下让大家在用户体验上说哎，已经变得完全不一样了。这个挺直接，挺直接粗暴的，就是直接干，是对。</p>



<p>但这个也和他的技术路线有关系，因为，从估计从詹姆奥特曼的角度，他想做一个智能体嘛，就是 engine，是 AI engine，核心就是能够和人类进行语音交互嘛，就 Herre 嘛，就 Herre 一样的，就是我什么输入我什么界面都不需要，你坐在我对面，我跟你聊天就好了。然后你，你能看到我，我能看到你，你能听到我，能听到你，你看到我所看到的就够了。这种交互最简单的，最 later 了。</p>



<p>你是不是买了前面所有号称这个 AI 硬件的这几个东西？哈哈，对，是的。那你说这个东西出来以后，是不是就把这些翻车的 AI 硬件就救活了呢？AI 硬件算 rapid 算，这不叫翻车吗？那个基本上就不靠谱，哈哈。</p>



<p>实际上大家看到的这个 GPT four o，我们可能叫 GPT4O 哦，4O，对这样子的一个一个模型，包括它后面也也是产品，大家很快就能想到，如果说大家是做硬件或者做软件同学，我是不是可以给他很快给他套个壳。他有什么智能体对，我家里，我搞一个特别什么真人联网的设备，是吧？你又不用我本地计算，然后说你只要能联网，我找破了手机就可以了，就可以实现这种效果。他演示的，只要我有个摄像头就能看得到。然后有个有个有个麦，有个有个speaker，嗯就可以了。然后有个这个联网连Internet。我昨天前天的时候我不是有张Tesla嘛，IPSD嘛，开始FSD的时候呢，我就把把7S GPT打开了，打开这个语音模式。我把它放车上，连上车上蓝牙。然后我们说话，车在跟我说话，是吧？嗯感觉，但是它是通过7S GPT的。嗯而且呢，还在自动驾驶，感觉就是很科幻啊。对不对，我就2024，是的是科幻来的太快了。所以在商业模式上，可能真的还是会有一些影响，会出来的，商业模式还不好说。我知道从交互模式上会有很多新的应用形态出来，而且你这种智能体，你可以附着在任何的，你独立的硬件也行你在电脑里面的一个程序也行。那上面也是两个，一个Mac APP是吧，大家我应该有同学也可以装了，装上去了，然后他可以监视你的屏幕啊和你互动嘛，就是他看你屏幕，然后有一个iPad APP，iPad它也可以监视你的屏幕，然后给你做互动教学嘛，子涵的那个，对不对？这个我觉得是想象空间挺大的应用场景，他能够变成事实之后，不可能，应该又一次吧，还没有发布的产品先拿出来给大家售，就跟上次Sora似的，他是不是就是专门给这个骨骼贴个赌，因为我就提前你一天吗，对是的，这绝对是的，上一次也干了一次，因为谷歌的东西都是很早，集合好大公司，官僚公司官僚，是是是这样子的，我很早就宣布了，我有这么多部门，我们说下谷歌，谷歌发了20多个产品，记得他发了哪个吗，你最后记不住啊。我大概除了那个叫 Project Astral，其他的 Gemini 1.5 后来但是我这两天看了，好像没有什么太大变化。做了一个 Flash，其他的就真记不住了，对剩下的都不记不住了吧。VOY 是吧？那个叫视频是吧，大堆这种东西，大公司吧。你想想 Google 这么大的公司是吧，这种官僚。我觉得 Google 这两年啊变化还挺大的，一家大公司，大公司并。我也我有朋友在 Jimmy 的团队，然后也吐槽了公司。其实公司现在呢，战略是清晰的，但是公司太大了，执行上就有人乱乱阵脚。公司高层下指令呢，工程去推，他们去完成目标，嗯。高度整合完全围绕杰瑞来做，嗯全公司。他这个调动速度还挺快的，对。这么大一个组织来说，这次发布会之前就说了嘛，这个 video 看这个 video，我们以 Google 已经进入到 Gemini area，嗯，我们进入了 Gemini 纪元的，所以全部围绕 Gemini。对，是从上到下各个部门。这个时候公司也做了很多裁员，也做了很多调整，大家说是很痛苦的。我最近在重新写程序，各种的 API，呃 open AI 的 API，让 Google 的 API 都接起来。我发现接 Google API 实在是一个折磨人的过程，因为他你就想去调 Gemini，他大概有三四个部门的 API 可以调进去。每一个部门进去了以后，你最后面对了都是巨多的模型、巨多的接口，还都不一样哦。烦死我了，无语的。我也看到了，我刚才连连可以连线之前我我也看，我也申请了两个 key 嘛，然后我一看 Google Cloud 控制台里面也有 AI，那个什么 Vaxto 吧，这个东西里面也有，到处都是入口，就是到处都是入口。是。那么，今年的谷歌 IO 上到底发了些什么东西，我是稍微粗略的看了一下，最后导致自己印象不深刻，你是很认真的看了之后，你可以告诉我。我是认真看了一下，我认真看了一下。怎么说呢，第一个印象比较深刻就是他的。AI Infra，这个他发的那个 TPU 嘛，six 嗯对。6，这个芯片比上一代要快很多嘛，4.7 倍嘛，这个还挺厉害的。他加速他的训练嘛。其实 Google，那应该算是这<br>些巨头里面私藏赚利最多的公司，就是 GPU。Reach 是吧。它不管有 GPU，它还有 TPU，其他几个公司都在做推的芯片，只有 Google 做得最早，他的芯片也是他在他最先来就是的概念嘛，所以说他是算力最强的，包括 m 总和微软的。微软现在也在恶补啊，恶补芯片。而且 Google 就是他便宜，他自己做他自己的设计的，比如说他是算的溢出的，他可以很便宜的给别人去用。对，这个是他的优势。然后第二个呢，他就发了杰米莱，杰米莱就发了一系列，他还围绕杰米莱打来打。先说杰米莱，杰米莱呢，就做了一些更新是吧，更新了一些开源模型，然后发了一个杰米莱 1.5 的。这个 Flash 我们申请呢，5 月底才能够打开。底使用嘛，我现在这个叫什么 Flash 是可以直接调的，在 API 里头，因为我自己有写程序嘛，我已经应该是可以把它调起来开跑了，在沙河里面吧。你正式调用不行吧，可以可以，看看没正式打开啊。我我今天还看了的正式版没有，它是这样的，就是说你只要是通过谷歌的 API 进去了以后，你可以选那个模型，可以跟它对话了。你通过写程序是可以搞的，然后。我记得好像是在在沙盒界面上面才行，sandbox 上面，你是在那个 AI studio 里头吗，啊对，呃我是在外面，我是用的有一个东西叫 lobby，OB Chat 是开源的一个项目，它就直接可以挂上了。到，我我。OK 我们说回来，对接面来，就是应该它最主要的嘛。啊嗯，有一些规划。其实我以为他今年可能会发一个什么1.5UCHA是吧，嗯或者预告一下2.0结果没有，没那么快。嗯，后来就把他们的这个杰米莱的负责人CEO这个叫出来了，是吧那个define，发了一个Jackson Astra。嗯，其实如果说没有前一天open i那个会，他会很遗憾的。结果open i打了一个正着把他，对因为这个，他要发什么喜事应该都知道嘛，因为这么大的公司，他不可能不落风，他不是苹果。那苹果现在的发布会都基本上是吧，都落干净了，发布会之前你问一下Gulu，他就把推出所有的谣言Rumor给你总结了一遍。所以说，这个东西就被打了嘛，被打了一下子大家觉得没有新奇感了，本来他是这个项目，想想放到前面让他惊爆一下，结果没有了。嗯但是呢，两家公司都走的是同一个方向。当你的这个处理能力变快之后，多博泰之后，那很自然的就是idol能感知嘛，之前只是说用语言方式去理解输入输出，厉害了，也能听也可以，可以说是吧。然后模型训练到一块去了，多模态训练出来的，听说模型会比另外的技术的结构要好，你说出来的话更自然，他知道有感情有表情怎么去表达。然后呢他也能看还可以画，有这几个能力之后，我们再把它居民实时化啊，那你只要有足够大的算力，能扛得住这么实时数据流有足够快，这个应该是嗯两家公司速度同归是吧，都在做研究。我看Google这个，他写的视频下面写的PROTOTYPE是个原型，但是呢应该快他可能下个月就能给你用了。我觉得open i那个，可能也还得等，嘿嘿。对，他可能会有一个比较稠，稠一点的版本吧，可能你可以感受。是是是啊，大概我觉得是，这两个都要正好撞车了嘛，就open i有意踢馆吧，故意踢馆。是是，是把他最最有特点的一个东西发布，给踢掉了，然后呢这个也判定出两家公司认为的智能体。因为一个月之前，Google Cloud做了一个发布会，也是讲了all in engine嘛。所以他们在嗯，这cloud里面，他就跟你做你的这个digital的员工嘛。然后有各种各样的engine。这一次就在他大发布会上，发了一个最大的智能体，是吧就是嗯HR。那么这个东西基本上，我觉得也是各种技术汇合点的一个。如果说你想让广大用户来使用，怎么说呢，你受众最广泛，那它就变成ng的意思，使用起来最简单的。这个是很明显的。不过是我个人来用它，是欠GPT，或者说你Google界面呢，它以后都是一个安全，它能够帮你来做这样的个人的助理。</p>



<p>这个东西，我觉得是，呃差不多2024年安静元年开始了啊，这个模型在往下面走，交互界面就可能跳出这个对话框了。嗯大家可能就直接能看能说。这一事情呢，我觉得是很大的一个起点吧，经典的一个起点。这有个好处啊，这个起点你知道他是极其好算命，嗯，这个里面什么 GPU 的需求啊，啊算力的需求啊，电啊这都是，是吧急需的，那就对 VDR 还是还是 OK 的对不对，哈哈哈哈，就就担心这个 GPU 开发商没人用，不可能的对吧？这个是很好的一个趋势。</p>



<p>然后第二个呢，Google 后面又发了一些围绕揭秘了相关的。所以说它的 Workspace，我不知道，在国内的朋友，可能用 Google Workspace 用的不多，但是我嗯，我基本上我重度用户，我们在这边，我家庭小孩学校基本上都是在用 Google Workspace，就是说嗯微软的 Office 套件还用的比较少，但是 Google 老师，嗯所有人都用的，所以说我们对 Workspace 的这个界面的继承，这个是我们觉得还很 exciting 的。这个事情。嗯，而且他他上次也预告了，但是这次没什么新意。大家都知道他有继承了，他只是说了个时间点，什么时候会继承。说下个月要什么时候，对，这是一个 workspace 继承，然后另外一个还有一个是 Gemini，在 social 上改进是吧，在 social 上继承 search with 这个 Gemini，加了一个 overview。Overview 对 overview，就是基本上瞄着那个 proplexity 里去的嘛。Seven corps，不是很彻底，因为他 overview 在你的搜索栏的上面，占了一块。嗯，你下面还是会出搜索界的广告。对，该放广告的地方还得放啊。谷歌靠这玩意活着的，但是我觉得这也是开始吧。对他至少能够这样做的嘛。</p>



<p>然后第二个呢，嗯，广告还做了一个 plan 功能嘛，还有一个用一个 market staff 的这个 search 嘛，自动的帮你把任务给分解了，这也是按键的功能。它相当于是有个小按键，在 search 背后用界面的驱动的，然后帮你把你的任务分解成多个子人物，然后他的 plan 一下，帮你去调用 Google 不同的服务，去完成这个界面，这个特别好。比如 Google 有 map，呃世界上最好的应用，它的 map 是极其好的，一个商业化很好的，它可以调用它的 shift。它有 shift 功能，嗯。</p>



<p>Google show 好像就没有人用吗，在你们那，呃就是，它还是导流，它以导流为主，他只是说把商品展示在小卡片点过去，他这个是要费佣的啊。他最后他自己管履约吗？就是什么物流履约这部分他做吗，支付都不做。不管不管，他，他没有，他没有封装军，他包括订酒店也是的。加油嘛，再不执行这个交易部分嘛，但是他就是会把这个东西包装的更像。这个商品放在前面，你提高点击率嘛？对，这是Google soft。然后Google map，以及Google的EMIGI search。Google的Lens也在里面。所以他们都打包之后，这个规划做的就有意义了。</p>



<p>对，我问你一个问题，他能够做一个长城规划吗？嗯，包括完成很多工作。我觉得这个是有意义的，而且这个可以把很多现在的商业化东西给卷进去，我觉得是可以的。我看到这一块也是觉得蛮有感触的，因为谷歌有全家桶，就是office、邮件、地图，然后电商、照片，所有东西都有。我现在靠AI把它串起来，这个事情其实确实是很强大的一个东西。</p>



<p>对，全世界有全家桶的就是谷歌，微软、苹果三家覆盖能力就全统的三家，但是投放能力最强的是谷歌。另外三个就是我，一个谷歌Meta，打一个苹果，三种投放方式不一样，就是促打，让一个产品能够快速触达用户。</p>



<p>Google是最强的，Google要three billion，30亿用户，30亿啊，对这是最大的。Facebook可能大概在15亿到20亿之间，apple差不多也有10多亿吧。这三家公司有惊人的投放能力，微软稍微差一点，微软大到毕竟还只有office和Windows，这个是没有移动端，所以说这是比赛比较吃亏的啊。</p>



<p>所以说，Google的模型虽然可能不是最好的，嗯，它只要能保持在第一梯队里面，完成这种任务就足够了。对，现在就是帮我做个plan，搞个地图什么，这个看个东西。我不需要那么高的智能，我不需要跟GPT4去比最后的那个比分，那差距太大了。不需要，是是是。加上它的这个30亿用户规模投放能力，它很可怕的。</p>



<p>所以说，现在看到了一个数据。下1GPT的数据是平的，几个月的没涨呢，北美还有所下滑。嗯，但是Google是一直在加美两是一直在涨。嗯，匀速上升。其实，只要是把他自己的这些原来边边角角的东西挂进去，他就长一点。挂进去一个就长一点。对他之前挂的很含蓄，他都没挂。实际上他的搜索是现在。我现在打开Google，Google iPhone上，Google APP上多了个揭秘来。刚刚升级的挂的很慢。嗯，我，我还没看到。对，我待会去试试哈哈。所以大家都在笑Google啊。对Google，这个不能笑他。Google哪怕是万联老二。反安卓也是老二。然后是AI模型能力肯定是老二。但是架不住他人多。这个产品的粘性还和matter不一样，和iPhone也不一样。因为iPhone嘛，它就一个终端是吧，它就把你的入口给卡住了是吧，他的那个他的很厉害。主要是iPhone。然后说，但是进去之后呢，可能用的东西并不一定用苹果。对，进去还是要用搜索型还是用Google的，office套件还是用Google的。我基本上，应该没人会用苹果那个什么icloud，办公吧不会的，呃i was估计也有人用吧，就是什么number。我估计应该用的最多的，没什么没什么，没什么人，but kinot应该用的多，然后其他的多，剩下几个都不行了。然后配置和那个number，估计没人有。所以说，我觉得Google的这个覆盖是从工作到，就是个人效率，就个人的设计，个人的productivity，还有在你的团队工作日常的所有的东西都是他。所以说至少在北美是这样子的。或者欧洲也是这样子的。所以说，他的这个投射能力会强于另外几家，是会强于Facebook。但是Facebook现在也整合进去他的MYTA整到那个什么WhatsApp啊，整到Instagram啊。嗯，也有效果啊。 反正他的可以，可以看到他数据的上涨。</p>



<p>那如果是苹果真的跟open i去签了约，那么微软肯定最后是挂open i的东西进去，然后再加上苹果。如果也挂上open i的东西的话，那这个其实还是有一战的这个事情。 嗯，这，这个很好玩。我看了一个4O的时候，想的第一个东西就是这个东西，应该叫GPT Siri哈哈哈。 对对对对对，我们也是这样想的。 其实我看了一下这个，有一篇文章我忘了标题，写的是Sam Altman的这个拳速用的很好，这哥们左右平衡，是左右互搏是吧。他永远跟微软若即若离的是吧。 我，欧文i最缺的是欧文i为什么现在会出现这么大的问题，于奢求出走，那就是因为公司在一些战略重点上有矛盾吧和团队。</p>



<p>嗯，如果研究团队需要20%和25%以上的这个算例，但是他要支撑这么大的这个GPT或者企业应用的规模根本支撑不起的。 他就只要这么多算例可以用是吧。他要不就做linement，要不就做应用服务，要有个选择。 所以说就就掰了呗，这这个价值观就是里面的方向不一样，价值观不一样。 所以说他永远是一个比较矛盾的地方，然后他从微软这边拿到了这么多算力，微软其实也在另起门户啊，微软也没有100%的信赖open i是这东西，就像一个三国志一样。 嗯是吧，open i出出来搅局的，然后呢微软的苹果在这样子，现在产业三国局面。 但这个基本上就把Google排除到外了，因为Google全部都有嘛自己啊。 这两个都缺。 然后呢现在是微软自己拉了个团队他把那个inflection收购了。 嗯，我们叫做，我们叫伪收购，是吧伪收购。哈哈，只是说inflection沉浮于微软呢。<br>从一个完全独立的公司，然后帮他去做新的，从头开始做模型，因为这个团队做好了嘛，想揭秘了，出来了嘛。<br>对，微软的野心肯定是要另起炉灶的。微软说分了open AI 100亿的这个这个算力，实际上这个算力他自己也在拿，训练自己的新模型，他没有100%给OPPO来用。<br>嗯所以三方的觉得不爽啊，对吧，然后他现在要跟苹果去合作。<br>嗯打死你，这个平衡，那不然就会未来是吧，掐着脖子玩了是吧。<br>嗯，然后我找一个，我找一个，能够帮我快速放大用户量的一家公司，那之前想想去通过微软的这个什么Capacat Windows是吧。is嗯，量太小了，放不上去，那必须找苹果放，找Siri放。<br>所以说，我觉得这个相当于是有个平衡点的，那苹果也也是有好处的，再来说他可以快速的拥有这个能力，但是苹果是做的，苹果从来不会说，我把这一棵树叫肥肉，让给你一个人吃，是吧，肯定不会是，苹果一定会后面会这个明修栈道暗渡陈仓的。<br>这这几家公司都是在明修栈道暗渡陈仓，对各各种的这个博弈啊在里面，这很精彩的这里面，但是你有没有想过这样的一个问题？谷歌，原来比如到苹果那里去上搜索引擎，默认的时候每年是给苹果好多钱的，对苹果赚钱，那么现在比如说，我们在苹果里面再去挂大模型的话，到底谁给谁钱呢？<br>我估计这个可以这样来分，看open i有没有能力做一个本地版，在iPhone里面好。<br>嗯，有一个本特别light的一个模型，那苹果自己也能做啊，苹果自己也有，就是这个东西呢，它能够POS到这个这个GPT4的各种，因为GP4肯定o下面肯定会，不同的版本嘛，它已经做了这个区分了啊，不同不同模模型规模的。<br>那么呢。就是说，Siri是会在本地有运行，他不可能所有的联网。那可能，因为苹果的设备是很多情况下是不可以不用、不用联网工作的。嗯，然后呢，简单问题，比如本地的一些检索啊、启动APP啊，惠达他可以每个月做。那么呢，我想让这个Siri完成更好的，比如说我拿出Siri来，你帮我看一下周围有什么东西，帮我做一些解答这种问题，这种很符合他。画面演示的一样，就是我们在星期一的时候的这个发布会上，演示的一样。嗯，帮我做作业啊，帮我解题呀，帮我做这种翻译啊。是吧，打开摄像头帮我看。嗯，或者说更复杂的推理，帮我录屏幕，忙干这种事情。那很很简单，那苹果说你买我一个，那个服务吧，Siri plus啊嗯，对不对，那这个里面Siri plus苹果可以用，相当于是在用gptplus挣的钱，他来挣钱的嘛，苹果来卖。嗯，那比OPPO i自己卖好。嗯，可能苹果的分一点钱，open iPad会这样来做的，对或者说，苹果出一部分这个计算算力给open iPad，苹果自己我不知道有没有。嗯，可能会这样来做的对。无论是像product Astra还是像GPT4O，从语音这部分，我觉得像传统的方式，直接把所有的声音进行一定的压缩以后，然后传回服务器去干活，这事是OK的。但是视频的部分，我不认为他们可以完全传回服务器去干活去。肯定还是在本地，还是要收拾一下，呃要的还传。应该是直接传开服务器的，那本地魔镜出入不了视频能力。但你这个流量是非常吓人的，你像咱们虽然可以去做直播，但是如果大家每人举着手机说来，我们开始往服务器上传东西，你实时给我反应回来。我估计会冒烟的。所以说不知道，不知道他们会户外会怎么做，可能是机器怪吧。现在甭管是呃open AI也好或者是谷歌也好，大家都在推APP。你推APP的话，就是可以在本地封装一些闭元模型去干一些事情。嗯嗯，因为这一次谷歌IO上呃Gemini模型给我的两个印象。除了他在呃服务端去做1.5 Flash之外的话，另外一个就是他们裁剪了一个比较小的模型放到了手机上，安卓上面。对，还裁剪了一个更小的模型，据说是cdform里。嗯，Nano在Chrome里面。对是的，Chrome现在就有了这个。我觉得这个，谷歌的发布会上有一个很好的一个很好的一个产品，就是Chrome怎么执行engine。嗯，相当于是Jimmy就直接把Chrome接管了。是。然后他可以自己导航，自己去网站，网站这个能力。我觉得这太爆强了。所以说，接下来很多cloud插件就没有意义了，Google真的有太多的优势了。他自己有这么多终端的这种应用。对，可以把界面来放进去。所以我觉得不好说啊，如果说真的，这个智能增长到拼就是说推理能力到了一定的平台期了，剩下就拼这个用户量，占有了投放能力了。嗯，那嗯，包括大家吃亏的，用户毕竟不是他自己的，要么是苹果的，要么是微软的，要么是Google，那他就抢Google，抢Google呗，哈哈哈。是。那咱们看看，就是呃，谷歌IO上除了protect Ultra，除了Gemini之外，它发的另外那些模型有哪些你有印象的，比如说什么图像啊视频啊这些东西啊。其实那些都发过了，然后image 3。嗯，基本上到了majority six的水平了，是吧。嗯，就是上一次他imaging two的时候出了一个很大的错嘛。这个呃对，各种正确的图片出来了。哈哈哈，对对对，这也显示在这公司里面。有alignment及其观点哦，搞得模型都很官僚。但这个所有的模型对比模，就Google的模，JJ是最官僚的，是最没有灵活度的，虽然他做了好多那个level是吧，你可以控制这输出的这个危险程度，但是我还是觉得比较官僚，什么敏感词都不敢处理，这个里面胆子再大的，估计是Grouk了，他的能力很弱。嗯，Grook。现在他允许我们用了嘛，就是像我们这种交八八美金的已经可以用了。嗯我去使了使，发现可能真的是查新闻最好使。对，朋友每天我问一下我，不清楚的问一下，是是是而且经常剧透，像在这个open i的发布会之前两个小时我就问他，我说open i今天发什么，说的都挺对的，对对对，因为rumor很对的嘛，他猜采集rumor好嘛。对哈哈哈没错，这个挺好玩的。对，回头我们可以聊一下刚才说到的那个呃模型的官僚性。刚才我觉得这个杰米莱诞生于大公司，它就有大公司这些信在里面，训练方法的问题。这几个公司的训练模型风格不一样，像open i肯定是走的最早，肯定走的比野的，是是是，风格他胆子大，敢往前冲，garbage呢。嗯接触过他们，以前人就是比较小心的，但是技术也是很不错的，cloud 3的这些人，是吧，嗯对对，cloud cloud其实非常好。cloud对于这个instruction，你的指示的理解能力和控制稳定度，我觉得还是比GPT4好，当然，可能有的推理上面弱一点点了，差看看不出什么差别来了，但是他这个instruction理解能力真的要比要比GPT4好，这是为什么呢？这是因为，他们把这个对于这个东西的理解从一开始在pretending，这个价格就觉得不一样。对，这个Eleven的价格觉得不一样。所以说，他是会更稳稳一些。这个模型对我现在也是感觉是 cloud 3 的。这个 Opus 是我用的所有模型里边理解能力最强、最好的。但是最贵的就是它的 TOKEN 实在是太贵了。我有时候会让 PPT4 这么大 1.5 和 LOUD3 一起去做一个任务。什么呢？就是我把我的视频的字幕扔给他说，来，你给我出总结，然后出这个分段。嗯，GPT4 就经常偷懒。就是 GPT4 偷懒这个问题现在基本无解。嗯，然后呢，真奈，可以很老老实实的把这个任务完成。但是呢，他经常的就很工程师那种感觉，就一点不唯一。对然后做的最好的就是 cloud。他的那个语言表达比较好。对，但是干做同样的事情，GYMNA 1.5 现在是免费的。cloud 的话可能做处理一个 20 分钟的字幕大概需要花掉我可能两三美金或者更高一些就非常贵那个玩意。我可能总共就六七千字的这个文字加上可能时间戳再加上其他东西可能能有个 1 万多字输入输出的话可能有个两三千字的水平然后一下子美金就不见了。那么你觉得对于程序员和创业公司来说，我记得在早期每年谷歌 IO 开的时候我们都是要认真学习领会，然后看看明年一年的精神是什么。嗯，那么从今年的谷歌 IO 开完了以后，你觉得给我们指明了什么样的方向？嗯。他都我用 Jimmy 来了嘛，对吧 Jimmy NI 也是纪元到了嘛。那对主力来讲，我们都用过他的模型嘛，对吧？JPL 模型有有好处就是在过了这个巨大的这个算力红利之下就是资源之下他应该能够把价格做到极其便宜的。速度很快这是他的优势就是说基本上。我觉得他能够在第一梯队里面，是个能用的水平。嗯，你处理那种比较暴力的任务啊，很繁重的任务啊，你可以拿他来用就是某个煎饼奶Flash，又快又便宜。嗯，这是一个比较好的。所以说我就围绕这个东西呢，大家可以考虑把一部分工作交给他了嘛。<br>嗯，特别你就要考虑这个推理能力啊，要很好表达很好，可以在他之后再套个GPD4O或者说cloud 3。另外一个，你可以看得到，呃Google的全线产品，因为他今年没有发布他的这个安卓手机的东西，没有任何东西。<br>对说了一下，他会有个安卓版的界面的APP，嗯然后里面有个live模式，打开是跟那个一样的，可以看嘛。但是嗯，我感觉他在接下来之后，在他的安卓手机里面的这些应用的Gemini的唤起会很方便，就是你可以作为一个第三方的APP，可以很方便的把它的这个智能服务给呼唤起来啊，这个也是可以的，让他来帮你完成一份工作，那你可以直接调这个API呀。<br>嗯，这是一个比较大的一个变化。我觉得最重要还是呃，从Google的和open i这一次的发布会上能看得到我们能看得到未来一两年左右智能体就是这样的一个给普通用户用的这种AI交互界面的方式就会朝向这样的一个语音和视频交互的方式去走了。而且在这个方式之下呢，我们能看到他接下来的下一个版本的这种模型，API开放之后让我们可以解锁非常多的能力，就是你的应用也能够有用他这个能力完成一些特别工作，你可以做个很简单的小应用，然后打开一个，帮我看一。一个什么东西啊，英文的简化成这个样子了，而且他可以变成。如果说你能够持续的帮你去监视一些场景再来看什么东西是吧。嗯那这个，那这个实现起来智能，你只需要写prompt就好了，什么都不用做了对。<br>但是这个其实有一个问题啊，你到这个时候，你为什么还要写一堆应用呢，他跟你处。你就用他这个，用他就够了。嗯，对啊，我只是说的是好处。就是说，他已经这么通这么放话了，还要做英雄干嘛？对不对嗯。但是呢，我个人觉得呢，身边不可能只有一种助理。我们这样理解，如果说我们接下来就不叫应用了，我们再过两三年我们不叫开发应用，我们都叫开发助理。那开发engine，对，开发engine，开发这种assist是吧？或者engine是开发智能体。以后都不叫 APP，以后都叫智能体好吧。现在最泛化的智能体呢，最通用的智能体就是哎，哦，拆 GPT 是一个智能体，嗯，超级贴身小助理是吧。然后呢，Jimmy 也是一个贴身小助理，但是我觉得 Jimmy 它要贴身起来还是很好，因为我所有数据都估过了，太牛逼了。我基本上所有数据都是他的。如果杰米莱稍稍聪明一点点是吧，那我觉得我用它也可以的，只要它不贵。Gmail 的总结啊什么的也很方便，但是我还有一些专业的。我觉得其实并没有说打死很多 AI 硬件，其实会给很多 AI 硬件做一些很新的机会了。嗯可以做一个那种放在桌上了是吧，就是没事跟他聊聊天的这种好玩的。嗯，这种硬件，苹果之前不是有个项目吗，他们公司做了一个，企划了一个项目，但现在不是那个酷狗也报告了吗？说他们把车的这个团队的人裁了，放到这个 AI 组里面去了，会恢复这个项目，跟那个 teams 一样，Tesla 家用机器人，他们之前设计了一款可以走的 iPad。对，但四年前还是五年前，其实可以自己走，会议室里面溜达的 iPad。你跟他说话，然后我来看着你，对，然后你跟他说话，嗯，他也可以自己去看周围的东西，就是办公室里面的，这种可以移动的秘书，现在这东西有了这样的 AI 之后，那不那不就完全就实现了吗？以硬件和设计能力。再配上一个很好的f，那不就是？是吧，这种新产品出来了嘛。这只是在家庭会议室里面、办公场景里面，还有各种各种外面那些硬件啊，需要这种这种地方其实都可以了。我觉得会迎来一个——在人形机器人普及之前，这种智能设备加上这种感知和语音对话大升级，都要智能体他。他们可能会冲破手机，以后手机会设计会变得更简单了。</p>



<p>打开iPhone，喊Siri我要干什么、干什么，然后Siri把这个界面放掉出来，搞完之后就结束了。你这APP都不用打开，喊喊一下就好了。而且苹果的这种设备，因为apple也可以登一些apple的专利嘛，就是我觉得。</p>



<p>嗯，我们可能接下来真的要忘掉什么叫。其实，现在已经很忘掉什么叫移动应用了，现在应该带的应用器都是Web应用，因为他都是效率工具，都是帮你提高生产力啊，帮你做图，帮你搞字幕，帮你截视频，然后帮你写文档。这东西必须用电脑拿，手机没人干这个，对不对？所以说现在这一批AI创业，大家都叫什么？AI应用外部应用，Web system这样的东西，嗯，就手机上东西并不多，手机上做到现在就一个翻译，加一个太恰的PPT，那接下来可能东西会更少了，打开一个Siri就结束了，走不下去。</p>



<p>可能，我觉得接下来在做的就是做一些tools，给Siri调用就好了，就是你做一些手机上的工具，让手机上智能体给它调用就好了，嗯。做出来的东西肯定并不是给人用的，这就是我们应用的变化，可以重新思考到底去怎么结合这种类似于呃GPT4O和比如说呃Gemini 1.5 Flash，然后结合所有的数据，能够做出一些新的应用场景出来。这是大家可能是一个2024年真正需要思考的问题，如果如果说，我觉得嗯，包括这两个东西。两大手机厂商安卓和iOS，他们一定会做的就是见面奶，也是一个智能体嘛。你打开Google，你说嘿Google在，见面奶出现了，然后见面奶说哎，你帮我查一下今天的这个天气，然后我要安排一个什么路线，我要去滑雪，然后这个路线怎么样，你告诉我这个门票多少钱，我什么时候去合适。他就在iPhone里面把三个应用都调出来了。如果说我有一个专业的去查这个雪山天气，因为我装的应用是滑雪，我一定需要有专业的天气预报。就是说，用Google的和苹果默认的天气应用没有意义的，我必须得专业的内容，这种trail的应用。那么这种应用，他接下来就把数据直接给了他，都不用提供应用，他提供一个这个注册一下，在苹果里来注册一下哦。我是一个提供专业滑雪数据的服务提供商。当你的个人助理想去问什么东西时候，我给你这个服务就好了，登记一下OK。这个就像上上架了，然后就其实也很像之前在GPG里面做tools一样嘛。但是这个东西一直告诉你的，能助理以后我要查专业的滑雪天气，那你查就好了是吧。以后说查这个东西要花钱，那你自动从我账户里扣我吧，我跟Siri说就好了，我给你两块钱给我，结果就好了，全部都被Siri代理了。</p>



<p>在Siri或者Google这样的上面就全代理了，然后我觉得这个呃，真的就变成了交互的这种形式，应用的形式会非常非常大的变化，而且给了新的硬件很多的机会。大部分时候我们走路的时候，开车的时候会戴着耳机嘛。实际上我iPhone都不用拿出来，我不会拿iPhone出来在口袋里边，或者在家里头iPhone放着充电，我就戴上我的耳机就很。而且苹果也在耳机里面做了很多脑波识别的东西，是吧？嗯，更敏感的感受到。以后得带上iPhone，iPod 就好了，apple watch 10。然后你跟他说话就好了。实际上我觉得苹果不应该做微信Pro，他应该马上做一个apple plus。我戴上了眼镜、耳机、手表，iPhone 就不用在我身上了。iPhone 放了我家也当个小服务器就好了。我看到的是你看到的。我最近各种 iPhone 说话，然后什么都结束了，就完成了。我觉得这个东西可能两两三年就会做的，而且 Google Glass 已经官宣要复活了。啊，Google Glass 要复活啊？对，要复活了。我还印象很深刻，当年戴上的时候烫伤了哈哈哈，特别舒服。不一样啊，线线线技术不一样了。对，现在还做这个东西，应该会的。我觉得这一波可能会最快催生的就是，首先耳机是很重要的一个输入设备。会有大量的新形态的耳机出现。除了这个之外，第二个眼镜，耳机眼镜手表都会被增强。嗯，到时候你把手机放到口袋里面，不用拿出来了。或者放到手机，变成一个叫随身小服务器。对，手机就是随身小服务器，输入输出，交互，已经完全可以像这个叫可穿戴设备，移动了。我想打游戏，或者我想办公，我想 Office，我要打开电脑，怎么样就好了。那你觉得像呃 GPT4O，其实，它更多的给大家看到的是情感的陪伴，或者情绪的这种输出。谷歌其实出的所有产品都是一种工程师范，就是很浓浓的那种穿着格子衬衫，秃头的那种感觉。但是呃 GPT4O 就是让你觉得哎，他还这个有点害羞，还有点兴奋，还有很多这样的东西。那么这种情绪价值的输出的话是不是也会给大家带来一些新的、不同的思考？对，我觉得他提高联性嘛。嗯，就那天，我说我在车上。我打开，如果说我真的是有像演示这样GPT，他有情绪陪我聊天多好玩。我就开车，我都不用开车了。我旁边没人，我就跟车聊天呗。嗯，我就把他开着，然后我车自动驾驶的时候，我就跟他聊天就好了。因为我估计下GPT也是看的Sam、奥特曼他们，也是看的现在在这个里面最好的这个character的点、AI character。AI对数据量用户流程比他们好多了。</p>



<p>嗯下GPT，那就是因为他有陪伴价值。对，所以说肯定想干这个事情，他一定会把Karak的AI这个市场抢过来，他千方百计地要提高流程，提高用户的占有量，在这一块上的话。其他人是不是也可以调用GPT4O，比如说在自己的应用场景里头，加入这种情感相关的、这种预值、然后呢让自己的留存上升。特别是像游戏啊，或者是这种应用里面。应该是的，应该是，但是成本会比较贵。</p>



<p>未来肯定会有的，而且我说了，智能体不会只有一种的，记住嗯，OPPONI提供一个GPCD，就是其中你最贴身的一个智能体。但是OPPONI最后还有什么，就是GPT four o或者GPT five，或者什么什么样，这样的不同的模型给你调用。而且还有定制化的模型，还有其他家也会提供的模型，这个模型它就会提供其他智能体的背后的智能嘛。</p>



<p>嗯也可以做朋友智能体吧，游戏里面需要游戏的嘛，可能某一个游戏厂商，他开发了一款特别好的游戏，我觉得游戏是很好的一个，也会得到极大升级。但只是这样服务成本太高了啊，如果说你在游戏里面去玩，又能够玩这种像这种看到电脑电脑屏幕的、配这种3A游戏是吧，或者说手机这种很简单的手机游戏，这个里面把你带入情景之后的角色，也是会很好玩，他就陪伴你，情景陪伴吧。</p>



<p>我创造一个虚拟的。这个是挺好的，而且还有一个呢。你账号后面走，这种VR设备也会。所以我觉得，毕竟Pro这个产品还是发早了。咱们刚才讲到了，BREAKER AI有可能会被干掉。你觉得咱们从GPT4欧和谷歌艾欧的两场发布会，其实谷歌艾欧很少干掉其他的项目，而欧盟AI的发布会，基本上是每一次都会干掉一批项目的。那你觉得还有谁会被干掉？现在他不是已经干了一批的陪聊了吗？这一次对伴侣的是吧，助理的啊詹姆奥特曼？他也不是在最新的一期采访里面说了吗，就是说他建议创业者绕着他们走，就是说对于一个像GPT这样的，一个他要解决通用问题的这种事情上面去，你就别做了啊。通用就是最个人紧密的个人上这种东西的，你要去做你产生单独有业务流的事情去。嗯这垂直到一个句子生意场景里面去或者是去处理用户一些特别的数据上面去，去做这些事情就通用的对话呀陪聊啊这些东西，其实是没必要的。对大家如果在企业端啊或者在一个人的一些特殊数据处理上面，可能会有一些作用我觉得。随着他的这个智能越来越快速度，而且他功能也越来越强，你看他可以连接Google啊，连接Gmail啊。当然他已经侵入到了Google地盘上去了。看看电子表格啊，帮你去写了PPT。以后他也可以写PPT。他可以控制PPT，他写不了，他可以控制。我觉得现在有一个特别搞笑的问题，就是说现在有一大批去做这种深层PPT的软件，是吧？回头，那现在做的最好的还是大家用的就是Kilo的，很好是吧。他就是个纯工具，他不要AI。没关系啊，我用AI控制你，帮你完成就行了，你不用去做一个新的一个PPT工具了。我的engine的可以控制我的电脑屏幕，控制权在里边。屏幕共享在里边。</p>



<p>嗯，你自己去做就好了吧。</p>



<p>嗯，我现在用WPS用的挺多的。现在WPS后边挂的那个应该是Mini Max的，这个大模型效果还挺好的。要告诉他做个PPT，咔咔给你做。做完了以后说：“这一页我不喜欢，给我换一个。” 咔咔再给你重新换一遍。</p>



<p>所以说，我觉得嗯，怎么说呢，有的做工具挺惨的，嗯做工具的就比较费劲了。</p>



<p>对对对，我觉得有一个特点，你以前做的工具做得很好，你有很大的市场量。你像Adobe，嗯，你会继续很好，你会继续很好，因为AI在增强。你如果说：“我想用一个很投巧的AI的方式来替代你，现在太难了，除非你创建了一个完全不一样的工作流。”</p>



<p>嗯嗯嗯，现在像这种AI搜索，比如像proplectity这两种东西，你觉得会被干掉吧？</p>



<p>我觉得概率很大呀，因为甭管是open AI还是谷歌，实际上都是在向他的地盘在清洗。</p>



<p>对啊，对啊，对，我觉得，我本来只是现在还没有觉得，他这个需求，没有，没有，现在这个智能体看出来那种wow感觉，是吧，哦对。</p>



<p>我们先把这个放出来，我觉得先放智能体就是为了堵这个Google，而且一个堵Google，第二个呢，应该是他们在6月10号左右在苹果的发布会上会有一个很大的一个更多的浪去事情，嗯，啊，在Siri上面会有更大的一个浪，就是WWDC。对对对，这个才是它主要的，三米奥特曼会上场的，现在三米奥特曼都没出来嘛，这他现在还是要把这个伊利尔撤退，完了以后导致的各种混乱，再抹一把。才能再往前走。对，所以说我觉得他的Alimon团队撤退其实损失挺大的，因为你后面的模型在训练啊。再往前面进实际上就是靠Alimon团队的，其实Alimon，对齐整个去掉了以后，它需要重新建这一块。嗯，或者说是它核心的很多research都走了，但是我觉得这也正常吧，这个理念不一样吧，或者说发展的一个公司发展的一个阶段，他自己的成长他也需要。嗯，也是这样的，转型和幻觉，所以我们现在看到整个市面上的一个格局，嗯，open i目前还是最好的，有一颗新星自然诞生的一路mask的XDNI吸引了好多人才，因为系统有这个，iPhone的人就已经奔特老马了。然后呢，还有一部分去Antopic，Antopic也在捡漏，未来其实也在捡，嗯，未来，这样的换血其实是好事，他让流动起来就好了，不然不用被一家公司给霸占着，他分散之后，可能又会长出新的概念出来，我觉得硅谷的神奇之处就在这。</p>



<p>谷歌这边，我觉得可能他这一次就未必会有那么多的收益了，就是这些团队出来，应该没有人再惦记回去了，可能都待过，都待过XAI这一块，虽然说又去融资，然后又去扩大算力，但是真的看不太出来这样的一个产品，据说它底层应该也是微软的GIX啊，不是谷歌的GIX，然后呢，做的Moe做的在这样的一个基础上，其实我并不认为它能够做出什么新奇东西来，嗯，应该是没有太多新的，但是呢，我觉得这些模型公司都背后有靠着自己的生态在嗯点燃很明显，有生态它有tutor嘛，是这个这个，它从用途和数据燃上，它能够解决很多问题，第二个，它有一个更可怕的一个，他要做多博泰，他有优势他有SLF，嗯FSD挂上，哎呀，不是FSD，是他不能这么搞吧，是因为他FSD是属于克拉的嘛，你看那个group 1.5 Preview版本里面，嗯Excel下面有一个比较的一个图，他让那个group 1.5去看这个图片，问这个路车过不过得去，这个open i，open i说过不去，他说过得去是吧，因为他他的这个训练数据不一样嘛。他有空间感知能力，而且他这个感知能力就是实际的。应该会从FSD这边共享一些自然过来来做这个。嗯，就是，他肯定在这一块上会有一定的差异，因为你毕竟特斯拉是个上市公司，你FSD属于特斯拉，包括这个擎天柱机器人也属于特斯拉。你要想把这一块拆出来单独放到呃XAI里边去，就跟马斯克说的是，你不给我批薪水，我就把他拆出来单搞。哈哈哈哈。</p>



<p>现在我投票了，支持他千万别拆出去了。哈哈哈哈。好吧，到底是特斯拉股东。他如果拆出来，特斯拉就不值钱了。我觉得一下猜不出来，但是这个东西他肯定是他平衡嘛，两边左手右手都是杏儿子，是吧，不一样。对，左手右手都是杏儿子，就是你哪边愿意多给我一些这个控制权和收益的话，我就把这个鸡蛋多往哪边篮子里放一些。嗯。</p>



<p>但是，我觉得这个XNI的发展方向还是个语言模型的方向，多模态模型。它这个综合语言模型，综合智商，然后FSD是驱动动作的，FSD做的是视觉到动作的一个反馈，就是recent to action，包括那个机器人也是一样的。嗯，他做这个的，然后呢，这两个模型最终可能会通过一些很好巧妙的架构会合体的。嗯。</p>



<p>那我们最后再探讨一下他们这个。提前一天，我觉得算是很戏剧性的这种抢戏。OpenAI跟谷歌，你比较一下，你觉得他们有可比性吗，还是说在未来他们会如何去发展。哦，这两个公司完全不一样的公司嘛，可比性呢，你要怎么比呢，一个巨无霸是吧，然后另外一个是创新公司是吧，这个新锐公司里面最值钱的。所以说这两个公司企业风格不一样，而且，我觉得说，如果真的看执行力，肯定OpenAI执行力更好，公司结构远，然然后呢，有三位奥特曼，一个我们，我可以把它叫生意人，有野心，Ambition很强。但是这样一个人，能不能够带领大家更好的走向AGI，那我就不确定了。嗯，至少是他能够。现在各种搞法、各种平衡方法，这种政治权术。嗯，还包括蛊惑人心的那个能力，都很强。他能够在这一段时间里面让都，既不是技术能力，也不是工程能力，刚才讲的所有的斗鸡，他都不是。但是他是有危险的，他是有野心的，有眼光，有蛊惑能力的。这人才吧。所以说呃，那他跟印度马斯克不一样。印度马斯克虽然说是，也是一样有野心，但印度马斯克是个真工程师。接触过人都知道，他是美国工程院院士吧。对，这个真工程师他真懂得。所以说这两个公司这执行力都很好。Google的执行力略差，因为它是一个大企业，它是一个观点，大企业来自CEO不是创始人，对吧CEO是，是吧，后续打工仔嘛，跟那个库克一样。嗯，不是创始人，嗯。所以这样的都会减减分，但是你说这个微软的CEO不是创始人，微软CEO很牛逼啊。这个不一样，也不能再来评价。所以说我觉得，嗯，怎么说呢，我觉得要看这个产品的打法和产品的这个突破性。我们更好的看高分i，他总能够带来很多的东西，而他人才密度也足够高，嗯且同时有野心。但是呢，这个市场他能不能够100%吃下来，嗯不一定。而且我觉得Google在后面，后续是市场能力会比OPPO还强，嗯。对Google只要我保持万年老二的方式，嗯哼，他就可以把市场强到50%以上，是是是，这个我是能够相信的。微软其实在整个互联网时代里头，嗯就没有特别大的生意，对对。但是你到今天AI时代，一看来说这个巨头活的还好好的，然后市场都是他的。微软的这个操作系统和office，还都把市场都占在那了，就是占有量嘛，他的客户张金量就在那。对，因为微软的云也是因为他有office。所以说，他企业销售这个走得特别好啊。很多企业的云端因为通用他呀，所以说这个。这个没办法，他之前这个长期积累的用户不是那么容易就被丢掉了。所以说，Google里绝对不能小看他，而且他潜力很大。他只要是别掉队太远，或者说他只要在第一梯队里面就行，就别哪天JPL号GPT5出来之后，JPL2或者JPL2.5根本就被他甩不见呢。那我觉得这个不可能，在全方面同一个架构下面，谷歌只要守住基本盘，守住他的用户，守住他的安卓，守住这个呃，比如说Workspace，那么只要是他的大模型在这个叫一定基准之上，他就还可以接着往前走。</p>



<p>对，对的。哪怕傻一点没关系吗，是吧？你就完成我们这些，完成我们酷狗里面那些多任务就够了吗？因为他不需要那么情感化交流吗，我我就是打工的吗，啊我就是打工的。这个观点还是非常棒的，嗯，对。因为微软其实已经用自己的这个过去的经历证明了这件事，我只要自己基本盘没丢，没问题对吧，下一次我还可以乘风而上，对。对，所以说现在Opni很着急啊，他要傍一个更牛逼的人就苹果，对。他必须找一个更大的入口，所以说一定是牺牲了很多条件跟苹果谈成，是嗯，对，但是苹果也不吃素的嘛，苹果肯定会把它价值榨干，然后呢甩，把它甩掉。</p>



<p>苹果，我觉得反正怎么说呢，他跟谷歌做了这么长时间的搜索引擎捆绑，其实我在上个月的时候在硅谷正好聊了一个离开了这个苹果的persona团队的一个人就软件功能做persona的，离开创业去了。然后他给我介绍了一下他，他在苹果里面呆了两年多，他第一感觉就是，他最深的印象就是苹果在苹果公司里面软件工程师地位最低的。嗯，其次是硬件工程师。设计师最牛逼啊，就是做任何设计的设计师产品经理。这个设备里面，产品就是抵战性驱动的这种文化。底战驱动的，对抵战驱动文化，我一切要以优雅好看这个体验好为主，这是他的核心。然后我所有的硬件工程师就是为了满足这个设计的。我把硬件做到极致，我的硬件才能极其牛逼。他说苹果硬件极其牛逼，苹果一般。你看微信Pro，它完全是软件拖后腿，硬件已经把软件甩了。看不见嗯，软件可能不知道怎么发挥硬件这么牛逼的能力。硬件做过头了，硬件太厉害了。结果我现在拿到了这个iPad Pro，新款一样，这个在我这旁边。嗯，超薄，很漂亮，现在大家都在研究怎么撅这个东西呢，怎么把它撅折。这个东西性能这么强，软件发挥不出来。哎，苹果是故意的，苹果故意不把Mac放上面去，就是为了让那些有钱的买MacBook的人买两台设备。所以说，他的硬件把软件甩到后面去了，苹果软件在，工程师在，软件在苹果地位里是最低的，导致苹果忽略了AI，这是基因造成的。嗯，当然，如果苹果补不上，他可能就真的得靠着OPPO AI了，他不可能靠杰米来了，因为这两个竞争嘛。但是这个，你像苹果靠了这么多年的谷歌搜索，也就这么混过来了吗，也没有说我要做一个，或者说把别人带进来，混进来混过来对对对。所以说，苹果只要你买的好，他把自己擅长的事情做好就完事了，只是我觉得，像现在Vincent Pro遇到的问题呢，就是大家已经玩了太多年了，特别闲的煤炭，玩了太多年了。</p>



<p>嗯，像iPhone，其实iPhone一里头是没有APP store的。嗯，直到iPhone应该是3G里头才开始有这个APP store，是第二个版本才开始有。iPhone 2之后才有的iPhone 3。嗯，33才有嘛。但格局就这样了，我觉得格局就是这样。对，今年6月份，今年最劲爆的发布会应该就是苹果。苹果那个发布会之后呢，智能手机上的AI怎么玩，就全全算了。你要等着指明方向了，这指明方向了。苹果还带路的，要怎么玩，那跟着Google就上了。Google永远是万年老二，哈哈哈哈哈哈。</p>



<p>行，那这个我们这一期差不多聊到这里，等着wwdc完了以后咱们俩再约起来去聊一下PK这个问题，大家很多看点看点。</p>



<p>好，那我们今天就聊到这里。好，感谢大家收听，也感谢大家去关注一下影帝购的频道。你现在频道还在做吧？我就发我的直播，我没有发那个短视频，在做在有，有关注，关注关注，可以啊。你回头你在群上发一下就好了，好好没问题。</p>



<p>那行，我们先到这里再见。我发一句像孵化机一样啊，我大概我听说过这个，我让你给我钱给我。以苹果自己的这种一流的AI，嗯。\n</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>华为大模型演示翻车现场：time.sleep(6)真的值得大惊小怪吗？老程序员深度解析代码背后的真相！睡6秒不是什么大问题，不过图像RAG，到底是个什么坑？</title>
		<link>https://lukefan.com/2024/05/17/%e5%8d%8e%e4%b8%ba%e5%a4%a7%e6%a8%a1%e5%9e%8b%e6%bc%94%e7%a4%ba%e7%bf%bb%e8%bd%a6%e7%8e%b0%e5%9c%ba%ef%bc%9atime-sleep6%e7%9c%9f%e7%9a%84%e5%80%bc%e5%be%97%e5%a4%a7%e6%83%8a%e5%b0%8f%e6%80%aa/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Fri, 17 May 2024 00:39:26 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[华为很厉害]]></category>
		<category><![CDATA[AI]]></category>
		<category><![CDATA[Bolan]]></category>
		<category><![CDATA[bug]]></category>
		<category><![CDATA[contranite]]></category>
		<category><![CDATA[DOS攻击]]></category>
		<category><![CDATA[e latch]]></category>
		<category><![CDATA[HUAWEI]]></category>
		<category><![CDATA[image list]]></category>
		<category><![CDATA[in bedding]]></category>
		<category><![CDATA[inviting]]></category>
		<category><![CDATA[LLM]]></category>
		<category><![CDATA[MindSpore]]></category>
		<category><![CDATA[MindX]]></category>
		<category><![CDATA[Python]]></category>
		<category><![CDATA[RAG]]></category>
		<category><![CDATA[Retry]]></category>
		<category><![CDATA[rpm限制]]></category>
		<category><![CDATA[sleep 6]]></category>
		<category><![CDATA[stable diffusion]]></category>
		<category><![CDATA[stream输出]]></category>
		<category><![CDATA[time.sleep]]></category>
		<category><![CDATA[YouTube]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[代码]]></category>
		<category><![CDATA[企业用户]]></category>
		<category><![CDATA[升腾大模型]]></category>
		<category><![CDATA[华为]]></category>
		<category><![CDATA[华为大模型]]></category>
		<category><![CDATA[史量化]]></category>
		<category><![CDATA[后台进程]]></category>
		<category><![CDATA[图像生成]]></category>
		<category><![CDATA[图片 RAG]]></category>
		<category><![CDATA[大模型]]></category>
		<category><![CDATA[字节跳动]]></category>
		<category><![CDATA[安卓]]></category>
		<category><![CDATA[客观中立]]></category>
		<category><![CDATA[嵌入]]></category>
		<category><![CDATA[拉玛]]></category>
		<category><![CDATA[拉玛3]]></category>
		<category><![CDATA[提示搜工程]]></category>
		<category><![CDATA[提示词]]></category>
		<category><![CDATA[政府用户]]></category>
		<category><![CDATA[昇腾]]></category>
		<category><![CDATA[欺骗]]></category>
		<category><![CDATA[流式输出]]></category>
		<category><![CDATA[游戏]]></category>
		<category><![CDATA[演示]]></category>
		<category><![CDATA[状态监控]]></category>
		<category><![CDATA[电商]]></category>
		<category><![CDATA[真相]]></category>
		<category><![CDATA[矢量空间]]></category>
		<category><![CDATA[翻车]]></category>
		<category><![CDATA[老范]]></category>
		<category><![CDATA[老范讲故事]]></category>
		<category><![CDATA[职业编程]]></category>
		<category><![CDATA[萝卜急了不稀泥]]></category>
		<category><![CDATA[解读]]></category>
		<category><![CDATA[谷歌]]></category>
		<category><![CDATA[谷歌IO]]></category>
		<category><![CDATA[豆包]]></category>
		<category><![CDATA[通义千问]]></category>
		<category><![CDATA[锁定状态]]></category>
		<category><![CDATA[零一万物]]></category>
		<category><![CDATA[骑士]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1248</guid>

					<description><![CDATA[大家好， 欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲华为大模型演示翻车现场。 近期呢，非常多的A ... <a title="华为大模型演示翻车现场：time.sleep(6)真的值得大惊小怪吗？老程序员深度解析代码背后的真相！睡6秒不是什么大问题，不过图像RAG，到底是个什么坑？" class="read-more" href="https://lukefan.com/2024/05/17/%e5%8d%8e%e4%b8%ba%e5%a4%a7%e6%a8%a1%e5%9e%8b%e6%bc%94%e7%a4%ba%e7%bf%bb%e8%bd%a6%e7%8e%b0%e5%9c%ba%ef%bc%9atime-sleep6%e7%9c%9f%e7%9a%84%e5%80%bc%e5%be%97%e5%a4%a7%e6%83%8a%e5%b0%8f%e6%80%aa/" aria-label="阅读 华为大模型演示翻车现场：time.sleep(6)真的值得大惊小怪吗？老程序员深度解析代码背后的真相！睡6秒不是什么大问题，不过图像RAG，到底是个什么坑？">阅读更多</a>]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-4-3 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="华为大模型演示翻车现场：time.sleep(6)真的值得大惊小怪吗？老程序员深度解析代码背后的真相！睡6秒不是什么大问题，不过图像RAG，到底是个什么坑？" width="900" height="675" src="https://www.youtube.com/embed/bBgj8e3XT9Q?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>大家好，</p>



<p>欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲华为大模型演示翻车现场。</p>



<p>近期呢，非常多的AI相关的项目都在进行演示和发布，特别是国内。为什么它？因为时间到了。通常每年在这个时候也会有很多发布，因为每年在这个时候会开谷歌IO，大家喜欢在谷歌IO的前后进行信息的发布啊。因为谷歌IO算是全世界程序员或者开发者的一个盛会吧。那这个前后进行信息发布的话，如果它被安卓采用了，或者再跟谷歌搭上一点关系的这种技术会有更好的发展空间。</p>



<p>那今年呢，还有另外一个事情，就是拉玛3发布。前面其实国产很多大模型都是跟拉玛2有千丝万缕的联系。其实当时就已经预言过，我说拉玛3出来看多长时间之后，国内的大模型会争先恐后的再更新换代一波。现在呢，这个时间点就到了。前面阿里的通1,000问2.5发布，这两天还有几个，一个是零一万物的啊，叫e latch大模型发布，然后字节跳动的豆包大模型前两天也发布了啊。这豆包大模型主打的一个便宜，对别人的价格都便宜非常多，因为大模型的价格一般是按TOKEN算的啊，一般一个汉字是一个TOKEN，大概四个字母，还是几个字母的英文单词，是一个TOKEN啊，它这个算法比较奇怪。</p>



<span id="more-1248"></span>



<p>华为呢，也在发布他们的升腾大模型。结果现场演示的一段视频就爆火了。现场演示什么呢？就是一个Python代码，啊而且是正在写的Python代码，他们还很神奇，直接在底下的命令行窗口里边就输入信息了，说请帮我输出一个什么什么图片，还号称是REG的一个图片生成。一开始啊，这位小哥输出的时候呢，就写错了，先写了请帮，然后啪打了一个回车。其实我们在做各种大模型实验的时候，这个事是很常见的啊，因为呢都是对话系统嘛。你一打回车，他就开始干活去了。所以呢，一开始写请帮，他打了一回车，打一回车呢，后边那个程序就开始跑了。他就打了个Ctrl-c，就是把这个程序中断掉。</p>



<p>将一般我们使用的，像Python这种解释性语言，或脚本语言的程序，都可以靠Ctrl-c把它中断下来。中断完了以后呢，大家就看到了一些信息，写的是输出到，叫做output点洁癖器，是调用的XMINDX的一个库。然后呢，大家真正关注的是，里头有一句话，叫time.sleep(6)这样的一个话在里面。</p>



<p>那么大家说说你这个到底在干啥啊？你是不是要等着6秒钟以后，再给我看图片就完事了呢？啊，因为大家也确实是呃，测试了一下视频啊，就是他正确的输入了以后，等了6秒钟，然后这个图片就生成出来了。大家就觉得你是不是在这骗傻子呢？</p>



<p>很多人在知乎啊，在很多地方就开始讨论了，说华为是不是又遥遥领先了呢？跟大家稍微解释一下这个事啊。啊，我个人是专门做职业的编程演示的，可能在国内比我更职业的人不多啊。为什么这么讲，我是原来Bolan的公司，大中华区的image list，就是每天就出去给人做演示啊，我的工作就干这事。这个事呢，我干了四年啊，大概是在全国各地演示了，应该有可能几百场啊，就各种新特性演示。</p>



<p>因为这次，其实你基本上把它认为是一种，叫做授权工程师，每一次Boland出什么新的编程特性了，然后我就出去给人演示去。所以这个事，我相对来说还是比较熟练的。那么他这一次演示呢，为什么会出这样的事情啊？我们也尝试帮他洗一洗，对吧咱们别老说老范，你是不是很讨厌华为，没有啊怎么可能呢，对吧咱们稍微讲一下，这事到底是发生了什么。</p>



<p>首先呢，我们要先想清楚他到底在掩饰什么，这个其实是比这个sleep(6)这个事更重要的。<br>要更奇葩的一个事。为什么呢？因为他演示了一个非常不常见的功能，叫做图片RA器。这个功能其实用的人不是没有，有人在用，但是呃，很少人用。</p>



<p>咱们先讲讲什么是reg啊。reg这个东西呢，叫检索辅助生成。为什么要做reg呢？因为我们知道，这个大模型经常会一本正经胡说八道。那我们怎么避免大模型一本正经的胡说八道呢？很简单，就是我们先给他准备好小抄啊，或者说准备好一堆的小纸条，说请把这些都背下来啊，请按照这个小纸条上的内容去给我回答啊，不允许自己瞎编啊。我们通常会通过这样的方式，来让大模型按照我们要求的方式去输出啊，这就是做Rag。</p>



<p>然后Rag的这个原理其实也很简单。我们先给他一大堆的这种小纸条啊，就是基础内容吧，然后呢让他去做嵌入啊，in bedding inviting的过程是什么呢？就是他把你给他的一段话啊，这段话通常还挺长，一般是可能500多字，有的有1,000多字，把这个话呢啊，变成一个数组啊，或者说变成一个矢量空间。但是呢他这个矢量空间不是二维的，不是三维的啊，而是可能 102四维，就是一个很高维度的一个矢量空间上的一个点。就是你给他一堆文字，然后这堆文字说哎，我认为这个文字在这个点上，然后再给他下一堆文字的时候，他再给他标注一个点啊，这个叫史量化。然后呢你再说我现在要问问题了，他呢把你的问题也做一次质量化啊，也在这个质量空间里头，1024维或者有的有4096维的这样的一个高维的空间里头啊，把你的问题做一个点，然后再下一步是什么呢？找到在这个更高维空间里头，离你的问题最近的5个点或者几个点，都是谁相对来说，就可以找到跟你提的问题模糊相关的内容信息。但是大家听到了我讲的这个过程没有？就是RAG整个干的活，其实基本上都是在文字基础上干的。他不是在图片基础上干的啊。所以他做图片RAG这件事，确实是比较奇葩。</p>



<p>通常我们做RAG演示都是什么呢？我们先把用户手册输进去，把各种报表把这些东西输进去，然后呢我们就问，大模型说哎，这个用户手册上说啊，这个按钮按了以后该怎么办啊，或者说这个报错了，然后出现哪个哪个报错码了，该怎么办啊？然后他先到这个史兰库里去搜，搜完了以后呢，找到四五条跟他相关的信息，然后呢去做一个事，叫提示搜工程。这个提示词工程一般这么写啊，说我们现在有一个问题啊，问题是这个用户提的，然后呢，我们通过RAG去找到了5条相关的答案，现在请对这5条答案进行总结输出，所有这个答案里头没有相关的内容，请不要去加编啊，我们一般会给他写一个这样的提示词，最前的是问题，后边是5条答案，下边是提示词，然后给你生成一个你想要的结果。通常还是要把这5条相关的信息，也都在后边备注下来，说你看啊啊，这个是我们当时搜到的这5个节点啊，你看看跟他是不是一致，因为他有的时候编的时候，还会总结的有问题嘛，他一般这样工作的。</p>



<p>但是图片RAG一般是怎么工作的，你们知道吗？啊他一般这样，就是说你先给他一堆图片，拿着这些图片以后啊，先要干什么叫做图片识别，我们先把图片都识别成文字，比如说这是一个男人长成什么样，然后如何如何，先识别一大堆这样东西出来，识别了以后呢，再把这个已经识别好的文字，再去做实量化，然后你说，我现在想要画一个什么样的图啊，照这个图片再去做rag生成的时候啊，也是可以做的啊，你比如说我现在，已经把一堆的这个图片放进去了啊，比如说中世纪的铠甲的，汉服的和服的啊，西装的休闲装的，我生成了一堆这玩意进去，生成完了以后呢。我现在给他一个新的人说，现在请给我把他换成一身这个什么样的衣服出来。这个其实就有点像RAG的过程啊，但是通常我们不这么干。通常干的过程呢，是直接用Ctrl night模型做端到端的处理啊。啊但是我们比如说就是做图片RAG了，那么你确实是可以这么来处理的啊。他最后能够保证什么呢？保证就是说哎，你输出里头有一部分是一致性的啊，这个人长得跟你输进来那个人还挺像的啊，中世纪铠甲跟你原来输进去的中世纪铠甲长得也挺像的，对吧这两个凑在一起还可以，这个就可以达到做图像rag的目的啊。但是呢呃，这种用途其实并不是那么常见了，可能用的更多的还是啊，直接在stable diffusion里面去呃做contranite，做一个换装，做这块的会做的稍微多一点点。现在他这个演示呢，就啊相对来说比较奇怪了。为什么奇怪呢？就是他演示的，是他最后底子说了一句话，前面的部分我们没看到，因为我们只看到最后翻车这一块嘛。啊前面到底是怎么演示的，如何入库的部分，我们没看到。通常情况下，这个RAG的完整演示，是要先给人演示入库的部分，然后呢，再演示这个检索和输出的部分。最后RAG真正给人看的是什么呢？就是你的输入跟输出之间的一致性，你看没有胡说八道啊，这个确实是原来我输入的东西，直接给他做出来了呀。一般是给人看这种东西，而不是说我给你一句话，然后你就给我输出一个图片，这个呢一般是做纹身图，会给人演示这个啊，所以他这个演示相对来说比较奇怪。当然也有可能是呃，我们前面的没看到前面有输入的部分，因为演示出了一些问题，然后导致这位做演示的小朋友呢，啊比较紧张，后边应该演示的部分没有演示出来，这个可能性是存在的。但是可能性没有那么大啊。待会我们再想为什么。那么，什么情况下会出现sleep(6)呢？这个sleep(6)其实很简单，就是停6秒钟啊，就是让这个程序什么也别干，等6秒钟以后再干活。大家甭管懂不懂编程的，会不会Python的sleep(6)，这个跟大家想象的是一样的啊，就按语意意思去理解，没有任何毛病。</p>



<p>那么首先要想清楚一个问题，control c的时候，99.99999%的可能性会停在sleep(6)上。大家知道为什么吗？其实很简单啊，就是在正常程序运行的时候，每一个语句执行的速度都是很快的，你是没有办法说，我确定他停在什么地方。但是sleep(6)，你想这6秒钟，他实际上就执行了这一句话。像其他的每一句话执行，可能只是零点几毫秒，或者是有一个毫秒，我估计一毫秒都不会有，只有一句话，是做了这个6秒钟的执行啊。那你打Ctrl-c，你想它停在这个sleep(6)上的概率有多大？所以你如果里头有sleep语句，你打control c的时候，99.999%的这个概率都会停在这句上。</p>



<p>第二个呢，有很多人就在猜了，说你是不是啥都没干，停了6秒钟，然后直接在后台哪学，不张图就扔出来了。现在很多人在猜测这件事啊。呃，我觉得这种可能性倒没有那么大啊。这个可能性没有那么大，为什么呢？有点太忽悠人了啊。虽然人家很遥遥领先，但是你想去华为上班也没有那么容易。像我现在这样的水平，要简历到华为，华为人还不要我呢。所以呢，我们不要随便小看天下人啊。</p>



<p>正常情况下，写这个sleep(6)呢，啊是两种情况啊。第一种情况呢，就是做大模型这个输出的时候，没有做状态监控，这个事呢，是很常见的。为什么呢？就是大模型输出啊，通常情况下，他是要等一会，不是说我在这头啪一回车，那头就出来了。一般情况下，我们执行一个程序，执行一个语句的时候，他如果是很快就可以出来，我们就让他锁在那跑，就完了。啊，什么叫锁在那他跑？就是说，当他需要进行长时间等待的时候，这个计算机是锁定状态。你在这个时候再输入任何信息进去啊，再动鼠标或者再做任何点击，他是不理你的啊。但是这个呢，很危险啊，因为有的时候他就锁死在里头，就出不来了。那所以很多呢，我们会让他在后台执行，就是他是前后台进程嘛，后台进程。</p>



<p>那么后台进行的时候呢，正常是什么呢？正常我们要监控他执行的结果。后台执行了哎，执行完了，你要告诉他说哎，现在执行完了，现在请展示出来。咱们经常看大模型执行的时候，那个字是一个字一个字出来的，对吧？你问他一个什么话，嘣嘣嘣嘣嘣，一个字往下跳。这种呢，叫stream输出，或者叫流式输出。那干嘛呢？就是说我这边命令你去回答问题了，然后呢我在那等啊，你出一个字了，我就赶快把这个字拿出来，给大家展示出来。再出一个字了哎，再赶快再把这事哎提出来，再给大家展示。然后一直到出完了啊，我知道哎，这句话出完了，再去执行后面的程序。正常情况下他是这么干活的。</p>



<p>但是呢，有些人说，我为了省事啊，我就不费这劲了，我也不监控你的结果了。我认为你大概6秒钟能跑完，我先背着他跑，然后另外一头呢，我等6秒钟啊，等完6秒钟以后直接去取结果，大概率不会出问题啊。有人这么干啊，不是说没有，特别是一些叫萝卜急了不稀泥的这种程序啊，就是我很着急写一个，我就不用写那么细致了。因为你要知道，从这个监控和后台这件事来说，是挺麻烦的，不是那么容易的。你可能需要现场写个，可能十几句，至少得写个三五句吧，你才能把后台进程的状态监控起来。这是一种情况。然后另外一种情况是什么呢？就是啊，他所调用的大模型是有RPM限制的。什么叫RPM限制？就是每分钟调用多少次是有限制的啊。因为现在大家知道算力很贵，对吧？那么大模型这些厂商为了不要让大家快速的、高频的去调用自己的大模型，他们会给这些调用方设置每分钟限制的次数。因为我自己的一个程序里头，也是写了sleep play啊。我调用的是谁家的？就灵异万物他们家的大模型。我是充了200块钱在里头，他给我设的是什么呢？是一分钟十次啊。就是我每分钟最多可以钓10次。那做个sleep(6)呗。我这头钓，钓完了以后停6秒钟，然后我再钓下一次。这样就肯定不会有什么问题嘛。这个是比较常见的啊。因为这种东西，你没法去监控服务器运转状态，然后说我是不是可以掉下一次了，这个事只能是自己sleep啊。当然也有一种这个更精确的方式是什么呢？就是我先钓了，钓完了以后啊，然后我去呃等一会啊，再钓一次，然后发现错了以后呢，等再等一会再去钓对吧。他有的时候会去做我们管他叫Retry吧，也有这么干的。但是这个呢，属于是非常不友好的钓用方式啊，因为虽然最后人家可能还是啊，6秒钟替你服务了一次，但是你在不停的去刷他的服务器啊，这类似于一种低DOS攻击，所以这种方式不是那么友好。所以这种sleep(6)也是很常见的啊。我们现场到底看到了什么？这是一个前端演示的程序员啊，大家一定要注意，他并没有给大家去做这种完整的客户端演示，而是告诉大家说哎，我怎么通过简单的编程，就可以看到一个什么样的效果。而这位朋友写的呢，也不是很熟练至少像我们以前出去给人演示，你各种演示的demo还要练几次，然后各种容易出的错误，你可能平时练习的时候都出过。各种预案：</p>



<p>我们会留的比较足，所以不会现场出这样的问题。这是第一个。</p>



<p>第二个呢，就是他这种代码正常应该是现场写的。就是他不可能说哎，我这个代码是已经写好了，然后呢我给大家看一下。这个绝不是这样啊，因为如果是工程里边，这个代码就写成这样的话，华为早就挂菜了啊，不可能啊。混了这么多天，被这么多人讨厌，还在这活的好好的。</p>



<p>为什么这么讲呢？time.sleep(6)这个事儿啊，其实不算过分。然后后边儿有一个叫写到output点儿洁癖记里头。大家有没有看到这一行代码？这个才是真正比较过分的。这叫什么东西？这叫呃，我们把输出文件名儿直接写死了，对吧？这个实在是很奇葩的一种玩法。</p>



<p>正常情况下，我们应该怎么办呢？应该询问用户叫什么文件名，对吧？这是第一种方式。第二种呢，我们一般会采用一个叫文件名生成的一个程序。我们会生成一个保证不重复的文件名，啊比如说我这个是用日期时间戳，再加上一个哈息数，再加上一定的啊表意的信息，然后生成一个完整的文件名啊，或者是说我再加上什么特定的路径啊，这样能够保证这个文件名随时都可以生成，而且不重名，甚至我们还会去写程序说，我保证啊，文件输出的时候，去进行文件名存在判断啊，说是不是有这个文件，如果有的话，我怎么再去换一个跟他不一样的文件名。这个是正常的工程里边的写法，而不是把这个文件名直接写死在里面。</p>



<p>所以通过这个来看呢，这个代码大概率是现场写的啊。那什么时候需要现场写代码？就是告诉大家说，这个他们叫做升腾大模型啊，因为上面有一个叫MINDX啊，有这样的一个提示出来，也是说我们在调这个库的时候啊，发生了这样的问题啊。这个MNDX呢，就是升腾大模型的意思啊，就是你吊这个东西的时候很方便。你不需要很强的工程能力。你也不需要很强的技术的门槛。你就随便就可以吊啊，随便写两句就能把它吊出来啊。他实际上在演示这种东西。</p>



<p>在这个里头，你出现各种不规范的代码，什么sleep(6)啊，什么写死了文件名儿啊，哪怕是重复了文件名儿，重名儿的，我直接把原来的覆盖掉。这个都不是什么大毛病啊。我们以前也经常这么干。</p>



<p>像我以前去做演示的时候，现场演示，虽然我那个代码都会提前练好啊，但是我一定要到现场敲。你一定不能是从一个文档里头，口碑出来，或者说你看我这有一个程序，我直接调用一下就完了啊。这个现场看的人是不买账的。</p>



<p>你万一后头藏了个几十万行代码，你说我我一调用，我一贴贴上去了，我就可以跑了，那人家说我学不会。你一定是你看啊，我就写了三句啊，5句第一句什么，第二句的什么，然后写到第五句，啪一回车，哎结果出来了。呃然后让人下边一看哇，是这样的。对一定是这么一个过程啊。</p>



<p>像我们以前经常干什么，叫什么A1 A2 A3 A4 B1 B2 B3 B4，这是干嘛呢，起这个变量名。大家知道，正常写程序，你按工程的要求来说，你是不可能这么起变量名的。你这么起变量名，这个程序大了以后，你根本没法改错误。</p>



<p>但是我们在现场演示的时候，都是这样的文件名啊。这个其实是蛮正常的，因为为什么你在现场，你再去想说，我到底按一个什么样的命名规则，去命名哪个大写，哪个小写，英文怎么拼写，然后拼对了，拼错了这个烦死了，对吧你还不如叫A1A2呢，这个多省事啊。然后最后你就直接把结果出来了啊。这个才是大家想要看到的啊。</p>



<p>所以啊，不要因为说他写了个sleep(6)，你就觉得他在骗人了。跟后边那个right，什么output点GPG那个差远了。有这两句。只能说明，我们大家现在看到的这段代码，是在现场写的，而不是按照华为标准的工程要求去写的啊。只能说明这件事，这件事情，你说就不是在骗傻子吗？大概率还真是。为什么呢？虽然我刚才解释了，这个代码并没有什么大的问题，但是大家要想清楚，他在演示什么东西。他在演示RAG图像生成啊。其实华为的用户里头，做Rag图像生成这种需求的人，应该没有几个，对吧？什么人干这事？电商的人啊，我去做换装。而且通常情况下，人家也不是做reg图像生成，人家直接是stable diffusion做换装就完了啊。没有人去做这个。甚至还有一些人是干嘛呢？是去做这个游戏对吧。比如说我现在要去啊，做一个游戏工作室，然后我要保证说我输出的所有的骑士，所有的什么东西啊，这些要有一定的一致性。反正就是这个类目是存在的啊，但是真正实际用起来的人，本身是非常少的。而且你想，他最后写了这么一句话，写完了以后，那头就直接给你画出来了啊。我的感觉是什么呢？就是他喊了RAG的名字，因为现在特别是对于华为的用户，他的用户一般是企业用户，或者是政府用户，他们不可能去做电商，也不可能去做游戏啊。对于他们来说呢，你不给他讲RAG，不给他讲知识库呢，他们就不买单。所以，一定要把这个高大上的词给你讲上。然后呢，我如果直接给你看一下，我检索了啊，谁谁谁的讲话，谁谁谁的路线指导思想这个事呢，这又容易翻车。那怎么办呢？咱就现场给你画个画啊。这个画呢，还比较震撼，让你觉得啊，这个事情很有趣对吧。所以呢，你看哎，我也RAG了，最后我还画出一幅画来。所以这个演示的过程啊，可能有一定的欺骗性吧。我们觉得讲成这样，算是比较呃客观中立的一个讲法啊。这个呢，就是这一次华为升腾大模型展示。里边出现的bug啊，我们进行的一个解读啊，希望你甭管懂不懂编程啊，懂不懂这个RAG到底是干什么，懂不懂这个大模型怎么回事。啊，通过我的讲解呢，啊你能够对这个事情，有一个更深刻的理解。</p>



<p>好啊，这一期就讲到这里，感谢大家收听。请帮忙点赞点小铃铛，参加disco讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
