<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Ollama &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/ollama/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Fri, 08 Aug 2025 01:02:16 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=7.0</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>Ollama &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>OpenAI 突然开源！GPT-OSS 深度评测，中美 AI 竞争升级，谁能笑到最后？AI 界的“田忌赛马”！详解中国“全家桶”式开源，如何对决 OpenAI 的精准出牌？</title>
		<link>https://lukefan.com/2025/08/08/openai-%e7%aa%81%e7%84%b6%e5%bc%80%e6%ba%90%ef%bc%81gpt-oss-%e6%b7%b1%e5%ba%a6%e8%af%84%e6%b5%8b%ef%bc%8c%e4%b8%ad%e7%be%8e-ai-%e7%ab%9e%e4%ba%89%e5%8d%87%e7%ba%a7%ef%bc%8c%e8%b0%81%e8%83%bd%e7%ac%91/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Fri, 08 Aug 2025 01:02:14 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[OpenSource]]></category>
		<category><![CDATA[128K上下文]]></category>
		<category><![CDATA[AI伦理]]></category>
		<category><![CDATA[AI开源策略]]></category>
		<category><![CDATA[AI监管与合规]]></category>
		<category><![CDATA[COT思维链]]></category>
		<category><![CDATA[DeepSeek(深度求索)]]></category>
		<category><![CDATA[Gemma]]></category>
		<category><![CDATA[GLM]]></category>
		<category><![CDATA[GPT-OSS]]></category>
		<category><![CDATA[Grok(xAI)]]></category>
		<category><![CDATA[Kimi]]></category>
		<category><![CDATA[LLaMA]]></category>
		<category><![CDATA[MacBook]]></category>
		<category><![CDATA[Meta]]></category>
		<category><![CDATA[Minimax]]></category>
		<category><![CDATA[MOE混合专家模型]]></category>
		<category><![CDATA[MXFP4量化技术]]></category>
		<category><![CDATA[Ollama]]></category>
		<category><![CDATA[OpenAI]]></category>
		<category><![CDATA[Phi-4]]></category>
		<category><![CDATA[YouTube]]></category>
		<category><![CDATA[中美AI竞争]]></category>
		<category><![CDATA[中美科技博弈]]></category>
		<category><![CDATA[人工智能(AI)]]></category>
		<category><![CDATA[千问(Qwen)]]></category>
		<category><![CDATA[原生训练]]></category>
		<category><![CDATA[商业模式]]></category>
		<category><![CDATA[大语言模型(LLM)]]></category>
		<category><![CDATA[应开全开]]></category>
		<category><![CDATA[开小闭大]]></category>
		<category><![CDATA[开源]]></category>
		<category><![CDATA[微调(Fine-tuning)]]></category>
		<category><![CDATA[微软(Microsoft)]]></category>
		<category><![CDATA[推理模型]]></category>
		<category><![CDATA[数据安全]]></category>
		<category><![CDATA[本地部署]]></category>
		<category><![CDATA[模型性能]]></category>
		<category><![CDATA[模型评测]]></category>
		<category><![CDATA[田忌赛马]]></category>
		<category><![CDATA[科技自媒体]]></category>
		<category><![CDATA[科技评论]]></category>
		<category><![CDATA[老范讲故事]]></category>
		<category><![CDATA[谷歌(Google)]]></category>
		<category><![CDATA[马斯克]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=2447</guid>

					<description><![CDATA[家人们！OpenAI又又又搞事情了！💥
等了八百年的GPT-5没来，反手甩出个开源模型GPT-OSS！我火速在我的小破MacBook上跑了一下，OMG！速度直接起飞！🛫️ 感觉电脑被注入了灵魂！✨

但这都不是重点！重点是中美AI的“宫心计”也太好看了吧！😂

🇺🇸老美那边玩的是“开小闭大”，给你个玩具车🚗，但想开法拉利？乖乖上云端交钱！💰 让你永远在他手心里蹦跶。

🇨🇳咱们这边呢？主打一个“看热闹不嫌事大”！直接把“煤气罐”“无缝钢管”发到你手里！🧯🛠️ 鼓励全民大炼钢，主打一个“王侯将相，宁有种乎”，谁都有机会当“武林盟主”！

一边是巨头精心规划的“美丽新世界”，一边是可能诞生颠覆者的“混沌江湖”。这剧本，简直爽文照进现实！🔥

姐妹们，你们赌谁能笑到最后？快来评论区押宝！👇

#AI #OpenAI #科技改变生活 #中美博弈 #程序员的日常 #大模型 #这瓜真甜 

OpenAI 突然开源！GPT-OSS 深度评测，中美 AI 竞争升级，谁能笑到最后？AI 界的“田忌赛马”！详解中国“全家桶”式开源，如何对决 OpenAI 的精准出牌？

OpenAI 最新开源模型 GPT-OSS 震撼发布，深度评测其真实性能，并揭示中美 AI 竞争背后截然不同的开源策略：美国“开小闭大”对决中国“应开全开”，谁能笑到最后？

本期视频带你全面了解 GPT-OSS 的核心亮点：创新的 MXFP4 量化技术、20B 与 120B 两种参数版本的性能差异，以及强大的工具调用能力。我们将分享在 MacBook Pro 上实测 20B 模型的惊人速度与内容质量，告诉你它是否是目前最好用的本地大模型，并分析 120B 模型的目标用户与部署条件。

不止是技术发布，GPT-OSS 的开源更是一场战略博弈。我们将深入剖析以 OpenAI、谷歌为代表的美国“开小闭大”模式，与以 DeepSeek、千问为首的中国“应开全开”模式。这两种 AI 开源策略如同“田忌赛马”，分别瞄准了不同的市场和用户。究竟哪种模式更能塑造 AI 的未来？是巨头牢牢掌控生态，还是开源力量赋能颠覆者？

如果喜欢这期内容，欢迎点赞、订阅、开启小铃铛，加入我们一同讨论 AI 的未来格局！

#OpenAI #GPTOSS #AI竞争 #开源模型 #人工智能]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="OpenAI 突然开源！GPT-OSS 深度评测，中美 AI 竞争升级，谁能笑到最后？AI 界的“田忌赛马”！详解中国“全家桶”式开源，如何对决 OpenAI 的精准出牌？" width="900" height="506" src="https://www.youtube.com/embed/_h7zbvHCLmo?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p class="wp-block-paragraph">OpenAI再次开源，中美AI竞争加剧，这一次体现在了不同的开源策略上。</p>



<p class="wp-block-paragraph">大家好，欢迎收听<a href="https://youtube.com/@StoryTellerFan" target="_blank" rel="noopener">老范讲故事的YouTube频道</a>。</p>



<p class="wp-block-paragraph">OpenAI再次开源，这一次发布的版本叫GPT-OSS (Open Source System)，8月5号突然上线了。这一次又不是GPT-5，我们从7月份就开始等GPT-5，现在已经等得大家开始胡思乱想了。很多人猜，说为什么出不来。现在最新的说法是48小时之内出来，等等看吧。</p>



<p class="wp-block-paragraph">这一次呢，开出来的是GPT-OSS，是一个开源模型，20B和120B两种参数。它呢，是一个MOE模型，就是混合专家模型。其实在GPT-4的时候呢，大家就已经猜测它开始使用混合专家模型了，只是呢它不开源，大家只能猜。现在开出来了MOE推理模型，是有COT的思维链，是直接给大家展示出来的。而且呢，是一个文本模型，没有多模态的东西。上下文比较长，128K的上下文，要比国内的一些开源模型还要再长一些。因为现在没办法，你要使用工具、使用MCP，没有足够长的上下文，你是跑不起来的。所以呢，这一次的GPT-OSS说，我们很擅长使用工具，有的时候有点太擅长了。因为我测试的时候，有的时候工具调用次数非常多，直接就把自己的上下文填满了，这种情况也是不少的。</p>



<span id="more-2447"></span>



<p class="wp-block-paragraph">这一次呢，创新性地使用了MXFP4的一个量化，这是它最新的一个技术。首先要讲一下MXFP4的这个训练。我们以前使用的模型，千问、DeepSeek这些模型呢，我们都是使用的FP16去进行训练的，有的甚至是FP32去进行训练。就是我们把每一个数码位上的指针都做得​​很长，非常非常精确。这个好处是什么呢？就是你训练的时候，可以很精确地去进行训练。你再去推理的时候呢，我们再想办法把它这些数据呢，做成FP8，就是做成8位的一个短指针，速度就会快很多，而且呢，在这个缩短的过程中呢，精度损失的也不是很大。原来我们都是这么来干的。但是呢，这一次的GPT-OSS呢，他们使用了一种4位的指针，更短小一些。而且呢，它跟以前不一样，原来都是用比较长的数码位去进行训练，训练以后再去进行缩短。这一次直接训练的时候，就是4位的，出来就当4位的使，他是这样来去工作的。这个好处是什么呢？就是特别地节省空间，它的速度很快，我在本地测试的时候已经感受到了。</p>



<p class="wp-block-paragraph">它呢，没有做蒸馏。原来大家都在想，GPT-OSS是不是直接拿GPT-4o，或者拿什么样的这个数据去蒸馏一下就可以了？因为OpenAI手里有很多这些大模型嘛。它并没有去做蒸馏，是从头开始原生训练的一个大模型。用了数万亿TOKEN的纯文本，重点覆盖STEAM、代码和通识知识。主要是拿这些东西训练。它呢，使用了GPT-4o的CBRN过滤器来清洗有害内容。在这里要专门讲一下，GPT-OSS的道德感还是很高的哈，所以呢，不要想着它到本地了，我们就可以拿它随便做一些什么样的事情，它会拒绝大量的指令的。它的知识呢，是截止到2024年6月，再往后的知识是没有的。你说我想处理一些新的知识怎么办？没有问题，因为它调用搜索、它调用工具的能力很强，所以你可以先命令它搜索，然后再去总结。</p>



<p class="wp-block-paragraph">在进行了预训练之后呢，使用了与GPT-3相同的COT强化学习的数据进行训练，它就可以进行COT的输出。所以这是一个推理模型。两个版本的模型，一个20B，一个120B。20B呢，它的效能相当于GPT-3 mini，其实对于很多的本地工作来说，已经够使了，效果我刚才试了还是相当不错的。120B呢，相当于GPT-4 mini的水平，<a rel="noreferrer noopener" href="https://xn--plusgpt-ug4k62b4by34f5mjg30bmpam50c42aj54p3dfju4lkcb.com/" target="_blank">这也是我们普通的plus用户可以在GPT.com</a>的这个网站上使用的最高版本的推理模型。实际上它那个上面最强的模型，我们能用的应该是GPT-4o全量模型。</p>



<p class="wp-block-paragraph">20B呢，我装了，效果不错，速度飞起。比我本机跑的各种的30B模型、32B的模型要快非常多，甚至比一些十几B的模型速度还要快。产出的内容的质量，要比那些三十几B的，像千问模型要好很大一些。这个是我的一个主观的感受吧。我呢，是用Ollama直接在我的MacBook Pro 32G内存的笔记本上跑起来的。据说呢，这个东西是可以在16G内存的笔记本上跑，但是我没有测试，因为我们家没有这么低内存的电脑。</p>



<p class="wp-block-paragraph">至于120B的话，这就不是我应该用的东西。为啥呢？它需要80G的显存，咱们没有这东西，是小团队在服务器上用的东西，这个不是给普通人在电脑上用的。你说我一定要去买一个Mac studio，或者我在本机去装4090装好几块，这个东西也是可以跑，但是真的没有什么必要。</p>



<p class="wp-block-paragraph">那你说云端有没有？云端你现在上OpenRouter等等这些网站呢，是提供120B的模型的。但是我都上了云端了，谁用这玩意儿？我直接用GPT的大模型不就完了吗？所以呢，120B的模型对于我们这种个人玩家来说，稍显尴尬。但是你说我是一个小团队，我有一些信息不可以出办公室，你可以专门搭一台服务器来跑120B的模型。</p>



<p class="wp-block-paragraph">中国的云端大模型托管服务上呢，目前都没上。这个它虽然是使用Apache 2.0协议，国内的这些像阿里云、硅基流动或者像火山云，你都可以去用，这个事他是不管的，至少这个协议是允许我们去用的。而且呢，这个Apache 2.0，我们不但可以用这个模型，还可以商用，还可以去修改这个模型，都不需要他的同意。但是呢，在中国有另外一个比较麻烦的是什么呢？就是谁把这个大模型包装出来给公众去使用了，谁需要去申请牌照，是需要申请合规的。上一个新的模型测试、申请合规的过程的话，还是有一些成本，所以现在大家还没有上。其实像Llama系列的模型，国内的这些云服务商上基本上都还是有的，也可以用。但是呢，每次上一个新的，这块我们没有那么快。国外的像Open Router什么的就已经上来了，第一天出来，第二天就直接可以上来使。中国的要求呢，不是说谁出大模型谁要去申请牌照，而是谁拿着这大模型出去给人服务，谁需要去申请牌照。你比如说，DeepSeek说我今天开源模型了，你不需要申请牌照；但是你说DeepSeek提供了API、提供了聊天窗口，要跟人服务了，这个你需要申请牌照。它是这样的一个工作逻辑。</p>



<p class="wp-block-paragraph">那OpenAI为什么时隔这么多年又去开源了呢？原因也很简单。总有一些机构呢，不希望自己的数据离开可控的网络，不希望说这个数据跑到外网上被OpenAI学习了。最近OpenAI好像还有一个聊天提示词泄露的事情，这个事情是大家不希望的。前面包括三星还有很多的海外公司，使用OpenAI的时候都发生过泄漏情况。但是这种泄漏呢，其实很多是他们的防火墙爆出来的：“我发现你把一些公司敏感信息发到外网去了”，这个时候防火墙就会报警。但是你说我发到OpenAI以后，OpenAI是不是再去用这个数据，或者是不是拿这个数据再去训练模型了，或者再去传播了？这个事呢，反正OpenAI对外的承诺是它不做这个事，但是这个不好说嘛，有些人我们未必信得过他。所以有一些机构说，我一定要本地模型。原来这个生意OpenAI是不做的，现在呢，说我们这块也得做着，我们也要抢这个生意。20B呢，本机运行；120B呢，内部服务器运行，可以很好地解决这些敏感单位的需求。</p>



<p class="wp-block-paragraph">而且呢，20B也好，120B的模型呢，还可以进行微调。微调了以后，你可以拿它去进行法务、医疗等等这种特殊需求的应用。而这儿呢，要稍微提醒大家一句，前头我们讲，GPT-OSS是有非常高的道德水平的。你一旦微调了以后，这个道德水平就不好说了，有可能GPT-OSS震碎三观，从此堕入黑暗的可能性是存在的。但是呢，那个就是你们各自自己负责任了，跟OpenAI就没什么关系了。</p>



<p class="wp-block-paragraph">咱们呢，讲到这再讲一讲，中美之间到底是怎么去进行竞争的呢？美国人出了这个东西，不是美国人赢了吗？不是这样的。中美之间呢，有四种不同的开源策略。</p>



<p class="wp-block-paragraph">第一种呢，是混沌模式。甭管什么样的东西，我先开了再说，开完了以后，你们爱怎么用怎么用。这个是谁呢？Llama就这么干的。Llama 1、Llama 2、Llama 3、Llama 4，都是上来我就开了，开完了以后你们拿去用吧，我就不管了。但是到目前为止呢，发现这条路可能走不太通。扎克伯格捞了一大堆的人以后，说我们是不是不开源了，重新思考一下未来该怎么走的问题，稍显可惜。</p>



<p class="wp-block-paragraph">第二种模式呢，叫做“开旧闭新”模式。就是呢，我把这个新模型闭源了，我把老模型把它开源出来。谁干这活呢？就是马斯克，xAI就干这个活。他现在呢，是Grok-1开源的，2、3、4都是闭源的。但是马斯克呢，应该是昨天讲的吧，说我们近期准备把Grok-2也开源出来，那就3和4是闭源的。对于他来说呢，他的这个策略很简单，就是开源这一扇大旗我还是要扛着的，但是呢，如果你们想要用最新的模型，你就老老实实上我这来交钱，来把数据交到xAI的服务器上去进行运算。所以马斯克这个xAI呢，我一直评论它是一个假开源，他并不希望别人真的拿这个东西去做点什么事儿，只是说“我还开着呢”。</p>



<p class="wp-block-paragraph">第三种模式呢，就是OpenAI现在做这个事儿，叫“开小闭大”。它的GPT-3、GPT-4这些东西呢，是闭源模型，GPT-4o也是闭源模型。同时呢，它开了一个小模型叫GPT-OSS。你如果本地需要一些敏感数据处理，你就用开源模型；如果是一个很复杂的处理，你就老老实实地到网上来使用我的这些闭源模型就完了。谷歌也是这么干的，谷歌的闭源模型呢叫Gemini，现在Gemini 2.5 Pro是我目前用到的算是最好用的模型之一吧。他还开源了一个叫Gemma的模型，Gemma现在最新的应该是Gemma 3。你们如果有一些需要单独处理的数据、需要敏感处理的数据，你就把这个Gemma当（download）回去在本机使用。还有呢，微软，微软的小模型开源出来，这个模型叫Phi-4现在最新的版本。他们家自己不做大模型，用OpenAI的大模型就完事了。现在Mistral也是走着这条路，就是法国这公司，他们呢，现在有一些小一点的模型开源出来给大家用，但是大一些的、复杂一些的这个操作，你就老老实实地上云端，调他们家的服务器就完事了。</p>



<p class="wp-block-paragraph">这个混沌模式和这个开旧闭新模式呢，咱不讨论，没有什么明确的商业诉求在后头。“开小闭大”模式，就是美国人现在使用的开源模式。那你说中国人使用的开源模式是什么样呢？跟他到底有什么不一样的呢？而中国人是直接把最新的、最大的全开出来。千问三就直接把200多B的模型开出来，DeepSeek直接把671B的模型开出来。而且只要我发布了最新的模型，我就把最新的模型直接开出来。这个是咱们的玩法。现在中国跑得比较靠前的开源模型：DeepSeek、千问、Minimax、Kimi和GLM。</p>



<p class="wp-block-paragraph">所以这是两个完全不同的开源策略。那么中美博弈在什么地方？这两个策略，一个是“开小闭大”，一个是“应开全开”，那到底是怎么博弈的？中国人玩的，其实是“田忌赛马”的故事。就是你那最好的马呢，我跑不过；但是呢，我用我最好的马去给你一个中马跑，我用我的中马呢，给你的次马跑，反而我那个次马呢，上来我就给你最好的马跑，一次就完事了。这样三局两胜，我还是胜了两局的。</p>



<p class="wp-block-paragraph">那你说大模型开源，这到底怎么去“田忌赛马”的呢？中国目前开源大模型呢，跟美国顶尖的闭源大模型比，它是比不过的。你比如说千问三的230几B的这些模型，DeepSeek 671B的模型，你去跟GPT-3、GPT-4这些模型比，你比不过他；你跟Claude、Code 4这些模型比，你也比不过；跟Gemini你也比不过。那怎么办呢？我们去跟你的开源模型比，去跟这些120B或者是这种三十几B的这些开源模型，我比你跑得好。我这个一上来就是600多B，效果一定是比你那个三十几B的效果要好非常非常多的，相当于是用我的最好的马去跟你那个中等的马去跑。当用户选择本地闭源、中小模型的时候呢，中国队就会占优。但是你说我在本地、在电脑上直接需要一个小模型，目前为止我使用到的GPT-OSS 20B是最好用的。中国现在同样大小的，你比如说都是20B或者是30B的这些模型，你比不过它。但是呢，有些人说，你看我这也是一个小的单位，我这个单位里头呢，也有一些服务器，我想要用一些模型去处理一些问题的话，那你使用这些600多B的或者是200多B的模型，你去跟GPT-OSS 120B打，你是打得过的。那么在这种小团队选择开源模型的时候，中国队就占优了。它是不同的一个竞争策略。</p>



<p class="wp-block-paragraph">而且呢，当有创业公司想要去挑战大厂的时候，你比如像Perplexity说，我们想拿一些好一点的开源模型再去进行调整，我们想去跟大厂掰掰手腕的时候，中国团队会给他们提供充足的弹药。他们拿美国队，比如说Gemma、Phi或者是GPT-OSS，这些专门为PC端运行训练的这些小模型，你是没法整的。你拿这些模型再怎么微调、再怎么折腾，你没法跟那些大厂竞争。它会有这样的一个差异。但是呢，你拿中国这些模型，你再去微调一下，或者拿这个模型再去怎么折腾一下，那都是有可能能够做出一些比较强的应用出来的。</p>



<p class="wp-block-paragraph">美国人的想法呢，其实挺简单的。使用美国的开源小模型，可以解决大厂预设的一些问题。比如OpenAI，我给你预设了些这些问题，你用这小模型解决；那些问题呢，你就用大模型解决。大模型你上云端来调，小模型自己去用。但是呢，使用小模型的人，永远不可能形成对于大厂的竞争来，这就是他想干的事。而中国人的策略是什么呢？看热闹不嫌事大。有人打架了，赶快往上递什么无缝钢管，递什么煤气罐，咱们赶快去干这些事。当然这些无缝钢管，比如到了中东，他们可能就变成了煤气罐大炮了，那个我们就不管了，我们都是卖的民用设备过去的，他们拿去打仗，这事跟我们没关系。所以中国人喜欢干这样的事情。</p>



<p class="wp-block-paragraph">那谁能笑到最后呢？刚才我们讲了，中美两个策略不一样。短期内看呢，美国的策略是更精明的，他把应用分析得很清楚，谁该用什么东西，谁自己去用就完了。但是呢，中国的策略呢，也有自己的定位，短期内呢，我们也可以争夺到一部分市场，这个事本身并没有太大的问题。从长期考量来说呢，美国的策略首先要保障的是巨头永远是巨头，巨头规划未来的格局，中小企业呢，在巨头的规划内生长。有点像谷歌跟苹果似的，你说这么多做App的、做游戏的公司，谁也没有能力去撼动这些做App Store和Google Play的公司去，这个就是他们所希望去规划的事情。而中国的策略呢，就是有可能培养出一些颠覆市场的妖怪来。我们不管你这个规则是什么样的，反正我们给你这个煤气罐、给你这个无缝钢管，你拿去爱干嘛干嘛去，这是中国的策略。而且有很多的国家呢，是不甘心永远去用美国的这些闭源模型的，那么在这种时候，中国的开源模型也是他们唯一的选择。你比如说到了沙特了，到了阿联酋了，也希望有一些自己的大模型，但是你拿美国的这些模型你没法整。虽然他可以给你部署到你本地来，但是这个东西还是由美国人来管理的，哪天他给你关了，你就没法用了。你说我有一个完全我自己控制的了的这些模型，那你就老老实实地用中国的模型去训练，美国的这些开源小模型，你拿它是没有办法的。</p>



<p class="wp-block-paragraph">而且呢，在一个一半以上研发人员都是中国人的领域里头呢，中国策略可能才是未来。AI领域是一个有着深深中国民族性烙印的领域。在这个圈子里头，只要是做AI相关的公司，出来讲点什么事儿，基本上一半以上是中国人。那你说中国人的民族烙印到底是什么呢？每个中国打工人都惦记着阶级跃迁，惦记着翻身做主人。咱们讲的是说，哎，我这开了一个拉面馆，我请了几个中国师傅在我这拉面，他们就想着说：“我应该怎么把这个配方偷出来，以后我可以在旁边再开一家拉面馆，去跟原来的老板竞争。”中国人讲的叫“王侯将相，宁有种乎？”，凭什么你行我不行？咱们也可以上来试一试。所以呢，像美国人这种，就是规划好了你就拿小模型，你永远做不出大模型的，这东西拿去用去。咱们的策略就是每个人都有枪有炮，最后谁说了算不一定呢。</p>



<p class="wp-block-paragraph">日子还长，咱们往后继续看，到底哪条路可以走得通，到底哪条路可以结出丰硕的果实来。</p>



<p class="wp-block-paragraph">好，这个故事就跟大家讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加<a href="https://discord.gg/ppKsNkttTv" target="_blank" rel="noopener">Discord讨论群</a>，也欢迎有兴趣、有能力的朋友加入我们的<a href="https://www.youtube.com/channel/UCUGLhcs3-3y_yhZZsgRzrzw/join" target="_blank" rel="noopener">付费频道</a>，再见。</p>



<p class="wp-block-paragraph"></p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>阿里Qwen3重磅发布：是超越Llama 4的划时代的胜利，还是性能未达预期、被过度炒作的技术翻车现场深度剖析？</title>
		<link>https://lukefan.com/2025/05/04/%e9%98%bf%e9%87%8cqwen3%e9%87%8d%e7%a3%85%e5%8f%91%e5%b8%83%ef%bc%9a%e6%98%af%e8%b6%85%e8%b6%8allama-4%e7%9a%84%e5%88%92%e6%97%b6%e4%bb%a3%e7%9a%84%e8%83%9c%e5%88%a9%ef%bc%8c%e8%bf%98%e6%98%af/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Sun, 04 May 2025 00:47:42 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[Agent能力]]></category>
		<category><![CDATA[AI agent开发]]></category>
		<category><![CDATA[DeepSeek R1 对比]]></category>
		<category><![CDATA[Gemini 2.5 Pro 对比]]></category>
		<category><![CDATA[GitHub 开源]]></category>
		<category><![CDATA[GPT-4o 对比]]></category>
		<category><![CDATA[Grok 对比]]></category>
		<category><![CDATA[Llama 4 对比]]></category>
		<category><![CDATA[MCP协议支持]]></category>
		<category><![CDATA[MOE模型 (混合专家模型)]]></category>
		<category><![CDATA[Ollama]]></category>
		<category><![CDATA[Open Router]]></category>
		<category><![CDATA[PC端应用]]></category>
		<category><![CDATA[Qwen3]]></category>
		<category><![CDATA[XAI 对比]]></category>
		<category><![CDATA[上下文窗口 (128K/256K)]]></category>
		<category><![CDATA[专业数据]]></category>
		<category><![CDATA[云部署]]></category>
		<category><![CDATA[人工智能 (AI)]]></category>
		<category><![CDATA[代码生成]]></category>
		<category><![CDATA[优缺点]]></category>
		<category><![CDATA[全系列模型 (0.6B-235B)]]></category>
		<category><![CDATA[划时代的胜利 vs 翻车]]></category>
		<category><![CDATA[千问3]]></category>
		<category><![CDATA[原生数据]]></category>
		<category><![CDATA[参数效率]]></category>
		<category><![CDATA[合成数据]]></category>
		<category><![CDATA[后训练]]></category>
		<category><![CDATA[商业应用]]></category>
		<category><![CDATA[多场景适配]]></category>
		<category><![CDATA[多语言支持 (119种)]]></category>
		<category><![CDATA[大语言模型 (LLM)]]></category>
		<category><![CDATA[工具调用]]></category>
		<category><![CDATA[幻觉问题]]></category>
		<category><![CDATA[开源模型]]></category>
		<category><![CDATA[强化学习 (RLHF)]]></category>
		<category><![CDATA[微调 (Fine-tuning)]]></category>
		<category><![CDATA[性能分析]]></category>
		<category><![CDATA[性能评测]]></category>
		<category><![CDATA[技术创新]]></category>
		<category><![CDATA[指令遵循]]></category>
		<category><![CDATA[数学推理]]></category>
		<category><![CDATA[数据来源]]></category>
		<category><![CDATA[本地部署]]></category>
		<category><![CDATA[模型使用]]></category>
		<category><![CDATA[模型发布]]></category>
		<category><![CDATA[模型对齐]]></category>
		<category><![CDATA[混合推理架构]]></category>
		<category><![CDATA[用户体验]]></category>
		<category><![CDATA[田忌赛马策略]]></category>
		<category><![CDATA[真实感受]]></category>
		<category><![CDATA[硅基流动]]></category>
		<category><![CDATA[移动端应用]]></category>
		<category><![CDATA[稠密模型]]></category>
		<category><![CDATA[评测数据]]></category>
		<category><![CDATA[逻辑推理]]></category>
		<category><![CDATA[长思维链]]></category>
		<category><![CDATA[阿里云百炼]]></category>
		<category><![CDATA[阿里大模型]]></category>
		<category><![CDATA[预训练 (36T数据)]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=2156</guid>

					<description><![CDATA[啊啊啊啊啊啊不允许还有人不知道这个AI圈大地震！！！连夜实测Qwen3模型全家桶，这波阿里真的赢麻了！！（疯狂拍桌.gif）

🔥🔥全尺寸覆盖的AI大杀器
从0.6B到235B全系通杀！
手机跑AI不是梦！！！
（掏出手机狂戳.jpg）
0.6B模型在iPhone15上丝滑运行
写文案/改代码/做翻译三秒出结果
学生党上课摸鱼神器实锤了！！

💥推理黑科技原地封神
发现惊天隐藏开关！！
长按对话框输入「/推理模式on」
瞬间开启学霸解题模式
（数学题解题过程疯狂滚屏.gif）
考研党/码农/科研狗集体起立鼓掌！！！

🌍119语种支持实测
（掏出祖传方言测试）
东北话十级选手狂喜！！
「整两斤猪肉炖粉条子」
秒出菜谱+热量计算+采购清单
（但斯瓦西里语有待调教）

🚀Agent模式原地起飞
接入高德API实测：
「从三里屯到798的文艺路线」
自动规划咖啡馆+美术馆打卡点
打工人摸鱼旅行一键生成！！

（敲黑板！！重点来了）
⚠️避坑指南：
1️⃣ 8B模型跑复杂任务会卡壳
2️⃣ 小语种生成建议切中英模式
3️⃣ 伦理安全锁记得开最高档

（疯狂安利环节）
学生党闭眼冲4B版！！
打工人直接上32B云端！！
极客大佬235B本地部署走起！！
（附部署教程指路评论区）

现在立刻马上！！
去阿里云百炼薅羊毛！！！
新用户免费额度够玩三天三夜
（别等被卷王们挤爆服务器！！）

（结尾暴言）
Qwen3这波操作我直接跪了！！
AI全民化时代真的来了！！！

阿里Qwen3重磅发布：是超越Llama 4的划时代的胜利，还是性能未达预期、被过度炒作的技术翻车现场深度剖析？

阿里最新开源大模型Qwen3震撼发布，引发业界对其究竟是“划时代的胜利”还是“翻车”的热烈讨论。本文深度解析Qwen3的全配置特性，覆盖从0.6B到235B MOE多种参数量模型，支持Ollama等方式进行本地部署及云端便捷使用，具备高达128K上下文窗口和119种多语言处理能力。评测显示Qwen3性能优越，部分场景接近Gemini 2.5 Pro，在Agent能力上通过原生支持MCP协议实现突破，显著提升工具调用效率，优于DeepSeek R1。尽管在复杂推理和指令遵从上仍有提升空间，但相较于Llama 4在开放性、模型尺寸及MCP支持上的不足，Qwen3凭借其完全开源、尺寸灵活、易于微调的优势，被视为AI和LLM领域的一次重要成功，有望在Agent时代引领微调生态发展，挑战现有格局。]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="阿里Qwen3重磅发布：是超越Llama 4的划时代的胜利，还是性能未达预期、被过度炒作的技术翻车现场深度剖析？" width="900" height="506" src="https://www.youtube.com/embed/POB_gaK1Anc?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p class="wp-block-paragraph">Qwen3发布了。这到底是划时代的胜利，还是翻车了呢？</p>



<p class="wp-block-paragraph">大家好，欢迎收听老范讲故事的YouTube频道。Qwen3真的是千呼万唤始出来。前面好几周就已经不断有传言说Qwen3要发布，要多么多么强大。突然发布之后，当然也肯定是伴随着一大堆的评测数据了。官方评测数据呢，永远是我超越了谁、超越了谁。但是很多评测的人呢，觉得好像差那么一点点意思，没有达到预期。所以今天我们来讨论一下，这到底是又一次划时代的胜利，还是翻车。</p>



<p class="wp-block-paragraph">Qwen3呢是凌晨发布的，4月29日凌晨上线，在Github上全面开放。我呢已经开始用上了。使用的方法有几种：</p>



<p class="wp-block-paragraph">第一种是本地部署。我是MacBook Pro，M2 Max的芯片，32G内存。其他的不重要，你到底有多少硬盘，这个事没有那么重要。本地使用OlAmA部署，我使用了8B、32B和30B-A3B。最后这个是什么意思？最后是一个MOE的模型，它是30B-A3B，就是说它每一次干活的时候激活3B，也就是30亿参数。它是这样的一个标注。就这三个版本的模型，在我本机都可以跑，速度呢都是还可以接受。</p>



<span id="more-2156"></span>



<p class="wp-block-paragraph">云端，第一个你肯定上阿里他们自己家玩去。阿里云百炼平台，使用支付宝或者淘宝账号刷一下，就可以进去使用了。价格还是很便宜的，特别是一些很大的模型，还是要在这个上面才能去跑起来。然后open Router永远是最快的。4月29号凌晨发布的，4月29号白天就可以在这个平台上用上了。硅基流动稍微晚一点，大概到5月1号可以去使用了。</p>



<p class="wp-block-paragraph">那么Qwen3有什么样的特性呢？第一个是全配置，这个非常非常重要。什么叫全配置？就是它从很小的模型到很大的模型，所有的配置都是完整的。首先它提供了稠密模型，不是MOE，就是单个的这种稠密模型，从0.6B、1.7B、4B、8B、14B、32B，这些都提供了。MOE模型提供了30B-A3B和235B-A22B。235B-A22B这种模型什么意思？就是说一共是2,350亿参数，每一次激活220亿个参数。它是这样的两个MOE模型。</p>



<p class="wp-block-paragraph">全场景。你在移动端0.6B到4B这样的模型，在移动端没有任何问题都可以跑。说我在终端推理，或者是在PC端跑一跑，做一些商业应用，8B、14B、32B都是可以跑的。你说我有一些复杂任务，或者做一些AI agent开发，30B或者是235B的两个MOE模型非常好用。而且呢是全语种，它支持119种语言。不过这块有人在吐槽。</p>



<p class="wp-block-paragraph">这119种语言，好像除了中文、英文和常见的几种语言之外，其他什么斯瓦西里语这种奇奇怪怪的语言，支持的并没有那么好。</p>



<p class="wp-block-paragraph">训练的过程呢，稍微的跟大家展开讲一讲。预训练用了36T的数据。LLAMA4的预训练数据的话是30T，Qwen3的话，比LLAMA4的训练数据集还要再大一些。</p>



<p class="wp-block-paragraph">它的第一阶段呢，是使用了30T的数据，训练了一个基础语言模型出来。第二阶段用5T的数据呢，去强化STEM，也就是这种科学相关的能力，以及编程相关的能力。到第三阶段呢，就是扩大上下文。一开始这个上下文是比较小的，经过第三阶段的扩大以后：</p>



<p class="wp-block-paragraph">&#8211; 4B以下的模型，也就是刚才我们说的0.6B、1.7B、4B这三个模型，它们的上下文呢达到了32K。<br>&#8211; 大于4B的模型，也就是8B、14B、32B，以及MOE的两个模型30B和235B这几个模型，他们的上下文呢都已经达到了128K。<br>&#8211; 在一些特殊情况下，可以达到256K的上下文。</p>



<p class="wp-block-paragraph">这块呢，有待继续提升吧，因为LLAMA4的上下文是10兆，要比它大很多。</p>



<p class="wp-block-paragraph">数据来源，就是拿什么数据来训练的这个东西：<br>&#8211; 60%的数据呢，是互联网原生数据。<br>&#8211; 25%呢，是专业领域的数据，包括GitHub上面的代码、数学公式、科学数据。<br>&#8211; 还有15%呢，是合成增强数据，就是拿其他的大模型去生成的一些数据，用的是Qwen2.5的一些模型生成了一些数据。这块呢，主要是做一些推理链的训练，而且也可以做多语言的对齐。</p>



<p class="wp-block-paragraph">这就是它的数据来源。这块呢，跟LLAMA4就有很大的区别。LLAMA4大量的使用的都是合成数据，而这个Qwen3的话，使用的大量是原生数据。</p>



<p class="wp-block-paragraph">在预训练之后，还会进行后训练。后训练的话，实际上是对模型做微调了。他呢，在分四步对Qwen3进行微调：<br>1. 第一步是长思维链冷启动的训练，注入数学、代码等领域的常推理数据。<br>2. 第二步呢，是强化学习探索强化学习，就是你给我生成结果，我们来打分，然后你根据我的打分来决定说这个结果对不对。它是基于规则奖励，提升复杂推理能力的一个训练。<br>3. 第三步呢，是模式融合。这个东西特别好玩，它是一个融合模式的推理模型。什么意思呢？因为我们使用推理模型的时候，有一个特别讨厌的东西，就是有些特别简单的东西呢，给你推理半天，甚至推理的TOKEN还消耗了很多。对于Qwen3来说呢，它里头有一个参数，就是你是不是要打开推理。同一个模型呢，你可以在这设说你不要打开推理，他就快速的给你出一结果。你说你给我做推理。</p>



<p class="wp-block-paragraph">就给你啰里八嗦的去想去了，这个也算是个创新吧。原来都是推理模型，就是必须要推理。他是做了这样的一个训练，然后第四步呢是进行通用校准，特别是覆盖20多个领域的强化学习，修正一些不良行为。他等于做了预训练之后，还做了大量的微调后训练。</p>



<p class="wp-block-paragraph">那么，Qwen3的技术创新到底有哪些呢？</p>



<p class="wp-block-paragraph">第一个就是它这个混合推理架构。就是你到底想不想让它推理，你告诉他就完了。他给你去推去，或者是直接给你一个答案。</p>



<p class="wp-block-paragraph">第二个技术创新呢，就是它的MOE的参数效率极大提升了。它的235B的模型里头，每一次激活只激活22B的参数。它要比DeepSeek R1激活的参数要少很多，只有DeepSeek R1 1/3的参数。它整个的模型尺寸也只有DeepSeek R1的1/3。所以呢它的部署成本要比DPC卡R1要低很多，推理的效率也要高非常多。</p>



<p class="wp-block-paragraph">第三个呢就是多语言和多模态的支持。第一次支持了119种语言，2025年内将推出Qwen3-Vl多模态版本。现在的Qwen3还不支持多模态，你给他张图片他还是认不出来的。这块还是比LLAMA4要差一点。LLAMA4是你给他个视频，他都可以给你进行推理。</p>



<p class="wp-block-paragraph">最后，Agent能力增强。它呢是直接支持MCP，原生支持MCP协议，工具调用准确率提升40%，API代码量减少70%。这个是Qwen3在这一个时代里头，必须要去实现的功能。这也是它比LLAMA4强的地方。</p>



<p class="wp-block-paragraph">对Qwen3的期待、评分以及使用感受方面，还是有一些落差的。各项评分一定是高的吓人。因为你现在说，我今天推出一个新模型出来，你一定会自己做一大堆评测，然后跟模型一起推出。如果你说我自己做的评测就比谁都差，那这事你还推它干嘛？一定是说我现在评测了，比大家都强了，我才可以推出来。所以评分一定都比大家强。这块呢，就不跟大家详细去列举说那个评分是多少了，没有什么意义。</p>



<p class="wp-block-paragraph">但是呢，这个里头比较好玩的是什么？就是它是一个田忌赛马的故事。大家知道什么叫田忌赛马吗？用我们的比较差的马，跟人家那个最好的马比，我输掉了。然后呢我用我的最好的马去跟人家的中马比，我赢了。用我的中马去跟他的最差的马去比，我又赢了。等于三局两胜，我赢两盘。他是很多做这样的这种比较。</p>



<p class="wp-block-paragraph">为什么Qwen3有田忌赛马的这个能力呢？你比如说，8B的模型可以达到人家的32B的效果。我现在是32B的模型，我可以达到原来72B的效果。他等于做了很多这种错位的比较，我用更小的模型。</p>



<p class="wp-block-paragraph">达到了以前必须用更大规模模型才可以达到的效果。当然，田忌赛马呢，也未必都是好事。为什么？因为很多人会对这种小参数模型抱有不切实际的期望。一堆人拿来说：“我拿这个8B的模型跑一跑试试，看看我去做一些很复杂的任务，到底效果怎么样？”肯定效果不好。千万不要认为你用8B的模型就可以跑出非常非常好的效果来，这个肯定还是有一些差距的。它可能会在某些特定的领域，或者经过一些微调和训练之后，可以达到32B的效果。</p>



<p class="wp-block-paragraph">绝大部分人对大模型的认知都是停留在什么GPT-4O这个水平的。你要想拿8B的模型去跟这样的模型去比的话，没有任何可比性。那你说我使用这些32B的模型呢？就属于在大部分情况下可以接近GPT-4O这样的一个水平。咱不研究多模态那些东西，就是正常的内容生成，算是接近。至于说它的235B呢，现在距离Gemini 2.5 Pro还是有一些差距的。但是呢，相对于其他的模型来说，基本上算是跑在同一个基准线上了，不比别人差了。</p>



<p class="wp-block-paragraph">Qwen3 235B-A22B的这个最大模型在数学、代码、Agent等方面都是全面超越了DeepSeek R1。部分场景呢，接近Gemini 2.5 Pro。这什么意思？就是全部的场景肯定离Gemini 2.5 Pro还是有一定的差距的，但是有一部分场景接近了。但在复杂语义理解，就特别复杂的情况下，还是有一些差距的。特别是一些复杂的逻辑分析，它是有问题的。真实使用的感受呢，算是能用。比起DeepSeek R1强吗？其实感觉不太出来，基本上可以达到DeepSeek R1的水平。</p>



<p class="wp-block-paragraph">指令依存方面呢，肯定还有一点点欠缺。让他做一个很复杂的动作，他有的时候还是会丢三落四一些。这块我自己试过的，网上也有很多吐槽的人。第一个，复杂推理中的逻辑断层和幻觉生成的问题。所有推理模型身上都有这样的问题，Qwen3即使是最大的模型235B，在这块呢，也不比别人好多少。第二个呢，就是过度思考跟效率问题。有些人发现说：“我给他一个很复杂的问题，他自己开始进行推理了，推理来推理去，直接死在里头了，彻底推不出来了。”这种情况现在也还是存在的。</p>



<p class="wp-block-paragraph">但是呢，也不用太着急。他既然可以进行后训练，可以进行微调，那我相信大家有各种问题去提就完了。Qwen应该会快速的微调出不同的版本出来的。多语言支持的不均衡，你说119种语言，那些小语种支持的肯定没有那么好，因为语料也没那么多嘛。但这一块你想让它提高支持的话。</p>



<p class="wp-block-paragraph">也很简单，拿足够多的语料去微调就完了。他也是可以去支持的。然后还有一些伦理跟隐私方面的风险，因为它可以有非常非常小的模型。所以你可以把这种模型，比如部署在你们家洗衣机里，或者部署到一些很奇奇怪怪的这种角落里面。他的能力还很强。而且这种全开源的模型，还有一些人微调了以后，是可以把他的一些安全限制去掉的。这个就会比较吓人，所以大家对这块呢也有一些担心。</p>



<p class="wp-block-paragraph">还有呢，就是模型对齐和偏好上面的一些问题。比如说吧，生成内容有时候会偏离用户的意图。它对一些指令的依从，还是会稍微差一些的。那么给出一个简单的结论吧，这到底是一次划时代的成功呢，还是翻车呢？我个人的感受呢，这又是一次划时代的胜利。</p>



<p class="wp-block-paragraph">Qwen3真正在跟谁竞争？大家要想清楚：LLAMA 4、DeepSeek R1、Claude 3.7、Gemini 2.5、GROK3、GPT O3 O4这样的模型，到底在跟谁竞争？实际上真正去跟Qwen3竞争的只有一个，就是LLAMA4。其他的都不在同一个起跑线上。</p>



<p class="wp-block-paragraph">LLAMA4呢，是翻车了。它怎么翻车的？第一个是数据造假，或者叫过拟合。拿直接去跑分的题目进行训练，这样跑分效果特别好，但是实际使用的效果差异巨大。这是LLAMA4翻车的一个最根源的原因。</p>



<p class="wp-block-paragraph">咱们从另外一个角度上来讲，LLAMA4自己其实是有一些问题的。第一个是什么？就是它公开的模型太大，占资源很多，放弃了绝大多数的场景。他就开源了一个104B，一个400B的模型。普通人你拿他没办法，像我的电脑根本跑不起来。你就算部署到云端的话，它占资源也是占的非常多的。就对于这个经济性来说，一点优化都没做。你说我想在手机上跑，想在嵌入式设备上跑，没做这个准备，他就不惦记。甚至还有一个两T的模型，压根都没有发布出来。他就发布了一个109B，一个400B，其他都没有了。</p>



<p class="wp-block-paragraph">而且这么大的模型，你想去微调那太痛苦了。就是你想微调一个模型，模型越小越好调。你模型越大的话，你调起来甭管是你的数据还是算力，都是非常巨大的成本。现在看的LLAMA，应该是准备走XAI这条路。</p>



<p class="wp-block-paragraph">XAI是什么路？假开源。为什么马斯克的XAI叫假开源呢？就是我确实把东西开出来了。他承诺的是什么呢？就是我发布新版本，我就把旧版本开源。而且呢，开出来的东西，你要想调用的话，你也调不了。为什么？我只把那最大的模型出来，哐昌往那一扔就完了。各种的文档，各种东西都很少，你部署上去也不划算。</p>



<p class="wp-block-paragraph">所以呢，我开源了吗？开了，东西也放这了。能用吗？没法使。你提任何问题、提任何要求，说哪给我改一东西，也没人理你。这就是XAi的玩法。</p>



<p class="wp-block-paragraph">你要想调用这些东西怎么办？到我服务器上来调用XAI的API，这个是没问题的。我现在也在Grok的服务器上去调用它的API，效果也还可以。但是你说有没有第三方去部署Grok模型，然后让大家去调用呢？没有。因为你现在开源出来的版本低，它的效果没有那么好。你要想使用最新的，你只能在他的服务器上使。以后呢，Meta估计也要走这条路。</p>



<p class="wp-block-paragraph">那你说为什么没有人骂XAi呢？原因很简单，因为XAi一直就这样。从x开放出来的这个推荐算法，开放出来以后，就再也没有更新过任何代码。你提的所有问题，连回复都没有人回复。XAi更新出来的Grok开源模型也是如此，开源出来啪往那一扔，彻底没人理你了。所以它一直这样。</p>



<p class="wp-block-paragraph">而LLAMA呢，原来是比较开放的。现在大量的模型都是在LLAMA基础上做出来的，包括Qwen早期的模型，都是在LLAMA基础上做出来的。那现在呢，有点越来越回去了，所以有点怒其不争。大家要骂一骂他，看看能不能把他骂回来。</p>



<p class="wp-block-paragraph">然后另外一个，LLAMA4被人骂的原因是什么？他不支持MCP。现在是一个做Agent的时代，你不支持MCP，你模型能力再强，你也搞不定各种场景。现在即使是你使用GBT 4O或者GBTO 3这样的模型，你没有一些外接的组件，你根本就跑不出结果来。所以你不支持MCP，这事肯定不行。</p>



<p class="wp-block-paragraph">还有呢，就是LLAMA对用户是有限制的。LLAMA虽然是开源模型，但是呢，不能进行商业使用。你只能拿去做研究。你说我拿这东西做商业使用了，对不起，你会收到律师函的。而且如果你是一个大公司，月活用户数超过7亿的公司，你如果想使用LLAMA4或者LLAMA早期版本，你需要向Meta做单独的申请。申请通过了以后你才可以去使用，否则不让用，就做了很多限制。</p>



<p class="wp-block-paragraph">这个反面典型讲完了，咱们讲一讲Qwen3跟LLAMA4比较起来是怎么样的。Qwen3完全开源，你爱干嘛干嘛去，想怎么调怎么调。第二个，体积小，参数少，规格全，性能高。从0.6B就开始，所有的都给你发一遍，爱用哪个版本用哪个版本。这些小体积的模型，经过微调之后应该会一统江湖。</p>



<p class="wp-block-paragraph">什么意思？就是现在在hugging face上，绝大部分的模型都是拿Qwen2.5、Qwen2这些各个尺寸的模型调出来的。</p>



<p class="wp-block-paragraph">早期的LLAMA还是各个尺寸都有的。现在到LLAMA4，前面那些小的模型就不出了。Qwen3又把所有的模型都出了一遍，那大家就拿来微调呗。你说哪块不满意，我就专门把它调一调，训练一下上去使不就完事了吗？所以一定会一统江湖的。</p>



<p class="wp-block-paragraph">而且，Qwen3是原生支持MCP的。我在本地部署了OLAMA 8B的模型，使用Cherry studio测试了一下，支持没有任何问题。但是呢，支持的并不是那么顺畅。30B和32B的模型我在本地也装了，完美支持MCP，没有任何问题。</p>



<p class="wp-block-paragraph">那你说什么叫支持的不顺畅？什么叫支持的顺畅呢？在这跟大家讲一讲使用MCP的过程。其实很简单，MCP也是描述一下工具，说我这有一工具，这工具叫什么什么名字，输入的参数是什么，输出的参数是什么，能干什么。大概是有这样的一个描述文件，你把这描述文件给到大模型以后呢，大模型会根据你提出的要求，来生成一个调用这个工具接口的代码。</p>



<p class="wp-block-paragraph">这个8B的模型呢，有时候生成的代码会有点小错误，导致呢调用失败。那调用失败了以后呢，他会换一个方式，再调另外一个接口，然后会得出一个需要的结果出来。你使用32B模型，或者30B的Qwen3模型的话，你把一大堆的描述扔给他以后，他就会正确的找到需要使用的接口，需要使用的工具，然后生成调用代码直接调。调完了以后得到结果，需要再调用的话，还可以在一次推理里头多次调用，然后得到结果。</p>



<p class="wp-block-paragraph">因为我是放的高德地图的MCP进去，说来给我规划一个旅游路线，这个效果好极了。完完全全在本地，当然高德地图那个服务器不在本地。其他的，他的Qwen3，OLAMA，Cherry studio都是在本地跑起来了，所以这块效果好极了。</p>



<p class="wp-block-paragraph">现在呢是大模型密集发布的一个周期。前面我们看到了Gemini 2.5 Pro，Gemini 2.5 Flash，GPT也在快速的连续发布。后边还会很快看到一些新东西，包括马斯克下周要发布的Grok 3.5。Qwen3出来以后，如果有哪些方面超越了它，那它是肯定是要更新的嘛。GPT5应该也快了，这就是这样的一个风起云涌的大时代。</p>



<p class="wp-block-paragraph">好，总结一下吧。Agent时代一定要有一个对Agent友好的模型发布出来，才会被大家叫好，才算是一次成功的发布。体积小，参数少，规格全，性能高，只要可用性不退步，方便微调，这些特性都具备的话，再加上前面的MCP的功能，Qwen3绝对是一次划时代的成功。好，这就是今天讲的故事。</p>



<p class="wp-block-paragraph">大家赶快去玩耍起来！好，感谢大家收听。请帮忙点赞，点小铃铛。参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Llama3-8B-Chinese：开源领域的新动力</title>
		<link>https://lukefan.com/2024/04/25/llama3-8b-chinese%ef%bc%9a%e5%bc%80%e6%ba%90%e9%a2%86%e5%9f%9f%e7%9a%84%e6%96%b0%e5%8a%a8%e5%8a%9b/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Thu, 25 Apr 2024 03:54:43 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[OpenSource]]></category>
		<category><![CDATA[LLama3]]></category>
		<category><![CDATA[Ollama]]></category>
		<category><![CDATA[本地配置]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1193</guid>

					<description><![CDATA[1️⃣ 探索开源新动态：Llama3的推出，彻底激活了开源领域，大家都动起来了。 2️⃣ 本地部署体验：LLa ... <a title="Llama3-8B-Chinese：开源领域的新动力" class="read-more" href="https://lukefan.com/2024/04/25/llama3-8b-chinese%ef%bc%9a%e5%bc%80%e6%ba%90%e9%a2%86%e5%9f%9f%e7%9a%84%e6%96%b0%e5%8a%a8%e5%8a%9b/" aria-label="阅读 Llama3-8B-Chinese：开源领域的新动力">阅读更多</a>]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-image size-large"><img fetchpriority="high" decoding="async" width="1024" height="574" src="https://lukefan.com/wp-content/uploads/2024/04/image-1024x574.png" alt="" class="wp-image-1194" srcset="https://lukefan.com/wp-content/uploads/2024/04/image-1024x574.png 1024w, https://lukefan.com/wp-content/uploads/2024/04/image-300x168.png 300w, https://lukefan.com/wp-content/uploads/2024/04/image-768x430.png 768w, https://lukefan.com/wp-content/uploads/2024/04/image.png 1456w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p class="wp-block-paragraph">1️⃣ <strong>探索开源新动态：</strong><br>Llama3的推出，彻底激活了开源领域，大家都动起来了。</p>



<p class="wp-block-paragraph">2️⃣ <strong>本地部署体验：</strong><br>LLama3-8B，在本地跑起来，效率还是不错的。</p>



<p class="wp-block-paragraph">3️⃣ <strong>中文支持的挑战：</strong><br>可惜LLama3对与中文支持的效果并不好。</p>



<p class="wp-block-paragraph">4️⃣ <strong>中文优化版的迅速响应：</strong><br>不到一周，Llama3-8B-Chinese就来了。</p>



<span id="more-1193"></span>



<p class="wp-block-paragraph">5️⃣ <strong>我的尝试：</strong><br>我去尝试了一下。</p>



<p class="wp-block-paragraph">🔗 <strong>链接：</strong> <a href="https://huggingface.co" target="_blank" rel="noopener">https://huggingface.co</a><br>在上面去搜索<strong>chinese</strong>这个词，就会看到很多LLama3的中文微调结果。</p>



<p class="wp-block-paragraph">6️⃣ <strong>本地部署框架要求：</strong><br>因为我使用的本地部署框架是Ollama，所以我只能接受GGUF格式的。</p>



<p class="wp-block-paragraph">7️⃣ <strong>搜索与选择：</strong><br>于是搜索<strong>chinese GGUF</strong>，一大堆的Llama3-8B-Chinese相关的GGUF格式大模型。</p>



<p class="wp-block-paragraph">8️⃣ <strong>试用决定：</strong><br>随表挑一个，这些模型之间到底有什么差异，还不了解。先挑一个试用一下吧。</p>



<p class="wp-block-paragraph">🔗 <strong>下载链接：</strong> <a href="https://huggingface.co/zhouzr/Llama3-8B-Chinese-Chat-GGUF" target="_blank" rel="noopener">Llama3-8B-Chinese-Chat-GGUF</a><br>我用的是这个链接。</p>



<p class="wp-block-paragraph">🔗 <strong>具体版本下载：</strong> <a href="https://huggingface.co/zhouzr/Llama3-8B-Chinese-Chat-GGUF/blob/main/Llama3-8B-Chinese-Chat.q4_k_m.GGUF" target="_blank" rel="noopener">Llama3-8B-Chinese-Chat.q4_k_m.GGUF</a><br>挑选这个版本进行下载，我们正常使用的都是q4的版本。</p>



<p class="wp-block-paragraph">9️⃣ <strong>配置modelfile：</strong><br>下一步是编制ollama的modelfile文件。</p>



<p class="wp-block-paragraph">📝 <strong>Modelfile 设置：</strong></p>



<pre class="wp-block-code"><code>FROM ./Llama3-8B-Chinese-Chat.q4_k_m.GGUF
TEMPLATE """{{ if .System }}&lt;|start_header_id|>system&lt;|end_header_id|>

{{ .System }}&lt;|eot_id|>{{ end }}{{ if .Prompt }}&lt;|start_header_id|>user&lt;|end_header_id|>

{{ .Prompt }}&lt;|eot_id|>{{ end }}&lt;|start_header_id|>assistant&lt;|end_header_id|>

{{ .Response }}&lt;|eot_id|>
"""
PARAMETER num_keep 24
PARAMETER stop "&lt;|start_header_id|>"
PARAMETER stop "&lt;|end_header_id|>"
PARAMETER stop "&lt;|eot_id|>"
SYSTEM """这里是中文LLama3-8B聊天模型，很开心为您服务"""</code></pre>



<p class="wp-block-paragraph">🚀 <strong>执行命令：</strong></p>



<pre class="wp-block-code"><code>ollama create Llama3-8B-Chinese-Chat -f llama3-8b-chinese-chat.modelfile</code></pre>



<p class="wp-block-paragraph">🎉 <strong>上线与邀请：</strong><br>好了，中文版Llama3-8B的聊天模型上线了，希望大家玩儿得开心。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
