1 月 28
范, 路AIGC, DeepSeek大模型 AI Agent公司, AI Agent生态, AIGC领域, AI云计算, AI产业标准, AI协作方式, AI大模型, AI开源, AI开源项目, AI推理能力, AI数据偏见, AI显卡优化, AI显卡禁令, AI研发成本, AI蒸馏微调, AI闭源模型, AMD MI 300, AMD显卡兼容, Anthropic压力, Claude模型, DeepSeek, DeepSeek R1, Deepseek V3, DeepSeek代码, DeepSeek原创性, DeepSeek影响, DeepSeek成果, DeepSeek数据来源, DeepSeek美国市场, DeepSeek英文论文, Deepseek训练成本, DeepSeek论文, Huggingface, Kimi 1.5, Meta AI发展计划, Meta震惊, Minimax 01, OpenAI竞争, Oracle云计算, PyTorch开源工具, 中文社交媒体, 中美AI竞争, 中美科技博弈, 亚马逊AI, 人工智能创新, 华为AI标准, 大模型训练路径, 字节跳动AI, 开源模式, 开源胜利, 微软AI, 英伟达显卡, 谷歌AI, 谷歌AI研究, 豆包1.5, 通义千问, 闭源与开源
DeepSeek突然出圈,引发了中文圈的争吵。大家好,欢迎收听老范讲故事的YouTube频道。
DeepSeek在前面,我们已经出了一期视频,去讲它到底是怎么回事了。那么,DeepSeek最近肯定是更加的出圈。首先,DeepSeek V3,据说训练成本只有557万美金,震惊了扎克伯格,震惊了Meta。Meta说:“我们有好多的老大,他们的年薪都超过557万美金了。人家训练了个模型才用了557万美金,那我花了这么多钱去组建AI团队,花了这么多钱去囤显卡,是不是亏了?”现在就有这样的声音出来。
而且,最新的DeepSeek R1,也就是它的推理模型,推理能力已经接近o1了。蒸馏微调出来的这些小模型,已经在很多领域里头超越了o1 Mini。在这儿多补充一句,什么叫蒸馏微调的小模型?像我的电脑上,也是跑了一个DeepSeek R1-32B的模型。这个模型是怎么来的?它实际上是由DeepSeek R1去输出数据,然后拿输出的数据再去调通义千问2.5-32B的这个模型,最后得到的结果。这就是DeepSeek R1-32B,他在我的电脑上做各种推理,效果相当不错。
More
1 月 27
范, 路TikTok风波 TikTok CDNA切换, TikTokCDN更新, TikTok停机, TikTok停机14小时, TikTok内容推荐, TikTok冷启动, TikTok动态算法, TikTok变化, TikTok和字节跳动, TikTok和川普, TikTok商业结构, TikTok心理变化, TikTok技术分析, TikTok推荐变化, TikTok推荐机制, TikTok推荐算法, TikTok推荐算法的秘密, TikTok推荐系统, TikTok收购真相, TikTok数据权重, TikTok核心数据, TikTok治理调整, TikTok热点机制, TikTok用户心理, TikTok用户数据, TikTok用户行为, TikTok短视频平台, TikTok算法, TikTok算法心理预期, TikTok算法机制, TikTok算法权重, TikTok算法的未来, TikTok算法重启, TikTok美国市场, TikTok美国运营, TikTok重启, 中美科技博弈, 中美算法之争, 字节跳动CDN, 川普TikTok收购, 推荐算法调整, 用户行为数据, 用户行为记录, 短视频平台算法, 短视频推荐算法, 短视频热点数据, 短视频算法的冷启动
美国人会不会只买到了一个TikTok的空壳呢?大家好,欢迎收听老范讲故事的YouTube频道。
TikTok在经历了14个小时的极限表演,也就是前面的难民出逃停机,川普先发命令重新开机这个过程以后,很多人觉得,咦,好像不太一样了呦。我从TikTok里面看到的这些视频,不是我原来经常看到的那些视频,TikTok好像改算法了。那是不是川普要去买到的TikTok,就不再是原来的TikTok,只是一个空壳了呢?
因为以前一直在强调,中国政府不允许出售的是推荐算法。那是不是推荐算法没有到TikTok里边去,重新开机的已经不再是原来的TikTok了?大家在开始进行这样的讨论。
当然了,我们先补充一点,这一次TikTok的14小时极限表演最后并没有特别圆满。那你说,这不是下架了又重新开机服务了,怎么没有圆满呢?没有能够全身而退,表演了以后,身上还是挂了点彩,苹果跟谷歌的应用商店依然没有上架。
More
7 月 25
Luke FanAIGC, Meta的故事, OpenSource 405B版本, AI上下文窗口, AI事实标准, AI产业方向, AI产业链, AI偷跑事件, AI公司发展, AI创新挑战, AI创新推广, AI功率需求, AI协议限制, AI商业机会, AI商业模式, AI多模态, AI多语言支持, AI宏大模型, AI市场分析, AI应用前景, AI开源协议, AI性能测试, AI性能超越, AI技术合作, AI技术商业化, AI技术应用, AI技术投资, AI技术支持, AI技术突破, AI技术革新, AI显卡需求, AI未来趋势, AI标准化, AI模型优化, AI模型开放, AI模型电费, AI法律框架, AI生态价值, AI生态系统, AI生态系统发展, AI硬件需求, AI磁力链, AI空调耗电, AI能耗问题, AI行业分析, AI行业动态, AI行业趋势, AI计算能力, AI训练成本, AI训练数据, AI训练时间, AI语言支持, GPT-4对比, GPT-4跑分, HIKING face数据集, LLaMA, Llama 3.1, Llama 3.1 405b, Together AI, 中国AI厂商, 中国AI厂商冲锋, 中美科技博弈, 多模态支持, 开源与闭源, 拉玛模型争议, 梅塔与中国, 梅塔公司, 模型微调
Llama3.1 405b突然开放,指标上全面超越GPT-4。中国厂商们是不是又可以充了呢?大家好,这里是老范讲故事的YouTube频道。今天咱们来讲一讲Llama3.1 405b 开放的事情。
Llama的开放,每一次都比较有戏剧性,都会有偷跑。什么叫偷跑?就不是由官方开了发布会,说我今天发布了一个什么产品,而是一般都是在Reddit这样的论坛里,突然就有人放出磁力链来,大家可以去BT下载Llama3.1 405B,包括Llama3.1 405B相关的各种测试数据,都是这么被发现的。头一天偷跑了以后,第二天梅塔说那算了,我开了吧。当时好像Llama2也是这么开出来的,现在Llama3.1 也是这么偷跑,完了以后就正式开放了。
他在跑分上已经全面地超越了GPT-4,基本上在各个指标上都超越了。这是非常非常难的,因为以前大家推出的各种模型里头,都是在个别指标里面超越GPT-4O或者超越GPT-4。那么在各项指标上全都超越的,这应该是第一次。当然了,它也是分很多版本的,分为8B、70B以及405B这三个版本。405B已经完全超越了,下面小一点的8B,应该比原来的Llama370B的效果还要再好一些。它的70B基本上针对前两天发布的GBT4OMINI,属于碾压状态。
More