10 月 29
Luke FanAIGC AI安全, Anthropic, GEO, Llama 3, LLM脑腐, 人工智能变傻, 低质量数据, 儿童教育, 千问模型, 反社会人格, 可信人工智能, 垃圾数据训练, 大模型催眠, 大模型脑腐, 大语言模型, 思维链, 持续预训练, 指令微调, 推理能力下降, 数据投毒, 数据污染, 数据配料表, 模型人格, 模型退化, 注意力分散, 生成结果优化, 短视频危害, 训练数据安全, 逻辑思维
大家好,欢迎收听老范讲故事的YouTube频道。
德州华人学者的新发现:大模型也能得“脑腐”
德州的一群从小被妈妈们说“手机看多了会瞎”的华人发了一篇文章。德州农工大学、德州大学奥斯汀分校、普渡大学,这三个学校有8位作者联合发了一篇文章。从名字上看,有一个人是非拼音名字的,看着像个老外,其他所有人的名字,特别是一作和通讯作者的名字,都是拼音的名字,应该是华人。
那这个文章叫什么呢?叫《LLMS can get brain rot》,它的意思呢,叫做大语言模型也能得“脑腐”。就像是咱们新冠疫情以后经常说,脑子上好像总有一层雾,感觉注意力不集中,总是觉得想事情想不清楚,经常忘事情。现在说,大语言模型也可以干这件事。
首先呢,有一个简单的结论,就是给大语言模型喂垃圾数据,大语言模型就像得了脑腐一样变傻了。即使再用好的数据进行修复,中间喂过垃圾数据了,我后边一直喂好数据,可以改善,但是呢,永远无法达到原来的状态。也就是说,喂垃圾数据的这种伤害是永远不可能完全修复的。这是一个很悲观的结论。
More
4 月 07
Luke FanAIGC 1000万Token上下文, 400B, AI Agent, AI应用场景, AI新闻, AI未来发展, AI模型发布, AI竞赛, AI算力, Claude 3.7, DeepSeek, FP8精度, Function Call, Gemini 2.5 Pro, GPT-4o, Grok (XAI), H100 GPU, INT4量化, Llama 3, Llama 4, Llama 4 Behemoth, Llama 4 MARVELIC, Llama 4 Scout, Llama 4发布反响平淡原因, LLM, Meta AI, Meta战略, Mixture of Experts, MOE架构, 专家模块, 中文能力提升, 人工智能, 全模态AI进展, 千问 (Qwen), 卡估值, 多模态输入, 大语言模型, 字节AI, 小模型竞争, 开源LLM对比, 开源模型, 开源模型内卷, 开源社区, 推理速度, 文本输出, 模型微调, 模型性能比较, 模型测评, 模型训练, 活跃参数, 流量入口, 知识蒸馏, 硬件要求, 端到端模型, 腾讯AI, 谷歌AI, 超级APP趋势, 长上下文, 阿里AI
Llama4发布了。这里的黎明静悄悄,没有什么响动。这是怎么回事?
大家好,欢迎收听老范讲故事的YouTube频道。一觉醒来,Llama4就发布了。扎克伯格亲自在Facebook的REELS(也就是Facebook的短视频里面)发了一条视频,说Llama4发布了,今天是Llama4日。
Llama4呢,一共是有三个版本:
第一个叫Scout(侦察兵版本),总参数1,090亿(也就是109B),活跃参数是170亿,包含16个专家模块。对的,Llama终于也放弃抵抗了,从Llama4开始变成Moe了。在Llama4之前的版本都是单一体的模型,Llama3.3还给了一个400多B的单一模型,到Llama4彻底放弃抵抗了。
现在呢,支持1,000万TOKEN这种上下文,这个是Llama4最大的一个特点。DeepSeek是64K(也就是64,000个TOKEN上下文),现在上下文比较大的Gemini大概是能到2兆(200万),Llama4直接给了一个10兆(1,000万TOKEN),这是它做的一个很创新的点。
More