硕鼠的博客站

范路的博客主站,时而会发些东西。

Category : OpenSource

Llama3.1 405b突然开放,指标上全面超越GPT-4。中国厂商们是不是又可以充了呢?大家好,这里是老范讲故事的YouTube频道。今天咱们来讲一讲Llama3.1 405b 开放的事情。

Llama的开放,每一次都比较有戏剧性,都会有偷跑。什么叫偷跑?就不是由官方开了发布会,说我今天发布了一个什么产品,而是一般都是在Reddit这样的论坛里,突然就有人放出磁力链来,大家可以去BT下载Llama3.1 405B,包括Llama3.1 405B相关的各种测试数据,都是这么被发现的。头一天偷跑了以后,第二天梅塔说那算了,我开了吧。当时好像Llama2也是这么开出来的,现在Llama3.1 也是这么偷跑,完了以后就正式开放了。

他在跑分上已经全面地超越了GPT-4,基本上在各个指标上都超越了。这是非常非常难的,因为以前大家推出的各种模型里头,都是在个别指标里面超越GPT-4O或者超越GPT-4。那么在各项指标上全都超越的,这应该是第一次。当然了,它也是分很多版本的,分为8B、70B以及405B这三个版本。405B已经完全超越了,下面小一点的8B,应该比原来的Llama370B的效果还要再好一些。它的70B基本上针对前两天发布的GBT4OMINI,属于碾压状态。

Read More…

大家好,欢迎收听老范讲故事。今天我们来讲一下Gitcode搬运GitHub仓库的事情。这个事情发生在6月26号,Gitcode大量搬运了GitHub仓库。在搬运的过程中,没有征得原来的主人的同意。更过分的是,在搬运后还修改了仓库代码,伪造成自己原创的。因为我们在GitHub里面都会写这个Readme,会把仓库地址写进去,告诉别人这个项目是从GitHub的哪个网址来的。然而,Gitcode上去后,把这个信息给改了,改成说这个项目是从Gitcode来的。更可恶的是,还伪造了大量作者的账号和主页,说这个项目是他们做的。因为他知道,我们首先要有一个人创建了相关的账号,才可以在这个账号上建立自己的开源仓库。如果没有一个人在这里的话,这个仓库不能凭空冒出来。所以他为这些作者们还整个创建了网页,相当于全都爬回来建了一遍。这实在是太过分了,整个开源社区直接就爆炸了,因为没有见过这么无耻的人。大家一个个跑去Gitcode下面去骂,去要求删除这些未经许可搬运的代码库。有些作者干脆在自己的代码库里面投毒,也就是放梯子啊或者一些其他相关的代码在里面。因为这种代码,Gitcode什么也不问啊。


什么也不查,就直接搬回来。那么搬回来以后再去举报他,有些人采用这样的手段。但是你如果真的是国内的人的话,估计也不太敢啊。美国人的项目他搬也就搬了,但是怎么说呢,人家美国人也未必发现。现在第一批发现的,实际上就是中国的这些开源的创作者。然后开始往里面投毒。这件事情的核心是Gitcode啊,Gitcode它是一个公司,不要想着它是一个网站啊。它首先后边是一个公司,这公司什么时候创建的呢?2023年9月22号成立的啊。为什么有这么好的一个日子呢?因为那是2023年华为HDC的日子。前两天HDC刚发什么鸿蒙啊,什么仓颉开发语言啊,就是HDC叫华为开发大会上。那你说为什么2023年9月22号的HDC上会去创建一个叫Gitcode的这样的公司呢?那我们要去看一下Gitcode这公司下头有哪些股东。这个公司的名字叫做重庆开元共创科技有限公司。一共呢有三个股东,第一个股东叫长沙开发者科技有限公司,占40%的股份。那么这个公司呢,其实就是CSDN啊,就是大家比较习惯CSDN。但是从来没想过它是一个长沙的公司,对吧CSDN呢,中间有一段时间经营得不是特别好啊,直接被一个长沙的公司应该是买下来了吧。第二个公司叫深圳市红土善利私募股权投资基金合伙企业。

Read More…

大家好,欢迎收听“老范讲故事”的YouTube频道。今天,咱们来讲一讲华为,仓吉编程语言终于来了。在刚刚过去的HDC,也就是华为开发者大会上,除了发布鸿蒙新一代操作系统,感谢了一大堆友商,还故意把腾讯的名字落掉之外,还发布了众望所归,或者大家期盼已久的仓吉编程语言。2020年,华为就申请了仓吉的商标,而且告诉大家说,我要去做编程员了。当时很多人就直接疯了,说哎呀,华为要做中文编程语言,我们再也不需要使用英文字符去写程序了,我们要用古老的中文去写了。

在这件事情上呢,华为采用了叫不承认不否认,不负责的态度。什么意思?就是华为自己从来不承认说,我要做中文编程语言,没有任何中文编程语言相关的报导是从华为出来的。但是华为呢,也不否认任何人说华为要做中文编程语言了,他也不出来辟谣,也对所有市面上流传的信息不负责任。反而不是我说的这件事情呢,传来传去,传来传去,传到2024年,这个仓吉编程语言终于发布了。

Read More…

大家好,欢迎收听《老范讲故事》的YouTube频道。今天,咱们来讲一讲斯坦福AI团队与清华大模型之间的有趣故事。事情的始末,咱们稍微简单说一下。斯坦福的AI团队发布了一个名为“拉玛3杠v”的模型,号称仅用了500美金,拥有GPT41%的体量,就能达到相似的图片识别能力。随后,被指出这个模型疑似抄袭了清华大学面壁智能的“迷你CPM杠拉玛3V 2.5”版本。

一开始,斯坦福团队的人出面澄清,表示他们只是调用了清华大模型的分词器,并声称自己的工作开始得更早,不算是抄袭。但随着一步步的证据浮现,最终不得不承认确实存在抄袭行为。清华大学面壁智能大模型团队也正式确认了这一点。

Read More…

Llama3-8B-Chinese:开源领域的新动力

1️⃣ 探索开源新动态:
Llama3的推出,彻底激活了开源领域,大家都动起来了。

2️⃣ 本地部署体验:
LLama3-8B,在本地跑起来,效率还是不错的。

3️⃣ 中文支持的挑战:
可惜LLama3对与中文支持的效果并不好。

4️⃣ 中文优化版的迅速响应:
不到一周,Llama3-8B-Chinese就来了。

Read More…

大家好,欢迎收听老范讲故事YouTube频道。今天咱们来讲第一个故事。

Llama3发布了,李彦宏是不是被打脸了呢?Llama3突然发布,又是一个遥遥领先。它呢,发布了8B和70B的两个版本。8B就是80亿参数,70B呢就是700亿参数。8B的,我其实已经试过了,就在本地已经装上了。这个某些方面,接近了原来,或者超过了原来的Llama2的70B。包括一些咱们在本地跑的这种30多B的,这种就是300多亿参数的模型,它已经都超过了。而且速度还飞快。

啊,70B呢,据说已经超越了cloud 3的中量级模型。Note 3是有三个模型的:一个是特别微小的,就是可以在手机上跑;一个是中等量级的,是可以在PC本地跑的;然后还有一个是那种特别大的,特别大的,是可以对标GPT4的。70B的基本上已经超过这个中等量级了,也超越了GMINI 1.5 Pro。现在大家想去试GMINI 1.5 Pro的,可以到AI studio.google.com上去试,那个是可以免费用的。也超越了现在70B发布出来的版本。普遍他们自己讲的是超越了GPT3.5,但是呢,还达不到GPT4。这在所有测试数据上都是这样。我相信梅塔应该不会像咱们似的,专门做一些调优以后去跑分,不像咱们这么无聊。

Read More…
Close Bitnami banner
Bitnami