硕鼠的博客站

范路的博客主站,时而会发些东西。

Posts Tagged ‘大模型’

伊利尔在创业,他的公司叫做Safe Superintelligence(安全超级智能)。这个公司的主要业务是什么呢?目前,公司由三个人组成,分别是伊利尔、Daniel Goose和Daniel Levy。伊利尔是一位以色列裔加拿大人,他精通俄语、希伯来语和英语。Daniel Goose是一位以色列企业家和投资人,而Daniel Levy是伊利尔的旧部。

在人才和算力方面,Safe Superintelligence也非常强大。Daniel Gross和Knight Fragman联合创立了算力云,他们拥有3000块H100。有趣的是,他们还可以使用五吨重的H100,因为每块H100的重量超过一公斤,所以3000块H100大约有五吨重。另外,文章中还提到了一个有趣的名字,叫做Knight Fragman,他是之前的Get Have公司的CEO。去年11月,董事会将山姆奥特曼解雇后,他接任了CEO一职。


说我们要请一个临时CEO来,就是这个叫Matt Fredman。他请来了以后说:“啊,我诚惶诚恐啊,你们想怎么干啊,咱们接着干。”等山姆奥特曼回归了以后,他就走了。他是跟Daniel Grusse联合创立了算力允啊,现在Daniel Grusse是投资和参与了伊利尔新的公司SSI,大概是这样的一个关系。那你说,现在已经有算例了啊,有人才了,那数据哪来呢?现在的数据其实比以前要好获得的多。为什么呢?因为现在可以直接让大模型生成数据,这样的话质量更高,可控性更强。像拉玛3的训练,实际上就是用大量的拉玛2来直接进行数据处理,数据预处理以及数据生成啊。那么,他就可以训练出这么厉害的拉玛3来。现在伊利尔估计也会走这条路,人有了算了,也有了啊,数据呢也有了。那么到底什么是安全啊?说他跟山姆奥特曼吵架的原因是因为他觉得山姆奥特曼做的东西不安全,而且不安全是非常危险的,会对人类造成损害。说不,我要出去,我要做一个安全的,而且叫安全超级智能,对吧?怎么叫安全呢?实际上,现在的安全需要重新去定义了。我们所说的安全啊,是像核安全那样的安全,而不是信任核安全那样的安全。这个是伊利尔讲的原话。那我们来想想,什么样的东西是像核安全一样管理?核安全到底是怎么管理的?第一个,我们来对所有的数据进行记录。


一共有多少颗核弹都得记上,哪颗核弹在什么地方,全世界的人都得知道。哎,不能说哪多出一颗核弹来,这是不允许的,至少大的是不允许的。然后呢,还要有这种叫核不扩散的协议,而且还要有各种承诺,说哎,我们啊承诺不优先使用核武器,而且知道核武器这个东西一旦使用了以后,对整个的人类,对整个未来的环境和很长一个时间都是有巨大伤害的。这个是核安全,而这种信任核安全呢就是说,我相信你不会干坏事啊,至于你以后万一干了次坏事呢,我还可以再原谅你几次。这个是信任和安全。所以伊利尔呢是准备把AI安全作为核安全的方式来去管理的。那大家想一想,他会怎么来管这个事情,如何做到安全呢?伊利尔讲了,说我们只有一个目标和产品,就是做这安全超级AI,不会去做APP也不会做什么这些东西啊,而且呢没有时间和财务上的压力。现在呢他讲把OpenAI搞成这样,为什么呢?啊是因为有财务压力,你需要烧更多的钱,你必须要不停的再去融资,像我们以前也讲,你只要开始拿投资人的钱了,开始融资了,就相当于是在脖子上套了一条枷锁,对吧,投资人会催着你往前跑的,他会有时间和财务上的压力。伊丽尔说我没有啊,我就耐心做这个产品,而且呢他是希望通过工程突破,而不是各种临时技术措施,来去保证安全啊。大家注意啊。


伊利尔本身既是一位科学家,也是一位工程大师。他致力于将安全和能力视为技术问题,并通过革命性的工程和科学突破来解决这些问题。他希望能够直接解决安全问题,而不是仅仅通过打补丁等临时性技术措施来解决。他的工程能力使他能够实现量变达到质变,从而成为一个工程大师的典范。他的大模型是一个工程学方面的案例,通过堆积更多的参数和数据,他能够获得不同的结果。伊利尔提出的规模法则,即”scaring low”,指出只要扩大模型,就会获得不同的效果。他的发明和创造力使他成为一个大力出奇迹的发明人。

Read More…

大家好,欢迎收听“老范讲故事”YouTube频道。今天,咱们来讲一讲AI时代,现在学计算机还来得及吗?啊,首先要跟大家讲说,这个内容是怎么来的。呃,儿子要成人礼了,也是马上要高考了,太太给了我一个任务,让我给儿子写一封信。所以呢,我就前面录了一个视频,是给儿子的一封信。这个里面呢,有一部分就是讲AI时代,学计算机应该怎么学的。现在呢,我把这一部分摘出来,单独跟大家聊一下。

首先呢,要讲一下我的父母跟我太太的父母,在我们两个人选择大学专业的时候,跟我们说的话。我父母两个呢,都是学机械的——机械制造、机械设计、机械原理。我太太的父母呢,应该都是学电子工程的。啊,当我去高考的时候呢,我的父母跟我讲说:“不要去学机械啊,去学计算机吧。”为什么呢?说学机械这事儿啊,太辛苦太累,需要去工厂,需要跟这些设备打交道,太累了。他说学计算机这事儿啊,虽然也挺累的,但是你好歹是在空调的机房里呆着呀,你跟这个在工厂里的人比起来,你要好很多了。当然,我自己也比较喜欢,这是大前提。

我太太的父母呢,在他高考的时候说:“学电子太累了啊,你要不停地学新东西,电子元器件啊,电子的各种设备啊,不停地更新换代,这事儿实在太累了。”

Read More…


大家好,欢迎收听老范讲故事YouTube频道。今天,咱们来讲一讲黄仁勋在COMPUTEX上的狂欢。COMPUTEX是一年一度在台湾举行的计算机大会。黄仁勋,作为现在真正AI时代的当红炸子机,可能是唯一靠AI赚了大钱的人。虽然微软也在赚钱,但是微软整个靠AI挣的钱并没有那么多。真正靠AI赚了大钱的公司只有他一家——英伟达。刚才我看了一下,英伟达现在市值2.7万亿美金。大家知道,再往前就是微软的3.2万亿,第二名是苹果,2.9万亿,还差那么一点点。可能稍微一哆嗦,英伟达就有可能成为世界第二市值的公司了。那么,黄仁勋上面都讲了什么呢?作为网红,肯定还要先暴露一下行业秘密,别人都不知道他知道的事情。上来先说一下他现在讲的是什么——就是GPT-4到底有多少参数。GPT-3.5大家知道是1,700多亿参数,就是一个170多亿级别的模型。但是到GPT-4的时候,OpenAI就再也没有出来说它到底有多少参数。很多人说你是不是超过万亿了,对OpenAI来说,这个数据不是很准确。我来辟谣了,但是具体有多少,从来没有讲过。黄仁勋在前面的GTC,就是GPU技术大会上,每年一次的英伟达自己的开发者大会上,上面也讲了……

说起来1.8T,这个1.8T指的是什么呢?其实就是1.8万亿参数,而且它是一个Moe模型。当时OpenAI并没有对此多说什么,但这一次,在《Computer Text》上,他们又反复强调了这个事情,明确指出GPT-4的训练参数达到了1.8T。这让人们意识到,想要达到GPT-4的水平,还有很长的路要走。尽管现在大家都在努力研发号称能达到或接近GPT-4水平的模型,比如几百亿参数的模型,比如梅塔的拉马3可能会有一个400亿参数的模型,国内也出现了很多一两百亿参数的模型。但事实是,即使提到的1.8T参数,如果考虑到是Moe模型,分成八份来看,那么单个模型可能也就相当于200多亿参数的水平。

Read More…

大家好,欢迎收听老范讲故事YouTube频道。今天咱们来讲第一个故事。Open AI进一步开放了GPT-4欧的免费功能和范围,留给苹果的时间真的不多了。所以,这一个话题里我们会讲两件事。

第一个是Open AI进一步开放了很多免费用户可以使用GPT-4,主要是4欧了。另外呢,就是苹果现在的日子并不好过。虽然我们前面反复在想说,大家万众瞩目,万众期待WWDC,6月5号吧,大家都在等这一天。但是,呃,越是大家期待的事情,可能最后啊,越让大家失望。

最近Open AI呢,肯定是消息不断。为什么呢?山伯特曼本人是一个呃,政客或者说他政治手腕非常的强大。前面闹出了很多的负面,比如说伊利尔走人,超级队旗团队的负责人走人,而且这两天呢,超级队旗那个负责人已经去了anceropic,还在跟瓦解,也就是斯嘉丽约翰逊才在这打着官司。各种的负面都很多,所以呢,一定会放出很多消息来,去纠正这些负面信息啊。

Read More…

大家好,

欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲国内大模型厂商,突然就变脸了,开始打价格战,而且是价格生死战。这个战争是从哪开始的?首先是有一个大模型叫deep sick,他先开始干的。原来我们使用100万TOKEN,大概也得十几二十块钱,甚至贵的也能有五六十块钱。国外的大模型经常是要到十几美金。他呢,直接来了一个啊,100万TOKEN一块钱人民币。DPC大家可能不是那么熟悉,因为他后边不是一个互联网巨头,也不是原来从互联网大厂出来的人,他后边是一个私募巨头,换方量化直接不讲武德啊,100万TOKEN一块钱人民币。

那紧随其后的呢,是豆包啊,这是字节跳动下边的大模型,直接降价到100万TOKEN 0.8元人民币。你不是一块吗,我8毛啊。然后通1,000问说那你们都降,我也来呗。我后边反正是阿里云,谁怕谁啊,最多的显卡都在我手里头,那降价啊,把通1,000问最新的千问Max千问浪什么,全都降到了一个白菜价。当然同1,000问降价的时候呢,还是用了一些小花招的啊,他把输入TOKEN跟输出TOKEN的价格分开了。什么意思?就是当你往里梳的时候,你也是算TOKEN的,当它往外吐的时候,也是算TOKEN的。就是它把往里梳的这个TOKEN的价格,降低了更多啊,往外吐的这个TOKEN呢,也在降,但是降的并没有那么多。大家能够理解,就是你往里输的内容,比如说现在有很多的大模型号称是可以输入100万字,200万字,但是他每一次输出,可能也就输出个1,000字,2,000字,他不会输出那么多的。你说一大模型坐在那,吭哧吭哧给你吐100万字出来,有人看没有?一个人坐在那阅读,读100万字也得会功夫吧。所以呢,从大模型输出的这个TOKEN稍微贵些啊。然后百度特别逗啊,百度先强调了一下,说不要关注价格,要看这个大模型的特性,以及大模型的性质,是不是适合你的场景。讲完了以后呢,左右一看说哎,你们都跑了,等等我等等我,对吧?直接把手里头两个最常用的模型,一个叫快速模型,一个是轻量级模型免费,对吧你们还要收钱吗?咱不要钱了。

Read More…

大家好,欢迎收听老范讲故事的YouTube频道。今天我们又请到了老朋友尹迪狗,给我们介绍一下刚刚召开完的谷歌艾欧。这一次到底发布了什么。而在谷歌艾欧之前的一天,OpenAI我觉得算是故意捣乱截胡,发了个GP4欧出来。我们就正好趁这个时机呢,把这两个发布会或者两两个产品吧,一起来总结一下。首先呢,我想先问一下,GBT4O到底算不算是划时代的产品。嗯,至少模型啊,分成两部分,它发的是PPT是o是模型混合模态嘛,他把语音视频和文字一块训练的嘛,可以同时输入和输出嘛。这个相当于是,嗯,也不叫划时代吧,就是他之前所有的工程技术的沉淀。嗯然后呢,做了一个特别好的一个交互形式,就是语音交互。而且那个语音交互的很大一个特点,发完之后不是马上就有人升级吗,一搜我的这个APP上面的模型以及GPT,搜了然后大家都想打开。那那个耳机,点上去之后呢,可以跟他聊聊天。实际上,那个聊天并不是他发布会上的那种APP,那个还是回合制的,用那个rest接口聊天。我,发出去然后回来,这个回合制的,但是呢,他在发布会上演示的是完全stream的,就是像就像我们现在一样,我们录节目,我们用的是Web RTC协议嘛,streaming,就是你的Server端,它的那个TOKEN,它就不停的接收是吧,做实时处理。这个特别耗流量,耗TOKEN,耗算力的。嗯现在还没用到这个模型,所以大家感受不到,所以我记得第二天还第三天的时候m奥特曼还是他们官方账号,发了一个说明嘛,说哎你们大家用的现在还不是,发布会上也是这个,哈哈哈,一堆人说说这一直完完全不对,这么慢的响应,我觉得借手报了一下,就是他是非常natural,非常自然。可能就是大家第一次用起来 GPT 的感觉,一样哎。哇哦,是他没这样回答问题。就是他确实是有那个时候的一个感觉。

Read More…

大家好,

欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲华为大模型演示翻车现场。

近期呢,非常多的AI相关的项目都在进行演示和发布,特别是国内。为什么它?因为时间到了。通常每年在这个时候也会有很多发布,因为每年在这个时候会开谷歌IO,大家喜欢在谷歌IO的前后进行信息的发布啊。因为谷歌IO算是全世界程序员或者开发者的一个盛会吧。那这个前后进行信息发布的话,如果它被安卓采用了,或者再跟谷歌搭上一点关系的这种技术会有更好的发展空间。

那今年呢,还有另外一个事情,就是拉玛3发布。前面其实国产很多大模型都是跟拉玛2有千丝万缕的联系。其实当时就已经预言过,我说拉玛3出来看多长时间之后,国内的大模型会争先恐后的再更新换代一波。现在呢,这个时间点就到了。前面阿里的通1,000问2.5发布,这两天还有几个,一个是零一万物的啊,叫e latch大模型发布,然后字节跳动的豆包大模型前两天也发布了啊。这豆包大模型主打的一个便宜,对别人的价格都便宜非常多,因为大模型的价格一般是按TOKEN算的啊,一般一个汉字是一个TOKEN,大概四个字母,还是几个字母的英文单词,是一个TOKEN啊,它这个算法比较奇怪。

Read More…

大家好,欢迎收听《老范讲故事》YouTube频道。今天咱们来讲一讲Goole I/O,又一次如期举办了。为什么使用了这样的一个词呢?因为提前一天,Open AI已经把风头都抢走了。大家要知道,在往年的Goole I/O啊,一直都是被认为是互联网科技圈里的一次技术盛会。我曾经去过一次,2014年,我是到旧金山,到现场去参加过一次啊,那真的是一场科技盛会。所有的技术媒体,在这之前就要整装待发,我们要在这等着,等什么呢?传达好Goole I/O,向全世界互联网技术圈传达的方向。对吧,大家要好好学习。今年指明的方向是什么?每年都要干这样的一个事情。甚至呢,还有很多的小公司,会在Goole I/O的会场外面举办各种小型沙龙。2014年我就去干这个事情,在Goole I/O外面啊,租了一个小的酒吧。但是,你不敢在他正式开会的时候开会啊,那个时候是抢不到人的。我们都会在他开会散了以后,晚上在周围的小酒吧里边开一些小型的沙龙,跟我们坐下来,我们来讲一讲这个——当时在猎豹移动,是猎豹移动啊,在谷歌里头都干了些什么事情。我还记得那一年我们坐在台下,听着皮查伊在上面讲,提了多少次猎豹移动,大概提了4次还是5次。我啊,还有很多猎豹移动的员工,包括各种老板们,都在下面听着热血澎湃。但是今年,热度全都被Open AI释放掉了。你想,大家都在等着,等着,等着,说哎,Open AI还提前一天来,说我们给大家看一个不一样的。我记得以前有一个这样的故事,是滴滴也是跟另外一家公司去抢,那家公司还比滴滴融的钱多,然后每天在北京交通台做广告,说啊,还有10天,我要告诉你们一个重大消息,还有5天,我要告诉你们一个重大消息,反正每天倒计时往前数。然后滴滴呢,大概提前了一天发布,说不用等了。今儿我就告诉你吧,人家等于是花了30天的钱,滴滴只花了一天的钱,还可以截胡了啊。现在Open AI也干了这么个事,Open AI在提前一天发布了GPT-4,这样一个产品。这个产品呢,从外在表现上说,你说它划时代吗?又好像没有那么划时代。它人性化的很强,就是大家觉得那是一个人了。而且从技术上说呢,也确实有一个进步,什么进步?原来都是说语音识别,内容处理,或者是叫文字处理,然后再到语音输出,原来是这样的输出方式。现在是端到端,我这头进去就是语音,出来的也是语音。这个产品让大家眼前一亮,让这些等了很长时间的技术媒体们,一把把热情全都释放掉了。什么划时代呀,什么“Wow”,还有各种各样的溢美之词,就直接都在它身上释放掉了。这也是很神奇的一个事情。

Read More…

GPT-4oo大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Open AI最新发布的GPT-4,到底是一个什么样的东西。专门赶在谷歌I/O之前的一天开,这就是司马昭之心,路人皆知了。对,指的是谁,大家心里都明白。当然,选择这一天开发布会的还有其他人,比如李开复也在这一天发布了他“灵异万物”新的大模型。以后找机会学习再跟大家分享。通义千问呢,是早几天,5月9号发了他们自己新的大模型。

我呢,自己肯定是懒得去在凌晨2点看直播了,所以到今天,看看录屏,然后看看其他人都在说什么,再跟大家介绍一下GPT-4到底是一个什么样的东西。在这之前,大家一直知道,说他要在这个时间点开发布会,甚至在他没有公布发布会时间的时候,大家也都在猜,说是不是上周要发布,是不是这周要发布,然后猜了很多有可能会发布的产品。有些人猜GPT-5,有些人猜测试GPT。

战猫奥特曼说了,不是GPT-5,也不是测试GPT。我呢,在礼拜天,也就是在发布会前的一天,还在推特上在问,说这个新发布的东西会不会是GPT Siri或者是Siri GPT,对吧,因为已经传出消息了,苹果要跟Open AI签约嘛,那么出来的东西应该是这样的一个东西吧。甚至呢,我也猜过,说是不是GPT-5出来了以后,GPT-4就免费了啊,万一GPT-4免费了呢,现在惦记收费的这些版本该咋办呢,还活不活得下去,这事没法混了。所以呢,当时拆解了这么多种可能性,从我个人角度上说,我猜了GPT-40,免费的GPT-4,GPT Siri,拆了三个方向。现在看呢,我觉得我也没猜错。对吧,现在的GPT-40啊,基本上是这样,这四个方向的事其实都干了。都发布了什么呢?第一个是GPT-40,它可以进行语音识别与翻译,支持50多种语言,可以进行实时搜索。但是,它并没有进行搜索之后的很完善的内容组织,不像Perplexity那样,可以进行很好的搜索结果组织。GPT-40免费对公众开放了,这也是一个逐步开放GPT-4的过程,虽然开放的是40版本。

Read More…
Close Bitnami banner
Bitnami