斯坦福大学最新研究引爆AI创业圈:41%创业者惨陷红灯区泥潭!日程安排需求5分却被忽视,客服机器人91%准确率反遭40%员工抵制,你还在死磕错误方向?

斯坦福大学最新研究引爆AI创业圈:41%创业者惨陷红灯区泥潭!日程安排需求5分却被忽视,客服机器人91%准确率反遭40%员工抵制,你还在死磕错误方向?已关闭评论

斯坦福大学的研究表明,近半AI创业者选错了方向。这里边到底谁对谁错呢?

大家好,欢迎收听老范讲故事的YouTube频道。大家都在指点江山,但是人家斯坦福大学肯定要更专业一些。

7月7号,斯坦福大学的HAI(叫以人为本的人工智能研究所)与数字经济实验室,发布了一个工作论文,叫“员工真正希望从人工智能中得到什么”。这样的一篇论文,有兴趣的可以自己去找这个论文来看一下。里边讲到很大比例的AI创业者呢,都找错方向了,大概41%的AI自动化,正在做没人想要的事情。那这论文到底说什么了呢?

他呢,首先做了一个打分。论文我们要去看他的研究方法,数据来源是不是可靠。像我老范坐在这,我可以一拍脑袋说,以我过去的经验怎么怎么样,大家听个乐就可以了。但是人家这个呢,一定是要有严谨的数据收集过程的。

首先呢,他们先去选择任务,每个月至少要做一次的任务,而且呢能够被数字化的任务挑出来,一共是2,131项任务。你说我这个任务十年碰不到一回,这用不着了;或者说我这个任务完全没法数字化,也用不着了。然后呢,对这些任务进行去重,你说这个任务跟那个差不太多,算一项,去重了以后呢,一共剩了844项任务。

然后呢,要求一帮人,对这些任务打一个五分制的分。首先呢,他选了1,500名美国的在职人员,囊括104个行业,和刚才我们讲的844项任务,就是你至少要参与过其中的哪项任务,你才可以对他打分。你说我这事从来没干过,你去给打个分,这个不行的。而且呢,在题目前面还要插上说,跟工作的乐趣和失业风险,你也要进行考虑,帮助受访者呢平衡理性和情感。

他呢,通过语音访谈,让被调查者回想真实的工作场景回答,避免拍脑袋。所以呢,他先对这844项任务呢,进行了一个有没有人想要的一个调查。调查的过程,就是刚才我们讲的语音访谈,说你干过这事吗?干过,那你到底想不想要呢?这样的一个过程。

然后,再找了52名拥有AI agent系统研发经验的研究者和工程师出来,也是5分制打分。他们打什么呢?按照现有的大语言模型和工具链,让AI单独完成该项任务的把握有多大。同时做任务分类,H1级全自动,H5级必须人类主导。他对这个844项任务,再去做一个这样的打分。等于两个维度,一个维度说你想不想要,另外一个维度说做得了做不了。

把这两个维度的分数搁在一起,把所有844项任务呢,变成了四个象限,上下左右四块。这四块里头呢,第一个呢叫绿灯区,所谓的绿灯区就是高需求高能力,什么意思呢?就是员工也很喜欢,现在的技术也可以实现了。第二个呢叫做低需求高能力,这叫红灯区,就是技术很炫,但是呢没人想要。第三个呢是高需求低能力的区域,就是呢市场特别想要,但是现在做不出来。第四个呢是低能力低需求的区域,现在技术也做不出来,市场也不想要。一共分了四个区域。

为什么说错配呢?他们说现在看了一下,41%的热情都给了高能力低需求,或者是低能力低需求的这个区域了。而上面这个高能力高需求,和高需求低能力这个区域呢,配置的并没有那么多。

那他这个是怎么统计出来的呢?他呢,抓取了YC 5,156个项目的描述,这个直接上爬虫就可以了。爬完了以后呢,找GPT来做分类,说这项目跟AI到底有没有关系。抓完了以后呢,发现有1,723个项目呢,跟AI是有关的。然后呢,对公司的项目,与刚才咱们讲这个844项独立的项目,进行对齐,你干这事儿跟上面的哪一项是相关的。这个也是由GPT就可以搞定的。做完了以后,按这四个象限一分,发现41%在红灯区,绿灯和高需求区,配置的并没有那么多。

那么四个象限里,都包括些什么样任务呢?首先咱们讲绿灯区,有29%的创业者在这儿。绿灯区就是高需求高能力,我现在完全能做的了,大家也需要。第一个是访客日程安排,大家都打了5分,我们需要这东西。因为在美国做的调查,美国很多事情都是需要预约的,而且预约这个过程呢又特别麻烦。他呢,跻身在绿灯区的top one。任务本质是结构化信息的写入加提醒,AI专家评估为,现有的大语言模型技术和日历的API,可以一步到位。因此属于两轴皆高的立刻可落地区域。

搜集的信息是这样搜集回来的,但是他真的表达的是说,大家赶快都去做AI日程排布,这样的一个功能吗?其实不是这样的哈。大家仔细思考一下,这个绿灯到底说明的是什么?说明的是有大量的需要去进行预约的,这种需求是没有被很好满足的。你说我要去看医生,那这个医生预约两个月以后,这个并不是说,你需要把预约系统做的更好,而是需要更多的医生。但是你说医生多了以后,是不是现在医生的薪资就降低了,就跟韩国似的,说我们多招点医生上来去上学,医生就跑去罢工,说不行,你这多招了医生上学了以后,我的薪水就降低了。这个事呢,肯定需要靠AI进行更深层次的解决,但是这个报告里他就不管了,反正我们搜集了,排日程是最有需求的。

第二个呢叫做维护紧急呼叫档案,就是911,你打了电话去,进去以后发现有很多档案是错的。那么自动化意愿呢,1-5分制算完4.67。需求呢是批量整理索引去重,典型的CRUD项目。这个CRUD就是create,read,update和delete,就是把这个数据库增删改查的,这样一个事情。专家判定的是,完全可以靠现在这个能力搞定的事情。为什么大家需要干这个活呢?传统人工处理,导致15%的紧急呼叫响应延迟。你给我打电话了,说我这出一什么事,结果发现呢,你登记的什么路牌,或者是很多这些信息是错的。AI呢,可以将错误率从8.3%直接降至1.2%。边缘计算设备呢,也可以提供实时的这种GPS通话,记录警力分布数据,响应时间也可以极大的缩短。这个是美国人很需要的一个功能。

然后呢,叫更正工资记录。这个自动化愿望是4.6。比如说你到底迟到了早退了,还是有需要有奖励,还是需要有处罚的事情,这些呢是要去反映在工资里边。在这一块读取误差,计算差额,写回表单,AI在这个表格处理文本生成上的能力,其实已经很成熟了。所以也放到绿灯区里头。

我以前是做过人力资源管理系统的,给员工算工资,是一个非常非常麻烦的事情。而且呢,他需要在极短的时间内完成,需要考虑的东西呢虽然很多很复杂,但是呢毕竟是有限的东西,相对还是要容易一些的。基于规则引擎和自动化系统,可以处理92%的常规薪资纠纷,准确率呢高达98.7%。以前人事部和财务部,每个月底算工资的时候,都是这个脾气特别不好的时候,我们一般在这个时候,都是躲着他们走的。他们非常需要这个玩意,可以释放员工80%的时间用于合规审计,降低企业用工的一些风险。因为每个人收到工资以后,都会去算一下我自己的东西对不对,为什么多了为什么少了。工资发下去,他们还会上来说,为什么少发我了,到底怎么回事,这个月谁谁谁说了要给我涨工资,或者要给我一什么奖励,我怎么没拿着。这个事还是挺多的。这个就是绿灯区的项目。

但是绿灯区的项目,刚才我们也讲了,大家需要去思考这个绿灯背后,可能隐藏着更深层次的市场需求。有可能并不是让你把表面上绿灯的事情做完,而是需要去思考,整个的社会希望向哪个方向发生改变。特别是一些非常高需求的东西,都不是让你直接去干活了。

再往后呢,叫高欲望低能力区,有30%的创业者在这块选择,就是大家很需要,但是又做不太好。因为有技术的人呢,就肯定喜欢做这件事嘛,在这块努力是没毛病的。第一个呢,叫季度预算整合。工人呢,希望借助AI减轻繁琐的汇总,但是呢牵扯到多表关联权限校验,解释性要求,专家认为当前的大语言模型,仍然很难做到端到端的自动化,能力低。所以呢落到这个区域里边来了。

再往后,医疗影像诊断的多模态分析。现有的模型对于罕见病,如肺淋巴管肌瘤的识别准确率是62%,需要结合基因数据和临床记录,就是可能需要更多的数据搁在一起,进行多模态识别吧。联邦学术技术可整合跨院数据,在保护隐私前提下,将准确率提升到89%。这一块肯定是有需求的,看片子原来其实人在这块也是有问题的,看片子的人,可能对于其他的什么血象,一些这样的数值也没那么了解。现在有AI以后的话,让AI大模型,把各种的数据进行综合考量,一定是可以把诊断率提高很高的。而且对人进行医疗诊断,这个是有很大需求的。

再往后呢,叫教育领域的个性化学习路径规划。当前自适应学习系统的知识图谱,覆盖率仅有40%,无法动态调整难度系数,就是说我们没办法去根据人的学习能力,或者学习反馈,去给他设计新的教学方法。而且呢这种教学计划的调整,是很难进行有效的结果评估的。所以这一块呢,目前为止大模型也做不太好。一旦跟教育有关,他的需求还是很高的。

再往后呢是生成生产设备的维护排期。这个也有很高的需求,什么意思呢?你需要去排期,说我的设备到底什么时候应该生产,什么时候应该去检修。目前为止呢,工业设备的传感器数据,存在很大的噪音,15%的噪音,就是里头有很多数据不准,导致呢故障预测误报率高达38%。现在经常有什么波音飞机怎么样了,或者其他的一些设备出什么问题了,是怎么回事?他收集了很多数据,回来以后来确定说,从工程上说,你这个飞多少公里需要检修一次,但这玩意他不准。在这里头呢,大模型也没有做的那么好,需求还很高。你飞机掉下来了,这玩意需求肯定高。所以这一块大家如果有能力的话,也可以努力的冲锋一下。

再往下呢,叫红灯区,就是低欲望高能力区,我现在可以做的很好,但是没人要。有21%的创业者在这里努力。第一个任务是撰写创意文稿,这个是AIGC干的第一个活写文章。大语言模型已经可以生成流畅的文本了,而且能力很高。但是呢工人愿望仅有1.6,5分1.6是他的愿望。72%的编辑认为AI创作缺乏深度,61%担忧技术价值被削弱。这就属于担心失业的这帮人。尽管技术可行,但是编辑岗位的自动化接受率,仅有17.1%,远低于技术乐观派的预期。

然后是客服聊天机器人。GPT4已经能够处理85%的常规咨询,一响应准确度高达91%。但是呢40%的客服人员认为AI缺乏同理心,32%担心客户满意度下降。但其实他们担心的还是失业嘛。员工呢更倾向于H4级协作,就是人类主导加上AI辅助。刚才我们讲了,有50多个专家打分的时候呢,H1是AI全都能搞定的,到H5是完全人搞定的。在这里头这些客服希望做H4级的工作,我自己呢又可以省点力气,但是呢我还是主导。但是现在所有的研发都是向H1级,就是完全由机器主导,完全脱离人这个方向去发展的。

还有就是物流分析师的供应商联络工作。这个呢现在大语言模型也可以做的很好了。它基于大语言模型的供应链管理系统,可以自动生成谈判策略,响应速度比工人快5倍。但是呢53%的受访者认为,AI无法处理供应商的隐形需求,比如账期灵活性,41%担心失去客户关系的一个控制权。你去管理供应链的时候,这个里边还有很多灰色的地方,这个是人类不希望被替代的。这个是红灯区。

最后呢,就是低欲望低能力区,就是没人想要,也做不好这个区域。20%的创业者呢在这个里边努力。第一项任务解读工程图纸,愿望分是1.75,5分里头只有1.75分。现阶段多模态理解,3D语义抽取仍然比较难。现在看不懂这个图,AI能力低,优化级别低。现在呢在这一块也没有那么大需求。

再往后呢,叫追踪行李去向。愿望呢是1.5。该任务需要电话航空后端多方沟通,当前通用的代理难以整合。这个技术低需求也低。现在不太好搞。

然后是心理咨询师的情感支持对话。GPT4的共情准确率只有53%,无法识别非语言线索,比如微表情,包括语气语调都比较难以识别。82%的心理咨询师认为,AI可能泄露用户隐私,且缺乏法律责任界定。

然后是律师的复杂案件策略制定。现有的法律AI对于判例的关联分析覆盖率仅有35%,无法处理跨法域的冲突。91%的律师认为,AI应该定位为法律检索工具,而非策略决策者。法律这块我不是特别懂,但是写程序这块我是知道的,你问他各种细节的东西,他都做的很好,但是呢他特别容易钻牛角尖。我们一定要看着他的COT,就是思考过程叫思维链,你一定要看着这个东西,发现他走错路了的时候呢,你要给他提供新的思路,把他揪回来,他才能回的来。所以呢甭管是心理咨询师,还是律师的复杂案件决策,这个事到目前为止还只能依靠人。

还有一项是什么呢,就是绘图创意。愿望分呢是1.71。他们认为呢生成式视觉模型,在客户化的创意上,版权合规上都还存在着局限性。Midjourney、达利生成的图片,在这块都是有问题的。专业设计师不期待AI全接管。达利3生成的设计方案呢,仅12%符合品牌调性,且缺乏文化隐喻的深度。你让他去理解一些我希望隐藏的一些含义,基本上没法整。艺术创作者,艺术创作的需求呢,集中在H5级别,就是人类完全主导,AI呢仅提供一些素材就可以了。这一块呢是低欲望和低能力区。

现在呢红灯21%,低欲望低能力是20%,他们俩加起来是41%。最后这种报告的意义在什么地方?我们是不是应该照着这个报告的方式,去选择我们的创业方向了?不是这样的。这个报告最重要的一点,是展示了有效的信息搜集和形成决策的一个过程。我应该怎么去搜集信息,我们应该如何去划归任务,我们应该去做什么样的访谈,访谈完了以后呢,怎么对这些任务进行象限的划分,怎么去判定大家到底都在做什么事情,而且哪一部分是可以靠AI来搞定的。你比如说我爬虫,爬了YC的四五千家的创业公司,找到其中跟AI相关的1,700家,再对他们进行844项任务的对齐,你们到底是做哪项任务的,然后再拿四个象限去套。后边的部分完全是AI搞定的,就是AI负责了整个的数据统计和分析的部分。前面怎么去找人去设计问卷设计报表,应该也是AI搞定的。他们只需要给1,500个人打电话,然后去找到51位AI editor的专家去打分,就可以搞定了这样的一个报告出来。

但是呢要注意一点,就是这个报告并不完全可靠。大家不要说这一块是绿灯的我要冲,那一块是高欲望低能力,我要去研发。不要去直接这么简单的使用这个报告。第一个呢是搜集信息的过程并不全面,存在情感和偏见。还有一点是很重要的,什么呢?就是打分的是打工者,不是决策者。打工的人是没有权利去决定我买谁家的系统的,他们是要被AI替代,是要失业的这帮人。所以他们在这个里边会有一定的偏差。未来的世界呢也是动态变化的,不是按照现在这个状态不一成不变的。所以呢我们可以去仔细的思考和解读这个报告,但是解读的方式并不是简单的是使用。

那么应该如何选择创业方向呢?你说我有关系有行业背景,也有行业数据,先找个绿灯区域先做起来,先挣一笔钱再说。或者说我是不是可以去做一些颠覆性的事情,你也可以在绿灯区域去找。刚才我们也讲了,很多绿灯区域都是需求极其强烈的,但是他强烈的过程,并不是因为说我们真的想要排好日程,而是说整个美国社会的预约制度,给大家带来了极大的痛苦。解决的方法并不是说我做好预约系统,而是增加前面的供给。这个可能就需要换一个思路去思考了。

第二个有技术,可以尝试一些高欲望低能力的区域,突破AI的技术瓶颈。最多的人在这块,30%的创业项目都在这。你比如说我去解读一下,医疗影像这块,肯定还是值得大家去努力的,而且这一块呢也更容易拿到钱。

至于红灯区呢,不是说到红灯区,就是高能力低需求,这些东西我们就躲着走。比如说智能客服机器人这种东西,大家注意访谈是来自于打工人,不是来自于决策者。打工人是害怕失业的,决策者是想降本增效的。所以呢对于决策者来说,这个区域未必是红灯区。大家做的时候自己去思考。

至于最后这个低欲望低能力区呢,确实需要谨慎一些。但是呢如果你是真爱,说我真的喜欢这一块,那也不妨去尝试一下。真正的有可能出大型公司的,这个领域呢,其实是绿灯区跟这个低欲望低能力区。这里头有可能会真正的出现,颠覆社会的这种大型公司。而其他这些区域里头,红灯区和高需求低技术的这个区域,咱们做一做,有可能会出一些小型的成功公司。大型成功公司,或者是真正的跨时代的这种,成为美股七姐妹那样的公司,是比较难的。

好,这个故事就跟大家讲到这里。感谢大家收听,请帮忙点赞,点小铃铛,参加discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Comments are closed.