斯坦福大学最新研究引爆AI创业圈:41%创业者惨陷红灯区泥潭!日程安排需求5分却被忽视,客服机器人91%准确率反遭40%员工抵制,你还在死磕错误方向?
7 月 28
AIGC AIGC, AI创业, AI研究报告, GPT, HAI研究所, Y Combinator (YC), YouTube, 个性化教育, 产品市场匹配 (Product-Market Fit), 人力资源自动化, 人工智能, 供应链管理, 决策分析, 创业方向, 创意写作, 医疗AI, 医疗影像诊断, 员工意愿, 商业分析, 商业模式, 四象限分析, 学术论文, 工业设备维护, 工资管理, 市场需求, 心理咨询, 技术能力, 斯坦福大学, 智能客服, 法律科技, 用户需求, 科技创业, 科技评论, 红灯区 (低需求高能力), 绿灯区 (高需求高能力), 老范讲故事, 自动化, 行业洞察, 资源错配 斯坦福大学最新研究引爆AI创业圈:41%创业者惨陷红灯区泥潭!日程安排需求5分却被忽视,客服机器人91%准确率反遭40%员工抵制,你还在死磕错误方向?已关闭评论
斯坦福大学的研究表明,近半AI创业者选错了方向。这里边到底谁对谁错呢?
大家好,欢迎收听老范讲故事的YouTube频道。大家都在指点江山,但是人家斯坦福大学肯定要更专业一些。
7月7号,斯坦福大学的HAI(叫以人为本的人工智能研究所)与数字经济实验室,发布了一个工作论文,叫“员工真正希望从人工智能中得到什么”。这样的一篇论文,有兴趣的可以自己去找这个论文来看一下。里边讲到很大比例的AI创业者呢,都找错方向了,大概41%的AI自动化,正在做没人想要的事情。那这论文到底说什么了呢?
他呢,首先做了一个打分。论文我们要去看他的研究方法,数据来源是不是可靠。像我老范坐在这,我可以一拍脑袋说,以我过去的经验怎么怎么样,大家听个乐就可以了。但是人家这个呢,一定是要有严谨的数据收集过程的。
首先呢,他们先去选择任务,每个月至少要做一次的任务,而且呢能够被数字化的任务挑出来,一共是2,131项任务。你说我这个任务十年碰不到一回,这用不着了;或者说我这个任务完全没法数字化,也用不着了。然后呢,对这些任务进行去重,你说这个任务跟那个差不太多,算一项,去重了以后呢,一共剩了844项任务。
然后呢,要求一帮人,对这些任务打一个五分制的分。首先呢,他选了1,500名美国的在职人员,囊括104个行业,和刚才我们讲的844项任务,就是你至少要参与过其中的哪项任务,你才可以对他打分。你说我这事从来没干过,你去给打个分,这个不行的。而且呢,在题目前面还要插上说,跟工作的乐趣和失业风险,你也要进行考虑,帮助受访者呢平衡理性和情感。
他呢,通过语音访谈,让被调查者回想真实的工作场景回答,避免拍脑袋。所以呢,他先对这844项任务呢,进行了一个有没有人想要的一个调查。调查的过程,就是刚才我们讲的语音访谈,说你干过这事吗?干过,那你到底想不想要呢?这样的一个过程。
然后,再找了52名拥有AI agent系统研发经验的研究者和工程师出来,也是5分制打分。他们打什么呢?按照现有的大语言模型和工具链,让AI单独完成该项任务的把握有多大。同时做任务分类,H1级全自动,H5级必须人类主导。他对这个844项任务,再去做一个这样的打分。等于两个维度,一个维度说你想不想要,另外一个维度说做得了做不了。
把这两个维度的分数搁在一起,把所有844项任务呢,变成了四个象限,上下左右四块。这四块里头呢,第一个呢叫绿灯区,所谓的绿灯区就是高需求高能力,什么意思呢?就是员工也很喜欢,现在的技术也可以实现了。第二个呢叫做低需求高能力,这叫红灯区,就是技术很炫,但是呢没人想要。第三个呢是高需求低能力的区域,就是呢市场特别想要,但是现在做不出来。第四个呢是低能力低需求的区域,现在技术也做不出来,市场也不想要。一共分了四个区域。
为什么说错配呢?他们说现在看了一下,41%的热情都给了高能力低需求,或者是低能力低需求的这个区域了。而上面这个高能力高需求,和高需求低能力这个区域呢,配置的并没有那么多。
那他这个是怎么统计出来的呢?他呢,抓取了YC 5,156个项目的描述,这个直接上爬虫就可以了。爬完了以后呢,找GPT来做分类,说这项目跟AI到底有没有关系。抓完了以后呢,发现有1,723个项目呢,跟AI是有关的。然后呢,对公司的项目,与刚才咱们讲这个844项独立的项目,进行对齐,你干这事儿跟上面的哪一项是相关的。这个也是由GPT就可以搞定的。做完了以后,按这四个象限一分,发现41%在红灯区,绿灯和高需求区,配置的并没有那么多。
那么四个象限里,都包括些什么样任务呢?首先咱们讲绿灯区,有29%的创业者在这儿。绿灯区就是高需求高能力,我现在完全能做的了,大家也需要。第一个是访客日程安排,大家都打了5分,我们需要这东西。因为在美国做的调查,美国很多事情都是需要预约的,而且预约这个过程呢又特别麻烦。他呢,跻身在绿灯区的top one。任务本质是结构化信息的写入加提醒,AI专家评估为,现有的大语言模型技术和日历的API,可以一步到位。因此属于两轴皆高的立刻可落地区域。
搜集的信息是这样搜集回来的,但是他真的表达的是说,大家赶快都去做AI日程排布,这样的一个功能吗?其实不是这样的哈。大家仔细思考一下,这个绿灯到底说明的是什么?说明的是有大量的需要去进行预约的,这种需求是没有被很好满足的。你说我要去看医生,那这个医生预约两个月以后,这个并不是说,你需要把预约系统做的更好,而是需要更多的医生。但是你说医生多了以后,是不是现在医生的薪资就降低了,就跟韩国似的,说我们多招点医生上来去上学,医生就跑去罢工,说不行,你这多招了医生上学了以后,我的薪水就降低了。这个事呢,肯定需要靠AI进行更深层次的解决,但是这个报告里他就不管了,反正我们搜集了,排日程是最有需求的。
第二个呢叫做维护紧急呼叫档案,就是911,你打了电话去,进去以后发现有很多档案是错的。那么自动化意愿呢,1-5分制算完4.67。需求呢是批量整理索引去重,典型的CRUD项目。这个CRUD就是create,read,update和delete,就是把这个数据库增删改查的,这样一个事情。专家判定的是,完全可以靠现在这个能力搞定的事情。为什么大家需要干这个活呢?传统人工处理,导致15%的紧急呼叫响应延迟。你给我打电话了,说我这出一什么事,结果发现呢,你登记的什么路牌,或者是很多这些信息是错的。AI呢,可以将错误率从8.3%直接降至1.2%。边缘计算设备呢,也可以提供实时的这种GPS通话,记录警力分布数据,响应时间也可以极大的缩短。这个是美国人很需要的一个功能。
然后呢,叫更正工资记录。这个自动化愿望是4.6。比如说你到底迟到了早退了,还是有需要有奖励,还是需要有处罚的事情,这些呢是要去反映在工资里边。在这一块读取误差,计算差额,写回表单,AI在这个表格处理文本生成上的能力,其实已经很成熟了。所以也放到绿灯区里头。
我以前是做过人力资源管理系统的,给员工算工资,是一个非常非常麻烦的事情。而且呢,他需要在极短的时间内完成,需要考虑的东西呢虽然很多很复杂,但是呢毕竟是有限的东西,相对还是要容易一些的。基于规则引擎和自动化系统,可以处理92%的常规薪资纠纷,准确率呢高达98.7%。以前人事部和财务部,每个月底算工资的时候,都是这个脾气特别不好的时候,我们一般在这个时候,都是躲着他们走的。他们非常需要这个玩意,可以释放员工80%的时间用于合规审计,降低企业用工的一些风险。因为每个人收到工资以后,都会去算一下我自己的东西对不对,为什么多了为什么少了。工资发下去,他们还会上来说,为什么少发我了,到底怎么回事,这个月谁谁谁说了要给我涨工资,或者要给我一什么奖励,我怎么没拿着。这个事还是挺多的。这个就是绿灯区的项目。
但是绿灯区的项目,刚才我们也讲了,大家需要去思考这个绿灯背后,可能隐藏着更深层次的市场需求。有可能并不是让你把表面上绿灯的事情做完,而是需要去思考,整个的社会希望向哪个方向发生改变。特别是一些非常高需求的东西,都不是让你直接去干活了。
再往后呢,叫高欲望低能力区,有30%的创业者在这块选择,就是大家很需要,但是又做不太好。因为有技术的人呢,就肯定喜欢做这件事嘛,在这块努力是没毛病的。第一个呢,叫季度预算整合。工人呢,希望借助AI减轻繁琐的汇总,但是呢牵扯到多表关联权限校验,解释性要求,专家认为当前的大语言模型,仍然很难做到端到端的自动化,能力低。所以呢落到这个区域里边来了。
再往后,医疗影像诊断的多模态分析。现有的模型对于罕见病,如肺淋巴管肌瘤的识别准确率是62%,需要结合基因数据和临床记录,就是可能需要更多的数据搁在一起,进行多模态识别吧。联邦学术技术可整合跨院数据,在保护隐私前提下,将准确率提升到89%。这一块肯定是有需求的,看片子原来其实人在这块也是有问题的,看片子的人,可能对于其他的什么血象,一些这样的数值也没那么了解。现在有AI以后的话,让AI大模型,把各种的数据进行综合考量,一定是可以把诊断率提高很高的。而且对人进行医疗诊断,这个是有很大需求的。
再往后呢,叫教育领域的个性化学习路径规划。当前自适应学习系统的知识图谱,覆盖率仅有40%,无法动态调整难度系数,就是说我们没办法去根据人的学习能力,或者学习反馈,去给他设计新的教学方法。而且呢这种教学计划的调整,是很难进行有效的结果评估的。所以这一块呢,目前为止大模型也做不太好。一旦跟教育有关,他的需求还是很高的。
再往后呢是生成生产设备的维护排期。这个也有很高的需求,什么意思呢?你需要去排期,说我的设备到底什么时候应该生产,什么时候应该去检修。目前为止呢,工业设备的传感器数据,存在很大的噪音,15%的噪音,就是里头有很多数据不准,导致呢故障预测误报率高达38%。现在经常有什么波音飞机怎么样了,或者其他的一些设备出什么问题了,是怎么回事?他收集了很多数据,回来以后来确定说,从工程上说,你这个飞多少公里需要检修一次,但这玩意他不准。在这里头呢,大模型也没有做的那么好,需求还很高。你飞机掉下来了,这玩意需求肯定高。所以这一块大家如果有能力的话,也可以努力的冲锋一下。
再往下呢,叫红灯区,就是低欲望高能力区,我现在可以做的很好,但是没人要。有21%的创业者在这里努力。第一个任务是撰写创意文稿,这个是AIGC干的第一个活写文章。大语言模型已经可以生成流畅的文本了,而且能力很高。但是呢工人愿望仅有1.6,5分1.6是他的愿望。72%的编辑认为AI创作缺乏深度,61%担忧技术价值被削弱。这就属于担心失业的这帮人。尽管技术可行,但是编辑岗位的自动化接受率,仅有17.1%,远低于技术乐观派的预期。
然后是客服聊天机器人。GPT4已经能够处理85%的常规咨询,一响应准确度高达91%。但是呢40%的客服人员认为AI缺乏同理心,32%担心客户满意度下降。但其实他们担心的还是失业嘛。员工呢更倾向于H4级协作,就是人类主导加上AI辅助。刚才我们讲了,有50多个专家打分的时候呢,H1是AI全都能搞定的,到H5是完全人搞定的。在这里头这些客服希望做H4级的工作,我自己呢又可以省点力气,但是呢我还是主导。但是现在所有的研发都是向H1级,就是完全由机器主导,完全脱离人这个方向去发展的。
还有就是物流分析师的供应商联络工作。这个呢现在大语言模型也可以做的很好了。它基于大语言模型的供应链管理系统,可以自动生成谈判策略,响应速度比工人快5倍。但是呢53%的受访者认为,AI无法处理供应商的隐形需求,比如账期灵活性,41%担心失去客户关系的一个控制权。你去管理供应链的时候,这个里边还有很多灰色的地方,这个是人类不希望被替代的。这个是红灯区。
最后呢,就是低欲望低能力区,就是没人想要,也做不好这个区域。20%的创业者呢在这个里边努力。第一项任务解读工程图纸,愿望分是1.75,5分里头只有1.75分。现阶段多模态理解,3D语义抽取仍然比较难。现在看不懂这个图,AI能力低,优化级别低。现在呢在这一块也没有那么大需求。
再往后呢,叫追踪行李去向。愿望呢是1.5。该任务需要电话航空后端多方沟通,当前通用的代理难以整合。这个技术低需求也低。现在不太好搞。
然后是心理咨询师的情感支持对话。GPT4的共情准确率只有53%,无法识别非语言线索,比如微表情,包括语气语调都比较难以识别。82%的心理咨询师认为,AI可能泄露用户隐私,且缺乏法律责任界定。
然后是律师的复杂案件策略制定。现有的法律AI对于判例的关联分析覆盖率仅有35%,无法处理跨法域的冲突。91%的律师认为,AI应该定位为法律检索工具,而非策略决策者。法律这块我不是特别懂,但是写程序这块我是知道的,你问他各种细节的东西,他都做的很好,但是呢他特别容易钻牛角尖。我们一定要看着他的COT,就是思考过程叫思维链,你一定要看着这个东西,发现他走错路了的时候呢,你要给他提供新的思路,把他揪回来,他才能回的来。所以呢甭管是心理咨询师,还是律师的复杂案件决策,这个事到目前为止还只能依靠人。
还有一项是什么呢,就是绘图创意。愿望分呢是1.71。他们认为呢生成式视觉模型,在客户化的创意上,版权合规上都还存在着局限性。Midjourney、达利生成的图片,在这块都是有问题的。专业设计师不期待AI全接管。达利3生成的设计方案呢,仅12%符合品牌调性,且缺乏文化隐喻的深度。你让他去理解一些我希望隐藏的一些含义,基本上没法整。艺术创作者,艺术创作的需求呢,集中在H5级别,就是人类完全主导,AI呢仅提供一些素材就可以了。这一块呢是低欲望和低能力区。
现在呢红灯21%,低欲望低能力是20%,他们俩加起来是41%。最后这种报告的意义在什么地方?我们是不是应该照着这个报告的方式,去选择我们的创业方向了?不是这样的。这个报告最重要的一点,是展示了有效的信息搜集和形成决策的一个过程。我应该怎么去搜集信息,我们应该如何去划归任务,我们应该去做什么样的访谈,访谈完了以后呢,怎么对这些任务进行象限的划分,怎么去判定大家到底都在做什么事情,而且哪一部分是可以靠AI来搞定的。你比如说我爬虫,爬了YC的四五千家的创业公司,找到其中跟AI相关的1,700家,再对他们进行844项任务的对齐,你们到底是做哪项任务的,然后再拿四个象限去套。后边的部分完全是AI搞定的,就是AI负责了整个的数据统计和分析的部分。前面怎么去找人去设计问卷设计报表,应该也是AI搞定的。他们只需要给1,500个人打电话,然后去找到51位AI editor的专家去打分,就可以搞定了这样的一个报告出来。
但是呢要注意一点,就是这个报告并不完全可靠。大家不要说这一块是绿灯的我要冲,那一块是高欲望低能力,我要去研发。不要去直接这么简单的使用这个报告。第一个呢是搜集信息的过程并不全面,存在情感和偏见。还有一点是很重要的,什么呢?就是打分的是打工者,不是决策者。打工的人是没有权利去决定我买谁家的系统的,他们是要被AI替代,是要失业的这帮人。所以他们在这个里边会有一定的偏差。未来的世界呢也是动态变化的,不是按照现在这个状态不一成不变的。所以呢我们可以去仔细的思考和解读这个报告,但是解读的方式并不是简单的是使用。
那么应该如何选择创业方向呢?你说我有关系有行业背景,也有行业数据,先找个绿灯区域先做起来,先挣一笔钱再说。或者说我是不是可以去做一些颠覆性的事情,你也可以在绿灯区域去找。刚才我们也讲了,很多绿灯区域都是需求极其强烈的,但是他强烈的过程,并不是因为说我们真的想要排好日程,而是说整个美国社会的预约制度,给大家带来了极大的痛苦。解决的方法并不是说我做好预约系统,而是增加前面的供给。这个可能就需要换一个思路去思考了。
第二个有技术,可以尝试一些高欲望低能力的区域,突破AI的技术瓶颈。最多的人在这块,30%的创业项目都在这。你比如说我去解读一下,医疗影像这块,肯定还是值得大家去努力的,而且这一块呢也更容易拿到钱。
至于红灯区呢,不是说到红灯区,就是高能力低需求,这些东西我们就躲着走。比如说智能客服机器人这种东西,大家注意访谈是来自于打工人,不是来自于决策者。打工人是害怕失业的,决策者是想降本增效的。所以呢对于决策者来说,这个区域未必是红灯区。大家做的时候自己去思考。
至于最后这个低欲望低能力区呢,确实需要谨慎一些。但是呢如果你是真爱,说我真的喜欢这一块,那也不妨去尝试一下。真正的有可能出大型公司的,这个领域呢,其实是绿灯区跟这个低欲望低能力区。这里头有可能会真正的出现,颠覆社会的这种大型公司。而其他这些区域里头,红灯区和高需求低技术的这个区域,咱们做一做,有可能会出一些小型的成功公司。大型成功公司,或者是真正的跨时代的这种,成为美股七姐妹那样的公司,是比较难的。
好,这个故事就跟大家讲到这里。感谢大家收听,请帮忙点赞,点小铃铛,参加discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
RSS