36氪专访 | 「轮子科技」“玩秘”创始人余轲:探索元宇宙时代的NLP技术

2023-07-26 12:49发布

四年一度球迷的盛会又开始了,毕竟足球是全球第一大运动,世界杯更是万众瞩目。但不知从什么时候开始,预测冠军、预测每场比赛的结果、甚至关键场次的比分,已经变得比赛事本身受关注程度更高。从章鱼保罗,到百度、谷歌,从游戏公司到科技巨头,世界杯预测正在由普通人茶余饭后的八卦,变成科技公司AI能力的比拼。


在2018年的世界杯上,瑞士银行使用了通常用于分析投资机会的计量经济学工具进行比赛预测,得出的最终结论是:德国、巴西和西班牙将分列前3名。高盛采用深度学习的方法进行预测,结果截然不同,法国、巴西、葡萄牙将最终登上领奖台。


时隔五年,AI对本届世界杯的预测依然有很大分歧,到底冠军花落谁家让我们拭目以待。尽管在外界看来,这样的预测更多是噱头,看起来也更像是玄学范畴,但事实上在人工智能领域,基于大数据的预测是建立在严格的人类认知科学基础之上。


人工智能正走向AI 2.0时代,成为引领新一轮科技与产业变革的底层技术和驱动性力量。人工智能不但体现在智慧城市、智慧交通、智能医疗、智能制造等宏观产业布局,还潜移默化的改变着每个人工作生活的节奏。


“我们正在做的‘玩秘’不是简单的智能生活助理,它就像钢铁侠离不开的‘贾维斯’,玩秘也可以说是全生活场景的贾维斯,它能全权‘包办’点外卖、打车、看电影、订酒店等这些生活琐事。”苏州轮子科技有限公司创始人兼CEO 余轲向36氪表示。


贾维斯(J.A.R.V.I.S.)是漫威漫画中让人印象深刻的人工智能系统,它的全称是Just A Rather Very Intelligent System。如果每个人都可以拥有一个免费的贾维斯,或许我们每个人都可以离理想中的英雄更进一步。


轮子科技是一家NLP技术公司,从事语义解析型自然语言理解技术(Semantic Parsing NLP)的研发。不同于市场上大部分提供语音、语义识别及交互功能的NLP技术,语义解析型NLP可以在高阶应用中实现更高的准确率。


玩秘是轮子科技基于领先的语义解析型NLP技术所提供的个人数字生活助理服务,同目前其他类似服务所采用基于深度学习的“匹配”分类器方法完全不同,玩秘应用了因果关系推断算法框架(Bayesian Network),以此为基础才能演化为高阶“智能大脑”。


日前,36氪与余轲博士就Semantic Parsing NLP的落地场景、商业模式、发展空间等人工智能领域广泛关注的问题进行了一次开放的探讨。


关于语义解析型自然语言理解技术


自然语言处理(Natural Language Processing, NLP)是人工智能领域中最重要的分支之一,而语义分析(Semantic Parsing) 则是NLP诸多任务中最核心、也最具挑战的一项。


语义分析旨在将自然语言转换为机器能够理解的结构化语义表示,基于语义表示,下游NLP任务(例如智能问答和对话系统等)能够从对应的结构化知识图谱中进行相关信息的精准查询,并将其用于输出结果的生成。


“2011年,加州大学洛杉矶分校的知名教授Judea Pearl因为开发并倡导因果推断算法,并应用在人工智能领域所作出的贡献而获得图灵奖。”余轲博士介绍到:“Bayesian Network(贝叶斯网络)毫无疑问是因果推断算法里程碑式的研发成果,在海外的学界和产业界都产生了巨大的影响。”


人工智能、量子计算等前沿领域的大量最新技术都会率先应用于金融科技、生命科学、高能物理等领域。 “贝叶斯网络是非常经典的白箱方法,我带领大规模算法与工程化团队在这个领域进行过5年以上的深入研发。”余轲进一步谈到。


余博士曾任国际顶级投行与算法交易商摩根大通公司的新闻信息流算法交易(News-Driven Algorithm Trading)全球总负责人,所带领近三百人团队的NLP算法交易业绩居华尔街第一。此前,在NLP领域只有华尔街的新闻信息流算法交易团队与Google公司的Duplex/LaMDA团队,在国际上曾大规模对Semantic Parsing NLP技术进行研发并商用化。


“尽管我们团队的交易收益率已经全球领先,但量化交易的本质是量化套利,真正的套利空间只有 2% 到 3% 。并且,虽然交易离钱最近,但对全球尖端的 Semantic Parsing NLP 技术来说,几百亿的市场天花板有点太低了,这项技术可以通过产品和服务的形态,去改变每个人的生活方式,甚至成为生活中必不可少的一部分。”余轲认为 Semantic Parsing NLP 有着非常广阔的应用前景。


轮子科技在过去多年底层技术研究的基础上自主研发了基于贝叶斯网络的Causal Inference NLP算法框架,模拟人类因果认知系统,实现高理解准确度的Semantic Parsing NLP解决方案。


NLP作为一种理想的交互方式,将与元宇宙互相成就


过去一年多以来,元宇宙始终是科技、创投领域关注的焦点,但从整体来说又进展缓慢,即使Meta这样规模的科技巨头也被元宇宙拖住了增长的脚步。


但从长远来看,技术的瓶颈终将被打破,元宇宙也不仅限于改善文化、游戏、电商、娱乐等应用领域的体验,更将是数字技术的革命,同时带来生产力的大幅提升,从而在更大的范围内推动社会进步。元宇宙是数字文明的重要成果,拥有广阔的发展空间和无限的可能性,同时,也将不断地回馈社会。


余轲认为:正在成为趋势的第四次工业革命和元宇宙,本质上是由算力和人工智能水平的大幅提升所驱动,而NLP作为AI的基础能力,也正迎来变革和巨大的发展空间,玩秘的愿景则是成为元宇宙时代的生活虚拟助理。


从技术的角度来说,语义分析引擎(Semantic Parsing Engine)已经成为目前很多人工智能产品的核心模块,比如新一代的搜索引擎、数字人等。但是在现实应用场景中,对自然语言进行语义分析标注的成本高、效率低、难度大,因此,无论是产业界,还是学术界,现有的语义分析数据集存在数据规模小、问题种类少、问题模板结构过于单一等缺陷。


在实际生活场景中,只有最低等级复杂度的语义理解,如询问天气、定闹钟等可以达到较高的理解率,这也是智能音箱等语音交互类智能终端目前的技术瓶颈。


遇到比如订电影票或者打车这种中等复杂度的语义理解场景,大部分NLP的理解率尚不足50%。而对于外卖订餐这样的高复杂度场景,不只包括推荐餐品,还涉及到凑单满减、荤素组合搭配等多重变量,语义分析维度和复杂度非常高,对于传统NLP来说很难获得到令人满意的理解率。


余轲博士向36氪介绍:在最近一年中,轮子科技集中精力进行算法框架的研发,目前,玩秘已经从第6代NLP框架迭代到第7代框架,对订外卖等高阶语义理解难度领域,语义理解率从45%已升至约80%的水平。


提高中高阶语义理解难度场景的理解率是应用得以商业化的核心前提,建立在Causal Inference NLP算法框架上的Semantic Parsing NLP解决方案,让基于移动端、车端、智能家居等不同智能终端的高理解准确度个人数字生活助理服务成为可能。


下一步,玩秘的服务将会涵盖订外卖、打车、推荐餐厅、线下娱乐、预订酒店等领域,覆盖全国95%以上的地级市。通过智能终端,采用语音交互的方式,玩秘可以识别用户的多重需求,并给出精准推荐和简便的服务。


余博士认为:从长远来看,NLP会成为伴随元宇宙逐渐具象化的底层技术,并且,对于元宇宙中的AR/VR/MR等各种可穿戴智能设备,NLP都是更自然、且交互成本最低的交互手段,玩秘在本地生活领域突破最难的挑战之后,也会把Semantic Parsing NLP的核心能力运用到游戏、数字人、直播、娱乐的元宇宙场景中。


作为面向下一代互联网的商业化产品和服务,NLP还需要一定的时间来下沉到不同的垂域,去探索终端用户真正的需求和体验。余轲强调:如果一家公司想长久创造可观的利润,一定要为社会提供价值。玩秘致力于通过为更多用户提高生活便利性,创造“便利性溢价”,从而体现人工智能的社会价值。