最具(jù)“情商(shāng)”的新一代(dài)智能机器人来了!能(néng)读(dú)懂上下(xià)文
也许你也有过(guò)这样的(de)经历,向(xiàng)智能客服咨(zī)询问题,却陷入毫无进展(zhǎn)的对话里:
-你们家的(de)面膜都是(shì)纯天然的?
-亲亲,我们家的面膜都(dōu)是芦荟精(jīng)华提取,纯(chún)天然的哦~
-我皮(pí)肤有点干,推荐一款呗~
-冬天皮肤干燥(zào)推荐给亲亲我们(men)的保湿精华乳~
-我(wǒ)是要买面(miàn)膜,你是(shì)机器人吧,让人来说话。
作为顾客,此时你大概要叹一句(jù)“人(rén)工智(zhì)能真不智能”。这些所谓“智能”客服们往往(wǎng)只能(néng)做(zuò)到(dào)一问一(yī)答,一旦对话(huà)涉及稍微复杂(zá)的情(qíng)境,它们就(jiù)开始答非所问。
让人工智能学会根据上下文去处理信息(xī),是自然语言处(chù)理技术一个关键的(de)门槛,也是多年(nián)来整个学术(shù)界和工(gōng)业界都在努力攻克的(de)难(nán)题(tí)。尽(jìn)管在通(tōng)用NLP领域,gpt-2,BERT等算法模型(xíng)的出现,让语(yǔ)义理解取得了重大进(jìn)展,但(dàn)是由于专(zhuān)业性强、垂直(zhí)语料库不足等原因,某(mǒu)些亟待落地的应用场景,例(lì)如高强(qiáng)度的客服对话,还(hái)深陷在开头(tóu)出现的“人(rén)工智(zhì)障”泥潭中。
最近,这个难题(tí)迎来了新进展。晓(xiǎo)多科技(jì)(下称“晓多(duō)”)开发的(de)基于上下文的语义识别项目,以深度学习的方(fāng)式,让智能(néng)问答(dá)机(jī)器人能(néng)够(gòu)像人(rén)类一(yī)样,结合语境去理解复杂(zá)场景(jǐng)下的对话,并(bìng)且进(jìn)行持(chí)续的自(zì)我学习,无(wú)需人(rén)工设置规则(zé),也能不断扩展和覆盖更(gèng)多的(de)场景。
从一问一答(dá)到读懂语境
为什么(me)人(rén)工(gōng)智能会有这些“不智能”的(de)表现(xiàn)?这是因为目前市面上(shàng)主流的(de)智(zhì)能问答机器人,大部(bù)分都是根据单(dān)个句子(zǐ)来识别顾(gù)客的意(yì)图,从而进行(háng)一问一答的任务型对话(huà)。但在日常聊(liáo)天(tiān)对话中,我们习惯口(kǒu)语化表达,尤其(qí)在打字(zì)时,一般不会大段大(dà)段地发送,而会使用很多(duō)断句(jù),这种零碎(suì)的表达使得机(jī)器人无法从(cóng)单个句子中准确识(shí)别(bié)出(chū)你的真实(shí)意图,造(zào)成(chéng)答非所问(wèn)的情况。
这对于服务业来说是一个致命伤。
和普通的闲聊(liáo)机(jī)器人不同,智(zhì)能客服必须做到对各种场景(jǐng)的精准(zhǔn)识别(bié)。因为智能客服面对(duì)的工(gōng)作,是要及时地、明确地(dì)解决顾客(kè)的问题(tí)。
当你和闲聊机器人逗趣的时候,它答非(fēi)所(suǒ)问的(de)话并(bìng)不(bú)会让(ràng)你烦躁,反而觉得很有(yǒu)趣味;但当(dāng)你只想赶紧退货(huò)或者得(dé)到赔偿时,智能客服的胡言乱语足够让烦(fán)躁的(de)顾客给这家店铺打上0星,并在评(píng)论(lùn)区洋洋(yáng)洒洒(sǎ)好几(jǐ)百字,控诉店铺(pù)服务(wù)不到位。
在商品售前阶段也是这样,智能客服错误的回复或答非所问,都会影响顾客的(de)体验度,平台商家竞争激烈的情况下,得不到满意(yì)答(dá)复的顾客可能会很快(kuài)放弃,选择另外一家店(diàn)铺,从而(ér)造成顾客的(de)大量流(liú)失。
单(dān)句识(shí)别与上(shàng)下文识别的差别
解决这一问题的关键,在于要让机(jī)器(qì)人像人一样(yàng),学(xué)会联系(xì)上下文(wén),结合(hé)语(yǔ)境来对话,而不(bú)仅仅对单(dān)个句子作出反应(yīng)。
目前市(shì)面上其他机器(qì)人都不支持上下文语义,他们是在靠规则和(hé)流程设(shè)置关键词。也就是说(shuō),这个情景(jǐng)中需要什么信息,就要设(shè)计出对应(yīng)的问题,让机器人按照固定的顺序提问(wèn),顾客按照要(yào)求(qiú)回答完所有(yǒu)问题,机器人才(cái)能(néng)根据所有(yǒu)信(xìn)息(xī)来(lái)进行(háng)回应。
例如,顾(gù)客要购买飞机票,就(jiù)要设定机器人首先询问顾客起点、终(zhōng)点、时(shí)间(jiān),再(zài)问顾客(kè)想(xiǎng)要什么(me)等级的(de)座位等等,通过这些(xiē)固定问题的答案(àn),把(bǎ)需要(yào)的信息补充(chōng)完整,最终给出(chū)推荐。
在这种(zhǒng)情况下(xià),每一(yī)个场景都需要人工去设定对应的规则,效(xiào)率十分(fèn)低下。尤其在电商领域,从售(shòu)前到售中,再到售后(hòu),涉(shè)及到的问题(tí)是方方面面的,更别(bié)说还有购(gòu)物(wù)品类的(de)区别,场景的(de)扩展(zhǎn)是指数级的,靠人工设定规(guī)则去做到(dào)全覆盖(gài),说是(shì)天方夜(yè)谭也(yě)不为过。
如果能够将目前(qián)人工智能领域大热的深(shēn)度学习应(yīng)用到这一问题的(de)解决(jué)上,让机器人能够通过自己学(xué)习,掌握基于上下文的语义理解,并持续学(xué)习扩展到各个场景中,就可以大大(dà)地提(tí)高智(zhì)能机(jī)器人面对复杂(zá)场景的(de)精准应对能(néng)力,同时(shí)提高(gāo)它覆盖各种场景的效率。怀着这样的想法,晓多(duō)开始了上下(xià)文语义项目。
让机(jī)器人(rén)自己“划重(chóng)点”:记住重要信(xìn)息,忘记(jì)不重要的
机器人自己(jǐ)学会理解(jiě)上下文(wén),困难在哪(nǎ)里(lǐ)?晓多算法工(gōng)程师、本次上下(xià)文(wén)语义项(xiàng)目(mù)的负(fù)责人张翀向大数据文(wén)摘(zhāi)介绍,最关键的问题(tí)在于要让机器人像人一样记得上(shàng)文的重要(yào)信息,并且知(zhī)道这些信息和当前问句(jù)的关联。
在这个问题上,目前学术界和(hé)业界并没有现成的(de)解决方案。对(duì)此,张翀介绍,晓多(duō)为新一代问答机器人创新设计了一个(gè)深度学习模(mó)型,包含四个模块:记忆与遗忘、提炼、融合、输出。
记忆与遗忘模块赋予机(jī)器人记(jì)住上文关键信息的(de)能力(lì)。没有记忆能力的机器人(rén),只会对最近的(de)一句话作(zuò)出(chū)反应,而晓(xiǎo)多的(de)模型可以帮助机器人把前后的(de)诉求关联(lián)起来,及(jí)时作(zuò)出(chū)准确的(de)推荐。
点击(jī)图片查看详细内(nèi)容
在技术上,晓多做(zuò)出了一(yī)个此前业(yè)界还没有实现(xiàn)过的(de)创新应用,参照(zhào)一个名叫(jiào)长短期记忆网络(luò)(LSTM)的结构,设计实现(xiàn)会话级别的记忆和遗忘。
晓多(duō)的又一创新,是应用于提炼(liàn)模(mó)块的注意力机制(zhì)。它会自动对上(shàng)文的每一条(tiáo)信(xìn)息进(jìn)行计算,算出这些信息与当前句子对应的(de)重要程度(dù),重要程度高的,就(jiù)会被保留(liú)下来(lái)。
假(jiǎ)如顾客(kè)得到(dào)了满意的产品推荐之后,又提出“什么时候发货”的问(wèn)题,注意力机(jī)制通过计算,就会发(fā)现上文的重(chóng)要程(chéng)度并不(bú)高,这样,无用的信息(xī)就会被过滤,与当前(qián)对话有关联的上文(wén)信息被选取出来,进入下一个模(mó)块(kuài)中。
在(zài)融(róng)合模块中,机器人(rén)会对(duì)提炼(liàn)出的上文关键(jiàn)信息和当前聊(liáo)天消息结合,来识(shí)别顾客的意图。晓多采用(yòng)的方式是在向量空间做梳理,简单来说,可以(yǐ)理解为提取上文关键信息是在机器人大脑内部的(de)一(yī)个操作,这之后,再在一个抽(chōu)象的空间里,把(bǎ)提取出来(lái)的关键信息与当前的单句进行综合,最终(zhōng)输(shū)出一个(gè)结合上文信息和当(dāng)前单句所做出的判断(duàn)。
这个模型在实验中得到的数(shù)据(jù)令人惊喜。晓多从真实电商聊天(tiān)?志中抽取了若?涉及(jí)上下?的问答样本,构造两份意图(tú)识(shí)别测试集,分别对应两(liǎng)个电商领域,对?发现结(jié)合上下?预(yù)测的模型效果远超只根据单句预测的模型:
recall(召回率)=机器(qì)人正确识别的(de)问题数/问题总数;
Precision(精确率)=机器人正确(què)识别的问题数/机器人已识别(bié)的问题数;f1core=2*precision*recall/(precision + recall) ,表示(shì)综合考(kǎo)虑召回率和精(jīng)确(què)率(lǜ)的评分;
这些工(gōng)作并不是想到(dào)就可(kě)以做到的,对机器人的训练(liàn)需要(yào)大量的数据,迁移学习能力是晓多能(néng)够(gòu)实现这(zhè)些创新的关键。
“人工智能的深度(dù)学习,突出的特点就是对(duì)数据的依赖非常大,”张(zhāng)翀说,“因(yīn)为深度(dù)学习模型的参数非常多,你(nǐ)可(kě)以理解为它(tā)是一个(gè)更复杂(zá)的智(zhì)能体,数(shù)据是(shì)它学习的依据,它要学习的东西越(yuè)多,需要的(de)数据就更(gèng)多,而你给它的数据越(yuè)多(duō),它(tā)也越聪(cōng)明。”
目前,晓(xiǎo)多的标注团队从上(shàng)百亿的(de)数据(jù)中进行分析提取的价值样本,提供给(gěi)机器学习进行数据训练。
如果每(měi)一步都需要人工设计,从发现场景、总结规律(lǜ),到(dào)最后开发、测(cè)试(shì)、上(shàng)线(xiàn),可能需要至(zhì)少两周(zhōu)的(de)时间才能扩展一个(gè)场景,张(zhāng)翀介绍说(shuō),而使用这(zhè)样(yàng)的数据标(biāo)注让(ràng)机器进(jìn)行深度学习,只需要(yào)几天的时间,就可以同时扩(kuò)展几十个场景、几百个(gè)产品(pǐn)。
各(gè)个(gè)行业的电商客服(fú)需要(yào)应对的场景虽然有很多差异,但有一些数据却是通用的,包括关于快递物流的问答等。晓多对(duì)标(biāo)注好(hǎo)的数据进行了模块(kuài)拆分,区分(fèn)出通用数据,当机(jī)器人需要对新行业进行学习时,可以直接使用这(zhè)些标(biāo)注好的通用数据,实现迅速的扩(kuò)展学习。
谈(tán)到数(shù)据(jù)、算法和(hé)计算能力(lì)的关系(xì),张翀(chōng)认(rèn)为,数据(jù)是基(jī)础(chǔ),大数据为机器学习(xí)装上(shàng)引(yǐn)擎;算法是核心,将人工智能带到全新高度;而计算(suàn)能力是保障,为算(suàn)法的实(shí)现提供坚实(shí)的后盾。
不止于此(cǐ),顾客体验迎来(lái)后智(zhì)能化时(shí)代
从售前的商(shāng)品导购,到售中(zhōng)咨(zī)询(xún)运(yùn)费、活动赠品等,目前,晓多的上下文语义项目已经投入使用,覆(fù)盖了多种(zhǒng)电(diàn)商服务场景。这仅仅只是这(zhè)项技术投(tóu)入应用的第一步,晓多的业务(wù)计划中,还涉(shè)及到更(gèng)多的业务铺开。在售前,顾客可能(néng)会要求客服进行商品推荐,他们的需(xū)求点信息(xī)包含在整个对话过程中。传(chuán)统的客服机(jī)器人只能根(gēn)据顾(gù)客(kè)最后的需求进行推荐,而晓多机(jī)器人会对顾客的会话信息进行分(fèn)析,更(gèng)加准确地识别到顾客的真实需求,推荐给(gěi)顾客符合心意的产(chǎn)品。
点击(jī)图片查(chá)看详细内容(róng)
另外,对于(yú)电商行业中热门的服装领域来说,售前的服装(zhuāng)尺码推荐是客服经常会遇到(dào)的(de)问题,店铺(pù)内大量商品的尺码各不相同(tóng),尺(chǐ)码问题会耗费(fèi)客服大量的人力。通过上下文识(shí)别的手段,客服机器人可(kě)以获取顾客的尺(chǐ)码信息,准确地(dì)进(jìn)行尺码推荐。
点击图片查看详细(xì)内容
在销售过(guò)程中,顾客常常要询问运(yùn)费问题(tí),这就(jiù)涉及到了(le)首(shǒu)次购买(mǎi)和退(tuì)换货两种场景。没有上(shàng)文(wén)语境(jìng),机器(qì)人就(jiù)只能解(jiě)读出“运费(fèi)”,而不能准确地(dì)判(pàn)断(duàn)顾客询问的(de)是首次购物运(yùn)费还是退换(huàn)货运费,可能(néng)导致错误的回复。而在(zài)加入了上下文理(lǐ)解(jiě)后,机器人(rén)能够(gòu)准确判断顾客的实际问题,准(zhǔn)确地回复此类问(wèn)题。
点(diǎn)击图片(piàn)查看详细(xì)内容
另一个常(cháng)见的售中场景是关(guān)于活动赠品的问(wèn)题。当店铺进行活动优惠提(tí)供赠品时,顾客的提(tí)问可能不是针对商品,而是针对(duì)赠品,需要机器人(rén)通过语境来(lái)识别,防止混淆这两个(gè)方(fāng)面(miàn)的提问,给出张冠(guàn)李(lǐ)戴的答案(àn)。
这项技术不但可(kě)以应用在(zài)智能(néng)对话(huà)上,智能营销、智能质检、情(qíng)绪识别……客服行业(yè)中(zhōng)还(hái)存在着更多未被开发的可能性。
对(duì)于晓多来说,这意味着他们为顾(gù)客提供的服(fú)务,向(xiàng)超专家级更进了一步。“我们现(xiàn)在可能只是把它应用在语义识别上,但后续我们在其它(tā)业务线上还可以继续(xù)铺开。我们把它当成(chéng)一个基(jī)础的能(néng)力(lì),一个支撑我们整个公司的(de)算法产品。”张翀说。
晓(xiǎo)多也期待着,上下(xià)文语义识(shí)别可以作为技术基石应(yīng)用到(dào)行业(yè)各个(gè)方面(miàn),通(tōng)过推开这项(xiàng)技术的应用,机器人可以(yǐ)自动生成尺码表(biǎo),自动(dòng)获(huò)取个性化对话内容进行系统自动萃取对接等等,机器人行业一直(zhí)以(yǐ)来由人(rén)工配(pèi)置的时代(dài)可(kě)能走向终结,而迎来(lái)一个(gè)从数据(jù)中学习后智能(néng)化(huà)自动(dòng)生成的时代。