今年3月,重庆车企欧尚汽车智(zhì)慧快乐座舱在渝发布,将人工智能技术(shù)与汽车(chē)使用场景(jǐng)深度融合,打造了全球(qiú)首发的(de)车(chē)外语音交互系统。
这一系统的成功发布,是一(yī)批批汽(qì)车研发人员的共同努力。科大讯飞智能汽车重庆分中(zhōng)心总经理马(mǎ)鸿鹏(péng)带(dài)领团队攻坚克难乘势而上,用人工智能赋能智能(néng)汽(qì)车(chē)发(fā)展,助(zhù)力重(chóng)庆汽(qì)车(chē)产业转型发展。
马鸿鹏(中)与团队(duì)进行(háng)技术交流。科大讯飞(fēi)供图
研发:技术攻坚开创(chuàng)人机交互新格(gé)局
马(mǎ)鸿(hóng)鹏与(yǔ)重庆的结(jié)缘,从2018开始。
2018年智博会上,科大讯飞董事长刘庆峰宣(xuān)布(bù)将西南总(zǒng)部落地重庆,同时(shí)落(luò)地(dì)的(de)还有科(kē)大讯飞智能汽车的重庆分中心,马鸿鹏(péng)也成为该中心的总(zǒng)经理。与(yǔ)此(cǐ)同时,科(kē)大讯(xùn)飞还与(yǔ)长安汽车(chē)等重庆(qìng)车企共建(jiàn)联合实验(yàn)室,在汽(qì)车电子智(zhì)能化的技术研(yán)发、产品设计、以及(jí)整车应用领域展开合(hé)作。
“小安(ān)你好,帮我查一下北京的天(tiān)气。”
“好的(de),北(běi)京天气晴,白天(tiān)气温20度。”
“再帮我订一张(zhāng)去那儿的机票。”
……
这样的对话,在人与人交流中再平常不过,但是对于人机互动而言,想(xiǎng)要(yào)和机器持续对话,并让机器理解“那儿”就是上文所(suǒ)指的北京,技术难度不言而喻。
“在车内一(yī)次唤醒实现多个指令,还要实现上下文理解,这(zhè)种交互方式是之前没有的,但(dàn)却(què)是用户的痛点。”马鸿(hóng)鹏解释到,对于机(jī)器来说,机器需要记忆和(hé)理(lǐ)解(jiě)当前说话(huà)人(rén)的(de)意图和场景,就需要覆盖尽可(kě)能多的场景和可(kě)能问法,这种会呈几何(hé)级数增长(zhǎng)的算(suàn)法复杂度(dù),使软件(jiàn)的开发和维护(hù)都有较(jiào)大难度。
为了实现这(zhè)一智(zhì)能操(cāo)作,马鸿鹏带领着20多人组(zǔ)成的团队(duì)入驻长(zhǎng)安(ān)汽车,反复测试(shì)形成庞大的场景知识库,“通常(cháng)车内常(cháng)用指令不超(chāo)过2000种,但我(wǒ)们在车机(jī)上内置(zhì)了常用指令近(jìn)6000条,不常用指(zhǐ)令近2万条,才精准(zhǔn)实现了(le)用(yòng)户指令。”马鸿鹏说。
另(lìng)一项技术(shù)难点是,怎(zěn)样才能让语音(yīn)控制系统(tǒng)保持收(shōu)音状态,同时车内对非指令正常交流(liú)不作反馈?马(mǎ)鸿鹏说,他(tā)们在车内研(yán)发(fā)设置了声纹识(shí)别、声源(yuán)定位等(děng)系统,能够准确识别(bié)指令发出者(zhě)的(de)指令,而非(fēi)指令者和日常车内(nèi)交流则不(bú)会被(bèi)接收进(jìn)语音控制系统,让车内语音操(cāo)作更(gèng)加(jiā)智能和人性化。
如今,搭(dā)载了这些技术(shù)的飞鱼OS已(yǐ)经在长安CS95、CS75等车(chē)型上使(shǐ)用,也加速了重(chóng)庆汽车智能化发展的进程(chéng)。
马鸿鹏(右)与同事进行智能车载系统测试。科大讯飞供图
攻坚:攻(gōng)克关键(jiàn)技术助力重庆造汽车走(zǒu)出去
随着智能汽车产业发展,不少(shǎo)重庆汽车品牌也走向(xiàng)国际市场(chǎng)。马鸿鹏说(shuō),智能汽(qì)车(chē)在海外使(shǐ)用,必须适用当地的语种,而在过(guò)去外语(yǔ)的车载语音(yīn)识别及合成系统被国外企业垄(lǒng)断(duàn),国内车企只(zhī)能使用(yòng)国外企业的语音技术。“比如过(guò)去很长一段时间长(zhǎng)安汽(qì)车在面向中东(dōng)、南(nán)美等海外(wài)发行的车(chē)型中(zhōng),语(yǔ)音识别系统一直是采(cǎi)用(yòng)的国外技术,安全问(wèn)题(tí)是最大的考(kǎo)量。”
为了解决这一技术难题,马鸿鹏团队联(lián)合(hé)科大(dà)讯飞研究院展开长安汽(qì)车(chē)车载外语语音识别(bié)及合成系统研发。
“做车载外语识(shí)别,不(bú)仅需要听懂,还(hái)要理(lǐ)解其他国家的语言文化习惯,甚至同(tóng)一(yī)语种不同地区的口音,这就(jiù)需(xū)要有强大的识别(bié)模型和(hé)机器学习做支撑。”马鸿(hóng)鹏解释说,车(chē)载语音的“识别”分为“语音(yīn)识别”和“语义(yì)识别(bié)”两(liǎng)个(gè)技术层次,“语音识别”相当于(yú)人的嘴巴和耳朵(duǒ),负责表达和(hé)获取,而“语义识(shí)别”相当于人的大脑,负责思考和信息处理。为此,团队开创性地采用实体抽(chōu)取+动(dòng)态模板、融合(hé)深度学(xué)习的框架,将语言(yán)和语义技术剥离,构建出(chū)云+端多语种语义平台,基于该平台可快速(sù)实现(xiàn)多语种的语义理解(jiě)。
2021年,这套车载外语语音(yīn)识别系统已成功实(shí)现(xiàn)了国(guó)产化(huà),长安汽车(chē)海外发行的车型均(jun1)采用了这一国产系统,“关键技术的国产化不仅更稳定安全,在生产(chǎn)成本上也实现了降低(dī),助力国(guó)内自主品牌出海(hǎi)。”马(mǎ)鸿鹏(péng)说。
未来:“语(yǔ)音+视觉(jiào)”开创人机交互(hù)新体验(yàn)
“身居汽车行业(yè)内,我们(men)在(zài)不断思考,如何发(fā)挥人(rén)工智能优势,通(tōng)过‘AI+汽车’赋能重(chóng)庆汽车制造(zào)开(kāi)创新格局。”马(mǎ)鸿鹏说。
“以前汽(qì)车的语音交互(hù)都在(zài)车内,实际上车外智(zhì)能交(jiāo)互也是用户的需求(qiú),一门之隔下,研发道阻(zǔ)且(qiě)长。”马鸿(hóng)鹏举(jǔ)例(lì)说,以往用户(hù)在用车(chē)场景中(zhōng),常(cháng)会有开(kāi)门难、挪车难等痛点(diǎn),而这套车外语音交互系统可以(yǐ)让车主在车外唤醒(xǐng)车辆(liàng),比(bǐ)如在拥挤的(de)停车场,可以叫它“把车开(kāi)出来”,车辆即可自动向前驶出,购物归来双手不方便(biàn)开门,也可以说一声“打开(kāi)后备箱”,后备箱(xiāng)即可自动开启(qǐ)。
“车(chē)外语音交互相较车(chē)内语(yǔ)音(yīn)交互来说(shuō),难点在于如何保障车外噪音等复杂环境下(xià),机器能听(tīng)清楚并执行(háng)指令。”马鸿鹏(péng)说,为(wéi)了实(shí)现车外的(de)人车交互,他(tā)和团队独创了(le)神经网络降噪算法和“冷启动”系统两项技术,让车外语(yǔ)音交互(hù)系统做到(dào)360度语音降(jiàng)噪和无死角识别覆盖,实现稳定高效的车(chē)外语音交(jiāo)互(hù)。
未来,汽车智能化转型升级之路(lù)怎么(me)走?
“汽车革命的下(xià)半场是智(zhì)能化、网联化、共享化(huà)。”马鸿鹏说(shuō),他正在和团队开发多(duō)模态交互的新(xīn)技(jì)术,未来的智能汽车除了在语音交互外(wài),还将增加视觉感应(yīng)交(jiāo)互。比如,当你看向左(zuǒ)边车窗,发出(chū)“打开车窗”指(zhǐ)令,那么(me)车机将只打开左侧车窗;正在(zài)通过中(zhōng)控看地图(tú),说放大一点,车机将为用户(hù)放大地(dì)图。
汽车产业作为重庆(qìng)重(chóng)要的支柱产业,从车端、零部(bù)件、电池、软件等全产业链聚集,为重庆在智能(néng)汽车领域(yù)弯道超车奠定基础。马(mǎ)鸿鹏表示,科大讯飞(fēi)将发挥人工智能优势,进(jìn)一步从技术提供商,向信息娱乐系(xì)统、音响系统(tǒng)等迈(mài)进,走向(xiàng)软硬(yìng)一体(tǐ)化发展,助力重庆汽车产业智能制造。