近期中央密集(jí)点名(míng)“新基建”,备受关注。人工智能作为新基建核心领(lǐng)域(yù)之一,展(zhǎn)现出强大成长潜(qián)力(lì),将成为(wéi)产业(yè)数(shù)字(zì)化的重要驱动。乘(chéng)着东风(fēng),多(duō)模(mó)态融合发展(zhǎn)或为人(rén)工智能深入(rù)拓展(zhǎn)场(chǎng)景、实(shí)现万(wàn)物互联提供不竭动力。
近(jìn)日,由(yóu)蚂蚁金服(fú)牵头制(zhì)定的“生物特征识别多模(mó)态(tài)融合国际标准”正式立项,这一标准的制定,对于多模(mó)态(tài)领域(yù)发展(zhǎn)与技术规范产生了重大影响。
为此,笔者(zhě)与眼神(shén)科技、云从、银河水滴等(děng)多(duō)个企业方,进行了关于多模(mó)态领域发展主题的对话。相较(jiào)于多模态(tài),我(wǒ)们(men)应该先(xiān)了解单模态(tài)。在对话(huà)中笔者了解到,对于(yú)指纹(wén)识别、人脸识别(bié)、虹膜(mó)识别、指静脉识别等每一种生物(wù)识(shí)别技术,通过每一种算法用一个(gè)传(chuán)感器去(qù)解决一个问(wèn)题的模式(shì),即(jí)为(wéi)单模态。
后来,随着AI发展和信息化的迭代,不同信息从不同方位(wèi)、不同(tóng)传感器(qì)一拥而入,单一识别(bié)技术已(yǐ)经(jīng)很难满(mǎn)足这样的(de)发展,在这种情况下,多模态(tài)技术应场景而生。但多模态并(bìng)不(bú)是(shì)单模态的简单叠加或组合替代,而是基于数(shù)据融合的算(suàn)法(fǎ)融(róng)合、并依托平(píng)台决策为(wéi)支撑(chēng),是单模态生(shēng)物识别技术的重大突破,也是(shì)识(shí)别(bié)技术(shù)的未来发(fā)展方向。
目(mù)前,多模态技术主(zhǔ)要(yào)应用于线上娱乐、身份认证、医疗健康(kāng)、智(zhì)慧金(jīn)融、安防、教育、军工、园区等领域。
应(yīng)用驱动下(xià),多模态成(chéng)AI行业发展新风向
多模态从2018年开(kāi)始成为技术行业的焦点。那时,很多国内大企(qǐ)业,如华为、腾(téng)讯、百度、阿里等公司,都开始逐渐把目光瞄向多模态;很多(duō)创业公司,如眼神(shén)科技、云从、依图、银(yín)河水滴(dī)等也在思(sī)考这个方向性的发展问题。
腾讯(xùn)AI Lab的博士俞栋曾说“多模态是迈(mài)向通用(yòng)人工智能的重要方向”,通用人工智能是弱(ruò)人工智能时代需要走(zǒu)的一个方向,弱(ruò)人工智能是“见(jiàn)多识广”,解(jiě)决的是(shì)感知问题。
在眼神科技创始人兼CEO周军看来:“通用人工智能具(jù)有几(jǐ)个属(shǔ)性:自学习、增量学习、增强学习(xí),这些内容结(jié)合在一块,是强人(rén)工(gōng)智能。从弱人(rén)工智(zhì)能到(dào)强人工智能的奇点,截止目前还(hái)没有突(tū)破(pò)。”“见少知多”、“不见而预知”的强人工智能时代,这是国际前沿人工智能公司一直努力多年的事情,但是技术遇(yù)到了天花板。
据了解,眼神科(kē)技从早期就已经完(wán)成了指纹识别、人脸(liǎn)识别、虹膜识别技术的研发,形(xíng)成(chéng)基础算法,其在(zài)面(miàn)向市场推(tuī)广(guǎng)中发现,单一技术决策存在局(jú)限(xiàn),并在(zài)应用驱动下推出(chū)多模态(tài)融合生物识别技术。“多模态(tài)融合生物识别可以提(tí)升识别精准度,也能在(zài)一定(dìng)程度(dù)提升(shēng)生物识(shí)别技术的场景适(shì)应性和(hé)隐私安全性。”眼神(shén)科技(jì)表示。
简单来说,模态就(jiù)是“感官(guān)”,多(duō)模态就是将多种感官融合的方式。云从科技(jì)解释(shì)道:“如果把‘模态’通俗地理解为感官,那么智能音箱就是一(yī)台只具备(bèi)听觉模态(tài)的物联网设备,而加(jiā)载AI分析能(néng)力的摄像头可(kě)以视(shì)为视觉模态的(de)物联网设备,把听觉、视觉甚至更(gèng)多模态组(zǔ)合到一起,可诞生多模态物联网(wǎng)”。
与眼神科技、云从(cóng)科(kē)技领域(yù)略有不同的步态识别企业银河水滴(dī)表示(shì),“多模态技术在我(wǒ)国早已(yǐ)得到广泛(fàn)应用(yòng),如(rú)在公共安(ān)防领域。另外,指纹和人脸识别等技术的配合(hé)使用也比(bǐ)较成熟,目(mù)前正在向更(gèng)深入(rù)更广泛的(de)程度迈进,在这个过程中,步态识别(bié)技(jì)术越(yuè)来越(yuè)受到重视”。
据悉,步态识别是一种新兴(xìng)的生物特征识别技(jì)术,相较(jiào)于其他识别方式,步态识别的(de)识别距离更远(yuǎn)。例如(rú),普通高清摄像机下识别距离最远可达50米,属于非受控识别,无(wú)需识别对象主动配合。步态识别是由体型、头型(xíng)、肌肉力量、运动神经灵敏度、走路姿(zī)态等共同决定,局部变化并不会影响识别结果。
因(yīn)此,步态识别技术可以有(yǒu)效(xiào)弥补(bǔ)其(qí)他识别技术的不足,比(bǐ)如(rú)识别距离普遍较短(duǎn)、需要主动配合或接触等问题。结(jié)合(hé)了步态(tài)识(shí)别(bié)的多模态技术将有更广泛(fàn)的应用前景。
同时,银河水滴(dī)也(yě)称:“每(měi)一种信息的来源都可(kě)以(yǐ)称为一种模态。就AI而言,步态、人脸、虹膜、指纹、语音等生物特征(zhēng)模(mó)态是机器识别(bié)的依据,多模态识(shí)别即是一种结合以上多种识别技术的解(jiě)决方案(àn)。任(rèn)何(hé)一种(zhǒng)识别(bié)方式都有一定的不足(zú),多种模式结(jié)合(hé)可以达到更好的(de)效果(guǒ)”。
新基建下,多模态融合的AI行业进入快车道
国(guó)家新基建政策的颁布,让AI行业拥(yōng)有了更大(dà)的发展空间,加之(zhī)这次生物特征(zhēng)识别多模态(tài)融合标准(zhǔn)的立项(xiàng),更是让AI有了更多的想象空间。
新(xīn)基建(jiàn)实际上是新时代下,可促进物(wù)质、能量、数据更高效产生和流动,使其朝(cháo)着(zhe)能(néng)够产生更(gèng)大价值的地方(fāng)汇聚,这次新冠疫情已经切身感受到基于AI技术下(xià),新基(jī)建所带来的社(shè)会效应。
云从科技(jì)称(chēng),新基建下AI得到(dào)很好应用,而多模态融合是AI技术发展(zhǎn)必然结果,因为(wéi)单点技术存在瓶颈,无(wú)法很(hěn)好发挥(huī)AI的作用,容易导致部分(fèn)功(gōng)能和体验感缺失(shī)。
而在多模态或AI技术闭环的支持下(xià),AI可(kě)以在消(xiāo)费端(duān)与生产端更(gèng)好服务社会。“AI是‘头雁’,解决的是问题本身,怎样让能力提高,怎(zěn)么(me)去解决问题。让AI引领技(jì)术发展是整(zhěng)个行业,也是云从当(dāng)前思考的主(zhǔ)要问题。”云从科(kē)技补充道。
在(zài)消费者端,最能体现更好、更(gèng)自然(rán)交互(hù)的是一位24小时的(de)个人(rén)助理,它(tā)能知道用户什么(me)时(shí)候(hòu)想(xiǎng)要什么(me),用(yòng)户永远能得到自(zì)己期望的服务。
在生产者(zhě)端,人机协同将能扩展(zhǎn)人类专家的(de)能力,比如现在(zài)医生一(yī)天只能诊断10个(gè)人,未来也许在AI的帮助下,通过语音、AI诊断(duàn)、视(shì)觉辅助、大数据等(děng)技术(shù)可(kě)以一天诊断1000个人。
云(yún)从科(kē)技总结(jié)了(le)目前AI设备技术闭环的(de)三种形式:1、感知,包(bāo)括语音识别、语义理解、多轮(lún)对话、NLP、语音精(jīng)准(zhǔn)识别等领等(děng);2、认知,包括自然物体识别、人脸识别、肢体动作识别(bié)等;3、决(jué)策,包括AI对热量(liàng)、红外捕捉(zhuō)信号、空(kōng)间信号的阅读(dú)与理解。
眼神科技则向笔者(zhě)表示:“新基建(jiàn)的重要领域之一(yī)就是AI,乘着(zhe)“新基建”的东风(fēng),AI行(háng)业发(fā)展将加速(sù)进入快车道。从(cóng)这(zhè)次新(xīn)冠疫情中可以看到,AI在公共安(ān)防、疫情(qíng)防控、远程(chéng)办公及服务中(zhōng)发挥了重(chóng)要(yào)作用”。
此外,中国基础设施的(de)“智能化”建设迫(pò)在眉睫,智慧城市、智(zhì)慧安防、智能医疗、智慧社(shè)区(qū)、智慧教育等基础设施智能化建设(shè)进入全面爆发期,将(jiāng)为AI拓展更多创新应用场景(jǐng)和市场空间。在眼神科技看来,“在AI应用场景不断深耕,以及5G、大(dà)数据、云计算(suàn)等新兴技(jì)术的融(róng)合推(tuī)动下,多模态融合生物识别是AI未来发展的(de)必经(jīng)之路”。
不过,目前AI还处于一个初(chū)级阶段,更为关注的(de)是更简单层次的交(jiāo)互。比如语音、人脸识别,这些只(zhī)是感知阶段。而且在信息化时代下,很多场景每天都会产生(shēng)海量的视(shì)频和图像数(shù)据(jù),但这些信(xìn)息并没有得到很好利用,大量值得挖(wā)掘的潜在价值,被使用的也仅是冰山(shān)一角。
对此,眼神科技(jì)称(chēng),“在实战应用场景会有很多不可控(kòng)的因素,比如遮挡(dǎng)、光照等,这些会影响生物(wù)特征识别技(jì)术(shù)的应用,行业需要针对现有实际问(wèn)题,对各种识别技术进行不断(duàn)的研发(fā)和优(yōu)化算法”。
云从科技也表示,“现在AI仅处于初步发展(zhǎn)阶段,解决(jué)的(de)是简单层次的交互(hù),更深层次的多模态融合交互,目前做得还远远不够(gòu),有待继(jì)续加强”。