九游官方网页版-九游(中国)

近期中央密集（jí）点名（míng）“新基建”,备受关注。人工智能作为新基建核心领（lǐng）域（yù）之一，展（zhǎn）现出强大成长潜（qián）力（lì），将成为（wéi）产业（yè）数（shù）字（zì）化的重要驱动。乘（chéng）着东风（fēng），多（duō）模（mó）态融合发展（zhǎn）或为人（rén）工智能深入（rù）拓展（zhǎn）场（chǎng）景、实（shí）现万（wàn）物互联提供不竭动力。

近（jìn）日，由（yóu）蚂蚁金服（fú）牵头制（zhì）定的“生物特征识别多模（mó）态（tài）融合国际标准”正式立项，这一标准的制定，对于多模（mó）态（tài）领域（yù）发展（zhǎn）与技术规范产生了重大影响。

为此，笔者（zhě）与眼神（shén）科技、云从、银河水滴等（děng）多（duō）个企业方，进行了关于多模（mó）态领域发展主题的对话。相较（jiào）于多模态（tài），我（wǒ）们（men）应该先（xiān）了解单模态（tài）。在对话（huà）中笔者了解到，对于（yú）指纹（wén）识别、人脸识别（bié）、虹膜（mó）识别、指静脉识别等每一种生物（wù）识（shí）别技术，通过每一种算法用一个（gè）传（chuán）感器去（qù）解决一个问（wèn）题的模式（shì），即（jí）为（wéi）单模态。

后来，随着AI发展和信息化的迭代，不同信息从不同方位（wèi）、不同（tóng）传感器（qì）一拥而入，单一识别（bié）技术已（yǐ）经（jīng）很难满（mǎn）足这样的（de）发展，在这种情况下，多模态（tài）技术应场景而生。但多模态并（bìng）不（bú）是（shì）单模态的简单叠加或组合替代，而是基于数（shù）据融合的算（suàn）法（fǎ）融（róng）合、并依托平（píng）台决策为（wéi）支撑（chēng），是单模态生（shēng）物识别技术的重大突破，也是（shì）识（shí）别（bié）技术（shù）的未来发（fā）展方向。

目（mù）前，多模态技术主（zhǔ）要（yào）应用于线上娱乐、身份认证、医疗健康（kāng）、智（zhì）慧金（jīn）融、安防、教育、军工、园区等领域。

应（yīng）用驱动下（xià），多模态成（chéng）AI行业发展新风向

多模态从2018年开（kāi）始成为技术行业的焦点。那时，很多国内大企（qǐ）业，如华为、腾（téng）讯、百度、阿里等公司，都开始逐渐把目光瞄向多模态；很多（duō）创业公司，如眼神（shén）科技、云从、依图、银（yín）河水滴（dī）等也在思（sī）考这个方向性的发展问题。

腾讯（xùn）AI Lab的博士俞栋曾说“多模态是迈（mài）向通用（yòng）人工智能的重要方向”，通用人工智能是弱（ruò）人工智能时代需要走（zǒu）的一个方向，弱（ruò）人工智能是“见（jiàn）多识广”，解（jiě）决的是（shì）感知问题。

在眼神科技创始人兼CEO周军看来：“通用人工智能具（jù）有几（jǐ）个属（shǔ）性：自学习、增量学习、增强学习（xí），这些内容结（jié）合在一块，是强人（rén）工（gōng）智能。从弱人（rén）工智（zhì）能到（dào）强人工智能的奇点，截止目前还（hái）没有突（tū）破（pò）。”“见少知多”、“不见而预知”的强人工智能时代，这是国际前沿人工智能公司一直努力多年的事情，但是技术遇（yù）到了天花板。

据了解，眼神科（kē）技从早期就已经完（wán）成了指纹识别、人脸（liǎn）识别、虹膜识别技术的研发，形（xíng）成（chéng）基础算法，其在（zài）面（miàn）向市场推（tuī）广（guǎng）中发现，单一技术决策存在局（jú）限（xiàn），并在（zài）应用驱动下推出（chū）多模态（tài）融合生物识别技术。“多模态（tài）融合生物识别可以提（tí）升识别精准度，也能在（zài）一定（dìng）程度（dù）提升（shēng）生物识（shí）别技术的场景适（shì）应性和（hé）隐私安全性。”眼神（shén）科技（jì）表示。

简单来说，模态就（jiù）是“感官（guān）”，多（duō）模态就是将多种感官融合的方式。云从科技（jì）解释（shì）道：“如果把‘模态’通俗地理解为感官，那么智能音箱就是一（yī）台只具备（bèi）听觉模态（tài）的物联网设备，而加（jiā）载AI分析能（néng）力的摄像头可（kě）以视（shì）为视觉模态的（de）物联网设备，把听觉、视觉甚至更（gèng）多模态组（zǔ）合到一起，可诞生多模态物联网（wǎng）”。

与眼神科技、云从（cóng）科（kē）技领域（yù）略有不同的步态识别企业银河水滴（dī）表示（shì），“多模态技术在我（wǒ）国早已（yǐ）得到广泛（fàn）应用（yòng），如（rú）在公共安（ān）防领域。另外，指纹和人脸识别等技术的配合（hé）使用也比（bǐ）较成熟，目（mù）前正在向更（gèng）深入（rù）更广泛的（de）程度迈进，在这个过程中，步态识别（bié）技（jì）术越（yuè）来越（yuè）受到重视”。

据悉，步态识别是一种新兴（xìng）的生物特征识别技（jì）术，相较（jiào）于其他识别方式，步态识别的（de）识别距离更远（yuǎn）。例如（rú），普通高清摄像机下识别距离最远可达50米，属于非受控识别，无（wú）需识别对象主动配合。步态识别是由体型、头型（xíng）、肌肉力量、运动神经灵敏度、走路姿（zī）态等共同决定，局部变化并不会影响识别结果。

因（yīn）此，步态识别技术可以有（yǒu）效（xiào）弥补（bǔ）其（qí）他识别技术的不足，比（bǐ）如（rú）识别距离普遍较短（duǎn）、需要主动配合或接触等问题。结（jié）合（hé）了步态（tài）识（shí）别（bié）的多模态技术将有更广泛（fàn）的应用前景。

同时，银河水滴（dī）也（yě）称：“每（měi）一种信息的来源都可（kě）以（yǐ）称为一种模态。就AI而言，步态、人脸、虹膜、指纹、语音等生物特征（zhēng）模（mó）态是机器识别（bié）的依据，多模态识（shí）别即是一种结合以上多种识别技术的解（jiě）决方案（àn）。任（rèn）何（hé）一种（zhǒng）识别（bié）方式都有一定的不足（zú），多种模式结（jié）合（hé）可以达到更好的（de）效果（guǒ）”。

新基建下，多模态融合的AI行业进入快车道

国（guó）家新基建政策的颁布，让AI行业拥（yōng）有了更大（dà）的发展空间，加之（zhī）这次生物特征（zhēng）识别多模态（tài）融合标准（zhǔn）的立项（xiàng），更是让AI有了更多的想象空间。

新（xīn）基建（jiàn）实际上是新时代下，可促进物（wù）质、能量、数据更高效产生和流动，使其朝（cháo）着（zhe）能（néng）够产生更（gèng）大价值的地方（fāng）汇聚，这次新冠疫情已经切身感受到基于AI技术下（xià），新基（jī）建所带来的社（shè）会效应。

云从科技（jì）称（chēng），新基建下AI得到（dào）很好应用，而多模态融合是AI技术发展（zhǎn）必然结果，因为（wéi）单点技术存在瓶颈，无（wú）法很（hěn）好发挥（huī）AI的作用，容易导致部分（fèn）功（gōng）能和体验感缺失（shī）。

而在多模态或AI技术闭环的支持下（xià），AI可（kě）以在消（xiāo）费端（duān）与生产端更（gèng）好服务社会。“AI是‘头雁’，解决的是问题本身，怎样让能力提高，怎（zěn）么（me）去解决问题。让AI引领技（jì）术发展是整（zhěng）个行业，也是云从当（dāng）前思考的主（zhǔ）要问题。”云从科（kē）技补充道。

在（zài）消费者端，最能体现更好、更（gèng）自然（rán）交互（hù）的是一位24小时的（de）个人（rén）助理，它（tā）能知道用户什么（me）时（shí）候（hòu）想（xiǎng）要什么（me），用（yòng）户永远能得到自（zì）己期望的服务。

在生产者（zhě）端，人机协同将能扩展（zhǎn）人类专家的（de）能力，比如现在（zài）医生一（yī）天只能诊断10个（gè）人，未来也许在AI的帮助下，通过语音、AI诊断（duàn）、视（shì）觉辅助、大数据等（děng）技术（shù）可（kě）以一天诊断1000个人。

云（yún）从科（kē）技总结（jié）了（le）目前AI设备技术闭环的（de）三种形式：1、感知，包（bāo）括语音识别、语义理解、多轮（lún）对话、NLP、语音精（jīng）准（zhǔn）识别等领等（děng）；2、认知，包括自然物体识别、人脸识别、肢体动作识别（bié）等；3、决（jué）策，包括AI对热量（liàng）、红外捕捉（zhuō）信号、空（kōng）间信号的阅读（dú）与理解。

眼神科技则向笔者（zhě）表示：“新基建（jiàn）的重要领域之一（yī）就是AI，乘着（zhe）“新基建”的东风（fēng），AI行（háng）业发（fā）展将加速（sù）进入快车道。从（cóng）这（zhè）次新（xīn）冠疫情中可以看到，AI在公共安（ān）防、疫情（qíng）防控、远程（chéng）办公及服务中（zhōng）发挥了重（chóng）要（yào）作用”。

此外，中国基础设施的（de）“智能化”建设迫（pò）在眉睫，智慧城市、智（zhì）慧安防、智能医疗、智慧社（shè）区（qū）、智慧教育等基础设施智能化建设（shè）进入全面爆发期，将（jiāng）为AI拓展更多创新应用场景（jǐng）和市场空间。在眼神科技看来，“在AI应用场景不断深耕，以及5G、大（dà）数据、云计算（suàn）等新兴技（jì）术的融（róng）合推（tuī）动下，多模态融合生物识别是AI未来发展的（de）必经（jīng）之路”。

不过，目前AI还处于一个初（chū）级阶段，更为关注的（de）是更简单层次的交（jiāo）互。比如语音、人脸识别，这些只（zhī）是感知阶段。而且在信息化时代下，很多场景每天都会产生（shēng）海量的视（shì）频和图像数（shù）据（jù），但这些信（xìn）息并没有得到很好利用，大量值得挖（wā）掘的潜在价值，被使用的也仅是冰山（shān）一角。

对此，眼神科技（jì）称（chēng），“在实战应用场景会有很多不可控（kòng）的因素，比如遮挡（dǎng）、光照等，这些会影响生物（wù）特征识别技（jì）术（shù）的应用，行业需要针对现有实际问（wèn）题，对各种识别技术进行不断（duàn）的研发（fā）和优（yōu）化算法”。

云从科技也表示，“现在AI仅处于初步发展（zhǎn）阶段，解决（jué）的（de）是简单层次的交互（hù），更深层次的多模态融合交互，目前做得还远远不够（gòu），有待继（jì）续加强”。