认知体系作为人工智能的一个重要分支,它(tā)的研究和应用经过(guò)了近40年的发展(zhǎn),已取得了可见的成果。
关于(yú)认知体系(xì)的分类,目前相对主流的三大范(fàn)式(shì)是:符(fú)号(hào)(也称为认(rèn)知)、涌现(xiàn)(也称为联结)和混合。到底(dǐ)哪一个(gè)正确地反映了人类(lèi)的认(rèn)知(zhī)过程(chéng),仍然是一个(gè)悬而未决的问题(tí),在(zài)过去的30年里(lǐ)一直在争(zhēng)论.
符(fú)号范式通(tōng)常使用(yòng)预定义指令集等符号来表示概(gài)念。指令通常以if-then的规则形式执行,例如ACT-R, Soar等产生式体系。这是一(yī)种自然而直观(guān)的表(biǎo)示方式,因此符号操作仍(réng)然是一种公认的表示方式之一。虽然符(fú)号范式(shì)擅长计划(规划)和推理,但不具有处理环境变化和感知所需要的灵活性和鲁(lǔ)棒性。
涌现范式通常(cháng)建立大(dà)规模并行模型来(lái)解决适应性和(hé)学习问题,例(lì)如神经网络(luò)模型,其数据来自输入节点(diǎn)。然而,由于信息或(huò)知(zhī)识不再(zài)是(shì)一组可解释的符号实体,而(ér)往(wǎng)往(wǎng)分布在整(zhěng)个网(wǎng)络中,这导(dǎo)致模型不再(zài)透明。在涌现模式(shì)中(zhōng),传(chuán)统意义上的逻辑推理(lǐ)似乎成(chéng)为不可能。
自然地(dì),每种范式都有优缺(quē)点。一(yī)方面,任何符号体系结构创建初始知识库需要大量(liàng)工作,可一(yī)旦完成,体系结(jié)构就完全功能性(xìng)。另一方(fāng)面,涌现体系(xì)结构更易(yì)于设(shè)计,但它们必(bì)须经过大量训练才能产生有用的行为(wéi);此外,他们的现有知识(shí)可能随着新行为的学习而恶化。
由于符号和(hé)涌(yǒng)现范式(shì)都不能解决认知的所有(yǒu)问题(tí),混合范(fàn)式试图结合符号和涌(yǒng)现的元素,这样的(de)混合体系在我们选择的架构中是最常见的。一般来说,混合方式没有(yǒu)限制,而且已(yǐ)经探索了许多可能性。除了考虑表示,还考虑(lǜ)系(xì)统是单模(mó)块还是多模块、异构还(hái)是同质,或考虑混合的粒(lì)度(粗粒度还是细粒度)、符号(hào)和子符号组(zǔ)件(jiàn)之间的耦合性。此外,并不是(shì)所(suǒ)有的混合架构都明确地解决了所谓的符号和次符号元素以及将它们组(zǔ)合起来的问题。只有少数几(jǐ)个体系结构(gòu),例如ACTR、CLARION、DUAL、CogPrime、CAPS、SiMA、GMU-BICA和Sigma,认为(wéi)这种集成是必要(yào)的。我们将重点放在表示(shì)和处理上。
图1显(xiǎn)示了分类分组的组织结构。在顶(dǐng)层分成(chéng)了:符号的、涌现的和混合(hé)的。关于(yú)这些术语的(de)界定也是模糊的,即使对于最著(zhe)名(míng)的架构(例如(rú)Soar和ACT-R)也不能达成一致(zhì)。尽(jìn)管两者都将符号和次符(fú)号元素结(jié)合起来,ACT-R的作者明确(què)地表达(dá)为混合模式,而Soar没有(yǒu)。各位学者的(de)观点也不一致,Soar和ACT-R在[14,15]中都被称为符号主(zhǔ)义者,而[16]将它们(men)列(liè)为混合体。
图1
为了避(bì)免分组的不一致性,我们假设显式(shì)符(fú)号是符号表示的原子(zǐ),可以组合成有意义(yì)的表达式。这些符号用于推理或句法分析。子(zǐ)符号表示通常与神经元的隐喻联系在一起(qǐ),这种表示的一个典(diǎn)型(xíng)是神经网络。在神经网(wǎng)络(luò)中(zhōng),知识被(bèi)编码为分布在神经元(yuán)之(zhī)间的数值模式,与单元相关联(lián)的权重(chóng)影响处理,并(bìng)通过学习获得。
对于(yú)我们(men)的分类,我们假设任何非显(xiǎn)式符号(hào)和处理(lǐ)(句法操作除外)都是子符号(hào)(例如数值数据、像素、概(gài)率,传播激活、强(qiáng)化学习等(děng))。结合了两种表示(shì)中的任意(yì)组合都被(bèi)当作混合模式。给定这些(xiē)定义(yì),将标签分配给所有架构并将它们(men)可(kě)视(shì)化为(wéi)图1。
我们区(qū)分了(le)两类涌现类别:实现类生物神经(jīng)元的神经元模型(xíng)和更(gèng)接近人工神经网络的连接(逻辑)模式。在混合模(mó)式中(zhōng),我(wǒ)们将符号(hào)子处理(其中符号(hào)模式与(yǔ)执行子符(fú)号计算模(mó)块相结合)作(zuò)为混合模(mó)式的一个子类,符号(hào)子(zǐ)处理组中的架构至少(shǎo)包括一个用于(yú)感知处理的(de)子符号模块,而其余的知识和处(chù)理是(shì)符号的,例如3T, ATLANTIS, RCS, DIARC, CARACaS and CoSy。虽然存(cún)在其他类型(xíng)的功能组合(例如协同处理、元(yuán)处理和链处(chù)理),但是(shì)难以归类。因此,其他的都(dōu)归类为(wéi)完全集成的混合模式。完(wán)全集成的体系结(jié)构使用多种方法来组合不同的表示。ACT-R、Soar、CAPS、Copycat/metacat、CHREST、CHARISMA、CELTS、CoJACK、CLARION、REM、NARS和(hé)Xapagy将符号概(gài)念(niàn)和具有次符(fú)号元素(如激(jī)活值、扩散激活、随机(jī)选择(zé)过程、强化学习(xí)等(děng))的(de)规则结合起来(lái)。
综上所述,混合架构是数量最多的一组,并显示出增长趋势。混合架构根据符号和次符号组件的(de)比例和扮演的角色,在涌现范式(shì)和符号范式之间形成一个连续统。例如,CogPrime和Sigma在概念上更接(jiē)近于涌现系统,因为它们与神经网络有许多共同的属性。而REM、CHREST和RALPH以及3T和ATLANTIS,在很大程(chéng)度上属(shǔ)于符号范式;因为(wéi)这些架构主要是符号(hào)化(huà)的,虽然可以(yǐ)利用(yòng)概率推理和学(xué)习机制。
4 感知(zhī)(perception)
虽(suī)然早期的(de)认知结(jié)构主要侧重于高层次(cì)的推理,但同(tóng)样重(chóng)要(yào)的是感知和行为。
感知(zhī)可以定义为将原始输入数据转换为系统内(nèi)部表示以执行认知任务的过程。根据输(shū)入(rù)数据的来(lái)源和性质可以区分多种感知模式。例如,最常见的五种(zhǒng)是(shì)视觉、听觉、嗅觉、触(chù)觉(jiào)和味觉;其他的感觉包括本体感觉、热(rè)感、痛觉、时(shí)间感等。
当(dāng)然(rán),认知结(jié)构也(yě)实(shí)现了其(qí)中的一些与人类感官无关的符号(hào)输入(使用键(jiàn)盘或图形用(yòng)户(hù)界面(GUI))和各种传(chuán)感(gǎn)器(激光(guāng)雷达、激(jī)光、红外等(děng))。根(gēn)据(jù)其认知功能,智(zhì)能系(xì)统可以将各种数量(liàng)和类型的数据作(zuò)为感知输入(rù)。
因此,本节将研究使用各种数据输入,从这些(xiē)数据源中提取信息以(yǐ)及如何应用这些信息的认知体系。图(tú)4中的将调(diào)研结果进(jìn)行了(le)可视(shì)化。
图2:视觉(V)、听觉(A)、触觉(T)、嗅(xiù)觉(S)、本体感(gǎn)觉(jiào)(P)、数据输(shū)入(D)、其(qí)他传感器(O)和多模(mó)态(tài)(M)
从(cóng)图2的可(kě)视化中可以观(guān)察到如(rú)下情况。例如,视觉是最常用的实现方式,然而,超过(guò)一半的体(tǐ)系使用模拟进(jìn)行视觉输入,而不(bú)是摄像机。触觉和(hé)本(běn)体感觉(jiào)等方式主要用(yòng)于物理体现的设计。有些感知未被充分探(tàn)索,例如嗅觉只在三种体系(xì)中出现(GLAIR、DAC和PRS0)。总的(de)来说,符(fú)号范(fàn)式在设计上具有有(yǒu)限(xiàn)的感(gǎn)知能力,并且倾向于使用直接的输(shū)入(rù)数据(jù)作(zuò)为唯(wéi)一(yī)的信息来源(参见图的左侧)。另(lìng)一方面,混(hún)合范式和涌现(xiàn)范式(主要位(wèi)于右半部分图中的)使用模拟和(hé)物理传感器实现更广(guǎng)泛的感(gǎn)知模式。然而,不管其来源如何,传入的感知数(shù)据通(tōng)常不能以原始形式使用(除(chú)了符号输入之外(wài)),往往需要进一步(bù)处理。下面将讨论在认体系中如(rú)何进行有(yǒu)效且充分(fèn)的感知处(chù)理。
4.1视觉(vision)
长期(qī)以(yǐ)来,视觉是主(zhǔ)要的感知模态,虽然最近的研究建议(yì)更平衡的感知体验观[17],但认知结构的研究仍然(rán)以视觉为中心,相对也是研究最多的(de)感(gǎn)知模态。尽管在机器人技术中,各种非视觉传感(gǎn)器(如声纳、超声波距离传(chuán)感器)和本体感觉传感(gǎn)器(如(rú)陀螺仪、圆(yuán)规)被用于解(jiě)决诸(zhū)如导航、避障和搜索等视觉任务,但视觉输入占所有(yǒu)可能输入(rù)模式的一半以上。根据Marr[18]的说法,视(shì)觉处理通常包括了三(sān)个不同的阶段:早期、中期和晚期。早期(qī)视(shì)觉技术是数据驱动的,涉及到对视觉场景(jǐng)的并行处理(lǐ),提取(qǔ)简单的元素(sù),如颜色(sè)、亮度、形状、运动等。中期视觉技术将(jiāng)元素分组到(dào)区(qū)域中,然后在后期进行进一步处理,以(yǐ)识(shí)别对象,并使用可用的知识赋予它们意义。尽管Marr没有提到,但视觉注(zhù)意机制、情感和奖励也会影响(xiǎng)视觉处理(lǐ)的各个阶段[19]。因此,感(gǎn)知和(hé)认知在各个处理阶段都(dōu)是(shì)紧(jǐn)密关联的。
在认知体系中,基于图像理解的(de)视觉处理(lǐ)是分(fèn)阶段进行的【20】。这(zhè)些阶段包(bāo)括:1)强度-位置-时(shí)间值的检测和分组(产(chǎn)生(shēng)边缘(yuán)、区域、流向量);2)边缘、区域等的(de)进一步分组(产生表面、体积,边界、深度信息;3)对象识别及其(qí)运动识别;4)为(wéi)实体建立以(yǐ)对象为中心的表示;5)基于任务为(wéi)对(duì)象(xiàng)分配标(biāo)签;6)时空推断(duàn)实体之间的关系。在(zài)这里,只有阶段1代表Marr三(sān)阶段理论的早期阶段,所(suǒ)有后续阶段都需要一个(gè)附(fù)加的任务(wù)或世界知(zhī)识。已经在第(dì)2阶段,特征的分(fèn)组可以由被观察的特定(dìng)对象的(de)视点信(xìn)息和知识来(lái)促(cù)进(jìn)。最(zuì)后,后期阶段对从早期和中(zhōng)间(jiān)处理结果中(zhōng)抽象出来(lái)的高级(jí)表示(shì)进行推(tuī)理(lǐ)和操作(zuò)。
值得注意(yì)的是,在许多(duō)图像理解的研(yán)究中通过(guò)执行了隐式深度学习方法而实现的。在最(zuì)近几年中(zhōng),我们已经看到了深度学习在图像处理和自然语言处理很多卓越表现,然而令(lìng)人(rén)惊讶的(de)是(shì)很少认(rèn)知架构使用它。在CogPrime、LIDA、SPA和BECCA中可以找到深度学习在简单(dān)视觉任务(wù)中的(de)一些应用(yòng)。
图(tú)5显(xiǎn)示真(zhēn)实视觉和模拟视觉执(zhí)行处(chù)理的(de)各个阶段。真实(shí)视觉系统只接(jiē)收像(xiàng)素级的输入,而没有附加(jiā)信息(如(rú)摄像机参数、物体的位置和(hé)特征等)。图像本身由(yóu)相机生成(chéng),但(dàn)体系结构不需(xū)要连接到物理相机(jī)。模(mó)拟(nǐ)视觉系统通(tōng)常(cháng)忽略早期和(hé)中期处理阶段,并以适(shì)合(hé)视觉处(chù)理后期阶段的形式接收输(shū)入(例如形状和(hé)颜色(sè)的符号描述(shù)、对象标签(qiān)、坐标(biāo)等)。技术上,任何不支持真实(shí)视(shì)觉或其(qí)他感知模(mó)式的体(tǐ)系结构,都(dōu)可以(yǐ)通过接口进行扩展,该接口将其连接到传感器(qì)或将原始(shǐ)数(shù)据预处(chù)理为更合适的格(gé)式(如(rú)Soar、ACT-R)。但图(tú)5仅仅显示执行了什么(me)样图像解释阶段,而没(méi)有反映出这样处理的复(fù)杂性。
图5:这些(xiē)阶(jiē)段(duàn)从早期到后期依次为:1)特征(zhēng),2)原(yuán)型对象,3)对象(xiàng),4)对象模型,5)对象标签,6)空(kōng)间关系
不同深(shēn)浅的蓝色用(yòng)来表示属于早期、中期和晚期视觉的过程。这(zhè)个具有真实和模拟视觉的(de)架构分别显示在(zài)左栏和右栏中。每列(liè)中(zhōng)的顺序按字母(mǔ)顺序排列。
4.2基于传感器的视觉(jiào)(Vision using physical sensors)
大(dà)多数(shù)体系处理视(shì)觉各个阶段都(dōu)是物(wù)理嵌入的,包括机器(qì)人控(kòng)制、生物启发和仿生结构。早期视觉(jiào)(步骤1)通常涉及边缘检测和视(shì)差估计。然(rán)后这些特征分组(步骤2)为具有类似特(tè)征(颜色、深度等)的东西(xī),这些东西被解析为具(jù)有质心坐(zuò)标的候选对象(xiàng)(步(bù)骤3)。使用离线方式学(xué)习对(duì)象模型(步骤4),并可用于对候(hòu)选对象进行分类(步(bù)骤5)。
基(jī)于生物启发的体系(xì)也使用(yòng)计算机视觉(jiào)算法,并遵(zūn)循类似的处(chù)理阶段。例如(rú),用于(yú)目(mù)标检测的(de)神经网络(RCS、DIARC、Kismet),用于对(duì)象识别的SIFT特征(DIARC),用于(yú)手部(bù)检测和跟踪的SURF特征、AdaBoost学习和高(gāo)斯混合(iCub),用于(yú)识别人体并确定年龄性别的Kinect和结合支持向量机(jī)的LBP特征(RoboCog和CORTEX)。
在有些体系结构中,视觉与记忆、控制系统的联系更加紧密,视觉处理中的一些(xiē)步(bù)骤与(yǔ)人类(lèi)视觉系统有明(míng)显的相关性。其中一个例子是显著性【saliency?】,它根(gēn)据视觉刺激的特征或与(yǔ)任务的相关性,对(duì)视觉刺(cì)激的优(yōu)先级(jí)进行建模。因此(cǐ),显(xiǎn)著性(xìng)被用来寻找场景中感兴趣的区域(Kismet、ARCADIA、DIARC、iCub、STAR)。自我球,一种在一些机器人结构中发(fā)现(xiàn)的结构,模拟了海马(mǎ)体在(zài)感觉信息和动(dòng)作整合中的功能,尽管在生物(wù)学上不是合理(lǐ)的。本质上(shàng),自我球在机器人周围形成一(yī)个虚拟穹顶,突(tū)出的物(wù)体和事(shì)件被映射到上面。这个概念的各种(zhǒng)实现(xiàn)包括在(zài)RCS、ISAC、iCub和MACSi中。
图2体系中的第三(sān)个亚(yà)组追求生物学上(shàng)合(hé)理的视觉。其中一个最详细的例子是基于大脑腹(fù)侧通路解剖的Leabra视(shì)觉系统(LVis)。它模拟了初级视觉皮层(céng)(V1)、纹(wén)状体(tǐ)外(wài)区(V2、V4)和下颞叶皮层(céng)(IT)。这些区域中的(de)计算大致对应于早期和中期(qī)处理步骤(zhòu)。LVis具有人类视(shì)觉(jiào)系统的(de)其他特征,例如在更(gèng)高层次上的神经元的更大的(de)感(gǎn)受野(yě)、层(céng)之间(jiān)的相互联系(xì)以及限(xiàn)制跨层活动水平的反复抑制(zhì)动力学。Darwin VIII(BBD)、SPA(Spaun)和(hé)ART的视觉系统(tǒng)也模仿了灵(líng)长类动物(wù)的(de)腹侧视觉(jiào)通路。
SASE架(jià)构并(bìng)没(méi)有紧密地复制(zhì)人类的(de)视觉(jiào)系(xì)统。相反,它使(shǐ)用(yòng)具有局部连(lián)接的层次神经网络,每个神经元从(cóng)前一层(céng)的限制区域获得输(shū)入。一层内的感受野大小(xiǎo)相(xiàng)同(tóng),并且在较高的水平(píng)上增加(jiā)。该系统在一个室内导航场(chǎng)景中的帆式(shì)机器(qì)人(rén)上进行了(le)测试。MDB、BECCA和DAC中实现(xiàn)了类似的视觉方法。值得指出的是,尽管涌现范式没有显式地将标签分配给对象,但是它们(men)能够(gòu)形成场景中对(duì)象之间空间(jiān)关系的某种(zhǒng)隐式表示(比如向量表示),并将这些表示用于视觉导航等任务(BBD、BECCA、DAC、MDB、SASE)
4.3模拟视觉(jiào)(Simulated vision)
从图2可以明显看出,大多数模拟只支持视觉处理(lǐ)的后期阶段。最简单的模拟是由物体填充(chōng)的二维网(wǎng)格,例如ERE和PR使用的NASA TileWorld、GLAIR agents使用的Wumpus World、Ariadne agents使(shǐ)用的二维迷(mí)宫和(hé)CLARION social agents设计的部落模拟(nǐ)。网(wǎng)格环境中的(de)代理(lǐ)通常只能看到有限的周(zhōu)围环境,每个(gè)方向只能看到几个(gè)单元(yuán)格。Blocks world是(shì)另一个经典领(lǐng)域(yù),其(qí)一般任务(wù)是构建各(gè)种形状和颜色的块堆栈(ACT-R、ICARUS、MIDCA。
尽管它们(men)的复杂(zá)性和目的不同,不(bú)同的(de)模拟(nǐ)通常提供关于环境的相同类型的数据:对(duì)象、它们的属(shǔ)性(颜色、形状、标签等)、代理本身的位置和属(shǔ)性(xìng)、对(duì)象和环境因素之(zhī)间的(de)空间关系(例如天气和风向(xiàng))。这种模拟主要用作可视化工(gōng)具,与直(zhí)接(jiē)输入的数(shù)据相差不大,因为几(jǐ)乎不需(xū)要(yào)任何感(gǎn)官处理。更高级的(de)模拟将场(chǎng)景表示为具有角(jiǎo)点(diǎn)颜色和三维坐标的多边形,这(zhè)些角点必(bì)须进一步处(chù)理以识别对象(Novamente)。否则(zé),3D模拟的视觉真实性主要是为了美学和(hé)感官,因为信息是直接以符(fú)号形式(shì)提供(gòng)的(例如CoJACK,Pogamut)。
如(rú)前所述,图(tú)2并不反(fǎn)映个体体系(xì)的环境或(huò)能力的复杂性差异。然而(ér),在体现(xiàn)认(rèn)知结构(gòu)的环境(jìng)之间的(de)大小和真实(shí)性。例如,ATLANTIS控制的行星漫游者在户外岩石地(dì)形中(zhōng)进行越野导航。销售(shòu)机器人Gualzru(CORTEX)在一(yī)个满是人的大房间里(lǐ)移动,iCub(MACsi)从桌子上识别并捡起(qǐ)各种玩(wán)具。另一方(fāng)面,简单(dān)即没有障碍的环境也被(bèi)用于认知(zhī)结(jié)构研究(BECCA,MDB)。此外,颜色(sè)编码对象(xiàng)是简化视觉处理的常用方法。例如,ADAPT跟踪一个红(hóng)色在桌子上滚动的(de)球和DAC将自己朝向标(biāo)记有不(bú)同颜色的目标(biāo)。此(cǐ)外,大多体系(xì)的应用只能识别少数(shù)不(bú)同的对象类别。只有Leabra能(néng)够区分几(jǐ)十(shí)个(gè)对象类别。随着OpenCV、Cloud Point Library或Kinect API等可用软件工具包的普及,可视化处理的质(zhì)量大大提高。但在试图建立(lì)通(tōng)用的(de)生物学意义上的视(shì)觉系统模(mó)型,并(bìng)没有取得太多进(jìn)展。目前(qián),应(yīng)用仅限于受控环境。
4.4听觉(jiào)(Audition)
听觉是认知体系中(zhōng)一(yī)种常见的模态,因(yīn)为语音(yīn)命令常常是用于(yú)指导(dǎo)智能系统或与(yǔ)之(zhī)通信。由(yóu)于听觉模态是纯功能性的,许多(duō)体(tǐ)系结构使用可用的(de)语(yǔ)音到文本(běn)软件而不是开发听觉模型。为数(shù)不多的进行了听(tīng)觉感知(zhī)建模(mó)的体系包括了(le)ACT-R、SPA和EPIC。例(lì)如,ARTWORD和ARTSTREAM被用来研究音位整合和音(yīn)源隔离(鸡尾酒会问题)。基于ACT-R发展(zhǎn)了(le)一个音(yīn)乐(lè)解释模型。
使用(yòng)专用软(ruǎn)件进行语音处理和通信有助于实现复杂性和(hé)现实主(zhǔ)义。例(lì)如,在机器人应(yīng)用中,它允(yǔn)许销售机器人编写脚(jiǎo)本(běn)在拥挤的房(fáng)间里与(yǔ)人互(hù)动(CORTEX)或对(duì)话(huà)英语的子集(CoSy)。一个更高级的(de)应用包括使用语音识别来(lái)完成这个任务(wù)通(tōng)过电(diàn)话向公共图书(shū)馆订购书籍(FORR)。使用现成语音的(de)其他系统处理软件包括PolyScheme和ISAC。在选择的体系(xì)中,大部(bù)分(fèn)工(gōng)作都是针(zhēn)对自然语言处理,即语言和语(yǔ)音所承(chéng)载的语(yǔ)义信息,很(hěn)少(shǎo)有(yǒu)人注意到据情感内(nèi)容(如响(xiǎng)度、语速和语调)。在(zài)这个方向上的一些(xiē)尝试(shì)都(dōu)是社会机器人。例(lì)如,社交机器人Kismet不明白人(rén)们在说什么,但(dàn)它可以(yǐ)根据演讲的韵律轮(lún)廓来(lái)确定赞同(tóng)、禁止或安慰(wèi)。这个(gè)Ymir体系结构还(hái)具有韵律分(fèn)析器和基于语法的语音(yīn)识(shí)别器,可以理(lǐ)解(jiě)100个单词的有(yǒu)限词汇。甚至声音本身(shēn)也可以(yǐ)作为线索(suǒ),例如,BBD机器人可以将自己定向到一个(gè)响(xiǎng)亮的声音源。
4.5符号输入(Symbolic input)
符号输入结(jié)合了几种不(bú)同于物理传感和仿真模拟的(de)输入(rù),包括了文(wén)本命(mìng)令、数据以及通过GUI的(de)输入。文本是用于执行规(guī)划和逻辑推理任务的典型输(shū)入形式(例如:NARS , OSCAR , MAX , Homer )。文本命令通常(cháng)是根据体(tǐ)系(xì)结构中使用的基元谓词(cí)编写的(de),因此不需要额外的解析(xī)。
4.6 多模态(tài)感知(zhī)
在前面各节中,单独考虑了各(gè)种(zhǒng)的(de)感(gǎn)知模式(shì)。然而,在现实中人脑从不同的感官接收到源(yuán)源(yuán)不断的信息(xī)流(liú),并将(jiāng)其整合成(chéng)一个(gè)关(guān)联(lián)的世界表征。认知结构也(yě)是如此,因(yīn)为近一半的认知结构有两种及以上(shàng)不同的感知模式(图1)。并非所有这些模(mó)式可能(néng)出现(xiàn)在一个(gè)单一的体(tǐ)系中(zhōng),大多数体(tǐ)系同时使用两(liǎng)种不同(tóng)的模式,例如视觉(jiào)和听(tīng)觉(jiào)、视觉和符号输入或(huò)视(shì)觉(jiào)和距离传感器。除了少数例外,这些(xiē)体系(xì)结构基本上执行了认知科学中的特征集成(chéng)或机(jī)器(qì)人学(xué)中的传感器数据融(róng)合。显然(rán),可以使用不同的传感(gǎn)器,而不必显式地组合它们的输出。
多感知(zhī)通(tōng)过(guò)互补和冗余(yú)提高感知的稳健性,但在实践中,使用许(xǔ)多不同的传感器会带来许多挑战,例如(rú)不(bú)完整或虚假或冲突的数据、具有不(bú)同属性的数据(例(lì)如维度或值范围)、对数据对齐和关联的需要(yào)等。机器人研(yán)究领域对这些实(shí)际问题(tí)进行了深入的研究,但是还没有提出(chū)通用的解决方案。每个解决方(fāng)案都必须为特定的应用程序定制,这是大多数认知(zhī)架构(gòu)采(cǎi)用的一种普遍做法。不(bú)幸的是,文献中很少有技术信息来确定所(suǒ)使用(yòng)的确切(qiē)技(jì)术,并将它们(men)与已(yǐ)建立(lì)的(de)分类法联系起来。
总的来说,传(chuán)感(gǎn)器集成的(de)特定实现依赖于用于推理和任务的知识表示。在典型的具有符号推理的体(tǐ)系结构中,来自不同(tóng)传感器的(de)数据被独立地处理,并映射到(dào)以代理为中(zhōng)心的(de)3D地图上(shàng),该地图可用于导航(háng)(CaRACAS , CoSy)。在社(shè)会机(jī)器人的(de)应用中,世界的表现形式可(kě)以(yǐ)是一个围绕着主体的自我(wǒ)球(qiú)体(tǐ),它(tā)包含以自我为中心(xīn)的(de)坐标(biāo)和视觉检测对象(xiàng)的属(shǔ)性,这些(xiē)都与通过三角测量确定(dìng)的声音位置相关联(ISAC,MACsi)。
RCS,一个具有(yǒu)层次结构的模型(xíng),在每(měi)个(gè)层次上都有一个具有相(xiàng)应世界表示的感知处(chù)理模(mó)块(例如:像素(sù)图、3D模(mó)型、状态表等)。有(yǒu)些体(tǐ)系隐式地执行数据(jù)关联和对齐,即传感(gǎn)器数据和(hé)特征(zhēng)提取(例如,来(lái)自摄像机的物体坐标(biāo)和(hé)来自激光的障碍物距离)是独立进行的。然后将提取的信息直(zhí)接添加到工作内存。任何模棱两可和不一致(zhì)都(dōu)可(kě)以通过高(gāo)阶推理过程来解决。这是分布式体系(xì)结构中的一种(zhǒng)常见方法(fǎ),其(qí)中独(dú)立模块同时(shí)为实现(xiàn)一个共同目标而工作(zuò)(例如CERACRANIUM、Polyscheme、RoboCog、Ymir和LIDA)。
在许多受生(shēng)物启发(fā)的体系中,不同传感器的读数(shù)之(zhī)间的关联被学习(xí)。例如,DAC使(shǐ)用Hebbian学习(xí)来(lái)建立数据对齐,以便将不(bú)同感(gǎn)知(zhī)模式的神经(jīng)表示映射到一个(gè)共同的框架,模拟大脑上丘的功(gōng)能。ART通过神经融合(ARTMAP网(wǎng)络)将视觉和超声波感(gǎn)官信息(xī)集成(chéng)到移(yí)动机器人导(dǎo)航中。同样,MDB使(shǐ)用神经网络从传(chuán)感器(qì)输入学(xué)习世界模型,并使用遗传算法调(diào)整网络参数。
目前(qián)为止提到的(de)所有(yǒu)方法(fǎ)都有一(yī)些相似的传感集成,因为(wéi)都使用空间(jiān)和(hé)时间的(de)接近或学习来消除多模态数据(jù)的歧义。但总(zǒng)的来说,只有很(hěn)少的体系(xì)在感知层面上追求生物逼真度。唯一(yī)的一个(gè)在(zài)生物(wù)学上看似合理的感(gǎn)知集成模型是用基于大脑的设备(BBD)体系,被称为(wéi)Darwin XI的具体神经模型是用来研(yán)究多感(gǎn)觉信息(来(lái)自触摸传感器、激光、相机和磁罗(luó)盘)的整合和在迷(mí)宫导航中的海马体[163]。Darwin XI的神经(jīng)网络由(yóu)大约80000个神经元和120万个突触(chù)组成(chéng),并模拟50个神经(jīng)区域。在损伤研究中,通过去除一个或多个(gè)感觉输入并重新映射感觉(jiào)神经元单元,证明了(le)系统(tǒng)的鲁棒性。
一般来(lái)说(shuō),很多(duō)认知体系在很(hěn)大(dà)程度上忽略了跨模态交(jiāo)互作用(yòng)。这些体系(xì),包括(kuò)面向生物(wù)和面向认知的(de),在处(chù)理不(bú)同(tóng)的感知模(mó)式(shì)时(shí)通常采用模块化的方法(fǎ)。同时,在过去几十年中进行的许多心理和神经成(chéng)像实验表明,不同的感知相(xiàng)互影响。例如,视觉改变(biàn)听(tīng)觉处理,反之亦然。然而,据我们所(suǒ)知,一(yī)些仿生体系(xì),如上文提(tí)到的BBD,可能代表跨(kuà)模(mó)态效应(yīng),这个问题还有(yǒu)待调研。