一条狗(gǒu),即使是(shì)之前从未见过的品种、颜色,我们也能一(yī)眼认出(chū)它。
对(duì)周遭任何变化的感知(zhī)是人类与生俱来的能(néng)力(lì)。
但是(shì)人工智能系(xì)统(tǒng)就不一样了,即使级别(bié)SOTA,能完(wán)成(chéng)无数人类(lèi)完成不了的任务,但也有很多对人类来说轻而易举的事情,它(tā)却搞(gǎo)不定,比如(rú),让金毛换个角(jiǎo)度(dù):正面、侧面、前面、后面,人工智(zhì)能可能会识别地很挣扎。
深度学(xué)习模型擅(shàn)长解释像素(sù)和标签之间的统计模式,但却(què)很难通(tōng)过许多潜在的自(zì)然变(biàn)化正(zhèng)确识别(bié)对象(xiàng)。
那是扫雪机在(zài)路上扫雪吗?还是一辆校车(chē)侧翻了?
上图是根据M.A. Alcorn等人(rén)的 "Strike(with)a pose: Neural networks are easily fooled by strange poses of familiar objects"绘制,显(xiǎn)示(shì)了一个深度神经(jīng)网络将一(yī)辆公共汽车错误地分类为扫雪车。
人类可以瞬间(jiān)知道,但(dàn)是颜色、大小和透视等因素使情(qíng)况(kuàng)复杂化,增加了人(rén)工智能模型的预测难度。
Facebook AI一直在探索如何更(gèng)好地捕捉自然变化,在这方(fāng)面(miàn),传统(tǒng)解决方案有很大局限性,即所谓的(de)解纠(jiū)缠(disentanglement)。我(wǒ)们最近还提出了等变化移位算(suàn)子(equivariant shift operator)的概念(niàn),这是一(yī)种替代解的概(gài)念证明,可以帮助(zhù)模(mó)型理(lǐ)解通过(guò)模拟最常见的变换(huàn),物体可(kě)能会发(fā)生怎(zěn)样的变化。
目前,Facebook AI在这方面(miàn)的(de)工作主要(yào)是理论性的,但(dàn)是对于深度学习模型(xíng),特(tè)别(bié)是计算机视(shì)觉潜力巨(jù)大: 增加了可解释性(xìng)和准确性,即使在(zài)小数据(jù)集上训练也有更好的(de)性能,并提高了泛化(huà)能力。Facebook AI希望(wàng)这些贡献(xiàn)能够(gòu)使计算机视觉(jiào)向前推进一(yī)步,更好地理(lǐ)解视觉世界的(de)复杂性。
现行方(fāng)法的局限
目前的解纠缠方法(fǎ)试图通(tōng)过将模型中的每个因(yīn)子编(biān)码到模型内部表示的一个(gè)单独的(de)子空间中(zhōng),来(lái)学习模型中对象的(de)基本变换。
例如,解(jiě)纠缠可能将狗图(tú)像的数据集编码为(wéi)姿(zī)态、颜色(sè)和品(pǐn)种子空间。
这种方法在识别(bié)刚(gāng)性数据集的变化因素方面(miàn)很(hěn)有优(yōu)势,比(bǐ)如一个单一的 MNIST 数字或者(zhě)一个单一的(de)对象,比如一把椅子,但是(shì)我(wǒ)们已(yǐ)经(jīng)发现,在多个分(fèn)类中,解(jiě)纠缠的表现很差。
想象一下多个旋转的(de)形状,比如三角(jiǎo)形(xíng)和正方(fāng)形。解纠缠(chán)模(mó)型试图将(jiāng)物(wù)体的形(xíng)状和方向这两个变化(huà)因素分(fèn)离(lí)成(chéng)两个变化因素。
下图说明了传统(tǒng)的解纠缠是无法在多个形(xíng)状(zhuàng)的(de)数据集中孤立旋转的(de)。我们期望高(gāo)亮显示的形(xíng)状会旋转(zhuǎn),但(dàn)是由于解纠缠失(shī)败(bài),形状仍(réng)然是固定的(de)。
解纠缠还带来了拓扑缺陷,这是一系列(liè)众多变换中(zhōng)的另一个问题。拓扑(pū)缺陷违背连(lián)续性——深度(dù)学习模型的本质属性。如果没有连续性,深度学(xué)习模型可(kě)能很难有(yǒu)效地学(xué)习数(shù)据中的模式。
想象(xiàng)一下正三角(jiǎo)形的旋转。旋(xuán)转120度的(de)正三角形与原来的三角形无法区分,导致在方向空间中(zhōng)有(yǒu)相同的表示(shì)。然而,通过在三角(jiǎo)形的一(yī)个角上(shàng)加(jiā)一个(gè)无(wú)穷小的点,表示变(biàn)得可辨别(bié),违反了连续性。附近的(de)图像映(yìng)射到相距较(jiào)远(yuǎn)的图像。Facebook AI的研究还(hái)表(biǎo)明,拓扑缺陷出现在非(fēi)对称形状和许多(duō)其他(tā)常见的变换中。
利用等变化(huà)算子揭示变化因子
有一(yī)个数学分(fèn)支「群论」可以教我们应用等变化(huà)算子的很多(duō)知识。它表明,一个直(zhí)观的方(fāng)式(shì)来(lái)理解变化因素是将他们(men)模拟为一组转(zhuǎn)换(huàn)。例如,一个三角形的旋转有一个组(zǔ)的结构: 90度旋转和30度(dù)旋(xuán)转(zhuǎn)结(jié)合起来产(chǎn)生120度旋转。
Facebook AI利用(yòng)这些想法来识别(bié)传统解纠缠的缺点,并(bìng)确(què)定如何(hé)训练(liàn)等(děng)变化算子来解纠(jiū)缠。我们提出了一个等变(biàn)化算子,称(chēng)为移位算子。这是一个矩阵(zhèn),其块体模(mó)仿了(le)常见变(biàn)换的组结构--旋转、平移和重(chóng)缩放。然后在原始图像和它(tā)们的转换上训练一个人工智能模型(xíng)。
这样就会发现(xiàn),即使(shǐ)在(zài)包含(hán)多个类的数据集中,移位算子也(yě)能成功地学(xué)习变换(huàn)--这正是传统解(jiě)纠缠经常失败(bài)的条件。