据VentureBeat报道,在语(yǔ)音嘈杂的环境中,要(yào)想分辨出有几个人(rén)讲(jiǎng)话(huà)、在什么时间(jiān)讲(jiǎng)话,对于机(jī)器来说非常困难。但谷歌人(rén)工智能(AI)研究部门在语(yǔ)音识别方面取得了新进展(zhǎn),能以92%的准确率识别出每个人声(shēng)音的专属(shǔ)模式。
谷歌AI研究部(bù)门在最新名为《FullySupervisedSpeakerDiarization》的论文和相(xiàng)关博客文章中(zhōng),研究人员描述了一种(zhǒng)新的AI系统,它“能以(yǐ)一种更有效的方式识别声音”。
这套系统(tǒng)涉及到Speakerdiarization任(rèn)务,即需(xū)要标注出“谁(shuí)”从“什么时候”到“什么时候”在说话,将语音样(yàng)本分割(gē)成独特(tè)的、同构片段(duàn)的过程。强大(dà)的AI系统必须能够将(jiāng)新的(de)演讲(jiǎng)者(zhě)发音与它以前从未遇到过的语音片段(duàn)关联起来。
这篇论文的作(zuò)者声称,核心算(suàn)法已经可在(zài)Github上的开源软(ruǎn)件中可用,它实(shí)现了一个在(zài)线(xiàn)二值化(huà)错误率(DER),在NISTSRE2000CALLHOME基准上(shàng)是7.6%,这(zhè)对于实时应(yīng)用来说(shuō)已经足(zú)够低(dī)了,而谷歌(gē)之前使用的方法DER为8.8%。
谷歌研究人员的新方(fāng)法是通(tōng)过递(dì)归神经网(wǎng)络(RNN)模拟(nǐ)演讲者的嵌(qiàn)入(如词汇和短语的数(shù)学表示),递归神经网络是(shì)一种(zhǒng)机器学习(xí)模型(xíng),它可以利用内部(bù)状态来处理输(shū)入序(xù)列(liè)。每个演讲者都从自己的(de)RNN实例开(kāi)始,该实例不断更新给定新嵌入的(de)RNN状态,使系统能够学习发(fā)言者共享(xiǎng)的高级知识。
研究人员在论文中写道:“由于该系统的(de)所有组(zǔ)件都可(kě)以在监督环境下学习(xí),所以在(zài)有(yǒu)高质量时间标(biāo)记演讲者标签训练(liàn)数据的情况下,它比无监督系(xì)统更受青睐(lài)。我们的(de)系(xì)统受到全面监督,能够从带有时间戳的演讲者标签例子中学习。”
在未来的工(gōng)作中(zhōng),研究(jiū)团队计(jì)划(huá)改进模型,使其能够(gòu)集成上下文(wén)信息来(lái)执行脱(tuō)机解码,他(tā)们希望(wàng)这将进一步减少DER。研究人员还希望能够直接对声(shēng)学特征进行(háng)建模,这样整(zhěng)个(gè)Speakerdiarization系统就(jiù)可以进行端到端训练。