九游官方网页版-九游(中国)





    1. 咨询热线:021-80392549

      九游官方网页版-九游(中国) QQ在线(xiàn) 九游官方网页版-九游(中国) 企业微信
      九游官方网页版-九游(中国)
      九游官方网页版-九游(中国) 资讯 > 人工智能 > 正文

      自然语言处理:人(rén)工智能领(lǐng)域的重要研究课(kè)题

      2021/07/29投稿718

      自然语言(yán)处理(英文Natural Language Processing,简称(chēng)NLP)是人工(gōng)智能(英文Artificial Intelligence,简称(chēng)AI)领域的重要研究课题,被誉为人工智能技术(shù)的一个掌上明(míng)珠(zhū);它研(yán)究能实(shí)现人与计算机之间用自然语言进行有(yǒu)效通信(xìn)的各种理论和方(fāng)法(fǎ),涉(shè)及面极为(wéi)广泛。国际知名(míng)学(xué)者(zhě)周海中先生曾经指出:“自然(rán)语言处理(lǐ)是极有吸引力的研究领(lǐng)域,它具有重大的(de)理论意(yì)义和(hé)实(shí)用价值。”目前,NLP已成为(wéi)推动科(kē)技发展(zhǎn)的强大(dà)动力,并成为世界各国综(zōng)合国(guó)力竞争的(de)焦点。

      自然(rán)语言处理:人工智能领域的重要研究课题(tí)


      NLP主(zhǔ)要研(yán)究能实现人(rén)与计算机之间用自然语言进行有效通信的各种理论和方法。而用(yòng)自然语言与计算机进行通信(xìn),有着十分重要的实际应用意义,也(yě)有着革命性(xìng)的理论意义。实现(xiàn)人(rén)机间自然语言通信意味着要使计算机既能理解自然语言文本的意(yì)义,也能以自然语言文本(běn)来表(biǎo)达给定的意图、思想等;前者称为自然语言理解(英文(wén)Natural Language Understanding,简称NLU),后(hòu)者称为自然语言生成(英文Natural Language Generation,简称NLG)。因此,NLP大体包括了NLU和NLG两个部分;因为处理(lǐ)自(zì)然(rán)语言(yán)的(de)关(guān)键是要让计(jì)算机“理(lǐ)解”自然语(yǔ)言,所以通常把NLU视(shì)为NLP,也(yě)称(chēng)为计算语言学。


      NLP是一门融语言学、计算机科学、数(shù)学于一体的科学。因此,这一领域的研究(jiū)将涉(shè)及自然语言,即人们日常使(shǐ)用的语言,所以它与语言学的研(yán)究有(yǒu)着密切的(de)联系,但又有重要的区(qū)别。NLP并不是一般地研(yán)究自然语言,而是研制能有效地实现自(zì)然语言通信的计算(suàn)机系(xì)统,特别(bié)是其中的软件系(xì)统。因而它是计算机科学的(de)一部(bù)分。可(kě)以说,NLP是计(jì)算机科学、语言学、AI等(děng)关注计算(suàn)机和人类(lèi)语言之间的相互作用的领域。目前,人们(men)对AI的需求也从(cóng)计算智(zhì)能、感知智(zhì)能到(dào)了以NLP为代(dài)表的认(rèn)知智能的层(céng)面(miàn)。没有(yǒu)成功的NLP,就不会有真正(zhèng)的(de)认知智能。


      由于(yú)AI包括感知智能(比如图(tú)像识别、语言识别和手势识别(bié)等)和认知智能(主要是语言理(lǐ)解知识(shí)和(hé)推(tuī)理),而语言在认知智能(néng)起到最核(hé)心(xīn)的(de)作用。如果能(néng)把语言问题解决了,AI最难的部分也就基本解决了。美国微(wēi)软(ruǎn)公司(sī)创(chuàng)始人比尔·盖茨(cí)先生曾经表示,“语言理解是人工(gōng)智能领域皇冠上的明珠”。前微软公司全球执行副总裁沈向洋先生也在公开(kāi)演讲时说(shuō):“懂语言者得(dé)天下……下一个十年,人工智能的突(tū)破在(zài)自然语言(yán)的(de)理解……人工智能对人类影响最为深刻的就是自然语(yǔ)言方(fāng)面”。由于(yú)理解自(zì)然语言需(xū)要关于外在世界的广泛知识以及运用操作这些(xiē)知识的能力,所以(yǐ)NLP也被视为解决AI完备(AI-complete)的(de)核(hé)心问题之一。可(kě)以说,NLP目前是AI领域的重要研(yán)究课题,对它的(de)研究也是充满魅力(lì)和(hé)挑战(zhàn)的。


      当前AI技术在认知智能层面仍面临诸多挑战(zhàn)。如果我们(men)有(yǒu)所推进的话,我们的认知智(zhì)能就(jiù)会进一步提升,包括语言的理解(jiě)水平、推(tuī)理(lǐ)水平(píng)、回(huí)答问题能力、分析能力、解决问题的能力、写作能力(lì)、对话(huà)能力等。然后再加上感(gǎn)知智能的进步,声音、图象、文字的识别和生成的能力,以及多(duō)模(mó)态(tài)文、图(tú)交叉的能(néng)力,通过文(wén)字可以(yǐ)生成图象,根据图(tú)象可以生(shēng)成描述的文字等等(děng),我们就可以推进(jìn)很多人(rén)类的应用,包(bāo)括搜索引擎、智能客服(fú),包括教(jiāo)育、财政(zhèng)、电子商务等各个方面的应用;也可以把AI技术(shù)用(yòng)在(zài)我们的产业上,帮助产业实(shí)现数字(zì)化(huà)转型。


      最(zuì)早(zǎo)的NLP研(yán)究工作是机器翻译。1949年(nián),美国知名科学家沃伦·韦弗先生首先提出了机器翻译设计(jì)方(fāng)案。20世纪60年代,许多(duō)科学家对机器翻译曾(céng)有大规模的研究(jiū)工作,耗费了(le)巨额(é)费(fèi)用;但他们显然是低(dī)估了自然语言的复杂性,语言处理的理论和技术均不成(chéng)熟,所以进展不大。当(dāng)时的主(zhǔ)要做法是存储两(liǎng)种语言的(de)单词、短语对应译法的大辞典,翻译时一一对应,技(jì)术上只(zhī)是(shì)调整(zhěng)语言的同条顺序。但日常生活中语言的翻译远不是如(rú)此(cǐ)简单,很多时(shí)候(hòu)还要参考某句话前后的意思,需要(yào)上下文联系(xì)起来才能(néng)正确翻译——这就是机译技术难度高之所在(zài)。


      大约(yuē)20世纪90年代(dài)开始,NLP领域(yù)发生了巨(jù)大的(de)变化。这种变化有(yǒu)两(liǎng)个明显(xiǎn)的特征:(1)对(duì)系统的输入,要求研制的NLP系统(tǒng)能处理(lǐ)大规模的真实文本,而不是如以前的研究性系(xì)统那样,只能处(chù)理(lǐ)很少的词条和(hé)典型句(jù)子。只有这样,研制的系(xì)统(tǒng)才有真正的实(shí)用价值。(2)对系统的输出,鉴于(yú)真实地理解自然语言是十分困难的,对系统并不要求能对自(zì)然语言文本进行深层的理解,但要能从(cóng)中(zhōng)抽取有(yǒu)用的信息。同(tóng)时(shí),由于(yú)强(qiáng)调了“大(dà)规模”和“真实文本”,所以下面两方面的基(jī)础性工作也得到了重(chóng)视(shì)和加强:(1)大规模真实语料库的研制。大规模的经(jīng)过不同深(shēn)度加工(gōng)的(de)真实文本(běn)的语料库,是研(yán)究自然语言(yán)统计性质的基础;如果没(méi)有这(zhè)样的语料(liào)库,统计(jì)方法只(zhī)能是无源之水。(2)大规模、信息(xī)丰富的词(cí)典的编制工作。因此规模为几(jǐ)万,十(shí)几万,甚至几十万词,含有丰(fēng)富的信息(如包含词的搭配信息(xī))的计算机可用词典对NLP的重要性是很(hěn)明显的。


      系统的(de)输入与输出(chū)这两(liǎng)个特(tè)征在(zài)NLP的(de)诸多领域都有所体现,其发(fā)展直接促进了计(jì)算机自动检(jiǎn)索技术的(de)出现和(hé)兴起(qǐ)。实际上,随着计算机技术(shù)的不断(duàn)发展,以(yǐ)海量计算(suàn)为基础的机器(qì)学习、数(shù)据挖掘、数据建模等技术的(de)表现也愈发优异(yì)。NLP之(zhī)所以能够度过“寒冬”,再次(cì)发展,也是因(yīn)为计(jì)算机科学与(yǔ)统计(jì)科学的(de)不断结合(hé),才让人类甚至机器能够不断从(cóng)大量数据中(zhōng)发现“特征”并加以学(xué)习。不过要实(shí)现对自然(rán)语言真正意义(yì)上(shàng)的理解,仅仅(jǐn)从原始文(wén)本(běn)中进(jìn)行学习是不(bú)够的,我们还需(xū)要新的方法和模型。


      目(mù)前存在的问题主(zhǔ)要有两个方面(miàn):一方面,迄今(jīn)为止的(de)语法都限于分析一个(gè)孤立的句子,上(shàng)下文(wén)关系和谈(tán)话环境对本句(jù)的约束和影响还缺(quē)乏系统的研究,因此分析歧(qí)义、词语省略、代词所指、同一句话在不同场合或由不同的(de)人说出来所具有的不同(tóng)含义等问题,尚无明确(què)规律可循,需要加强语义(yì)学和(hé)语用学(xué)的研(yán)究(jiū)才能逐步解(jiě)决。另一方面,人理解(jiě)一个句(jù)子不是单凭语(yǔ)法,还运(yùn)用(yòng)了大量的有(yǒu)关知(zhī)识,包括生活(huó)知识和专门(mén)知识,这些知识无法全部(bù)贮存在计算机里。因此一个书(shū)面理(lǐ)解系统只能建立在有限的(de)词汇、句型和特定的主题(tí)范围(wéi)内;计(jì)算机的(de)贮存量和运(yùn)转速度大大(dà)提高(gāo)之后,才有可能适当(dāng)扩大范围。


      由于语言工(gōng)程、认知科学等主(zhǔ)要局限于实验室(shì),目前(qián)来看数据处理可能是NLP应用(yòng)场景最多的(de)一(yī)个发展方向。实际上,自从进(jìn)入大数(shù)据时代,各(gè)大平(píng)台(tái)就没有停止过对用(yòng)户数据的深度挖掘。要想提(tí)取出有用的信息,仅提(tí)取关键词(cí)、统计词(cí)频等是远远不够的(de),必须对用(yòng)户数据(尤其是发言、评论等)进行语义上的理解。另外,利用离线大数据统计分析的方法进(jìn)行NLP任(rèn)务的(de)研究是(shì)目前非(fēi)常有潜力的一种研究范式,尤其是谷歌、推特、百度等大公司在这类应用上的成功经验,引领(lǐng)了目前大数据研究的浪潮。


      NLP是为各(gè)类企业及(jí)开发者提供的(de)用于文本分析及挖(wā)掘的核心工(gōng)具,已经广泛(fàn)应用在电(diàn)商(shāng)、金(jīn)融、物流、医(yī)疗、文化娱乐等行业客户的多项业务(wù)中(zhōng)。它(tā)可(kě)帮助用户搭建内容搜索、内(nèi)容(róng)推荐、舆情(qíng)识别及分析、文(wén)本结构化(huà)、对话机器人等智能产(chǎn)品,也能够通过合作,定制个性化的解(jiě)决方案。由于(yú)理解自然语言,需要关于外在世界的广泛知识(shí)以(yǐ)及运用操作这些知识的(de)能力,所以NLP也被视为(wéi)解(jiě)决强(qiáng)AI的核心问题之(zhī)一,其未来一般也因此密切(qiē)结合AI发展,尤其是设(shè)计一个模仿(fǎng)人脑(nǎo)的(de)神经网络。


      训练NLP文本解析AI系统需要(yào)采集大量多(duō)源头(tóu)数据(jù)集(jí),对科学家来说是一项持续的挑战:需要使用最新的深度学(xué)习模(mó)型(xíng),模仿(fǎng)人类大脑中(zhōng)神经元的(de)行为,在数百万甚至数十亿的注释示例中(zhōng)进行训练来(lái)持续改进。当下一种流行的NLP解决方(fāng)案是预(yù)训练,它改进了对未标记文本进行(háng)训练(liàn)的通用(yòng)语言模(mó)型,以执行特定任务;它的思(sī)想就是,该模型的参数(shù)不再是随机初始化,而是先有一(yī)个任务进行训练(liàn)得到一套模型(xíng)参数,然后用这套参数(shù)对模型进行初始化,再进行训练(liàn),以(yǐ)获得更好的预测性见解(jiě)。


      目(mù)前我们已经进入了以互联网为(wéi)主要标志的海量信(xìn)息时(shí)代,这些信息大部(bù)分是以自(zì)然语言(yán)表示的。一方面,海(hǎi)量信息(xī)也(yě)为计算(suàn)机学习人类(lèi)语言提供了更多的“素材”;另一方(fāng)面(miàn),这也为NLP提供了更加宽广的应用舞(wǔ)台(tái)。例如,作为NLP的重要应用,搜索引擎逐渐成为人们(men)获取(qǔ)信息的(de)重(chóng)要工具,出现了(le)以谷歌、百度等为代表(biǎo)的搜索(suǒ)引(yǐn)擎巨头;机器翻译(yì)也从(cóng)实(shí)验室走入寻常百姓家;基于(yú)自然语言处理(lǐ)的(de)中文输入(rù)法(如搜狗(gǒu)、微软、谷歌等输入(rù)法)成(chéng)为计算机用户的必备工具;带有语音(yīn)识别的计(jì)算(suàn)机和手机也(yě)正大行其道,协(xié)助用户更有效(xiào)地生(shēng)活、工(gōng)作和学习(xí)。


      现在,NLP领域已经有(yǒu)了大量的人工标注知识(shí),而深度学习可以通过有(yǒu)监督(dū)学习得到(dào)相关的语(yǔ)义知(zhī)识,这种知识和人类总结的知(zhī)识应该存在某种对应关系,尤(yóu)其是在一些浅层语义方(fāng)面。因(yīn)为人工标注,本质上已经(jīng)给深(shēn)度学(xué)习(xí)提供了学习的目标;只是深(shēn)度学习可(kě)以不眠不(bú)休(xiū)地学习(xí),这种逐步靠拢学习目(mù)标的过(guò)程,可能远比人类总结过程来得更快更好(hǎo)。这一点,从谷歌公司旗下(xià)DeepMind研究团队开发的(de)围棋软件AlphaGo短时间内连胜两(liǎng)位人类围棋高手的事实(shí),似乎能够(gòu)得到验证(zhèng)。


      深度学习在NLP中的应用非常广泛,可以(yǐ)说横扫NLP的各(gè)个应用,从(cóng)底层的分词、语言(yán)模(mó)型、句法分析、语音识别等到高层的语义(yì)理解、语用(yòng)阐释、对话管理、知识问答等方(fāng)面都几乎(hū)都有深(shēn)度学习(xí)的模(mó)型(xíng),并(bìng)且取(qǔ)得了不错的效果。有关研究已从传统的机(jī)器学习算法(fǎ)转变成(chéng)更有表现力的深度学习模型,如(rú)卷积神(shén)经(jīng)网络和回归神经网络。不(bú)过,目(mù)前的深度学习(xí)技术还(hái)不具备(bèi)理(lǐ)解和使用自然语(yǔ)言所必需的概念(niàn)抽象和逻辑推理能力(lì),还(hái)有待今后进一步的研究。


      互联网(wǎng)搜索引擎已经有(yǒu)一段时间(jiān)让(ràng)人们使用会(huì)话语(yǔ)言(yán)和术语来在线搜索事物(wù)。现在,谷(gǔ)歌(gē)公司的云端硬盘用户已经可以使用(yòng)这(zhè)一功能(néng)。用户可以搜索存储在谷歌云端硬盘(pán)中的文件和内容,就(jiù)像使(shǐ)用谷歌(gē)搜索提供的(de)对(duì)云端硬盘内置NLP的新支(zhī)持一样。该功(gōng)能使用户可以使用通常用词组表达的查询以及在实际(jì)对(duì)话中(zhōng)将要使用(yòng)的查询来更轻松地找到所需的内(nèi)容。谷歌公司在在线(xiàn)和移动(dòng)搜(sōu)索、移动应用程(chéng)序以(yǐ)及GoogleTranslate等(děng)服(fú)务中(zhōng)广泛使用NLP;该公司在这(zhè)一领域的研究是为提高机器阅读(dú)和理解人类语言能力所做的更广泛努力(lì)的一部分。随着谷(gǔ)歌调整(zhěng)其(qí)算法,NLP应该会随着时间的推移变得(dé)更好。


      前不久,英国剑桥量子(zǐ)计算公司(CQC)宣布,他们利用自然语言的“固有量子”结构(gòu),开辟了一个(gè)全新的可能(néng)应用领域。其通过(guò)将语(yǔ)法句(jù)子翻译成量子线路,然后在量子计算机上实现生成的程序,并实(shí)际(jì)执行问答。这是第一次在量子计算机上执行NLP。通过使用(yòng)CQC的一流(liú)的、平台无关的可重定目(mù)标编译器t|ket)™,这些(xiē)程序在IBM量子计算机上成功执行并得到结果,整个突破朝着实(shí)现“意义(yì)感知”和“语法知悉(xī)”的NLP方向迈出(chū)了有意义(yì)的一大步(bù)——这是(shì)计(jì)算机(jī)时(shí)代早期以来计算机科学家(jiā)及计(jì)算(suàn)语言学家追(zhuī)寻的(de)梦想。


      美(měi)国哈佛(fó)大(dà)学医学院的研究人员借(jiè)助NLP技术最近开发(fā)出一种工具(jù),可以评估新冠肺炎(COVID-19)患者(zhě)的病例、社交媒体(tǐ)和健康卫(wèi)生数(shù)据。他们率先努力通过使用机器学(xué)习技术查看来(lái)自(zì)各种来源的数据和信息(包括患者记录、社交媒(méi)体(tǐ)和公共卫生数(shù)据)来寻找新冠肺炎病毒的解决(jué)方案。借助NLP工具,他们还可以搜索(suǒ)有关(guān)新冠肺炎病毒的(de)在线信息(xī),并了解爆发的当前位置(zhì)。另外(wài),研究人员还(hái)利用NLP技术对新(xīn)冠肺(fèi)炎、药物和(hé)疫(yì)苗等密集(jí)展开研究(jiū),同时(shí)包括临床(chuáng)诊断与治疗以及(jí)流(liú)行病(bìng)学研究(jiū)等。


      中国阿里达摩院的NLP研究团队提出了优(yōu)化模型(xíng)Struct BERT,能让机器更好地掌握人类(lèi)语法,加深(shēn)对自然语言(yán)的理解。使(shǐ)用(yòng)该(gāi)模(mó)型(xíng)好比给机器内置一个“语法识别器”,使机(jī)器在面对语序错乱或不符合语法习(xí)惯的词句时,仍能准确理(lǐ)解并给(gěi)出正确的表达和回(huí)应(yīng),大大提高机器对词语、句子以及语言(yán)整体的理(lǐ)解力。这一(yī)技术已(yǐ)广泛使(shǐ)用于阿里旗(qí)下阿里(lǐ)小蜜、蚂蚁金服、优(yōu)酷等业务。阿(ā)里达摩(mó)院的语言模型和(hé)阅读理解技术也被用于行业赋能,推进AI技术在医疗、电力、金(jīn)融等(děng)行业的落地。据(jù)悉,StructBERT模型在2020年(nián)被评为全球性能最强的NLP系统(tǒng)。


      知(zhī)名市场分析机(jī)构Mordor Intelligence的(de)一(yī)份报告指出,在过去的几年(nián)中,深(shēn)度学习架(jià)构和(hé)算法在市场格局中取得(dé)了令人瞩目(mù)的进步,而语(yǔ)音分析(xī)解决方(fāng)案(àn)正(zhèng)在主导着这一市场(chǎng),因为传统的基于文本的分析已不足(zú)以处理复杂的业务问题(tí)。据估(gū)计,2025年NLP市场规模将比2017年增长14倍,从30亿美元左右(yòu)增长(zhǎng)到430亿美元以上。


      总之,随(suí)着互联网的普(pǔ)及和(hé)海(hǎi)量(liàng)信(xìn)息的涌现,作(zuò)为AI领域的重要研究课题和(hé)掌上明(míng)珠,NLP正在人们的(de)生活、工作、学习(xí)中扮演(yǎn)着越(yuè)来越重要的角色,并将在科技进步(bù)与社(shè)会(huì)发展的过程中发挥越来越重(chóng)要的(de)作(zuò)用。


      文/林峰、李炎(yán)(作者单(dān)位分别为美(měi)国波士(shì)顿(dùn)大学工学院、普(pǔ)渡大学科技学院)


      关键(jiàn)词:




      AI人工智能网声明(míng):

      凡资(zī)讯来源注明为(wéi)其他媒体来源(yuán)的信息,均为转载自其他媒体,并不代表本(běn)网站(zhàn)赞同其观点,也(yě)不代表本网站对其真(zhēn)实性负责。您若(ruò)对该(gāi)文章内容有(yǒu)任何(hé)疑问或质疑,请立即与网站(www.baise.yingtan.bynr.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站将迅速(sù)给您回应并(bìng)做(zuò)处理。


      联系电(diàn)话:021-31666777   新闻、技术文章投稿QQ:3267146135   投稿(gǎo)邮箱:syy@gongboshi.com

      精选资讯更多

      相关资(zī)讯更(gèng)多

      热门搜索

      工博士人工智(zhì)能网
      九游官方网页版-九游(中国)
      扫描二维码关注微信
      扫(sǎo)码反馈(kuì)

      扫一扫,反馈当前页面

      咨(zī)询反(fǎn)馈(kuì)
      扫码(mǎ)关注

      微信公众号

      返回顶部

      九游官方网页版-九游(中国)

      九游官方网页版-九游(中国)