AI热潮(cháo)不减(jiǎn)。过去一周,“双马对话”拉开世界人工(gōng)智(zhì)能大会的讨论热(rè)潮,同一时间, 百度在(zài)北京举办“百度云智峰会”喊出“AI工业化”的口号。京东(dōng)云(yún)发布智能城市战略。仅一个周末,由陌(mò)陌推出的AI换(huàn)脸APP,一夜“ZAO”热……
放眼国内,AI技术正(zhèng)展现(xiàn)大变(biàn)革潜力(lì),AI赛(sài)道也日益拥挤。站在今天回(huí)看,2017年或许是中国人(rén)工(gōng)智能(néng)发(fā)展的一个重要节点。从那一年开(kāi)始,人工智能风起云涌。一夜之间(jiān),仿佛所有的公司都(dōu)变成了(le)人(rén)工智能公司,资本、人才向人工(gōng)智能领域快速涌(yǒng)入(rù)。“人工智能”成为(wéi)科(kē)技界(jiè)、学界、企业(yè)界最热门、最受追捧的(de)词汇之一。而彼时,科(kē)技巨头(tóu)Google、IBM等对人工智(zhì)能的研究已逾十年,近几年部分研究成果已经进入商业应(yīng)用。
从这些维度来看,人工(gōng)智(zhì)能可谓已经迎来一(yī)个非常好的时代,但(dàn)是热闹背后一些(xiē)问题也(yě)浮现(xiàn)出来。在释放巨大应(yīng)用价值和(hé)商业价值的同时,人工智能(néng)的推(tuī)广(guǎng)使(shǐ)用也产生了(le)一些“副作用”。个人(rén)隐私(sī)信息被非法采集、利用大数据实施精准诈骗等,已开始(shǐ)露出苗头;“人工智能可(kě)能拉大(dà)数字鸿沟、取(qǔ)代工作岗位(wèi)”的猜测,也引发了一些担忧(yōu)。
人工智能需要(yào)“交通法规”
回应社会上对人工智能的种种担忧,又为这一技术保留(liú)了足够的创新空间。前不久,国(guó)家新(xīn)一代人工(gōng)智能治理专业委员会发布了《新一代人工智能治理原则——发展负责(zé)任(rèn)的(de)人(rén)工智能》,明确了人工智能治理的(de)框架和(hé)行(háng)动指(zhǐ)南。
这意味(wèi)着,正(zhèng)在快(kuài)车道上飞奔的中(zhōng)国人(rén)工智(zhì)能(néng)多了一部“交通法规”。 作为一项影响深(shēn)远的颠覆(fù)性技术,人工智能(néng)技术可能带来的“副作用”不(bú)可小觑。特别是在人工智能进入实用(yòng)的新阶段,鼓励创新和规范应用必须双管齐(qí)下。我国已(yǐ)是人工智能(néng)发(fā)展大国,尽早立下(xià)“包容共享、敏捷治理”等规矩,将(jiāng)为(wéi)人工(gōng)智(zhì)能的健康发展保驾护航。
消除偏见,打造负责任的人工智(zhì)能
在探讨(tǎo)人工智能可能带(dài)来(lái)的(de)偏见和歧视问题时,微软(ruǎn)的(de)研究团队,正在从(cóng)称为“单词嵌入”的自然语言处理(lǐ)工具(jù)做起,试图解决文本搜索中的性(xìng)别(bié)偏见(jiàn)的问题。
所(suǒ)谓单词嵌入,是一种用来将单(dān)词(cí)转(zhuǎn)换为向(xiàng)量数字的算法,它能(néng)够以(yǐ)来自新闻数(shù)据或者网页数据的(de)海(hǎi)量(liàng)文(wén)本(běn)数据为依(yī)据,为每个单词赋(fù)予一(yī)个(gè)对(duì)应的向量数字。通过在向量坐标系(xì)中,比对常(cháng)见(jiàn)词汇与“他”、“她”这两(liǎng)个性别(bié)代词之(zhī)间的关(guān)联度,研究人员发现了一(yī)些明显的特征,例(lì)如“sassy(刁蛮(mán))”、“knitting(编织(zhī))”这样的词更靠近女性(xìng),而“hero(英雄)”、“genius(天(tiān)才)”更靠近男性。
算法之所以会(huì)为这些词汇赋(fù)予性别特(tè)征,原(yuán)因在于训练算法用的基准数据集——通常(cháng)是来自新(xīn)闻和网(wǎng)页的数据——本身就存在着由语言习(xí)惯造成(chéng)的(de)“性别偏见”,算法也自然“继承”了人类对这些词(cí)汇理解的(de)性别差异。其结果就是,当微软用试验算法,根据梅林(lín)达·盖茨的 linkedIn 信息推测其职业时(shí),得到了“教师(shī)”的判(pàn)断,但只要将人称代词换成“他”,盖(gài)茨夫人的职业(yè)就会变为(wéi)“律师(shī)”。为了(le)解决这个问题,微软的研究员提出了一个简单易行的(de)方案(àn):在单词嵌入中(zhōng),删除区分“他(tā)”和“她”的判断(duàn)维度(dù),从基准数据集(jí)中消除偏(piān)见。
AI芯片喧嚣背后(hòu)市场痛点(diǎn)犹存
AI芯片已(yǐ)成为(wéi)中(zhōng)外科技企业竞争的焦点(diǎn)之一,以至于(yú)清华大学微电子所所长(zhǎng)魏少军用“无(wú)产业(yè)不AI,无(wú)应用(yòng)不AI,无(wú)芯片不(bú)AI”这样的(de)话语描述当下的人工智能热潮。
“我们离人(rén)工智能还有多远?目前很多企业(yè)所做的只(zhī)是增强智能而不是(shì)真正的人(rén)工智能(néng),离真正的人工智能还差得很远”。魏少军表(biǎo)示,人工智(zhì)能网(wǎng)络能(néng)够崛起取决于三(sān)个因(yīn)素,算(suàn)法、数(shù)据和算力。当前,AI芯片面临两个现实问题:其(qí)一(yī),算法仍(réng)在不断演进,新算法层(céng)出(chū)不穷,每(měi)隔几个月算法就(jiù)发生新的变(biàn)化;其二(èr),一(yī)种算法对应一种应用,没有统一的算(suàn)法,而(ér)让(ràng)芯片处理不(bú)同的算(suàn)法十(shí)分困难。
在魏少军看来(lái),AI芯片应该具备的要素包括可编程性、架(jià)构的动态(tài)可变性(xìng)、高效的架构变换能力、高(gāo)计算效(xiào)率、高能耗效率、低成本(běn)等。按照这(zhè)些(xiē)要求,目(mù)前业界流行的一(yī)些做法均不是理(lǐ)想的架构(gòu)。过去几年,AI芯片领域一(yī)个重要变(biàn)化就是架构的变化(huà)。人工智能芯片不在于追(zhuī)求算力,而在于架构创新。业界也需要找(zhǎo)到一种(zhǒng)针对人工智能计算的全新计算引擎。
云从科技副总裁张立认为,传统芯片(piàn)企业通常更(gèng)关(guān)注是如何把芯(xīn)片做成通用(yòng)化(huà),以支持各种不同应用场(chǎng)景(jǐng)。但(dàn)这样的通(tōng)用(yòng)化,在AI场景落地时(shí)会遇到(dào)问题,比如公(gōng)司对(duì)AI芯片考虑较多的是单位功(gōng)耗,而芯(xīn)片企业对功耗要求可能不是(shì)首要优先级(jí)。公司在将AI场(chǎng)景落地的过程中,发现通用芯片(piàn)完全满足不了需求。这给从(cóng)事AI解决方(fāng)案和核心算法(fǎ)的企业带(dài)来了难题——公司的算法是统一的,但(dàn)需要在(zài)不同的场景适配(pèi)不同的芯片和模组。
“目前(qián),AI芯片发展还(hái)处在婴儿期”。张(zhāng)立表示,现在企业使用的很(hěn)多AI芯片因为工艺(yì)要求较高,很难在大陆流片,都(dōu)是在台积(jī)电进行流片。同时,也正因这(zhè)工艺复杂度较高,导(dǎo)致芯(xīn)片价格较高,使得下游(yóu)很(hěn)多使(shǐ)用其模组的产品无(wú)法量产。
AI+教育的(de)变革与反思
日前,某(mǒu)人脸识(shí)别系统在课(kè)堂(táng)上(shàng)的应用在笔者(zhě)朋友圈引(yǐn)起热议。图中显示,两名在教(jiāo)室中的女生(shēng)身边,显(xiǎn)示出了相(xiàng)应的课(kè)堂行(háng)为数据,比如(rú)趴桌(zhuō)子、玩手机、睡觉、听讲、阅(yuè)读、举手等等。业内某名嘴(zuǐ)犀利点评:非常反感这种应用,且毫(háo)无意义!教育,跟养猪的(de)区别还是蛮大的!
联合国教(jiāo)科文(wén)组织在2019年(nián)3月份发布过(guò)《教育中(zhōng)的人工智能:可持续发展(zhǎn)的挑(tiāo)战(zhàn)和机(jī)遇》报告(gào),比较系统综合了(le)各国人工智能和(hé)教育相结合(hé)的做(zuò)法。报告(gào)的愿(yuàn)景(jǐng)是促进人工智(zhì)能教育(yù)可持(chí)续发展,但更重要(yào)的目标是(shì)怎么样体现(xiàn)教育个性化、包容(róng)化、公平性,驱(qū)动教育管理步入全新(xīn)的(de)轨道,以及帮助学生为“就业革(gé)命”做好准备。
上海市人工智(zhì)能学会(huì)理(lǐ)事(shì)长、同济大(dà)学(xué)企业数(shù)字化技术教育部工(gōng)程中心主任、同济大学教授张浩就曾指出,数据驱动的智能(néng)教育主要(yào)考虑(lǜ)几个因素:一方面是(shì)个性化“教”,作(zuò)为教师,应该体现教(jiāo)学中的个性化。过去老师都是猜,现在(zài)可以通过数(shù)据辅助。另一方面是个性化的(de)“学”,以前的学生(shēng)总(zǒng)是听,现(xiàn)在可以通过个性化数据(jù)辅助,可以学得更有(yǒu)序(xù),从(cóng)此建立个性化学习模式。目前,大数据(jù)主要还是推动个性化教育”。
未来学校的(de)功能是转(zhuǎn)变的,教(jiāo)育的(de)内容是转(zhuǎn)变的,教育的环境也是转(zhuǎn)变的。教育是永(yǒng)恒的话题,AI结(jié)合(hé)教育(yù)刚刚开始。《中国教育现代(dài)化2035》中提到“智能(néng)”为先驱,以人才培(péi)养为核心,有四(sì)大方面的考量:提升校园(yuán)智能(néng)化、新(xīn)型教学模(mó)式、教育服务新(xīn)业态、推进(jìn)教学治理方式变革。人脸识别在课堂(táng)上的应用(yòng),相(xiàng)信只是AI落地教育(yù)领域的最初尝试,经过不断的试错、调整,最终(zhōng)真正(zhèng)地辅助教育的(de)目的。
人工智能(néng)要(yào)做高产值关键要以人为本
人工智(zhì)能要做高产值不是什(shí)么(me)难(nán)事,关键是要(yào)以(yǐ)人为本。”上海人工智能安全(quán)专委会主任、中科院院士、计算(suàn)机软件专家何积丰表示:“上(shàng)海人(rén)工智能的(de)发展取得(dé)了很大的(de)进步,政府投入了大量的资(zī)源,给予了(le)高(gāo)度重(chóng)视,但是在全面性(xìng)方面仍然(rán)有待完善。
何(hé)积丰院士(shì)所说的(de)全面(miàn)性,是指要(yào)关注科研创新体(tǐ)制改革,以及关注新技术(shù)带来的新挑战(zhàn),包括人工智能的安全性、人工智能的人才培养、核心基础研(yán)究(jiū)的投入以及(jí)相应的配套(tào)设施的建设。
以安全(quán)为例,何积(jī)丰院士援引数据(jù)称,上海人(rén)工智能三年的产值(zhí)规(guī)模要达到500亿(yì)人民币,五年产值规模要达到1000亿人民币。“要做高产值很(hěn)容易,理(lǐ)论上一部分信(xìn)息通信(xìn)技术(ICT)行业的产值也可以算(suàn)到人工智能领(lǐng)域。但要真正打(dǎ)造人工智能高地,让人工智能服务于我(wǒ)们的社会经济(jì),还有很多工作要做。”何积丰院(yuàn)士表示。
他强调,人工智能要(yào)解决的是基础的算法问题,因此数学基础研究很重(chóng)要。他认为,由于中国基础研究长时间地被边缘化,要(yào)鼓动基(jī)础研究人员参与(yǔ)其中需要更大的努力。此外,何积丰院士还强调应让人工智(zhì)能技术与5G技(jì)术充(chōng)分结合,尽快建设完善(shàn)各类网(wǎng)联基础设施,让城(chéng)市(shì)完成智慧协同,实现(xiàn)精细化(huà)的治理。
无(wú)数据,不AI
2018年(nián),全球人工智能市场突(tū)破2700亿(yì)元(yuán),其(qí)中中国超过360亿元(yuán),相比2015年的203亿元复合增长率为(wéi)21%。飞速上扬的曲线背(bèi)后是科技发展的日新月异,于互联网下半场,AI已(yǐ)经(jīng)成为很多公司、企(qǐ)业面向未来的武器和底气。
与之对应(yīng)的是另外一(yī)组数字,据We Are Social公司统计,全球独立(lì)移(yí)动设备(bèi)用户渗透率超过(guò)了总人口的65%,活跃互联网用户(hù)突破了40亿人,接(jiē)入(rù)互联网的活跃移动设备超过了50亿台。根据IDC预(yù)测,2020年,全(quán)球将(jiāng)总共拥(yōng)有(yǒu)35ZB的数据量。
这是一组(zǔ)每天(tiān)都(dōu)处于千万亿次增长的数据(jù)曲(qǔ)线。
人(rén)工智(zhì)能,算法是发动机,数据是燃料。对(duì)于大(dà)部分(fèn)公司(sī)的(de)AI业务来说,获取(qǔ)海(hǎi)量而优质的标(biāo)注数据(jù)是进行(háng)人工智能的(de)先(xiān)决条件。算(suàn)法模型是计算机基(jī)于大规模的训练数据集,归纳出的识别逻辑,以实(shí)现精准的物体和场(chǎng)景识别。可(kě)以说,实(shí)现(xiàn)机器精准识别的重要一步,就是获取海量(liàng)而优质的标注数据。
但在(zài)现阶段(duàn)工业界(jiè)的AI应用研发,标数(shù)据是一定跳不过去的,可能10年之内都(dōu)要依(yī)赖于标数据。”一位业内人士表示。
就当下而言,从最基本的构建模式来看,数据是人工(gōng)智能的原料;但如(rú)果将数据与人工智能技术的整体发展相比,如今(jīn)数据的采集(jí)和标注方式却(què)是(shì)后(hòu)者发展的“木(mù)桶短板(bǎn)”。
这门生意(yì)正在进步。从粗放型(xíng)到如今的精细化运作,数据的生意模式正(zhèng)在不(bú)断升级。身处这个赛(sài)道(dào)的玩家们,则是给它做(zuò)了最佳注脚。可以预测,“无数据,不AI”将会成为常态。
结语
经历了这(zhè)个夏天(tiān),AI热(rè)度有增无(wú)减(jiǎn)。但是相比最初由(yóu)产业界、投资界所推动(dòng)的热(rè)潮,现在学(xué)界和基础研究领域也在逐渐产生一些革命性变革(gé),人才缺口问题(tí)也越来越受到重视,有望从根源上得(dé)到解决(jué)。
用一麻袋的钱(qián)买书,书看完(wán)了,卖了书却发现钱不够买麻袋。生活中很多(duō)事情往往会落入这个套(tào)路。
无意于用这(zhè)个逻辑来暗讽AI创(chuàng)业的某些乱(luàn)象。只是希望热潮退却时,不只(zhī)是烧掉了(le)投资人的钱,还有许多落在(zài)实处的有意义的(de)应用(yòng)。
退一万步说,读书(shū)也好(hǎo),投资也好,最重要的意义不在于是(shì)否能够回收(shōu)麻袋成本,而是(shì)在这个过程中明白,自己是否真的需要(yào)麻袋,以及在这个(gè)过(guò)程中,那些无法用金钱来(lái)衡量的收获(huò)。