Kumaramputhur是喀拉拉邦Palakkad西北约45公里(lǐ)处的一个小村庄,约有3500个家庭在这里居住。这(zhè)个村庄没有(yǒu)第一(yī)产业可言,它的性别比例和识字率都低于(yú)该州的平均水平。除了(le)有一(yī)些(xiē)现代化的痕迹,这里似乎没有什么值得(dé)引起(qǐ)注意。
然而,正是在这个村子里,高中(zhōng)辍学(xué)生Mujeeb Kolasseri指挥着一支由(yóu)200多名员工组(zǔ)成(chéng)的团队,为美国、欧洲、澳大(dà)利亚和亚洲的客户开发人(rén)工智能解决(jué)方案。Kolasseri 于三年前创办(bàn)了这家(jiā)名为Infolks的公司,28岁的他是该(gāi)公司资格最老(lǎo)的成员。
该公司的办(bàn)公室(shì)位于连接Palakkad和Kozhikode的(de)高速公路上,虽然不起眼(yǎn),但团队(duì)里(lǐ)的大部分成(chéng)员都(dōu)在这里(lǐ)工作(zuò)。他们所要做(zuò)的就是将固(gù)定在自动驾驶车辆上的摄像机拍(pāi)摄的车辆、交(jiāo)通灯、路标(biāo)和行人(rén)的(de)图像(xiàng)进行强调和(hé)标记。这(zhè)份工作(zuò)看似简单(dān),但却很困难,因为他们(men)需(xū)要将激光雷达(dá)遥感(gǎn)器捕获的数据进行精确标记(激(jī)光雷达为自动驾驶车辆创建3D地图,以获(huò)得对周(zhōu)围物体的(de)感知)。
约2000公里之(zhī)外,加(jiā)尔各(gè)答西(xī)南边缘的梅蒂阿布鲁(lǔ)兹胡格利河岸附近,约有200名妇(fù)女正在给图像贴标(biāo)签,这些图像将用于训练自动驾驶车辆和增强现实系统中(zhōng)的算法。
“他们参与着一些我们最(zuì)前沿的图像项(xiàng)目,”数据注释公司iMerit的技术和营销副总(zǒng)裁Jai Natarajan表(biǎo)示,其员工参(cān)与标记和准(zhǔn)备数据,以训(xùn)练人工智能算法。
iMerit在(zài)加尔(ěr)各答、兰奇、布巴内斯瓦尔、维扎格(gé)和夏(xià)隆办事处的数千名员工也在从事着类似的工作,通过给数(shù)百万(wàn)数(shù)据贴上(shàng)标签,帮助(zhù)训练(liàn)全球各(gè)大公司开发的人工智能(néng)算(suàn)法(fǎ)。
全(quán)球企业(yè)巨(jù)头正在逐(zhú)步采用人工智能,为人工智能(néng)算法提供支持的数据集也变得越来越专有,所以这些公司需要在要求、质量控制、反馈和交付方面与数据标(biāo)签团队进行更高程度的(de)合作。
由于本(běn)世纪初业务流程外包的繁荣(róng),印度人对这(zhè)些行(háng)话和要求并不陌生。数据注(zhù)释和标记也是一种由流程驱动的工作,需要精(jīng)确的工作和(hé)技能(néng),即使是(shì)受过高中教(jiāo)育(yù)的人也可以(yǐ)接受培训。
随着以众包为主(zhǔ)的第一代(dài)工作被更(gèng)先进(jìn)的要求所取代,Infolks、iMerit和Playment等公(gōng)司开始(shǐ)迎合全球客户,并使印度成为数据标(biāo)签和注释工作的新(xīn)兴中心。
“这(zhè)是一个新兴(xìng)行业。在(zài)印度,每个人都已经(jīng)开始意识到它带来的巨大机遇,”印度科技产业机构Nasscom的高(gāo)级副总裁兼首席战略官Sangeeta Gupta表(biǎo)示。“人工(gōng)智能(néng)需要适当(dāng)注释、分类和(hé)匿名的数据。为此,不管喜(xǐ)不喜(xǐ)欢,你(nǐ)都将使用自动化,但你也必须使用(yòng)熟练的人力(lì)资源,而这就是它(tā)给印度带来(lái)的机会。”
根据研究公司Cognilytica的一份报告,到2023年底(dǐ),与人工智能和机器(qì)学习(xí)相关的数据准备解决方案的(de)全球市场,预计(jì)将从2018年的约(yuē)5亿(yì)美元增长至12亿美(měi)元。
什(shí)么是数据(jù)标记?
通过数据标记和注释(shì),来自(zì)非结构化(huà)来源(yuán)(如照相机、传感器、电(diàn)子邮(yóu)件和社交媒体等)以及来自结构化来(lái)源(yuán)(如数据库)的数据集被(bèi)标记、标注、着色或突出显示,以标记出(chū)差(chà)异、相似性或类型。通过这样的方法,当数据被(bèi)输(shū)入(rù)到用于训练人工智能(néng)系统的算(suàn)法中时(shí),该算法可以正确地识别数据并从(cóng)中学习。
比方说,你想训练一种算法,利用车(chē)载摄(shè)像机拍摄的图像来(lái)理解路标。数(shù)据(jù)标签工或注释工将通过(guò)图像数据集,使用(yòng)标注(zhù)工具标(biāo)记或高亮显示路标,并将其输入人工智能算法进行学习。下(xià)一次(cì),当算法在一个区域内实时行驶并遇到路标时,它应该能够识别(bié)出路标(biāo)。算法训练的路标图像越多,其准确性就(jiù)越高。
推动人工智能或机器学习激增(zēng)的是从(cóng)互联(lián)网、社交媒体(tǐ)、传感器和其(qí)他来源获取的大量(liàng)数据。如今的(de)算(suàn)法有(yǒu)能力吸(xī)收更多的数(shù)据,从而(ér)也更精确。只要数据(jù)是优质且(qiě)干净(jìng)的,将另外一百万个数据集输入一个算法(fǎ)将会提高它的准确性。因此,这也(yě)导致了(le)人工(gōng)智能算法和应用对标(biāo)注良好的数(shù)据产生了无止境的渴望。
根据Cognilytica的报告,现如(rú)今(jīn),数(shù)据准备和工程任务(wù)占据(jù)了大多数人工智能和机器学习(xí)项目80%以上的(de)时间。
“比如自动驾驶,一个小时的(de)视频数据可能需要(yào)消耗800个工时,”Playment首席执(zhí)行官Siddharth Mall表示。
Infolks之(zhī)旅
Kolasseri高中(zhōng)辍学后(hòu),在铝加(jiā)工行业工(gōng)作,但由于健康原因(yīn)不(bú)得不离开。在国内,他注册了亚(yà)马逊称为“Mechanical Turk”(MTurk)的众包就业市场,并开(kāi)始从全球各地的公(gōng)司从事注释工作。
“我能够保持99.8的评级是因为我能(néng)够提供高质量的服务。我(wǒ)工作过的一家公司非常喜欢我的工作,于是(shì)直接找到我,并提供(gòng)了更多的工作,”Kolasseri说(shuō),他随后成立(lì)了一个六人团队来(lái)完成这项工作。“我们最初在家工作,2016年初(chū),随着业(yè)务的增长,我决定注册成立(lì)这家公司。”
最初,Kolasseri的兄弟和一个朋友投(tóu)资了2.5万(wàn)卢比,帮(bāng)助他建立了这家公司。如今,Infolks是一个正在(zài)成长(zhǎng)中的团队(duì),其大部分员工来自Kumaramputhur及其周边地(dì)区。
Kolasseri说:“公(gōng)司的愿(yuàn)景是将我们的(de)村庄(zhuāng)变得全球化,并(bìng)为农村(cūn)地区的年轻(qīng)人提供经济机会。近200名员工中有90%在20到25岁之间。”
尽管该(gāi)团队也负责医疗保(bǎo)健、机(jī)器人和农业等领域(yù)的数据集(jí),但他们大约(yuē)75%的工作都(dōu)是在自动驾驶车辆领域。其客户包括德国汽车公司戴姆(mǔ)勒(lè)和其他国际科技公司,由于(yú)签署的协(xié)议,Kolasseri并未透露这些公司的名称。
至于注释(shì),该公司使(shǐ)用客户提供的工(gōng)具(jù),或者使用第三方工具。“我们(men)的研发团队正在(zài)开发自(zì)己的注释工具。它目前(qián)正在(zài)测试中,应该(gāi)会在接下(xià)来的几周内推(tuī)出,” Kolasseri表示。Infolks还在Kozhikode区(qū)附近的一个科技(jì)园区(qū)内设立了另一个办事(shì)处(chù)。Kolasseri希望这能够增加公司的收入,因为新的地点属于经济特区,有助于扩大(dà)其全球客户群(qún)。
印度人工智能后台
亚(yà)马逊(xùn)的MTurk在开始限制非美国员工之前(qián),曾(céng)是印度人寻找数(shù)据标签和注释工作的热(rè)门平台。尽管后来取消了限制,但随着企(qǐ)业(yè)客户开(kāi)始更加重(chóng)视数据安全,MTurk在(zài)数据标(biāo)签商(shāng)中的受欢迎程(chéng)度有所下降。此外,包括Spare5、Cloudfactory和Figure Eight在内的新众包平台也已经(jīng)进入市场,它们则(zé)更加关注注释和标签市场。
Kolasseri说:“在创办公司(sī)之前,我曾于2015年至2016年期间在MTurk平(píng)台上工作(zuò)过,如今,仍然不断有新的平台出现(xiàn)。但是(shì),由于企业客户非常关注数据安全,尤其是考虑到许多数据集都是专有的(de),因此信任这些平台上的(de)工作人员(yuán)成为他们面临的更大(dà)挑战。”
由前(qián)Flipkart员工Mall、Ajinkya Malasane和Akshay Kumar Lal所创立的Playment,则以(yǐ)一种略有(yǒu)不(bú)同的方式对待注释和标(biāo)签行业。
该(gāi)公司为各种用例开发了一系列(liè)注释工具,并开发了一个由受过(guò)这些工具培训的(de)标签工和注释工(gōng)组成的(de)众包平台。该公司直接与客户或相(xiàng)关的信(xìn)息技术服(fú)务(wù)公司进行合作。
“要将原始(shǐ)数据转换为(wéi)带注(zhù)释(shì)的结构(gòu)化(huà)数据(jù),你需要前端注释工具、熟练且经(jīng)济高效的人力(lì)资源(yuán)。此外,由(yóu)于处理数据的规模化,你还需要有合(hé)适(shì)的(de)中间(jiān)件来支持不(bú)同(tóng)的工作流(liú)并管(guǎn)理远程人力(lì)资源,”Mall说。
Playment的众包平台拥有30多万(wàn)标签工(gōng)和注释工。其(qí)中,该(gāi)公(gōng)司认为约有2.5万人是“高技(jì)能顶级玩家”。据Mall称,这些人几乎整(zhěng)天都在平台上,平均月(yuè)收入为(wéi)2万至3万卢比(bǐ)。
Playment的大部分工作(zuò)也(yě)来自国际客户,其中包括(kuò)三(sān)星(xīng)、滴滴出行、阿里巴巴、Drive.ai和Continental AG,其中大部分(fèn)都属(shǔ)于自动(dòng)驾驶车(chē)辆(liàng)领(lǐng)域。
iMerit的战略则以员工(gōng)为中心。其2000多名(míng)劳动力(lì)中(zhōng),约80%来自月(yuè)收入低于100美元的家庭;其中大约一半(bàn)是女(nǚ)性。“我们的社会使命是在贫困(kùn)社区和公司或工(gōng)业较少的地(dì)区创造(zào)技术就业机会。我们在科技产业稍低、科技(jì)就(jiù)业(yè)机会较少的城市开展(zhǎn)业务,” Natarajan说道。
所(suǒ)谓(wèi)的利(lì)他主义也有很好的商业(yè)意(yì)义。Natarajan表示:“我们的合作伙伴和办公地点,允许我们以非常(cháng)经济高效(xiào)的方(fāng)式(shì)扩大数据注释(shì)和标(biāo)签团队,并为(wéi)客户提(tí)供高质量的工作。”
尽管iMerit的大部分业(yè)务都来自美国——客户(hù)包括微软、易趣和Tripadsvisor——但其90%的数据注释和标签工作是在印度完成的。
注释自(zì)动(dòng)化
虽然各大公司正在(zài)开(kāi)发用于注释的自动化工(gōng)具,但由于许(xǔ)多工作需要更为细致的定制注释或标签工作(zuò),要想让自动(dòng)化工具(jù)达到高(gāo)精度还需要一段时间。
Natarajan说,与五年前人工智能还在区分猫和狗的不同相(xiàng)比,现在的人工智能需要处理更高级的工作。“机器学习(xí)已经(jīng)向(xiàng)前发展,所以不再有人要求我(wǒ)们为狗和猫进行标记。如(rú)今,每家公司都有定(dìng)制的需求和非常细微的需求(qiú),所以不(bú)可能自(zì)动实现这一点,也不(bú)可能(néng)自动给出数据并由一群匿名人士(shì)贴上标(biāo)签。”
他说,基于人工智能(néng)的自动化注释工具(jù)是(shì)不可(kě)避免会出现的,但(dàn)它(tā)并不是一个威(wēi)胁。“自动化注释工具本身就是经(jīng)过良好注释训练出来的(de)结果。当你试图解决一(yī)个问(wèn)题时,这些工具只能把你(nǐ)带到(dào)一定的水(shuǐ)平(píng),但(dàn)是要(yào)超越(yuè)这个(gè)水(shuǐ)平,你还需要自定义注释(shì),”Natarajan说。
当然(rán),加以(yǐ)一段时间,自动化工具会变(biàn)的足够有(yǒu)效,从而能(néng)够创(chuàng)建(jiàn)更好(hǎo)地数据集(jí)。“从更长远的角度(dù)来看(kàn),我们确(què)实认识到(dào)这个(gè)行业并(bìng)不(bú)能永久存在(zài)。当客户成功时,我们(men)的任(rèn)务(wù)就结束(shù)了,”Natarajan说。“但我们也(yě)发现,这也并不是一(yī)个100%肯定的事情,因为它总是一个持续不断的学习(xí)和(hé)改进的过程。此(cǐ)外,当客户转(zhuǎn)向下一个问(wèn)题(tí)时,一切又(yòu)都(dōu)从零开始了。”
换句话说,印度的数据标(biāo)签和注释公司尚未见顶,这(zhè)一行(háng)业可能需要很长(zhǎng)时间才会走上业务流(liú)程(chéng)外包的老路。