(央视财经(jīng)《天下财经(jīng)》)在日本(běn),古代文献大量(liàng)使用了草书(shū)和行(háng)书(shū)这(zhè)样的手(shǒu)写(xiě)体来(lái)书写日语假名和汉字,要看懂不(bú)容易。而AI技术,也就是人工智能系统(tǒng)的开发能够(gòu)帮助(zhù)人(rén)们快速(sù)识读。
包(bāo)括手抄本和印刷本在内,日本流传至今的(de)古代(dài)手写体文献据估算达到(dào)数亿件,但由于能够看(kàn)懂手写(xiě)体的专业人才极为有限,所以导致大量(liàng)史料尚未完成识读整(zhěng)理工(gōng)作。最近(jìn),日本信息系(xì)统研究机构的一个研究小组开发了一套人工智能系统,通过事(shì)先学习已由(yóu)专家整(zhěng)理完成的44部文献(xiàn),共计100万字(zì)的手写体写法,目前该系统已基本实(shí)现了(le)准(zhǔn)确(què)高效地识读古代文献(xiàn)。
财经频道特约记者王(wáng)翔:我们已(yǐ)经把(bǎ)日(rì)本古典文学名著《源氏物语》扫描进了电脑(nǎo),只需要按(àn)一下按钮,马上就会在屏幕(mù)上看到人工智能解读的结果(guǒ)。像(xiàng)这样一页手写体文献,如果由人来完成的话(huà),即便是最熟练的专家也(yě)需(xū)要10分钟(zhōng)以上,不(bú)过(guò)人(rén)工智(zhì)能只花(huā)了不到3秒钟(zhōng)时间。
该研究小组共有3名成员(yuán),其(qí)中一名是(shì)来自泰国的塔琳 卡努(nǔ)瓦。11年(nián)前(qián),塔琳来东京(jīng)留学攻读日本古(gǔ)典文(wén)学,经(jīng)常需要阅读原始文献(xiàn)。连日本学生都难以辨(biàn)识的古代手写体文字,对一名来(lái)自汉(hàn)字文(wén)化圈以外的(de)留学生(shēng)来说,无异(yì)于天书。这样的经历促使塔琳(lín)一同(tóng)加(jiā)入(rù)了这(zhè)个(gè)研究小组,用半年时间开发了这(zhè)套能够自(zì)动识别手写体文献的人工智能系统。
日(rì)本信息系(xì)统研究机构研究员(yuán)塔琳 卡努瓦:这套系统基本覆(fù)盖了常(cháng)用汉字,可(kě)以给(gěi)日本文学研究者提供方便。
据(jù)研究(jiū)小组负责人介绍,这套系统识别手写体文字的准确率已经达到90%以上,研究小组今后将继续扩(kuò)大(dà)供人工智能(néng)系统用于学习的数据库(kù)范围,并改进程(chéng)序算(suàn)法,来进一步提高系统识别文字的准确(què)率。
日本信息系统研究(jiū)机构项目(mù)负(fù)责人北本朝展:这套系统也适用于汉语文献(xiàn),部分文字(zì)的手写体样本太少,增加样本数量是今后(hòu)改善(shàn)的(de)重点。