首页 人物 内文

当AI学习「之乎者也」

2021年5月21日 文/ 柴九 编辑/

书籍是中国文化的魂器,没有书籍的流转,就没有文化的传播和交流。

文|柴九

出海,一本古籍的颠沛流离

如果有幸翻阅《宋百家诗存》,一定要带上防尘手套,小心翼翼。

颠沛流离近200年,水泡过、虫蛀过,古籍内页已脆弱不堪,但首页上的古稀天子之宝白文方印、末页的乾隆御览之宝朱文方印依然清晰——这两方印的存在,是考证它《钦定四库全书》零本身份的重要依据。

如今它静眠在加州大学伯克利分校东亚图书馆深处。身处旧金山湾区,这里依坡而建,阳光充沛。向南的主图书馆前伫立着马克·吐温和希腊智慧女神雕像,百米之隔的东亚图书馆却通身东方古典气息,用素色大理石和仿古家具装饰。

中式氛围感十足,但这儿终究不是家。

祖先的文化遗产散布在海外,这种感觉是很复杂的。作为中央文史研究馆馆员、四川大学历史文化学院教授、原国家图书馆常务副馆长,陈力到访过许多海外图书馆。每到一处,他总要亲眼看看那里收藏的中国古籍。两年前他来到伯克利,这所大洋彼岸的汉学研究重镇,拥有普天下图书馆人都羡慕的游学访问、迎来送往的风景。

身临其地,情感很微妙。书籍是中国文化的魂器,没有书籍的流转,就没有文化的传播和交流。中华典籍最早的出海,至少可以追溯到遣唐使团的文化交流,中国文化光耀汉字文化圈的时代。但到了家国命运颠簸无依的近代,古籍流转的背景,多了炮火、眼泪和许许多多糊涂账。

《宋百家诗存》

《宋百家诗存》成书于乾隆六年(1741年),浙江嘉善人曹庭栋遍采山经地志、稗官野乘,编纂成这部两宋诗集。四十多年后,《宋百家诗存》被《四库全书》收录。根据四库馆臣记载,《宋百家诗存》与《宋诗钞》地位等同,相辅而行,可见宋诗崖略。

这部古籍曾随《四库全书》藏于清代七座皇家藏书楼之一杭州文澜阁,而后命途多舛。太平军入杭时期,3.6万余册《四库全书》全部散佚。后来杭州藏书家丁申、丁丙千辛万苦,流转多地救书,找回文澜阁本《四库全书》的四分之一。可《宋百家诗存》不在其中,如今书中的吴兴刘氏嘉业堂藏书印能证明,《宋百家诗存》曾在战乱时驻留于私人藏书楼南浔嘉业堂。

它如今为何又出现在伯克利?

伯克利东亚图书馆馆长周欣平曾根据现有史料推断,文澜阁版《宋百家诗存》(卷七)极有可能是在1949年前后,东亚图书馆从日本三井文库批量收购古籍时,随着460多个大箱漂洋过海来到美国的。

然而,它是什么时间离开的嘉业堂?被谁带到了日本?经手此书的人是否清楚它的价值?种种疑团早已被历史抹平,答案无人知晓。

伯克利分校东亚图书馆

回家,两个图书馆人的越洋会面

在涉足古籍数字化工作30多年的陈力脑海里,类似的故事还有很多。近代以来,许多珍贵古籍流散海外,被美国、日本、欧洲等地图书馆、高校和研究机构收藏。由于各种现实原因,海外古籍实体的回家非常困难,几无可能。

过去我们保护不了,现在我们有了这样的能力,也有基础和条件。陈力说,这是他在听闻阿里巴巴的汉典重光创意后,一拍即合参与的原因。达摩院提出了另一种回归思路:寻觅海外古籍,把它们数字化,并放到公共平台上。2019年,陈力与四川大学历史文化学院副院长王果还有达摩院的工作人员到访伯克利,重逢多年未见的好友、伯克利东亚图书馆馆长周欣平,征求伯克利的合作意愿。

那天两个图书馆人的交流,就像20多年前另一场谈话的续集。上世纪90年代末,周欣平到访川大,和陈力说起一些异想天开的点子:古籍能不能电子化?能不能放网上全文检索?最好跨语言检索,输入一个检索词,不光在中文古籍中找到出处,还能查到英文、日文、俄文等不同版本。

时至今日,这个脑洞依然超前。中文古籍数字化的发展并没有想象的那么快。早期的数字化止步于电子扫描,把纸书变成图片保存。有了计算机和互联网,业界的机构和个人试着把扫描图片变成文本,但大家都是散装操作,只专注各自拥有的古籍,没有形成统一平台。外加难以突破古籍识别技术瓶颈,导致我们至今没有通用的数字化工具。

跨语言检索,仍是遥不可及的梦。但是,造一个公共平台,让海外古籍数字化回归,带动海内外的古籍资源共享,慢慢扩充可供全文检索的古籍库,却是极有可能实现的。

伯克利的中文藏书规模排名全美第三,有很多罕见的古籍善本。周欣平历来主张古籍乃公共资源,应该让学界和社会大众无偿使用。而阿里,为这件事准备了两样东西:阿里巴巴公益基金会的经费,达摩院技术团队的义务支持。

他们决定一试。

达摩院技术团队在开会

识字,两套逻辑的激烈对冲

《宋百家诗存》成书刊刻那年,曹庭栋41岁。他从小喜好绘画作诗,参加乡试十次,始终无缘举业,中年以后绝意仕途,闭门著述40多年。据说他一生不曾离开家乡,但他这本宋诗选集,却在过去200多年环游了半个地球。

2021年,文澜阁本《宋百家诗存》(卷七)的原书扫描件随一块从伯克利寄出的硬盘飞回中国,落在陈力的案头。

周欣平亲自选定了首批中文古籍善本。饶是与古籍打交道一生的陈力,都不免被这些珍藏震撼,有些本子,国内几乎没人看到过。

他作了一番梳理:

伯克利20万页中文古籍,包含40余种珍贵的宋元刻本、写本,比如北宋《金粟山大藏经》写本、宋刻本《後村居士集》等;明清至民国时期著名学者的稿本、抄本,如钱谦益、翁方纲、张惠言、吴骞、王韬的稿本;天一阁、嘉业堂、密韵楼等著名藏书楼的旧藏。当然,还有著名的清文澜阁《四库全书》零本。

天书,达摩院工程师何梦超说,20万页,都是天书。

电脑屏幕锁住了古籍的浮沉身世,理工科出身的年轻技术人员感叹古籍真美,然而看不懂。而他们的任务,是让机器看懂。

古籍字符识别,技术上属于机器视觉领域,人工智能技术的分支之一。原理上,古籍字符识别与现代印刷体文字识别一样,都可以用OCR(Optical Character Recognition,光学字符识别)手段进行。

问题是,没有数据让AI学习那些待识别的文字。陈力估算,古汉语常用字约有几千,但中国古籍全部字符至少几十万,绝大部分没被现代字库收录,也几乎找不到样本供AI学习。

机器学习大法,只有在数据、算法、算力三要素都齐备的情况下才起效。没有数据,就只能靠专家录入,如果一本书大量依赖专家录入和检校,相当于又回到了手抄时代。回想四库全书,8亿字丛书,由纪昀等360多位高官、学者编撰,用了3800多抄工,耗时15年完成。人海战术,不可能是今天的解决方案。

AI识字,先识字形。何梦超走出的第一步,是教AI检测全书单字,抠出所有文字,一字一图。再让AI对字形相似的图片进行聚类。举个例子,一本5万字的古籍,之乎者也这类重复出现的字同类相聚,最终收敛为两三千字类。

聚类

这时候,专家团介入,为每个字类做标注,告诉AI这是什么字。几万字的标注量,就这样降低到几千。

AI不需要穿透几千年历史的迷雾去理解字义,它靠的是另一套逻辑。那是数学系毕业的何梦超喜欢的逻辑,明白晓畅,有着某种工业美感。他中学时就不喜欢语文,觉得文言文晦涩难懂,背诵古文的经历堪称人生黑洞。大学考入浙大数学系之后,终于彻底放飞自我。

现在,他不得不接受,出来混总是要还的。进入专家标注环节,AI的逻辑与古籍的现实频频对撞,局面惨烈,这两个字,明明长得不一样,为什么专家把它们标注为相同?

古籍里,一个字有几种、几十种不同的写法太正常了。很多文字在不同年代有不同的写法、刻法,同样的字被不同的人手抄或刻印后,形态也不一样。就算同一块雕版,今天印和明天印,冬天印和夏天印,在杭州印和在成都印,出来的字可能都不一样。通过对一个个疑难杂症文字的讲解,陈力他们把这套识字的道理传递给工程师,工程师又根据自己的消化,再想办法让AI归顺。

说到底,要做好古籍识别,文科的逻辑和理科的逻辑必须和解。

陈力和何梦超

捐赠,为他人做嫁衣裳

和解的过程,对何梦超来说很漫长。达摩院一支10人左右的技术队伍,在完成日常工作的同时,义务加班加点,用两年多的时间,搭建了一套漂亮的技术系统。在一个人人高速运转的科技公司里,这份不务正业是很有分量的。

他们终于搭建好了一套边识别古籍、边沉淀数据、边迭代算法的系统,先是一本书、一本书地识别,单书识别累计到上百本,boss模型终于养成,能够批量识别一百本书。最终,这套文理联手打造的系统,以97.5%的准确率完成了对20万页伯克利古籍的识别。汉典重光平台上线了在线字典、全文检索等功能模块,甚至,连普通人也能上传古籍、参与标注,成为推动古籍数字化的一份子。

系统用到的单字聚类、少样本学习、单字生成、主动学习方法,都是AI领域常见方法,但研发系统就像建筑设计,重点不在于原材料的新奇特,而在于设计师的架构能力和创意能力。严谨克制的工程师,罕见地流露了一点得意的神色。

汉典重光技术流程

市场公司的做事节奏特别快。陈力说,短短两年,两个团队到杭州和成都往来出差近十趟,每次都有充盈的议程、明确的目标,按照计划节点,办事毫不含糊。

在历史的刻度里,两年简直倏忽而逝。2020年3月,因为突然而来的疫情,伯克利关闭校园,所有教职人员居家办公。周欣平一次次与中方团队沟通,全靠电子邮件和社交软件。本以为古籍数字化是长期工程,没想到汉典重光平台都已发布,伯克利的门禁还没打开。

如果眼光放得长远一点,我们现在所做的只是万里长征第一步。陈力说,97.5%的识别准确率,比起纯专家录入,已经把古籍数字化的效率提升了近30倍。但比起万分之二的初版误差国家标准,还有很大的差距。AI还需要学习更多古籍,还要不断进化。

达摩院希望这件事不止一家来做。在5月18日的汉典重光平台发布会上,达摩院院长张建锋宣布,汉典重光古籍识别系统和古籍数字化平台,都将交给权威公共机构长期运营。

汉典重光古籍数字化平台

换句话说,他们希望这套工具、这个平台谁都能来免费使用。AI的逻辑是,用的人越多,系统越聪明。在这点上,古籍也一样,用的人越多,书就越活。

回到四川大学任教之前,陈力是国家图书馆的常务副馆长。他记得当年刚到国图时,接的第一个任务是对164万册古籍进行计算机编目。他带着上百人的团队,干了3年。

工程浩繁,但知之者甚少。唯有国图古籍阅览室的客流发生了一点变化,从原来每天几位读者,变成每天几十人,坐满。

接下来几十年,陈力从未停止对古籍数字化的探索,为什么要保护古籍?当然因为典籍是中华文明的传承载体,因为珍贵典籍具有文物价值,但最后的最后,还是因为典籍应当被阅读、被使用。

陈力的微信签名是苦恨年年压金线,为他人做嫁衣裳,他说,为阅读者做嫁衣裳,是图书馆人的终身理想。

陈力