“漢典重光”!百年前杭州流失的國寶“回來”了
杭州網  發佈時間:2021-05-26 12:23   

阿里達摩院,一個正兒八經搞AI的地方。

但偏偏“掃地僧”們幹起了文縐縐的工作:研究古籍!

他們將流散海外的珍貴古籍善本以數字化的形式請回故土。第一批達20萬頁。

△宋百家詩存

當理科生幹起了專業文科生的工作,會擦出怎樣的火花?

古籍為何“出海”,又如何“回來”?

關於這個故事,很精彩,也很有意義。

古籍為何外流?

1860年(清咸豐10年),五千年文明古國此刻風雨飄搖。

北有英法聯軍搗毀圓明園,逼迫中國簽下《天津條約》、《北京條約》。

南有太平軍進入杭州,藏有《四庫全書》的“南三閣”之一杭州文瀾閣,次年毀於戰亂。閣圮而書散,無數經典,從此淹沒在歷史中。

文瀾閣遭遇“滅頂之災”後,杭州藏書家丁申、丁丙兄弟在逃難途中無意間發現文瀾閣《四庫全書》殘編。

相傳,丁式兄弟買包子時,偶爾發現包食物的紙,“皆四庫書也”,大驚。於是他們開始緊急救書,上下打點,四處尋訪。

經歷這輪戰亂,文瀾閣本《四庫全書》的四分之一被丁氏兄弟搶救,四分之三消散飄零,不知所蹤。直到將近100年後的1950年代,清代曹庭棟輯纂的《宋百家詩存》 (卷七),出現在美國加州大學伯克利分校東亞圖書館。

而這本《宋百家詩存》,正是丟失的文瀾閣本《四庫全書》之一。

目前有線索可查的,只能明確伯克利東亞圖書館從日本三井文庫購得這批古書。

△伯克利東亞圖書館

這類古書文物到底經歷了怎樣的顛簸流離,如今已不可考。

據不完全估計,近代散居海外的中國古籍超過40萬部、400萬冊,包括甲骨簡牘、敦煌遺書、宋元善本、明清精槧、拓本輿圖、少數民族文獻等等

如今山河無恙,但流散海外的古書典籍,卻成了中國文學、歷史研究,以及傳統文化傳承難以彌補的遺憾。

“再現”20萬頁古籍

大約兩年前,阿里巴巴聯合四川大學、美國加州大學伯克利分校,共同發起一項公益項目“漢典重光”,尋覓那些流散在海外的中國古籍,藉助達摩院的AI技術,用數字化的方式讓它們迴歸故土

而鮮有接觸古籍的達摩院“掃地僧”們,一開始還不知道“AI錄入古書”是多麼有挑戰的任務。

OCR(光學字符識別),其實是一種常用的計算機視覺技術,經常被用來識別文字,比如證件、票據、電商平台的商品圖片等。

但是,我們生活中常見的OCR,絕大部分是針對現代漢字,而且還是印刷字體,把這樣的系統直接拿來用在古書上,根本行不通。

首先,古籍文字的類別極其龐大。現代漢語常用字不過6000多個,常見印刷體,算法能夠覆蓋到的文字基本上在2萬字以內。

但是據估計,古籍文字多達幾十萬。

為什麼古籍上面有如此多的字?

古籍上面每個字都有不同的寫法。比如一個“郷”有各種寫法。

此外,還有字體的變化。在雕版印刷古籍中,即使是同一拓片在不同季節、氣候、地點印出的書也完全不同,而那些人工抄錄的古書,更是千人千面。

每一個字形,即使表意可能相同,對於AI來説,也是一個需要重新學習記憶的新知識。

第三,古書版式複雜。除了不同於如今的從右到左,從上到下的排版,在每行字中間還常常夾有批註,這就使得常規使用的行識別方法失效。

△古籍版式複雜

最後,由於年代久遠,古書保存狀況也各有不同,在AI看來,紙張破損、污漬等等相當於大量的人為噪聲。

而達摩院,專門為古籍識別開發出了新的系統的。

主要分為兩大步,一是聚類數據生產識別,二是主動學習數據生產識別。用到了單字檢測、無監督圖像聚類、少樣本分類、主動學習等一系列機器學習方法。

首先是全書檢測,把古籍正文中的每個字都摳出來,作為單獨的一張圖。

其次是聚類。

一本古籍總字數可能有10萬字,但其中有很多字是重複的,比如“之、乎、者、也”,聚類所做的事就是讓機器自動把字形筆畫一致的字歸為一類,接着再由人工進行標註。也就是説,原來要人工標註全部10萬字的書,經過聚類,只需要對全部二三千字類進行標註,一類字只標註一次。

聚類和人工標註,不僅完成了每一類文字的認字過程,還收穫更多新的訓練樣本,可以繼續餵給機器學習。

一般來説,數據越多,越有利於模型的訓練。但古籍裏有很多異體字、生僻字,出現概率極低,根本無法尋覓這麼多的樣本。

所以團隊想到了讓機器自動生成樣本。使用字體遷移方法來使合成數據,機器自動為每個字合成幾個新的樣本,確保單字樣本量達到10個。這樣,就有足夠數據訓練少樣本識別模型。

得到少樣本識別模型之後,就能投入使用,把第一步全書檢測獲得的所有圖片進行重新標註。不同於上一輪聚類+人工打標,這次是識別模型的自動標註,如果識別打標的數據與前一輪聚類的結果一致,就可以認為這張圖片當前標籤是對的。如果不一致,那就讓這個字回到聚類步驟,繼續迭代。

從聚類打標到少樣本模型打標走完一輪,全書70%左右的文字可以被打上正確的標籤,餘下的30%,從頭開始再來一遍,第二輪迭代,又能解決餘下文字中的70%。

經過兩輪迭代,一本書的91%的文字可以被打上正確的標籤。

它們不僅沉澱為了機器的字典,也是更豐富的訓練數據。通過前期一本書、一本書地學習,產生的訓練數據越來越多,機器的認字能力也越來越強。

最後,就是訓練最終模型,能對100本以上的書進行批量識別的單字分類模型。這個模型一出手,對批量數據的識別準確率就高達96%。隨着模型的優化和迭代,目前系統對20萬頁古籍的整體識別準確率已經達到97.5%。今後,AI學到的數據越多,模型的進化程度也會越高。

回到模型“養成”環節,AI識別完絕大部分文字,剩下的需要人工專家補充標註。

那麼問題又來了AI怎麼知道哪一部分是識別好的,哪一部分是需要交給人類專家的呢?

這個時候,主動學習算法出場了。通過它,機器自己就能找出那些它識別不了的文字,交給人類來做最後一步工作。

以往,人工標註通常需要“兩錄一檢”以達到99.97%的出版要求。

以一本100萬字的古籍為例,如果全靠專家錄入,每人1000字/天,需要1000天。

達摩院的古籍識別算法,用AI替代人工,在兩個環節大幅壓縮了專家標註工作量。

在機器為主進行識別的97.5%的內容中,約有1%(1萬字左右)需要專家錄入;機器不能識別的餘下2.5%(2.5萬字)的文字,全部交給專家做後期標註。

兩部分相加,人工的工作量佔全書的3.5%(3.5萬字),還是按照一人1000字/天算,需要35天。因此,相比人工專家錄入,百萬字書籍的數字化工作量從1000天降低到了35天,效率比人工專家錄入方案提升近30倍。

阿里達摩院的AI古籍識別算法,為中華古籍的迴歸提供了另一種可行可期的思路。

不簡單的工作

2年,20萬頁,平均下來每天280頁。

再細算一下,每個小時就是11頁,還得是在不吃不喝的那種情況。

這對於用傳統方式“復現”古籍來説,簡直是Mission Impossible!

為什麼這麼説?

舉個“人工錄入”的例子,便一目瞭然。

在乾隆皇帝執政期間,便組織過一次對《四庫全書》的編撰。《四庫全書》共包含3500種書、7.9 萬卷、3.6萬冊,總字數多達8億。

而當年參與次項目的人數則多達3800人,包括紀昀等360多位高官、學者。但即便如此人力之下,也是耗時15年才完成。

然而量大,並不是這個工作的唯一難點。非常直接的一個問題,便是“理科生”和“文科生”之間的碰撞。

阿里達摩院、四川大學歷史文化學院,雙方在各自的領域都堪稱是專家級別。但之於對方的領域呢?説是小白也不足為過了。

而且AI技術、古籍文化,還都屬於上手門檻很高的那種。為此,雙方可謂是惡補知識短板。

歷史學家、文獻學家,要去學習計算機、AI相關的基礎知識,要了解用AI技術識別古籍到底是怎樣一個過程。

而阿里達摩院的工程師們,也花費了相當多的精力,去學習歷史相關知識。例如古籍的版本、雕版、印刷、裝幀、內容,還包括古文字、古代文化知識等等。

用四川大學歷史文化學院副院長王果教授的話説,就是:在技術研發過程中,比之前預想到的難度還要大。

為此,雙方在杭州、成都,開了不下10次的技術研討會。

整體而言,漢典重光走過的這兩年時間,道阻且長、困難重重。但阿里達摩院和四川大學歷史文化學院,卻對此從未放棄過。

之於原因,實則這項工作背後所藴含的意義,不僅僅是“復現”這麼簡單

“復現”古籍,意義非凡

讓在海外“顛沛流離”的古籍回家,讓“沉眠”數百甚至上千年的古籍入世,真的有那麼重要嗎?

是的,而且非常重要!

具體而言,可以從三個方面來看。

首先是國家層面。古籍是中華文明的“魂器”, 國家圖書館副館長張志清説。縱觀歷史上世界四大文明,能夠延續至今的,也只有中華文明。

很重要原因是,我國擁有一個連綿不絕、經典的文獻世界。我國從古便有盛世修史和盛世整理古籍的傳統。

修史、整理文獻,表面上是修復殘破、逸散的古籍,本質上實則是補全中國文化最重要的載體,是修復中華文明生生不息的生命力,綿延中國文化不息的源泉

“十四五”規劃和國家中長期發展規劃中,古籍的保護、整理、研究、利用,得到高度重視。

△宋百家詩存卷首

其次,是研究者、學者層面。

以這次從伯克利迴歸的20萬頁古籍來講,就有很多國內少見或者是沒有的珍稀善本。

因此,當這些迴歸的古籍被AI識別並數字化以後,研究人員、學者足不出户,便可以研究在海外的、無法獲取的古籍,未來有望產生一大批重要的研究成果

最後,是民眾層面。

或許很多人會認為古籍離普通老百姓甚是遙遠,但實則不然。中國古籍的內容浩如煙海,擁有非常龐大且複雜的知識體系,所涉及的範圍也是極其廣泛。

從應對自然災害、流行疫病、經濟波動、政治鬥爭、外交危機、氣候變遷等等內容的經驗。有戰爭、瘟疫、地震、洪澇災害、病蟲害等等方面的經驗總結,更貼近生活的,還包括醫療、中藥、養生、傢俱、服飾、飲食文化等等。

而這些都是“老祖宗”們幾千年來的經驗總結和積累,是民族智慧的繼承。

漢典重光項目沒有停留在“迴歸”海外古籍這個層面,以數字化的形式來展現,大大降低了人們學習、閲讀古籍的門檻,拉近了人們與中國文化的距離。

在發佈會現場,許多研究古籍的知名教授也親臨現場,他們的眼中充滿了對古籍研究的熱情與使命感。

中央文史研究館館員、四川大學教授陳力跟古籍打了一輩子交道,是漢典重光項目的重要推動者。在他看來,欣賞古籍善本,不僅僅是欣賞優美的文字,也是再現著作人的心路歷程的過程。

中央文史館館員、四川大學教授陳力説,他最大的心願是,利用現代技術,讓古籍活起來,讓老百姓在古籍面前和祖宗對話,和傳統文化親密接觸。

再細數參與此次工作的人員,除了川大的老一輩教授、專家們,像博士生、碩士生,甚至本科生也參與到了其中。

某種程度上,這也是保護文化的一種傳承。

也正如阿里達摩院院長張建鋒表示:守護中華傳世典籍,是科技工作者和文化工作者共同的使命。

而此次“數字化迴歸”的這20萬頁古籍,只是漢典重光邁出的第一步

阿里和川大還將繼續聯手,讓“離家百年、去國萬里”的更多中國璀璨古籍,以數字化方式迴歸故里。

最後,奉上此次“漢典重光”首批數字化古籍重要書目。

↑漢典重光 · 古籍數字化平台

本文授權轉載自微信號:量子位(ID:QbitAI),致謝!

▼延伸閲讀▼

杭州文瀾閣:世界上最早的公共圖書館

慶春路上這對兄弟的銅像,你知道背後的故事嗎

每本書背後都有一段故事 “八千卷樓”藏書露真容

來源:量子位(ID:QbitAI)  作者:金磊,賈浩楠  編輯:郭衞
返回
回到模型“養成”環節,AI識別完絕大部分文字,剩下的需要人工專家補充標註。阿里達摩院的AI古籍識別算法,為中華古籍的迴歸提供了另一種可行可期的思路。達摩院的古籍識別算法,用AI替代人工,在兩個環節大幅壓縮了專家標註工作量。