一部因為年代久遠而出現污損、缺字或者難以辨認的古籍,人工智能也能夠“無違和識別”。
7月4日,2024世界人工智能大會暨人工智能全球治理高級別會議(WAIC2024)在上海開幕。在展覽現場,一款AI古籍修復模型,向公眾展示AIGC技術如何數字化修復敦煌遺書章節殘損的頁面、文字,成為大會展覽的一大亮點。

7月4日,2024世界人工智能大會展覽現場,AI古籍修復模型向公眾展示AIGC技術如何數字化修復敦煌遺書章節殘損的頁面、文字。受訪者供圖
“敦煌遺書”是敦煌莫高窟藏經洞出土的公元4至11世紀的古寫本及印本的統稱,所涉內容廣泛,包括宗教文獻、四部典籍、官私文書,以及相當數量的非漢文文獻等,對歷史、宗教、地理、天文、歷法具有重要研究價值,被譽為“中國中古時代的百科全書”。晚清時期,藏經洞出土文獻文物流散于全世界各地,除中國外,敦煌遺書目前還分藏于英國、法國、俄羅斯、日本等國家的數十家收藏機構中,缺乏一個完整的聯合目錄,對學術界的體系化研究造成巨大干擾。此外,大量的文獻頁面存在不同程度的殘損,敦煌遺書的保護、傳承工作,引發社會關注。
AI古籍修復模型由合合信息旗下掃描全能王攜手華南理工大學團隊共同打造,將AIGC技術應用于敦煌遺書殘卷的數字化修復上。現場展位開放了敦煌遺書合成樣本的文字修復體驗項目,公眾可在不同位置移動掃描樣本卷軸,見證AI如何通過字形修補、褪色修復、背景補全等方式,完成古籍的數字化修復。

世界人工智能大會敦煌遺書文字修復效果演示。澎湃新聞記者 俞凱 圖
“你可以看一下,隨著我們滑軸的移動,(敦煌遺書)樣本卷軸的不同地方是有不同程度的缺損的,然后我們可以點擊滑軸上AI古籍修復模型的操作功能按鈕,就可以開啟修復工作。進行圖像處理之后,AI就會識別目前你想要修復的區域并進行自動定位,定位完之后,自動判斷這一區域需要修復的缺字或者字跡污損難辨認情況,修復完之后實現1:1的還原。” 合合信息展臺工作人員說,在修復時,AI古籍修復模型還會自動學習原版古籍的文字、筆畫風格(書法字體),以及頁面紋理,把缺損的文字按照原來的字體、色彩、背景加以修復還原,且能夠做到天衣無縫、看上去沒有“違和感”,在最大程度上確保了修復區域的文字風格和背景與原古籍的一致性。

修復前。澎湃新聞記者 俞凱 圖

修復后。澎湃新聞記者 俞凱 圖
澎湃新聞記者看到,大會現場還展示了敦煌遺書系列文獻中《漢書·刑法志》節選章節的修復效果。《漢書·刑法志》是研究漢代司法制度和司法實踐的重要史實材料,這份曾凋零在千年時光中的殘卷,被AI拂去歲月的痕跡,第一次以完整的姿態向關注者們問好。
合合信息攜手華南理工大學成立的古籍數字化修復團隊成員表示,古籍的數字化修復是一項艱巨、浩大的工程,未來也希望能聯通更多專業的文獻研究機構及技術專家,共同提升數字化修復精度與效率,促進古籍文物的時代價值挖掘與知識發現,推動中國傳統文化與現代科技的融合創新。