AI「解碼」古羅馬,重現(xiàn)千年銘文真相!DeepMind新模型再登Nature
Aeneas原本是古希臘神話中流浪英雄。
出現(xiàn)在7月24日Nature主刊的Aeneas則是一個(gè)多模態(tài)生成式神經(jīng)網(wǎng)絡(luò),它能幫助歷史學(xué)家更好地解讀、歸屬和修復(fù)殘缺文本。

想象考古學(xué)家在歐洲發(fā)現(xiàn)了一塊刻有古代文字的銘文,文本殘缺不全、部分文字被風(fēng)化或被故意破壞。
也沒(méi)有語(yǔ)境信息,這使得恢復(fù)、確定年代和定位這塊銘文的出處變得幾乎是不可能的,尤其是在比較相似的銘文時(shí)。
考慮到在羅馬世界,文字無(wú)處不在——從帝國(guó)紀(jì)念碑到日常用品,無(wú)不刻有文字。從政治涂鴉、愛(ài)情詩(shī)篇和墓志銘,到商業(yè)交易、生日邀請(qǐng)和魔法咒語(yǔ)。

圖1 由Aeneas修復(fù)的,公元113/14年來(lái)自薩丁島的青銅軍事命令,由皇帝Trajan授予一艘戰(zhàn)船上的水手
這些銘文為現(xiàn)代歷史學(xué)家提供了豐富的見(jiàn)解,揭示了羅馬世界日常生活的多樣性。
但也增加了考古工作的難度,考古學(xué)家需要依賴其專業(yè)知識(shí)檢索自身積累的數(shù)據(jù)庫(kù),方可識(shí)別相似文本——這些文本在措辭、句法、標(biāo)準(zhǔn)化公式或來(lái)源方面具有相似性。
然而檢索相似的信息,為文章確定上下文,不就是生成模型適合的活嗎?
于是Aeneas出現(xiàn)了,它能夠跨越數(shù)千份拉丁銘文進(jìn)行推理,在幾秒鐘內(nèi)檢索出文本和語(yǔ)境相似文本,這樣的加速度,讓考古學(xué)家從檢索文本這項(xiàng)復(fù)雜且耗時(shí)的工作中解脫出來(lái)。
如今他們能快速地拿到對(duì)古代銘文的解釋,并基于模型的發(fā)現(xiàn)進(jìn)行進(jìn)一步研究。

圖2 Aeneas的使用界面
Aeneas的豐富功能
在Aeneas出現(xiàn)之前,2022年Deepmind推出了Ithaca,這是一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)古希臘銘文年代,并補(bǔ)全缺失文本的工具。

Aeneas則更進(jìn)一步,它能幫助歷史學(xué)家解讀文本,通過(guò)提供上下文,賦予孤立片段意義,從而得出更豐富的結(jié)論,并整合對(duì)古代歷史的更好理解。
具體來(lái)看,它在龐大的拉丁銘文集合中搜索平行文本。通過(guò)將每個(gè)文本轉(zhuǎn)化為一種歷史指紋,Aeneas可識(shí)別出文本間的深層聯(lián)系。
在年代和出處預(yù)測(cè)方面,Aeneas能夠?qū)⑽谋局糜跉v史學(xué)家提供的日期范圍內(nèi)13年內(nèi),以72%的準(zhǔn)確率將銘文歸入62個(gè)古代羅馬行省之一。
作為首個(gè)利用多模態(tài)輸入確定文本地理來(lái)源的模型。它可同時(shí)分析文本和視覺(jué)信息,例如銘文圖像。
不同于只能預(yù)測(cè)單個(gè)詞的Ithaca,Aeneas夠修復(fù)文本中缺失長(zhǎng)度未知的段落。
Aeneas能以73%的準(zhǔn)確率修復(fù)最多十個(gè)字符缺失的損壞銘文。當(dāng)修復(fù)長(zhǎng)度未知時(shí),準(zhǔn)確率也會(huì)有58%。
這使得它成為處理嚴(yán)重?fù)p壞材料的史學(xué)家的更通用的工具。
Aeneas不僅適用于銘文,還可以適應(yīng)其他古代語(yǔ)言、文字和媒介,從莎草紙到硬幣,擴(kuò)展其功能以幫助連接更廣泛的歷史證據(jù)。
想試用Aeneas的可登錄predictingthepast.com,以交互式使用。
作為開(kāi)源軟件,中國(guó)的考古學(xué)家也可以調(diào)整Aeneas,讓Aeneas能夠用于解讀諸如西夏文,契丹文等失傳的中國(guó)古跡。

工作原理和典型案例
為了訓(xùn)練Aeneas,Deepmind的研究者精心策劃了一個(gè)龐大且可靠的數(shù)據(jù)集,借鑒了數(shù)十年來(lái)歷史學(xué)家的工作成果來(lái)創(chuàng)建數(shù)據(jù)集,其中包括了古希臘和羅馬時(shí)代銘文的文本和圖像。
Aeneas使用了NLP領(lǐng)域的大殺器transformer來(lái)處理碑文文本輸入,并通過(guò)解碼器檢索相似的碑文,并按相關(guān)性排序。
對(duì)于每塊銘文,Aeneas的語(yǔ)境化機(jī)制使用一種稱為嵌入的技術(shù)檢索一系列相似物——將每塊銘文的文本和語(yǔ)境信息編碼成一種包含文本內(nèi)容、語(yǔ)言、來(lái)源時(shí)間地點(diǎn)以及與其他碑文關(guān)聯(lián)性的歷史指紋。

圖3 Aeneas的架構(gòu),展示該模型如何接收文本和圖像輸入以生成省份、日期和修復(fù)預(yù)測(cè)
接下來(lái)看Aeneas解析古代文本的一個(gè)典型例子。
古羅馬皇帝奧古斯都以第一人稱成就記述《功業(yè)記》,這是古羅馬歷史中一塊著名的石碑,這份銘文由奧古斯都親自撰寫(xiě)、是其自我夸耀的終身成就的總結(jié)。
文本中出現(xiàn)了對(duì)帝國(guó)夸張的描述、無(wú)關(guān)的日期和虛假的地理標(biāo)志,而且學(xué)界對(duì)其撰寫(xiě)的時(shí)間也存在爭(zhēng)議。
歷史學(xué)家們長(zhǎng)期以來(lái)一直爭(zhēng)論這塊銘文的年代。Aeneas將所有碑文的模糊年代和來(lái)源特征進(jìn)行語(yǔ)境化分析。
它捕捉到了拼寫(xiě)和詞匯的線索,以及表明微妙政治意識(shí)形態(tài)和帝國(guó)歸屬的語(yǔ)言學(xué)細(xì)微差別。
其預(yù)測(cè)基于文本中提到的微妙語(yǔ)言特征和歷史標(biāo)志,如官方頭銜和紀(jì)念碑。
通過(guò)將年代問(wèn)題轉(zhuǎn)化為基于語(yǔ)言和上下文數(shù)據(jù)的概率估計(jì)。
有趣的是Aeneas并沒(méi)有預(yù)測(cè)一個(gè)固定的日期,而是產(chǎn)生了一個(gè)可能的日期分布的詳細(xì)情況,如圖4所示。
其預(yù)測(cè)呈現(xiàn)兩個(gè)明顯的峰值,一個(gè)較小的峰值出現(xiàn)在公元前10-1年左右,一個(gè)較大的、更自信的峰值在公元10-20 年之間。
這些結(jié)果說(shuō)明Aeneas給出的預(yù)測(cè)是謹(jǐn)慎的,其反映了當(dāng)前學(xué)者們意見(jiàn)的差異。
給出了兩個(gè)可能的日期范圍,而不是單一的預(yù)測(cè),反而說(shuō)明了Aeneas能夠歷史辯論提供了一種新的、定量的方法。

圖4 Aeneas對(duì)《功業(yè)記》年代歸屬預(yù)測(cè)的直方圖,該模型模擬了圍繞這一著名碑文年代測(cè)定所展開(kāi)的學(xué)術(shù)辯論
近期,有不少將AI技術(shù)應(yīng)用于考古領(lǐng)域的嘗試,從為無(wú)名老兵做面部復(fù)原,到博物館里對(duì)古人構(gòu)建數(shù)字虛擬替身,AI在考古及歷史領(lǐng)域的應(yīng)用值得關(guān)注。
去年復(fù)旦大學(xué)更是開(kāi)設(shè)了「AI考古」的課程,華南理工大學(xué)深度學(xué)習(xí)與視覺(jué)計(jì)算實(shí)驗(yàn)室(SCUT-DLVCLab)也曾推出的專注于古籍文言文處理的通古大模型。
面對(duì)中國(guó)浩如煙海的古籍古碑,未來(lái)的考古學(xué)家,或許更需要像Aeneas這樣的工具,來(lái)從海量數(shù)據(jù)中淘金。















 
 
 
















 
 
 
 