21歲SpaceX實習(xí)生用AI干出重大考古事件,斬獲40000美元!
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
2000年前的古卷軸(赫庫蘭尼姆卷軸),終于被一個21歲計算機少年給破譯了。
這個古卷軸可以說是極其的特殊——
在公元79年被一場火山爆發(fā)掩埋碳化,直到1752年才被挖掘出土。
而且由于古卷軸本身已經(jīng)太脆弱了,數(shù)百年來沒人敢動它,處理稍微不當就可能化作塵埃的那種。
(注:赫庫蘭尼姆城和著名的龐貝古城相距8公里,位于意大利那不勒斯東南的維蘇威火山腳下;前者比龐貝古城更接近火山口。)

那么如何看到它上面記載了什么內(nèi)容,就成了困擾科學(xué)家們數(shù)百年的老大難問題。
現(xiàn)如今,隨著這位計算機少年成功的破譯,使他成為了2000年來第一個從未打開卷軸,卻“看”到了上面文字的人。

這項任務(wù)其實是來自一個叫做維蘇威火山的挑戰(zhàn)賽(Vesuvius Challenge):
要求參賽者在卷軸的4平方厘米區(qū)域內(nèi),至少找到10個字母。
這位少年作為完成任務(wù)的第一人,也被活動官方授予了40000美元的首字母獎(First Letters Prize)。
很多小伙伴肯定好奇,少年破譯的文字到底是什么,不賣關(guān)子,直接揭曉謎底:
是古希臘語πορφυρα?,意思是紫色染料或者紫色的衣服。

在結(jié)果出爐之后,比賽的贊助者、科技企業(yè)家Nat Friedman還手動at了馬斯克,很驕傲地介紹這位少年:
他是你們SpaceX的實習(xí)生!

解開數(shù)千年古卷軸,AI立大功
這位少年名叫Luke Farritor(下文簡稱盧克),是一位計算機專業(yè)學(xué)生。
而在講這位“屠龍少年”的故事之前,我們還需要鋪墊一下關(guān)于這個比賽的背景。
早在2019年,肯塔基大學(xué)EduceLab的Brent Seales教授,便在粒子加速器中,對赫庫蘭尼姆卷軸進行了成像工作,并生成了分辨率高達4μm的3D CT掃描。
△Seales教授和團隊在粒子加速器上掃描
這位教授的博士生Stephen Parsons,長期致力于使用機器學(xué)習(xí)模型檢測CT掃描中的墨水。
于是他和他的團隊掃描并拍攝了帶有可見墨水的分離卷軸碎片,從而提供了一個ground-truth數(shù)據(jù)集。
△來自Stephen的博士論文:在ground-truch數(shù)據(jù)集上訓(xùn)練機器學(xué)習(xí)模型
這項研究成功引起了科技企業(yè)家Nat Friedman和Daniel Gross的注意;于是乎,在二人的贊助之下,便發(fā)起維蘇威火山挑戰(zhàn)賽。
他們在今年三月發(fā)起公開競賽,設(shè)置總獎金為70000美元,目的就是加速破譯古卷軸。
到了今年八月份的時候,一位叫做Casey Handmer的學(xué)者寫了一篇博客,講述了他所發(fā)現(xiàn)的看起來像墨水的“裂紋模式(crackle pattern)”。

這可以說是一個非常重要的突破進展,即使是Stephen,此前也只是在分離的碎片上看到過墨水的直接證據(jù),但還沒有在卷軸上看到過。
然后盧克在一場播客中,偶然聽到了這個消息和挑戰(zhàn)賽,也看到了Casey的裂紋模式在Discord上被廣泛討論。
這就引起了盧克非常大的興趣,并開始利用晚上的時間,著手訓(xùn)練一個關(guān)于“裂紋模式”的機器學(xué)習(xí)模型。
在訓(xùn)練的過程中,他前前后后發(fā)現(xiàn)了幾十個墨跡比劃,還有一些完整的字母,盧克對它們做好了標記并作為訓(xùn)練數(shù)據(jù)。
△左:在紙莎草纖維背景下可以看到有裂紋的墨水;右:生成的二進制墨水標簽。
沒過多久,模型就露出了肉眼看不見的裂紋痕跡;這些痕跡成了最后形成字母和實際單詞的線索。
下面這張圖便是盧克向挑戰(zhàn)賽提交的一個作品,隱約可以看到“ΠΟΡΦΥΡΑ?”(porphyras)的單詞形狀,

當Seales教授和團隊看到這張圖的時候驚嘆道:
盡管字母很模糊,但他們可以立即讀出“porphyras”這個詞。
這個單詞在古代文獻中也并不是很常見,但是也是經(jīng)得起推敲,大概意思就是“紫色的”。
一位專家解釋說:
序列πορφυ?ρ?α?? ,可能是πορφ??ρ?α??(名詞,紫色染料或紫色布)或πορφυ?ρ????(形容詞,紫色)。
由于缺少上下文,也布排除是 πορφ??ρ?α ??κ[ 或 πορφυ?ρ?? ??κ[ 。
值得注意的是,古代的單詞和現(xiàn)代不同,那時候的文本沒有空格,因此單詞的邊界確定起來也是比較困難。
最終挑戰(zhàn)賽官方認為,盧克值得獲得首字母獎;而他本人在得知這一消息的時候也非常激動:

另一位研究生也有相同的發(fā)現(xiàn)
無獨有偶,在Casey和盧克的工作激勵之下,另一位參賽者,來自柏林Egyptian biorobotics的研究生Youssef Nader,采用了不同的方法也得到了相同的結(jié)果。
他篩選了Kaggle上墨水檢測獎的獲獎作品,該獎項的重點是改進Stephen Parsons在分離片段中進行機器學(xué)習(xí)的方法。
在此基礎(chǔ)上,他采用了域轉(zhuǎn)移技術(shù)使這些模型適應(yīng)古卷軸:對卷軸數(shù)據(jù)進行無監(jiān)督預(yù)訓(xùn)練,然后對片段標簽進行微調(diào)。
使用Kaggle競賽的這個修改模型,他設(shè)法找到了一些字母,盡管完全不依賴于Casey手動尋找裂紋的方法。然后,他將看起來像字母形狀的東西注釋到標簽數(shù)據(jù)中。
△左:Youssef工作的最早的圖像;右:他的第一組假設(shè)墨水標簽。
在反復(fù)的優(yōu)化之下,Youssef向官方提交的作品如下:

最終,Youssef獲得了首字母獎的二等獎,10000美元。

專家們在看到Y(jié)oussef的工作之后,更加確認了盧克發(fā)現(xiàn)的古卷軸中的文字。
他們甚至開始推測上面和下面的單詞,可能是ανυοντα(實現(xiàn))和ομοιων(類似)。
而就在前幾天,Youssef的模型產(chǎn)生了更為驚人的結(jié)果:

在這張圖中,你可以清楚地看到四列半的文本,用一定的邊距隔開。
盡管并非所有字母都能被專家們立即辨認出來,但起碼可以看到更多的字母了。
官方表示,專家們正在做進一步的調(diào)研,很快將會有新的結(jié)果。



















 
 
 




 
 
 
 