
譯者 | 陳峻
審校 | 重樓
眾所周知,過(guò)去那些曾經(jīng)定義和描述了燦爛文化的語(yǔ)言,如今可能只能留存于書(shū)面記錄、片段影像、以及少數(shù)傳頌者的記憶中。而人類歷史的每一次更迭,都會(huì)導(dǎo)致語(yǔ)言信息的此消彼長(zhǎng),文化知識(shí)的重塑。
目前,人工智能(AI)正在被用于研究手稿、音頻檔案和銘文,以重建失傳的語(yǔ)法、詞匯和發(fā)音。其支持者一致認(rèn)為這是一條復(fù)興之路,能夠?yàn)槿祟惿鐓^(qū)提供一種與語(yǔ)言遺產(chǎn)重新連接,也可能會(huì)產(chǎn)生看似準(zhǔn)確,實(shí)則不實(shí)用、甚至無(wú)意義的語(yǔ)言。甚至有人認(rèn)為,這種機(jī)械的靜態(tài)記錄,會(huì)讓語(yǔ)言的消失不可逆轉(zhuǎn)。
全球化時(shí)代的語(yǔ)言消失
現(xiàn)如今,語(yǔ)言多樣性的下降速度比歷史上任何其他時(shí)刻都要快。聯(lián)合國(guó)教科文組織曾估算:世界上的7000種語(yǔ)言中,有近40%已瀕臨滅絕。算下來(lái),大約每?jī)芍芫陀幸环N語(yǔ)言消失。這種消失不僅僅是系統(tǒng)性、交流層面的消失,也伴隨著與之相關(guān)的觀點(diǎn)、歷史和專業(yè)知識(shí)的消失。誠(chéng)然,傳統(tǒng)的文檔、錄音、口語(yǔ)故事、以及語(yǔ)法解說(shuō)圖本都可以延續(xù)語(yǔ)言,但是這往往比較慢,也就導(dǎo)致了許多語(yǔ)言在被完全記錄下來(lái)之前就消失了。
然而,AI正在改變這種速度。由其加持的高級(jí)工具可以比傳統(tǒng)的方法,更快地處理稀有的音頻,識(shí)別內(nèi)在的模式,進(jìn)而重建那些不完整的語(yǔ)言系統(tǒng)。雖然這為留存語(yǔ)言提供了新的方法,但是如果只關(guān)注那些沒(méi)有社區(qū)參與、或文化基礎(chǔ)的數(shù)據(jù)保存,結(jié)果很可能只是一個(gè)雖然精確、但與日常使用完全脫節(jié)的語(yǔ)言檔案。因此,在現(xiàn)代化世界中,保留語(yǔ)言遺產(chǎn)需要研究人員、技術(shù)專家和人群社區(qū)之間的通力合作,以確保語(yǔ)言的重建既準(zhǔn)確又具有文化內(nèi)涵。
AI重建和復(fù)興語(yǔ)言
近年來(lái),AI已經(jīng)從一種研究工具演變成為了語(yǔ)言重建的核心驅(qū)動(dòng)力。機(jī)器學(xué)習(xí)模型,特別是深度神經(jīng)網(wǎng)絡(luò),可以處理那些曾經(jīng)需要付出幾十年學(xué)術(shù)努力的任務(wù)。此類系統(tǒng)可以分析大量手稿、銘文和音頻記錄的存儲(chǔ)庫(kù),發(fā)現(xiàn)人類研究人員可能無(wú)法注意到的模式。
其中,失傳語(yǔ)言重建的技術(shù)通常會(huì)結(jié)合兩個(gè)互補(bǔ)的階段:第1階段是使用模式識(shí)別模型,來(lái)檢測(cè)留存記錄中的語(yǔ)法、句法和詞匯中的重復(fù)結(jié)構(gòu)。第2階段是使用應(yīng)用生成系統(tǒng),如大語(yǔ)言模型(LLM),來(lái)補(bǔ)足第1階段。同時(shí),第1階段的發(fā)現(xiàn)也可以指導(dǎo)第2階段,并允許神經(jīng)模型提出缺失的單詞、短語(yǔ)甚至語(yǔ)音模式。通過(guò)利用相關(guān)語(yǔ)言和部分文檔的培訓(xùn),這些系統(tǒng)可以生成對(duì)應(yīng)語(yǔ)言和詞句的合理版本。
目前,已有若干真實(shí)項(xiàng)目展示了此類方法在實(shí)踐中是如何運(yùn)作的。例如:由AI輔助的研究,以更高的統(tǒng)計(jì)準(zhǔn)確性模擬了原始印歐語(yǔ)的詞根,從不完整的手稿中重建了古希臘語(yǔ)音,并為瀕危語(yǔ)言創(chuàng)造了現(xiàn)實(shí)的語(yǔ)音合成,讓其對(duì)應(yīng)的人群社區(qū)聽(tīng)到幾十年來(lái)從未聽(tīng)過(guò)的發(fā)音。
然而,語(yǔ)言重建也面臨著技術(shù)和文化方面的挑戰(zhàn)。比如,有限的或質(zhì)量差的數(shù)據(jù),可能會(huì)導(dǎo)致模型產(chǎn)生幻想,從而生成從未存在過(guò)的模式。當(dāng)然,即使統(tǒng)計(jì)準(zhǔn)確率很高,這些項(xiàng)目也并不總能反映文化真實(shí)性。這就是為什么許多項(xiàng)目需要將算法的輸出,與語(yǔ)言學(xué)家、人類學(xué)家、以及最重要的是與母語(yǔ)人士的專業(yè)知識(shí)相結(jié)合的原因。
同時(shí),自我監(jiān)督學(xué)習(xí)等新技術(shù)進(jìn)一步增加了此方面的能力。它們使用的模型可以在不依賴并行翻譯的情況下,從單一語(yǔ)言數(shù)據(jù)中學(xué)習(xí)到結(jié)構(gòu)規(guī)則,使其更適合那些資源較少的語(yǔ)言。它們?cè)趨f(xié)作環(huán)境中被使用時(shí),既能保證速度,又能提供規(guī)模,同時(shí)還可以保持文化背景的完整性。
可見(jiàn),只有當(dāng)技術(shù)與人類合作時(shí),基于AI的重建才會(huì)取得成功。也就是說(shuō),AI只有與人類社區(qū)專家相輔相成,而非單純?nèi)〈鷷r(shí),才能產(chǎn)生更好的結(jié)果。無(wú)聲的記錄才可以再次變成鮮活的口語(yǔ)。
數(shù)字語(yǔ)言保護(hù)從靜態(tài)檔案到互動(dòng)復(fù)興的演變
在AI之前,保護(hù)瀕危和滅絕語(yǔ)言的努力主要依賴于靜態(tài)的數(shù)字檔案。Rosetta項(xiàng)目和瀕危語(yǔ)言檔案等項(xiàng)目已收集了大量字典、手稿、錄音和文化文物。這些收藏品為學(xué)者和社區(qū)提供了寶貴的語(yǔ)言遺產(chǎn)。然而,這些資源在絕大程度上是一種被動(dòng)式的。學(xué)習(xí)者只能主動(dòng)查找單詞或聽(tīng)錄音,但積極使用或互動(dòng)練習(xí)語(yǔ)言的機(jī)會(huì)十分有限。這也就限制了他們作為活體形式的語(yǔ)言復(fù)興。
相反,AI通過(guò)引入互動(dòng)性和動(dòng)態(tài)參與的形式,改變了這種情況?,F(xiàn)代AI工具,包括聊天機(jī)器人、語(yǔ)音助手和翻譯應(yīng)用,可以使用瀕?;蛞褱缃^的語(yǔ)言與學(xué)習(xí)者進(jìn)行說(shuō)話、傾聽(tīng)和回應(yīng)。這些方式使得語(yǔ)言能夠超越被動(dòng)的參考材料,通過(guò)互動(dòng)體驗(yàn)成為語(yǔ)言使用者日常生活、教育和文化表達(dá)的一部分。
所以說(shuō),AI的主要優(yōu)勢(shì)在于翻譯和重建。而且,在缺少完整的字典或文本時(shí),AI模型會(huì)主動(dòng)分析相關(guān)語(yǔ)言來(lái)填補(bǔ)空缺。例如,如果一種語(yǔ)言的詞匯量損失了30%,AI則可以使用類似的語(yǔ)言或歷史記錄的信息,來(lái)建議可能的詞匯。當(dāng)然,AI也可以重建丟失語(yǔ)言的聲音。通過(guò)將古代文本的語(yǔ)音細(xì)節(jié)與現(xiàn)代語(yǔ)言知識(shí)相結(jié)合,那些由AI生成的聲音,如今已能“說(shuō)出”蘇美爾語(yǔ)、梵語(yǔ)和古北歐語(yǔ)等語(yǔ)言。這使得學(xué)習(xí)者和研究人員有機(jī)會(huì)能夠聽(tīng)到幾個(gè)世紀(jì)以來(lái)一直沉寂與失傳的語(yǔ)言。
AI驅(qū)動(dòng)的語(yǔ)言復(fù)興面臨的挑戰(zhàn)和道德考慮
AI為復(fù)興瀕危和已滅絕的語(yǔ)言提供了新的方法。盡管如此,整個(gè)過(guò)程中仍然充滿了各種挑戰(zhàn)。有時(shí),AI只能輸出最可能的近似表達(dá),而無(wú)法被母語(yǔ)人士所驗(yàn)證。有時(shí),由AI模型產(chǎn)生的發(fā)音或用法雖然似乎合理,但很可能在真實(shí)的歷史或文化上并不準(zhǔn)確。這都凸顯了技術(shù)專家、語(yǔ)言學(xué)家和語(yǔ)言社區(qū)成員之間密切合作的必要性。這樣的協(xié)作關(guān)系必須確保語(yǔ)言復(fù)興的過(guò)程既尊重文化遺產(chǎn)又保留歷史真相。下面,我們來(lái)具體討論幾類挑戰(zhàn):
- 由AI驅(qū)動(dòng)的復(fù)興可能會(huì)創(chuàng)造一種僅存在于數(shù)字世界的語(yǔ)言。畢竟語(yǔ)言不僅僅是詞匯和語(yǔ)法,它也存在于日常使用、社交習(xí)慣、以及文化實(shí)踐中。如果一種語(yǔ)言是由AI所重建,但沒(méi)有人會(huì)經(jīng)常使用的話,它就會(huì)成為一件靜態(tài)的博物館文物。也就是說(shuō),它僅僅在技術(shù)上得到了保留,但在社會(huì)上并不活躍。
- 偏見(jiàn)是另一個(gè)問(wèn)題。訓(xùn)練數(shù)據(jù)通常來(lái)自殖民時(shí)代的檔案或外部來(lái)源。這些可能反映了與真實(shí)人群社區(qū)截然不同的觀點(diǎn)。而如果AI從這種有偏見(jiàn)的數(shù)據(jù)中學(xué)習(xí),那么很可能會(huì)重現(xiàn)那些扭曲的語(yǔ)言版本,進(jìn)而可能歪曲人群社區(qū)的真實(shí)遺產(chǎn)和認(rèn)同。
- 過(guò)度依賴AI工具也可能是一個(gè)問(wèn)題。如果人群社區(qū)完全依賴AI來(lái)進(jìn)行語(yǔ)言教學(xué)和維護(hù),那么他們可能會(huì)失去通過(guò)人與人之間的互動(dòng),來(lái)傳遞語(yǔ)言意圖的動(dòng)力。畢竟,口頭傳播和社區(qū)參與對(duì)于語(yǔ)言的生存都是至關(guān)重要的。AI應(yīng)該輔助與支持這樣的流程,而不是取代它們。
- 圍繞所有權(quán)和控制權(quán)的道德問(wèn)題也不容忽視。許多土著和少數(shù)民族群體將語(yǔ)言視為其文化傳承的核心部分。他們擔(dān)心大型科技公司可能會(huì)通過(guò)AI生成語(yǔ)言的內(nèi)容與方式獲取所有權(quán),特別是如果其語(yǔ)言訓(xùn)練本身就是基于他們長(zhǎng)輩的錄制。因此,為了保護(hù)社區(qū)的權(quán)利,語(yǔ)言復(fù)興的努力必須從一開(kāi)始就讓當(dāng)?shù)厝藚⑴c進(jìn)來(lái)。項(xiàng)目開(kāi)展的過(guò)程中也應(yīng)該征得群體的明確同意、數(shù)據(jù)主權(quán)、以及文化敏感性。AI應(yīng)充當(dāng)合作伙伴與協(xié)助角色,而絕不可取代人類做決定。
讓我們來(lái)看兩個(gè)例子:在新西蘭,AI工具正在幫助為毛利語(yǔ)創(chuàng)建語(yǔ)言資源。所有的內(nèi)容都需要經(jīng)過(guò)毛利語(yǔ)言學(xué)家和教育工作者的審查和批準(zhǔn)。同樣,在加拿大,AI也在支持因紐特語(yǔ)和克里語(yǔ)等土著語(yǔ)言。他們的社區(qū)使用AI來(lái)開(kāi)發(fā)自己的數(shù)字學(xué)習(xí)工具,畢竟語(yǔ)言復(fù)興的核心仍然是人類教學(xué)和文化實(shí)踐。
可見(jiàn),綜合利用AI的處理能力,以及母語(yǔ)人士的文化知識(shí)和智慧,將有助于保持語(yǔ)言社區(qū)日常生活中的活力。
小結(jié)
復(fù)興瀕?;蛞褱缃^的語(yǔ)言是一項(xiàng)復(fù)雜的任務(wù)。AI通過(guò)提供強(qiáng)大的工具,來(lái)加快重建和創(chuàng)建交互式的資源。然而,僅靠技術(shù)并不能完全復(fù)興一種語(yǔ)言。真正的復(fù)興取決于母語(yǔ)人士、人類社區(qū)和文化習(xí)俗。而這些習(xí)俗恰恰能每天保持語(yǔ)言的活力。
同時(shí),AI必須作為一個(gè)支持性的合作伙伴,而非替代者,以確保語(yǔ)言的復(fù)興具有真正的意義和文化價(jià)值??梢哉f(shuō)正是因?yàn)橛辛思夹g(shù)專家、語(yǔ)言學(xué)家和社區(qū)之間的合作,語(yǔ)言復(fù)興過(guò)程的準(zhǔn)確性、真實(shí)性和對(duì)遺產(chǎn)的尊重才得以平衡。也正是因?yàn)檫@樣,我們才能突破靜態(tài)檔案的文字保存形式,恢復(fù)出鮮活的口語(yǔ),將我們與過(guò)去相聯(lián)系,也豐富我們的未來(lái)。
譯者介紹
陳峻(Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項(xiàng)目實(shí)施經(jīng)驗(yàn),善于對(duì)內(nèi)外部資源與風(fēng)險(xiǎn)實(shí)施管控,專注傳播網(wǎng)絡(luò)與信息安全知識(shí)與經(jīng)驗(yàn)。
原文標(biāo)題:AI’s Linguistic Ghosts: Can Machines Revive Dead Languages or Bury Them Forever?,作者:Dr. Assad Abbas
























