改變傳統(tǒng),吳恩達(dá)開源了一個機(jī)器翻譯智能體項目
前段時間,隨著 GPT-4o、Sora 的陸續(xù)問世,多模態(tài)模型在生成式方面取得的成績無可否認(rèn),而人工智能的下一個革命性突破將從何處涌現(xiàn),引起了大量學(xué)者和相關(guān)人士的關(guān)注。
人工智能著名學(xué)者、斯坦福大學(xué)教授吳恩達(dá)一直非常推崇智能體。此前他曾在個人博客著重指出「AI 智能體工作流將會在今年推動人工智能取得長足進(jìn)步」,AI 智能體的未來潛力愈加被看好,吸睛無數(shù)。
近日,吳恩達(dá)延續(xù)他之前的腳步,開源了一個 AI 智能體機(jī)器翻譯項目。
項目鏈接:https://github.com/andrewyng/translation-agent
他分享了關(guān)于 AI 智能體機(jī)器翻譯對改進(jìn)傳統(tǒng)神經(jīng)機(jī)器翻譯方面的看法:「具有巨大潛力,尚未被完全發(fā)掘」,并發(fā)布了一個他一直在周末玩的翻譯智能體演示。該翻譯智能體以 MIT 許可證形式發(fā)布。用戶可以自由使用、修改和分發(fā)該代碼,無論是商業(yè)用途還是非商業(yè)用途。
在研究團(tuán)隊有限的測試中,吳恩達(dá)團(tuán)隊開源的翻譯智能體有時能夠與領(lǐng)先的商業(yè)提供商進(jìn)行同等水平的競爭,有時則不如它們。但它仍提供了一個高度可控的翻譯系統(tǒng),只需簡單更改 prompt,使用者就可以指定語氣(正式 / 非正式)、地區(qū)變體(例如:使用者想要在西班牙本地說的西班牙語,還是在拉丁美洲說的),并確保術(shù)語的翻譯一致性(通過提供詞匯表)。這個應(yīng)用程序雖然目前仍稍顯稚嫩,但鑒于反思工作流已經(jīng)展現(xiàn)出不錯的成果,吳恩達(dá)認(rèn)為智能體翻譯仍有很大的提升空間。
在吳恩達(dá)分享的開源項目中,具體介紹了 AI 智能體翻譯項目的工作流。
翻譯智能體:使用反思工作流進(jìn)行智能體翻譯
這是一個使用 Python 演示的反思智能體工作流的機(jī)器翻譯示例。主要步驟如下:
1. 輸入 prompt,使大型語言模型(LLM)將文本從 source_language 翻譯成 target_language;
2. 讓 LLM 反思翻譯結(jié)果,并提出建設(shè)性的改進(jìn)建議;
3. 利用這些建議改進(jìn)翻譯。
自定義能力
通過使用 LLM 作為翻譯引擎的核心,該系統(tǒng)具有高度可控性。
例如:通過更改 prompt,這種工作流比傳統(tǒng)的機(jī)器翻譯(MT)系統(tǒng)更容易實現(xiàn)以下功能:
- 修改輸出的風(fēng)格,如正式 / 非正式。
- 指定如何處理習(xí)語和特殊術(shù)語,如名字、技術(shù)術(shù)語和縮寫。例如,在 prompt 中包含術(shù)語表,可以確保特定術(shù)語(如開源、H100 或 GPU)翻譯的一致性。
- 指定特定區(qū)域的語言使用或特定方言,以服務(wù)目標(biāo)受眾。例如,拉丁美洲的西班牙語與西班牙的西班牙語不同;加拿大的法語與法國的法語不同。
通過 BLEU(Bilingual Evaluation Understudy)分?jǐn)?shù)進(jìn)行翻譯質(zhì)量的評估作為有別于傳統(tǒng)機(jī)器翻譯的后起之秀,同樣也是衡量 AI 智能體翻譯的必由之路。
根據(jù)使用傳統(tǒng)翻譯數(shù)據(jù)集的 BLEU 分?jǐn)?shù)進(jìn)行評估的結(jié)果:這種工作流有時能與領(lǐng)先的商業(yè)產(chǎn)品競爭,但有時表現(xiàn)也不如它們。不過,它偶爾也能夠得到非常好的結(jié)果,甚至優(yōu)于商業(yè)產(chǎn)品。
他們認(rèn)為這只是智能體翻譯的起點(diǎn),這一方向在翻譯方面很有前景,并且有很大的改進(jìn)空間。因此,作者團(tuán)隊發(fā)布這一演示,以鼓勵更多的討論、實驗、研究和開源貢獻(xiàn)。
如果相比于更快且更便宜的傳統(tǒng)架構(gòu)(例如輸入文本并直接輸出翻譯的端到端 Transformer 架構(gòu)),智能體翻譯能夠有更好的結(jié)果,那么它就 neng 提供一種自動生成訓(xùn)練數(shù)據(jù)(平行文本語料庫)的方法,可以用于進(jìn)一步訓(xùn)練和改進(jìn)傳統(tǒng)算法。
啟動
為使 translation-agent 啟動,需要遵循以下步驟。
安裝:
安裝需要 Poetry 管理器。根據(jù)安裝環(huán)境,安裝 Poetry 可能需要執(zhí)行以下步驟:
pip install poetry
git clone https://github.com/andrewyng/translation-agent.gitcd translation-agent
poetry install
poetry shell # activates virtual environment
運(yùn)行工作流需要一個包含 OPENAI_API_KEY 的 .env 文件,使用者可以參考 .env.sample 文件作為示例。
Usage:
import translation_agent as ta
source_lang, target_lang, country = "English", "Spanish", "Mexico"
translation = ta.translate(source_lang, target_lang, source_text, country)
使用:
import translation_agent as ta
source_lang, target_lang, country = "English", "Spanish", "Mexico"
translation = ta.translate(source_lang, target_lang, source_text, country)
查看 examples/example_script.py 獲取一個示例腳本并進(jìn)行嘗試。
翻譯智能體的進(jìn)一步發(fā)展
吳恩達(dá)在最后還分享了幾點(diǎn)希望開源社區(qū)能夠嘗試的想法,希望憑借眾家之力將翻譯智能體的巨大潛力歸為實處。
- 嘗試其他語言生成模型。此項目主要使用 gpt-4-turbo 進(jìn)行原型開發(fā)。其他人可以嘗試其他 LLM,以及其他超參數(shù)選擇,并查看是否有些大模型可以對特定語言更好地翻譯。
- 術(shù)語表的創(chuàng)建。使用 LLM 也許可以更高效地建立術(shù)語表。例如,許多企業(yè)使用的是互聯(lián)網(wǎng)上不常用的專業(yè)術(shù)語,而 LLM 可能不知道這些術(shù)語。此外,還有許多術(shù)語可能有多種翻譯方式。例如,「open source」在西班牙語中可以是「Código abierto」或「Fuente abierta」;兩者都可以,但最好選擇一個并在單個文檔中堅持長期使用。
- 術(shù)語表的使用和實施。將術(shù)語表包含在 prompt 中最好的方式是什么?
- 在不同語言上進(jìn)行評估。翻譯智能體在不同語言中的表現(xiàn)會發(fā)生怎樣的變化?有沒有通過一些變動,使其在特定源語言或目標(biāo)語言上表現(xiàn)更好的方法?(請注意,對于 MT 系統(tǒng)正在接近的較高性能水平,BLEU 是否是一個很好的度量標(biāo)準(zhǔn)仍是不確定的。)此外,對于資源較少的語言,它的性能表現(xiàn)仍需要進(jìn)一步研究。
- 錯誤分析。吳恩達(dá)團(tuán)隊發(fā)現(xiàn)此應(yīng)用程序?qū)τ谝恍┲付ㄕZ言和國家 / 地區(qū)(例如,「在墨西哥作為普通話的西班牙語」)來說效果很好。除此之外,當(dāng)前方法在哪些方面仍存有不足?翻譯智能體在專業(yè)主題(如法律、醫(yī)學(xué))或特殊文本類型(如電影字幕)上的性能表現(xiàn)如何?存在怎樣的限制?
- 更好的評估指標(biāo)。吳恩達(dá)認(rèn)為對 AI 智能體翻譯進(jìn)行更好的評估是一個巨大且重要的研究課題。與其他生成自由文本的 LLM 應(yīng)用程序一樣,當(dāng)前的評估指標(biāo)似乎并不足夠評估翻譯智能體的表現(xiàn)。例如,他們發(fā)現(xiàn):即使在主動型工作流程在捕捉上下文和術(shù)語方面表現(xiàn)更好的文檔上,仍會導(dǎo)致人類評分者更喜歡當(dāng)前的商業(yè)產(chǎn)品,但是在句子級別進(jìn)行評估(使用 FLORES 數(shù)據(jù)集)時,主動型系統(tǒng)的 BLEU 得分則較低。在設(shè)計出更好的度量標(biāo)準(zhǔn)(也許使用 LLM 評估翻譯?)以在文檔水平上更好地實現(xiàn)與人類偏好相關(guān)的翻譯質(zhì)量仍需更多的努力。
值得注意的是,一些學(xué)術(shù)研究小組也開始關(guān)注基于 LLM 和主動型翻譯的研究。
對于 AI 翻譯智能體的前景,吳恩達(dá)認(rèn)為這個領(lǐng)域還處于起步階段,并分享了一些相關(guān)的學(xué)術(shù)論文供大家參考。
- 論文標(biāo)題:ChatGPT MT: Competitive for High- (but not Low-) Resource Languages
- 論文地址:https://arxiv.org/pdf/2309.07423
- 論文標(biāo)題:How to Design Translation Prompts for ChatGPT: An Empirical Study
- 論文地址:https://arxiv.org/pdf/2304.02182v2
- 論文標(biāo)題:Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts
- 論文地址:https://arxiv.org/pdf/2405.11804
吳恩達(dá)此次開源的翻譯智能體仍處于初級階段,但已在機(jī)器翻譯數(shù)據(jù)集上有了較好的表現(xiàn),為 AI 智能體的下一步發(fā)展注入了又一劑強(qiáng)心針。