引入長(zhǎng)思維鏈!微信基于阿里千問(wèn)大模型搞出個(gè)翻譯版o1
最近,類 o1 模型的出現(xiàn),驗(yàn)證了長(zhǎng)思維鏈 (CoT) 在數(shù)學(xué)和編碼等推理任務(wù)中的有效性。在長(zhǎng)思考(long thought)的幫助下,LLM 傾向于探索、反思和自我改進(jìn)推理過(guò)程,以獲得更準(zhǔn)確的答案。
在最近的一項(xiàng)研究中,微信 AI 研究團(tuán)隊(duì)提出了 DRT-o1,將長(zhǎng) CoT 的成功引入神經(jīng)機(jī)器翻譯 (MT)。實(shí)現(xiàn)這一目標(biāo)有兩個(gè)關(guān)鍵點(diǎn):
- 一是適合在機(jī)器翻譯中使用長(zhǎng)思考的翻譯場(chǎng)景:并不是所有的場(chǎng)景都需要在翻譯過(guò)程中進(jìn)行長(zhǎng)思考。例如,對(duì)于簡(jiǎn)單的表達(dá),直譯就可以滿足大多數(shù)需求,而長(zhǎng)思考的翻譯可能沒(méi)有必要;
 - 二是一種能夠合成具有長(zhǎng)思考能力的機(jī)器翻譯數(shù)據(jù)的方法。
 
展開(kāi)來(lái)說(shuō),文學(xué)書籍中可能會(huì)涉及明喻和隱喻,由于文化差異,將這些文本翻譯成目標(biāo)語(yǔ)言在實(shí)踐中是非常困難的。在這種情況下,直譯往往無(wú)法有效地傳達(dá)預(yù)期的含義。即使是專業(yè)的人工翻譯,也必須在整個(gè)翻譯過(guò)程中仔細(xì)考慮如何保留語(yǔ)義。
為了在 MT 中模擬 LLM 的長(zhǎng)思考能力,本文首先從現(xiàn)有文學(xué)書籍中挖掘包含明喻或隱喻的句子,然后開(kāi)發(fā)出了一個(gè)多智能體框架通過(guò)長(zhǎng)思考來(lái)翻譯這些句子。
該框架有三個(gè)智能體,即翻譯者(translator)、顧問(wèn)(advisor)和評(píng)估者(evaluator)。數(shù)據(jù)合成過(guò)程是迭代的,每次迭代包括以下三個(gè)步驟:
(1)翻譯者根據(jù)前一步的翻譯和顧問(wèn)的相應(yīng)改進(jìn)建議生成新的翻譯;
(2)顧問(wèn)評(píng)估當(dāng)前翻譯并提供詳細(xì)反饋;
(3)評(píng)估者評(píng)估當(dāng)前翻譯并使用預(yù)定義的評(píng)分標(biāo)準(zhǔn)給出評(píng)估分?jǐn)?shù)。一旦評(píng)估者提供的翻譯分?jǐn)?shù)達(dá)到預(yù)定義的閾值或迭代次數(shù)達(dá)到最大值,迭代將停止。
此后,每一步中的翻譯和建議都可以形成長(zhǎng)思考的機(jī)器翻譯樣本。為了提高長(zhǎng)思考數(shù)據(jù)的可讀性和流暢性,本文使用 GPT-4o 來(lái)重新表述長(zhǎng)思考的內(nèi)容。
基于收集的長(zhǎng)思考機(jī)器翻譯樣本,本文分別使用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作為主干模型,對(duì) DRT-o1-7B 和 DRT-o1-14B 進(jìn)行訓(xùn)練(SFT)。在文學(xué)翻譯上的實(shí)驗(yàn)結(jié)果證明了 DRT-o1 的有效性。例如,DRT-o1-7B 的表現(xiàn)比 Qwen2.5-7B-Instruct 高出 8.26 BLEU、1.31 CometKiwi 和 3.36 CometScore。它的表現(xiàn)也比 QwQ32B-Preview 高出 7.82 BLEU 和 1.46 CometScore。
本文貢獻(xiàn)主要包括:
- 提出 DRT-o1,旨在構(gòu)建具有長(zhǎng)思考機(jī)器翻譯能力的 LLM。為了實(shí)現(xiàn)這一目標(biāo),本文挖掘了帶有明喻或隱喻的文學(xué)句子,并收集具有長(zhǎng)思考過(guò)程的機(jī)器翻譯樣本;
 - 為了合成長(zhǎng)思考機(jī)器翻譯樣本,本文提出了一個(gè)多智能體框架,其中包括翻譯者、顧問(wèn)和評(píng)估者。這三個(gè)智能體以迭代方式協(xié)作,在機(jī)器翻譯過(guò)程中產(chǎn)生長(zhǎng)思考。最后,使用 GPT4o 進(jìn)一步提高合成長(zhǎng)思考機(jī)器翻譯樣本的質(zhì)量;
 - 在文學(xué)翻譯上的實(shí)驗(yàn)結(jié)果驗(yàn)證了 DRT-o1 的有效性,通過(guò)長(zhǎng)思考,LLM 可以在機(jī)器翻譯過(guò)程中學(xué)會(huì)思考。
 

- 論文標(biāo)題:DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought
 - 論文鏈接:https://arxiv.org/pdf/2412.17498
 - 項(xiàng)目地址:https://github.com/krystalan/DRT-o1
 
DRT-o1 數(shù)據(jù)
論文以英譯漢為研究對(duì)象,在本節(jié)中通過(guò)三個(gè)步驟介紹如何收集 DRT-o1 訓(xùn)練數(shù)據(jù):
(1)收集在翻譯過(guò)程中往往需要長(zhǎng)時(shí)間思考的英語(yǔ)句子(§ 2.1);
(2)通過(guò)設(shè)計(jì)的多智能體框架對(duì)收集到的句子進(jìn)行長(zhǎng)時(shí)間思考翻譯過(guò)程的合成(§ 2.2);
(3)改進(jìn)長(zhǎng)時(shí)間思考內(nèi)容的可讀性和流暢性,形成最終的長(zhǎng)時(shí)間思考 MT 樣本(§ 2.3)。
最后,對(duì)收集到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),加深理解(§ 2.4)。
文學(xué)圖書挖掘
研究者利用了古騰堡計(jì)劃公共領(lǐng)域書籍庫(kù)中的文學(xué)書籍,這些書籍通常有 50 多年的歷史,其版權(quán)已過(guò)期。他們利用了大約 400 本英文書籍來(lái)挖掘含有比喻或隱喻的句子。
首先,從這些書籍中提取所有句子,并過(guò)濾掉太短或太長(zhǎng)的句子,即少于 10 個(gè)單詞或多于 100 個(gè)單詞的句子,最終得到 577.6K 個(gè)文學(xué)句子。
其次,對(duì)于每個(gè)句子,使用 Qwen2.5-72B-Instruct 來(lái)判斷該句子是否包含比喻或隱喻,并舍棄不包含比喻或隱喻的句子。
第三,對(duì)于剩下的句子,讓 Qwen2.5-72B-Instruct 將其直譯為中文,然后判斷譯文是否符合母語(yǔ)為中文的人的習(xí)慣。如果答案是否定的,則保留相應(yīng)的句子,將其視為「適合長(zhǎng)思考翻譯」。
這樣,最終從 577.6K 個(gè)涉及比喻或隱喻的文學(xué)句子中收集了 63K 個(gè)直譯也有缺陷的句子,稱為預(yù)收集句子。
多智能體框架
對(duì)于每個(gè)預(yù)先收集的句子(用 s 表示),研究者設(shè)計(jì)了一個(gè)多智能體框架,通過(guò)長(zhǎng)時(shí)間的思考將其從英文翻譯成中文。如圖 1 所示,框架包括三個(gè)智能體:翻譯者、顧問(wèn)和評(píng)估者。合成過(guò)程如下:
(1) 詞語(yǔ)級(jí)翻譯。
(2) 初步翻譯。
(3) 翻譯完善循環(huán)。

長(zhǎng)思考重配方
經(jīng)過(guò)多智能體協(xié)作,得到了一個(gè)漫長(zhǎng)的思考過(guò)程:

其中,P (s) 表示 s 的多智能體思考過(guò)程,m 為迭代步數(shù)。為了強(qiáng)調(diào)有效的思維過(guò)程,沒(méi)有分?jǐn)?shù)變化的翻譯將被刪除。也就是說(shuō),如果 s^i 等于 s^(i-1)(i = 1,2,...,m),研究者將舍棄 P (s) 中的?t^i , f^i , s^i ?,結(jié)果為:

其中 1≤r_1 < r_2 < ... < r_n ≤ m,n 為剩余步數(shù)。如果 n < 3,將放棄整個(gè)樣本,即 P (s) / P′ (s)。
對(duì)于其余樣本,研究者效仿 Qin et al. (2024) 的做法,利用 GPT-4o 將 P ′ (s) 修改并打磨為自我反思描述。最后,獲得了 22264 個(gè)帶有長(zhǎng)思考的機(jī)器翻譯樣本。圖 2 舉例說(shuō)明了合成結(jié)果。

數(shù)據(jù)統(tǒng)計(jì)
研究者將收集到的 22264 個(gè)樣本分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,樣本數(shù)分別為 19264、1000 和 2000。表 1 列出了 DRT-o1 數(shù)據(jù)和以往類似 O1 數(shù)據(jù)的數(shù)據(jù)統(tǒng)計(jì)。對(duì)于 Marco-O1 CoT 數(shù)據(jù),由于其尚未完全發(fā)布,此處使用其演示數(shù)據(jù)來(lái)計(jì)算數(shù)據(jù)統(tǒng)計(jì)??梢钥吹剑铣傻乃伎贾械钠骄?token 數(shù)達(dá)到了 500 多個(gè),這與之前面向數(shù)學(xué)的 O1 類 CoT 數(shù)據(jù)相似。

實(shí)驗(yàn)
為了計(jì)算 CometKiwi 和 CometScore,研究者使用了官方代碼和官方模型。為了計(jì)算 BLEU 分?jǐn)?shù),使用 sacrebleu 工具包計(jì)算語(yǔ)料庫(kù)級(jí)別的 BLEU。此處,研究者采用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作為 DRT-o1 的骨干。
下表 2 顯示了文獻(xiàn)翻譯的結(jié)果。研究者將 DRT-o1-7B 和 DRT-o1- 14B 與之前的 Qwen2.5-7B-Instruct、Qwen2.5- 14B-Instruct、QwQ-32B-preview 和 Marco-o1- 7B 進(jìn)行了比較。根據(jù)收集到的數(shù)據(jù)進(jìn)行指令調(diào)整后,DRT-o1-7B 的 BLEU、CometKiwi 和 CometScore 分別為 8.26、1.31 和 3.36,優(yōu)于 Qwen2.5-7B-Instruct。DRT-o1-14B 在 7.33 BLEU、0.15 CometKiwi 和 1.66 CometScore 方面優(yōu)于 Qwen2.5-14B-Instruct。此外,DRT-o1-14B 在所有指標(biāo)方面都取得了最佳結(jié)果,顯示了長(zhǎng)思考在機(jī)器翻譯中的有效性。

圖 3 顯示了 DRT-o1-14B 的一個(gè)示例??梢钥吹剑撃P蛯W(xué)習(xí)了收集的數(shù)據(jù)的思維過(guò)程。DRT-o1-14B 首先執(zhí)行詞級(jí)翻譯,然后嘗試初步翻譯。接下來(lái),它會(huì)不斷改進(jìn)翻譯,直到它認(rèn)為翻譯足夠好為止。

更多研究細(xì)節(jié),可參考原論文。















 
 
 

















 
 
 
 