字節(jié)Seed提出序貫策略?xún)?yōu)化方法,突破同傳“質(zhì)量-延遲”權(quán)衡問(wèn)題
AI字幕總是慢半拍,質(zhì)量和延遲難以平衡是業(yè)界老問(wèn)題了。
為此,香港中文大學(xué)、字節(jié)跳動(dòng)Seed和斯坦福大學(xué)研究團(tuán)隊(duì)出手,提出了一種面向同聲傳譯的序貫策略?xún)?yōu)化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。
在70億參數(shù)(7B)規(guī)模上實(shí)現(xiàn)SOTA。

實(shí)驗(yàn)結(jié)果顯示,SeqPO-SiMT的翻譯質(zhì)量不僅優(yōu)于監(jiān)督微調(diào)(SFT)的離線(xiàn)模型及LLaMA-3-8B,其表現(xiàn)甚至能媲美乃至超越Qwen-2.5-7B的離線(xiàn)翻譯水平。
方法:SeqPO-SiMT序貫策略?xún)?yōu)化
針對(duì)以上難點(diǎn),研究團(tuán)隊(duì)提出SeqPO-SiMT框架。其核心思想是將同聲傳譯任務(wù)建模為一個(gè)序貫決策問(wèn)題,綜合評(píng)估整個(gè)翻譯流程的翻譯質(zhì)量和延遲,并對(duì)整個(gè)決策序貫進(jìn)行端到端的優(yōu)化。
該方法的主要特點(diǎn)是:它不再孤立地評(píng)估每一步?jīng)Q策的好壞,而是將一整句話(huà)的翻譯過(guò)程視為一個(gè)整體,即形成一個(gè)完整決策序貫,更符合人類(lèi)對(duì)同傳的評(píng)估過(guò)程。
同聲傳譯采樣階段
該框架使用一個(gè)大語(yǔ)言模型(LLM)充當(dāng)策略模型
,在每個(gè)時(shí)間步t,模型會(huì)接收新的源語(yǔ)言文本塊
,并基于已有的所有源文本
和之前的翻譯歷史
,來(lái)生成當(dāng)前的翻譯塊
。
這個(gè)決策過(guò)程可以被形式化地表示為:
該框架的一個(gè)關(guān)鍵靈活性在于,如果模型決定等待更多上下文,輸出的
可以為空,其長(zhǎng)度完全由策略模型
自行決定。

優(yōu)化階段
獎(jiǎng)勵(lì)函數(shù):對(duì)于一個(gè)batch內(nèi)的第i個(gè)樣本,系統(tǒng)會(huì)通過(guò)一個(gè)在最終步驟T給予的融合獎(jiǎng)勵(lì)
來(lái)評(píng)估整個(gè)過(guò)程的優(yōu)劣。這個(gè)獎(jiǎng)勵(lì)同時(shí)評(píng)估翻譯質(zhì)量(Quality)和延遲(Latency)。
具體而言,首先計(jì)算出原始的質(zhì)量分
和延遲分
,然后對(duì)兩者進(jìn)行歸一化處理以統(tǒng)一量綱得到
和
,最終的獎(jiǎng)勵(lì)被定義為:
其中,
是一個(gè)超參數(shù),用于權(quán)衡質(zhì)量與延遲的重要性。
優(yōu)化目標(biāo):模型的最終優(yōu)化目標(biāo)最大化期望獎(jiǎng)勵(lì)
,同時(shí)為了保證訓(xùn)練的穩(wěn)定性,目標(biāo)函數(shù)中還引入了KL散度作為約束項(xiàng),防止策略模型
與參考模型
偏離過(guò)遠(yuǎn)。
這個(gè)結(jié)合最終獎(jiǎng)勵(lì)和穩(wěn)定性約束的優(yōu)化過(guò)程,使得模型能夠端到端地學(xué)會(huì)一個(gè)兼顧翻譯質(zhì)量與延遲的最優(yōu)策略:


結(jié)果與分析:翻譯質(zhì)量媲美Qwen-2.5-7B離線(xiàn)翻譯水平
研究團(tuán)隊(duì)在多個(gè)公開(kāi)的英漢互譯測(cè)試集上進(jìn)行了實(shí)驗(yàn),并與多種現(xiàn)有同傳模型進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果顯示:在低延遲水平下,SeqPO-SiMT框架生成的譯文質(zhì)量相較于基線(xiàn)模型有明顯提升。

與多個(gè)高性能模型的離線(xiàn)翻譯結(jié)果進(jìn)行對(duì)比,結(jié)果顯示,SeqPO-SiMT的翻譯質(zhì)量不僅優(yōu)于監(jiān)督微調(diào)(SFT)的離線(xiàn)模型及LLaMA-3-8B,其表現(xiàn)甚至能媲美乃至超越Qwen-2.5-7B的離線(xiàn)翻譯水平。這表明該方法在70億參數(shù)(7B)規(guī)模上實(shí)現(xiàn)了業(yè)界頂尖(SoTA)的性能。

SeqPO-SiMT為解決同聲傳譯中的“質(zhì)量-延遲”權(quán)衡問(wèn)題提供了一個(gè)新的視角,它強(qiáng)調(diào)了對(duì)決策“序貫”進(jìn)行整體優(yōu)化的重要性。該方法對(duì)于需要進(jìn)行實(shí)時(shí)、連續(xù)決策的自然語(yǔ)言處理任務(wù)具有一定的參考意義,并為未來(lái)開(kāi)發(fā)更高效、更智能的同聲傳譯系統(tǒng)提供了有價(jià)值的探索。
論文鏈接:https://arxiv.org/pdf/2505.20622















 
 
 















 
 
 
 