偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)Seed提出序貫策略?xún)?yōu)化方法,突破同傳“質(zhì)量-延遲”權(quán)衡問(wèn)題

人工智能 新聞
香港中文大學(xué)、字節(jié)跳動(dòng)Seed和斯坦福大學(xué)研究團(tuán)隊(duì)出手,提出了一種面向同聲傳譯的序貫策略?xún)?yōu)化框架 (Sequential Policy Optimization for Simultaneous Machine Translation,?SeqPO-SiMT)。

AI字幕總是慢半拍,質(zhì)量和延遲難以平衡是業(yè)界老問(wèn)題了。

為此,香港中文大學(xué)、字節(jié)跳動(dòng)Seed和斯坦福大學(xué)研究團(tuán)隊(duì)出手,提出了一種面向同聲傳譯的序貫策略?xún)?yōu)化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。

在70億參數(shù)(7B)規(guī)模上實(shí)現(xiàn)SOTA。

圖片

實(shí)驗(yàn)結(jié)果顯示,SeqPO-SiMT的翻譯質(zhì)量不僅優(yōu)于監(jiān)督微調(diào)(SFT)的離線(xiàn)模型及LLaMA-3-8B,其表現(xiàn)甚至能媲美乃至超越Qwen-2.5-7B的離線(xiàn)翻譯水平。

方法:SeqPO-SiMT序貫策略?xún)?yōu)化

針對(duì)以上難點(diǎn),研究團(tuán)隊(duì)提出SeqPO-SiMT框架。其核心思想是將同聲傳譯任務(wù)建模為一個(gè)序貫決策問(wèn)題,綜合評(píng)估整個(gè)翻譯流程的翻譯質(zhì)量和延遲,并對(duì)整個(gè)決策序貫進(jìn)行端到端的優(yōu)化。

該方法的主要特點(diǎn)是:它不再孤立地評(píng)估每一步?jīng)Q策的好壞,而是將一整句話(huà)的翻譯過(guò)程視為一個(gè)整體,即形成一個(gè)完整決策序貫,更符合人類(lèi)對(duì)同傳的評(píng)估過(guò)程。

同聲傳譯采樣階段

該框架使用一個(gè)大語(yǔ)言模型(LLM)充當(dāng)策略模型圖片,在每個(gè)時(shí)間步t,模型會(huì)接收新的源語(yǔ)言文本塊圖片,并基于已有的所有源文本圖片和之前的翻譯歷史圖片,來(lái)生成當(dāng)前的翻譯塊圖片。

這個(gè)決策過(guò)程可以被形式化地表示為:圖片

該框架的一個(gè)關(guān)鍵靈活性在于,如果模型決定等待更多上下文,輸出的圖片可以為空,其長(zhǎng)度完全由策略模型圖片自行決定。

圖片

優(yōu)化階段

獎(jiǎng)勵(lì)函數(shù):對(duì)于一個(gè)batch內(nèi)的第i個(gè)樣本,系統(tǒng)會(huì)通過(guò)一個(gè)在最終步驟T給予的融合獎(jiǎng)勵(lì)圖片來(lái)評(píng)估整個(gè)過(guò)程的優(yōu)劣。這個(gè)獎(jiǎng)勵(lì)同時(shí)評(píng)估翻譯質(zhì)量(Quality)和延遲(Latency)。

具體而言,首先計(jì)算出原始的質(zhì)量分圖片和延遲分圖片,然后對(duì)兩者進(jìn)行歸一化處理以統(tǒng)一量綱得到圖片圖片,最終的獎(jiǎng)勵(lì)被定義為:圖片

其中,圖片是一個(gè)超參數(shù),用于權(quán)衡質(zhì)量與延遲的重要性。

優(yōu)化目標(biāo):模型的最終優(yōu)化目標(biāo)最大化期望獎(jiǎng)勵(lì)圖片,同時(shí)為了保證訓(xùn)練的穩(wěn)定性,目標(biāo)函數(shù)中還引入了KL散度作為約束項(xiàng),防止策略模型圖片與參考模型圖片偏離過(guò)遠(yuǎn)。

這個(gè)結(jié)合最終獎(jiǎng)勵(lì)和穩(wěn)定性約束的優(yōu)化過(guò)程,使得模型能夠端到端地學(xué)會(huì)一個(gè)兼顧翻譯質(zhì)量與延遲的最優(yōu)策略

圖片

圖片

結(jié)果與分析:翻譯質(zhì)量媲美Qwen-2.5-7B離線(xiàn)翻譯水平

研究團(tuán)隊(duì)在多個(gè)公開(kāi)的英漢互譯測(cè)試集上進(jìn)行了實(shí)驗(yàn),并與多種現(xiàn)有同傳模型進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果顯示:在低延遲水平下,SeqPO-SiMT框架生成的譯文質(zhì)量相較于基線(xiàn)模型有明顯提升。

圖片

與多個(gè)高性能模型的離線(xiàn)翻譯結(jié)果進(jìn)行對(duì)比,結(jié)果顯示,SeqPO-SiMT的翻譯質(zhì)量不僅優(yōu)于監(jiān)督微調(diào)(SFT)的離線(xiàn)模型及LLaMA-3-8B,其表現(xiàn)甚至能媲美乃至超越Qwen-2.5-7B的離線(xiàn)翻譯水平。這表明該方法在70億參數(shù)(7B)規(guī)模上實(shí)現(xiàn)了業(yè)界頂尖(SoTA)的性能。

圖片

SeqPO-SiMT為解決同聲傳譯中的“質(zhì)量-延遲”權(quán)衡問(wèn)題提供了一個(gè)新的視角,它強(qiáng)調(diào)了對(duì)決策“序貫”進(jìn)行整體優(yōu)化的重要性。該方法對(duì)于需要進(jìn)行實(shí)時(shí)、連續(xù)決策的自然語(yǔ)言處理任務(wù)具有一定的參考意義,并為未來(lái)開(kāi)發(fā)更高效、更智能的同聲傳譯系統(tǒng)提供了有價(jià)值的探索。

論文鏈接:https://arxiv.org/pdf/2505.20622

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-08-05 09:02:00

2025-04-29 09:10:00

2023-09-20 08:37:33

語(yǔ)音翻譯同傳翻譯

2025-01-22 09:48:07

2015-07-02 11:17:30

MySQLSlave延遲優(yōu)化

2025-06-24 11:50:37

模型數(shù)據(jù)開(kāi)源

2021-07-16 23:01:03

SQL索引性能

2014-11-27 10:30:38

云管理企業(yè)云云管理工具

2025-05-12 09:00:00

2025-01-23 17:07:07

2021-07-26 18:23:23

SQL策略優(yōu)化

2025-08-04 08:23:00

2023-12-03 08:57:54

開(kāi)源模型

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2017-12-28 08:48:53

DRAM延遲問(wèn)題

2022-11-21 18:00:26

GraphQLAPI開(kāi)發(fā)

2024-01-16 17:17:30

模型訓(xùn)練

2024-11-11 10:34:55

2024-05-24 08:59:15

2025-06-27 08:50:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)