騰訊開源翻譯模型狂飆:31個(gè)語言對(duì)奪30冠,力壓谷歌GPT全家桶
騰訊宣布開源兩款翻譯模型。
這兩款模型名為“Hunyuan MT 7B”和“Hunyuan MT Chimera 7B”,在國際權(quán)威賽事WMT2025上幾乎橫掃所有項(xiàng)目,31個(gè)語言對(duì)里拿下30個(gè)第一。
WMT是機(jī)器翻譯領(lǐng)域的最高級(jí)別賽事,全球研究團(tuán)隊(duì)齊聚一堂比拼系統(tǒng)表現(xiàn)。
騰訊模型的得分大幅超過谷歌翻譯。也在多項(xiàng)指標(biāo)上,結(jié)果領(lǐng)先幅度高達(dá)65%。
圖片
不僅如此,面對(duì)OpenAI的GPT-4.1、Anthropic的Claude 4 Sonnet,以及谷歌的Gemini 2.5 Pro等頂尖AI系統(tǒng),騰訊依然占優(yōu)。
評(píng)測(cè)數(shù)據(jù)顯示,Hunyuan模型在關(guān)鍵語言對(duì)的直接對(duì)抗中,比Gemini 2.5 Pro高出4.7個(gè)百分點(diǎn)。
圖片
面對(duì)專門的翻譯模型,優(yōu)勢(shì)更為明顯,提升幅度最高達(dá)110%。
這意味著,參數(shù)規(guī)模只有70億的模型,居然在翻譯任務(wù)上擊敗了動(dòng)輒數(shù)百億參數(shù)的龐然大物。
模型覆蓋33種語言,包括中文、英語、日語,以及捷克語、馬拉地語、愛沙尼亞語和冰島語等小語種。
最引人注目的是,騰訊把重點(diǎn)放在了中國的少數(shù)民族語言。模型支持漢語與哈薩克語、維吾爾語、蒙古語和藏語的雙向翻譯。
為此,團(tuán)隊(duì)專門準(zhǔn)備了1.3萬億個(gè)標(biāo)注單位,僅針對(duì)少數(shù)民族語料。整個(gè)訓(xùn)練過程共涉及112種語言和方言。
另外,這兩款模型未不是單純依賴大數(shù)據(jù)暴力堆砌。訓(xùn)練過程分為五個(gè)階段,從通用文本起步,逐漸引入翻譯專屬數(shù)據(jù),再用人工標(biāo)注進(jìn)行監(jiān)督學(xué)習(xí)。
接著是基于獎(jiǎng)勵(lì)信號(hào)的強(qiáng)化學(xué)習(xí),最后一步是所謂“弱到強(qiáng)”的強(qiáng)化學(xué)習(xí)策略。
這種層層遞進(jìn)的方式,保證了模型既有廣泛知識(shí),又能在翻譯任務(wù)上保持專業(yè)性。
特別值得一提的是“Chimera”模型。
它采用融合策略,將多個(gè)系統(tǒng)的翻譯建議合并為更優(yōu)結(jié)果,在標(biāo)準(zhǔn)測(cè)試中平均提升2.3個(gè)百分點(diǎn)。
這種方法等于把不同模型的優(yōu)勢(shì)疊加,避免了單一系統(tǒng)的偏差。
與之相比,谷歌最近宣布的Gemini翻譯功能,雖然引入了實(shí)時(shí)對(duì)話翻譯和語言學(xué)習(xí)模式,但在核心準(zhǔn)確率上,依然落后于騰訊。
騰訊的另一個(gè)亮點(diǎn)是開源。
模型已經(jīng)在Hugging Face平臺(tái)上線,源代碼同步開放在GitHub。在硬件需求上,Hunyuan只需普通顯卡即可運(yùn)行。
與72億參數(shù)的Tower Plus系列相比,Hunyuan在多項(xiàng)指標(biāo)上超出10%到58%。
顯然,翻譯領(lǐng)域的競(jìng)爭,不再是“模型越大越好”。未來的方向,是精準(zhǔn)訓(xùn)練和高效架構(gòu)。
體驗(yàn)地址:https://hunyuan.tencent.com/modelSquare/home/list
Github: https://github.com/Tencent-Hunyuan/Hunyuan-MT/
HugginFace:https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597
AngelSlim壓縮工具:https://github.com/Tencent/AngelSlim


































