偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

騰訊開源WMT2025冠軍大模型:拿下30個第一,同類最佳

人工智能 新聞
Hunyuan-MT-7B在面對不同語言的復雜語法規(guī)則、獨特詞匯體系以及豐富文化內(nèi)涵時, 均展現(xiàn)出強大的適應能力與翻譯水準,成為同類最佳開源模型。

昨晚,騰訊開源了2025年世界機器翻譯大會(WMT2025)上斬獲佳績的翻譯大模型Hunyuan-MT-7B。

根據(jù)比賽成績顯示,Hunyuan-MT-7B在中文、英文、法語、德語、馬拉地語、愛沙尼亞語、冰島語、芬蘭語、匈牙利語、羅馬尼亞語、波斯語、印地語、孟加拉語、泰米爾語、烏爾都語、僧伽羅語等31種主流、小眾語言測試中,拿下30個語種第一。

Hunyuan-MT-7B在面對不同語言的復雜語法規(guī)則、獨特詞匯體系以及豐富文化內(nèi)涵時, 均展現(xiàn)出強大的適應能力與翻譯水準,成為同類最佳開源模型。同時在Flores-200 、WMT24pp等權(quán)威測試中,超過了谷歌的Gemini-2.5-Pro和Anthropic的Claude-Sonnet-4,可以媲美OpenAI的GPT-4.1。

開源地址:https://github.com/Tencent-Hunyuan/Hunyuan-MT/

https://huggingface.co/tencent/Hunyuan-MT-7B

在線體驗:https://hunyuan.tencent.com/modelSquare/home/list

Hunyuan-MT-7B架構(gòu)簡單介紹

在通用預訓練階段,騰訊研究團隊采用了涵蓋中文、英文以及少數(shù)民族語言的海量數(shù)據(jù)進行混合訓練。少數(shù)民族語言數(shù)據(jù)集包含 1.3 萬億個標記,覆蓋 112 種非中文/英文語言和方言。

為了確保數(shù)據(jù)質(zhì)量,團隊開發(fā)了一套專有的質(zhì)量評估模型,從知識價值、真實性和寫作風格三個維度對多語言數(shù)據(jù)進行評分,并采用三級評分系統(tǒng)(0、1、2)對每個維度進行打分。通過加權(quán)綜合評分,并根據(jù)不同數(shù)據(jù)源的特性對特定維度進行優(yōu)先級調(diào)整,團隊篩選出高質(zhì)量的多語言訓練語料。

例如,在處理書籍類和專業(yè)網(wǎng)站內(nèi)容時,優(yōu)先選擇知識水平評分為 2 的文本。此外,為保證多語言訓練數(shù)據(jù)的內(nèi)容多樣性,團隊還建立了三個標簽系統(tǒng):學科標簽系統(tǒng)、行業(yè)標簽系統(tǒng)24個類別和內(nèi)容主題標簽系統(tǒng)24 個類別,分別用于平衡學科分布、保證跨行業(yè)多樣性以及實現(xiàn)多樣性管理和針對性過濾。

經(jīng)過這一階段的訓練,騰訊研究團隊獲得了Hunyuan-7b-Base1基礎(chǔ)模型,并且在MMLU-Pro、SuperGPQA、BBH、GPQA、GSM8K、MATH、MultiPL-E等測試中性能很不錯。

隨后在通用預訓練的基礎(chǔ)上,騰訊研究團隊進一步開展了面向機器翻譯的專項預訓練。這一階段的目標是通過精心挑選的單語和雙語語料庫,進一步提升模型的翻譯能力。

單語數(shù)據(jù)主要來自 mC4 和 OSCAR 數(shù)據(jù)集,經(jīng)過嚴格的清洗流程,包括使用 fastText 進行語言識別、通過 minLSH 進行文檔級去重以及利用基于 KenLM 的模型進行質(zhì)量過濾,以去除高困惑度的文檔。對于雙語數(shù)據(jù),團隊則利用公開的平行語料庫,如 OPUS 和 ParaCrawl,并采用參考無關(guān)的質(zhì)量估計指標,如 CometKiwi,對句對進行篩選,以確保所選句對的高質(zhì)量。

為了確定最優(yōu)的數(shù)據(jù)混合比例,團隊借鑒了 RegMix 的策略。首先在小規(guī)模模型上進行實驗,擬合一個將采樣比例映射到訓練損失的函數(shù)。通過模擬該函數(shù),找到使預測損失最小化的混合比例,并將其應用于最終翻譯模型的面向機器翻譯的預訓練階段。此外,為避免災難性遺忘,團隊在訓練過程中融入了原始預訓練語料庫的 20% 回放,并設(shè)計了學習率調(diào)度,使其在預訓練階段的初始階段達到峰值學習率,然后逐漸衰減至最小值。

監(jiān)督微調(diào)(SFT)是 Hunyuan-MT 訓練過程中的關(guān)鍵環(huán)節(jié),旨在通過高質(zhì)量的標注數(shù)據(jù)進一步優(yōu)化模型的翻譯性能。SFT 過程分為兩個階段。第一階段的目標是增強模型的基礎(chǔ)翻譯能力和對翻譯指令的遵循能力。

騰訊研究團隊訓練了一個包含約 300 萬對的大型平行語料庫,該語料庫來自五個主要來源:開源的 Flores-200 基準的開發(fā)集、以往WMT測試集、人工標注的普通話與少數(shù)民族語言對、使用 DeepSeek-V3-0324 生成的合成平行語料庫以及用于增強模型對一般和翻譯相關(guān)指令泛化能力的通用和面向機器翻譯的指令調(diào)整數(shù)據(jù)集的20%部分。為提高訓練數(shù)據(jù)質(zhì)量,團隊采用參考無關(guān)的質(zhì)量估計指標 CometKiwi 和 GEMBA 對整個平行語料庫進行評分,并過濾掉低于預定義質(zhì)量閾值的訓練樣本。在GEMBA 評分中,DeepSeek-V3-0324模型本身作為評估器。

第二階段則旨在通過一個更小但更高質(zhì)量的約 268,000 對的數(shù)據(jù)集進一步優(yōu)化模型的翻譯性能。這一階段的訓練數(shù)據(jù)經(jīng)過更嚴格的篩選過程?;谝酝芯?,團隊采用多樣本上下文學習來進一步優(yōu)化訓練數(shù)據(jù)。對于在多輪評估中得分一致性較差的訓練樣本,團隊會進行人工標注和驗證,以確保數(shù)據(jù)質(zhì)量。

強化學習(RL)在提升具有結(jié)構(gòu)化輸出的任務例如,數(shù)學問題求解和代碼生成的推理能力方面表現(xiàn)出色,但將其應用于機器翻譯卻面臨獨特挑戰(zhàn)。機器翻譯的輸出具有豐富的語義多樣性,難以通過明確的規(guī)則進行評估。

為應對這一挑戰(zhàn),騰訊研究團隊采用了GRPO作為強化學習算法,并設(shè)計了一個綜合的獎勵函數(shù)。質(zhì)量感知獎勵:為確保強化學習訓練期間的翻譯質(zhì)量,采用了兩種互補的獎勵信號。第一種是 XCOMET-XXL,這是一種在翻譯評估場景中廣泛使用的指標,與人類評估具有高度相關(guān)性。第二種獎勵則利用 DeepSeek-V3-0324 進行評分,提示語從 GEMBA 框架中改編而來。

術(shù)語感知獎勵:雖然基于 XCOMET 的獎勵主要關(guān)注翻譯輸出與參考翻譯之間的整體語義相似性,但它們可能無法充分捕捉關(guān)鍵信息,如特定領(lǐng)域的術(shù)語。為解決這一局限性,團隊引入了基于詞對齊的獎勵指標(TAT-R1 中提出的)。該獎勵機制通過詞對齊工具提取關(guān)鍵信息(包括術(shù)語),然后計算這些關(guān)鍵元素在翻譯輸出和參考之間的重疊比率。較高的重疊比率將獲得更高的獎勵,從而增強模型在訓練過程中對術(shù)語和其他關(guān)鍵信息的關(guān)注。

重復懲罰:團隊觀察到,在強化訓練的后期階段,模型傾向于生成重復的輸出,這可能導致訓練崩潰。為緩解這一問題,團隊實施了一種重復檢測機制,當檢測到重復模式時,將應用懲罰,以維護輸出的多樣性和訓練的穩(wěn)定性。

Hunyuan-MT-7B翻譯案例

在中文社交媒體情境中,Hunyuan-MT-7B能夠準確地將“小紅書”解釋為“REDnote”平臺,并理解“砍一刀”是拼多多的價格削減機制,而Google-Translator 則產(chǎn)生了字面上但不正確的翻譯(“sweet potatoes”和“cuts”)。

在英語俚語表達方面,Hunyuan-MT-7B 能夠精準地捕捉到非字面意義,例如,將“You are killing me”翻譯為表達娛樂而非字面?zhèn)Φ囊馑?,?nbsp;Google-Translator 則未能識別這種非字面用法。

Hunyuan-MT-7B還在特定領(lǐng)域的術(shù)語翻譯方面表現(xiàn)出色,能夠正確地將“血液疾病”和“尿酸性腎結(jié)石”等醫(yī)學術(shù)語翻譯出來,并且能夠成功地在不同語言之間轉(zhuǎn)換完整的地址,而 Google-Translator 則保持了原樣。這些例子表明,Hunyuan-MT-7B擁有更深入的語言細微差別、文化背景和領(lǐng)域知識的理解能力,使其能夠產(chǎn)生比傳統(tǒng)翻譯系統(tǒng)更準確、更自然的翻譯。

在游戲翻譯測試中,輸入“d2”和“make a game”, 其他模型未能正確識別d2是指《暗黑破壞神 2》,而是將其誤解為普通文本。同時,其他模型錯誤地將make a game解釋為游戲開發(fā),這在游戲社區(qū)中并不準確。而Hunyuan-MT-7B正確識別了d2真正意思,并且make a game在這里是指創(chuàng)建一個游戲房間,用于交換游戲物品。

在處理非正式語言時,例如,輸入文本中使用了“fucking”這個詞。其他模型可能會直接翻譯為字面意思,導致翻譯結(jié)果顯得粗俗。Hunyuan-MT-Chimera-7B能夠適當?shù)胤g這個詞,避免了字面的粗俗語言,從而生成更自然、更符合語境的翻譯。

在體育情境中,Hunyuan-MT-Chimera-7B 也展現(xiàn)了其優(yōu)勢。例如,輸入文本中提到了“三分”。其他模型可能會錯誤地將其翻譯為“贏得三場比賽”,這在體育語境中是不準確的。而 Hunyuan-MT-Chimera-7B 正確地將其翻譯為“三分球”,這在籃球等體育項目中是常見的術(shù)語。

網(wǎng)友表示,成果令人矚目。一個 70億參數(shù)的模型能達到這樣的規(guī)模,彰顯出在效率方面取得了引人關(guān)注的進步。這一突破有望推動高質(zhì)量翻譯的普及化。

騰訊攜一款輕量卻性能強勁的70億參數(shù)模型,正式躋身機器翻譯賽道。

很激動,開源才是最佳出路。

版本穩(wěn)定性出色,其多語言支持功能令人青睞,且整套技術(shù)流程展現(xiàn)出強勁的實力。

責任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2016-11-16 18:34:26

騰訊云云計算

2025-05-16 10:15:06

2025-04-27 08:30:00

2025-01-14 13:51:18

2024-11-06 09:47:00

2020-04-20 10:08:22

AI 代碼開源

2025-09-03 00:00:05

2017-12-19 16:26:21

數(shù)據(jù)京東AI

2024-04-30 14:11:00

訓練模型

2025-04-16 07:14:57

2025-02-27 00:14:52

2025-05-29 01:11:00

NGINX監(jiān)控工具

2023-12-03 08:46:20

模型開源

2025-02-26 00:02:59

2025-07-17 09:28:09

2023-06-05 10:09:03

研究人工智能
點贊
收藏

51CTO技術(shù)棧公眾號