Mistral 發(fā)布 Magistral,他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計(jì)的
Mistra發(fā)布 Magistral —— Mistral AI 首款推理模型 —— 在領(lǐng)域特定、透明和多語言推理方面表現(xiàn)卓越。
最優(yōu)秀的人類思維并非線性 —— 它在邏輯、洞察、不確定性和發(fā)現(xiàn)之間穿梭。推理語言模型使我們能夠增強(qiáng)并委托復(fù)雜思考和深度理解給AI,提升我們處理需要精確、逐步深思和分析問題的能力。
但這個(gè)領(lǐng)域仍處于起步階段。缺乏處理領(lǐng)域特定問題所需的專業(yè)深度、透明度有限,以及在所需語言中推理不一致 —— 這些只是早期思維模型的一些已知局限性。
Magistral —— Mistral的首款推理模型。同時(shí)發(fā)布開源(https://huggingface.co/mistralai/Magistral-Small-2506)和企業(yè)版本,Magistral 旨在以我們熟悉的方式深入思考 —— 同時(shí)在專業(yè)領(lǐng)域帶來專業(yè)知識(shí)、可跟蹤和驗(yàn)證的透明推理,以及深度的多語言靈活性。
1、特色
Magistral 是一個(gè)專注于現(xiàn)實(shí)世界推理和反饋驅(qū)動(dòng)改進(jìn)的雙重發(fā)布模型。
?發(fā)布兩個(gè)版本:Magistral Small —— 24B參數(shù)開源版本,以及 Magistral Medium —— 更強(qiáng)大的企業(yè)版本。
?Magistral Medium 在 AIME2024 上得分 73.6%,在 64 次多數(shù)投票中達(dá)到 90%。Magistral Small 分別得分 70.7% 和 83.3%。
?原生推理 —— Magistral 的思維鏈在全球語言和字母系統(tǒng)中都能正常工作。
?適用于廣泛的企業(yè)用例 —— 從結(jié)構(gòu)化計(jì)算和編程邏輯到?jīng)Q策樹和基于規(guī)則的系統(tǒng)。
?通過 Le Chat 中的新思考模式和閃速回答,您可以獲得比大多數(shù)競爭對(duì)手快 10 倍的響應(yīng)速度。
?此次發(fā)布由論文(https://mistral.ai/static/research/magistral.pdf)支持,涵蓋了 Magistral 的綜合評(píng)估、訓(xùn)練基礎(chǔ)設(shè)施、強(qiáng)化學(xué)習(xí)算法,以及訓(xùn)練推理模型的新穎觀察。
(1)專為透明推理而打造
Magistral 針對(duì)多步驟邏輯進(jìn)行微調(diào),提高可解釋性,并以用戶的語言提供可追蹤的思維過程,不同于通用模型。
目標(biāo)是從此次發(fā)布開始快速迭代模型。預(yù)期模型將持續(xù)改進(jìn)。
(2)多語言靈活性
該模型在眾多語言中保持高保真推理方面表現(xiàn)卓越。Magistral 特別適合用英語、法語、西班牙語、德語、意大利語、阿拉伯語、俄語和簡體中文等語言進(jìn)行推理。
(3)Le Chat 實(shí)現(xiàn) 10 倍更快的推理
通過 Le Chat 中的閃速回答,Magistral Medium 實(shí)現(xiàn)了比大多數(shù)競爭對(duì)手快達(dá) 10 倍的token吞吐量。這使得大規(guī)模的實(shí)時(shí)推理和用戶反饋成為可能。
(4)應(yīng)用的多樣性
Magistral 適用于需要比非推理大語言模型更長思考處理和更高準(zhǔn)確性的通用用途。從法律研究和財(cái)務(wù)預(yù)測到軟件開發(fā)和創(chuàng)意寫作 —— 這個(gè)模型解決了透明度和精確性至關(guān)重要的多步驟挑戰(zhàn)。
2、Magistral 模型的訓(xùn)練方法
包括對(duì) GRPO 算法的優(yōu)化以提高訓(xùn)練穩(wěn)定性,以及訓(xùn)練獎(jiǎng)勵(lì)機(jī)制,用于提升數(shù)學(xué)和編程能力,同時(shí)確保模型遵循正確的格式、長度和語言使用規(guī)范。
(1) GRPO 算法的優(yōu)化
論文引入了幾項(xiàng)修改:
- 消除KL散度:論文完全移除了KL懲罰;
- 損失標(biāo)準(zhǔn)化:通過首先對(duì)所有token和所有生成添加逐token損失,然后除以組中生成的總長度來標(biāo)準(zhǔn)化損失。
- 優(yōu)勢(shì)標(biāo)準(zhǔn)化
- 放寬信任區(qū)域的上界:允許模型探索罕見但可能具有洞察力的推理步驟,防止確定性策略。
- 消除非多樣化組。所有生成都完全正確或錯(cuò)誤的組具有零優(yōu)勢(shì),因此對(duì)批次損失沒有貢獻(xiàn)。這導(dǎo)致梯度更小,噪聲敏感性增加。為了解決這個(gè)問題,論文在形成訓(xùn)練批次時(shí)過濾掉所有零優(yōu)勢(shì)的組。
包含所有修改(用紅色突出顯示)的最終GRPO損失為:
圖片
(2)訓(xùn)練獎(jiǎng)勵(lì)機(jī)制
選擇合適的獎(jiǎng)勵(lì)對(duì)于強(qiáng)化學(xué)習(xí)算法的有效運(yùn)行至關(guān)重要。在訓(xùn)練過程中,模型生成的內(nèi)容從四個(gè)維度進(jìn)行評(píng)估:格式、正確性、長度和語言一致性,我們?cè)谙挛闹羞M(jìn)行描述。
格式化
對(duì)于數(shù)學(xué)和代碼問題,我們指示模型遵循特定格式,這有助于提取模型的答案:
1)標(biāo)簽要求:(i) 模型響應(yīng)必須以 <thinking>標(biāo)簽開始,并且必須包含相應(yīng)的 </thinking> 標(biāo)簽。(ii) 響應(yīng)中應(yīng)該恰好存在一組這樣的標(biāo)簽。
2)數(shù)學(xué)響應(yīng):對(duì)于數(shù)學(xué)輸出,響應(yīng)必須在 </thinking>標(biāo)簽后的答案部分包含用 \boxed{} 包圍的最終答案。
3)代碼響應(yīng):對(duì)于代碼輸出,響應(yīng)必須在答案部分包含至少一個(gè) markdown 代碼塊,用三個(gè)反引號(hào)格式化,后跟編程語言規(guī)范。
未能滿足任何這些條件將導(dǎo)致獎(jiǎng)勵(lì)為 0,響應(yīng)將不會(huì)進(jìn)行進(jìn)一步評(píng)分。否則,響應(yīng)獲得 0.1 的獎(jiǎng)勵(lì)并繼續(xù)評(píng)分。
正確性
如果生成的答案遵循所需的格式,論文提取模型解決方案并使用驗(yàn)證器評(píng)估其正確性。
數(shù)學(xué)正確性:最終答案從解決方案中最后一個(gè) \boxed{} 內(nèi)提取,并使用基于規(guī)則的驗(yàn)證器與參考答案進(jìn)行比較。它將真實(shí)答案和生成的答案都進(jìn)行標(biāo)準(zhǔn)化,以正確獎(jiǎng)勵(lì)語義相同但語法不同的響應(yīng)。我們利用不同解析器和 SymPy2 的組合來評(píng)估輸出并將其與原始真實(shí)答案進(jìn)行比較。如果答案正確,將給予額外的 0.9 獎(jiǎng)勵(lì),使總獎(jiǎng)勵(lì)達(dá)到 1.0。
代碼正確性:代碼從答案部分的第一個(gè) markdown 代碼塊中提取。如果代碼是用 C++ 編寫的,則使用 C++20 標(biāo)準(zhǔn)編譯,超時(shí)時(shí)間為 10 秒。我們預(yù)編譯 bits/stdc++.h 標(biāo)準(zhǔn)庫頭文件,這在競技編程中常用,以加速編譯過程。我們從可用測試用例中隨機(jī)選擇 20 個(gè)測試,確保在給定響應(yīng)組內(nèi)使用相同的測試。然后針對(duì)這些測試執(zhí)行代碼,每個(gè)測試的超時(shí)時(shí)間為 4 秒,內(nèi)存限制為 300 MB。如果代碼成功通過所有測試,將給予額外的 0.9 獎(jiǎng)勵(lì)。
長度懲罰
使用軟長度懲罰來向模型發(fā)出信號(hào),表明最大完成長度的硬截止臨近。我們固定兩個(gè)長度 lmax 和 lcache 并計(jì)算長度懲罰為
圖片
圖片
圖片
本文轉(zhuǎn)載自??AI帝國??,作者:無影寺
