偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Mistral 發(fā)布 Magistral,他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計的

發(fā)布于 2025-6-13 06:49
瀏覽
0收藏

Mistra發(fā)布 Magistral —— Mistral AI 首款推理模型 —— 在領(lǐng)域特定、透明和多語言推理方面表現(xiàn)卓越。

最優(yōu)秀的人類思維并非線性 —— 它在邏輯、洞察、不確定性和發(fā)現(xiàn)之間穿梭。推理語言模型使我們能夠增強并委托復(fù)雜思考和深度理解給AI,提升我們處理需要精確、逐步深思和分析問題的能力。

但這個領(lǐng)域仍處于起步階段。缺乏處理領(lǐng)域特定問題所需的專業(yè)深度、透明度有限,以及在所需語言中推理不一致 —— 這些只是早期思維模型的一些已知局限性。

Magistral —— Mistral的首款推理模型。同時發(fā)布開源(https://huggingface.co/mistralai/Magistral-Small-2506)和企業(yè)版本,Magistral 旨在以我們熟悉的方式深入思考 —— 同時在專業(yè)領(lǐng)域帶來專業(yè)知識、可跟蹤和驗證的透明推理,以及深度的多語言靈活性。

1、特色

Magistral 是一個專注于現(xiàn)實世界推理和反饋驅(qū)動改進的雙重發(fā)布模型。

?發(fā)布兩個版本:Magistral Small —— 24B參數(shù)開源版本,以及 Magistral Medium —— 更強大的企業(yè)版本。

?Magistral Medium 在 AIME2024 上得分 73.6%,在 64 次多數(shù)投票中達到 90%。Magistral Small 分別得分 70.7% 和 83.3%。

?原生推理 —— Magistral 的思維鏈在全球語言和字母系統(tǒng)中都能正常工作。

?適用于廣泛的企業(yè)用例 —— 從結(jié)構(gòu)化計算和編程邏輯到?jīng)Q策樹和基于規(guī)則的系統(tǒng)。

?通過 Le Chat 中的新思考模式和閃速回答,您可以獲得比大多數(shù)競爭對手快 10 倍的響應(yīng)速度。

?此次發(fā)布由論文(https://mistral.ai/static/research/magistral.pdf)支持,涵蓋了 Magistral 的綜合評估、訓(xùn)練基礎(chǔ)設(shè)施、強化學(xué)習(xí)算法,以及訓(xùn)練推理模型的新穎觀察。

(1)專為透明推理而打造

Magistral 針對多步驟邏輯進行微調(diào),提高可解釋性,并以用戶的語言提供可追蹤的思維過程,不同于通用模型。

目標是從此次發(fā)布開始快速迭代模型。預(yù)期模型將持續(xù)改進。

(2)多語言靈活性

該模型在眾多語言中保持高保真推理方面表現(xiàn)卓越。Magistral 特別適合用英語、法語、西班牙語、德語、意大利語、阿拉伯語、俄語和簡體中文等語言進行推理。

(3)Le Chat 實現(xiàn) 10 倍更快的推理

通過 Le Chat 中的閃速回答,Magistral Medium 實現(xiàn)了比大多數(shù)競爭對手快達 10 倍的token吞吐量。這使得大規(guī)模的實時推理和用戶反饋成為可能。

(4)應(yīng)用的多樣性

Magistral 適用于需要比非推理大語言模型更長思考處理和更高準確性的通用用途。從法律研究和財務(wù)預(yù)測到軟件開發(fā)和創(chuàng)意寫作 —— 這個模型解決了透明度和精確性至關(guān)重要的多步驟挑戰(zhàn)。

2、Magistral 模型的訓(xùn)練方法

包括對 GRPO 算法的優(yōu)化以提高訓(xùn)練穩(wěn)定性,以及訓(xùn)練獎勵機制,用于提升數(shù)學(xué)和編程能力,同時確保模型遵循正確的格式、長度和語言使用規(guī)范。

(1) GRPO 算法的優(yōu)化

論文引入了幾項修改:

  • 消除KL散度:論文完全移除了KL懲罰;
  • 損失標準化:通過首先對所有token和所有生成添加逐token損失,然后除以組中生成的總長度來標準化損失。
  • 優(yōu)勢標準化
  • 放寬信任區(qū)域的上界:允許模型探索罕見但可能具有洞察力的推理步驟,防止確定性策略。
  • 消除非多樣化組。所有生成都完全正確或錯誤的組具有零優(yōu)勢,因此對批次損失沒有貢獻。這導(dǎo)致梯度更小,噪聲敏感性增加。為了解決這個問題,論文在形成訓(xùn)練批次時過濾掉所有零優(yōu)勢的組。

包含所有修改(用紅色突出顯示)的最終GRPO損失為:

Mistral 發(fā)布 Magistral,他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計的-AI.x社區(qū)圖片

(2)訓(xùn)練獎勵機制

選擇合適的獎勵對于強化學(xué)習(xí)算法的有效運行至關(guān)重要。在訓(xùn)練過程中,模型生成的內(nèi)容從四個維度進行評估:格式、正確性、長度和語言一致性,我們在下文中進行描述。

格式化

對于數(shù)學(xué)和代碼問題,我們指示模型遵循特定格式,這有助于提取模型的答案:

1)標簽要求:(i) 模型響應(yīng)必須以  <thinking>標簽開始,并且必須包含相應(yīng)的 </thinking> 標簽。(ii) 響應(yīng)中應(yīng)該恰好存在一組這樣的標簽。

2)數(shù)學(xué)響應(yīng):對于數(shù)學(xué)輸出,響應(yīng)必須在  </thinking>標簽后的答案部分包含用 \boxed{} 包圍的最終答案。

3)代碼響應(yīng):對于代碼輸出,響應(yīng)必須在答案部分包含至少一個 markdown 代碼塊,用三個反引號格式化,后跟編程語言規(guī)范。

未能滿足任何這些條件將導(dǎo)致獎勵為 0,響應(yīng)將不會進行進一步評分。否則,響應(yīng)獲得 0.1 的獎勵并繼續(xù)評分。

正確性

如果生成的答案遵循所需的格式,論文提取模型解決方案并使用驗證器評估其正確性。

數(shù)學(xué)正確性:最終答案從解決方案中最后一個 \boxed{} 內(nèi)提取,并使用基于規(guī)則的驗證器與參考答案進行比較。它將真實答案和生成的答案都進行標準化,以正確獎勵語義相同但語法不同的響應(yīng)。我們利用不同解析器和 SymPy2 的組合來評估輸出并將其與原始真實答案進行比較。如果答案正確,將給予額外的 0.9 獎勵,使總獎勵達到 1.0。

代碼正確性:代碼從答案部分的第一個 markdown 代碼塊中提取。如果代碼是用 C++ 編寫的,則使用 C++20 標準編譯,超時時間為 10 秒。我們預(yù)編譯 bits/stdc++.h 標準庫頭文件,這在競技編程中常用,以加速編譯過程。我們從可用測試用例中隨機選擇 20 個測試,確保在給定響應(yīng)組內(nèi)使用相同的測試。然后針對這些測試執(zhí)行代碼,每個測試的超時時間為 4 秒,內(nèi)存限制為 300 MB。如果代碼成功通過所有測試,將給予額外的 0.9 獎勵。

長度懲罰

使用軟長度懲罰來向模型發(fā)出信號,表明最大完成長度的硬截止臨近。我們固定兩個長度 lmax 和 lcache 并計算長度懲罰為

Mistral 發(fā)布 Magistral,他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計的-AI.x社區(qū)

Mistral 發(fā)布 Magistral,他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計的-AI.x社區(qū)圖片

Mistral 發(fā)布 Magistral,他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計的-AI.x社區(qū)圖片

Mistral 發(fā)布 Magistral,他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計的-AI.x社區(qū)圖片

本文轉(zhuǎn)載自??AI帝國??,作者:無影寺

已于2025-6-13 10:40:12修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦