偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="bgy45"></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Mistral 發(fā)布 Magistral，他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計的

發(fā)布于 2025-6-13 06:49

瀏覽

0收藏

Mistra發(fā)布 Magistral —— Mistral AI 首款推理模型 —— 在領(lǐng)域特定、透明和多語言推理方面表現(xiàn)卓越。

最優(yōu)秀的人類思維并非線性 —— 它在邏輯、洞察、不確定性和發(fā)現(xiàn)之間穿梭。推理語言模型使我們能夠增強并委托復(fù)雜思考和深度理解給AI，提升我們處理需要精確、逐步深思和分析問題的能力。

但這個領(lǐng)域仍處于起步階段。缺乏處理領(lǐng)域特定問題所需的專業(yè)深度、透明度有限，以及在所需語言中推理不一致 —— 這些只是早期思維模型的一些已知局限性。

Magistral —— Mistral的首款推理模型。同時發(fā)布開源(https://huggingface.co/mistralai/Magistral-Small-2506)和企業(yè)版本，Magistral 旨在以我們熟悉的方式深入思考 —— 同時在專業(yè)領(lǐng)域帶來專業(yè)知識、可跟蹤和驗證的透明推理，以及深度的多語言靈活性。

1、特色

Magistral 是一個專注于現(xiàn)實世界推理和反饋驅(qū)動改進的雙重發(fā)布模型。

?發(fā)布兩個版本：Magistral Small —— 24B參數(shù)開源版本，以及 Magistral Medium —— 更強大的企業(yè)版本。

?Magistral Medium 在 AIME2024 上得分 73.6%，在 64 次多數(shù)投票中達到 90%。Magistral Small 分別得分 70.7% 和 83.3%。

?原生推理 —— Magistral 的思維鏈在全球語言和字母系統(tǒng)中都能正常工作。

?適用于廣泛的企業(yè)用例 —— 從結(jié)構(gòu)化計算和編程邏輯到?jīng)Q策樹和基于規(guī)則的系統(tǒng)。

?通過 Le Chat 中的新思考模式和閃速回答，您可以獲得比大多數(shù)競爭對手快 10 倍的響應(yīng)速度。

?此次發(fā)布由論文(https://mistral.ai/static/research/magistral.pdf)支持，涵蓋了 Magistral 的綜合評估、訓(xùn)練基礎(chǔ)設(shè)施、強化學(xué)習(xí)算法，以及訓(xùn)練推理模型的新穎觀察。

（1）專為透明推理而打造

Magistral 針對多步驟邏輯進行微調(diào)，提高可解釋性，并以用戶的語言提供可追蹤的思維過程，不同于通用模型。

目標是從此次發(fā)布開始快速迭代模型。預(yù)期模型將持續(xù)改進。

（2）多語言靈活性

該模型在眾多語言中保持高保真推理方面表現(xiàn)卓越。Magistral 特別適合用英語、法語、西班牙語、德語、意大利語、阿拉伯語、俄語和簡體中文等語言進行推理。

（3）Le Chat 實現(xiàn) 10 倍更快的推理

通過 Le Chat 中的閃速回答，Magistral Medium 實現(xiàn)了比大多數(shù)競爭對手快達 10 倍的token吞吐量。這使得大規(guī)模的實時推理和用戶反饋成為可能。

（4）應(yīng)用的多樣性

Magistral 適用于需要比非推理大語言模型更長思考處理和更高準確性的通用用途。從法律研究和財務(wù)預(yù)測到軟件開發(fā)和創(chuàng)意寫作 —— 這個模型解決了透明度和精確性至關(guān)重要的多步驟挑戰(zhàn)。

2、Magistral 模型的訓(xùn)練方法

包括對 GRPO 算法的優(yōu)化以提高訓(xùn)練穩(wěn)定性，以及訓(xùn)練獎勵機制，用于提升數(shù)學(xué)和編程能力，同時確保模型遵循正確的格式、長度和語言使用規(guī)范。

（1） GRPO 算法的優(yōu)化

論文引入了幾項修改：

消除KL散度：論文完全移除了KL懲罰;
損失標準化：通過首先對所有token和所有生成添加逐token損失，然后除以組中生成的總長度來標準化損失。
優(yōu)勢標準化
放寬信任區(qū)域的上界：允許模型探索罕見但可能具有洞察力的推理步驟，防止確定性策略。
消除非多樣化組。所有生成都完全正確或錯誤的組具有零優(yōu)勢，因此對批次損失沒有貢獻。這導(dǎo)致梯度更小，噪聲敏感性增加。為了解決這個問題，論文在形成訓(xùn)練批次時過濾掉所有零優(yōu)勢的組。

包含所有修改（用紅色突出顯示）的最終GRPO損失為：

Mistral 發(fā)布 Magistral，他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計的-AI.x社區(qū) 圖片

（2）訓(xùn)練獎勵機制

選擇合適的獎勵對于強化學(xué)習(xí)算法的有效運行至關(guān)重要。在訓(xùn)練過程中，模型生成的內(nèi)容從四個維度進行評估：格式、正確性、長度和語言一致性，我們在下文中進行描述。

格式化

對于數(shù)學(xué)和代碼問題，我們指示模型遵循特定格式，這有助于提取模型的答案：

1）標簽要求：(i) 模型響應(yīng)必須以 <thinking>標簽開始，并且必須包含相應(yīng)的 </thinking> 標簽。(ii) 響應(yīng)中應(yīng)該恰好存在一組這樣的標簽。

2）數(shù)學(xué)響應(yīng)：對于數(shù)學(xué)輸出，響應(yīng)必須在 </thinking>標簽后的答案部分包含用 \boxed{} 包圍的最終答案。

3）代碼響應(yīng)：對于代碼輸出，響應(yīng)必須在答案部分包含至少一個 markdown 代碼塊，用三個反引號格式化，后跟編程語言規(guī)范。

未能滿足任何這些條件將導(dǎo)致獎勵為 0，響應(yīng)將不會進行進一步評分。否則，響應(yīng)獲得 0.1 的獎勵并繼續(xù)評分。

正確性

如果生成的答案遵循所需的格式，論文提取模型解決方案并使用驗證器評估其正確性。

數(shù)學(xué)正確性：最終答案從解決方案中最后一個 \boxed{} 內(nèi)提取，并使用基于規(guī)則的驗證器與參考答案進行比較。它將真實答案和生成的答案都進行標準化，以正確獎勵語義相同但語法不同的響應(yīng)。我們利用不同解析器和 SymPy2 的組合來評估輸出并將其與原始真實答案進行比較。如果答案正確，將給予額外的 0.9 獎勵，使總獎勵達到 1.0。

代碼正確性：代碼從答案部分的第一個 markdown 代碼塊中提取。如果代碼是用 C++ 編寫的，則使用 C++20 標準編譯，超時時間為 10 秒。我們預(yù)編譯 bits/stdc++.h 標準庫頭文件，這在競技編程中常用，以加速編譯過程。我們從可用測試用例中隨機選擇 20 個測試，確保在給定響應(yīng)組內(nèi)使用相同的測試。然后針對這些測試執(zhí)行代碼，每個測試的超時時間為 4 秒，內(nèi)存限制為 300 MB。如果代碼成功通過所有測試，將給予額外的 0.9 獎勵。

長度懲罰

使用軟長度懲罰來向模型發(fā)出信號，表明最大完成長度的硬截止臨近。我們固定兩個長度 lmax 和 lcache 并計算長度懲罰為

Mistral 發(fā)布 Magistral，他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計的-AI.x社區(qū)

Mistral 發(fā)布 Magistral，他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計的-AI.x社區(qū) 圖片

Mistral 發(fā)布 Magistral，他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計的-AI.x社區(qū) 圖片

Mistral 發(fā)布 Magistral，他們首款推理模型專為領(lǐng)域特定、透明和多語言推理而設(shè)計的-AI.x社區(qū) 圖片

本文轉(zhuǎn)載自??AI帝國??，作者：無影寺

標簽

已于2025-6-13 10:40:12修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

剖析特定領(lǐng)域大模型

lintoms ? 3934瀏覽 ? 0回復(fù)
大模型的條件推理和模態(tài)推理

xuxiangda ? 4664瀏覽 ? 0回復(fù)
LLaMA-Omni：專為與大型語言模型（LLMs）進行低延遲、高質(zhì)量的語音交互而設(shè)計

Halo咯咯 ? 5327瀏覽 ? 0回復(fù)
多語言提示技術(shù)：跨越語言障礙的AI應(yīng)用

芝士AI吃魚 ? 4797瀏覽 ? 0回復(fù)
探索 mcdse-2b-v1：全新高效的多語言文檔檢索模型

Halo咯咯 ? 3631瀏覽 ? 0回復(fù)
阿里巴巴Qwen團隊發(fā)布QwQ-32B-Preview：包含320億參數(shù)的開放模型，專為解決高級推理任務(wù)而設(shè)計

Halo咯咯 ? 7094瀏覽 ? 0回復(fù)
Meta AI 開源 Llama 3.3：全新 70B 多語言大語言模型 (LLM)

Halo咯咯 ? 4845瀏覽 ? 0回復(fù)
大規(guī)模情感分析：將NLP應(yīng)用于多語言和特定領(lǐng)域的文本

51CTO內(nèi)容精選 ? 3399瀏覽 ? 0回復(fù)
尋找樂子人｜ “多語言、精準定位”上海導(dǎo)游智能體搭建方案

Wordsworth_Jin ? 4015瀏覽 ? 2回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風(fēng)云2002_1 ? 1.4w瀏覽 ? 0回復(fù)
北交大清華等高校發(fā)布多語言大模型綜述

angel ? 4037瀏覽 ? 0回復(fù)
Anthropic秘密「混合模型」 Claude 4首曝細節(jié)，硬剛GPT-5！深度推理模型來了

duhorse ? 3736瀏覽 ? 0回復(fù)
OpenAI 發(fā)布兩款新 AI 推理模型 o3 與 o4-mini，圖像推理及自主工具使用成最大亮點

Syrupup ? 3421瀏覽 ? 0回復(fù)
推理能力成AI新戰(zhàn)場！Mistral AI祭出Magistral系列，開源模型也能“步步為營”

Halo咯咯 ? 1531瀏覽 ? 0回復(fù)
SmolLM3：小型、多語言、長上下文推理模型

sbf_2000 ? 1999瀏覽 ? 0回復(fù)
OpenAI 回歸開源：連發(fā)兩款推理模型，筆記本可運行

算家計算 ? 3605瀏覽 ? 0回復(fù)
突破多語言視覺-語言模型的全球化之路

魯班模錘1 ? 1445瀏覽 ? 0回復(fù)
NVIDIA 推出Rubin CPX，專為AI推理設(shè)計的GPU

Syrupup ? 1967瀏覽 ? 0回復(fù)
Apertus：瑞士首個開源大模型，多語言支持，合規(guī)訓(xùn)練，高效性能

穿越時空111 ? 2365瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenAI 開源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 3天前發(fā)布
HedgeSpec：比EAGLE3推理速度快2倍的LLM推測解碼 3天前發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復(fù)

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

上一篇：大語言模型的全新預(yù)訓(xùn)練范式-強化預(yù)訓(xùn)練

下一篇：英偉達數(shù)學(xué)推理新突破：監(jiān)督學(xué)習(xí)+強化學(xué)習(xí)的"1+1>2"效應(yīng)

社區(qū)精華內(nèi)容

目錄