偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="12y2y"></button>

<cite id="12y2y"><source id="12y2y"><address id="12y2y"></address></source></cite>

<thead id="12y2y"><option id="12y2y"></option></thead>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

AM-Thinking-v1：解鎖 32B 模型推理潛力的密碼

作者：肆零柒 2025-06-18 02:30:00

AM-Thinking-v1 以 32B 的規(guī)模，通過 post train 的方式，結(jié)合 SFT 和 RL，讓模型突破了推理能力的邊界。在數(shù)學推理和代碼生成等領域展現(xiàn)驚人實力，挑戰(zhàn)了大家對模型規(guī)模與性能的傳統(tǒng)認知。

大家好，我是肆〇柒。本篇想和大家分享一個后訓練的模型案例 ——AM-Thinking-v1 模型。這個模型是由貝殼（Ke.com）公司旗下的 a-m-team 團隊開發(fā)的，他們一直致力于探索 AGI 技術。AM-Thinking-v1 憑借其精心設計的后訓練框架，在數(shù)學和代碼推理等任務上展現(xiàn)出卓越性能，為中等規(guī)模模型的發(fā)展探索了很好的可能性。它不僅在效率與性能間取得平衡，更向我們揭示了模型規(guī)模之外，創(chuàng)新訓練方法對推理能力提升的無限可能。下面一起來看看這篇論文對 32B 模型 Post train 的介紹，這個團隊分享的實踐過程，對于我們私有化模型落地很有實操的借鑒意義。

模型開發(fā)背景

a-m-team 與 Qwen2.5-32B 基礎模型

a-m-team 是貝殼（Ke.com）公司旗下專注于探索 AGI 技術的團隊。他們開發(fā) AM-Thinking-v1 所使用的 Qwen2.5-32B 基礎模型是完全開源的。團隊選擇這一基礎模型，是因為其在性能和穩(wěn)定性上具有顯著優(yōu)勢。Qwen2.5-32B 模型在預訓練階段已經(jīng)學習了海量的文本知識，具備了良好的語言理解和生成能力，這為后續(xù)的推理能力優(yōu)化提供了堅實的基礎。此外，a-m-team 團隊對開源社區(qū)的貢獻和依賴，促進了整個研究領域的快速發(fā)展。開源模型使得更多的研究者和開發(fā)者能夠參與到模型的改進和優(yōu)化中來，加速了技術的迭代和創(chuàng)新。

規(guī)模抉擇：32B 模型的優(yōu)勢與應用考量

選擇 32B 規(guī)模的模型進行開發(fā)，是基于實際應用的多方面考慮。與大型 MoE 架構(gòu)模型相比，32B 模型在效率、可部署性與推理性能之間實現(xiàn)了良好的平衡。大型 MoE 架構(gòu)模型雖然在推理性能上表現(xiàn)出色，但它們需要海量的計算資源來進行訓練和推理，訓練成本高昂，對硬件設施要求嚴苛，且部署復雜度大。這些因素使得大多數(shù)企業(yè)難以承擔。而 32B 模型則不同，它能夠在中小企業(yè)的實際業(yè)務需求中找到應用場景，同時也能滿足多數(shù)實際場景的推理任務要求。例如，在推理速度方面，32B 模型能夠在相對較短的時間內(nèi)給出響應，滿足實時性要求較高的應用場景；在資源消耗方面，它對硬件資源的需求相對較低，降低了部署成本；在硬件要求方面，普通的服務器配置即可滿足其運行需求，無需配備專門的高性能計算集群。

數(shù)據(jù)處理方法

數(shù)據(jù)收集與來源

AM-Thinking-v1 的訓練數(shù)據(jù)來自多個公開的數(shù)據(jù)集，涵蓋了數(shù)學推理、代碼生成、科學推理、指令遵循和通用聊天等任務領域。

在數(shù)學推理領域，使用了如 OpenR1-Math-220k 數(shù)據(jù)集，該數(shù)據(jù)集包含大量的數(shù)學問題及解答，涵蓋了從基礎數(shù)學到高等數(shù)學的各個知識點；Big-Math-RL-Verified 數(shù)據(jù)集則側(cè)重于通過強化學習驗證的數(shù)學問題，確保了數(shù)學問題解答的準確性和可靠性。此外，還有 data_ablation_full59K、NuminaMath、MetaMathQA、2023_amc_data、DeepMath-103K 和 AIME_1983_2024 等數(shù)據(jù)集，這些數(shù)據(jù)集從不同角度和難度層次為模型提供了豐富的數(shù)學推理訓練素材。

在代碼生成領域，PRIME 數(shù)據(jù)集涵蓋了多種編程語言的代碼示例，包括 Python、C++、Java 等常見編程語言，為模型學習不同編程語言的語法和編程范式提供了基礎；DeepCoder 數(shù)據(jù)集聚焦于代碼生成和修復任務，包含了大量具有代表性的代碼問題和解決方案，有助于模型提高代碼生成的準確性和魯棒性。其他如 KodCode、liveincode_generation、codeforces_cots、verifiable_coding、opencoder 和 AceCode-87K 等數(shù)據(jù)集，也從不同方面豐富了代碼生成任務的訓練數(shù)據(jù)。

科學推理領域包括了 task_mmmlu 數(shù)據(jù)集，該數(shù)據(jù)集涉及多個學科的科學問題，如物理、化學、生物等，以多項選擇題的形式呈現(xiàn)，每個問題都配有可靠的真值答案；chemistryQA 數(shù)據(jù)集則專注于化學領域的問答，涵蓋了化學物質(zhì)的性質(zhì)、化學反應的原理等知識點。此外，Llama-NemotronPost-Training-Dataset-v1、LOGIC-701、ncert 系列數(shù)據(jù)集和 logicLM 等也從不同學科和題型角度為科學推理任務提供了數(shù)據(jù)支持。

指令遵循領域選用了 Llama-Nemotron-PostTraining-Dataset 和 tulu-3-sft-mixture 兩個數(shù)據(jù)集，這些數(shù)據(jù)集包含了各種指令類型的樣本，如文本編輯指令、信息檢索指令等，幫助模型更好地理解和執(zhí)行用戶的指令。

通用聊天領域則包括了 evol、InfinityInstruct、open_orca、tulu-3-sft-mixture、natural_reasoning、flan、ultra_chat 和 OpenHermes-2.5 等數(shù)據(jù)集，涵蓋了開放性問題、一般知識問答和日常推理等多種類型的任務，支持單輪和多輪對話交互，使模型能夠在通用聊天場景中表現(xiàn)出自然、流暢的對話能力。

查詢過濾策略

對收集到的數(shù)據(jù)進行預處理是確保訓練數(shù)據(jù)質(zhì)量的關鍵步驟。首先，進行去重操作，去除重復的查詢，避免模型在訓練過程中對重復數(shù)據(jù)的過度擬合。然后，刪除低質(zhì)量查詢，包括那些描述不清楚、信息不完整或存在明顯錯誤的查詢。此外，去除包含 URL 和圖像引用的查詢也至關重要。由于模型在訓練時無法訪問外部鏈接，包含 URL 的查詢可能會導致模型產(chǎn)生幻覺或誤導性輸出；而模型是純文本基于的，無法感知或處理視覺信息，因此包含圖像引用的查詢也被排除在外。

特別地，數(shù)學查詢的過濾尤為重要。在實際操作中，利用 LLM 對數(shù)學問題進行分析，過濾掉描述不清晰或不完整的查詢。

例如，對于一個原始描述為 “求一個三角形的面積，已知三條邊長分別為 3、4、5” 的問題，通過 LLM 分析后，可以重新表述為 “已知一個三角形的三條邊長分別為 3 厘米、4 厘米、5 厘米，求該三角形的面積”，使問題更加清晰準確，便于模型理解和解答。

同時，采用 DeepSeek-R1 生成多個響應來驗證原始答案的正確性。若發(fā)現(xiàn)問題，則借助 o4-mini 重新確定答案并修正原始真實值。具體流程是，設置合適的提示詞讓 DeepSeek-R1 生成多個回答，然后使用 math_verify 工具判斷這些回答與原始答案是否一致。如果不一致，則由 o4-mini 生成新的答案，并再次通過 math_verify 判斷 o4-mini 的答案與 DeepSeek-R1 的常見回答是否等價。若等價，則認為原始真實值可能錯誤，將其修正為 o4-mini 的答案。

例如，在一個關于二次方程求解的問題中，原始答案標注為 “x = 3”，但通過 DeepSeek-R1 生成的多個響應中出現(xiàn)頻率最高的答案是 “x = 2”，經(jīng) math_verify 判斷與 o4-mini 生成的答案 “x = 2” 等價，于是將原始答案修正為 “x = 2”。此外，對于數(shù)學證明題和多子問題查詢直接過濾掉；對于多項選擇題，由于其數(shù)量眾多，將其改寫為填空題，例如將 “下列哪個選項是勾股數(shù)？A.3、4、5 B.5、6、7 C.6、7、8” 改寫為 “請?zhí)顚懝垂蓴?shù)：3、4、___”。

在代碼查詢方面，采用了方法調(diào)用和標準輸入輸出測試用例來驗證模型的代碼生成能力。例如，對于需要實現(xiàn)特定方法或函數(shù)的查詢，定義了特定的函數(shù)名、輸入值及其對應的預期輸出值。在驗證過程中，這些測試用例被自動轉(zhuǎn)換為斷言語句，并在安全的代碼沙盒環(huán)境中執(zhí)行。下圖展示了方法調(diào)用和標準輸入輸出測試用例的具體形式：

方法調(diào)用以及標準輸入/輸出測試用例示例

對于指令遵循查詢，使用了 IFEval 驗證器來進行驗證。驗證器接收指令標識符（instruction_id_list）及其參數(shù)（kwargs），并為每個指令返回一個布爾結(jié)果（True/False），表示指令是否被成功遵循。此處采用的是 IFEval 驗證器的嚴格模式，僅評估原始響應。下圖展示了驗證器輸入的具體格式和內(nèi)容：

驗證器輸入示例

通過這些詳細的驗證步驟和示例，可以確保訓練數(shù)據(jù)的高質(zhì)量，為模型的后續(xù)訓練和推理能力提升奠定了堅實的基礎。

質(zhì)量把控：合成響應的三次過濾法

在生成模型響應后，采用三種方法來過濾低質(zhì)量的響應?；诶Щ蠖龋≒erplexity）的方法是利用之前訓練的 32B 模型計算每個模型生成響應的困惑度，設定一個困惑度閾值，超過該閾值的響應將被丟棄。通常，困惑度較低的響應表示模型對生成的文本更具確定性，質(zhì)量也相對較高。例如，設定困惑度閾值為 100，對于困惑度超過 100 的響應，認為其質(zhì)量較低，應予以過濾。N-gram 基于的方法是丟棄包含一定最小長度重復短語的模型響應。例如，如果一個響應中連續(xù)出現(xiàn)兩次以上的相同短語，長度超過 3 個詞，則認為該響應可能存在重復冗余，質(zhì)量較低，應予以過濾。結(jié)構(gòu)基于的方法則是針對多輪對話，確保最后的輪次是助手的響應，并且每個模型生成的回復都包含完整思考和回答的組件。如果一個對話輪次的結(jié)構(gòu)不完整，如缺少思考過程或回答部分，則認為該響應質(zhì)量不高，需要過濾掉。例如，對于一個多輪對話，如果模型生成的回復只有思考過程而沒有最終答案，或者只有答案而沒有思考過程，則該響應將被過濾掉。

Post-train 框架

監(jiān)督微調(diào)（SFT）：初始雕琢

SFT 使用約 284 萬樣本，涵蓋數(shù)學、代碼、科學、指令遵循和通用聊天五個主要類別。在訓練過程中，對于樣本數(shù)量較少的指令遵循類別，通過重復數(shù)據(jù)來增加其在訓練中的占比，確保模型在各個任務上的學習平衡。例如，在訓練初期，指令遵循類別的樣本數(shù)量相對較少，可能只占總樣本數(shù)的 5% 左右。為了提升模型對這類任務的學習效果，將指令遵循類別的數(shù)據(jù)重復多次加入到訓練集中，使其占比提升至 10% 左右。同時，生成多樣本合成的響應來增強模型對復雜指令的理解能力。例如，對于一個復雜的指令 “請生成一篇關于人工智能在醫(yī)療領域應用的報告，要求包括當前應用現(xiàn)狀、面臨挑戰(zhàn)和未來發(fā)展趨勢三個部分”，模型會生成多個不同的響應，這些響應從不同角度和側(cè)重點來回答該指令，從而豐富了模型的學習素材，提高了其對復雜指令的理解和執(zhí)行能力。

基于 Qwen2.5-32B 基礎模型的 SFT 訓練配置如下：學習率設置為 8e-5，較大的學習率有助于模型在長形式推理任務中更好地擬合數(shù)據(jù)；最大序列長度設置為 32k，并采用序列打包技術，在提高計算效率的同時，確保模型能夠處理較長的推理文本；全局批量大小設置為 64，較大的批量大小可以充分利用計算資源，加快訓練速度；模型訓練 2 個周期，確保模型能夠充分學習到訓練數(shù)據(jù)中的知識；采用余弦熱身策略，熱身步設置為總訓練步的 5%，學習率先線性增長到最大值，然后隨著訓練進程逐步衰減，這有助于模型在訓練初期快速收斂，同時避免后期學習率過高導致的模型參數(shù)震蕩；對于多輪對話數(shù)據(jù)，只使用包含推理過程的最后響應作為訓練目標，并將其作為損失函數(shù)的計算依據(jù)，使模型能夠?qū)Ｗ⒂趯W習推理部分的模式和結(jié)構(gòu)。

在SFT（Supervised Fine-Tuning，監(jiān)督式微調(diào)）過程中，左側(cè)是實例級分布（Instance Level Distribution），右側(cè)是 token 級分布（Token Level Distribution）

上圖展示了監(jiān)督微調(diào)階段的數(shù)據(jù)分布情況，從實例層面和token層面直觀呈現(xiàn)了不同任務類別在訓練集中的占比和分布，反映了訓練數(shù)據(jù)的多樣性和豐富性，確保模型能夠接觸到足夠多類型的樣本，從而在多個任務上實現(xiàn)均衡有效的學習。

同時，監(jiān)督微調(diào)階段的訓練損失曲線如下所示：

監(jiān)督微調(diào)（SFT）訓練loss曲線

上面曲線顯示了模型在訓練過程中的損失變化情況?？梢钥吹?，隨著訓練的進行，損失逐漸下降，表明模型在不斷學習和擬合訓練數(shù)據(jù)。在訓練初期，損失下降較為迅速，說明模型能夠快速捕捉到數(shù)據(jù)中的主要模式和特征；隨著訓練的深入，損失下降速度逐漸放緩，趨于平穩(wěn)，這表明模型逐漸收斂，學習到了更細致的知識和復雜的推理模式。通過合理設置學習率和批量大小等超參數(shù)，確保了模型在長形式推理任務中的穩(wěn)定訓練和有效學習，為后續(xù)強化學習階段的進一步優(yōu)化奠定了良好的基礎。

此外，在監(jiān)督微調(diào)過程中，我們還可以觀察到平均生成長度和平均停止比例的動態(tài)變化：

平均代長（上）和平均停止比例（下）的變化

上圖顯示，在訓練早期，模型傾向于生成過長的輸出，平均生成長度較大，而平均停止比例較低。這主要是由于基礎模型的預訓練語料庫以純文本為主，且推理示例的長度顯著長于標準指令數(shù)據(jù)。隨著訓練的進行，模型逐漸學習到推理提示的結(jié)構(gòu)和語義模式，平均生成長度呈現(xiàn)下降趨勢，而平均停止比例則穩(wěn)步上升。這表明模型在不斷調(diào)整自身的生成行為，逐步向更連貫、更符合任務要求的推理模式靠攏，體現(xiàn)了監(jiān)督微調(diào)方法對模型推理能力的有效引導。

強化學習（RL）：能力進階雙階段提升

在 RL 階段，選擇適當難度的訓練查詢對于確保性能穩(wěn)定提升至關重要。根據(jù) SFT 模型的通過率來篩選數(shù)學和代碼查詢。具體操作是，統(tǒng)計 SFT 模型在各個查詢上的通過率，即模型正確回答查詢的次數(shù)占總嘗試次數(shù)的比例。然后，設定一個閾值范圍，例如只保留通過率在 0 到 1 之間的查詢，即那些模型既不能完全正確回答，也不是完全錯誤的查詢。最終確定用于訓練的數(shù)學查詢數(shù)量為 32k，代碼查詢數(shù)量為 22k。

RL 分為兩個階段。在第一階段，當模型性能趨于平穩(wěn)后，進入第二階段。在第二階段，移除模型在第一階段已完全正確回答的查詢，同時補充 15k 通用聊天和 5k 指令遵循數(shù)據(jù)，以增強模型的泛化能力。采用 GRPO 作為訓練算法，原因在于其簡化和輕量化的特性，盡管是 PPO 的變體，但在本項目中表現(xiàn)出良好的訓練穩(wěn)定性和有效的性能提升。GRPO 算法通過計算優(yōu)勢函數(shù)來評估策略的好壞，并根據(jù)優(yōu)勢函數(shù)更新策略模型。優(yōu)勢函數(shù)計算公式為：A(s,a) = Q(s,a) - V(s)，其中 Q(s,a) 是狀態(tài) - 動作價值函數(shù)，V(s) 是狀態(tài)價值函數(shù)。在具體配置方面，去除 KL 約束，允許模型進行更大幅度的策略更新；對于過長的響應，將其優(yōu)勢設置為零，防止其影響參數(shù)更新；采用嚴格的 on-policy 訓練方式，每個訓練批次包含 256 個查詢，每個查詢采樣 16 次探索，每次探索后只更新一次策略模型；分階段調(diào)整生成和學習率，第一階段最大響應長度限制為 24K，學習率相對較高，為 4 × 10?6，以加快模型收斂速度；第二階段最大響應長度增加到 32K，學習率降低至 1 × 10?6，以精細化調(diào)整模型參數(shù)，提高訓練精度。例如，在 RL 訓練過程中，如果發(fā)現(xiàn)模型在某個查詢上的性能表現(xiàn)較差，可以通過調(diào)整學習率和批量大小等超參數(shù)來優(yōu)化訓練策略?？梢赃m當降低學習率，減小批量大小，增加訓練步數(shù)，使模型能夠更細致地學習該查詢的特征和模式，從而逐步提高性能。

為了提高強化學習階段的訓練效率，對 rollout 速度進行了優(yōu)化。傳統(tǒng)的在線 GRPO 訓練由于需要在每一步生成策略模型樣本，導致訓練周期較長。通過解耦 rollout 工作者與推理引擎，并引入自定義負載均衡器，實現(xiàn)了動態(tài)實例分配。這種優(yōu)化設計使得訓練系統(tǒng)能夠根據(jù)實時系統(tǒng)指標靈活調(diào)度推理任務，有效緩解了長序列處理導致的長尾效應和負載不均衡問題，提高了整體訓練效率。

流式負載均衡架構(gòu)下的解耦式部署與升級

上圖展示了優(yōu)化后的 rollout 架構(gòu)，通過將 rollout 邏輯與推理引擎分離，并結(jié)合流式負載均衡技術，模型能夠在大規(guī)模 GPU 集群上實現(xiàn)高效的強化學習訓練。這種架構(gòu)改進加快了訓練速度，還為未來支持更復雜的智能體和工具使用場景提供了技術基礎。

實驗與評估

評估基準與方法

AM-Thinking-v1 模型的評估基準包括美國數(shù)學邀請賽（AIME）2024 和 2025、LiveCodeBench 以及 Arena-Hard 等。

模型在推理基準測試中的性能比較

AIME2024 和 AIME2025 是具有挑戰(zhàn)性的數(shù)學推理競賽數(shù)據(jù)集，各包含 30 個整數(shù)答案問題。這些問題設計巧妙，主要是考察學生對數(shù)學知識的深入理解和靈活運用能力，如代數(shù)、幾何、組合數(shù)學等各個分支的知識點。LiveCodeBench 是一個綜合性的、無污染的編程基準測試，持續(xù)從 LeetCode、AtCoder 和 Codeforces 等平臺收集新的編程挑戰(zhàn)。這些編程挑戰(zhàn)涵蓋了多種編程語言和不同的難度層次，能夠全面評估模型的代碼生成能力。Arena-Hard 則是從 Chatbot Arena 的實時數(shù)據(jù)中構(gòu)建高質(zhì)量基準測試，通過 GPT-4 Turbo 進行成對比較判斷模型的性能。

在評估過程中，保持標準化的評估條件。最大生成長度設置為 49,152 token，確保模型能夠生成足夠長的文本以完整表達其答案；對于需要隨機采樣的基準測試，統(tǒng)一采用溫度為 0.6 和 top-p 值為 0.95 的參數(shù)設置。對于 AIME2024 和 AIME2025，每個查詢生成 64 個響應，以計算 pass@1 精度；對于 LiveCodeBench，每個查詢生成 16 個響應來估計 pass@1；對于 Arena-Hard，每個查詢生成一個響應，并使用 GPT-4 Turbo（1106）進行評估。

此外，采用一致的系統(tǒng)提示來引導模型的響應格式，如 “You are a helpful assistant. To answer the user’s question, you first think about the reasoning process and then provide the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively...”。

根據(jù)不同的基準測試，適當調(diào)整用戶提示，例如在 AIME 2024 和 2025 中，附加指令 “Let’s think step by step and output the final answer within \box{}”；在 LiveCodeBench 和 Arena-Hard 中，則使用基準測試默認的用戶提示。

實驗結(jié)果與分析

AM-Thinking-v1 模型在各個基準測試中的性能表現(xiàn)如下表所示：

跨推理基準測試的比較

從上表中數(shù)據(jù)可以看出，在數(shù)學任務方面，AM-Thinking-v1 在 AIME2024 中取得了 85.3 分，在 AIME2025 中取得了 74.4 分，超過了 DeepSeek-R1（AIME2024 為 79.8 分，AIME2025 為 70.0 分）等模型，并且與 Qwen3-235B-A22B（AIME2024 為 85.7 分，AIME2025 為 81.5 分）等大型 MoE 模型的性能相當。這表明 AM-Thinking-v1 在數(shù)學推理任務上具有顯著優(yōu)勢，可能得益于其在數(shù)學推理訓練中采用的特定數(shù)據(jù)集和訓練方法，如對數(shù)學問題答案的嚴格驗證和篩選，以及精心設計的后訓練框架，使模型能夠深入學習數(shù)學問題的解題思路和方法。在代碼生成任務中，AM-Thinking-v1 在 LiveCodeBench 上取得了 70.3 分，大幅超越了 DeepSeek-R1（64.3 分）、Qwen3-32B（65.7 分）和 NemotronUltra-253B（68.1 分）等模型，顯示出其在代碼理解與生成方面的強大能力。

這可能是因為模型在訓練過程中接觸了大量的代碼數(shù)據(jù)，并通過后訓練框架不斷優(yōu)化了代碼生成的準確性和邏輯性。在通用聊天任務中，AM-Thinking-v1 在 Arena-Hard 上獲得了 92.5 分，與一些專有模型如 OpenAI-o1（92.1 分）和 o3-mini（89.0 分）具有競爭力，但在與 Qwen3-235B-A22B（95.6 分）相比存在一定差距。這可能是由于在通用聊天任務的訓練中，32B 模型在處理復雜的對話上下文時，相對于大型 MoE 模型，存在一定的局限性，如對長對話歷史的記憶和理解能力相對較弱，導致在某些復雜對話場景中表現(xiàn)不如大型 MoE 模型。

AIME2024（上方）和LiveCodeBench（下方）的性能與模型規(guī)模對比

上圖直觀展示了模型規(guī)模與性能之間的關系。AM-Thinking-v1 在 32B 規(guī)模密集模型中處于領先地位，其性能接近甚至超過了一些更大規(guī)模的 MoE 模型。這表明模型規(guī)模并非決定推理性能的唯一因素，合理的模型設計和訓練方法同樣能夠顯著提升模型的推理表現(xiàn)。AM-Thinking-v1 的后訓練框架通過優(yōu)化數(shù)據(jù)處理和訓練策略，充分發(fā)揮了 32B 模型的潛力，在不增加模型規(guī)模的情況下，使其推理能力得到了顯著提升。例如，通過精心設計的查詢過濾和響應過濾方法，確保了訓練數(shù)據(jù)的高質(zhì)量，提高了模型學習效率；采用難度適中的查詢選擇和分階段訓練策略，在強化學習階段逐步提升模型的推理能力，同時保證了訓練的穩(wěn)定性和效率。這些創(chuàng)新的訓練方法和策略，使得 AM-Thinking-v1 能夠在中等規(guī)模模型中實現(xiàn)卓越的推理性能，為模型規(guī)模與性能關系的研究提供了新的視角和思路。

該圖直觀展示了模型規(guī)模與性能之間的關系。AM-Thinking-v1 在 32B 規(guī)模密集模型中處于領先地位，其性能接近甚至超過了一些更大規(guī)模的 MoE 模型。這表明模型規(guī)模并非決定推理性能的唯一因素，合理的模型設計和訓練方法同樣能夠顯著提升模型的推理表現(xiàn)。AM-Thinking-v1 的后訓練框架通過優(yōu)化數(shù)據(jù)處理和訓練策略，充分發(fā)揮了 32B 模型的潛力，在不增加模型規(guī)模的情況下，使其推理能力得到了顯著提升。例如，通過精心設計的查詢過濾和響應過濾方法，確保了訓練數(shù)據(jù)的高質(zhì)量，提高了模型學習效率；采用難度適中的查詢選擇和分階段訓練策略，在強化學習階段逐步提升模型的推理能力，同時保證了訓練的穩(wěn)定性和效率。這些創(chuàng)新的訓練方法和策略，使得 AM-Thinking-v1 能夠在中等規(guī)模模型中實現(xiàn)卓越的推理性能，為模型規(guī)模與性能關系的研究提供了新的視角和思路。

規(guī)模之辯：性能與模型大小的關聯(lián)

繪制模型規(guī)模與性能之間的關系圖，以 AIME2024 和 LiveCodeBench 基準測試為例，可以清晰地看到 AM-Thinking-v1 在與其他模型相比時，在性能和規(guī)模上的相對位置。AM-Thinking-v1 在 32B 規(guī)模密集模型中處于領先地位，其性能接近甚至超過了一些更大規(guī)模的 MoE 模型。這表明模型規(guī)模并非決定推理性能的唯一因素，合理的模型設計和訓練方法同樣能夠顯著提升模型的推理表現(xiàn)。AM-Thinking-v1 的后訓練框架通過優(yōu)化數(shù)據(jù)處理和訓練策略，充分發(fā)揮了 32B 模型的潛力，在不增加模型規(guī)模的情況下，使其推理能力得到了顯著提升。例如，通過精心設計的查詢過濾和響應過濾方法，確保了訓練數(shù)據(jù)的高質(zhì)量，提高了模型學習效率；采用難度適中的查詢選擇和分階段訓練策略，在強化學習階段逐步提升模型的推理能力，同時保證了訓練的穩(wěn)定性和效率。這些創(chuàng)新的訓練方法和策略，使得 AM-Thinking-v1 能夠在中等規(guī)模模型中實現(xiàn)卓越的推理性能，為模型規(guī)模與性能關系的研究提供了新的視角和思路。

技術創(chuàng)新與優(yōu)勢

訓練革新：后訓練框架的創(chuàng)新融合

AM-Thinking-v1 的后訓練框架創(chuàng)新性地結(jié)合了監(jiān)督微調(diào)和強化學習的優(yōu)勢。在 SFT 階段，通過精心設計的訓練數(shù)據(jù)和提示詞，引導模型學習推理任務的結(jié)構(gòu)和模式，例如在數(shù)學推理任務中，使用包含詳細解題步驟和答案的訓練數(shù)據(jù)，以及引導模型逐步思考的提示詞，使模型能夠?qū)W習到解決數(shù)學問題的一般方法和邏輯流程。這為 RL 階段的進一步優(yōu)化奠定了堅實的基礎。在 RL 階段，通過難度適中的查詢選擇和分階段訓練策略，逐步提升模型的推理能力。例如，在 RL 第一階段，使用具有一定難度的數(shù)學和代碼查詢，讓模型在不斷嘗試和反饋中學習更復雜的推理技巧；當模型性能趨于穩(wěn)定后，進入第二階段，移除已掌握的查詢，加入其他類型的通用聊天和指令遵循數(shù)據(jù)，使模型能夠適應更多樣化的任務場景，增強其泛化能力。這種創(chuàng)新的后訓練框架，為中等規(guī)模模型的推理能力提升提供了新的思路和方法，證明了在不依賴大規(guī)模 MoE 架構(gòu)和私有數(shù)據(jù)的情況下，依然能夠挖掘出密集模型的推理潛力，實現(xiàn)與大型 MoE 模型相媲美的推理性能。

數(shù)據(jù)精修：全方位的數(shù)據(jù)處理優(yōu)勢

系統(tǒng)化的數(shù)據(jù)預處理、驗證和篩選流程是 AM-Thinking-v1 的另一大優(yōu)勢。在數(shù)學問題答案驗證方面，通過 DeepSeek-R1 生成多個響應并進行一致性比較，結(jié)合 o4-mini 的輔助判斷，能夠準確地發(fā)現(xiàn)并修正原始數(shù)據(jù)集中的錯誤答案。例如，在某個數(shù)學數(shù)據(jù)集中，一道關于二次方程求解的問題，原始答案標注為 “x = 3”，但通過 DeepSeek-R1 生成的多個響應中出現(xiàn)頻率最高的答案是 “x = 2”，經(jīng) math_verify 判斷與 o4-mini 生成的答案 “x = 2” 等價，于是將原始答案修正為 “x = 2”。這一過程有效地提高了訓練數(shù)據(jù)的準確性，為模型學習正確的數(shù)學知識提供了保障。在查詢過濾方面，利用 LLM 分析并過濾掉描述不清晰或不完整的查詢，使得訓練數(shù)據(jù)更加清晰、準確，便于模型理解和學習。同時，對低質(zhì)量響應的過濾方法，如基于困惑度、N-gram 和結(jié)構(gòu)的篩選，進一步確保了訓練數(shù)據(jù)的質(zhì)量，提高了模型學習效率和推理能力的提升效果。

模型可部署性優(yōu)勢

AM-Thinking-v1 作為 32B 規(guī)模的模型，在保持強大推理能力的同時，具有顯著的可部署性優(yōu)勢。與大型 MoE 架構(gòu)模型相比，其在服務器成本方面更具競爭力。32B 模型對硬件資源的需求相對較低，普通的服務器配置即可滿足其運行需求，無需配備專門的高性能計算集群，降低了部署成本。在推理延遲方面，32B 模型能夠在相對較短的時間內(nèi)給出響應，滿足實時性要求較高的應用場景。例如，在處理用戶請求時，32B 模型的平均推理延遲可能在幾百毫秒到幾秒之間，而大型 MoE 模型由于其復雜的架構(gòu)和龐大的參數(shù)量，推理延遲可能達到數(shù)十秒甚至更長，這大大影響了用戶體驗。在能源消耗方面，32B 模型的能耗相對較低，在長期運行過程中，能夠節(jié)省大量的能源成本。此外，通過模型優(yōu)化技術，如量化、剪枝等，還可以進一步提高其可部署性。例如，對模型進行量化處理，將模型參數(shù)從 32 位浮點數(shù)降至 16 位或 8 位，能夠減少模型的存儲空間和計算量，提高模型的運行效率。同時，也可以采用知識蒸餾技術，將 32B 模型的知識蒸餾到更小規(guī)模的模型中，進一步降低部署門檻，使其能夠在資源受限的設備上運行，如移動設備、嵌入式設備等，從而將高性能的推理模型更廣泛地應用于各個領域和場景。

總結(jié)

通過對AM-Thinking-v1 的 Post train 過程的了解，我們可以對中等規(guī)模模型在推理領域的發(fā)展有一個全新的認識。它以 32B 的規(guī)模，在數(shù)學推理和代碼生成等任務上展現(xiàn)出媲美甚至超越部分大型 MoE 模型的能力，這可以認識到模型規(guī)模并非決定推理性能的唯一關鍵因素。合理的訓練方法、精細的數(shù)據(jù)處理流程以及創(chuàng)新的后訓練框架設計，同樣能夠極大地挖掘模型的推理潛力，使中等規(guī)模模型在實際應用中取得良好的收益比。對這一點，對標我去年 32B 模型項目的實戰(zhàn)，這是有共鳴的。

論文中數(shù)據(jù)處理方法的詳盡闡述給我留下了深刻印象。從數(shù)據(jù)收集的廣泛性與多樣性，涵蓋數(shù)學、代碼、科學等多個領域的數(shù)據(jù)集，到查詢過濾的嚴謹性，如去除低質(zhì)量查詢、驗證數(shù)學問題答案正確性等操作，再到合成響應過濾的科學性，基于困惑度、N-gram 和結(jié)構(gòu)的篩選方法，處處體現(xiàn)出研究者們對數(shù)據(jù)質(zhì)量的高度重視。這讓我明白，高質(zhì)量的數(shù)據(jù)是模型推理能力提升的基石，只有在純凈、準確、相關性強的數(shù)據(jù)基礎上，模型才能更好地學習知識、掌握推理技巧，進而生成高質(zhì)量的推理結(jié)果。

同時，后訓練框架的詳細介紹也讓我受益匪淺。監(jiān)督微調(diào)階段的采樣策略、訓練配置參數(shù)的選擇依據(jù)，以及強化學習階段的難度適中查詢篩選、分階段訓練策略等，環(huán)環(huán)相扣。研究者們通過精心設計的后訓練流程，將監(jiān)督微調(diào)和強化學習的優(yōu)勢充分發(fā)揮并有機結(jié)合，使模型在推理能力上實現(xiàn)了質(zhì)的飛躍。這種創(chuàng)新的后訓練框架不僅為 AM-Thinking-v1 的成功奠定了基礎，也為其他中等規(guī)模模型的開發(fā)，提供了極具價值的范例，這非常具有中等參數(shù)量模型在實際私有化落地的參考意義。要感謝這個團隊的分享。

在實驗與評估部分，研究團隊通過詳細的性能數(shù)據(jù)對比和深入的結(jié)果分析，直觀地展示了 AM-Thinking-v1 的優(yōu)勢與不足?？吹?AM-Thinking-v1 在 AIME2024、AIME2025 和 LiveCodeBench 等基準測試中的出色表現(xiàn)，我不禁為其在數(shù)學推理和代碼生成任務上的強大能力感到欣喜。而它在 Arena-Hard 通用聊天任務中與頂級模型的差距，又讓我對模型的局限性有了清晰的認識。這啟發(fā)我在今后的項目中，既要關注模型的優(yōu)勢發(fā)揮，還要深入分析其不足之處，從多個角度去優(yōu)化模型性能，使其在各類任務中都能有更均衡、更出色的表現(xiàn)。

盡管 AM-Thinking-v1 在 benchmark 中取得了顯著的成果，但它仍存在一些局限性。首先，模型對結(jié)構(gòu)化函數(shù)調(diào)用、工具使用等支持不足。其次，安全對齊工作尚處于初步階段，需要進一步的紅隊測試和改進。模型可能會產(chǎn)生一些不符合倫理道德或存在安全隱患的回答，如在回答涉及隱私、暴力等問題時，可能給出不當?shù)慕ㄗh。最后，在低資源語言和特定領域任務中的性能可能有所變化。對于一些數(shù)據(jù)稀缺的語言或領域，模型的推理能力可能不如在高資源語言和通用領域中表現(xiàn)得那么出色。例如，在處理一些少數(shù)民族語言的文本推理任務時，由于訓練數(shù)據(jù)中缺乏足夠的該語言樣本，模型可能無法準確理解和生成相應的文本。

總之，這個關于 AM-Thinking-v1 的研究讓我對中等規(guī)模模型在推理領域的發(fā)展有了全面、深入且清晰的認識與共鳴。

責任編輯：龐桂玉來源：覺察流

推理能力強化學習大語言模型 LLM

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營