偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AM-Thinking-v1:解鎖 32B 模型推理潛力的密碼

人工智能
AM-Thinking-v1 以 32B 的規(guī)模,通過 post train 的方式,結(jié)合 SFT 和 RL,讓模型突破了推理能力的邊界。在數(shù)學(xué)推理和代碼生成等領(lǐng)域展現(xiàn)驚人實(shí)力,挑戰(zhàn)了大家對(duì)模型規(guī)模與性能的傳統(tǒng)認(rèn)知。

大家好,我是肆〇柒。本篇想和大家分享一個(gè)后訓(xùn)練的模型案例 ——AM-Thinking-v1 模型。這個(gè)模型是由貝殼(Ke.com)公司旗下的 a-m-team 團(tuán)隊(duì)開發(fā)的,他們一直致力于探索 AGI 技術(shù)。AM-Thinking-v1 憑借其精心設(shè)計(jì)的后訓(xùn)練框架,在數(shù)學(xué)和代碼推理等任務(wù)上展現(xiàn)出卓越性能,為中等規(guī)模模型的發(fā)展探索了很好的可能性。它不僅在效率與性能間取得平衡,更向我們揭示了模型規(guī)模之外,創(chuàng)新訓(xùn)練方法對(duì)推理能力提升的無限可能。下面一起來看看這篇論文對(duì) 32B 模型 Post train 的介紹,這個(gè)團(tuán)隊(duì)分享的實(shí)踐過程,對(duì)于我們私有化模型落地很有實(shí)操的借鑒意義。

模型開發(fā)背景

a-m-team 與 Qwen2.5-32B 基礎(chǔ)模型

a-m-team 是貝殼(Ke.com)公司旗下專注于探索 AGI 技術(shù)的團(tuán)隊(duì)。他們開發(fā) AM-Thinking-v1 所使用的 Qwen2.5-32B 基礎(chǔ)模型是完全開源的。團(tuán)隊(duì)選擇這一基礎(chǔ)模型,是因?yàn)槠湓谛阅芎头€(wěn)定性上具有顯著優(yōu)勢(shì)。Qwen2.5-32B 模型在預(yù)訓(xùn)練階段已經(jīng)學(xué)習(xí)了海量的文本知識(shí),具備了良好的語言理解和生成能力,這為后續(xù)的推理能力優(yōu)化提供了堅(jiān)實(shí)的基礎(chǔ)。此外,a-m-team 團(tuán)隊(duì)對(duì)開源社區(qū)的貢獻(xiàn)和依賴,促進(jìn)了整個(gè)研究領(lǐng)域的快速發(fā)展。開源模型使得更多的研究者和開發(fā)者能夠參與到模型的改進(jìn)和優(yōu)化中來,加速了技術(shù)的迭代和創(chuàng)新。

規(guī)模抉擇:32B 模型的優(yōu)勢(shì)與應(yīng)用考量

選擇 32B 規(guī)模的模型進(jìn)行開發(fā),是基于實(shí)際應(yīng)用的多方面考慮。與大型 MoE 架構(gòu)模型相比,32B 模型在效率、可部署性與推理性能之間實(shí)現(xiàn)了良好的平衡。大型 MoE 架構(gòu)模型雖然在推理性能上表現(xiàn)出色,但它們需要海量的計(jì)算資源來進(jìn)行訓(xùn)練和推理,訓(xùn)練成本高昂,對(duì)硬件設(shè)施要求嚴(yán)苛,且部署復(fù)雜度大。這些因素使得大多數(shù)企業(yè)難以承擔(dān)。而 32B 模型則不同,它能夠在中小企業(yè)的實(shí)際業(yè)務(wù)需求中找到應(yīng)用場(chǎng)景,同時(shí)也能滿足多數(shù)實(shí)際場(chǎng)景的推理任務(wù)要求。例如,在推理速度方面,32B 模型能夠在相對(duì)較短的時(shí)間內(nèi)給出響應(yīng),滿足實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)景;在資源消耗方面,它對(duì)硬件資源的需求相對(duì)較低,降低了部署成本;在硬件要求方面,普通的服務(wù)器配置即可滿足其運(yùn)行需求,無需配備專門的高性能計(jì)算集群。

數(shù)據(jù)處理方法

數(shù)據(jù)收集與來源

AM-Thinking-v1 的訓(xùn)練數(shù)據(jù)來自多個(gè)公開的數(shù)據(jù)集,涵蓋了數(shù)學(xué)推理、代碼生成、科學(xué)推理、指令遵循和通用聊天等任務(wù)領(lǐng)域。

在數(shù)學(xué)推理領(lǐng)域,使用了如 OpenR1-Math-220k 數(shù)據(jù)集,該數(shù)據(jù)集包含大量的數(shù)學(xué)問題及解答,涵蓋了從基礎(chǔ)數(shù)學(xué)到高等數(shù)學(xué)的各個(gè)知識(shí)點(diǎn);Big-Math-RL-Verified 數(shù)據(jù)集則側(cè)重于通過強(qiáng)化學(xué)習(xí)驗(yàn)證的數(shù)學(xué)問題,確保了數(shù)學(xué)問題解答的準(zhǔn)確性和可靠性。此外,還有 data_ablation_full59K、NuminaMath、MetaMathQA、2023_amc_data、DeepMath-103K 和 AIME_1983_2024 等數(shù)據(jù)集,這些數(shù)據(jù)集從不同角度和難度層次為模型提供了豐富的數(shù)學(xué)推理訓(xùn)練素材。

在代碼生成領(lǐng)域,PRIME 數(shù)據(jù)集涵蓋了多種編程語言的代碼示例,包括 Python、C++、Java 等常見編程語言,為模型學(xué)習(xí)不同編程語言的語法和編程范式提供了基礎(chǔ);DeepCoder 數(shù)據(jù)集聚焦于代碼生成和修復(fù)任務(wù),包含了大量具有代表性的代碼問題和解決方案,有助于模型提高代碼生成的準(zhǔn)確性和魯棒性。其他如 KodCode、liveincode_generation、codeforces_cots、verifiable_coding、opencoder 和 AceCode-87K 等數(shù)據(jù)集,也從不同方面豐富了代碼生成任務(wù)的訓(xùn)練數(shù)據(jù)。

科學(xué)推理領(lǐng)域包括了 task_mmmlu 數(shù)據(jù)集,該數(shù)據(jù)集涉及多個(gè)學(xué)科的科學(xué)問題,如物理、化學(xué)、生物等,以多項(xiàng)選擇題的形式呈現(xiàn),每個(gè)問題都配有可靠的真值答案;chemistryQA 數(shù)據(jù)集則專注于化學(xué)領(lǐng)域的問答,涵蓋了化學(xué)物質(zhì)的性質(zhì)、化學(xué)反應(yīng)的原理等知識(shí)點(diǎn)。此外,Llama-NemotronPost-Training-Dataset-v1、LOGIC-701、ncert 系列數(shù)據(jù)集和 logicLM 等也從不同學(xué)科和題型角度為科學(xué)推理任務(wù)提供了數(shù)據(jù)支持。

指令遵循領(lǐng)域選用了 Llama-Nemotron-PostTraining-Dataset 和 tulu-3-sft-mixture 兩個(gè)數(shù)據(jù)集,這些數(shù)據(jù)集包含了各種指令類型的樣本,如文本編輯指令、信息檢索指令等,幫助模型更好地理解和執(zhí)行用戶的指令。

通用聊天領(lǐng)域則包括了 evol、InfinityInstruct、open_orca、tulu-3-sft-mixture、natural_reasoning、flan、ultra_chat 和 OpenHermes-2.5 等數(shù)據(jù)集,涵蓋了開放性問題、一般知識(shí)問答和日常推理等多種類型的任務(wù),支持單輪和多輪對(duì)話交互,使模型能夠在通用聊天場(chǎng)景中表現(xiàn)出自然、流暢的對(duì)話能力。

查詢過濾策略

對(duì)收集到的數(shù)據(jù)進(jìn)行預(yù)處理是確保訓(xùn)練數(shù)據(jù)質(zhì)量的關(guān)鍵步驟。首先,進(jìn)行去重操作,去除重復(fù)的查詢,避免模型在訓(xùn)練過程中對(duì)重復(fù)數(shù)據(jù)的過度擬合。然后,刪除低質(zhì)量查詢,包括那些描述不清楚、信息不完整或存在明顯錯(cuò)誤的查詢。此外,去除包含 URL 和圖像引用的查詢也至關(guān)重要。由于模型在訓(xùn)練時(shí)無法訪問外部鏈接,包含 URL 的查詢可能會(huì)導(dǎo)致模型產(chǎn)生幻覺或誤導(dǎo)性輸出;而模型是純文本基于的,無法感知或處理視覺信息,因此包含圖像引用的查詢也被排除在外。

特別地,數(shù)學(xué)查詢的過濾尤為重要。在實(shí)際操作中,利用 LLM 對(duì)數(shù)學(xué)問題進(jìn)行分析,過濾掉描述不清晰或不完整的查詢。

例如,對(duì)于一個(gè)原始描述為 “求一個(gè)三角形的面積,已知三條邊長(zhǎng)分別為 3、4、5” 的問題,通過 LLM 分析后,可以重新表述為 “已知一個(gè)三角形的三條邊長(zhǎng)分別為 3 厘米、4 厘米、5 厘米,求該三角形的面積”,使問題更加清晰準(zhǔn)確,便于模型理解和解答。

同時(shí),采用 DeepSeek-R1 生成多個(gè)響應(yīng)來驗(yàn)證原始答案的正確性。若發(fā)現(xiàn)問題,則借助 o4-mini 重新確定答案并修正原始真實(shí)值。具體流程是,設(shè)置合適的提示詞讓 DeepSeek-R1 生成多個(gè)回答,然后使用 math_verify 工具判斷這些回答與原始答案是否一致。如果不一致,則由 o4-mini 生成新的答案,并再次通過 math_verify 判斷 o4-mini 的答案與 DeepSeek-R1 的常見回答是否等價(jià)。若等價(jià),則認(rèn)為原始真實(shí)值可能錯(cuò)誤,將其修正為 o4-mini 的答案。

例如,在一個(gè)關(guān)于二次方程求解的問題中,原始答案標(biāo)注為 “x = 3”,但通過 DeepSeek-R1 生成的多個(gè)響應(yīng)中出現(xiàn)頻率最高的答案是 “x = 2”,經(jīng) math_verify 判斷與 o4-mini 生成的答案 “x = 2” 等價(jià),于是將原始答案修正為 “x = 2”。此外,對(duì)于數(shù)學(xué)證明題和多子問題查詢直接過濾掉;對(duì)于多項(xiàng)選擇題,由于其數(shù)量眾多,將其改寫為填空題,例如將 “下列哪個(gè)選項(xiàng)是勾股數(shù)?A.3、4、5 B.5、6、7 C.6、7、8” 改寫為 “請(qǐng)?zhí)顚懝垂蓴?shù):3、4、___”。

在代碼查詢方面,采用了方法調(diào)用和標(biāo)準(zhǔn)輸入輸出測(cè)試用例來驗(yàn)證模型的代碼生成能力。例如,對(duì)于需要實(shí)現(xiàn)特定方法或函數(shù)的查詢,定義了特定的函數(shù)名、輸入值及其對(duì)應(yīng)的預(yù)期輸出值。在驗(yàn)證過程中,這些測(cè)試用例被自動(dòng)轉(zhuǎn)換為斷言語句,并在安全的代碼沙盒環(huán)境中執(zhí)行。下圖展示了方法調(diào)用和標(biāo)準(zhǔn)輸入輸出測(cè)試用例的具體形式:

方法調(diào)用以及標(biāo)準(zhǔn)輸入/輸出測(cè)試用例示例

對(duì)于指令遵循查詢,使用了 IFEval 驗(yàn)證器來進(jìn)行驗(yàn)證。驗(yàn)證器接收指令標(biāo)識(shí)符(instruction_id_list)及其參數(shù)(kwargs),并為每個(gè)指令返回一個(gè)布爾結(jié)果(True/False),表示指令是否被成功遵循。此處采用的是 IFEval 驗(yàn)證器的嚴(yán)格模式,僅評(píng)估原始響應(yīng)。下圖展示了驗(yàn)證器輸入的具體格式和內(nèi)容:

驗(yàn)證器輸入示例

通過這些詳細(xì)的驗(yàn)證步驟和示例,可以確保訓(xùn)練數(shù)據(jù)的高質(zhì)量,為模型的后續(xù)訓(xùn)練和推理能力提升奠定了堅(jiān)實(shí)的基礎(chǔ)。

質(zhì)量把控:合成響應(yīng)的三次過濾法

在生成模型響應(yīng)后,采用三種方法來過濾低質(zhì)量的響應(yīng)。基于困惑度(Perplexity)的方法是利用之前訓(xùn)練的 32B 模型計(jì)算每個(gè)模型生成響應(yīng)的困惑度,設(shè)定一個(gè)困惑度閾值,超過該閾值的響應(yīng)將被丟棄。通常,困惑度較低的響應(yīng)表示模型對(duì)生成的文本更具確定性,質(zhì)量也相對(duì)較高。例如,設(shè)定困惑度閾值為 100,對(duì)于困惑度超過 100 的響應(yīng),認(rèn)為其質(zhì)量較低,應(yīng)予以過濾。N-gram 基于的方法是丟棄包含一定最小長(zhǎng)度重復(fù)短語的模型響應(yīng)。例如,如果一個(gè)響應(yīng)中連續(xù)出現(xiàn)兩次以上的相同短語,長(zhǎng)度超過 3 個(gè)詞,則認(rèn)為該響應(yīng)可能存在重復(fù)冗余,質(zhì)量較低,應(yīng)予以過濾。結(jié)構(gòu)基于的方法則是針對(duì)多輪對(duì)話,確保最后的輪次是助手的響應(yīng),并且每個(gè)模型生成的回復(fù)都包含完整思考和回答的組件。如果一個(gè)對(duì)話輪次的結(jié)構(gòu)不完整,如缺少思考過程或回答部分,則認(rèn)為該響應(yīng)質(zhì)量不高,需要過濾掉。例如,對(duì)于一個(gè)多輪對(duì)話,如果模型生成的回復(fù)只有思考過程而沒有最終答案,或者只有答案而沒有思考過程,則該響應(yīng)將被過濾掉。

Post-train 框架

監(jiān)督微調(diào)(SFT):初始雕琢

SFT 使用約 284 萬樣本,涵蓋數(shù)學(xué)、代碼、科學(xué)、指令遵循和通用聊天五個(gè)主要類別。在訓(xùn)練過程中,對(duì)于樣本數(shù)量較少的指令遵循類別,通過重復(fù)數(shù)據(jù)來增加其在訓(xùn)練中的占比,確保模型在各個(gè)任務(wù)上的學(xué)習(xí)平衡。例如,在訓(xùn)練初期,指令遵循類別的樣本數(shù)量相對(duì)較少,可能只占總樣本數(shù)的 5% 左右。為了提升模型對(duì)這類任務(wù)的學(xué)習(xí)效果,將指令遵循類別的數(shù)據(jù)重復(fù)多次加入到訓(xùn)練集中,使其占比提升至 10% 左右。同時(shí),生成多樣本合成的響應(yīng)來增強(qiáng)模型對(duì)復(fù)雜指令的理解能力。例如,對(duì)于一個(gè)復(fù)雜的指令 “請(qǐng)生成一篇關(guān)于人工智能在醫(yī)療領(lǐng)域應(yīng)用的報(bào)告,要求包括當(dāng)前應(yīng)用現(xiàn)狀、面臨挑戰(zhàn)和未來發(fā)展趨勢(shì)三個(gè)部分”,模型會(huì)生成多個(gè)不同的響應(yīng),這些響應(yīng)從不同角度和側(cè)重點(diǎn)來回答該指令,從而豐富了模型的學(xué)習(xí)素材,提高了其對(duì)復(fù)雜指令的理解和執(zhí)行能力。

基于 Qwen2.5-32B 基礎(chǔ)模型的 SFT 訓(xùn)練配置如下:學(xué)習(xí)率設(shè)置為 8e-5,較大的學(xué)習(xí)率有助于模型在長(zhǎng)形式推理任務(wù)中更好地?cái)M合數(shù)據(jù);最大序列長(zhǎng)度設(shè)置為 32k,并采用序列打包技術(shù),在提高計(jì)算效率的同時(shí),確保模型能夠處理較長(zhǎng)的推理文本;全局批量大小設(shè)置為 64,較大的批量大小可以充分利用計(jì)算資源,加快訓(xùn)練速度;模型訓(xùn)練 2 個(gè)周期,確保模型能夠充分學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中的知識(shí);采用余弦熱身策略,熱身步設(shè)置為總訓(xùn)練步的 5%,學(xué)習(xí)率先線性增長(zhǎng)到最大值,然后隨著訓(xùn)練進(jìn)程逐步衰減,這有助于模型在訓(xùn)練初期快速收斂,同時(shí)避免后期學(xué)習(xí)率過高導(dǎo)致的模型參數(shù)震蕩;對(duì)于多輪對(duì)話數(shù)據(jù),只使用包含推理過程的最后響應(yīng)作為訓(xùn)練目標(biāo),并將其作為損失函數(shù)的計(jì)算依據(jù),使模型能夠?qū)W⒂趯W(xué)習(xí)推理部分的模式和結(jié)構(gòu)。

在SFT(Supervised Fine-Tuning,監(jiān)督式微調(diào))過程中,左側(cè)是實(shí)例級(jí)分布(Instance Level Distribution),右側(cè)是 token 級(jí)分布(Token Level Distribution)

上圖展示了監(jiān)督微調(diào)階段的數(shù)據(jù)分布情況,從實(shí)例層面和token層面直觀呈現(xiàn)了不同任務(wù)類別在訓(xùn)練集中的占比和分布,反映了訓(xùn)練數(shù)據(jù)的多樣性和豐富性,確保模型能夠接觸到足夠多類型的樣本,從而在多個(gè)任務(wù)上實(shí)現(xiàn)均衡有效的學(xué)習(xí)。

同時(shí),監(jiān)督微調(diào)階段的訓(xùn)練損失曲線如下所示:

監(jiān)督微調(diào)(SFT)訓(xùn)練loss曲線

上面曲線顯示了模型在訓(xùn)練過程中的損失變化情況??梢钥吹剑S著訓(xùn)練的進(jìn)行,損失逐漸下降,表明模型在不斷學(xué)習(xí)和擬合訓(xùn)練數(shù)據(jù)。在訓(xùn)練初期,損失下降較為迅速,說明模型能夠快速捕捉到數(shù)據(jù)中的主要模式和特征;隨著訓(xùn)練的深入,損失下降速度逐漸放緩,趨于平穩(wěn),這表明模型逐漸收斂,學(xué)習(xí)到了更細(xì)致的知識(shí)和復(fù)雜的推理模式。通過合理設(shè)置學(xué)習(xí)率和批量大小等超參數(shù),確保了模型在長(zhǎng)形式推理任務(wù)中的穩(wěn)定訓(xùn)練和有效學(xué)習(xí),為后續(xù)強(qiáng)化學(xué)習(xí)階段的進(jìn)一步優(yōu)化奠定了良好的基礎(chǔ)。

此外,在監(jiān)督微調(diào)過程中,我們還可以觀察到平均生成長(zhǎng)度和平均停止比例的動(dòng)態(tài)變化:


平均代長(zhǎng)(上)和平均停止比例(下)的變化

上圖顯示,在訓(xùn)練早期,模型傾向于生成過長(zhǎng)的輸出,平均生成長(zhǎng)度較大,而平均停止比例較低。這主要是由于基礎(chǔ)模型的預(yù)訓(xùn)練語料庫以純文本為主,且推理示例的長(zhǎng)度顯著長(zhǎng)于標(biāo)準(zhǔn)指令數(shù)據(jù)。隨著訓(xùn)練的進(jìn)行,模型逐漸學(xué)習(xí)到推理提示的結(jié)構(gòu)和語義模式,平均生成長(zhǎng)度呈現(xiàn)下降趨勢(shì),而平均停止比例則穩(wěn)步上升。這表明模型在不斷調(diào)整自身的生成行為,逐步向更連貫、更符合任務(wù)要求的推理模式靠攏,體現(xiàn)了監(jiān)督微調(diào)方法對(duì)模型推理能力的有效引導(dǎo)。

強(qiáng)化學(xué)習(xí)(RL):能力進(jìn)階雙階段提升

在 RL 階段,選擇適當(dāng)難度的訓(xùn)練查詢對(duì)于確保性能穩(wěn)定提升至關(guān)重要。根據(jù) SFT 模型的通過率來篩選數(shù)學(xué)和代碼查詢。具體操作是,統(tǒng)計(jì) SFT 模型在各個(gè)查詢上的通過率,即模型正確回答查詢的次數(shù)占總嘗試次數(shù)的比例。然后,設(shè)定一個(gè)閾值范圍,例如只保留通過率在 0 到 1 之間的查詢,即那些模型既不能完全正確回答,也不是完全錯(cuò)誤的查詢。最終確定用于訓(xùn)練的數(shù)學(xué)查詢數(shù)量為 32k,代碼查詢數(shù)量為 22k。

RL 分為兩個(gè)階段。在第一階段,當(dāng)模型性能趨于平穩(wěn)后,進(jìn)入第二階段。在第二階段,移除模型在第一階段已完全正確回答的查詢,同時(shí)補(bǔ)充 15k 通用聊天和 5k 指令遵循數(shù)據(jù),以增強(qiáng)模型的泛化能力。采用 GRPO 作為訓(xùn)練算法,原因在于其簡(jiǎn)化和輕量化的特性,盡管是 PPO 的變體,但在本項(xiàng)目中表現(xiàn)出良好的訓(xùn)練穩(wěn)定性和有效的性能提升。GRPO 算法通過計(jì)算優(yōu)勢(shì)函數(shù)來評(píng)估策略的好壞,并根據(jù)優(yōu)勢(shì)函數(shù)更新策略模型。優(yōu)勢(shì)函數(shù)計(jì)算公式為:A(s,a) = Q(s,a) - V(s),其中 Q(s,a) 是狀態(tài) - 動(dòng)作價(jià)值函數(shù),V(s) 是狀態(tài)價(jià)值函數(shù)。在具體配置方面,去除 KL 約束,允許模型進(jìn)行更大幅度的策略更新;對(duì)于過長(zhǎng)的響應(yīng),將其優(yōu)勢(shì)設(shè)置為零,防止其影響參數(shù)更新;采用嚴(yán)格的 on-policy 訓(xùn)練方式,每個(gè)訓(xùn)練批次包含 256 個(gè)查詢,每個(gè)查詢采樣 16 次探索,每次探索后只更新一次策略模型;分階段調(diào)整生成和學(xué)習(xí)率,第一階段最大響應(yīng)長(zhǎng)度限制為 24K,學(xué)習(xí)率相對(duì)較高,為 4 × 10?6,以加快模型收斂速度;第二階段最大響應(yīng)長(zhǎng)度增加到 32K,學(xué)習(xí)率降低至 1 × 10?6,以精細(xì)化調(diào)整模型參數(shù),提高訓(xùn)練精度。例如,在 RL 訓(xùn)練過程中,如果發(fā)現(xiàn)模型在某個(gè)查詢上的性能表現(xiàn)較差,可以通過調(diào)整學(xué)習(xí)率和批量大小等超參數(shù)來優(yōu)化訓(xùn)練策略。可以適當(dāng)降低學(xué)習(xí)率,減小批量大小,增加訓(xùn)練步數(shù),使模型能夠更細(xì)致地學(xué)習(xí)該查詢的特征和模式,從而逐步提高性能。

為了提高強(qiáng)化學(xué)習(xí)階段的訓(xùn)練效率,對(duì) rollout 速度進(jìn)行了優(yōu)化。傳統(tǒng)的在線 GRPO 訓(xùn)練由于需要在每一步生成策略模型樣本,導(dǎo)致訓(xùn)練周期較長(zhǎng)。通過解耦 rollout 工作者與推理引擎,并引入自定義負(fù)載均衡器,實(shí)現(xiàn)了動(dòng)態(tài)實(shí)例分配。這種優(yōu)化設(shè)計(jì)使得訓(xùn)練系統(tǒng)能夠根據(jù)實(shí)時(shí)系統(tǒng)指標(biāo)靈活調(diào)度推理任務(wù),有效緩解了長(zhǎng)序列處理導(dǎo)致的長(zhǎng)尾效應(yīng)和負(fù)載不均衡問題,提高了整體訓(xùn)練效率。

流式負(fù)載均衡架構(gòu)下的解耦式部署與升級(jí)

上圖展示了優(yōu)化后的 rollout 架構(gòu),通過將 rollout 邏輯與推理引擎分離,并結(jié)合流式負(fù)載均衡技術(shù),模型能夠在大規(guī)模 GPU 集群上實(shí)現(xiàn)高效的強(qiáng)化學(xué)習(xí)訓(xùn)練。這種架構(gòu)改進(jìn)加快了訓(xùn)練速度,還為未來支持更復(fù)雜的智能體和工具使用場(chǎng)景提供了技術(shù)基礎(chǔ)。

實(shí)驗(yàn)與評(píng)估

評(píng)估基準(zhǔn)與方法

AM-Thinking-v1 模型的評(píng)估基準(zhǔn)包括美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)2024 和 2025、LiveCodeBench 以及 Arena-Hard 等。

模型在推理基準(zhǔn)測(cè)試中的性能比較

AIME2024 和 AIME2025 是具有挑戰(zhàn)性的數(shù)學(xué)推理競(jìng)賽數(shù)據(jù)集,各包含 30 個(gè)整數(shù)答案問題。這些問題設(shè)計(jì)巧妙,主要是考察學(xué)生對(duì)數(shù)學(xué)知識(shí)的深入理解和靈活運(yùn)用能力,如代數(shù)、幾何、組合數(shù)學(xué)等各個(gè)分支的知識(shí)點(diǎn)。LiveCodeBench 是一個(gè)綜合性的、無污染的編程基準(zhǔn)測(cè)試,持續(xù)從 LeetCode、AtCoder 和 Codeforces 等平臺(tái)收集新的編程挑戰(zhàn)。這些編程挑戰(zhàn)涵蓋了多種編程語言和不同的難度層次,能夠全面評(píng)估模型的代碼生成能力。Arena-Hard 則是從 Chatbot Arena 的實(shí)時(shí)數(shù)據(jù)中構(gòu)建高質(zhì)量基準(zhǔn)測(cè)試,通過 GPT-4 Turbo 進(jìn)行成對(duì)比較判斷模型的性能。

在評(píng)估過程中,保持標(biāo)準(zhǔn)化的評(píng)估條件。最大生成長(zhǎng)度設(shè)置為 49,152 token,確保模型能夠生成足夠長(zhǎng)的文本以完整表達(dá)其答案;對(duì)于需要隨機(jī)采樣的基準(zhǔn)測(cè)試,統(tǒng)一采用溫度為 0.6 和 top-p 值為 0.95 的參數(shù)設(shè)置。對(duì)于 AIME2024 和 AIME2025,每個(gè)查詢生成 64 個(gè)響應(yīng),以計(jì)算 pass@1 精度;對(duì)于 LiveCodeBench,每個(gè)查詢生成 16 個(gè)響應(yīng)來估計(jì) pass@1;對(duì)于 Arena-Hard,每個(gè)查詢生成一個(gè)響應(yīng),并使用 GPT-4 Turbo(1106)進(jìn)行評(píng)估。

此外,采用一致的系統(tǒng)提示來引導(dǎo)模型的響應(yīng)格式,如 “You are a helpful assistant. To answer the user’s question, you first think about the reasoning process and then provide the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively...”。

根據(jù)不同的基準(zhǔn)測(cè)試,適當(dāng)調(diào)整用戶提示,例如在 AIME 2024 和 2025 中,附加指令 “Let’s think step by step and output the final answer within \box{}”;在 LiveCodeBench 和 Arena-Hard 中,則使用基準(zhǔn)測(cè)試默認(rèn)的用戶提示。

實(shí)驗(yàn)結(jié)果與分析

AM-Thinking-v1 模型在各個(gè)基準(zhǔn)測(cè)試中的性能表現(xiàn)如下表所示:

跨推理基準(zhǔn)測(cè)試的比較

從上表中數(shù)據(jù)可以看出,在數(shù)學(xué)任務(wù)方面,AM-Thinking-v1 在 AIME2024 中取得了 85.3 分,在 AIME2025 中取得了 74.4 分,超過了 DeepSeek-R1(AIME2024 為 79.8 分,AIME2025 為 70.0 分)等模型,并且與 Qwen3-235B-A22B(AIME2024 為 85.7 分,AIME2025 為 81.5 分)等大型 MoE 模型的性能相當(dāng)。這表明 AM-Thinking-v1 在數(shù)學(xué)推理任務(wù)上具有顯著優(yōu)勢(shì),可能得益于其在數(shù)學(xué)推理訓(xùn)練中采用的特定數(shù)據(jù)集和訓(xùn)練方法,如對(duì)數(shù)學(xué)問題答案的嚴(yán)格驗(yàn)證和篩選,以及精心設(shè)計(jì)的后訓(xùn)練框架,使模型能夠深入學(xué)習(xí)數(shù)學(xué)問題的解題思路和方法。在代碼生成任務(wù)中,AM-Thinking-v1 在 LiveCodeBench 上取得了 70.3 分,大幅超越了 DeepSeek-R1(64.3 分)、Qwen3-32B(65.7 分)和 NemotronUltra-253B(68.1 分)等模型,顯示出其在代碼理解與生成方面的強(qiáng)大能力。

這可能是因?yàn)槟P驮谟?xùn)練過程中接觸了大量的代碼數(shù)據(jù),并通過后訓(xùn)練框架不斷優(yōu)化了代碼生成的準(zhǔn)確性和邏輯性。在通用聊天任務(wù)中,AM-Thinking-v1 在 Arena-Hard 上獲得了 92.5 分,與一些專有模型如 OpenAI-o1(92.1 分)和 o3-mini(89.0 分)具有競(jìng)爭(zhēng)力,但在與 Qwen3-235B-A22B(95.6 分)相比存在一定差距。這可能是由于在通用聊天任務(wù)的訓(xùn)練中,32B 模型在處理復(fù)雜的對(duì)話上下文時(shí),相對(duì)于大型 MoE 模型,存在一定的局限性,如對(duì)長(zhǎng)對(duì)話歷史的記憶和理解能力相對(duì)較弱,導(dǎo)致在某些復(fù)雜對(duì)話場(chǎng)景中表現(xiàn)不如大型 MoE 模型。

AIME2024(上方)和LiveCodeBench(下方)的性能與模型規(guī)模對(duì)比

上圖直觀展示了模型規(guī)模與性能之間的關(guān)系。AM-Thinking-v1 在 32B 規(guī)模密集模型中處于領(lǐng)先地位,其性能接近甚至超過了一些更大規(guī)模的 MoE 模型。這表明模型規(guī)模并非決定推理性能的唯一因素,合理的模型設(shè)計(jì)和訓(xùn)練方法同樣能夠顯著提升模型的推理表現(xiàn)。AM-Thinking-v1 的后訓(xùn)練框架通過優(yōu)化數(shù)據(jù)處理和訓(xùn)練策略,充分發(fā)揮了 32B 模型的潛力,在不增加模型規(guī)模的情況下,使其推理能力得到了顯著提升。例如,通過精心設(shè)計(jì)的查詢過濾和響應(yīng)過濾方法,確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量,提高了模型學(xué)習(xí)效率;采用難度適中的查詢選擇和分階段訓(xùn)練策略,在強(qiáng)化學(xué)習(xí)階段逐步提升模型的推理能力,同時(shí)保證了訓(xùn)練的穩(wěn)定性和效率。這些創(chuàng)新的訓(xùn)練方法和策略,使得 AM-Thinking-v1 能夠在中等規(guī)模模型中實(shí)現(xiàn)卓越的推理性能,為模型規(guī)模與性能關(guān)系的研究提供了新的視角和思路。

 該圖直觀展示了模型規(guī)模與性能之間的關(guān)系。AM-Thinking-v1 在 32B 規(guī)模密集模型中處于領(lǐng)先地位,其性能接近甚至超過了一些更大規(guī)模的 MoE 模型。這表明模型規(guī)模并非決定推理性能的唯一因素,合理的模型設(shè)計(jì)和訓(xùn)練方法同樣能夠顯著提升模型的推理表現(xiàn)。AM-Thinking-v1 的后訓(xùn)練框架通過優(yōu)化數(shù)據(jù)處理和訓(xùn)練策略,充分發(fā)揮了 32B 模型的潛力,在不增加模型規(guī)模的情況下,使其推理能力得到了顯著提升。例如,通過精心設(shè)計(jì)的查詢過濾和響應(yīng)過濾方法,確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量,提高了模型學(xué)習(xí)效率;采用難度適中的查詢選擇和分階段訓(xùn)練策略,在強(qiáng)化學(xué)習(xí)階段逐步提升模型的推理能力,同時(shí)保證了訓(xùn)練的穩(wěn)定性和效率。這些創(chuàng)新的訓(xùn)練方法和策略,使得 AM-Thinking-v1 能夠在中等規(guī)模模型中實(shí)現(xiàn)卓越的推理性能,為模型規(guī)模與性能關(guān)系的研究提供了新的視角和思路。

規(guī)模之辯:性能與模型大小的關(guān)聯(lián)

繪制模型規(guī)模與性能之間的關(guān)系圖,以 AIME2024 和 LiveCodeBench 基準(zhǔn)測(cè)試為例,可以清晰地看到 AM-Thinking-v1 在與其他模型相比時(shí),在性能和規(guī)模上的相對(duì)位置。AM-Thinking-v1 在 32B 規(guī)模密集模型中處于領(lǐng)先地位,其性能接近甚至超過了一些更大規(guī)模的 MoE 模型。這表明模型規(guī)模并非決定推理性能的唯一因素,合理的模型設(shè)計(jì)和訓(xùn)練方法同樣能夠顯著提升模型的推理表現(xiàn)。AM-Thinking-v1 的后訓(xùn)練框架通過優(yōu)化數(shù)據(jù)處理和訓(xùn)練策略,充分發(fā)揮了 32B 模型的潛力,在不增加模型規(guī)模的情況下,使其推理能力得到了顯著提升。例如,通過精心設(shè)計(jì)的查詢過濾和響應(yīng)過濾方法,確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量,提高了模型學(xué)習(xí)效率;采用難度適中的查詢選擇和分階段訓(xùn)練策略,在強(qiáng)化學(xué)習(xí)階段逐步提升模型的推理能力,同時(shí)保證了訓(xùn)練的穩(wěn)定性和效率。這些創(chuàng)新的訓(xùn)練方法和策略,使得 AM-Thinking-v1 能夠在中等規(guī)模模型中實(shí)現(xiàn)卓越的推理性能,為模型規(guī)模與性能關(guān)系的研究提供了新的視角和思路。

技術(shù)創(chuàng)新與優(yōu)勢(shì)

訓(xùn)練革新:后訓(xùn)練框架的創(chuàng)新融合

AM-Thinking-v1 的后訓(xùn)練框架創(chuàng)新性地結(jié)合了監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)。在 SFT 階段,通過精心設(shè)計(jì)的訓(xùn)練數(shù)據(jù)和提示詞,引導(dǎo)模型學(xué)習(xí)推理任務(wù)的結(jié)構(gòu)和模式,例如在數(shù)學(xué)推理任務(wù)中,使用包含詳細(xì)解題步驟和答案的訓(xùn)練數(shù)據(jù),以及引導(dǎo)模型逐步思考的提示詞,使模型能夠?qū)W習(xí)到解決數(shù)學(xué)問題的一般方法和邏輯流程。這為 RL 階段的進(jìn)一步優(yōu)化奠定了堅(jiān)實(shí)的基礎(chǔ)。在 RL 階段,通過難度適中的查詢選擇和分階段訓(xùn)練策略,逐步提升模型的推理能力。例如,在 RL 第一階段,使用具有一定難度的數(shù)學(xué)和代碼查詢,讓模型在不斷嘗試和反饋中學(xué)習(xí)更復(fù)雜的推理技巧;當(dāng)模型性能趨于穩(wěn)定后,進(jìn)入第二階段,移除已掌握的查詢,加入其他類型的通用聊天和指令遵循數(shù)據(jù),使模型能夠適應(yīng)更多樣化的任務(wù)場(chǎng)景,增強(qiáng)其泛化能力。這種創(chuàng)新的后訓(xùn)練框架,為中等規(guī)模模型的推理能力提升提供了新的思路和方法,證明了在不依賴大規(guī)模 MoE 架構(gòu)和私有數(shù)據(jù)的情況下,依然能夠挖掘出密集模型的推理潛力,實(shí)現(xiàn)與大型 MoE 模型相媲美的推理性能。

數(shù)據(jù)精修:全方位的數(shù)據(jù)處理優(yōu)勢(shì)

系統(tǒng)化的數(shù)據(jù)預(yù)處理、驗(yàn)證和篩選流程是 AM-Thinking-v1 的另一大優(yōu)勢(shì)。在數(shù)學(xué)問題答案驗(yàn)證方面,通過 DeepSeek-R1 生成多個(gè)響應(yīng)并進(jìn)行一致性比較,結(jié)合 o4-mini 的輔助判斷,能夠準(zhǔn)確地發(fā)現(xiàn)并修正原始數(shù)據(jù)集中的錯(cuò)誤答案。例如,在某個(gè)數(shù)學(xué)數(shù)據(jù)集中,一道關(guān)于二次方程求解的問題,原始答案標(biāo)注為 “x = 3”,但通過 DeepSeek-R1 生成的多個(gè)響應(yīng)中出現(xiàn)頻率最高的答案是 “x = 2”,經(jīng) math_verify 判斷與 o4-mini 生成的答案 “x = 2” 等價(jià),于是將原始答案修正為 “x = 2”。這一過程有效地提高了訓(xùn)練數(shù)據(jù)的準(zhǔn)確性,為模型學(xué)習(xí)正確的數(shù)學(xué)知識(shí)提供了保障。在查詢過濾方面,利用 LLM 分析并過濾掉描述不清晰或不完整的查詢,使得訓(xùn)練數(shù)據(jù)更加清晰、準(zhǔn)確,便于模型理解和學(xué)習(xí)。同時(shí),對(duì)低質(zhì)量響應(yīng)的過濾方法,如基于困惑度、N-gram 和結(jié)構(gòu)的篩選,進(jìn)一步確保了訓(xùn)練數(shù)據(jù)的質(zhì)量,提高了模型學(xué)習(xí)效率和推理能力的提升效果。

模型可部署性優(yōu)勢(shì)

AM-Thinking-v1 作為 32B 規(guī)模的模型,在保持強(qiáng)大推理能力的同時(shí),具有顯著的可部署性優(yōu)勢(shì)。與大型 MoE 架構(gòu)模型相比,其在服務(wù)器成本方面更具競(jìng)爭(zhēng)力。32B 模型對(duì)硬件資源的需求相對(duì)較低,普通的服務(wù)器配置即可滿足其運(yùn)行需求,無需配備專門的高性能計(jì)算集群,降低了部署成本。在推理延遲方面,32B 模型能夠在相對(duì)較短的時(shí)間內(nèi)給出響應(yīng),滿足實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)景。例如,在處理用戶請(qǐng)求時(shí),32B 模型的平均推理延遲可能在幾百毫秒到幾秒之間,而大型 MoE 模型由于其復(fù)雜的架構(gòu)和龐大的參數(shù)量,推理延遲可能達(dá)到數(shù)十秒甚至更長(zhǎng),這大大影響了用戶體驗(yàn)。在能源消耗方面,32B 模型的能耗相對(duì)較低,在長(zhǎng)期運(yùn)行過程中,能夠節(jié)省大量的能源成本。此外,通過模型優(yōu)化技術(shù),如量化、剪枝等,還可以進(jìn)一步提高其可部署性。例如,對(duì)模型進(jìn)行量化處理,將模型參數(shù)從 32 位浮點(diǎn)數(shù)降至 16 位或 8 位,能夠減少模型的存儲(chǔ)空間和計(jì)算量,提高模型的運(yùn)行效率。同時(shí),也可以采用知識(shí)蒸餾技術(shù),將 32B 模型的知識(shí)蒸餾到更小規(guī)模的模型中,進(jìn)一步降低部署門檻,使其能夠在資源受限的設(shè)備上運(yùn)行,如移動(dòng)設(shè)備、嵌入式設(shè)備等,從而將高性能的推理模型更廣泛地應(yīng)用于各個(gè)領(lǐng)域和場(chǎng)景。

總結(jié)

通過對(duì)AM-Thinking-v1 的 Post train 過程的了解,我們可以對(duì)中等規(guī)模模型在推理領(lǐng)域的發(fā)展有一個(gè)全新的認(rèn)識(shí)。它以 32B 的規(guī)模,在數(shù)學(xué)推理和代碼生成等任務(wù)上展現(xiàn)出媲美甚至超越部分大型 MoE 模型的能力,這可以認(rèn)識(shí)到模型規(guī)模并非決定推理性能的唯一關(guān)鍵因素。合理的訓(xùn)練方法、精細(xì)的數(shù)據(jù)處理流程以及創(chuàng)新的后訓(xùn)練框架設(shè)計(jì),同樣能夠極大地挖掘模型的推理潛力,使中等規(guī)模模型在實(shí)際應(yīng)用中取得良好的收益比。對(duì)這一點(diǎn),對(duì)標(biāo)我去年 32B 模型項(xiàng)目的實(shí)戰(zhàn),這是有共鳴的。

論文中數(shù)據(jù)處理方法的詳盡闡述給我留下了深刻印象。從數(shù)據(jù)收集的廣泛性與多樣性,涵蓋數(shù)學(xué)、代碼、科學(xué)等多個(gè)領(lǐng)域的數(shù)據(jù)集,到查詢過濾的嚴(yán)謹(jǐn)性,如去除低質(zhì)量查詢、驗(yàn)證數(shù)學(xué)問題答案正確性等操作,再到合成響應(yīng)過濾的科學(xué)性,基于困惑度、N-gram 和結(jié)構(gòu)的篩選方法,處處體現(xiàn)出研究者們對(duì)數(shù)據(jù)質(zhì)量的高度重視。這讓我明白,高質(zhì)量的數(shù)據(jù)是模型推理能力提升的基石,只有在純凈、準(zhǔn)確、相關(guān)性強(qiáng)的數(shù)據(jù)基礎(chǔ)上,模型才能更好地學(xué)習(xí)知識(shí)、掌握推理技巧,進(jìn)而生成高質(zhì)量的推理結(jié)果。

同時(shí),后訓(xùn)練框架的詳細(xì)介紹也讓我受益匪淺。監(jiān)督微調(diào)階段的采樣策略、訓(xùn)練配置參數(shù)的選擇依據(jù),以及強(qiáng)化學(xué)習(xí)階段的難度適中查詢篩選、分階段訓(xùn)練策略等,環(huán)環(huán)相扣。研究者們通過精心設(shè)計(jì)的后訓(xùn)練流程,將監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)充分發(fā)揮并有機(jī)結(jié)合,使模型在推理能力上實(shí)現(xiàn)了質(zhì)的飛躍。這種創(chuàng)新的后訓(xùn)練框架不僅為 AM-Thinking-v1 的成功奠定了基礎(chǔ),也為其他中等規(guī)模模型的開發(fā),提供了極具價(jià)值的范例,這非常具有中等參數(shù)量模型在實(shí)際私有化落地的參考意義。要感謝這個(gè)團(tuán)隊(duì)的分享。

在實(shí)驗(yàn)與評(píng)估部分,研究團(tuán)隊(duì)通過詳細(xì)的性能數(shù)據(jù)對(duì)比和深入的結(jié)果分析,直觀地展示了 AM-Thinking-v1 的優(yōu)勢(shì)與不足??吹?AM-Thinking-v1 在 AIME2024、AIME2025 和 LiveCodeBench 等基準(zhǔn)測(cè)試中的出色表現(xiàn),我不禁為其在數(shù)學(xué)推理和代碼生成任務(wù)上的強(qiáng)大能力感到欣喜。而它在 Arena-Hard 通用聊天任務(wù)中與頂級(jí)模型的差距,又讓我對(duì)模型的局限性有了清晰的認(rèn)識(shí)。這啟發(fā)我在今后的項(xiàng)目中,既要關(guān)注模型的優(yōu)勢(shì)發(fā)揮,還要深入分析其不足之處,從多個(gè)角度去優(yōu)化模型性能,使其在各類任務(wù)中都能有更均衡、更出色的表現(xiàn)。

盡管 AM-Thinking-v1 在 benchmark 中取得了顯著的成果,但它仍存在一些局限性。首先,模型對(duì)結(jié)構(gòu)化函數(shù)調(diào)用、工具使用等支持不足。其次,安全對(duì)齊工作尚處于初步階段,需要進(jìn)一步的紅隊(duì)測(cè)試和改進(jìn)。模型可能會(huì)產(chǎn)生一些不符合倫理道德或存在安全隱患的回答,如在回答涉及隱私、暴力等問題時(shí),可能給出不當(dāng)?shù)慕ㄗh。最后,在低資源語言和特定領(lǐng)域任務(wù)中的性能可能有所變化。對(duì)于一些數(shù)據(jù)稀缺的語言或領(lǐng)域,模型的推理能力可能不如在高資源語言和通用領(lǐng)域中表現(xiàn)得那么出色。例如,在處理一些少數(shù)民族語言的文本推理任務(wù)時(shí),由于訓(xùn)練數(shù)據(jù)中缺乏足夠的該語言樣本,模型可能無法準(zhǔn)確理解和生成相應(yīng)的文本。

總之,這個(gè)關(guān)于 AM-Thinking-v1 的研究讓我對(duì)中等規(guī)模模型在推理領(lǐng)域的發(fā)展有了全面、深入且清晰的認(rèn)識(shí)與共鳴。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2024-04-10 08:15:17

模型語言模型GPT

2025-03-07 08:50:03

2025-06-12 09:48:27

2025-03-25 09:24:05

2025-03-06 08:11:25

2025-04-11 12:04:58

2025-02-12 12:04:54

2025-09-19 11:09:40

2025-04-14 09:27:00

2024-04-08 08:05:00

大模型人工智能開源

2025-01-13 00:00:00

訓(xùn)練數(shù)據(jù)模型

2025-04-27 09:19:00

強(qiáng)化學(xué)習(xí)模型AI

2025-07-14 08:30:00

2025-06-12 08:46:00

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-25 12:11:08

2025-02-25 14:50:16

2025-02-13 08:30:00

2025-03-07 08:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)