超低成本復(fù)現(xiàn)QwQ！數(shù)學(xué)推理模型訓(xùn)練迎來(lái)RL暴擊，數(shù)據(jù)代碼模型全開(kāi)源 | 螞蟻&清華出品

作者：量子位 2025-04-02 09:00:00

螞蟻清華聯(lián)手開(kāi)源的強(qiáng)化學(xué)習(xí)框架AReaL-boba，直接把推理模型訓(xùn)練帶到了Next Level——

用上這個(gè)開(kāi)源框架，2天時(shí)間就能刷新7B數(shù)學(xué)推理紀(jì)錄！

螞蟻清華聯(lián)手開(kāi)源的強(qiáng)化學(xué)習(xí)框架AReaL-boba，直接把推理模型訓(xùn)練帶到了Next Level——

訓(xùn)練成本下降的同時(shí)，訓(xùn)練速率、推理能力還大幅提升的那種。

除了前面提到的7B模型，在32B模型上，只需兩百美元、200條數(shù)據(jù)，就可以輕松復(fù)現(xiàn)QwQ-32B，就是數(shù)學(xué)推理能力媲美DeepSeek-R1，一戰(zhàn)封神的那個(gè)。

而且開(kāi)源的內(nèi)容非常全面，不僅只是模型，所有訓(xùn)練代碼，數(shù)據(jù)，模型參數(shù)以及訓(xùn)練細(xì)節(jié)都通通開(kāi)源了，還有超級(jí)詳細(xì)的技術(shù)筆記可以看，感覺(jué)像是被技術(shù)團(tuán)隊(duì)手把手教導(dǎo)。

一個(gè)技術(shù)小白也能手搓一個(gè)頂尖大模型了。

AReaL-boba，人人可復(fù)現(xiàn)QwQ

AReaL，Ant Reasoning RL，是Ant Research RL Lab等開(kāi)源的高效強(qiáng)化學(xué)習(xí)系統(tǒng)。在此基礎(chǔ)之上，該版本取名為boba，是因?yàn)閳F(tuán)隊(duì)希望AReaL像珍珠奶茶一樣讓強(qiáng)化學(xué)習(xí)普惠整個(gè)社區(qū)，讓開(kāi)發(fā)者無(wú)論資源規(guī)模均可觸達(dá)SOTA效果。

通過(guò)開(kāi)源全部代碼、數(shù)據(jù)與模型參數(shù)，AReaL-boba在訓(xùn)練效率、推理能力與成本控制上實(shí)現(xiàn)三重突破。

首先是訓(xùn)練效率上的提升，全面集成SGLang推理框架。

AReaL-boba是首個(gè)擁抱SGLang的開(kāi)源訓(xùn)練系統(tǒng)，大幅優(yōu)化訓(xùn)練吞吐性能。

（SGLang是一個(gè)xAI公司采用的面向復(fù)雜語(yǔ)言模型的高性能推理框架，它通過(guò)共同設(shè)計(jì)后端運(yùn)行時(shí)和前端語(yǔ)言，讓模型交互更快、更可控。市面上主流模型和企業(yè)都已大規(guī)模部署，每天產(chǎn)生數(shù)萬(wàn)億個(gè)token）

對(duì)比原始版本，在1.5B模型尺寸上吞吐提升35%，7B模型提升60%，32B模型提升73%。

而且無(wú)縫適配各種計(jì)算資源，既支持單機(jī)，也支持大規(guī)模分布式訓(xùn)練，突破傳統(tǒng)RL訓(xùn)練資源瓶頸。

在大規(guī)模分布式訓(xùn)練效率上有顯著的提升，一個(gè)直觀的例子：

128卡集群1天完成1.5B模型訓(xùn)練，256卡2天完成7B模型訓(xùn)練。

這樣一來(lái)，中小團(tuán)隊(duì)也能在有限算力下快速迭代模型，真正實(shí)現(xiàn)”人人可駕馭強(qiáng)化學(xué)習(xí)”。

其次，推理能力大幅提升，尤其7B模型性能斷層領(lǐng)先。

當(dāng)前最考驗(yàn)推理模型能力的，無(wú)疑是它在數(shù)學(xué)推理領(lǐng)域的表現(xiàn)。

在這一領(lǐng)域中，AReaL-boba基于Qwen-R1-Distill-7B模型，通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練，僅用2天即實(shí)現(xiàn)SOTA水平——

AIME 2024 61.9分，AIME 2025 48.3分，相比于o1-preview也是大幅領(lǐng)先。

相較于基礎(chǔ)模型Qwen-R1-Distill-7B，使用AReaL-boba后模型推理能力也有不少提升——

分別在AIME2024、AIME2025提升6.9、8.6分。

而想要擁有這樣一個(gè)SOTA級(jí)別的推理模型并不難，團(tuán)隊(duì)不僅把能開(kāi)源的都開(kāi)源了，還有超級(jí)詳細(xì)的技術(shù)筆記送上。

團(tuán)隊(duì)不僅開(kāi)源了推理模型，也開(kāi)源了所有所有訓(xùn)練數(shù)據(jù)AReaL-boba-106k，以及全部的訓(xùn)練腳本和評(píng)估腳本，保證人人可以復(fù)現(xiàn)。

而過(guò)程中遇到問(wèn)題也不用擔(dān)心，在項(xiàng)目官方倉(cāng)庫(kù)上，AReaL 團(tuán)隊(duì)也放出了極其詳細(xì)的技術(shù)筆記，總結(jié)了大量訓(xùn)練中的關(guān)鍵點(diǎn)，包括 PPO 超參數(shù)、獎(jiǎng)勵(lì)函數(shù)設(shè)置、正則化設(shè)置、長(zhǎng)度上限設(shè)置等等。

刷新小模型推理上限的同時(shí)，也通過(guò)技術(shù)透明化推動(dòng)創(chuàng)新生態(tài)。

像我這樣一個(gè)技術(shù)小白，研究一下也能手搓個(gè)小模型出來(lái)。

最后，使用創(chuàng)新性蒸餾技術(shù)，極簡(jiǎn)數(shù)據(jù)復(fù)現(xiàn)頂尖模型。

前段時(shí)間，QwQ-32B橫空出世，其強(qiáng)大的推理性能引發(fā)諸多關(guān)注。

它在數(shù)學(xué)推理、編碼能力和一般問(wèn)題解決能力上，超過(guò)了一眾領(lǐng)先模型，包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和原始DeepSeek-R1。

現(xiàn)在AReaL-boba推出超精簡(jiǎn)訓(xùn)練方案，直接把32B大模型訓(xùn)練的所需成本給打下來(lái)。

數(shù)據(jù)上面，僅需200條數(shù)據(jù)的AReaL-boba-200數(shù)據(jù)集。

使用Qwen-32B-Distill基礎(chǔ)模型，通過(guò)輕量級(jí)SFT技術(shù)即可復(fù)現(xiàn)QwQ-32B的AIME2024效果。

整個(gè)計(jì)算成本，僅需200美元。

這一創(chuàng)新讓頂級(jí)推理能力的訓(xùn)練門(mén)檻從“實(shí)驗(yàn)室專(zhuān)享”降為”人人可及”，開(kāi)創(chuàng)了小數(shù)據(jù)驅(qū)動(dòng)大模型的新范式。

首個(gè)完整開(kāi)源的團(tuán)隊(duì)

AReaL團(tuán)隊(duì)的核心成員均來(lái)自于螞蟻研究院強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室以及清華交叉信息研究院吳翼老師團(tuán)隊(duì)。

上個(gè)月，他們初始版本針對(duì)1.5B和7B推理模型優(yōu)化，比如借助AReaL使用RL訓(xùn)練1.5B蒸餾模型，在40小時(shí)內(nèi)超越o1-Preview的數(shù)學(xué)推理能力。

同樣也給出了詳細(xì)的訓(xùn)練細(xì)節(jié)。

作為國(guó)內(nèi)第一個(gè)完整開(kāi)源（數(shù)據(jù)、代碼、模型、腳本全開(kāi)源）的項(xiàng)目團(tuán)隊(duì)，他們表示致力于真正實(shí)現(xiàn)AI訓(xùn)練的普惠。

其實(shí)從此次boba版本的發(fā)布也能看出，通過(guò)開(kāi)源開(kāi)放，讓AI訓(xùn)練成為社區(qū)共享的基礎(chǔ)設(shè)施。其三大技術(shù)突破（極速訓(xùn)練、推理登頂、低成本復(fù)現(xiàn)）形成的技術(shù)飛輪，推動(dòng)強(qiáng)化學(xué)習(xí)大規(guī)模訓(xùn)練的發(fā)展。

在項(xiàng)目列表中，他們也揭示了后續(xù)的開(kāi)源計(jì)劃和目標(biāo)——

包括異步訓(xùn)練，更快的訓(xùn)練吞吐，更好的數(shù)據(jù)集和算法，以及代碼和Agent智能體能力的支持。

也是十分期待了。

實(shí)際上，螞蟻的AI研發(fā)也非常值得關(guān)注，成果SOTA，場(chǎng)景天然，產(chǎn)品還是國(guó)民級(jí)的。

項(xiàng)目鏈接：

https://github.com/inclusionAI/AReaL

HuggingFace數(shù)據(jù)模型地址：

https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a

責(zé)任編輯：張燕妮來(lái)源：量子位