偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

微軟開(kāi)源三大突破AI Agent模型,僅140億參數(shù)超越DeepSeek-R1

人工智能 新聞
為了解決該難題,微軟決定轉(zhuǎn)向智能體強(qiáng)化學(xué)習(xí)并實(shí)現(xiàn)三大技術(shù)突破。在這種學(xué)習(xí)范式下,模型與特定的工具環(huán)境進(jìn)行交互,并根據(jù)從環(huán)境中獲得的反饋來(lái)調(diào)整推理過(guò)程。

微軟研究院開(kāi)源了一款A(yù)I Agent推理模型rStar2-Agent。

該模型使用了創(chuàng)新的智能體強(qiáng)化學(xué)習(xí)方法,只有140億參數(shù),但在AIME24數(shù)學(xué)推理測(cè)試中達(dá)到了80.6%準(zhǔn)確率,超過(guò)了擁有6710億參數(shù)的DeepSeek-R1的79.8%。而二者的參數(shù)體量卻相差了將近48倍。

除了在數(shù)學(xué)推理任務(wù)中的出色表現(xiàn),rStar2-Agent在其他領(lǐng)域展現(xiàn)了強(qiáng)大的泛化能力。例如,在GPQA-Diamond科學(xué)推理基準(zhǔn)測(cè)試中,其準(zhǔn)確率達(dá)到了60.9%,也超過(guò)了DeepSeek-V3的59.1%;在BFCL v3智能體工具使用任務(wù)中,其任務(wù)完成率達(dá)到了60.8%,超過(guò)了V3的57.6%,在智能體工具調(diào)用方面更出色。

開(kāi)源地址:https://github.com/microsoft/rStar

OpenAI的O系列、DeepSeek-R1、V3等領(lǐng)先模型,通過(guò)延長(zhǎng)推理鏈,就是讓大模型思考時(shí)間更長(zhǎng)大幅提升了性能。但這種方法在面對(duì)一些難題時(shí)存在局限性,因?yàn)槿菀自谥虚g步驟出現(xiàn)細(xì)微錯(cuò)誤,或者需要?jiǎng)?chuàng)造性地轉(zhuǎn)變推理方向。在這種情況下,模型依賴(lài)于內(nèi)部自我反思來(lái)檢測(cè)和糾正錯(cuò)誤往往效果不佳。

為了解決該難題,微軟決定轉(zhuǎn)向智能體強(qiáng)化學(xué)習(xí)并實(shí)現(xiàn)三大技術(shù)突破。在這種學(xué)習(xí)范式下,模型與特定的工具環(huán)境進(jìn)行交互,并根據(jù)從環(huán)境中獲得的反饋來(lái)調(diào)整推理過(guò)程。選擇合適的工具和環(huán)境至關(guān)重要,一個(gè)有效的環(huán)境必須能夠部署,并且提供準(zhǔn)確、可驗(yàn)證的信號(hào),引導(dǎo)模型走向更強(qiáng)的推理路徑。

訓(xùn)練基礎(chǔ)突破

首先是在訓(xùn)練基礎(chǔ)設(shè)施方面實(shí)現(xiàn)了重大突破。智能體強(qiáng)化學(xué)習(xí)需要高效的工具環(huán)境,可傳統(tǒng)的本地Python解釋器在面對(duì)大規(guī)模訓(xùn)練時(shí)問(wèn)題重重。例如,模型訓(xùn)練就像是一個(gè)繁忙的工廠(chǎng),需要大量的原材料(代碼執(zhí)行請(qǐng)求)供應(yīng)。以往的本地Python解釋器就如同一個(gè)低效的倉(cāng)庫(kù)管理員,面對(duì)工廠(chǎng)瞬間涌入的數(shù)萬(wàn)份原材料需求,不僅處理速度慢,還可能因?yàn)楦鞣N問(wèn)題,讓整個(gè)工廠(chǎng)陷入混亂,甚至威脅到整個(gè)生產(chǎn)系統(tǒng)的安全。

微軟打造的全新基礎(chǔ)設(shè)施則截然不同。其中的隔離式高吞吐代碼執(zhí)行服務(wù),就像是一個(gè)超級(jí)高效的大型物流中心。它部署在由64臺(tái)AMDMI300XGPU組成的強(qiáng)大硬件基地上,采用“主節(jié)點(diǎn)-工作節(jié)點(diǎn)”的分布式架構(gòu)。

主節(jié)點(diǎn)如同物流中心的總調(diào)度室,有集中式任務(wù)隊(duì)列和32個(gè)發(fā)送工作器,負(fù)責(zé)接收來(lái)自工廠(chǎng)的原材料需求,然后將最多64個(gè)工具調(diào)用打包成一個(gè)批次,快速分配任務(wù),就像調(diào)度室快速安排貨物配送路線(xiàn)一樣,利用超時(shí)機(jī)制保證配送效率。而工作節(jié)點(diǎn)就像是一個(gè)個(gè)忙碌的倉(cāng)庫(kù)區(qū)域,每個(gè)工作節(jié)點(diǎn)上運(yùn)行著輕量級(jí)任務(wù)調(diào)度器與1024個(gè)執(zhí)行工作器,它們能迅速將任務(wù)分配到空閑的執(zhí)行單元,實(shí)現(xiàn)負(fù)載均衡,就如同倉(cāng)庫(kù)工作人員迅速將貨物搬運(yùn)到空閑的存儲(chǔ)區(qū)域。

實(shí)驗(yàn)數(shù)據(jù)顯示,這個(gè)物流中心非常強(qiáng)大,能穩(wěn)定支撐每訓(xùn)練步驟4.5萬(wàn)次并發(fā)工具調(diào)用,平均執(zhí)行延遲僅0.3秒,而且通過(guò)巧妙的隔離設(shè)計(jì),完全避免了代碼執(zhí)行干擾主訓(xùn)練流程,保障了工廠(chǎng)的穩(wěn)定生產(chǎn)。

還有動(dòng)態(tài)負(fù)載均衡滾出調(diào)度器,它的出現(xiàn)解決了傳統(tǒng)調(diào)度方式的一大難題。傳統(tǒng)的靜態(tài)分配方式,就像是不管每個(gè)倉(cāng)庫(kù)區(qū)域(GPU)的實(shí)際存儲(chǔ)能力,都平均分配貨物,這樣會(huì)導(dǎo)致大量倉(cāng)庫(kù)空間閑置。

而動(dòng)態(tài)負(fù)載均衡滾出調(diào)度器,就像是一個(gè)智能的倉(cāng)庫(kù)空間管理員,它會(huì)實(shí)時(shí)監(jiān)控每個(gè)GPU的KV緩存剩余容量,根據(jù)這個(gè)來(lái)動(dòng)態(tài)分配任務(wù)。當(dāng)有新的任務(wù)進(jìn)來(lái)時(shí),它會(huì)估算每個(gè)倉(cāng)庫(kù)區(qū)域能安全存放的最大貨物量,然后異步分發(fā)工具調(diào)用,就像及時(shí)將貨物送到合適的倉(cāng)庫(kù)區(qū)域。

當(dāng)某個(gè)GPU完成當(dāng)前任務(wù)釋放緩存后,它又能馬上分配新任務(wù),讓倉(cāng)庫(kù)的空間利用率大大提高。經(jīng)過(guò)測(cè)試,它將GPU空閑時(shí)間降低了60%以上,單批次滾出效率提升了45%,大大縮短了整個(gè)生產(chǎn)周期。

算法突破

在智能體強(qiáng)化學(xué)習(xí)中,環(huán)境噪聲就像學(xué)習(xí)過(guò)程中的“搗亂分子”。例如,老師在教學(xué)生做數(shù)學(xué)題,給了學(xué)生一個(gè)不太靠譜的計(jì)算器。學(xué)生不僅要努力解題,還要應(yīng)對(duì)這個(gè)搗亂的計(jì)算器給出的錯(cuò)誤反饋,這就導(dǎo)致學(xué)生花費(fèi)大量時(shí)間去修正計(jì)算器的錯(cuò)誤,而不是真正推進(jìn)解題思路。

并且傳統(tǒng)的基于最終結(jié)果的獎(jiǎng)勵(lì)機(jī)制,就像只要學(xué)生最后答案對(duì)了,不管中間用計(jì)算器過(guò)程多混亂,都給滿(mǎn)分,這會(huì)讓學(xué)生養(yǎng)成不好的解題習(xí)慣,認(rèn)為錯(cuò)誤的中間過(guò)程也沒(méi)關(guān)系。

微軟在GRPO算法基礎(chǔ)上,提出了融合Resample-on-Correct(RoC)滾出策略的GRPO-RoC算法。GRPO原本是適用于推理任務(wù)的強(qiáng)化學(xué)習(xí)算法,rStar2-Agent對(duì)它進(jìn)行了三項(xiàng)關(guān)鍵調(diào)整。移除KL散度懲罰項(xiàng),就像是給學(xué)生松綁,讓他們能大膽嘗試新的解題方法,不再被舊規(guī)則束縛,去探索工具輔助的新推理模式。

采用Clip-Higher策略,提升重要性采樣比率上界,這就像鼓勵(lì)學(xué)生多去嘗試那些雖然不常見(jiàn)但可能很關(guān)鍵的解題思路,例如,在解題時(shí)想到用特殊方法去驗(yàn)證答案;取消熵?fù)p失項(xiàng),防止訓(xùn)練像脫韁的野馬一樣失控,避免了訓(xùn)練過(guò)程中可能出現(xiàn)的混亂情況。

RoC采用“過(guò)采樣-篩選-下采樣”的不對(duì)稱(chēng)采樣機(jī)制,就像是對(duì)學(xué)生的解題過(guò)程進(jìn)行嚴(yán)格篩選。為每個(gè)問(wèn)題生成很多解答嘗試,然后進(jìn)行篩選。對(duì)于失敗的嘗試,就像保留一些錯(cuò)誤案例給學(xué)生看,讓他們知道哪些做法是不對(duì)的。

對(duì)于成功的嘗試,就像老師嚴(yán)格檢查學(xué)生的解題過(guò)程,只保留那些工具調(diào)用錯(cuò)誤最少、代碼簡(jiǎn)潔、推理清晰的高質(zhì)量解答。經(jīng)過(guò)這個(gè)策略篩選,正獎(jiǎng)勵(lì)軌跡中的工具錯(cuò)誤率從15%降至5%以下,同時(shí)推理響應(yīng)長(zhǎng)度縮短了30%,讓模型的推理過(guò)程更加高效、準(zhǔn)確。

訓(xùn)練流程突破

最后是訓(xùn)練流程的創(chuàng)新。在大模型強(qiáng)化學(xué)習(xí)領(lǐng)域,算力成本一直是個(gè)大難題,就像建造一座超級(jí)大樓,需要耗費(fèi)巨額資金。很多模型,比如DeepSeek-R1、MiMo等,它們的訓(xùn)練就像建造非常復(fù)雜的大樓,需要數(shù)千甚至數(shù)萬(wàn)步的漫長(zhǎng)過(guò)程,而且還依賴(lài)大規(guī)模推理微調(diào)預(yù)熱。

rStar2-Agent則另辟蹊徑,設(shè)計(jì)了“非推理微調(diào)+多階段強(qiáng)化學(xué)習(xí)”的高效訓(xùn)練流程。在非推理微調(diào)階段,它不像傳統(tǒng)模型那樣一上來(lái)就在強(qiáng)化學(xué)習(xí)前進(jìn)行大量“推理導(dǎo)向微調(diào)”,而是專(zhuān)注于培養(yǎng)模型的三項(xiàng)基礎(chǔ)能力,就像教孩子先學(xué)會(huì)走路、說(shuō)話(huà)和基本的生活技能。它采用Tulu3數(shù)據(jù)集的3萬(wàn)條指令示例,教模型學(xué)會(huì)聽(tīng)從指令,就像教孩子聽(tīng)老師的話(huà)。

整合16.5萬(wàn)條函數(shù)調(diào)用數(shù)據(jù),將工具調(diào)用格式統(tǒng)一為結(jié)構(gòu)化JSON格式,就像給孩子的玩具都規(guī)定好擺放方式;引入LLaMA-Nemontron數(shù)據(jù)集的2.7萬(wàn)條對(duì)話(huà)數(shù)據(jù),提升模型的對(duì)話(huà)能力,就像鍛煉孩子的交流能力。經(jīng)過(guò)這個(gè)階段微調(diào),模型在MATH-500基準(zhǔn)測(cè)試中雖然整體得分可能不如基礎(chǔ)模型,但工具調(diào)用準(zhǔn)確率大幅提升,指令遵循達(dá)標(biāo)率也不錯(cuò),為后續(xù)強(qiáng)化學(xué)習(xí)打下了良好基礎(chǔ)。

多階段強(qiáng)化學(xué)習(xí)分為三個(gè)階段:第一階段,在8Ktoken長(zhǎng)度限制下,使用4.2萬(wàn)條高質(zhì)量數(shù)學(xué)問(wèn)題訓(xùn)練,這就像給孩子一些難度適中的數(shù)學(xué)題,讓他們?cè)谟邢薜臈l件下鍛煉解題能力。模型在這個(gè)階段建立起“工具輔助推理”的基本模式,在AIME24、AIME25等測(cè)試中的準(zhǔn)確率顯著提升。

當(dāng)?shù)谝浑A段末期,就像孩子在這個(gè)難度關(guān)卡基本熟練了,滾出截?cái)嗦史€(wěn)定在10%,進(jìn)入第二階段,將最大響應(yīng)長(zhǎng)度提升至12K token,給孩子更復(fù)雜的題目,進(jìn)一步釋放模型的復(fù)雜推理能力,相關(guān)測(cè)試準(zhǔn)確率繼續(xù)上升。

第三階段,從1.73萬(wàn)條高難度問(wèn)題中進(jìn)行訓(xùn)練,就像給孩子最難的奧數(shù)題,模型在AIME24準(zhǔn)確率突破80%,AIME25達(dá)69.8%,完成性能登頂。整個(gè)訓(xùn)練流程僅用64臺(tái)MI300XGPU,在1周內(nèi)完成510步強(qiáng)化學(xué)習(xí)迭代就達(dá)到性能峰值,大大降低了算力成本。

責(zé)任編輯:張燕妮 來(lái)源: AIGC開(kāi)放社區(qū)
相關(guān)推薦

2025-02-03 14:17:27

2025-02-06 10:18:45

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-02-17 10:36:00

微軟開(kāi)源模型

2025-03-05 10:21:04

DeepSeekLVLM

2025-05-19 08:41:00

AI模型開(kāi)發(fā)者

2025-02-19 08:00:00

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-13 08:51:23

DeepSeek大模型

2025-04-14 09:27:00

2025-02-12 12:45:59

2025-07-14 09:23:45

2025-02-07 15:52:20

2025-05-07 10:12:52

英偉達(dá)模型AI

2025-07-30 09:06:02

2025-03-13 11:07:30

2025-06-17 17:14:01

DeepSeekSOTA開(kāi)源

2025-03-06 09:55:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)