312條軌跡激發(fā)241%性能!上交大與SII開源電腦智能體,超越 Claude 3.7
自 Anthropic 推出 Claude Computer Use,打響電腦智能體(Computer Use Agent)的第一槍后,OpenAI 也相繼推出 Operator,用強(qiáng)化學(xué)習(xí)(RL)算法把電腦智能體的能力推向新高,引發(fā)全球范圍廣泛關(guān)注。
業(yè)界普遍認(rèn)為,需要海量的軌跡數(shù)據(jù)或復(fù)雜的強(qiáng)化學(xué)習(xí)才能實(shí)現(xiàn)電腦智能體的水平突破——這可能意味著大量的人工軌跡標(biāo)注,以及大規(guī)模虛擬機(jī)環(huán)境的構(gòu)建,以支撐智能體的學(xué)習(xí)與優(yōu)化。
然而,來(lái)自上海交通大學(xué)和 SII 的最新研究卻給出了一個(gè)非共識(shí)答案:僅需 312 條人類標(biāo)注軌跡,使用 Claude 3.7 Sonnet 合成更豐富的動(dòng)作決策,就能激發(fā)模型 241% 的性能,甚至超越 Claude 3.7 Sonnet extended thinking 模式,成為 Windows 系統(tǒng)上開源電腦智能體的新一代 SOTA。

- 論文標(biāo)題:Efficient Agent Training for Computer Use
 - 論文地址:https://arxiv.org/abs/2505.13909
 - 代碼地址:https://github.com/GAIR-NLP/PC-Agent-E
 - 模型地址:https://huggingface.co/henryhe0123/PC-Agent-E
 - 數(shù)據(jù)地址:https://huggingface.co/datasets/henryhe0123/PC-Agent-E
 
這一發(fā)現(xiàn)傳遞出一個(gè)關(guān)鍵信號(hào):當(dāng)前大模型已經(jīng)具備了使用電腦完成任務(wù)的基礎(chǔ)能力,其性能瓶頸主要在于長(zhǎng)程推理(long-horizon planning)能力的激發(fā),而這一能力使用極少量高質(zhì)量軌跡即可顯著提升。


PC Agent-E:如何用極少量軌跡訓(xùn)練出強(qiáng)大的電腦智能體?
數(shù)據(jù)從哪來(lái)?人類提供原始操作軌跡
與以往依賴大規(guī)模人工標(biāo)注或復(fù)雜自動(dòng)化合成的方式不同,團(tuán)隊(duì)的方法只需 312 條真實(shí)的人類操作軌跡。這些軌跡由團(tuán)隊(duì)開發(fā)的工具 PC Tracker 收集而來(lái),僅由兩位作者花一天時(shí)間操作自己的電腦,就完成了原始軌跡數(shù)據(jù)的收集。每條軌跡包含任務(wù)描述、屏幕截圖以及鍵盤鼠標(biāo)操作,并確保了數(shù)據(jù)的正確性。
312 條軌跡在不同軟件上的分布
思維鏈補(bǔ)全:讓「動(dòng)作」有「思考」的支撐
人類執(zhí)行每一個(gè)動(dòng)作,往往都有一定的理由或「思考過(guò)程」。但在收集的原始軌跡數(shù)據(jù)中,這部分「思維鏈」是缺失的。于是,團(tuán)隊(duì)對(duì)人類動(dòng)作進(jìn)行了「思維鏈補(bǔ)全」(Thought Completion),為每一個(gè)動(dòng)作步驟添加了背后的思考邏輯(符合于 ReAct 范式)。此時(shí)的數(shù)據(jù)已足以用于智能體訓(xùn)練,但團(tuán)隊(duì)并未止步于此——接下來(lái)的關(guān)鍵一步,進(jìn)一步大幅提升了軌跡質(zhì)量。
軌跡增強(qiáng):讓 AI 幫你「腦洞大開」
接下來(lái),團(tuán)隊(duì)提出了一個(gè)關(guān)鍵創(chuàng)新點(diǎn):軌跡增強(qiáng)(Trajectory Boost),這正是使用極少軌跡讓模型超越 Claude 3.7 Sonnet(thinking)的關(guān)鍵。
其核心觀察為:每個(gè)電腦任務(wù)其實(shí)可以通過(guò)多種路徑完成。也就是說(shuō),除了人類采取的動(dòng)作以外,軌跡中的每一步其實(shí)都有多個(gè)「合理的動(dòng)作決策」。為了捕捉這種軌跡內(nèi)在的多樣性,團(tuán)隊(duì)利用前沿模型 Claude 3.7 Sonnet,為軌跡的每一步合成更多的動(dòng)作決策。團(tuán)隊(duì)注意到,軌跡中每一步記錄的數(shù)據(jù),作為「環(huán)境快照(environment snapshot)」,已足以為人類或智能體提供決策信息。于是,團(tuán)隊(duì)將這些快照提供給 Claude 3.7 Sonnet,采樣多個(gè)包含思考過(guò)程的動(dòng)作決策。這一過(guò)程極大豐富了軌跡數(shù)據(jù)的多樣性。

思維鏈補(bǔ)全與軌跡增強(qiáng)
模型訓(xùn)練:少量數(shù)據(jù)也能訓(xùn)出強(qiáng)大模型
最終,團(tuán)隊(duì)在開源模型 Qwen2.5-VL-72B 的基礎(chǔ)上進(jìn)行訓(xùn)練,得到 PC Agent-E 智能體。作為一款原生智能體模型(native agent model),PC Agent-E 無(wú)需依賴復(fù)雜的工作流設(shè)計(jì),即可實(shí)現(xiàn)端到端的任務(wù)執(zhí)行。令人驚喜的是,在僅使用 312 條人工標(biāo)注軌跡的情況下,模型性能便達(dá)到了訓(xùn)練前的 241%,展現(xiàn)出極高的樣本效率。
團(tuán)隊(duì)在 WindowsAgentArena-V2 上進(jìn)行評(píng)測(cè)——這是對(duì)原始 WindowsAgentArena 存在問(wèn)題進(jìn)行改進(jìn)后的新版本。實(shí)驗(yàn)結(jié)果顯示,PC Agent-E 的表現(xiàn)甚至超過(guò)了 Claude 3.7 Sonnet 的「extended thinking」模式,而用于數(shù)據(jù)合成的 Claude 3.7 Sonnet 并未啟用這一模式。這標(biāo)志著 PC Agent-E 成為當(dāng)前 Windows 系統(tǒng)上開源電腦智能體的新一代 SOTA!與此同時(shí),PC Agent-E 在 OSWorld 上也表現(xiàn)出不俗的跨平臺(tái)泛化性能。

不同電腦智能體在 WindowsAgentArena-V2 上的評(píng)估結(jié)果
軌跡增強(qiáng)方法的有力驗(yàn)證
論文的關(guān)鍵創(chuàng)新之一——軌跡增強(qiáng)方法在人類軌跡的每一步補(bǔ)充了 9 個(gè)合成動(dòng)作決策。為了進(jìn)一步驗(yàn)證該方法的效果,團(tuán)隊(duì)調(diào)整訓(xùn)練時(shí)使用的合成動(dòng)作數(shù)量,并觀察其對(duì)模型性能的影響。
如圖所示,隨著合成動(dòng)作數(shù)量的增加,模型性能顯著提升,并展現(xiàn)出良好的拓展趨勢(shì)。相比僅使用人類軌跡訓(xùn)練(性能提升僅 15%),PC Agent-E 在引入合成動(dòng)作后實(shí)現(xiàn)了高達(dá) 141% 的性能飛躍,充分證明了軌跡增強(qiáng)方法對(duì)智能體能力突破的關(guān)鍵作用。

模型能力隨訓(xùn)練數(shù)據(jù)中動(dòng)作決策的擴(kuò)展倍數(shù)的變化
結(jié)論與展望
實(shí)驗(yàn)結(jié)果有力證明了一個(gè)關(guān)鍵觀點(diǎn):少量高質(zhì)量軌跡,就足以激發(fā)智能體強(qiáng)大的長(zhǎng)程推理(long-horizon planning)能力。無(wú)需海量人類標(biāo)注,就能訓(xùn)練出當(dāng)前最優(yōu)(SOTA)的電腦智能體。
目前,即使是最前沿的電腦智能體,其能力與人類相比仍有明顯差距。在這種情況下,在預(yù)訓(xùn)練和監(jiān)督微調(diào)階段引入一定的人類認(rèn)知,仍然是為后續(xù)強(qiáng)化學(xué)習(xí)打下堅(jiān)實(shí)基礎(chǔ)的必要步驟。
團(tuán)隊(duì)方法提供了一種新的思路:在人類標(biāo)注軌跡注定有限的情況下,可以通過(guò)提高軌跡質(zhì)量來(lái)實(shí)現(xiàn)高效的性能提升。這不僅降低了數(shù)據(jù)需求,也為未來(lái)構(gòu)建更智能、更自主的數(shù)字代理鋪平了道路。PC Agent-E 只是一個(gè)開始。通往真正能理解并自如操作數(shù)字世界的智能代理之路,仍在繼續(xù)。















 
 
 
















 
 
 
 