偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<p id="jldhf"></p>

<style id="jldhf"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

312條軌跡激發(fā)241%性能！上交大與SII開源電腦智能體，超越 Claude 3.7

2025-05-26 09:21:00

人工智能新聞

來(lái)自上海交通大學(xué)和 SII 的最新研究卻給出了一個(gè)非共識(shí)答案：僅需 312 條人類標(biāo)注軌跡，使用 Claude 3.7 Sonnet 合成更豐富的動(dòng)作決策，就能激發(fā)模型?241%?的性能。

自 Anthropic 推出 Claude Computer Use，打響電腦智能體（Computer Use Agent）的第一槍后，OpenAI 也相繼推出 Operator，用強(qiáng)化學(xué)習(xí)（RL）算法把電腦智能體的能力推向新高，引發(fā)全球范圍廣泛關(guān)注。

業(yè)界普遍認(rèn)為，需要海量的軌跡數(shù)據(jù)或復(fù)雜的強(qiáng)化學(xué)習(xí)才能實(shí)現(xiàn)電腦智能體的水平突破——這可能意味著大量的人工軌跡標(biāo)注，以及大規(guī)模虛擬機(jī)環(huán)境的構(gòu)建，以支撐智能體的學(xué)習(xí)與優(yōu)化。

然而，來(lái)自上海交通大學(xué)和 SII 的最新研究卻給出了一個(gè)非共識(shí)答案：僅需 312 條人類標(biāo)注軌跡，使用 Claude 3.7 Sonnet 合成更豐富的動(dòng)作決策，就能激發(fā)模型 241% 的性能，甚至超越 Claude 3.7 Sonnet extended thinking 模式，成為 Windows 系統(tǒng)上開源電腦智能體的新一代 SOTA。

論文標(biāo)題：Efficient Agent Training for Computer Use
論文地址：https://arxiv.org/abs/2505.13909
代碼地址：https://github.com/GAIR-NLP/PC-Agent-E
模型地址：https://huggingface.co/henryhe0123/PC-Agent-E
數(shù)據(jù)地址：https://huggingface.co/datasets/henryhe0123/PC-Agent-E

這一發(fā)現(xiàn)傳遞出一個(gè)關(guān)鍵信號(hào)：當(dāng)前大模型已經(jīng)具備了使用電腦完成任務(wù)的基礎(chǔ)能力，其性能瓶頸主要在于長(zhǎng)程推理（long-horizon planning）能力的激發(fā)，而這一能力使用極少量高質(zhì)量軌跡即可顯著提升。

PC Agent-E：如何用極少量軌跡訓(xùn)練出強(qiáng)大的電腦智能體？

數(shù)據(jù)從哪來(lái)？人類提供原始操作軌跡

與以往依賴大規(guī)模人工標(biāo)注或復(fù)雜自動(dòng)化合成的方式不同，團(tuán)隊(duì)的方法只需 312 條真實(shí)的人類操作軌跡。這些軌跡由團(tuán)隊(duì)開發(fā)的工具 PC Tracker 收集而來(lái)，僅由兩位作者花一天時(shí)間操作自己的電腦，就完成了原始軌跡數(shù)據(jù)的收集。每條軌跡包含任務(wù)描述、屏幕截圖以及鍵盤鼠標(biāo)操作，并確保了數(shù)據(jù)的正確性。

312 條軌跡在不同軟件上的分布

思維鏈補(bǔ)全：讓「動(dòng)作」有「思考」的支撐

人類執(zhí)行每一個(gè)動(dòng)作，往往都有一定的理由或「思考過(guò)程」。但在收集的原始軌跡數(shù)據(jù)中，這部分「思維鏈」是缺失的。于是，團(tuán)隊(duì)對(duì)人類動(dòng)作進(jìn)行了「思維鏈補(bǔ)全」（Thought Completion），為每一個(gè)動(dòng)作步驟添加了背后的思考邏輯（符合于 ReAct 范式）。此時(shí)的數(shù)據(jù)已足以用于智能體訓(xùn)練，但團(tuán)隊(duì)并未止步于此——接下來(lái)的關(guān)鍵一步，進(jìn)一步大幅提升了軌跡質(zhì)量。

軌跡增強(qiáng)：讓 AI 幫你「腦洞大開」

接下來(lái)，團(tuán)隊(duì)提出了一個(gè)關(guān)鍵創(chuàng)新點(diǎn)：軌跡增強(qiáng)（Trajectory Boost），這正是使用極少軌跡讓模型超越 Claude 3.7 Sonnet（thinking）的關(guān)鍵。

其核心觀察為：每個(gè)電腦任務(wù)其實(shí)可以通過(guò)多種路徑完成。也就是說(shuō)，除了人類采取的動(dòng)作以外，軌跡中的每一步其實(shí)都有多個(gè)「合理的動(dòng)作決策」。為了捕捉這種軌跡內(nèi)在的多樣性，團(tuán)隊(duì)利用前沿模型 Claude 3.7 Sonnet，為軌跡的每一步合成更多的動(dòng)作決策。團(tuán)隊(duì)注意到，軌跡中每一步記錄的數(shù)據(jù)，作為「環(huán)境快照（environment snapshot）」，已足以為人類或智能體提供決策信息。于是，團(tuán)隊(duì)將這些快照提供給 Claude 3.7 Sonnet，采樣多個(gè)包含思考過(guò)程的動(dòng)作決策。這一過(guò)程極大豐富了軌跡數(shù)據(jù)的多樣性。

思維鏈補(bǔ)全與軌跡增強(qiáng)

模型訓(xùn)練：少量數(shù)據(jù)也能訓(xùn)出強(qiáng)大模型

最終，團(tuán)隊(duì)在開源模型 Qwen2.5-VL-72B 的基礎(chǔ)上進(jìn)行訓(xùn)練，得到 PC Agent-E 智能體。作為一款原生智能體模型（native agent model），PC Agent-E 無(wú)需依賴復(fù)雜的工作流設(shè)計(jì)，即可實(shí)現(xiàn)端到端的任務(wù)執(zhí)行。令人驚喜的是，在僅使用 312 條人工標(biāo)注軌跡的情況下，模型性能便達(dá)到了訓(xùn)練前的 241%，展現(xiàn)出極高的樣本效率。

團(tuán)隊(duì)在 WindowsAgentArena-V2 上進(jìn)行評(píng)測(cè)——這是對(duì)原始 WindowsAgentArena 存在問(wèn)題進(jìn)行改進(jìn)后的新版本。實(shí)驗(yàn)結(jié)果顯示，PC Agent-E 的表現(xiàn)甚至超過(guò)了 Claude 3.7 Sonnet 的「extended thinking」模式，而用于數(shù)據(jù)合成的 Claude 3.7 Sonnet 并未啟用這一模式。這標(biāo)志著 PC Agent-E 成為當(dāng)前 Windows 系統(tǒng)上開源電腦智能體的新一代 SOTA！與此同時(shí)，PC Agent-E 在 OSWorld 上也表現(xiàn)出不俗的跨平臺(tái)泛化性能。

不同電腦智能體在 WindowsAgentArena-V2 上的評(píng)估結(jié)果

軌跡增強(qiáng)方法的有力驗(yàn)證

論文的關(guān)鍵創(chuàng)新之一——軌跡增強(qiáng)方法在人類軌跡的每一步補(bǔ)充了 9 個(gè)合成動(dòng)作決策。為了進(jìn)一步驗(yàn)證該方法的效果，團(tuán)隊(duì)調(diào)整訓(xùn)練時(shí)使用的合成動(dòng)作數(shù)量，并觀察其對(duì)模型性能的影響。

如圖所示，隨著合成動(dòng)作數(shù)量的增加，模型性能顯著提升，并展現(xiàn)出良好的拓展趨勢(shì)。相比僅使用人類軌跡訓(xùn)練（性能提升僅 15%），PC Agent-E 在引入合成動(dòng)作后實(shí)現(xiàn)了高達(dá) 141% 的性能飛躍，充分證明了軌跡增強(qiáng)方法對(duì)智能體能力突破的關(guān)鍵作用。

模型能力隨訓(xùn)練數(shù)據(jù)中動(dòng)作決策的擴(kuò)展倍數(shù)的變化

結(jié)論與展望

實(shí)驗(yàn)結(jié)果有力證明了一個(gè)關(guān)鍵觀點(diǎn)：少量高質(zhì)量軌跡，就足以激發(fā)智能體強(qiáng)大的長(zhǎng)程推理（long-horizon planning）能力。無(wú)需海量人類標(biāo)注，就能訓(xùn)練出當(dāng)前最優(yōu)（SOTA）的電腦智能體。

目前，即使是最前沿的電腦智能體，其能力與人類相比仍有明顯差距。在這種情況下，在預(yù)訓(xùn)練和監(jiān)督微調(diào)階段引入一定的人類認(rèn)知，仍然是為后續(xù)強(qiáng)化學(xué)習(xí)打下堅(jiān)實(shí)基礎(chǔ)的必要步驟。

團(tuán)隊(duì)方法提供了一種新的思路：在人類標(biāo)注軌跡注定有限的情況下，可以通過(guò)提高軌跡質(zhì)量來(lái)實(shí)現(xiàn)高效的性能提升。這不僅降低了數(shù)據(jù)需求，也為未來(lái)構(gòu)建更智能、更自主的數(shù)字代理鋪平了道路。PC Agent-E 只是一個(gè)開始。通往真正能理解并自如操作數(shù)字世界的智能代理之路，仍在繼續(xù)。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

智能體 AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)