性能逼近閉源最強(qiáng)，通義實(shí)驗(yàn)室開(kāi)源Mobile-Agent-v3刷新10項(xiàng)GUI基準(zhǔn)SOTA

2025-09-02 12:09:33

這是一個(gè)基于云環(huán)境的全鏈路開(kāi)源解決方案?—— 它既是當(dāng)前最強(qiáng)的開(kāi)源單體 GUI Agent 模型，也包含為其深度優(yōu)化的多智能體框架。

覆蓋桌面、移動(dòng)和 Web，7B 模型超越同類(lèi)開(kāi)源選手，32B 模型挑戰(zhàn) GPT-4o 與 Claude 3.7，通義實(shí)驗(yàn)室全新 Mobile-Agent-v3 現(xiàn)已開(kāi)源。

一眼看到實(shí)力：關(guān)鍵成績(jī)速覽。

備注：分?jǐn)?shù)來(lái)源于公開(kāi)基準(zhǔn)，包括桌面 + 移動(dòng)環(huán)境的任務(wù)規(guī)劃、定位、推理、執(zhí)行等全鏈路能力

開(kāi)源地址：https://github.com/X-PLUG/MobileAgent

背景：為什么 GUI Agent 要這么強(qiáng)？

GUI 智能體，就像你的跨平臺(tái)虛擬操作員，能看懂屏幕、點(diǎn)鼠標(biāo)、敲鍵盤(pán)、滑手機(jī)，在辦公、測(cè)試、RPA 等場(chǎng)景自動(dòng)執(zhí)行任務(wù)。然而，要實(shí)現(xiàn)這一愿景，現(xiàn)有方案卻面臨重重挑戰(zhàn)。它們往往能力割裂，比如精于定位 UI 元素卻拙于長(zhǎng)任務(wù)規(guī)劃，或難以融入靈活的多智能體框架。

同時(shí)，許多方案嚴(yán)重依賴(lài)特定的硬件和操作系統(tǒng)，適配成本高昂；而依賴(lài)閉源模型的方案則缺乏靈活性，遇到全新任務(wù)時(shí)常常束手無(wú)策。

更現(xiàn)實(shí)的是，高昂的推理成本、多圖輸入帶來(lái)的延遲以及部署困難，都成為阻礙 GUI 智能體廣泛應(yīng)用的瓶頸。

亮點(diǎn)一

GUI-Owl + Mobile-Agent-v3 + 云環(huán)境

這是一個(gè)基于云環(huán)境的全鏈路開(kāi)源解決方案 —— 它既是當(dāng)前最強(qiáng)的開(kāi)源單體 GUI Agent 模型，也包含為其深度優(yōu)化的多智能體框架。我們通過(guò)搭建覆蓋 Android、Ubuntu、macOS、Windows 的多操作系統(tǒng)云環(huán)境基礎(chǔ)設(shè)施，并結(jié)合阿里云的云手機(jī)與云電腦，實(shí)現(xiàn)了直接在云端沙箱中運(yùn)行、調(diào)試、采集數(shù)據(jù)的全新范式。

在大多數(shù) GUI Agent 方案中，采集高質(zhì)量訓(xùn)練數(shù)據(jù)是最大的瓶頸，不僅慢，而且貴。為此，我們沒(méi)有走傳統(tǒng)的人工標(biāo)注老路，而是直接打造了一整套跨平臺(tái)的云環(huán)境基礎(chǔ)設(shè)施與一套名為「自我進(jìn)化 GUI 軌跡生產(chǎn)鏈路」的數(shù)據(jù)閉環(huán)系統(tǒng)。這套系統(tǒng)讓 GUI-Owl 和 Mobile-Agent-v3 自己生成任務(wù)軌跡、篩選出正確軌跡，再反過(guò)來(lái)對(duì)自身進(jìn)行迭代優(yōu)化，將人類(lèi)的參與降到最低，形成一個(gè)跨平臺(tái)、自動(dòng)化、可持續(xù)的數(shù)據(jù)生產(chǎn)與模型優(yōu)化循環(huán)。

整個(gè)流程的核心是讓模型在實(shí)踐中自我成長(zhǎng)。首先，系統(tǒng)會(huì)在覆蓋 Android、Ubuntu、macOS 和 Windows 的云端環(huán)境中動(dòng)態(tài)構(gòu)建虛擬實(shí)驗(yàn)室，確保每次任務(wù)都在貼近真實(shí)用戶(hù)場(chǎng)景的干凈快照中運(yùn)行。隨后，高質(zhì)量的任務(wù)生成模塊會(huì)為模型「出題」，它針對(duì)移動(dòng)端，通過(guò)人工標(biāo)注的有向無(wú)環(huán)圖（DAG）來(lái)模擬真實(shí) App 流程，并用 LLM 生成多約束的自然語(yǔ)言指令；而對(duì)于元素更密集的桌面端，它則結(jié)合可訪問(wèn)性樹(shù)（Accessibility Tree）與深度搜索鏈來(lái)挖掘復(fù)雜軟件的操作路徑，確保生成的任務(wù)既真實(shí)又可控。

有了任務(wù)，GUI-Owl 模型和 Mobile-Agent-v3 框架便開(kāi)始在虛擬環(huán)境中執(zhí)行操作，產(chǎn)出完整的交互軌跡。然而，并非所有軌跡都是完美的。因此，一個(gè)精密的軌跡正確性評(píng)估模塊會(huì)介入，它包含一個(gè)「Step-Level Critic」，能細(xì)致分析每一步操作前后的界面變化，判斷其有效性；還有一個(gè)「Trajectory-Level Critic」，采用純文本和多模態(tài)雙通道機(jī)制，從全局視角評(píng)估整個(gè)任務(wù)是否成功。只有通過(guò)雙重校驗(yàn)的軌跡才會(huì)被采納。

對(duì)于那些模型反復(fù)嘗試依舊失敗的困難任務(wù)，系統(tǒng)還會(huì)啟動(dòng)困難任務(wù)指南生成模塊。它會(huì)分析已有的成功軌跡（可能來(lái)自人工或其他模型），用 VLM 提煉出每一步的關(guān)鍵動(dòng)作描述，并由 LLM 總結(jié)成一份「通關(guān)攻略」。這份指南將在后續(xù)嘗試中作為提示，有效提高成功率。最后，所有經(jīng)過(guò)篩選和強(qiáng)化的優(yōu)質(zhì)軌跡數(shù)據(jù)，都會(huì)被用于對(duì) GUI-Owl 進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)，讓模型的能力在真實(shí)交互中穩(wěn)步增強(qiáng)，最終實(shí)現(xiàn)真正的自我進(jìn)化。

亮點(diǎn)二：全棧 GUI 能力構(gòu)建

從「看得懂」到「想得全」到「做得準(zhǔn)」

GUI-Owl 在安卓和桌面兩端同時(shí)拿下 SOTA，關(guān)鍵在于我們?yōu)槠錁?gòu)建了全棧式的 GUI 能力，確保它不僅「看得懂」，更能「想得全」、「做得準(zhǔn)」，并具備天然的泛化與適配能力。

首先是極致的 UI 元素定位（Grounding）能力。為了讓模型精準(zhǔn)找到屏幕上的目標(biāo)，我們構(gòu)建了涵蓋功能、外觀、布局等多維信息的復(fù)合型 Grounding 數(shù)據(jù)集。我們不僅融合了 InternVL、UI-Vision 等多個(gè)主流開(kāi)源數(shù)據(jù)集，還創(chuàng)新地利用 Accessibility Tree 自動(dòng)生成帶有功能描述的標(biāo)注數(shù)據(jù)，并輔以多模態(tài)模型補(bǔ)全外觀和布局信息。

特別針對(duì)元素密集的 PC 界面，我們開(kāi)創(chuàng)性地使用 SAM 對(duì)截圖進(jìn)行子區(qū)域分割，再讓 MLLM 在小范圍內(nèi)進(jìn)行精細(xì)定位，有效解決了定位難題。所有數(shù)據(jù)都經(jīng)過(guò)嚴(yán)格清洗，包括與 Omniiparser V2 的檢測(cè)結(jié)果進(jìn)行比對(duì)篩選，并用 LLM 將生硬的指令改寫(xiě)得更自然，確保了訓(xùn)練數(shù)據(jù)的質(zhì)量與真實(shí)性。

其次是深度的長(zhǎng)任務(wù)規(guī)劃（Task Planning）與動(dòng)作語(yǔ)義理解（Action Semantics）。為了應(yīng)對(duì)復(fù)雜任務(wù)，GUI-Owl 的規(guī)劃能力來(lái)自?xún)蓚€(gè)方面：一方面，它能從歷史成功軌跡中「蒸餾」出經(jīng)驗(yàn)，形成可復(fù)用的任務(wù)執(zhí)行手冊(cè)；另一方面，它也從 Qwen3-235B 這樣的大規(guī)模語(yǔ)言模型中學(xué)習(xí)跨應(yīng)用、跨功能的通用規(guī)劃知識(shí)，使其面對(duì)全新場(chǎng)景也能從容制定計(jì)劃。

更重要的是，模型通過(guò)學(xué)習(xí)海量的「操作前 / 后」截圖對(duì)比，深刻理解了每個(gè)動(dòng)作與界面狀態(tài)變化之間的因果關(guān)系，真正做到了知其然，更知其所以然。

最后，我們?yōu)槠渥⑷肓藦?qiáng)大的穩(wěn)健推理（Robust Reasoning）與泛化適配能力。 GUI-Owl 不只是機(jī)械地模仿操作，而是理解其背后的決策邏輯。我們開(kāi)創(chuàng)性地從 Mobile-Agent-v3 多智能體框架中蒸餾推理數(shù)據(jù)，讓單一模型學(xué)會(huì)從管理者、執(zhí)行者、反思者等多個(gè)角色的視角進(jìn)行思考，顯著減少了決策盲區(qū)。

同時(shí)，結(jié)合離線(xiàn)提示式拒絕采樣和迭代式的在線(xiàn)訓(xùn)練，模型的推理能力在真實(shí)任務(wù)中被反復(fù)打磨和驗(yàn)證。這種全面的訓(xùn)練方式，使得 GUI-Owl 不再是為某個(gè)特定框架「定制」的，而是天然具備了跨環(huán)境、跨角色的泛化能力。

實(shí)驗(yàn)證明，即使將其「即插即用」到從未訓(xùn)練過(guò)的第三方 Agent 框架中，其性能依舊遠(yuǎn)超其他專(zhuān)用或通用模型。

亮點(diǎn)三：可擴(kuò)展環(huán)境強(qiáng)化學(xué)習(xí)（RL）

讓模型「更穩(wěn)、更聰明、更貼近真實(shí)使用」

僅靠離線(xiàn)數(shù)據(jù)還不足以讓一個(gè) GUI Agent 在真實(shí)環(huán)境中長(zhǎng)期穩(wěn)定運(yùn)行，它需要真正「泡在環(huán)境里」邊做邊學(xué)。為此，我們專(zhuān)門(mén)為 GUI-Owl 設(shè)計(jì)了一套可擴(kuò)展的環(huán)境級(jí)強(qiáng)化學(xué)習(xí)（RL）體系，旨在讓模型「更穩(wěn)、更聰明、更貼近真實(shí)使用」。

我們的 RL 訓(xùn)練基礎(chǔ)設(shè)施在設(shè)計(jì)上兼顧了靈活性與效率。它采用統(tǒng)一的任務(wù)插件接口，無(wú)論是「一步到位」的短任務(wù)還是跨應(yīng)用的長(zhǎng)鏈路任務(wù)，都能無(wú)縫接入。其核心是將經(jīng)驗(yàn)生成（Rollout）與策略更新完全解耦，這意味著我們可以將數(shù)據(jù)采集部署在為推理優(yōu)化的硬件上以最大化吞吐量，同時(shí)在訓(xùn)練端保持策略更新的穩(wěn)定性，從而在優(yōu)化質(zhì)量、速度與成本之間取得最佳平衡。

針對(duì) GUI 自動(dòng)化任務(wù)獎(jiǎng)勵(lì)信號(hào)稀疏且延遲的特性，我們引入了 Trajectory-aware Relative Policy Optimization (TRPO) 算法。該算法不再試圖為每一步操作精確分配獎(jiǎng)勵(lì)，而是在整個(gè)任務(wù)完成后，對(duì)整條軌跡進(jìn)行一次性評(píng)估，并根據(jù)成功、失敗或格式錯(cuò)誤給予一個(gè)明確的軌跡級(jí)獎(jiǎng)勵(lì)。這個(gè)獎(jiǎng)勵(lì)信號(hào)經(jīng)過(guò)歸一化處理后，會(huì)均勻地分配到該軌跡的每一個(gè)步驟上，從而有效緩解了長(zhǎng)任務(wù)中棘手的「信用分配問(wèn)題」，讓模型能夠從最終結(jié)果中穩(wěn)定地學(xué)習(xí)。

為了進(jìn)一步提升學(xué)習(xí)效率，我們還引入了 Replay Buffer 機(jī)制，它會(huì)緩存歷史上成功的案例。當(dāng)某一輪訓(xùn)練中全是失敗的嘗試時(shí)，系統(tǒng)會(huì)自動(dòng)從緩存中「注入」一個(gè)成功樣本，確保模型在每個(gè)批次都能學(xué)到正向反饋。這些專(zhuān)門(mén)的優(yōu)化，使得 GUI-Owl 在在線(xiàn)環(huán)境中能夠持續(xù)提升長(zhǎng)任務(wù)的成功率，表現(xiàn)更接近真實(shí)用戶(hù)所需的高穩(wěn)定性。

總結(jié)

GUI-Owl 的發(fā)布，為開(kāi)源社區(qū)帶來(lái)了一個(gè)能力強(qiáng)大的原生端到端多模態(tài) GUI 智能體。它不僅在 AndroidWorld、OSWorld 等關(guān)鍵基準(zhǔn)上刷新了開(kāi)源模型的記錄，其 32B 版本更是在多項(xiàng)評(píng)測(cè)中展現(xiàn)了超越閉源頂級(jí)模型的實(shí)力。更重要的是，它以單一模型之身，即可勝任復(fù)雜的單體任務(wù)與多智能體協(xié)作中的不同角色，顯著降低了部署和資源開(kāi)銷(xiāo)。

而 Mobile-Agent-v3 框架則是為充分釋放 GUI-Owl 潛力而生的最佳拍檔。它通過(guò)精巧的多智能體協(xié)作機(jī)制，進(jìn)一步提升了模型的跨任務(wù)執(zhí)行能力，結(jié)合云端沙箱的靈活性，使其能夠快速適應(yīng)并解決各類(lèi)新場(chǎng)景下的自動(dòng)化難題。

一句話(huà)總結(jié)：開(kāi)源，Mobile-Agent-v3 也能跑在最前面。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心