性能逼近閉源最強(qiáng),通義實(shí)驗(yàn)室開(kāi)源Mobile-Agent-v3刷新10項(xiàng)GUI基準(zhǔn)SOTA
覆蓋桌面、移動(dòng)和 Web,7B 模型超越同類(lèi)開(kāi)源選手,32B 模型挑戰(zhàn) GPT-4o 與 Claude 3.7,通義實(shí)驗(yàn)室全新 Mobile-Agent-v3 現(xiàn)已開(kāi)源。
一眼看到實(shí)力:關(guān)鍵成績(jī)速覽。

備注:分?jǐn)?shù)來(lái)源于公開(kāi)基準(zhǔn),包括桌面 + 移動(dòng)環(huán)境的任務(wù)規(guī)劃、定位、推理、執(zhí)行等全鏈路能力

開(kāi)源地址:https://github.com/X-PLUG/MobileAgent
背景:為什么 GUI Agent 要這么強(qiáng)?
GUI 智能體,就像你的跨平臺(tái)虛擬操作員,能看懂屏幕、點(diǎn)鼠標(biāo)、敲鍵盤(pán)、滑手機(jī),在辦公、測(cè)試、RPA 等場(chǎng)景自動(dòng)執(zhí)行任務(wù)。然而,要實(shí)現(xiàn)這一愿景,現(xiàn)有方案卻面臨重重挑戰(zhàn)。它們往往能力割裂,比如精于定位 UI 元素卻拙于長(zhǎng)任務(wù)規(guī)劃,或難以融入靈活的多智能體框架。
同時(shí),許多方案嚴(yán)重依賴(lài)特定的硬件和操作系統(tǒng),適配成本高昂;而依賴(lài)閉源模型的方案則缺乏靈活性,遇到全新任務(wù)時(shí)常常束手無(wú)策。
更現(xiàn)實(shí)的是,高昂的推理成本、多圖輸入帶來(lái)的延遲以及部署困難,都成為阻礙 GUI 智能體廣泛應(yīng)用的瓶頸。
亮點(diǎn)一
GUI-Owl + Mobile-Agent-v3 + 云環(huán)境

這是一個(gè)基于云環(huán)境的全鏈路開(kāi)源解決方案 —— 它既是當(dāng)前最強(qiáng)的開(kāi)源單體 GUI Agent 模型,也包含為其深度優(yōu)化的多智能體框架。我們通過(guò)搭建覆蓋 Android、Ubuntu、macOS、Windows 的多操作系統(tǒng)云環(huán)境基礎(chǔ)設(shè)施,并結(jié)合阿里云的云手機(jī)與云電腦,實(shí)現(xiàn)了直接在云端沙箱中運(yùn)行、調(diào)試、采集數(shù)據(jù)的全新范式。
在大多數(shù) GUI Agent 方案中,采集高質(zhì)量訓(xùn)練數(shù)據(jù)是最大的瓶頸,不僅慢,而且貴。為此,我們沒(méi)有走傳統(tǒng)的人工標(biāo)注老路,而是直接打造了一整套跨平臺(tái)的云環(huán)境基礎(chǔ)設(shè)施與一套名為「自我進(jìn)化 GUI 軌跡生產(chǎn)鏈路」的數(shù)據(jù)閉環(huán)系統(tǒng)。這套系統(tǒng)讓 GUI-Owl 和 Mobile-Agent-v3 自己生成任務(wù)軌跡、篩選出正確軌跡,再反過(guò)來(lái)對(duì)自身進(jìn)行迭代優(yōu)化,將人類(lèi)的參與降到最低,形成一個(gè)跨平臺(tái)、自動(dòng)化、可持續(xù)的數(shù)據(jù)生產(chǎn)與模型優(yōu)化循環(huán)。

整個(gè)流程的核心是讓模型在實(shí)踐中自我成長(zhǎng)。 首先,系統(tǒng)會(huì)在覆蓋 Android、Ubuntu、macOS 和 Windows 的云端環(huán)境中動(dòng)態(tài)構(gòu)建虛擬實(shí)驗(yàn)室,確保每次任務(wù)都在貼近真實(shí)用戶(hù)場(chǎng)景的干凈快照中運(yùn)行。隨后,高質(zhì)量的任務(wù)生成模塊會(huì)為模型「出題」,它針對(duì)移動(dòng)端,通過(guò)人工標(biāo)注的有向無(wú)環(huán)圖(DAG)來(lái)模擬真實(shí) App 流程,并用 LLM 生成多約束的自然語(yǔ)言指令;而對(duì)于元素更密集的桌面端,它則結(jié)合可訪問(wèn)性樹(shù)(Accessibility Tree)與深度搜索鏈來(lái)挖掘復(fù)雜軟件的操作路徑,確保生成的任務(wù)既真實(shí)又可控。
有了任務(wù),GUI-Owl 模型和 Mobile-Agent-v3 框架便開(kāi)始在虛擬環(huán)境中執(zhí)行操作,產(chǎn)出完整的交互軌跡。然而,并非所有軌跡都是完美的。因此,一個(gè)精密的軌跡正確性評(píng)估模塊會(huì)介入,它包含一個(gè)「Step-Level Critic」,能細(xì)致分析每一步操作前后的界面變化,判斷其有效性;還有一個(gè)「Trajectory-Level Critic」,采用純文本和多模態(tài)雙通道機(jī)制,從全局視角評(píng)估整個(gè)任務(wù)是否成功。只有通過(guò)雙重校驗(yàn)的軌跡才會(huì)被采納。
對(duì)于那些模型反復(fù)嘗試依舊失敗的困難任務(wù),系統(tǒng)還會(huì)啟動(dòng)困難任務(wù)指南生成模塊。它會(huì)分析已有的成功軌跡(可能來(lái)自人工或其他模型),用 VLM 提煉出每一步的關(guān)鍵動(dòng)作描述,并由 LLM 總結(jié)成一份「通關(guān)攻略」。這份指南將在后續(xù)嘗試中作為提示,有效提高成功率。最后,所有經(jīng)過(guò)篩選和強(qiáng)化的優(yōu)質(zhì)軌跡數(shù)據(jù),都會(huì)被用于對(duì) GUI-Owl 進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào),讓模型的能力在真實(shí)交互中穩(wěn)步增強(qiáng),最終實(shí)現(xiàn)真正的自我進(jìn)化。
亮點(diǎn)二:全棧 GUI 能力構(gòu)建
從「看得懂」到「想得全」到「做得準(zhǔn)」
GUI-Owl 在安卓和桌面兩端同時(shí)拿下 SOTA,關(guān)鍵在于我們?yōu)槠錁?gòu)建了全棧式的 GUI 能力,確保它不僅「看得懂」,更能「想得全」、「做得準(zhǔn)」,并具備天然的泛化與適配能力。
首先是極致的 UI 元素定位(Grounding)能力。 為了讓模型精準(zhǔn)找到屏幕上的目標(biāo),我們構(gòu)建了涵蓋功能、外觀、布局等多維信息的復(fù)合型 Grounding 數(shù)據(jù)集。我們不僅融合了 InternVL、UI-Vision 等多個(gè)主流開(kāi)源數(shù)據(jù)集,還創(chuàng)新地利用 Accessibility Tree 自動(dòng)生成帶有功能描述的標(biāo)注數(shù)據(jù),并輔以多模態(tài)模型補(bǔ)全外觀和布局信息。
特別針對(duì)元素密集的 PC 界面,我們開(kāi)創(chuàng)性地使用 SAM 對(duì)截圖進(jìn)行子區(qū)域分割,再讓 MLLM 在小范圍內(nèi)進(jìn)行精細(xì)定位,有效解決了定位難題。所有數(shù)據(jù)都經(jīng)過(guò)嚴(yán)格清洗,包括與 Omniiparser V2 的檢測(cè)結(jié)果進(jìn)行比對(duì)篩選,并用 LLM 將生硬的指令改寫(xiě)得更自然,確保了訓(xùn)練數(shù)據(jù)的質(zhì)量與真實(shí)性。

其次是深度的長(zhǎng)任務(wù)規(guī)劃(Task Planning)與動(dòng)作語(yǔ)義理解(Action Semantics)。 為了應(yīng)對(duì)復(fù)雜任務(wù),GUI-Owl 的規(guī)劃能力來(lái)自?xún)蓚€(gè)方面:一方面,它能從歷史成功軌跡中「蒸餾」出經(jīng)驗(yàn),形成可復(fù)用的任務(wù)執(zhí)行手冊(cè);另一方面,它也從 Qwen3-235B 這樣的大規(guī)模語(yǔ)言模型中學(xué)習(xí)跨應(yīng)用、跨功能的通用規(guī)劃知識(shí),使其面對(duì)全新場(chǎng)景也能從容制定計(jì)劃。
更重要的是,模型通過(guò)學(xué)習(xí)海量的「操作前 / 后」截圖對(duì)比,深刻理解了每個(gè)動(dòng)作與界面狀態(tài)變化之間的因果關(guān)系,真正做到了知其然,更知其所以然。
最后,我們?yōu)槠渥⑷肓藦?qiáng)大的穩(wěn)健推理(Robust Reasoning)與泛化適配能力。 GUI-Owl 不只是機(jī)械地模仿操作,而是理解其背后的決策邏輯。我們開(kāi)創(chuàng)性地從 Mobile-Agent-v3 多智能體框架中蒸餾推理數(shù)據(jù),讓單一模型學(xué)會(huì)從管理者、執(zhí)行者、反思者等多個(gè)角色的視角進(jìn)行思考,顯著減少了決策盲區(qū)。
同時(shí),結(jié)合離線(xiàn)提示式拒絕采樣和迭代式的在線(xiàn)訓(xùn)練,模型的推理能力在真實(shí)任務(wù)中被反復(fù)打磨和驗(yàn)證。這種全面的訓(xùn)練方式,使得 GUI-Owl 不再是為某個(gè)特定框架「定制」的,而是天然具備了跨環(huán)境、跨角色的泛化能力。
實(shí)驗(yàn)證明,即使將其「即插即用」到從未訓(xùn)練過(guò)的第三方 Agent 框架中,其性能依舊遠(yuǎn)超其他專(zhuān)用或通用模型。

亮點(diǎn)三:可擴(kuò)展環(huán)境強(qiáng)化學(xué)習(xí)(RL)
讓模型「更穩(wěn)、更聰明、更貼近真實(shí)使用」
僅靠離線(xiàn)數(shù)據(jù)還不足以讓一個(gè) GUI Agent 在真實(shí)環(huán)境中長(zhǎng)期穩(wěn)定運(yùn)行,它需要真正「泡在環(huán)境里」邊做邊學(xué)。為此,我們專(zhuān)門(mén)為 GUI-Owl 設(shè)計(jì)了一套可擴(kuò)展的環(huán)境級(jí)強(qiáng)化學(xué)習(xí)(RL)體系,旨在讓模型「更穩(wěn)、更聰明、更貼近真實(shí)使用」。
我們的 RL 訓(xùn)練基礎(chǔ)設(shè)施在設(shè)計(jì)上兼顧了靈活性與效率。它采用統(tǒng)一的任務(wù)插件接口,無(wú)論是「一步到位」的短任務(wù)還是跨應(yīng)用的長(zhǎng)鏈路任務(wù),都能無(wú)縫接入。其核心是將經(jīng)驗(yàn)生成(Rollout)與策略更新完全解耦,這意味著我們可以將數(shù)據(jù)采集部署在為推理優(yōu)化的硬件上以最大化吞吐量,同時(shí)在訓(xùn)練端保持策略更新的穩(wěn)定性,從而在優(yōu)化質(zhì)量、速度與成本之間取得最佳平衡。

針對(duì) GUI 自動(dòng)化任務(wù)獎(jiǎng)勵(lì)信號(hào)稀疏且延遲的特性,我們引入了 Trajectory-aware Relative Policy Optimization (TRPO) 算法。該算法不再試圖為每一步操作精確分配獎(jiǎng)勵(lì),而是在整個(gè)任務(wù)完成后,對(duì)整條軌跡進(jìn)行一次性評(píng)估,并根據(jù)成功、失敗或格式錯(cuò)誤給予一個(gè)明確的軌跡級(jí)獎(jiǎng)勵(lì)。這個(gè)獎(jiǎng)勵(lì)信號(hào)經(jīng)過(guò)歸一化處理后,會(huì)均勻地分配到該軌跡的每一個(gè)步驟上,從而有效緩解了長(zhǎng)任務(wù)中棘手的「信用分配問(wèn)題」,讓模型能夠從最終結(jié)果中穩(wěn)定地學(xué)習(xí)。
為了進(jìn)一步提升學(xué)習(xí)效率,我們還引入了 Replay Buffer 機(jī)制,它會(huì)緩存歷史上成功的案例。當(dāng)某一輪訓(xùn)練中全是失敗的嘗試時(shí),系統(tǒng)會(huì)自動(dòng)從緩存中「注入」一個(gè)成功樣本,確保模型在每個(gè)批次都能學(xué)到正向反饋。這些專(zhuān)門(mén)的優(yōu)化,使得 GUI-Owl 在在線(xiàn)環(huán)境中能夠持續(xù)提升長(zhǎng)任務(wù)的成功率,表現(xiàn)更接近真實(shí)用戶(hù)所需的高穩(wěn)定性。

總結(jié)
GUI-Owl 的發(fā)布,為開(kāi)源社區(qū)帶來(lái)了一個(gè)能力強(qiáng)大的原生端到端多模態(tài) GUI 智能體。它不僅在 AndroidWorld、OSWorld 等關(guān)鍵基準(zhǔn)上刷新了開(kāi)源模型的記錄,其 32B 版本更是在多項(xiàng)評(píng)測(cè)中展現(xiàn)了超越閉源頂級(jí)模型的實(shí)力。更重要的是,它以單一模型之身,即可勝任復(fù)雜的單體任務(wù)與多智能體協(xié)作中的不同角色,顯著降低了部署和資源開(kāi)銷(xiāo)。
而 Mobile-Agent-v3 框架則是為充分釋放 GUI-Owl 潛力而生的最佳拍檔。它通過(guò)精巧的多智能體協(xié)作機(jī)制,進(jìn)一步提升了模型的跨任務(wù)執(zhí)行能力,結(jié)合云端沙箱的靈活性,使其能夠快速適應(yīng)并解決各類(lèi)新場(chǎng)景下的自動(dòng)化難題。
一句話(huà)總結(jié):開(kāi)源,Mobile-Agent-v3 也能跑在最前面。















 
 
 









 
 
 
 