偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

最新智能體自動(dòng)操作手機(jī)電腦,10個(gè)榜單開源SOTA全拿下|通義實(shí)驗(yàn)室

人工智能 新聞
通義實(shí)驗(yàn)室推出Mobile-Agent-v3智能體框架,在手機(jī)端和電腦端的多個(gè)核心榜單上均取得開源最佳。

能自動(dòng)操作手機(jī)、電腦的智能體新SOTA來了。

通義實(shí)驗(yàn)室推出Mobile-Agent-v3智能體框架,在手機(jī)端和電腦端的多個(gè)核心榜單上均取得開源最佳。

它不僅能做交互界面的問答、描述、定位,也能一條指令獨(dú)立完成復(fù)雜任務(wù),甚至可以在多智能體框架中無縫扮演不同角色。

PC+Web演示:在Edge瀏覽器中搜索阿里巴巴的股價(jià)。然后在WPS中創(chuàng)建一個(gè)新表格,在第一列填寫公司名稱,在第二列填寫股價(jià)。

PC演示:

創(chuàng)建一個(gè)新的空白演示文稿,然后在第一張幻燈片中以藝術(shù)字的形式插入一段文本,內(nèi)容為“阿里巴巴”。

Web演示:

去嗶哩嗶哩看雷軍的視頻,然后給第一個(gè)視頻點(diǎn)贊。

手機(jī)演示:

請(qǐng)幫我在小紅書上搜索濟(jì)南旅游攻略,按收藏?cái)?shù)排序,并保存第一條筆記。

請(qǐng)幫我在攜程上查詢濟(jì)南大明湖風(fēng)景區(qū)的詳細(xì)信息,包括地址、票價(jià)等。

自動(dòng)化操作手機(jī)、電腦成為了各家多模態(tài)大模型攻堅(jiān)的主戰(zhàn)場(chǎng)。但是現(xiàn)有的模型,要么被訓(xùn)練成一個(gè)專用模型,輸入輸出格式固定,沒有多面能力;要么就是能力不夠強(qiáng)的通用模型,雖然能遵循指令,但實(shí)際執(zhí)行總是磕磕絆絆。

這次來自通義實(shí)驗(yàn)室的Mobile-Agent團(tuán)隊(duì)給出新穎的解決方案,訓(xùn)練一個(gè)兼具基礎(chǔ)能力與推理泛化能力的圖形交互基礎(chǔ)模型(Foundational Agent)

它既能獨(dú)當(dāng)一面,在AndroidWorld、OSWorld、ScreenSpot等10個(gè)主流GUI榜單中均取得了開源SOTA的水平;也能承擔(dān)對(duì)話、問答、定位、界面描述等基礎(chǔ)任務(wù)。

自我進(jìn)化軌跡生產(chǎn)基建 (Self-Evolving Trajectory Production)

GUI基礎(chǔ)模型的訓(xùn)練離不開大規(guī)模、高質(zhì)量的軌跡數(shù)據(jù)。為此,通義MobileAgent團(tuán)隊(duì)依托阿里云強(qiáng)大的云能力,構(gòu)建了一整套覆蓋Android、Ubuntu、macOS、Windows的跨平臺(tái)云環(huán)境基礎(chǔ)設(shè)施。通過PyAutoGUI和ADB等工具,打通了模型輸出到系統(tǒng)執(zhí)行的障礙,使得模型可以大規(guī)模并行地在隔離的云端沙箱中進(jìn)行任務(wù)執(zhí)行和軌跡爬取。

在云環(huán)境基礎(chǔ)上,團(tuán)隊(duì)設(shè)計(jì)了一套名為“Self-Evolving GUI Trajectory Production”的自動(dòng)化數(shù)據(jù)生產(chǎn)鏈路,其核心是實(shí)現(xiàn)數(shù)據(jù)采集與模型優(yōu)化的自動(dòng)化閉環(huán)。它首先通過高質(zhì)量任務(wù)生成模塊(High-Quality Query Generation)產(chǎn)出豐富多樣的任務(wù)指令,再讓GUI-Owl模型在云環(huán)境中執(zhí)行(Roll-out)并爬取軌跡。

軌跡正確性判斷模塊(Trajectory Correctness Judgment)會(huì)對(duì)這些軌跡進(jìn)行打分和篩選。

對(duì)于模型難以完成的高難度任務(wù),任務(wù)指南生成模塊(Query-specific Guidance Generation)會(huì)基于成功案例或人工標(biāo)注,提煉出關(guān)鍵步驟提示,幫助模型在下一輪嘗試中提高成功率。

最終,這些經(jīng)過層層篩選和優(yōu)化的的高質(zhì)量軌跡被用于模型的迭代訓(xùn)練,形成一個(gè)不斷自我增強(qiáng)的飛輪。

GUI知識(shí) & 推理能力 Are All You Need

Mobile-Agent團(tuán)隊(duì)發(fā)現(xiàn),構(gòu)建通用的GUI基礎(chǔ)模型(Foundational Agent)的關(guān)鍵在于強(qiáng)大的GUI基礎(chǔ)知識(shí)以及魯棒的推理能力。前者保證模型有解決問題的基本功,后者保證模型能夠適應(yīng)各種下游場(chǎng)景,無論是單打獨(dú)斗,還是多智能體協(xié)同。

一、精準(zhǔn)的界面元素定位:讓AI“指哪打哪”

要讓AI真正理解圖形界面,首先得讓它知道“每個(gè)元素在哪、是什么、怎么用”。為此,團(tuán)隊(duì)構(gòu)建了兩類接地(grounding)任務(wù)數(shù)據(jù):

1. UI元素定位數(shù)據(jù)來源包括三部分:

開源數(shù)據(jù)集 - 整合了UI-Vision、GUI-R1等多個(gè)公開GUI數(shù)據(jù)集。

基于無障礙樹(A11y Tree)的數(shù)據(jù)合成 - 利用移動(dòng)端和桌面端的無障礙信息,提取UI元素的邊界框及其功能描述,并結(jié)合多模態(tài)大模型生成外觀與布局描述。

爬取PC截圖的密集定位 - 針對(duì)PC端標(biāo)注數(shù)據(jù)稀缺的問題,團(tuán)隊(duì)爬取大量界面截圖,采用SAM模型將圖像分割為多個(gè)子區(qū)域,再由多模態(tài)大模型在每個(gè)區(qū)域內(nèi)進(jìn)行細(xì)粒度接地,有效解決了PC界面元素密集、難以分割的痛點(diǎn)。

為保證質(zhì)量,所有標(biāo)注結(jié)果均與Omniparser V2的UI檢測(cè)結(jié)果進(jìn)行比對(duì),過濾掉IoU低于0.5的噪聲框。同時(shí),原始指令經(jīng)由大模型重寫為更自然、任務(wù)導(dǎo)向的表達(dá)。

2. 細(xì)粒度文字與字符接地(Fine-grained Text Grounding)針對(duì)文檔類界面中文字精確定位的需求,團(tuán)隊(duì)收集文檔圖像,結(jié)合OCR工具提取文本內(nèi)容及其空間坐標(biāo),構(gòu)建出支持單詞甚至單字符級(jí)定位的數(shù)據(jù)集,使模型能夠準(zhǔn)確響應(yīng)“點(diǎn)擊第三段第二行的‘提交’二字”這類精細(xì)指令。

二、復(fù)雜任務(wù)規(guī)劃:教會(huì)AI“先想后做”

面對(duì)長(zhǎng)周期、跨應(yīng)用的真實(shí)任務(wù),模型不僅需要“看得懂”,更要“想得清”。為此,團(tuán)隊(duì)從兩個(gè)維度構(gòu)建任務(wù)規(guī)劃數(shù)據(jù):

從歷史軌跡中提煉經(jīng)驗(yàn) - 基于已有的成功操作軌跡,對(duì)每一步頁面跳轉(zhuǎn)進(jìn)行細(xì)粒度描述,通過大模型整理成結(jié)構(gòu)化的“任務(wù)執(zhí)行手冊(cè)”。

從大規(guī)模預(yù)訓(xùn)練語言模型中蒸餾知識(shí) - 收集主流應(yīng)用列表,由人工或模型生成復(fù)雜任務(wù),交由Qwen3-235B等超大規(guī)模語言模型生成詳細(xì)執(zhí)行計(jì)劃,再經(jīng)整合清洗,形成高質(zhì)量的任務(wù)規(guī)劃數(shù)據(jù)集。

三、動(dòng)作語義理解:掌握“操作如何改變界面”

一個(gè)優(yōu)秀的界面智能體,必須理解“動(dòng)作”與“狀態(tài)變化”之間的因果關(guān)系?;诖罅空鎸?shí)操作軌跡,團(tuán)隊(duì)構(gòu)建了“操作前”/“操作后”的截圖對(duì),核心任務(wù)是讓模型根據(jù)界面變化,反向推斷出中間發(fā)生的操作——包括動(dòng)作類型和具體參數(shù)。

這類數(shù)據(jù)直接來自離線采集的軌跡,真實(shí)可靠,幫助模型建立起『視覺差異 → 用戶行為』的因果映射能力。

強(qiáng)化學(xué)習(xí)進(jìn)階:讓AI在真實(shí)交互中“越練越強(qiáng)”

僅靠離線SFT數(shù)據(jù)還不夠,模型需要在與環(huán)境的真實(shí)交互中持續(xù)學(xué)習(xí),才能解決長(zhǎng)尾問題、提升決策魯棒性。

為此,Mobile-Agent團(tuán)隊(duì)引入強(qiáng)化學(xué)習(xí)(RL),并構(gòu)建了一套高效、靈活的訓(xùn)練基礎(chǔ)設(shè)施:

1 解耦式、可調(diào)控的Rollout機(jī)制:將經(jīng)驗(yàn)生成與策略更新完全解耦。系統(tǒng)既可嚴(yán)格按策略同步運(yùn)行,也可異步執(zhí)行,同時(shí)Rollout服務(wù)可獨(dú)立部署在專用于推理的硬件上,在不犧牲學(xué)習(xí)質(zhì)量的前提下,顯著提升訓(xùn)練吞吐效率。

2 統(tǒng)一的多任務(wù)接口:無論是單步推理還是多輪交互的復(fù)雜任務(wù),都通過統(tǒng)一的插件接口接入系統(tǒng),極大降低了新環(huán)境的接入成本。

3 獨(dú)創(chuàng)的軌跡感知相對(duì)策略優(yōu)化(TRPO)算法:

  • 直面挑戰(zhàn):GUI任務(wù)的獎(jiǎng)勵(lì)信號(hào)通常是稀疏且延遲的(Sparse & Delayed),這給傳統(tǒng)的RL帶來了巨大的信用分配難題(Credit Assignment Problem)。
  • 解決方案:TRPO算法在一次任務(wù)結(jié)束后,對(duì)整條軌跡計(jì)算一個(gè)總獎(jiǎng)勵(lì)(成功+1,失敗0,格式錯(cuò)誤-0.5)。然后,通過歸一化的優(yōu)勢(shì)估計(jì)(Normalized Advantage Estimate),將這個(gè)獎(jiǎng)勵(lì)信號(hào)穩(wěn)定且均勻地分配給軌跡中的每一步操作
  • 關(guān)鍵創(chuàng)新:**引入了基于任務(wù)ID的成功軌跡回放池(Replay Buffer)。 當(dāng)某個(gè)任務(wù)的在線探索(Rollout)全部失敗時(shí),系統(tǒng)會(huì)從池中取出一個(gè)歷史成功軌跡替換掉其中一個(gè)失敗樣本,確保每個(gè)訓(xùn)練批次都有正向信號(hào)**,極大提升了學(xué)習(xí)效率和穩(wěn)定性。

通過這套先進(jìn)的RL框架,GUI-Owl在動(dòng)態(tài)環(huán)境中的表現(xiàn)得到巨大提升,在OSWorld-Verified基準(zhǔn)測(cè)試中,成功率從27.1%穩(wěn)定提升至34.9%。

多智能體協(xié)同:讓AI團(tuán)隊(duì)協(xié)作完成復(fù)雜任務(wù)

團(tuán)隊(duì)在GUI-Owl強(qiáng)大能力基礎(chǔ)上,進(jìn)一步推出Mobile-Agent-v3,一個(gè)支持知識(shí)演進(jìn)、任務(wù)規(guī)劃、子任務(wù)執(zhí)行與反思推理的多智能體協(xié)作框架。Mobile-Agent-v3由四位“特工”協(xié)同驅(qū)動(dòng),并且這四個(gè)角色均由同一個(gè)GUI-Owl模型扮演。

Manager Agent負(fù)責(zé)全局戰(zhàn)略規(guī)劃。接到用戶指令后,它會(huì)先調(diào)用RAG模塊檢索外部知識(shí),然后將高階任務(wù)拆解為有序的子目標(biāo)序列。在執(zhí)行過程中,它持續(xù)接收反饋,動(dòng)態(tài)調(diào)整計(jì)劃。

Worker Agent負(fù)責(zé)執(zhí)行操作。面對(duì)當(dāng)前界面狀態(tài),它選擇最合適的動(dòng)作并執(zhí)行,輸出包含推理過程、操作指令與意圖說明的完整行動(dòng)元組(Action Tuple)。

Reflector Agent負(fù)責(zé)事后復(fù)盤。每一步操作后,它都會(huì)比對(duì)Worker的預(yù)期結(jié)果與實(shí)際界面變化,判斷結(jié)果為 成功 或 失敗,并生成詳細(xì)的歸因分析。

Notetaker Agent負(fù)責(zé)記憶沉淀。僅在成功操作后觸發(fā),它會(huì)自動(dòng)提取關(guān)鍵信息——如驗(yàn)證碼、訂單號(hào)等——存入長(zhǎng)期記憶,供后續(xù)步驟使用。

四者協(xié)同,形成一個(gè)閉環(huán)增強(qiáng)的自動(dòng)化流水線:拆解 → 執(zhí)行 → 檢查 → 記錄 → 調(diào)整 → 再執(zhí)行。

在Mobile-Agent-v3的架構(gòu)下,AI不再盲目試錯(cuò),而是有計(jì)劃地行動(dòng)、有依據(jù)地修正、有記憶地推進(jìn)。

實(shí)驗(yàn)結(jié)果

團(tuán)隊(duì)還開源了全新的全異步、軌跡級(jí)強(qiáng)化學(xué)習(xí)框架,并提出獨(dú)創(chuàng)的軌跡感知相對(duì)策略優(yōu)化(TRPO)算法,在OSWorld動(dòng)態(tài)環(huán)境中將成功率提升近8個(gè)百分點(diǎn),展現(xiàn)出自進(jìn)化潛力。

在遇到復(fù)雜任務(wù)時(shí),端到端模型往往力不從心,這時(shí)就需要多智能體框架來幫大模型理清工作流程。然而GUI專用模型因指令遵循能力弱,很難用于多智能體框架。GUI-Owl通過對(duì)推理數(shù)據(jù)的深度訓(xùn)練,使其能在一個(gè)模型內(nèi)無縫扮演規(guī)劃者、執(zhí)行者、反思者、記錄員等多種角色。 配合全新的Mobile-Agent-v3框架,在真實(shí)環(huán)境評(píng)測(cè)中,帶來了高達(dá)7~8個(gè)百分點(diǎn)的性能提升。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-11-20 09:38:40

2025-09-02 12:09:33

2025-07-30 09:07:00

2019-01-31 09:00:00

開源實(shí)驗(yàn)室管理系統(tǒng)

2025-09-23 01:00:00

2021-08-04 09:48:05

數(shù)字化

2015-11-12 13:11:17

TensorFlow人工智能系統(tǒng)谷歌

2018-11-09 15:47:07

剪輯工具

2015-02-06 09:23:52

賽可達(dá)實(shí)驗(yàn)室網(wǎng)絡(luò)安全

2011-05-25 17:51:40

2025-09-24 10:24:57

2020-01-14 11:28:43

IBM開源SysFlow

2012-09-28 16:25:50

COSUGOpenStackCOSCL

2025-09-23 03:00:00

2017-10-12 15:51:14

AI人工智能

2012-11-08 20:22:18

2025-06-04 08:42:00

2020-12-31 12:09:56

Ansible實(shí)驗(yàn)室Linux

2020-10-24 23:30:15

5G

2009-09-21 11:45:36

CCIE實(shí)驗(yàn)室考試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)