偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

端到端GUI智能體首次實(shí)現(xiàn)“犯錯(cuò)-反思-修正”閉環(huán),模擬人類認(rèn)知全過程

人工智能 新聞
隨著多模態(tài)大模型的發(fā)展,端到端GUI智能體在手機(jī)、電腦等設(shè)備上的自動(dòng)化任務(wù)中展示出巨大潛力。它們能夠看懂設(shè)備屏幕,模擬人類去點(diǎn)擊按鈕、輸入文本,從而完成復(fù)雜的任務(wù)。

端到端多模態(tài)GUI智能體有了“自我反思”能力!南洋理工大學(xué)MMLab團(tuán)隊(duì)提出框架GUI-Reflection。

圖片

隨著多模態(tài)大模型的發(fā)展,端到端GUI智能體在手機(jī)、電腦等設(shè)備上的自動(dòng)化任務(wù)中展示出巨大潛力。它們能夠看懂設(shè)備屏幕,模擬人類去點(diǎn)擊按鈕、輸入文本,從而完成復(fù)雜的任務(wù)。

然而,當(dāng)前端到端GUI多智能體的訓(xùn)練范式仍存在明顯的瓶頸:當(dāng)前模型往往使用幾乎完美的離線演示軌跡進(jìn)行訓(xùn)練,使得模型缺乏反思和改正自身錯(cuò)誤的能力,并進(jìn)一步限制了通過在線強(qiáng)化學(xué)習(xí)激發(fā)和提升能力的可能。

GUI-Reflection的核心思想是在智能體的各個(gè)訓(xùn)練階段引入 “反思與糾錯(cuò)”機(jī)制,這一機(jī)制貫穿預(yù)訓(xùn)練、監(jiān)督微調(diào)和在線訓(xùn)練全過程,模擬了人類“犯錯(cuò)→反思→重試”的認(rèn)知過程。

  1. GUI預(yù)訓(xùn)練階段:提出GUI-Reflection Task Suite任務(wù)套件, 將反思糾錯(cuò)能力進(jìn)一步分解,讓模型在預(yù)訓(xùn)練階段框架讓模型初步接觸反思類任務(wù),為后續(xù)打下基礎(chǔ)。
  2. 離線監(jiān)督微調(diào)階段:構(gòu)建自動(dòng)化數(shù)據(jù)管道,從已有離線無錯(cuò)軌跡中構(gòu)建帶有反思和糾錯(cuò)的行為數(shù)據(jù),讓模型成功習(xí)得反思糾錯(cuò)行為。
  3. 在線訓(xùn)練階段:搭建分布式移動(dòng)端GUI學(xué)習(xí)環(huán)境,并設(shè)計(jì)迭代式反思反饋調(diào)優(yōu)算法,讓模型在與真實(shí)環(huán)境交互中進(jìn)一步提升相關(guān)能力。

圖片

GUI-Reflection框架簡介

GUI-Reflection 是一個(gè)貫穿訓(xùn)練全過程的框架,旨在系統(tǒng)性地賦予多模態(tài)GUI智能體以“自我反思與糾錯(cuò)”的能力。該框架由三大關(guān)鍵階段組成,分別對(duì)應(yīng)模型能力的認(rèn)知啟發(fā)、行為習(xí)得與交互強(qiáng)化:

圖片

1 GUI預(yù)訓(xùn)練階段:啟發(fā)反思相關(guān)能力

圖片

現(xiàn)有GUI預(yù)訓(xùn)練多聚焦于界面理解和操作感知,而忽視了反思相關(guān)的原生能力構(gòu)建。GUI-Reflection 首次提出專為反思設(shè)計(jì)的GUI-Reflection Task Suite,包含三類關(guān)鍵任務(wù):

  • Action Verification(動(dòng)作驗(yàn)證):判斷某一步操作是否達(dá)成了預(yù)期目標(biāo),訓(xùn)練模型識(shí)別執(zhí)行偏差。
  • Action Reversal(動(dòng)作回滾):學(xué)習(xí)如何撤銷錯(cuò)誤操作,回退到正確的任務(wù)路徑。
  • Mistake-Informed Reattempt(基于錯(cuò)誤的再嘗試):在明確過去錯(cuò)誤的前提下,生成新的、改進(jìn)的操作策略。

這些任務(wù)將復(fù)雜的反思行為分解為更細(xì)粒度的認(rèn)知能力,使模型在預(yù)訓(xùn)練階段即具備初步的“反思意識(shí)”。

2 離線監(jiān)督微調(diào)階段:自動(dòng)化構(gòu)建糾錯(cuò)軌跡

針對(duì)當(dāng)前GUI數(shù)據(jù)集缺少犯錯(cuò)和糾錯(cuò)數(shù)據(jù)的問題,GUI-Reflection設(shè)計(jì)了一個(gè)自動(dòng)化反思糾錯(cuò)數(shù)據(jù)生成管道。該方法從已有成功軌跡中自動(dòng)構(gòu)造出“帶錯(cuò)軌跡”與“糾錯(cuò)行為”,實(shí)現(xiàn)數(shù)據(jù)維度上的“反思注入”。具體包括:

  • 目標(biāo)擾動(dòng)生成錯(cuò)誤行為:通過修改原始任務(wù)目標(biāo),使模型原本的動(dòng)作在新目標(biāo)下變成“錯(cuò)誤”動(dòng)作,并構(gòu)建對(duì)應(yīng)的反思錯(cuò)誤行為數(shù)據(jù)。
  • 行為插入模擬失誤:向成功軌跡中插入無效操作,讓模型對(duì)無效錯(cuò)誤操作做出反思并嘗試新的正確操作。

整個(gè)數(shù)據(jù)增強(qiáng)過程無需人工標(biāo)注,使得GUI模型在離線微調(diào)階段習(xí)得了有效的反思行為。

3. 在線訓(xùn)練階段:搭建反饋式反思回路

圖片

為了進(jìn)一步提升模型在真實(shí)環(huán)境中的適應(yīng)能力,GUI-Reflection構(gòu)建了一個(gè)分布式安卓模擬環(huán)境,涵蓋11個(gè)app和 215 個(gè)任務(wù)模板,支持高并發(fā)交互?;诖谁h(huán)境,GUI-Reflection設(shè)計(jì)了一種自動(dòng)化迭代式在線反思調(diào)優(yōu)算法:

  • 成功軌跡將被細(xì)粒度驗(yàn)證,僅保留每一步的有效執(zhí)行;
  • 失敗軌跡則被自動(dòng)定位錯(cuò)誤步驟,并為該步驟自動(dòng)生成前向修正(Pre-Error Correction)與后向反思(Post-Error Reflection)操作。

通過多輪訓(xùn)練迭代與動(dòng)態(tài)采樣策略,模型逐步優(yōu)化其容錯(cuò)率、恢復(fù)能力與復(fù)雜規(guī)劃水平。

實(shí)驗(yàn)結(jié)果

GUI-Reflection Task Suite測(cè)評(píng)結(jié)果

通過在構(gòu)建的GUI-Reflection Task Suite上進(jìn)行評(píng)測(cè)發(fā)現(xiàn):

  • 通用大模型(如 GPT-4o、Gemini)在GUI任務(wù)中具備不錯(cuò)的原生反思能力,能夠初步識(shí)別錯(cuò)誤并進(jìn)行合理推理;
  • 小規(guī)模開源模型在這方面能力明顯不足,尤其在面對(duì)失敗操作時(shí)難以自我修復(fù);
  • 更關(guān)鍵的是,現(xiàn)有的標(biāo)準(zhǔn)GUI預(yù)訓(xùn)練流程,反而會(huì)削弱模型原本具備的反思能力。

當(dāng)在預(yù)訓(xùn)練階段引入反思導(dǎo)向任務(wù)數(shù)據(jù),即使是較小規(guī)模的模型,也能顯著提升其在反思相關(guān)任務(wù)中的表現(xiàn),甚至達(dá)到接近閉源大模型的水平。

圖片

反思行為的有效性

在評(píng)測(cè)環(huán)境中進(jìn)行實(shí)驗(yàn)后觀察到:

  • 在離線監(jiān)督微調(diào)階段引入反思類數(shù)據(jù),可以顯著提升模型的任務(wù)完成表現(xiàn);
  • 進(jìn)一步結(jié)合在線反思調(diào)優(yōu)算法進(jìn)行訓(xùn)練,模型的成功率持續(xù)提升,表現(xiàn)出更強(qiáng)的泛化能力與穩(wěn)定性。

圖片

GUI-Relection-8B模型在AndroidWorld基準(zhǔn)中也實(shí)現(xiàn)了 34.5% 的成功率,證明了GUI-Reflection框架的有效性。這一系列結(jié)果充分表明:在多個(gè)訓(xùn)練階段顯式引入反思機(jī)制,是提升GUI智能體能力的關(guān)鍵路徑,而不僅僅依賴大規(guī)模演示數(shù)據(jù)或強(qiáng)模型本身。

圖片

反思行為樣例

模型能夠成功認(rèn)識(shí)到之前操作的錯(cuò)誤并采取對(duì)應(yīng)操作進(jìn)行回退。

圖片

對(duì)于不熟悉或不確定的操作,模型可以根據(jù)之前的錯(cuò)誤做出新的嘗試。

圖片

結(jié)語

GUI-Reflection為端到端多模態(tài) GUI 智能體注入了全新的“自我反思”能力。從預(yù)訓(xùn)練、離線微調(diào)到在線交互,它系統(tǒng)性地打通了“犯錯(cuò)—反思—修正”的認(rèn)知閉環(huán),使模型在面對(duì)真實(shí)環(huán)境中的不確定性時(shí),能夠更加魯棒、靈活地應(yīng)對(duì)各種突發(fā)狀況。

論文鏈接:https://arxiv.org/abs/2506.08012
項(xiàng)目主頁:https://penghao-wu.github.io/GUI_Reflection
數(shù)據(jù)和模型HF鏈接:https://huggingface.co/collections/craigwu/gui-reflection-683c7fb964b44c0cca842290

代碼倉庫鏈接:https://github.com/penghao-wu/GUI_Reflection

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-12-12 08:42:25

2011-02-22 10:46:02

Samba配置

2024-04-29 09:36:14

仿真器傳感器

2025-06-04 02:35:00

2023-12-18 10:15:30

自動(dòng)駕駛自然語言

2025-01-24 13:44:49

2011-04-18 15:56:10

軟件測(cè)試

2009-12-08 17:56:16

WCF配置

2011-09-06 15:38:20

QT安裝

2011-01-21 17:51:52

2009-04-13 12:37:18

2025-06-20 09:00:00

智能體訓(xùn)練模型

2024-05-23 13:26:27

2021-05-26 10:04:09

人工智能AI深度學(xué)習(xí)

2024-01-03 10:12:07

Kubernetesdeploymentpod

2012-11-06 10:19:18

Java自定義加載Java類

2010-03-01 17:01:03

Python編程技巧

2009-06-10 16:55:42

cygwin netb安裝

2010-03-10 13:24:45

Zend Debugg

2010-11-19 10:11:49

Oracle物化視圖
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)