偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讓GUI智能體不再「過度執(zhí)行」,上海交大、Meta聯(lián)合發(fā)布OS-Kairos系統(tǒng)

人工智能 新聞
本論文提出了 OS-Kairos,一種具有自適應交互能力的新型 GUI 智能體系統(tǒng)。

本文第一作者是上海交通大學計算機學院三年級博士生程彭洲,研究方向為多模態(tài)大模型推理、AI Agent、Agent 安全等。通訊作者為張倬勝助理教授和劉功申教授。

一、論文概述

1.1 研究背景

隨著多模態(tài)大語言模型(Multimodal Large Language Models, MLLMs)的快速發(fā)展,越來越多的研究聚焦于構建能夠在圖形用戶界面(GUI)中執(zhí)行復雜任務的智能體。這些智能體利用視覺感知與語言理解能力,已在移動應用、Web 導航及桌面操作等領域顯示出巨大潛力。然而,現(xiàn)有系統(tǒng)大多采用 “全自動” 執(zhí)行范式,在面對真實場景中的模糊指令、環(huán)境干擾或系統(tǒng)異常時,常出現(xiàn)誤操作或任務失敗等現(xiàn)象。這類 “過度執(zhí)行”(Over-execution)問題,嚴重限制了 GUI 智能體在實際應用中的安全性與可靠性。

圖片

三種復雜場景

1.2 研究問題

本研究關注一個核心問題:如何賦予 GUI 智能體自我評估其行為置信度的能力,并基于此實現(xiàn)自主與人工交互間的動態(tài)切換,從而在復雜環(huán)境中提升任務完成率與交互效率。具體而言,當前 GUI 智能體在操作中缺乏對 “當前步驟是否需要人工指導” 的判斷能力,一旦模型在某一步操作中產(chǎn)生低置信度的決策,仍可能繼續(xù)執(zhí)行錯誤行為,導致后續(xù)任務鏈條崩潰。論文嘗試解決的正是這種因無法判斷自身能力邊界而導致的系統(tǒng)性失誤。

圖片

自主智能體易產(chǎn)生 “過度執(zhí)行”,而 OS-Kairos 會精準的請求人類介入

1.3 主要貢獻

本論文提出了 OS-Kairos,一種具有自適應交互能力的新型 GUI 智能體系統(tǒng),其主要貢獻如下:

(i)引入置信度預測機制,讓 GUI 智能體能夠在每一步操作中評估自身執(zhí)行的信心,并據(jù)此決定是否調(diào)用人類或高級模型介入,實現(xiàn)真正的 “可控自主”。

(ii)設計了協(xié)同探測框架(Collaborative Probing Framework),通過 GPT-4o 與界面解析模型協(xié)同,為每一個交互步驟自動打分,生成高質(zhì)量的含置信度標注的操作軌跡數(shù)據(jù)集。

(iii)提出置信驅(qū)動交互策略(Confidence-driven Interaction),將置信度評分作為模型訓練的一部分,通過監(jiān)督學習將置信判斷能力整合進 GUI 智能體本身,并通過閾值實現(xiàn)自適應調(diào)節(jié)。

(iv)OS-Kairos 在我們精選的復雜場景數(shù)據(jù)集和完善的移動基準上都遠遠優(yōu)于現(xiàn)有模型,具有有效性、通用性、可擴展性和效率的優(yōu)點。

圖片

  • 論文標題:OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents
  • 論文鏈接:https://arxiv.org/abs/2503.16465
  • 論文代碼:https://github.com/Wuzheng02/OS-Kairos

二、方法與理論

本研究提出了一種新型的 GUI 智能體系統(tǒng) OS-Kairos,旨在通過操作置信度的引入與動態(tài)人機協(xié)作機制,解決現(xiàn)有智能體在復雜任務中 “過度執(zhí)行” 的問題。整個系統(tǒng)方法框架由兩大核心機制組成:協(xié)同探測框架與置信驅(qū)動交互策略。

2.1 協(xié)同探測框架

圖片

協(xié)作探測框架

該機制旨在為每個交互步驟生成高質(zhì)量的置信度標注數(shù)據(jù),是 OS-Kairos 訓練和推理能力構建的基礎,主要包含以下三個階段:

1)復雜任務指令收集與擴展

研究團隊從公共數(shù)據(jù)集與人類專家設計中收集典型的復雜指令(如模糊描述、權限缺失、環(huán)境劫持等),再利用 GPT-4 等生成式模型對其擴展,以保證覆蓋多語言、多 APP、多場景。

2)置信度打分機制設計

核心機制采用 “Actor-Critic” 協(xié)同范式:

  • Probing Agent:執(zhí)行用戶指令;
  • Critic Model:基于 GPT-4o 和 UI 結(jié)構解析,對每一步操作給予置信度評分(1~5 分);
  • 若評分低于 5,裁判將給出正確操作建議并繼續(xù)測試,直到任務完成。

通過這種協(xié)同探測過程,系統(tǒng)能夠自動生成含有操作 - 評分配對的完整 GUI 軌跡數(shù)據(jù)。

3) 數(shù)據(jù)清洗與優(yōu)化

生成的數(shù)據(jù)進一步經(jīng)過一致性驗證與軌跡修正,以確保每一步操作的執(zhí)行意圖與置信度合理匹配,為后續(xù)置信度集成提供高質(zhì)量訓練數(shù)據(jù)。

2.2 置信驅(qū)動交互策略

在獲得高質(zhì)量軌跡數(shù)據(jù)后,研究者設計了一套結(jié)合置信度分數(shù)的模型訓練與推理策略,使 GUI 智能體具備 “按需請求人類干預” 的能力:

1)聯(lián)合預測訓練

在訓練階段,模型基于指令微調(diào)在不改變動作預測能力下,植入預測該動作的置信度分值。該訓練方式確保模型具備準確行為預測與自信程度評估的雙重能力。

2)動態(tài)交互控制機制

在部署階段,系統(tǒng)通過設定一個置信度閾值 γ,對每一步操作進行判斷:

  • 若置信度 ≥ γ,自動執(zhí)行;
  • 若置信度 < γ,觸發(fā)人類干預或高級模型輔助。

這一機制類似于大語言模型的溫度系數(shù),可以根據(jù)應用需求靈活調(diào)節(jié),兼顧效率與可靠性。例如:γ = 1 時,模型完全自動執(zhí)行;γ = 5 時,模型步步請求干預;γ = 3~4 時實現(xiàn)最優(yōu)的人機協(xié)同平衡。

三、實驗與結(jié)果

3.1 實驗設置

為系統(tǒng)評估 OS-Kairos 的性能,作者在多個層面構建了完整的實驗體系,涵蓋真實復雜場景、自構建數(shù)據(jù)集與公開基準,并對比多種類型的現(xiàn)有 GUI 智能體模型。

3.1.1 數(shù)據(jù)集

1)復雜場景測試集(自構建):作者利用真實 Android 設備、12 個常見 App(如 Amazon、微信、設置等)與 12 類任務主題(如購物、登錄、搜索等)構建了 1000 條復雜任務指令,涵蓋類型包括:

a) 任務類型涵蓋:模糊指令(如省略主語、目標不明確)

b) 環(huán)境干擾(如彈窗、網(wǎng)絡斷連)

c) 異常狀態(tài)(如登錄過期、權限不足)

每條任務指令被逐步執(zhí)行并由 GPT-4o 輔助評分,生成具有置信度標注的完整 GUI 軌跡數(shù)據(jù)。

2)公開基準數(shù)據(jù)集

a) AITZ(Android In The Zoo):包含復雜鏈式操作,強調(diào) reasoning 和 action planning。

b) Meta-GUI:結(jié)合多模態(tài)對話和 GUI 控制,支持任務引導與精細指令執(zhí)行。

數(shù)據(jù)集被劃分為訓練集(80%)和測試集(20%),用于模型訓練與評估。

3.1.2 評估指標

為了全面評價 GUI 智能體的表現(xiàn),作者采用了以下多個指標:動作類型準確率(Type)、步驟級成功率(SR)、任務完成率(TSR)、人機介入成功率(HSR)、干預精度(IP)等。

3.1.3 比較模型設置

實驗的設置分為 Fine-tuning 和 Zero-shot 模式,對比的模型涵蓋三類:

1) API 接口型模型

a) GPT-4o

b) GPT-4V-Plus

c) Qwen-VL-MAX

2) 開源多模態(tài)模型

a) Qwen2-VL-7B

b) OS-Atlas-Pro-7B

c) Auto-UI

3.1.4 模型與訓練設置

為了確保實驗的公平性,每個數(shù)據(jù)集的任務軌跡被隨機劃分為 80% 用于訓練數(shù)據(jù),20% 用于測試數(shù)據(jù)。在 Zero-shot 中,模型直接通過 prompt 學習進行評估,不依賴任何額外的微調(diào)。在 Fine-tuning 設置下,模型在對應的數(shù)據(jù)集上進行 8 輪訓練,學習率為 1e-5。在交互模式下,OS-Kairos 使用一個默認的置信度閾值 γ=4,當當前步驟的置信度低于此閾值時,系統(tǒng)會請求人工干預。在整個過程中,GPT-4o 被用作裁判模型對每一步的動作進行評分,確保評估的一致性和可靠性。

3.2 實驗結(jié)果

3.2.1 主要實驗結(jié)果

圖片

表 1: Zero-shot 設置下 OS-Kairos 與基線比較的結(jié)果

1)在 Zero-shot 設置下,OS-Kairos 無需改變模型能力,僅通過引入置信度驅(qū)動的自適應交互機制,就顯著優(yōu)于多個基線模型。在三個數(shù)據(jù)集上均表現(xiàn)出色,復雜場景下實現(xiàn)了 95.90% 的步驟成功率和 88.20% 的任務完成率。相比之下,現(xiàn)有 API 模型雖具備通用性,但因無法識別關鍵復雜步驟,易出現(xiàn)過度執(zhí)行而導致任務失敗,凸顯了 OS-Kairos 在可靠性。

圖片

表 2: Fine-tuning 設置下 OS-Kairos 與基線比較的結(jié)果

2)盡管 Fine-tuning 在一定程度上緩解了 GUI 智能體的過度執(zhí)行問題,但是 OS-Kairos 依然表現(xiàn)出更強的性能,尤其在復雜場景中,其任務完成率(TSR)帶來 26.09% 到 85.72% 的絕對提升。通過識別如 SCROLL 等關鍵復雜步驟,OS-Kairos 實現(xiàn)了更精準的優(yōu)化,而傳統(tǒng)微調(diào)方法則可能引入操作偏差或面臨優(yōu)化瓶頸。

圖片

三種數(shù)據(jù)集下介入精度分析

3)OS-Kairos 的置信度評分機制實現(xiàn)了高效的人機交互(HSR)。在復雜場景與 Meta-GUI 中,其對自主執(zhí)行步驟的判斷高度準確,AP 指標分別達到 96.44% 和 93.18%,同時在人為干預步驟中保持 70% 以上的干預精度(IP)。這表明 OS-Kairos 能有效區(qū)分何時應請求幫助、何時應獨立執(zhí)行,避免不必要的干預。研究還指出,結(jié)合高質(zhì)量采樣,系統(tǒng)在如 AITZ 等數(shù)據(jù)集中的表現(xiàn)有望進一步提升。

3.2.2 實驗分析

3.2.2.1 動態(tài)評估

圖片

以往的基準評估一般基于靜態(tài)分析,難以反映 GUI 智能體在真實環(huán)境中的自主規(guī)劃與泛化能力。為此,論文在移動設備上報告了實際任務完成率(TSR)。結(jié)果顯示,現(xiàn)有基線模型的 TSR 僅為 4% 和 26%,GPT-4o 為 36%,而 OS-Kairos 在介入時通過引入 GPT-4o 決策,達到了這一上限。在引入人工干預后,OS-Kairos 的 TSR 從 32% 提升至 70%,充分證明自適應交互機制在真實場景中具有顯著優(yōu)勢,是實現(xiàn)高效 GUI 智能體的有效范式。

3.2.2.2 效率評估

表 4 還展示了 OS-Kairos 在真實環(huán)境中的執(zhí)行效率。基于 50 條指令統(tǒng)計,人工執(zhí)行的最優(yōu)步驟數(shù)約為 429 步。在最大操作步數(shù)限制為 10 的條件下,基線模型在遇到復雜步驟時普遍存在過度執(zhí)行現(xiàn)象。而 OS-Kairos 更貼近人類的操作行為,其相對效率(RE)分別達到 86.42% 和 93.47%,顯著優(yōu)于基線,體現(xiàn)了其高效且穩(wěn)健的交互能力。

3.2.2.3 置信度集成范式評估

表 5 對比了 OS-Kairos 與基于 prompt 的交互模型,結(jié)果顯示 OS-Kairos 的交互機制顯著優(yōu)于 prompt 驅(qū)動范式,尤其在介入成功率(HSR)上超越了 prompt 模式下的 OS-Atlas-Pro-7B。盡管 GPT-4o 和 GLM-4V-Plus 具備較強的感知和定位能力,API 型 GUI Agent 仍表現(xiàn)出不穩(wěn)定性,易出現(xiàn)過度執(zhí)行,影響整體效果。在開源模型中,Qwen2-VL-7B 的表現(xiàn)相對更穩(wěn)定,而 OS-Atlas-Pro-7B 在 prompt 模式下指令執(zhí)行能力被嚴重干擾。

圖片

3.2.2.4 模型和數(shù)據(jù)分析

圖片

圖片

盡管基于 7B 模型構建,OS-Kairos 通過置信度評分與數(shù)據(jù)蒸餾,可有效遷移至 2B~7B 模型。在 Qwen2-VL-2B、4B 和 7B 上分別達到 85.09%、77.64% 和 76.40% 的 TSR,表現(xiàn)出良好的精度與兼容性,適用于資源受限環(huán)境部署。OS-Kairos 在不同數(shù)據(jù)規(guī)模下依然保持穩(wěn)定表現(xiàn),TSR 可達 76.19%~88.20%。即便使用少量探測數(shù)據(jù),置信度機制也能有效支撐模型訓練,成本遠低于微調(diào)。

3.2.2.5 交互敏感度分析

圖片

圖片

OS-Kairos 通過調(diào)節(jié)置信度閾值 γ 實現(xiàn)自適應交互。消融實驗表明,γ 提高可顯著提升 TSR 和 SR,而 HSR 與操作準確率保持穩(wěn)定,說明其能有效識別復雜步驟,減少過度執(zhí)行。在 γ = 2 時,僅需 19% 的人工干預即可達到接近微調(diào)的效果,展現(xiàn)出良好的靈活性與實用性。

四、討論與啟示

4.1 主要發(fā)現(xiàn)總結(jié)

本研究通過全面的實驗評估,得出了以下主要發(fā)現(xiàn):

1.OS-Kairos 在多個數(shù)據(jù)集上顯著優(yōu)于 prompt-based 基線模型及微調(diào)模型,充分證明自適應交互機制對于提升 GUI Agent 任務完成的可靠性與魯棒性具有關鍵作用。

2. 置信驅(qū)動交互高效穩(wěn)定:OS-Kairos 能穩(wěn)定區(qū)分何時需要干預,有效避免過度執(zhí)行。

3. 真實設備測試表現(xiàn)優(yōu)越:在移動設備上運行時,OS-Kairos TSR 達 32%(無干預)至 70%(有干預),遠超現(xiàn)有開源和商用模型,接近 GPT-4o 的上限水平。

4. 模型規(guī)模與數(shù)據(jù)成本友好:置信度機制可遷移至 2B~7B 模型,在資源受限場景中依然保持 76% 以上的 TSR,僅需少量探測數(shù)據(jù)即可訓練,成本遠低于全量微調(diào)。

4.2 啟示

4.2.1 對從業(yè)者的啟示

1. 增強系統(tǒng)可靠性:置信度驅(qū)動的自適應交互機制可顯著減少錯誤操作,提升系統(tǒng)在復雜真實場景中的穩(wěn)定性與安全性。

2. 支持人機協(xié)作設計:通過動態(tài)決策是否請求用戶干預,系統(tǒng)可靈活權衡自主性與可控性,適用于高風險任務如金融、醫(yī)療等場景。

4.2.2 對研究社區(qū)的啟示

1. 拓展交互智能研究范式:本研究強調(diào)從 “全自主執(zhí)行” 轉(zhuǎn)向 “置信度引導下的自適應協(xié)作”,為多模態(tài) GUI 智能體設計提供新思路。

2. 提出具遷移性的框架設計:驗證了數(shù)據(jù)蒸餾與置信機制在不同模型規(guī)模下的一致性,鼓勵發(fā)展輕量級、可推廣的交互方法。

3. 推動標準評估體系更新:指出靜態(tài)測試局限,倡導引入真實環(huán)境 + 交互能力評估的新標準,有助于更全面地衡量 GUI Agent 的實用性與可靠性。

4.3 批判性分析

1. 適用范圍與可推廣性:目前系統(tǒng)主要驗證于移動 GUI 環(huán)境,對于桌面端、Web 端尚未進行測試,其泛化能力在更復雜的多模態(tài)交互系統(tǒng)中仍需驗證。

2. 置信度分數(shù):置信度分數(shù)是來自 Actor-Critic 探測架構下的 GPT-4o 給出,其準確性需要進一步驗證。

五. 局限性與未來工作

5.1 局限性

1. 任務類型與應用場景有限:實驗主要集中在移動端單任務 GUI 環(huán)境,對于桌面端、多窗口、Web 或混合界面等復雜交互形式尚未驗證。

2. 依賴外部大模型評分:當前系統(tǒng)在訓練與評估中使用 GPT-4o 作為置信度評分器,提升了標注質(zhì)量,但其準確性需進一步優(yōu)化。

3. 過度介入:OS-Kairos 通過置信度分數(shù)評估是否需要人類介入,但過度介入會影響 GUI Agent 的自動化。

5.2 未來工作

1. 實現(xiàn)模型內(nèi)部置信度量化:當前置信度依賴外部模型,未來可探索在智能體內(nèi)部實現(xiàn)置信度量化,提升推理效率與部署實用性。

2. 優(yōu)化交互決策策略:為避免過度執(zhí)行或頻繁干預,可引入動態(tài)閾值或強化學習策略,實現(xiàn)更靈活、高效的人機協(xié)作控制。

3. 支持復雜任務與跨平臺部署:推動模型在桌面端和 Web 平臺的應用,增強其處理復雜任務和多模態(tài)語音輸入的能力,提升泛化性與實用性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-24 13:04:01

2024-07-08 06:50:00

2025-07-16 09:05:00

AI評測模型

2024-10-18 15:20:00

2020-07-23 09:32:50

AI 數(shù)據(jù)人工智能

2021-07-22 15:25:14

開源技術 框架

2025-05-27 15:23:05

智能體訓練AI

2025-09-22 17:59:26

2025-03-13 13:10:00

2009-05-18 09:25:00

2025-10-28 09:03:08

2025-07-10 08:50:00

2024-04-01 07:25:00

AI框架

2014-04-15 15:49:19

博世2014

2025-06-11 09:17:00

2022-03-09 09:23:17

AI引擎檢測

2025-04-23 12:09:25

RL大模型進化

2009-07-03 11:42:00

點贊
收藏

51CTO技術棧公眾號