偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<bdo id="e7zwx"></bdo>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

讓GUI智能體不再「過度執(zhí)行」，上海交大、Meta聯(lián)合發(fā)布OS-Kairos系統(tǒng)

2025-07-03 09:27:57

人工智能新聞

本論文提出了 OS-Kairos，一種具有自適應交互能力的新型 GUI 智能體系統(tǒng)。

本文第一作者是上海交通大學計算機學院三年級博士生程彭洲，研究方向為多模態(tài)大模型推理、AI Agent、Agent 安全等。通訊作者為張倬勝助理教授和劉功申教授。

一、論文概述

1.1 研究背景

隨著多模態(tài)大語言模型（Multimodal Large Language Models, MLLMs）的快速發(fā)展，越來越多的研究聚焦于構建能夠在圖形用戶界面（GUI）中執(zhí)行復雜任務的智能體。這些智能體利用視覺感知與語言理解能力，已在移動應用、Web 導航及桌面操作等領域顯示出巨大潛力。然而，現(xiàn)有系統(tǒng)大多采用 “全自動” 執(zhí)行范式，在面對真實場景中的模糊指令、環(huán)境干擾或系統(tǒng)異常時，常出現(xiàn)誤操作或任務失敗等現(xiàn)象。這類 “過度執(zhí)行”（Over-execution）問題，嚴重限制了 GUI 智能體在實際應用中的安全性與可靠性。

三種復雜場景

1.2 研究問題

本研究關注一個核心問題：如何賦予 GUI 智能體自我評估其行為置信度的能力，并基于此實現(xiàn)自主與人工交互間的動態(tài)切換，從而在復雜環(huán)境中提升任務完成率與交互效率。具體而言，當前 GUI 智能體在操作中缺乏對 “當前步驟是否需要人工指導” 的判斷能力，一旦模型在某一步操作中產(chǎn)生低置信度的決策，仍可能繼續(xù)執(zhí)行錯誤行為，導致后續(xù)任務鏈條崩潰。論文嘗試解決的正是這種因無法判斷自身能力邊界而導致的系統(tǒng)性失誤。

自主智能體易產(chǎn)生 “過度執(zhí)行”，而 OS-Kairos 會精準的請求人類介入

1.3 主要貢獻

本論文提出了 OS-Kairos，一種具有自適應交互能力的新型 GUI 智能體系統(tǒng)，其主要貢獻如下：

（i）引入置信度預測機制，讓 GUI 智能體能夠在每一步操作中評估自身執(zhí)行的信心，并據(jù)此決定是否調(diào)用人類或高級模型介入，實現(xiàn)真正的 “可控自主”。

（ii）設計了協(xié)同探測框架（Collaborative Probing Framework），通過 GPT-4o 與界面解析模型協(xié)同，為每一個交互步驟自動打分，生成高質(zhì)量的含置信度標注的操作軌跡數(shù)據(jù)集。

（iii）提出置信驅(qū)動交互策略（Confidence-driven Interaction），將置信度評分作為模型訓練的一部分，通過監(jiān)督學習將置信判斷能力整合進 GUI 智能體本身，并通過閾值實現(xiàn)自適應調(diào)節(jié)。

（iv）OS-Kairos 在我們精選的復雜場景數(shù)據(jù)集和完善的移動基準上都遠遠優(yōu)于現(xiàn)有模型，具有有效性、通用性、可擴展性和效率的優(yōu)點。

論文標題：OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents
論文鏈接：https://arxiv.org/abs/2503.16465
論文代碼：https://github.com/Wuzheng02/OS-Kairos

二、方法與理論

本研究提出了一種新型的 GUI 智能體系統(tǒng) OS-Kairos，旨在通過操作置信度的引入與動態(tài)人機協(xié)作機制，解決現(xiàn)有智能體在復雜任務中 “過度執(zhí)行” 的問題。整個系統(tǒng)方法框架由兩大核心機制組成：協(xié)同探測框架與置信驅(qū)動交互策略。

2.1 協(xié)同探測框架

協(xié)作探測框架

該機制旨在為每個交互步驟生成高質(zhì)量的置信度標注數(shù)據(jù)，是 OS-Kairos 訓練和推理能力構建的基礎，主要包含以下三個階段：

1）復雜任務指令收集與擴展

研究團隊從公共數(shù)據(jù)集與人類專家設計中收集典型的復雜指令（如模糊描述、權限缺失、環(huán)境劫持等），再利用 GPT-4 等生成式模型對其擴展，以保證覆蓋多語言、多 APP、多場景。

2）置信度打分機制設計

核心機制采用 “Actor-Critic” 協(xié)同范式：

Probing Agent：執(zhí)行用戶指令；
Critic Model：基于 GPT-4o 和 UI 結(jié)構解析，對每一步操作給予置信度評分（1～5 分）；
若評分低于 5，裁判將給出正確操作建議并繼續(xù)測試，直到任務完成。

通過這種協(xié)同探測過程，系統(tǒng)能夠自動生成含有操作 - 評分配對的完整 GUI 軌跡數(shù)據(jù)。

3) 數(shù)據(jù)清洗與優(yōu)化

生成的數(shù)據(jù)進一步經(jīng)過一致性驗證與軌跡修正，以確保每一步操作的執(zhí)行意圖與置信度合理匹配，為后續(xù)置信度集成提供高質(zhì)量訓練數(shù)據(jù)。

2.2 置信驅(qū)動交互策略

在獲得高質(zhì)量軌跡數(shù)據(jù)后，研究者設計了一套結(jié)合置信度分數(shù)的模型訓練與推理策略，使 GUI 智能體具備 “按需請求人類干預” 的能力：

1）聯(lián)合預測訓練

在訓練階段，模型基于指令微調(diào)在不改變動作預測能力下，植入預測該動作的置信度分值。該訓練方式確保模型具備準確行為預測與自信程度評估的雙重能力。

2）動態(tài)交互控制機制

在部署階段，系統(tǒng)通過設定一個置信度閾值 γ，對每一步操作進行判斷：

若置信度 ≥ γ，自動執(zhí)行；
若置信度 < γ，觸發(fā)人類干預或高級模型輔助。

這一機制類似于大語言模型的溫度系數(shù)，可以根據(jù)應用需求靈活調(diào)節(jié)，兼顧效率與可靠性。例如：γ = 1 時，模型完全自動執(zhí)行；γ = 5 時，模型步步請求干預；γ = 3～4 時實現(xiàn)最優(yōu)的人機協(xié)同平衡。

三、實驗與結(jié)果

3.1 實驗設置

為系統(tǒng)評估 OS-Kairos 的性能，作者在多個層面構建了完整的實驗體系，涵蓋真實復雜場景、自構建數(shù)據(jù)集與公開基準，并對比多種類型的現(xiàn)有 GUI 智能體模型。

3.1.1 數(shù)據(jù)集

1）復雜場景測試集（自構建）：作者利用真實 Android 設備、12 個常見 App（如 Amazon、微信、設置等）與 12 類任務主題（如購物、登錄、搜索等）構建了 1000 條復雜任務指令，涵蓋類型包括：

a) 任務類型涵蓋：模糊指令（如省略主語、目標不明確）

b) 環(huán)境干擾（如彈窗、網(wǎng)絡斷連）

c) 異常狀態(tài)（如登錄過期、權限不足）

每條任務指令被逐步執(zhí)行并由 GPT-4o 輔助評分，生成具有置信度標注的完整 GUI 軌跡數(shù)據(jù)。

2）公開基準數(shù)據(jù)集

a) AITZ（Android In The Zoo）：包含復雜鏈式操作，強調(diào) reasoning 和 action planning。

b) Meta-GUI：結(jié)合多模態(tài)對話和 GUI 控制，支持任務引導與精細指令執(zhí)行。

數(shù)據(jù)集被劃分為訓練集（80%）和測試集（20%），用于模型訓練與評估。

3.1.2 評估指標

為了全面評價 GUI 智能體的表現(xiàn)，作者采用了以下多個指標：動作類型準確率（Type）、步驟級成功率（SR）、任務完成率（TSR）、人機介入成功率（HSR）、干預精度（IP）等。

3.1.3 比較模型設置

實驗的設置分為 Fine-tuning 和 Zero-shot 模式，對比的模型涵蓋三類：

1) API 接口型模型

a) GPT-4o

b) GPT-4V-Plus

c) Qwen-VL-MAX

2) 開源多模態(tài)模型

a) Qwen2-VL-7B

b) OS-Atlas-Pro-7B

c) Auto-UI

3.1.4 模型與訓練設置

為了確保實驗的公平性，每個數(shù)據(jù)集的任務軌跡被隨機劃分為 80% 用于訓練數(shù)據(jù)，20% 用于測試數(shù)據(jù)。在 Zero-shot 中，模型直接通過 prompt 學習進行評估，不依賴任何額外的微調(diào)。在 Fine-tuning 設置下，模型在對應的數(shù)據(jù)集上進行 8 輪訓練，學習率為 1e-5。在交互模式下，OS-Kairos 使用一個默認的置信度閾值 γ=4，當當前步驟的置信度低于此閾值時，系統(tǒng)會請求人工干預。在整個過程中，GPT-4o 被用作裁判模型對每一步的動作進行評分，確保評估的一致性和可靠性。

3.2 實驗結(jié)果

3.2.1 主要實驗結(jié)果

表 1: Zero-shot 設置下 OS-Kairos 與基線比較的結(jié)果

1）在 Zero-shot 設置下，OS-Kairos 無需改變模型能力，僅通過引入置信度驅(qū)動的自適應交互機制，就顯著優(yōu)于多個基線模型。在三個數(shù)據(jù)集上均表現(xiàn)出色，復雜場景下實現(xiàn)了 95.90% 的步驟成功率和 88.20% 的任務完成率。相比之下，現(xiàn)有 API 模型雖具備通用性，但因無法識別關鍵復雜步驟，易出現(xiàn)過度執(zhí)行而導致任務失敗，凸顯了 OS-Kairos 在可靠性。

表 2: Fine-tuning 設置下 OS-Kairos 與基線比較的結(jié)果

2）盡管 Fine-tuning 在一定程度上緩解了 GUI 智能體的過度執(zhí)行問題，但是 OS-Kairos 依然表現(xiàn)出更強的性能，尤其在復雜場景中，其任務完成率（TSR）帶來 26.09% 到 85.72% 的絕對提升。通過識別如 SCROLL 等關鍵復雜步驟，OS-Kairos 實現(xiàn)了更精準的優(yōu)化，而傳統(tǒng)微調(diào)方法則可能引入操作偏差或面臨優(yōu)化瓶頸。

三種數(shù)據(jù)集下介入精度分析

3）OS-Kairos 的置信度評分機制實現(xiàn)了高效的人機交互（HSR）。在復雜場景與 Meta-GUI 中，其對自主執(zhí)行步驟的判斷高度準確，AP 指標分別達到 96.44% 和 93.18%，同時在人為干預步驟中保持 70% 以上的干預精度（IP）。這表明 OS-Kairos 能有效區(qū)分何時應請求幫助、何時應獨立執(zhí)行，避免不必要的干預。研究還指出，結(jié)合高質(zhì)量采樣，系統(tǒng)在如 AITZ 等數(shù)據(jù)集中的表現(xiàn)有望進一步提升。

3.2.2 實驗分析

3.2.2.1 動態(tài)評估

以往的基準評估一般基于靜態(tài)分析，難以反映 GUI 智能體在真實環(huán)境中的自主規(guī)劃與泛化能力。為此，論文在移動設備上報告了實際任務完成率（TSR）。結(jié)果顯示，現(xiàn)有基線模型的 TSR 僅為 4% 和 26%，GPT-4o 為 36%，而 OS-Kairos 在介入時通過引入 GPT-4o 決策，達到了這一上限。在引入人工干預后，OS-Kairos 的 TSR 從 32% 提升至 70%，充分證明自適應交互機制在真實場景中具有顯著優(yōu)勢，是實現(xiàn)高效 GUI 智能體的有效范式。

3.2.2.2 效率評估

表 4 還展示了 OS-Kairos 在真實環(huán)境中的執(zhí)行效率。基于 50 條指令統(tǒng)計，人工執(zhí)行的最優(yōu)步驟數(shù)約為 429 步。在最大操作步數(shù)限制為 10 的條件下，基線模型在遇到復雜步驟時普遍存在過度執(zhí)行現(xiàn)象。而 OS-Kairos 更貼近人類的操作行為，其相對效率（RE）分別達到 86.42% 和 93.47%，顯著優(yōu)于基線，體現(xiàn)了其高效且穩(wěn)健的交互能力。

3.2.2.3 置信度集成范式評估

表 5 對比了 OS-Kairos 與基于 prompt 的交互模型，結(jié)果顯示 OS-Kairos 的交互機制顯著優(yōu)于 prompt 驅(qū)動范式，尤其在介入成功率（HSR）上超越了 prompt 模式下的 OS-Atlas-Pro-7B。盡管 GPT-4o 和 GLM-4V-Plus 具備較強的感知和定位能力，API 型 GUI Agent 仍表現(xiàn)出不穩(wěn)定性，易出現(xiàn)過度執(zhí)行，影響整體效果。在開源模型中，Qwen2-VL-7B 的表現(xiàn)相對更穩(wěn)定，而 OS-Atlas-Pro-7B 在 prompt 模式下指令執(zhí)行能力被嚴重干擾。

3.2.2.4 模型和數(shù)據(jù)分析

盡管基于 7B 模型構建，OS-Kairos 通過置信度評分與數(shù)據(jù)蒸餾，可有效遷移至 2B～7B 模型。在 Qwen2-VL-2B、4B 和 7B 上分別達到 85.09%、77.64% 和 76.40% 的 TSR，表現(xiàn)出良好的精度與兼容性，適用于資源受限環(huán)境部署。OS-Kairos 在不同數(shù)據(jù)規(guī)模下依然保持穩(wěn)定表現(xiàn)，TSR 可達 76.19%～88.20%。即便使用少量探測數(shù)據(jù)，置信度機制也能有效支撐模型訓練，成本遠低于微調(diào)。

3.2.2.5 交互敏感度分析

OS-Kairos 通過調(diào)節(jié)置信度閾值 γ 實現(xiàn)自適應交互。消融實驗表明，γ 提高可顯著提升 TSR 和 SR，而 HSR 與操作準確率保持穩(wěn)定，說明其能有效識別復雜步驟，減少過度執(zhí)行。在 γ = 2 時，僅需 19% 的人工干預即可達到接近微調(diào)的效果，展現(xiàn)出良好的靈活性與實用性。

四、討論與啟示

4.1 主要發(fā)現(xiàn)總結(jié)

本研究通過全面的實驗評估，得出了以下主要發(fā)現(xiàn)：

1.OS-Kairos 在多個數(shù)據(jù)集上顯著優(yōu)于 prompt-based 基線模型及微調(diào)模型，充分證明自適應交互機制對于提升 GUI Agent 任務完成的可靠性與魯棒性具有關鍵作用。

2. 置信驅(qū)動交互高效穩(wěn)定：OS-Kairos 能穩(wěn)定區(qū)分何時需要干預，有效避免過度執(zhí)行。

3. 真實設備測試表現(xiàn)優(yōu)越：在移動設備上運行時，OS-Kairos TSR 達 32%（無干預）至 70%（有干預），遠超現(xiàn)有開源和商用模型，接近 GPT-4o 的上限水平。

4. 模型規(guī)模與數(shù)據(jù)成本友好：置信度機制可遷移至 2B～7B 模型，在資源受限場景中依然保持 76% 以上的 TSR，僅需少量探測數(shù)據(jù)即可訓練，成本遠低于全量微調(diào)。

4.2 啟示

4.2.1 對從業(yè)者的啟示

1. 增強系統(tǒng)可靠性：置信度驅(qū)動的自適應交互機制可顯著減少錯誤操作，提升系統(tǒng)在復雜真實場景中的穩(wěn)定性與安全性。

2. 支持人機協(xié)作設計：通過動態(tài)決策是否請求用戶干預，系統(tǒng)可靈活權衡自主性與可控性，適用于高風險任務如金融、醫(yī)療等場景。

4.2.2 對研究社區(qū)的啟示

1. 拓展交互智能研究范式：本研究強調(diào)從 “全自主執(zhí)行” 轉(zhuǎn)向 “置信度引導下的自適應協(xié)作”，為多模態(tài) GUI 智能體設計提供新思路。

2. 提出具遷移性的框架設計：驗證了數(shù)據(jù)蒸餾與置信機制在不同模型規(guī)模下的一致性，鼓勵發(fā)展輕量級、可推廣的交互方法。

3. 推動標準評估體系更新：指出靜態(tài)測試局限，倡導引入真實環(huán)境 + 交互能力評估的新標準，有助于更全面地衡量 GUI Agent 的實用性與可靠性。

4.3 批判性分析

1. 適用范圍與可推廣性：目前系統(tǒng)主要驗證于移動 GUI 環(huán)境，對于桌面端、Web 端尚未進行測試，其泛化能力在更復雜的多模態(tài)交互系統(tǒng)中仍需驗證。

2. 置信度分數(shù)：置信度分數(shù)是來自 Actor-Critic 探測架構下的 GPT-4o 給出，其準確性需要進一步驗證。

五. 局限性與未來工作

5.1 局限性

1. 任務類型與應用場景有限：實驗主要集中在移動端單任務 GUI 環(huán)境，對于桌面端、多窗口、Web 或混合界面等復雜交互形式尚未驗證。

2. 依賴外部大模型評分：當前系統(tǒng)在訓練與評估中使用 GPT-4o 作為置信度評分器，提升了標注質(zhì)量，但其準確性需進一步優(yōu)化。

3. 過度介入：OS-Kairos 通過置信度分數(shù)評估是否需要人類介入，但過度介入會影響 GUI Agent 的自動化。

5.2 未來工作

1. 實現(xiàn)模型內(nèi)部置信度量化：當前置信度依賴外部模型，未來可探索在智能體內(nèi)部實現(xiàn)置信度量化，提升推理效率與部署實用性。

2. 優(yōu)化交互決策策略：為避免過度執(zhí)行或頻繁干預，可引入動態(tài)閾值或強化學習策略，實現(xiàn)更靈活、高效的人機協(xié)作控制。

3. 支持復雜任務與跨平臺部署：推動模型在桌面端和 Web 平臺的應用，增強其處理復雜任務和多模態(tài)語音輸入的能力，提升泛化性與實用性。

責任編輯：張燕妮來源：機器之心

模型系統(tǒng)AI

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<samp id="snjen"></samp>