偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讓GUI智能體不再「過度執(zhí)行」,上海交大、Meta聯(lián)合發(fā)布OS-Kairos系統(tǒng)

人工智能 新聞
本論文提出了 OS-Kairos,一種具有自適應(yīng)交互能力的新型 GUI 智能體系統(tǒng)。

本文第一作者是上海交通大學(xué)計算機學(xué)院三年級博士生程彭洲,研究方向為多模態(tài)大模型推理、AI Agent、Agent 安全等。通訊作者為張倬勝助理教授和劉功申教授。

一、論文概述

1.1 研究背景

隨著多模態(tài)大語言模型(Multimodal Large Language Models, MLLMs)的快速發(fā)展,越來越多的研究聚焦于構(gòu)建能夠在圖形用戶界面(GUI)中執(zhí)行復(fù)雜任務(wù)的智能體。這些智能體利用視覺感知與語言理解能力,已在移動應(yīng)用、Web 導(dǎo)航及桌面操作等領(lǐng)域顯示出巨大潛力。然而,現(xiàn)有系統(tǒng)大多采用 “全自動” 執(zhí)行范式,在面對真實場景中的模糊指令、環(huán)境干擾或系統(tǒng)異常時,常出現(xiàn)誤操作或任務(wù)失敗等現(xiàn)象。這類 “過度執(zhí)行”(Over-execution)問題,嚴重限制了 GUI 智能體在實際應(yīng)用中的安全性與可靠性。

圖片

三種復(fù)雜場景

1.2 研究問題

本研究關(guān)注一個核心問題:如何賦予 GUI 智能體自我評估其行為置信度的能力,并基于此實現(xiàn)自主與人工交互間的動態(tài)切換,從而在復(fù)雜環(huán)境中提升任務(wù)完成率與交互效率。具體而言,當(dāng)前 GUI 智能體在操作中缺乏對 “當(dāng)前步驟是否需要人工指導(dǎo)” 的判斷能力,一旦模型在某一步操作中產(chǎn)生低置信度的決策,仍可能繼續(xù)執(zhí)行錯誤行為,導(dǎo)致后續(xù)任務(wù)鏈條崩潰。論文嘗試解決的正是這種因無法判斷自身能力邊界而導(dǎo)致的系統(tǒng)性失誤。

圖片

自主智能體易產(chǎn)生 “過度執(zhí)行”,而 OS-Kairos 會精準(zhǔn)的請求人類介入

1.3 主要貢獻

本論文提出了 OS-Kairos,一種具有自適應(yīng)交互能力的新型 GUI 智能體系統(tǒng),其主要貢獻如下:

(i)引入置信度預(yù)測機制,讓 GUI 智能體能夠在每一步操作中評估自身執(zhí)行的信心,并據(jù)此決定是否調(diào)用人類或高級模型介入,實現(xiàn)真正的 “可控自主”。

(ii)設(shè)計了協(xié)同探測框架(Collaborative Probing Framework),通過 GPT-4o 與界面解析模型協(xié)同,為每一個交互步驟自動打分,生成高質(zhì)量的含置信度標(biāo)注的操作軌跡數(shù)據(jù)集。

(iii)提出置信驅(qū)動交互策略(Confidence-driven Interaction),將置信度評分作為模型訓(xùn)練的一部分,通過監(jiān)督學(xué)習(xí)將置信判斷能力整合進 GUI 智能體本身,并通過閾值實現(xiàn)自適應(yīng)調(diào)節(jié)。

(iv)OS-Kairos 在我們精選的復(fù)雜場景數(shù)據(jù)集和完善的移動基準(zhǔn)上都遠遠優(yōu)于現(xiàn)有模型,具有有效性、通用性、可擴展性和效率的優(yōu)點。

圖片

  • 論文標(biāo)題:OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents
  • 論文鏈接:https://arxiv.org/abs/2503.16465
  • 論文代碼:https://github.com/Wuzheng02/OS-Kairos

二、方法與理論

本研究提出了一種新型的 GUI 智能體系統(tǒng) OS-Kairos,旨在通過操作置信度的引入與動態(tài)人機協(xié)作機制,解決現(xiàn)有智能體在復(fù)雜任務(wù)中 “過度執(zhí)行” 的問題。整個系統(tǒng)方法框架由兩大核心機制組成:協(xié)同探測框架與置信驅(qū)動交互策略。

2.1 協(xié)同探測框架

圖片

協(xié)作探測框架

該機制旨在為每個交互步驟生成高質(zhì)量的置信度標(biāo)注數(shù)據(jù),是 OS-Kairos 訓(xùn)練和推理能力構(gòu)建的基礎(chǔ),主要包含以下三個階段:

1)復(fù)雜任務(wù)指令收集與擴展

研究團隊從公共數(shù)據(jù)集與人類專家設(shè)計中收集典型的復(fù)雜指令(如模糊描述、權(quán)限缺失、環(huán)境劫持等),再利用 GPT-4 等生成式模型對其擴展,以保證覆蓋多語言、多 APP、多場景。

2)置信度打分機制設(shè)計

核心機制采用 “Actor-Critic” 協(xié)同范式:

  • Probing Agent:執(zhí)行用戶指令;
  • Critic Model:基于 GPT-4o 和 UI 結(jié)構(gòu)解析,對每一步操作給予置信度評分(1~5 分);
  • 若評分低于 5,裁判將給出正確操作建議并繼續(xù)測試,直到任務(wù)完成。

通過這種協(xié)同探測過程,系統(tǒng)能夠自動生成含有操作 - 評分配對的完整 GUI 軌跡數(shù)據(jù)。

3) 數(shù)據(jù)清洗與優(yōu)化

生成的數(shù)據(jù)進一步經(jīng)過一致性驗證與軌跡修正,以確保每一步操作的執(zhí)行意圖與置信度合理匹配,為后續(xù)置信度集成提供高質(zhì)量訓(xùn)練數(shù)據(jù)。

2.2 置信驅(qū)動交互策略

在獲得高質(zhì)量軌跡數(shù)據(jù)后,研究者設(shè)計了一套結(jié)合置信度分數(shù)的模型訓(xùn)練與推理策略,使 GUI 智能體具備 “按需請求人類干預(yù)” 的能力:

1)聯(lián)合預(yù)測訓(xùn)練

在訓(xùn)練階段,模型基于指令微調(diào)在不改變動作預(yù)測能力下,植入預(yù)測該動作的置信度分值。該訓(xùn)練方式確保模型具備準(zhǔn)確行為預(yù)測與自信程度評估的雙重能力。

2)動態(tài)交互控制機制

在部署階段,系統(tǒng)通過設(shè)定一個置信度閾值 γ,對每一步操作進行判斷:

  • 若置信度 ≥ γ,自動執(zhí)行;
  • 若置信度 < γ,觸發(fā)人類干預(yù)或高級模型輔助。

這一機制類似于大語言模型的溫度系數(shù),可以根據(jù)應(yīng)用需求靈活調(diào)節(jié),兼顧效率與可靠性。例如:γ = 1 時,模型完全自動執(zhí)行;γ = 5 時,模型步步請求干預(yù);γ = 3~4 時實現(xiàn)最優(yōu)的人機協(xié)同平衡。

三、實驗與結(jié)果

3.1 實驗設(shè)置

為系統(tǒng)評估 OS-Kairos 的性能,作者在多個層面構(gòu)建了完整的實驗體系,涵蓋真實復(fù)雜場景、自構(gòu)建數(shù)據(jù)集與公開基準(zhǔn),并對比多種類型的現(xiàn)有 GUI 智能體模型。

3.1.1 數(shù)據(jù)集

1)復(fù)雜場景測試集(自構(gòu)建):作者利用真實 Android 設(shè)備、12 個常見 App(如 Amazon、微信、設(shè)置等)與 12 類任務(wù)主題(如購物、登錄、搜索等)構(gòu)建了 1000 條復(fù)雜任務(wù)指令,涵蓋類型包括:

a) 任務(wù)類型涵蓋:模糊指令(如省略主語、目標(biāo)不明確)

b) 環(huán)境干擾(如彈窗、網(wǎng)絡(luò)斷連)

c) 異常狀態(tài)(如登錄過期、權(quán)限不足)

每條任務(wù)指令被逐步執(zhí)行并由 GPT-4o 輔助評分,生成具有置信度標(biāo)注的完整 GUI 軌跡數(shù)據(jù)。

2)公開基準(zhǔn)數(shù)據(jù)集

a) AITZ(Android In The Zoo):包含復(fù)雜鏈?zhǔn)讲僮?,強調(diào) reasoning 和 action planning。

b) Meta-GUI:結(jié)合多模態(tài)對話和 GUI 控制,支持任務(wù)引導(dǎo)與精細指令執(zhí)行。

數(shù)據(jù)集被劃分為訓(xùn)練集(80%)和測試集(20%),用于模型訓(xùn)練與評估。

3.1.2 評估指標(biāo)

為了全面評價 GUI 智能體的表現(xiàn),作者采用了以下多個指標(biāo):動作類型準(zhǔn)確率(Type)、步驟級成功率(SR)、任務(wù)完成率(TSR)、人機介入成功率(HSR)、干預(yù)精度(IP)等。

3.1.3 比較模型設(shè)置

實驗的設(shè)置分為 Fine-tuning 和 Zero-shot 模式,對比的模型涵蓋三類:

1) API 接口型模型

a) GPT-4o

b) GPT-4V-Plus

c) Qwen-VL-MAX

2) 開源多模態(tài)模型

a) Qwen2-VL-7B

b) OS-Atlas-Pro-7B

c) Auto-UI

3.1.4 模型與訓(xùn)練設(shè)置

為了確保實驗的公平性,每個數(shù)據(jù)集的任務(wù)軌跡被隨機劃分為 80% 用于訓(xùn)練數(shù)據(jù),20% 用于測試數(shù)據(jù)。在 Zero-shot 中,模型直接通過 prompt 學(xué)習(xí)進行評估,不依賴任何額外的微調(diào)。在 Fine-tuning 設(shè)置下,模型在對應(yīng)的數(shù)據(jù)集上進行 8 輪訓(xùn)練,學(xué)習(xí)率為 1e-5。在交互模式下,OS-Kairos 使用一個默認的置信度閾值 γ=4,當(dāng)當(dāng)前步驟的置信度低于此閾值時,系統(tǒng)會請求人工干預(yù)。在整個過程中,GPT-4o 被用作裁判模型對每一步的動作進行評分,確保評估的一致性和可靠性。

3.2 實驗結(jié)果

3.2.1 主要實驗結(jié)果

圖片

表 1: Zero-shot 設(shè)置下 OS-Kairos 與基線比較的結(jié)果

1)在 Zero-shot 設(shè)置下,OS-Kairos 無需改變模型能力,僅通過引入置信度驅(qū)動的自適應(yīng)交互機制,就顯著優(yōu)于多個基線模型。在三個數(shù)據(jù)集上均表現(xiàn)出色,復(fù)雜場景下實現(xiàn)了 95.90% 的步驟成功率和 88.20% 的任務(wù)完成率。相比之下,現(xiàn)有 API 模型雖具備通用性,但因無法識別關(guān)鍵復(fù)雜步驟,易出現(xiàn)過度執(zhí)行而導(dǎo)致任務(wù)失敗,凸顯了 OS-Kairos 在可靠性。

圖片

表 2: Fine-tuning 設(shè)置下 OS-Kairos 與基線比較的結(jié)果

2)盡管 Fine-tuning 在一定程度上緩解了 GUI 智能體的過度執(zhí)行問題,但是 OS-Kairos 依然表現(xiàn)出更強的性能,尤其在復(fù)雜場景中,其任務(wù)完成率(TSR)帶來 26.09% 到 85.72% 的絕對提升。通過識別如 SCROLL 等關(guān)鍵復(fù)雜步驟,OS-Kairos 實現(xiàn)了更精準(zhǔn)的優(yōu)化,而傳統(tǒng)微調(diào)方法則可能引入操作偏差或面臨優(yōu)化瓶頸。

圖片

三種數(shù)據(jù)集下介入精度分析

3)OS-Kairos 的置信度評分機制實現(xiàn)了高效的人機交互(HSR)。在復(fù)雜場景與 Meta-GUI 中,其對自主執(zhí)行步驟的判斷高度準(zhǔn)確,AP 指標(biāo)分別達到 96.44% 和 93.18%,同時在人為干預(yù)步驟中保持 70% 以上的干預(yù)精度(IP)。這表明 OS-Kairos 能有效區(qū)分何時應(yīng)請求幫助、何時應(yīng)獨立執(zhí)行,避免不必要的干預(yù)。研究還指出,結(jié)合高質(zhì)量采樣,系統(tǒng)在如 AITZ 等數(shù)據(jù)集中的表現(xiàn)有望進一步提升。

3.2.2 實驗分析

3.2.2.1 動態(tài)評估

圖片

以往的基準(zhǔn)評估一般基于靜態(tài)分析,難以反映 GUI 智能體在真實環(huán)境中的自主規(guī)劃與泛化能力。為此,論文在移動設(shè)備上報告了實際任務(wù)完成率(TSR)。結(jié)果顯示,現(xiàn)有基線模型的 TSR 僅為 4% 和 26%,GPT-4o 為 36%,而 OS-Kairos 在介入時通過引入 GPT-4o 決策,達到了這一上限。在引入人工干預(yù)后,OS-Kairos 的 TSR 從 32% 提升至 70%,充分證明自適應(yīng)交互機制在真實場景中具有顯著優(yōu)勢,是實現(xiàn)高效 GUI 智能體的有效范式。

3.2.2.2 效率評估

表 4 還展示了 OS-Kairos 在真實環(huán)境中的執(zhí)行效率?;?50 條指令統(tǒng)計,人工執(zhí)行的最優(yōu)步驟數(shù)約為 429 步。在最大操作步數(shù)限制為 10 的條件下,基線模型在遇到復(fù)雜步驟時普遍存在過度執(zhí)行現(xiàn)象。而 OS-Kairos 更貼近人類的操作行為,其相對效率(RE)分別達到 86.42% 和 93.47%,顯著優(yōu)于基線,體現(xiàn)了其高效且穩(wěn)健的交互能力。

3.2.2.3 置信度集成范式評估

表 5 對比了 OS-Kairos 與基于 prompt 的交互模型,結(jié)果顯示 OS-Kairos 的交互機制顯著優(yōu)于 prompt 驅(qū)動范式,尤其在介入成功率(HSR)上超越了 prompt 模式下的 OS-Atlas-Pro-7B。盡管 GPT-4o 和 GLM-4V-Plus 具備較強的感知和定位能力,API 型 GUI Agent 仍表現(xiàn)出不穩(wěn)定性,易出現(xiàn)過度執(zhí)行,影響整體效果。在開源模型中,Qwen2-VL-7B 的表現(xiàn)相對更穩(wěn)定,而 OS-Atlas-Pro-7B 在 prompt 模式下指令執(zhí)行能力被嚴重干擾。

圖片

3.2.2.4 模型和數(shù)據(jù)分析

圖片

圖片

盡管基于 7B 模型構(gòu)建,OS-Kairos 通過置信度評分與數(shù)據(jù)蒸餾,可有效遷移至 2B~7B 模型。在 Qwen2-VL-2B、4B 和 7B 上分別達到 85.09%、77.64% 和 76.40% 的 TSR,表現(xiàn)出良好的精度與兼容性,適用于資源受限環(huán)境部署。OS-Kairos 在不同數(shù)據(jù)規(guī)模下依然保持穩(wěn)定表現(xiàn),TSR 可達 76.19%~88.20%。即便使用少量探測數(shù)據(jù),置信度機制也能有效支撐模型訓(xùn)練,成本遠低于微調(diào)。

3.2.2.5 交互敏感度分析

圖片

圖片

OS-Kairos 通過調(diào)節(jié)置信度閾值 γ 實現(xiàn)自適應(yīng)交互。消融實驗表明,γ 提高可顯著提升 TSR 和 SR,而 HSR 與操作準(zhǔn)確率保持穩(wěn)定,說明其能有效識別復(fù)雜步驟,減少過度執(zhí)行。在 γ = 2 時,僅需 19% 的人工干預(yù)即可達到接近微調(diào)的效果,展現(xiàn)出良好的靈活性與實用性。

四、討論與啟示

4.1 主要發(fā)現(xiàn)總結(jié)

本研究通過全面的實驗評估,得出了以下主要發(fā)現(xiàn):

1.OS-Kairos 在多個數(shù)據(jù)集上顯著優(yōu)于 prompt-based 基線模型及微調(diào)模型,充分證明自適應(yīng)交互機制對于提升 GUI Agent 任務(wù)完成的可靠性與魯棒性具有關(guān)鍵作用。

2. 置信驅(qū)動交互高效穩(wěn)定:OS-Kairos 能穩(wěn)定區(qū)分何時需要干預(yù),有效避免過度執(zhí)行。

3. 真實設(shè)備測試表現(xiàn)優(yōu)越:在移動設(shè)備上運行時,OS-Kairos TSR 達 32%(無干預(yù))至 70%(有干預(yù)),遠超現(xiàn)有開源和商用模型,接近 GPT-4o 的上限水平。

4. 模型規(guī)模與數(shù)據(jù)成本友好:置信度機制可遷移至 2B~7B 模型,在資源受限場景中依然保持 76% 以上的 TSR,僅需少量探測數(shù)據(jù)即可訓(xùn)練,成本遠低于全量微調(diào)。

4.2 啟示

4.2.1 對從業(yè)者的啟示

1. 增強系統(tǒng)可靠性:置信度驅(qū)動的自適應(yīng)交互機制可顯著減少錯誤操作,提升系統(tǒng)在復(fù)雜真實場景中的穩(wěn)定性與安全性。

2. 支持人機協(xié)作設(shè)計:通過動態(tài)決策是否請求用戶干預(yù),系統(tǒng)可靈活權(quán)衡自主性與可控性,適用于高風(fēng)險任務(wù)如金融、醫(yī)療等場景。

4.2.2 對研究社區(qū)的啟示

1. 拓展交互智能研究范式:本研究強調(diào)從 “全自主執(zhí)行” 轉(zhuǎn)向 “置信度引導(dǎo)下的自適應(yīng)協(xié)作”,為多模態(tài) GUI 智能體設(shè)計提供新思路。

2. 提出具遷移性的框架設(shè)計:驗證了數(shù)據(jù)蒸餾與置信機制在不同模型規(guī)模下的一致性,鼓勵發(fā)展輕量級、可推廣的交互方法。

3. 推動標(biāo)準(zhǔn)評估體系更新:指出靜態(tài)測試局限,倡導(dǎo)引入真實環(huán)境 + 交互能力評估的新標(biāo)準(zhǔn),有助于更全面地衡量 GUI Agent 的實用性與可靠性。

4.3 批判性分析

1. 適用范圍與可推廣性:目前系統(tǒng)主要驗證于移動 GUI 環(huán)境,對于桌面端、Web 端尚未進行測試,其泛化能力在更復(fù)雜的多模態(tài)交互系統(tǒng)中仍需驗證。

2. 置信度分數(shù):置信度分數(shù)是來自 Actor-Critic 探測架構(gòu)下的 GPT-4o 給出,其準(zhǔn)確性需要進一步驗證。

五. 局限性與未來工作

5.1 局限性

1. 任務(wù)類型與應(yīng)用場景有限:實驗主要集中在移動端單任務(wù) GUI 環(huán)境,對于桌面端、多窗口、Web 或混合界面等復(fù)雜交互形式尚未驗證。

2. 依賴外部大模型評分:當(dāng)前系統(tǒng)在訓(xùn)練與評估中使用 GPT-4o 作為置信度評分器,提升了標(biāo)注質(zhì)量,但其準(zhǔn)確性需進一步優(yōu)化。

3. 過度介入:OS-Kairos 通過置信度分數(shù)評估是否需要人類介入,但過度介入會影響 GUI Agent 的自動化。

5.2 未來工作

1. 實現(xiàn)模型內(nèi)部置信度量化:當(dāng)前置信度依賴外部模型,未來可探索在智能體內(nèi)部實現(xiàn)置信度量化,提升推理效率與部署實用性。

2. 優(yōu)化交互決策策略:為避免過度執(zhí)行或頻繁干預(yù),可引入動態(tài)閾值或強化學(xué)習(xí)策略,實現(xiàn)更靈活、高效的人機協(xié)作控制。

3. 支持復(fù)雜任務(wù)與跨平臺部署:推動模型在桌面端和 Web 平臺的應(yīng)用,增強其處理復(fù)雜任務(wù)和多模態(tài)語音輸入的能力,提升泛化性與實用性。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-10-18 15:20:00

2024-07-08 06:50:00

2020-07-23 09:32:50

AI 數(shù)據(jù)人工智能

2025-05-27 15:23:05

智能體訓(xùn)練AI

2021-07-22 15:25:14

開源技術(shù) 框架

2025-03-13 13:10:00

2009-05-18 09:25:00

2024-04-01 07:25:00

AI框架

2022-03-09 09:23:17

AI引擎檢測

2025-04-23 12:09:25

RL大模型進化

2014-04-15 15:49:19

博世2014

2009-07-03 11:42:00

2025-06-06 14:25:04

模型自然語言AI

2023-11-05 15:13:38

AI測評

2011-07-11 15:09:33

水晶石動漫CG

2012-07-06 16:22:35

華為服務(wù)器

2019-09-20 13:02:31

華為
點贊
收藏

51CTO技術(shù)棧公眾號