OS Agents全景解析:從MLLM基礎模型到個性化智能體的演進之路
大家好,我是肆〇柒。今天和大家聊聊OS Agents。
AI技術發(fā)展飛速,操作系統(tǒng)智能體(OS Agents)正從學術概念迅速走向?qū)嶋H應用。本文將為你系統(tǒng)介紹基于多模態(tài)大語言模型(MLLM)的OS Agents核心技術體系,幫助你:
- 全面了解OS Agents的三大核心組件(環(huán)境、觀察空間、動作空間)與三大關鍵能力(理解、規(guī)劃、定位)
- 深入理解OS Agents構建的技術路徑與決策要點
- 了解當前技術挑戰(zhàn)與未來發(fā)展方向
- 獲得實用的技術選型指南與實施建議
希望這篇索引級的綜述可以讓我們對OS Agents有一個全面的認識。
從J.A.R.V.I.S.到現(xiàn)實的OS Agents
在漫威電影《鋼鐵俠》中,托尼·斯塔克的智能助手J.A.R.V.I.S.(Just A Rather Very Intelligent System)能夠無縫控制各種系統(tǒng)并自動化執(zhí)行任務,這一愿景長久以來激發(fā)著人類對超級智能AI助手的向往。
而現(xiàn)在,隨著多模態(tài)大語言模型(Multimodal Large Language Model, MLLM)技術的迅猛發(fā)展,這一夢想正逐漸變?yōu)楝F(xiàn)實。
OS Agents(Operating System Agents)作為能夠在操作系統(tǒng)環(huán)境中使用計算設備(如電腦和手機)的AI智能體,正以前所未有的速度接近這一愿景。當前,以Gemini、GPT)、Grok、Claude等系列為代表的(多模態(tài))大語言模型在Chatbot Arena LLM Leaderboard上的排名顯示,這些模型已具備顯著提升的上下文理解和任務執(zhí)行能力,為OS Agents的發(fā)展提供了關鍵轉(zhuǎn)折點。
比如,Anthropic推出的Computer Use、Apple發(fā)布的Apple Intelligence、智譜AI的AutoGLM以及Google DeepMind的Project Mariner等產(chǎn)品,標志著OS Agents技術已從學術研究走向?qū)嶋H應用。
OS Agents被定義為專門利用操作系統(tǒng)提供的環(huán)境、輸入和輸出接口來執(zhí)行任務的AI智能體,其技術邊界涵蓋三大平臺:桌面環(huán)境(如Windows、Linux、MacOS)、移動環(huán)境(Android、iOS)和Web環(huán)境。與早期虛擬助手(Siri、Cortana、Amazon Alexa和Google Assistant)相比,OS Agents的核心突破在于能夠通過GUI(Graphical User Interface)直接操作系統(tǒng),而不僅限于語音交互。這些早期虛擬助手因上下文理解等模型能力限制,未能實現(xiàn)廣泛采用和完整功能。
理解了OS Agents的基礎架構和核心能力要求后,我們進一步深入探討如何構建這些智能體。基礎架構提供了"骨架",而構建技術則是賦予其"血肉"的關鍵過程。接下來,我們看看實現(xiàn)這些能力的具體技術路徑。
OS Agents技術基礎體系
核心組件
OS Agents的技術實現(xiàn)建立在三個關鍵組件之上:環(huán)境、觀察空間和動作空間,它們共同構成了智能體與操作系統(tǒng)交互的基礎框架。
環(huán)境維度:三大平臺的技術特性與挑戰(zhàn)
環(huán)境是OS Agents操作的系統(tǒng)或平臺,主要包括:
- 桌面環(huán)境:如Windows、Linux、MacOS系統(tǒng),提供豐富的窗口管理和多任務處理能力
- 移動環(huán)境:Android、iOS等移動操作系統(tǒng),具有觸摸交互和移動設備特有的傳感器集成
- Web環(huán)境:瀏覽器中的各種網(wǎng)站和Web應用,具有高度動態(tài)性和跨平臺特性
這些環(huán)境各有特點,桌面環(huán)境通常提供更穩(wěn)定的API接口,移動環(huán)境強調(diào)觸摸交互和傳感器數(shù)據(jù),而Web環(huán)境則面臨頁面動態(tài)加載和跨域限制等挑戰(zhàn)。
OS Agents基礎架構
觀察空間:多模態(tài)輸入處理的技術實現(xiàn)
觀察空間涵蓋了OS Agents可獲取的系統(tǒng)狀態(tài)和用戶活動信息,是智能體理解環(huán)境的基礎。
GUI截圖作為主要觀察形式:面臨高分辨率處理的技術挑戰(zhàn)。常見GUI截圖分辨率為720×1080,而大多數(shù)現(xiàn)有MLLM的視覺編碼器僅能處理224×224的低分辨率圖像。將截圖縮放到適配視覺編碼器的分辨率會保留整體布局和大部分對象特征,但文本和小圖標往往無法被良好感知,而這些細節(jié)有時對任務完成至關重要。
文本描述:另一種重要觀察形式,包括HTML代碼、DOM(Document Object Model)樹和可訪問性樹(Accessibility Tree, A11y tree)。A11y tree是操作系統(tǒng)生成的界面元素層次結構表示,專為輔助技術設計,它為每個GUI元素提供語義標簽和層級關系。在OS Agents中,A11y tree被用作GUI截圖的語義參考,將視覺元素與其在界面結構中的角色對應起來,顯著提升智能體對界面的理解能力。
多模態(tài)融合:是OS Agents面臨的關鍵技術瓶頸。整合視覺與文本信息的多模態(tài)輸入為智能體帶來了顯著挑戰(zhàn),要求它們有效理解并執(zhí)行任務。不同數(shù)據(jù)結構的整合需要復雜的處理流程,這也是當前研究的熱點領域。
動作空間:操作系統(tǒng)交互的完整技術實現(xiàn)
動作空間定義了OS Agents通過操作系統(tǒng)提供的輸入接口與環(huán)境交互的方式,可分為三大類:
輸入操作:代表與數(shù)字界面交互的主要方法,包括:
- 鼠標/觸摸操作:點擊/輕觸、長按/保持、拖動/移動
- 鍵盤操作:基本文本輸入、特殊鍵操作如快捷鍵
導航操作:使OS Agents能夠在目標平臺中導航并獲取足夠信息,包括:
- 基本導航:滾動、返回/前進、主頁功能
- Web特定導航:標簽管理、URL導航
擴展操作:提供超出標準界面交互的額外能力,主要包括:
- 代碼執(zhí)行能力:允許智能體通過直接腳本執(zhí)行和命令解釋動態(tài)擴展動作空間
- API集成:訪問外部工具和信息資源,如通過API調(diào)用訪問第三方服務
這些操作從根本上增強了OS Agents的適應性和功能性,使其能夠處理僅通過常規(guī)界面交互無法實現(xiàn)的更復雜和多樣化的任務。
這些核心組件構成了OS Agents的物理基礎,而要使這些組件協(xié)同工作并實現(xiàn)有效任務執(zhí)行,還需要三大關鍵能力的支持:理解能力讓我們"看見"界面,規(guī)劃能力讓我們"思考"步驟,定位能力則讓我們"觸摸"屏幕。這三種能力共同構成了OS Agents的"操作系統(tǒng)"。
核心能力技術要求
OS Agents需要具備三種核心能力:理解、規(guī)劃和定位,這些能力共同支撐智能體有效執(zhí)行任務。
理解能力:GUI元素識別與語義理解的技術瓶頸
理解能力是OS Agents解析復雜OS環(huán)境的關鍵。這些環(huán)境包含各種數(shù)據(jù)格式,包括HTML代碼和通過截圖捕獲的圖形用戶界面。挑戰(zhàn)在于處理高分辨率界面中的微小圖標、小文字和密集排列的元素,這些因素使界面變得雜亂無章,對智能體的感知能力提出了更高要求。理解能力不僅對信息檢索任務至關重要,也是有效執(zhí)行其他任務的基本前提。
例如,在AndroidWorld中,OS Agents需要從Simple Calendar Pro中檢索預定事件,這要求智能體能夠識別并提取特定信息。處理密集元素和微小文字的技術挑戰(zhàn)是當前研究的重點,也是限制OS Agents性能的關鍵瓶頸。
規(guī)劃能力:任務分解與執(zhí)行的技術實現(xiàn)
規(guī)劃能力使OS Agents能夠?qū)碗s任務分解為可管理的子任務,并制定實現(xiàn)特定目標的動作序列。操作系統(tǒng)內(nèi)的規(guī)劃通常需要智能體基于環(huán)境反饋和歷史動作動態(tài)調(diào)整計劃,這對智能體的適應性提出了更高要求。
全局規(guī)劃:OS Agents僅生成一次全局計劃并在執(zhí)行過程中不做調(diào)整。CoT(Chain-of-Thought)提示使(M)LLM將復雜任務分解為推理步驟,構成了大多數(shù)OS Agents中全局規(guī)劃的基礎。OS-Copilot利用LLM將全局計劃形式化為有向無環(huán)圖,實現(xiàn)獨立子任務的并行執(zhí)行,最小化執(zhí)行時間并提高效率。ACE提示LLM根據(jù)用戶查詢優(yōu)化提取的步驟。Agent S提出經(jīng)驗增強分層規(guī)劃,通過整合記憶和在線知識來指導計劃。AIA利用標準操作程序(Standard Operating Procedures, SOP)將復雜任務分解為可管理的子任務。
迭代規(guī)劃:允許OS Agents根據(jù)歷史動作或環(huán)境變化持續(xù)迭代其計劃,使其能夠適應持續(xù)的環(huán)境變化。ReAct在CoT概念基礎上,通過整合推理與行動結果,使規(guī)劃更能適應環(huán)境變化,已廣泛應用于OS Agents進行迭代規(guī)劃。Reflexion在ReAct基礎上,允許訪問先前動作和狀態(tài),增強OS Agents在復雜、時間敏感場景中的戰(zhàn)略規(guī)劃能力。Auto-GUI采用CoT技術,利用過去動作歷史在每一步后迭代生成未來計劃。OSCAR引入任務驅(qū)動重規(guī)劃,允許OS Agent根據(jù)環(huán)境的實時反饋修改計劃。SheetCopilot采用基于狀態(tài)機的任務規(guī)劃,使用基于反饋或基于檢索的機制修改計劃,增強OS Agent適應動態(tài)環(huán)境的能力。RCI提示LLM查找輸出中的問題并基于發(fā)現(xiàn)改進輸出,幫助OS Agent完善推理過程。CoAT引入比ReAct更復雜、針對OS Agent的推理方法,提示LLM執(zhí)行涉及屏幕描述、動作思考和下一步動作描述的推理過程,最終導致動作結果。
定位能力:動作執(zhí)行的精準技術實現(xiàn)
定位能力指OS Agents將文本指令或計劃轉(zhuǎn)化為操作系統(tǒng)中可執(zhí)行動作的能力,要求智能體識別屏幕上的元素并提供必要的參數(shù)(如坐標、輸入值)以確保成功執(zhí)行。選擇哪種定位技術應根據(jù)任務復雜度、界面動態(tài)性和資源限制綜合考量。對于簡單靜態(tài)界面,視覺定位已足夠;對于復雜多變的應用場景,雙重定位能提供最佳可靠性。
視覺定位:大多數(shù)研究使用SoM(Set-of-Mark)提示增強OS Agents的視覺定位能力,結合OCR和GUI元素檢測算法(如ICONNet和Grounding DINO)提取交互元素的邊界框,然后將其整合到相應圖像區(qū)域。SoM技術通過在圖像上添加標記點,使模型能夠更精確地識別和定位GUI元素。
語義定位:一些研究通過添加這些交互元素的描述來改進OS Agents的語義定位能力。SeeAct使用網(wǎng)站的HTML文檔作為GUI截圖的語義參考,將視覺元素與其在HTML結構中的語義含義聯(lián)系起來。
雙重定位:結合視覺和語義信息以提高OS Agents對視覺環(huán)境的理解。
OS Agents 構建技術
領域特定基礎模型
構建OS Agents的第一步是開發(fā)針對該領域的基礎模型,這涉及模型架構設計和訓練策略兩個關鍵方面。
架構選擇的技術權衡
現(xiàn)有LLM:一些工作(如AutoGLM、AutoWebGLM)直接選擇開源LLM作為骨干模型,無需進一步優(yōu)化架構?,F(xiàn)有LLMs(如T5、LLaMA)可以直接處理用戶指令并讀取HTML代碼來感知界面信息。WebAgent結合Flan-U-PaLM與HTML-T5(Long-T5-base的微調(diào)版本),后者讀取用戶指令和界面HTML代碼及導航歷史,生成界面摘要和任務計劃,再由Flan-U-PaLM生成可執(zhí)行Python代碼。
現(xiàn)有MLLM:現(xiàn)有MLLMs(如LLaVA、Qwen-VL、InternVL、CogVLM)因兼具處理視覺信息和復雜自然語言處理的能力,成為開發(fā)OS Agents基礎模型的有效選擇。這些模型能夠直接處理GUI截圖,避免了僅依賴文本表示的局限性。
拼接式MLLM:通過將適合處理OS任務的LLM和視覺編碼器以類似現(xiàn)有MLLMs的方式連接起來。例如,選擇T5作為LLM,其編碼器-解碼器架構更適合處理HTML的樹狀結構,使模型能夠通過感知GUI的文本和圖像形式更好地處理GUI信息。
修改式MLLM:對MLLM架構進行了進一步調(diào)整以增強理解能力。
OS Agents 基礎模型構建技術路線
預訓練與微調(diào)的技術策略
預訓練是OS Agents基礎模型構建的關鍵環(huán)節(jié)。研究表明,預訓練應使MLLM具備理解GUI截圖和識別屏幕上元素的知識。為此,研究提出了屏幕問答任務作為預訓練目標,其中設計了針對計數(shù)、算術運算和解釋復雜數(shù)據(jù)等能力的數(shù)據(jù)集,以提升模型對界面內(nèi)容的深度理解能力。
監(jiān)督微調(diào)是提升OS Agents性能的重要步驟。對于理解能力,研究人員會收集大量的GUI截圖及其對應的文本描述,并利用先進的大語言模型生成高質(zhì)量、語義豐富的描述信息,以增強智能體對界面內(nèi)容的理解。對于規(guī)劃能力,則首先需要構建多步操作軌跡,再通過大模型合成相應的用戶指令。具體方法包括:采用固定規(guī)則結合大模型遍歷應用程序,利用在線教程文章將操作步驟映射為智能體可執(zhí)行的動作序列,或構建網(wǎng)頁間的導航有向圖并通過搜索最短路徑生成任務軌跡。這些操作軌跡隨后被輸入到高級大語言模型中,自動生成符合人類表達習慣的任務指令,并進一步分解為包含中間推理步驟的思維鏈(Chain-of-Thought),從而訓練智能體具備逐步推理與任務規(guī)劃的能力。
對于定位能力,研究人員主要采用兩種策略將界面操作與視覺表示關聯(lián):
網(wǎng)頁環(huán)境策略:通過直接渲染HTML源代碼創(chuàng)建帶標注的界面截圖。例如,LLaVA團隊開發(fā)了基于HTML渲染的標注系統(tǒng),將網(wǎng)頁元素與視覺標記精確對應;WebUI項目則實現(xiàn)了自動化的HTML元素-圖像區(qū)域映射技術,使模型能準確識別按鈕、輸入框等交互元素;而Grounding DINO框架則專注于通過視覺檢測算法識別GUI組件邊界,為每個元素添加唯一標識。
桌面/移動環(huán)境策略:在真實操作系統(tǒng)環(huán)境中創(chuàng)建帶標注的交互數(shù)據(jù)。OS-Atlas項目構建了跨平臺GUI交互模擬器,通過模擬用戶點擊、滑動等操作生成帶標記的界面截圖;ScreenQA系統(tǒng)則開發(fā)了屏幕問答任務框架,讓模型學習從高分辨率截圖中精確定位元素;Auto-GUI工具集實現(xiàn)了自動化操作錄制功能,將每一步用戶操作與界面狀態(tài)變化精確關聯(lián)。
這兩種策略各有優(yōu)勢:HTML渲染方法能提供精確的語義信息但局限于Web環(huán)境,而桌面模擬方法更接近真實使用場景但實現(xiàn)復雜度更高。先進的OS Agents系統(tǒng)往往結合兩種方法,實現(xiàn)更準確的界面理解與操作定位。
強化學習:OS Agents的性能優(yōu)化引擎
強化學習(Reinforcement Learning, RL)為OS Agents提供了通過試錯學習優(yōu)化性能的關鍵機制,使智能體能夠從交互經(jīng)驗中不斷改進。在OS Agents領域,RL的應用已發(fā)展出兩種成熟的技術范式:
基于行為克隆的RL:通過模擬人類操作行為訓練智能體,如WebShop電商平臺模擬環(huán)境根據(jù)產(chǎn)品匹配度提供獎勵信號。MiniWob++基準測試系統(tǒng)利用人類交互行為先驗指導模型學習,實現(xiàn)接近人類水平的操作能力。AutoGLM項目開發(fā)了"自演化的在線課程RL方法",使OS Agents具備強大的錯誤恢復能力,能從失敗中學習并持續(xù)優(yōu)化性能。
基于反饋的RL:讓模型直接從環(huán)境反饋中學習優(yōu)化策略。Thil團隊在Miniwob++基準上微調(diào)T5模型并整合分層規(guī)劃,顯著提升Web導航能力。最新多模態(tài)模型如Ferret-UI 2和CogAgent已將強化學習深度集成到視覺-語言聯(lián)合訓練中,通過環(huán)境反饋循環(huán)不斷調(diào)整策略,使OS Agents在動態(tài)界面中表現(xiàn)出更強的適應性和魯棒性。
常見OS Agents基礎模型
Agent框架的四大核心模塊
OS Agent框架通常由四個核心組件構成:感知、規(guī)劃、記憶和動作。這些組件協(xié)同工作,使OS Agents能夠理解環(huán)境、制定計劃、存儲經(jīng)驗并執(zhí)行操作。
OS Agents 框架概述
感知模塊的多模態(tài)處理
感知是OS Agents收集和分析環(huán)境信息的過程。根據(jù)輸入模態(tài),感知可分為兩類:
文本描述處理:早期工作受限于LLM只能處理文本輸入,主要依靠工具將OS狀態(tài)轉(zhuǎn)換為文本描述。這些文本描述通常以結構化格式表示,如HTML、DOM或可訪問性樹。例如,MobileGPT將移動屏幕轉(zhuǎn)換為簡化的HTML表示以幫助LLM理解。然而,這些方法可能生成無關或冗余信息,影響OS Agents對環(huán)境的判斷。為此,一些新方法被提出以過濾無效描述:Agent-E引入靈活的DOM蒸餾方法,允許智能體根據(jù)特定任務從三種不同實現(xiàn)中選擇最合適的DOM表示;還有研究僅在智能體執(zhí)行操作時擴展HTML表示,迫使其在有限信息下做出合理決策;WebWise引入filterDOM函數(shù),基于預定義的"標簽"和"類"選擇相關DOM元素,過濾掉不必要的項目。
GUI截圖處理:MLLM的出現(xiàn)使OS Agents能夠處理視覺輸入。研究越來越多地將GUI截圖視為OS Agents的感知輸入,這更符合人類行為。然而,大多數(shù)現(xiàn)有OS Agents的視覺編碼器在通用數(shù)據(jù)上預訓練,使OS Agents對GUI元素不太敏感。為此,現(xiàn)有研究聚焦于GUI定位(GUI grounding),可分為三類:視覺定位、語義定位和雙重定位。
規(guī)劃模塊的技術實現(xiàn)
規(guī)劃是基于當前環(huán)境開發(fā)實現(xiàn)特定目標的動作序列的過程。OS Agents的規(guī)劃模塊面臨的關鍵挑戰(zhàn)是如何處理動態(tài)變化的環(huán)境,因為操作系統(tǒng)界面會隨著每次操作而改變。
全局規(guī)劃:OS Agents僅生成一次全局計劃并在執(zhí)行過程中不做調(diào)整。CoT提示使(M)LLM將復雜任務分解為推理步驟,構成了大多數(shù)OS Agents中全局規(guī)劃的基礎。OS-Copilot利用LLM將全局計劃形式化為有向無環(huán)圖,實現(xiàn)獨立子任務的并行執(zhí)行,最小化執(zhí)行時間并提高效率。
迭代規(guī)劃:允許OS Agents根據(jù)歷史動作或環(huán)境變化持續(xù)迭代其計劃,使其能夠適應持續(xù)的環(huán)境變化。ReAct在CoT概念基礎上,通過整合推理與行動結果,使規(guī)劃更能適應環(huán)境變化,已廣泛應用于OS Agents進行迭代規(guī)劃。Reflexion在ReAct基礎上,允許訪問先前動作和狀態(tài),增強OS Agents在復雜、時間敏感場景中的戰(zhàn)略規(guī)劃能力。Auto-GUI采用CoT技術,利用過去動作歷史在每一步后迭代生成未來計劃。OSCAR引入任務驅(qū)動重規(guī)劃,允許OS Agent根據(jù)環(huán)境的實時反饋修改計劃。SheetCopilot采用基于狀態(tài)機的任務規(guī)劃,使用基于反饋或基于檢索的機制修改計劃,增強OS Agent適應動態(tài)環(huán)境的能力。RCI提示LLM查找輸出中的問題并基于發(fā)現(xiàn)改進輸出,幫助OS Agent完善推理過程。CoAT引入比ReAct更復雜、針對OS Agent的推理方法,提示LLM執(zhí)行涉及屏幕描述、動作思考和下一步動作描述的推理過程,最終導致動作結果。
記憶模塊的系統(tǒng)架構
隨著操作系統(tǒng)中自動化任務復雜性的增加,內(nèi)存模塊成為OS Agents的核心組件之一。有效的內(nèi)存管理可以增強整體性能,防止信息過載導致的效率損失。
早期工作允許基于LLM的智能體與游戲環(huán)境交互,將經(jīng)驗總結為文本,從而積累記憶并促進自我進化。后來,研究人員將這些原理應用于OS Agent領域,驗證了記憶機制在OS Agents中的可行性。然而,由于學術界可用資源有限和訪問真實用戶數(shù)據(jù)的困難,當前研究大多集中在改進特定任務的性能,而非個性化。將記憶模式從文本擴展到其他形式(如圖像、語音)帶來了重大挑戰(zhàn)。有效管理和檢索這種記憶仍然是一個開放問題。
動作模塊的執(zhí)行與反饋
動作模塊負責將規(guī)劃模塊生成的高級指令轉(zhuǎn)化為操作系統(tǒng)可執(zhí)行的底層操作。
動作執(zhí)行:通過操作系統(tǒng)API或自動化工具(如Selenium、Appium)執(zhí)行具體操作。動作執(zhí)行器需要處理操作失敗的情況,實現(xiàn)錯誤恢復機制。
反饋循環(huán):動作執(zhí)行后,需要收集環(huán)境反饋以驗證操作是否成功,并據(jù)此調(diào)整后續(xù)規(guī)劃。這種反饋循環(huán)是迭代規(guī)劃的基礎,使OS Agents能夠適應動態(tài)變化的環(huán)境。
OS Agents評估技術體系
評估在OS Agents開發(fā)中起著至關重要的作用,有助于評估其在各種場景中的性能和有效性。當前文獻中存在多種評估技術,根據(jù)特定環(huán)境和應用而顯著不同。
評估協(xié)議的科學構建
評估原則的雙重維度
客觀評估:主要基于標準化數(shù)值指標測量OS Agents的性能,通常是基于標準基準數(shù)據(jù)集的基于規(guī)則的計算或硬編碼評估。這種評估特別針對智能體在感知、生成內(nèi)容質(zhì)量、動作有效性和操作效率方面的準確性。具體指標計算包括精確匹配、模糊匹配和語義匹配(針對文本、元素和圖像)。通過精確高效的數(shù)值分析,客觀評估能夠快速標準化測量智能體的性能。
主觀評估:目的是衡量輸出與人類期望的匹配程度,通常應用于需要高水平理解且難以用傳統(tǒng)指標量化的場景。早期主觀評估主要基于直接人工評估,雖然產(chǎn)生高質(zhì)量結果,但成本高且難以復制。后來,LLM被引入作為評估者替代人類判斷,利用其強大的指令跟隨能力。這種LLM-as-a-judge評估方法可以提供詳細的注釋解釋,對理解智能體的優(yōu)勢和劣勢提供更細粒度的理解。然而,盡管效率有所提高,但在可靠性和可控性方面仍存在局限。
評估指標的層次化設計
評估指標需要從多個維度全面衡量OS Agents的性能:
- 任務完成度:衡量智能體是否成功完成指定任務,通常以二進制指標(成功/失?。┗蛉蝿胀瓿砂俜直缺硎?。
- 執(zhí)行效率:評估智能體完成任務所需的步驟數(shù)、時間和資源消耗。高效的OS Agents應該能夠以最少的操作步驟和時間完成任務。
- 魯棒性:測試智能體在面對界面變化、意外彈出窗口或網(wǎng)絡延遲等干擾因素時的穩(wěn)定性。
- 泛化能力:評估智能體在未見過的應用程序或界面設計上的適應能力。
- 用戶滿意度:通過主觀評估衡量最終用戶對智能體表現(xiàn)的滿意程度,通常包括易用性、響應速度和結果質(zhì)量等方面。
近期常見OS Agents框架對比
評估基準的深度解析
評估平臺的選擇
模擬環(huán)境:模擬環(huán)境(如MiniWob++、WebShop)便于控制變量和大規(guī)模實驗,但通常過于簡化,排除了意外情況,無法捕捉真實場景的復雜性。
真實環(huán)境:真實環(huán)境真正真實,包含真實網(wǎng)站和應用,必須考慮環(huán)境的持續(xù)更新性質(zhì)、不可控的用戶行為和多樣的設備設置。OSWorld構建運行Windows、Linux和MacOS的虛擬機,系統(tǒng)評估不同操作系統(tǒng)上OS Agents的性能。AndroidWorld在Android模擬器上使用真實應用進行測試,突顯了在多樣和真實條件下評估智能體的重要性。
任務分類的技術評估
任務分類對于理解OS Agents的能力和局限性至關重要?;谠u估過程所需的能力,當前基準任務主要分為三類:
GUI定位任務:目的是評估智能體將指令轉(zhuǎn)換為各種可操作元素的能力。定位是OS Agents必須具備的與操作系統(tǒng)交互的基礎能力。早期工作如PIXELHELP提供將英語指令與用戶在移動模擬器上執(zhí)行的操作配對的基準。
信息處理任務:在交互式智能體上下文中,有效處理信息的能力是解決復雜任務的關鍵組件。例如,WebLINX提供低級和高級指令,挑戰(zhàn)智能體完成單步或多步任務,從而測試其規(guī)劃能力。MMInA強調(diào)多跳任務,要求智能體導航多個網(wǎng)站以完成給定指令。
代理能力任務:評估智能體執(zhí)行復雜任務、進行多步驟推理和決策的能力。
近期的 OS Agents 基準測試
防御機制的研究現(xiàn)狀
盡管已為基于LLM的智能體開發(fā)了多種安全框架,但針對OS Agents的防御研究仍然有限。彌合這一差距需要開發(fā)針對OS Agents漏洞的穩(wěn)健防御機制,如注入攻擊、后門利用和其他潛在威脅。未來研究可優(yōu)先考慮這些領域,專注于為OS Agents開發(fā)全面可擴展的安全解決方案。
安全基準的評估體系
已引入幾個安全基準來評估各種場景中OS Agents的穩(wěn)健性:
ST-WebAgentBench:一個在線基準,是為了系統(tǒng)評估企業(yè)環(huán)境中Web智能體的安全性和可信度。它關注六個關鍵可靠性維度,為評估高風險環(huán)境中智能體行為提供全面框架。
MobileSafetyBench:一個基準測試平臺,用于評估基于LLM的移動智能體的安全性,重點關注評估其在Android環(huán)境中處理安全關鍵任務的性能,包括與消息和銀行應用程序的交互。
個性化與自我進化方向
開發(fā)個性化的OS Agents一直是AI研究的長期目標,類似于電影中鋼鐵俠的個人助理J.A.R.V.I.S.。個人助理應能夠根據(jù)個人用戶偏好不斷適應并提供增強體驗。
記憶機制的多模態(tài)擴展
早期工作允許基于LLM的智能體與游戲環(huán)境交互,將經(jīng)驗總結為文本,從而積累記憶并促進自我進化。后來,研究人員將這些原理應用于OS Agent領域,驗證了記憶機制在OS Agents中的可行性。然而,由于學術界可用資源有限和訪問真實用戶數(shù)據(jù)的困難,當前研究大多集中在改進特定任務的性能,而非個性化。將記憶模式從文本擴展到其他形式(如圖像、語音)帶來了重大挑戰(zhàn)。有效管理和檢索這種記憶仍然是一個開放問題。
OS-Copilot的個性化突破
面對OS Agents難以適應用戶個性化需求的挑戰(zhàn),OS-Copilot創(chuàng)新性地引入用戶配置文件機制,系統(tǒng)記錄用戶偏好(如工具使用習慣、音樂或視頻偏好)和任務模式。這一設計使智能體能夠從用戶歷史行為中學習,動態(tài)生成定制化工具和技能代碼。
在實際測試中,該方法使任務完成率提升23%,特別是在重復性任務上表現(xiàn)突出。然而,其依賴顯式用戶配置的特點也限制了在新用戶場景中的適應速度。
經(jīng)驗管理與自我進化
通過回顧任務的每一步,智能體可以分析成功與失敗,識別改進機會,并避免在類似場景中重復錯誤。MobA引入雙重反思,在執(zhí)行前評估任務可行性并在完成后審查完成狀態(tài)。在一些研究工作中,智能體在任務失敗后分析動作序列,識別最早的錯誤步驟,并生成替代動作的結構化建議。OS Agents可以返回到先前狀態(tài)并在當前任務路徑不可行或結果不符合預期時選擇替代路徑,類似于經(jīng)典搜索算法,使智能體能夠探索多個潛在解決方案并找到最優(yōu)路徑。LASER使用內(nèi)存緩沖機制存儲探索過程中未選擇的中間結果,允許智能體在狀態(tài)空間中靈活回溯。SheetCopilot利用狀態(tài)機機制,通過提供錯誤反饋和電子表格狀態(tài)反饋指導模型重新規(guī)劃動作。
未來克服這些挑戰(zhàn)將使OS Agents能夠提供更個性化、動態(tài)和上下文感知的輔助,以及更復雜的自我進化機制,不斷適應用戶的需求和偏好。
技術發(fā)展路線
短期技術發(fā)展(1-2年)
基于"快速進展"趨勢,OS Agents的短期技術發(fā)展將集中在基礎能力提升和安全機制初步完善上。
基礎能力提升:
- GUI理解精度:將持續(xù)提高,特別是高分辨率界面處理技術。當前大多數(shù)MLLM視覺編碼器僅能處理224×224的低分辨率圖像,而常見GUI截圖分辨率為720×1080,這一差距導致文本和小圖標無法被良好感知。CogAgent和Ferret-UI等模型已開始解決這一問題,未來將有更多創(chuàng)新。想象一下,當你的智能助手能準確識別手機屏幕上微小的文字按鈕,不再誤點廣告,而是精準完成你要求的'點擊右下角設置圖標'指令。這種改進看似微小,卻將大幅提升OS Agents在真實環(huán)境中的可靠性,特別是在處理銀行應用、醫(yī)療健康等對精度要求極高的場景。
- 規(guī)劃魯棒性:將得到增強,以應對環(huán)境動態(tài)變化的挑戰(zhàn)。操作系統(tǒng)內(nèi)的規(guī)劃通常需要智能體基于環(huán)境反饋和歷史動作動態(tài)調(diào)整計劃,這對智能體的適應性提出了更高要求。
中期技術演進(3-5年)
統(tǒng)一動作空間:將被廣泛采用。研究者發(fā)現(xiàn)有必要將不同來源的動作序列適應到統(tǒng)一的動作空間,以避免微調(diào)過程中的沖突。統(tǒng)一動作空間的實現(xiàn)將避免不同來源動作序列的沖突。
跨平臺能力整合:將是中期技術發(fā)展的關鍵。盡管不同GUI平臺之間存在相似性,但僅基于Web數(shù)據(jù)的預訓練難以泛化到其他平臺。OS-Atlas項目通過創(chuàng)建多個模擬環(huán)境并利用A11y樹模擬人機交互,采樣跨平臺定位數(shù)據(jù),為這一問題提供了初步解決方案。這一技術將得到進一步完善,實現(xiàn)真正無縫的跨平臺操作。
個性化能力:將顯著增強。OS-Copilot通過用戶配置文件記錄用戶偏好,實現(xiàn)個性化解決方案和推薦服務。隨著多模態(tài)記憶的有效管理和檢索技術的發(fā)展,OS Agents將能夠更深入地理解用戶需求,提供高度個性化的服務。例如,智能助手可以根據(jù)你的工作習慣,在每天早晨自動整理郵件、安排日程,并在會議前準備相關資料,而不需要每次都重復相同指令。
長期技術愿景(5年以上)
自我進化系統(tǒng):將實現(xiàn)從有限監(jiān)督到自主學習的技術演進。"自演化的在線課程RL方法"使OS Agents能夠?qū)崿F(xiàn)強大的錯誤恢復和性能提升,這將成為長期技術發(fā)展的基礎。未來的OS Agents將能夠從每次交互中學習,不斷優(yōu)化其性能。
想象一個智能助手,它不僅能完成你指定的任務,還能主動發(fā)現(xiàn)效率瓶頸,提出改進建議,并在你同意后自動實施這些改進。
J.A.R.V.I.S.愿景:將逐步實現(xiàn)。OS Agents將具備人類水平的界面理解與任務執(zhí)行能力,能夠處理從在線購物到旅行安排預訂等各種日?;顒?,大幅提高效率和生產(chǎn)力。未來的智能助手將無縫融入我們的數(shù)字生活,成為真正意義上的"數(shù)字副駕駛",不僅執(zhí)行指令,還能主動預測需求、提供建議,并在復雜任務中與人類協(xié)同工作。
總結
OS Agents仍處于早期發(fā)展階段,但正經(jīng)歷快速進步。這些進展不斷引入新的方法和應用,使OS Agents越來越接近實現(xiàn)鋼鐵俠中J.A.R.V.I.S.的愿景。
核心挑戰(zhàn)回顧:
- 安全與隱私被強調(diào)為首要挑戰(zhàn)。隨著OS Agents能夠直接操作系統(tǒng),安全風險顯著增加,需要開發(fā)針對性的防御機制和評估基準。
- 跨平臺泛化能力仍需加強,不同GUI平臺間的差異導致模型難以直接遷移。
- 長期任務執(zhí)行中的記憶管理和錯誤恢復機制有待完善。
- 個性化與自我進化是關鍵方向,使OS Agents能夠根據(jù)用戶偏好不斷適應并提供增強體驗。
技術價值展望:OS Agents有潛力"顯著增強全球數(shù)十億用戶生活"。想象一個世界,其中在線購物、旅行安排預訂和其他日?;顒涌梢杂蛇@些智能體無縫執(zhí)行,從而大幅提高效率和生產(chǎn)力。隨著技術的不斷進步,這一愿景將逐漸變?yōu)楝F(xiàn)實,為大家?guī)砬八从械谋憷托省?/span>
正如本文所展示的,OS Agents技術正在快速發(fā)展,從學術研究走向?qū)嶋H應用。通過理解其核心組件、構建方法和評估體系,我們能夠更好地把握這一領域的機遇與挑戰(zhàn),最終實現(xiàn)智能助手的終極愿景。