微軟正式開源UFO2,Windows桌面邁入「AgentOS 時代」
本論文第一作者為微軟 DKI 團隊的 Chaoyun Zhang,其為 Windows 平臺首個智能體系統(tǒng) ——UFO 的核心開發(fā)者,該項目已在 GitHub 上開源并獲得約 7,000 Stars,在社區(qū)中引發(fā)廣泛關(guān)注。同時,他也是一篇超過 90 頁的 GUI Agent 綜述文章的主要撰寫者,系統(tǒng)梳理了該領(lǐng)域的關(guān)鍵進展與技術(shù)框架。其余項目的主要貢獻者亦均來自微軟 DKI 團隊,具備深厚的研究與工程背景。

- 論文標題:UFO2: The Desktop AgentOS
 - 論文地址:https://arxiv.org/abs/2504.14603
 - 開源代碼:https://github.com/microsoft/UFO/
 - 項目文檔:https://microsoft.github.io/UFO/
 
近年來,圖形用戶界面(GUI)自動化技術(shù)正在逐步改變?nèi)藱C交互和辦公自動化的生態(tài)。然而,以 Robotic Process Automation(RPA)為代表的傳統(tǒng)自動化工具通常依賴固定腳本進行操作,存在界面變化敏感、維護成本高昂、用戶體驗欠佳等明顯問題。
同時,近年來興起的基于大型語言模型(LLM)的計算機智能體(Computer-Using Agents,CUA)雖然展現(xiàn)出靈活的自動化潛力,但多數(shù)方案仍停留在概念驗證或原型階段,缺乏與操作系統(tǒng)深度集成的能力,制約了其在實際工作環(huán)境中的規(guī)?;瘧?yīng)用。
針對這些行業(yè)痛點,作為前代純 GUI 桌面智能體 UFO 的全面升級版,微軟研究團隊近日正式開源了業(yè)內(nèi)首個深度集成 Windows 操作系統(tǒng)的桌面智能體平臺 ——UFO2 AgentOS。該平臺不僅繼承了 UFO 的強大 GUI 操作能力,還在系統(tǒng)層面進行了深度優(yōu)化,顯著提升了智能體在 Windows 環(huán)境下的操作效率與穩(wěn)定性。

圖 - 1:傳統(tǒng) CUAs 和 AgentOS UFO2 對比
UFO2:深度 OS 集成的桌面智能體
UFO2 不是傳統(tǒng)意義上的桌面自動化工具,而是一種深度融入操作系統(tǒng)的智能體框架,首次以「AgentOS」理念設(shè)計,徹底解決了傳統(tǒng)智能體界面交互脆弱、執(zhí)行中斷用戶體驗等核心問題。
UFO2 引入了多智能體架構(gòu):中央的 HostAgent 負責(zé)自然語言任務(wù)解析與子任務(wù)分解,而專屬的 AppAgent 則為每個應(yīng)用程序提供定制化的 API 接入、界面感知與交互能力。兩者協(xié)同工作,實現(xiàn)了任務(wù)的精準分解與靈活執(zhí)行,并支持跨應(yīng)用任務(wù),顯著提升了系統(tǒng)的可擴展性與執(zhí)行效率。
具體來說,UFO2 在以下幾個核心維度實現(xiàn)了突破,這些維度都充分利用了與 Windows 系統(tǒng)的深度集成:
統(tǒng)一 GUI–API 混合執(zhí)行
傳統(tǒng) API 執(zhí)行方式精準高效,但需要針對特定應(yīng)用實現(xiàn)對應(yīng)接口,覆蓋范圍有限;而 GUI 執(zhí)行方式更加通用靈活,但步驟更長,容易受到界面變動的影響。UFO2 創(chuàng)新地將 API 與 GUI 兩種執(zhí)行范式合二為一,通過統(tǒng)一的 Puppeteer 接口,實現(xiàn)兩種執(zhí)行模式的動態(tài)選擇。
在實際任務(wù)執(zhí)行中,UFO2 可以智能地根據(jù)操作環(huán)境與任務(wù)特性,自動判斷是否優(yōu)先使用 API 執(zhí)行來提高速度與精準度,或者在 API 不足以完成任務(wù)時,靈活轉(zhuǎn)向 GUI 操作,從而實現(xiàn)效率與通用性的最佳平衡,顯著提升任務(wù)穩(wěn)定性和魯棒性。

圖 - 2:GUI-API 操作的混合統(tǒng)一接口
混合控件感知
UFO2 實現(xiàn)了與 Windows 系統(tǒng)的深度融合,通過結(jié)合 Windows 原生 UI Automation(UIA)接口與先進視覺識別模型 OmniParser-v2,實現(xiàn)了對界面元素的混合檢測與精準感知。這種方式不僅克服了傳統(tǒng)視覺識別準確性不足的問題,同時也解決了純粹依賴系統(tǒng) API 檢測范圍有限的瓶頸。
實際應(yīng)用場景中,尤其是在界面復(fù)雜、控件自定義或標準化程度低的場景下,UFO2 的混合感知能力有效提高了控件識別的準確性與覆蓋率,從而保障了任務(wù)執(zhí)行的穩(wěn)定性與魯棒性。

圖 - 3:基于 UIA API 和 OmniParser-v2 的融合控件檢測
持續(xù)增強的動態(tài)知識集成
UFO2 采用檢索增強生成(RAG)技術(shù),構(gòu)建了持續(xù)的知識庫,動態(tài)整合外部應(yīng)用文檔和歷史執(zhí)行日志,使智能體實時獲得最新的應(yīng)用使用方法和最佳實踐。這一技術(shù)保障了智能體在新功能上線或應(yīng)用版本升級后能迅速適應(yīng)變化,維持高效執(zhí)行。
通過這種方式,UFO2 可實現(xiàn)對復(fù)雜任務(wù)的精準理解與執(zhí)行,減少因知識更新不及時導(dǎo)致的操作失敗。此外,智能體還能利用歷史成功執(zhí)行的經(jīng)驗,提高任務(wù)完成的準確性與效率,真正實現(xiàn)「越用越強」。

圖 - 4:動態(tài)檢索外部應(yīng)用文檔和歷史執(zhí)行日志
高效的推測式多步執(zhí)行
為有效降低大語言模型(LLM)調(diào)用次數(shù),UFO2 創(chuàng)新性地采用了推測式多步預(yù)測機制。智能體一次 LLM 調(diào)用即可預(yù)測多個后續(xù)步驟,并通過實時的界面狀態(tài)校驗來逐步執(zhí)行。這種機制大幅度降低了智能體執(zhí)行任務(wù)時的延遲和計算成本。
實驗結(jié)果顯示,推測式多步執(zhí)行技術(shù)可減少高達 51.5% 的 LLM 調(diào)用次數(shù),大幅提升任務(wù)執(zhí)行速度與系統(tǒng)響應(yīng)能力,使智能體能夠更順暢地完成復(fù)雜的任務(wù)序列,提升整體效率。

圖 - 5:推測式多步執(zhí)行和驗證
無干擾的 PiP 虛擬桌面執(zhí)行環(huán)境
UFO2 引入了創(chuàng)新的畫中畫(PiP)虛擬桌面技術(shù),通過深度利用 Windows 原生的遠程桌面服務(wù),創(chuàng)建了一個輕量級、獨立且安全的虛擬桌面環(huán)境。所有智能體執(zhí)行的任務(wù)均在此環(huán)境中進行,避免了與用戶主桌面的任何交互干擾。
用戶可以在智能體執(zhí)行復(fù)雜任務(wù)的同時,繼續(xù)進行其他重要的工作,而無需擔(dān)心智能體任務(wù)影響自己的桌面操作。這一設(shè)計極大提高了智能自動化的用戶接受度與實際使用體驗。

圖 - 6:UFO2 畫中畫(PiP)的虛擬執(zhí)行環(huán)境
實踐檢驗:20 + 主流應(yīng)用測試全方位領(lǐng)先
在嚴格的基準測試中,UFO2 在超過 20 款主流 Windows 應(yīng)用(如 Excel、Outlook、Edge 等)中進行了充分驗證:
- 僅采用 GPT-4o, 任務(wù)成功率相比業(yè)內(nèi)領(lǐng)先的 OpenAI Operator 提升超過 10%。
 - 特別值得強調(diào)的是,UFO2 的推測式多步執(zhí)行技術(shù)將大模型調(diào)用(LLM call)的頻率降低最多達 51.5%,極大提升了任務(wù)響應(yīng)速度和系統(tǒng)效率。
 

圖 - 7:實驗結(jié)果對比
全面開源,共同推動桌面智能新時代
微軟團隊已經(jīng)將 UFO2 的全部代碼和詳細文檔向社區(qū)開源,歡迎開發(fā)者們加入共建與創(chuàng)新。
- 開源項目地址:https://github.com/microsoft/UFO (GitHub UFO2 項目)
 - 官方文檔:https://microsoft.github.io/UFO/(微軟 UFO2 官方文檔)
 
UFO2 的發(fā)布不僅標志著桌面智能體真正邁入了系統(tǒng)級的「AgentOS 時代」,也為未來智能辦公、智能人機交互的發(fā)展樹立了重要里程碑。通過 UFO2,微軟期待與全球開發(fā)者共同打造更加智能、穩(wěn)定、高效的桌面智能生態(tài)。
歡迎各界人士關(guān)注、使用并反饋,共同推動桌面自動化和智能交互的下一次技術(shù)革命。















 
 
 



 
 
 
 