拜拜了GUI!中科院團(tuán)隊“LLM友好”計算機(jī)使用接口來了
大模型Agent幫你自動操作電腦,理想很豐滿,現(xiàn)實卻骨感。
現(xiàn)有的LLM智能體,幾乎都繞不開兩大核心“痛點”:
- 成功率低:稍微復(fù)雜一點的任務(wù),Agent就“翻車”,常??ㄔ谀硞€步驟不知所措。
- 效率差:完成一個簡單任務(wù),Agent需要和系統(tǒng)進(jìn)行幾十輪“極限拉扯”,耗時漫長,看得人著急。
問題到底出在哪?難道是現(xiàn)在的大模型還不夠聰明嗎?
來自中國科學(xué)院軟件研究所團(tuán)隊的最新研究給出了一個出乎意料的答案:真正的瓶頸,在于那個我們用了40多年、無比熟悉的圖形用戶界面(GUI) 。

將“命令式”GUI轉(zhuǎn)換為“聲明式”
沒錯,就是那個從上世紀(jì)80年代開始流行,徹底改變了人機(jī)交互方式的GUI。它一直以來都是為人類量身定制的,其設(shè)計哲學(xué)與LLM的能力模型,簡直是背道而馳。
研究團(tuán)隊指出了GUI的核心問題:在使用GUI時,應(yīng)用程序的功能無法被直接訪問,而是必須依賴于導(dǎo)航和交互。
例如,GUI功能控件藏在層層菜單、選項卡和對話框后面,控件的訪問需要點擊菜單、下拉框等進(jìn)行導(dǎo)航,以使控件出現(xiàn)在屏幕上。其次,許多控件的使用(如滾動條、文本選取)需要反復(fù)調(diào)整并觀察反饋,形成高頻“觀察-操作”循環(huán)。
研究團(tuán)隊一針見血地指出,GUI的這種命令式(Imperative)設(shè)計背后,隱藏著對人類用戶的四個“關(guān)鍵假設(shè)” :
- 眼神好:人類精于視覺識別,能快速定位按鈕、圖標(biāo)和菜單的位置。
- 動作快:人類進(jìn)行“觀察-操作”循環(huán),又快又容易。
- 記憶容量?。喝祟惖呐R時記憶空間有限,所以界面要簡潔,一次只展示少量選項。
- 懶得動腦:人類學(xué)習(xí)和回憶具體規(guī)則的認(rèn)知成本高(例如編程語言語法),但擅長做“選擇題”。
然而,這些假設(shè)和LLM的能力完全錯配:
- LLM偏偏眼神不好,視覺能力有限,讓它在屏幕上精準(zhǔn)識別信息,非常困難。
- LLM的反應(yīng)偏慢,一次推理需要幾秒甚至若干分鐘,等待時間過長。
- LLM記性超群,巨大的上下文窗口讓它能輕松處理極大的信息量,根本不怕選項多。
- LLM是格式達(dá)人,輸出精確的結(jié)構(gòu)化指令是它的拿手好戲。
結(jié)果就是,在使用GUI時,LLM被迫同時承擔(dān)“大腦”(策略)和“雙手”(機(jī)制)的角色,既要根據(jù)語義規(guī)劃任務(wù),又要處理自己不擅長且繁瑣的底層操作,不僅效率低下,而且認(rèn)知負(fù)擔(dān)過重,極易出錯。
這種“命令式”的交互方式,就像是你打車去一個地方,但不能直接告訴司機(jī)目的地,而是必須一步步指揮他如何開:“前方200米左轉(zhuǎn),再直行50米,在紅綠燈處右轉(zhuǎn)……”。一旦你說錯一步,或者司機(jī)理解錯了,就前功盡棄。這正是當(dāng)前LLM智能體面臨的窘境。
那么,有沒有一種可能,讓LLM“打車”時,只需要說出最終目的地,剩下的路線規(guī)劃和具體駕駛操作,都交給一個“老司機(jī)”來自動完成呢?
這就是這項研究的核心思路:將接口從“命令式”轉(zhuǎn)換為“聲明式”(Declarative)。為此,研究團(tuán)隊基于GUI和操作系統(tǒng)的可訪問性機(jī)制,提出了一個全新的抽象——聲明式接口(GOI)。

GOI的精髓在于“策略-機(jī)制分離”(policy-mechanism separation):
- 策略(Policy):要完成什么,即任務(wù)的高層語義規(guī)劃和功能編排。例如,“把所有幻燈片的背景都設(shè)置為藍(lán)色”這一任務(wù),需要依次用到”藍(lán)色”和“應(yīng)用到全部”這兩個功能。這是LLM擅長的。
- 機(jī)制(Mechanism):具體怎么做,即底層的導(dǎo)航和交互。例如,“點擊‘設(shè)計’選項卡 -> 點擊‘格式背景’ -> 點擊‘純色填充’ -> …”?;蛘邅砘夭煌5赝献L動條以移動到合適的位置。這是LLM不擅長,但可以被自動化的。

GOI將繁瑣、易錯的“機(jī)制”部分接管,只給LLM提供三個簡單直接的“聲明式”原語:訪問(access)、狀態(tài)(state)和觀察(observation)。
現(xiàn)在,LLM不再需要像新手司機(jī)一樣戰(zhàn)戰(zhàn)兢兢地發(fā)出每一個微操指令,而更像一位運籌帷幄的指揮官:它只需通過GOI下達(dá)“訪問‘藍(lán)色’和‘應(yīng)用到全部’”,或“設(shè)置滾動條到80%” 這樣的高層指令,GOI就會自動完成所有中間的GUI導(dǎo)航和交互。
如此一來,LLM終于可以從GUI的泥潭中被解放出來,專注于它最擅長的語義理解和任務(wù)規(guī)劃。更重要的是,整個過程不需要修改應(yīng)用程序的源代碼,也不依賴應(yīng)用程序?qū)ν馓峁〢PI。
GOI如何實現(xiàn)“策略”與“機(jī)制”的解耦?
GOI的實現(xiàn)分為兩個階段:離線建模和在線執(zhí)行。

第一步:離線“繪制地圖”。在離線階段,GOI會自動探索目標(biāo)應(yīng)用(如Word)的可訪問控件,分析點擊前后界面元素的變化,從而構(gòu)建出一張完整的“UI導(dǎo)航圖”(UI Navigation Graph)。
但挑戰(zhàn)隨之而來:復(fù)雜的應(yīng)用中充滿了循環(huán)路徑和“合并節(jié)點”(即多個路徑可以到達(dá)同一個控件),而不同的路徑會觸發(fā)同一控件的不同功能。
GOI的巧妙之處在于,它通過一套去循環(huán)和基于成本的“選擇性外化”算法,將這張復(fù)雜的圖(Graph)轉(zhuǎn)換成了一個路徑清晰、無路徑歧義的“森林”(Forest)結(jié)構(gòu) 。這確保了無論LLM想訪問哪個功能,都有唯一且確定的路徑可以到達(dá)。
第二步:在線執(zhí)行。在執(zhí)行任務(wù)的在線階段,LLM不再需要輸出細(xì)粒度的GUI導(dǎo)航和交互序列。
取而代之的,是GOI提供的一份壓縮后、對LLM上下文窗口非常友好的文本化“地圖” 。當(dāng)LLM需要執(zhí)行任務(wù)時,它只需調(diào)用GOI提供的三大聲明式原語接口:
- 訪問(Access):通過visit接口,直接聲明要訪問的目標(biāo)功能控件ID 。GOI會自動計算路徑并完成導(dǎo)航。
- 狀態(tài)(State):通過set_scrollbar_pos(), select_lines()或select_controls()等接口,直接聲明控件要達(dá)到的最終狀態(tài)。例如,將滾動條直接設(shè)置到80%的位置,而無需模擬拖拽。
- 觀察(Observation):通過get_texts()等接口,直接獲取控件的結(jié)構(gòu)化信息,而無需LLM進(jìn)行像素級的屏幕內(nèi)容識別。
這些接口不依賴于特定應(yīng)用程序?qū)ν獗┞丁盇PI”,而是直接基于GUI和操作系統(tǒng)的通用可訪問性實現(xiàn)。
實驗效果:從“機(jī)制性”錯誤到“策略性”錯誤
為了驗證GOI的真實能力,研究團(tuán)隊在包含Word、Excel和PowerPoint的OSWorld-W基準(zhǔn)測試集上進(jìn)行了全面評估。
結(jié)果顯示,GOI帶來了壓倒性的性能提升。在使用GPT-5推理模型的核心設(shè)置下,成功率從44%飆升至74%。
此外,超過61%的成功任務(wù),Agent只用了一次LLM調(diào)用就“一遍過”,高效完成了用戶的核心意圖。

更有趣的是失敗分析。
對于使用GUI的基線,53.3%的失敗都屬于機(jī)制層面的錯誤,比如通過視覺等信息對控件進(jìn)行定位和識別時發(fā)生了錯誤、導(dǎo)航規(guī)劃錯誤、在與控件進(jìn)行交互時發(fā)生錯誤等。這就像一個人因為不認(rèn)識路而失敗。
引入GOI后,81%的失敗集中到了策略層面,例如對任務(wù)的語義理解有誤,對圖片內(nèi)容的語義分析有誤,或者對控件功能的認(rèn)知出現(xiàn)偏差。
這意味著GOI成功地將LLM從繁瑣的機(jī)制中解放了出來,降低了機(jī)制原因?qū)е率〉目赡?。LLM不再輕易犯“低級錯誤”,更集中于LLM自身的語義理解能力。這好比于,LLM定位錯了目的地,而不是因為不認(rèn)識路而失敗。

團(tuán)隊表示,GOI的提出,為設(shè)計更適合大模型的交互范式指明了清晰方向。
這項工作不僅為提升現(xiàn)有Agent的性能提供了解決思路,也啟發(fā)我們思考:
未來的操作系統(tǒng)和應(yīng)用程序,是否應(yīng)該原生提供這種“LLM友好”的聲明式接口,從而為更強(qiáng)大、更通用的AI Agent鋪平道路。
論文地址:https://arxiv.org/abs/2510.04607
























