偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<wbr id="p7f5c"><menu id="p7f5c"></menu></wbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

拜拜了GUI！中科院團(tuán)隊“LLM友好”計算機(jī)使用接口來了

2025-10-28 08:44:00

人工智能新聞

來自中國科學(xué)院軟件研究所團(tuán)隊的最新研究給出了一個出乎意料的答案：真正的瓶頸，在于那個我們用了40多年、無比熟悉的圖形用戶界面（GUI) 。

大模型Agent幫你自動操作電腦，理想很豐滿，現(xiàn)實卻骨感。

現(xiàn)有的LLM智能體，幾乎都繞不開兩大核心“痛點”：

成功率低：稍微復(fù)雜一點的任務(wù)，Agent就“翻車”，常?？ㄔ谀硞€步驟不知所措。
效率差：完成一個簡單任務(wù)，Agent需要和系統(tǒng)進(jìn)行幾十輪“極限拉扯”，耗時漫長，看得人著急。

問題到底出在哪？難道是現(xiàn)在的大模型還不夠聰明嗎？

來自中國科學(xué)院軟件研究所團(tuán)隊的最新研究給出了一個出乎意料的答案：真正的瓶頸，在于那個我們用了40多年、無比熟悉的圖形用戶界面（GUI) 。

將“命令式”GUI轉(zhuǎn)換為“聲明式”

沒錯，就是那個從上世紀(jì)80年代開始流行，徹底改變了人機(jī)交互方式的GUI。它一直以來都是為人類量身定制的，其設(shè)計哲學(xué)與LLM的能力模型，簡直是背道而馳。

研究團(tuán)隊指出了GUI的核心問題：在使用GUI時，應(yīng)用程序的功能無法被直接訪問，而是必須依賴于導(dǎo)航和交互。

例如，GUI功能控件藏在層層菜單、選項卡和對話框后面，控件的訪問需要點擊菜單、下拉框等進(jìn)行導(dǎo)航，以使控件出現(xiàn)在屏幕上。其次，許多控件的使用（如滾動條、文本選取）需要反復(fù)調(diào)整并觀察反饋，形成高頻“觀察-操作”循環(huán)。

研究團(tuán)隊一針見血地指出，GUI的這種命令式（Imperative）設(shè)計背后，隱藏著對人類用戶的四個“關(guān)鍵假設(shè)” ：

眼神好：人類精于視覺識別，能快速定位按鈕、圖標(biāo)和菜單的位置。
動作快：人類進(jìn)行“觀察-操作”循環(huán)，又快又容易。
記憶容量?。喝祟惖呐R時記憶空間有限，所以界面要簡潔，一次只展示少量選項。
懶得動腦：人類學(xué)習(xí)和回憶具體規(guī)則的認(rèn)知成本高（例如編程語言語法），但擅長做“選擇題”。

然而，這些假設(shè)和LLM的能力完全錯配：

LLM偏偏眼神不好，視覺能力有限，讓它在屏幕上精準(zhǔn)識別信息，非常困難。
LLM的反應(yīng)偏慢，一次推理需要幾秒甚至若干分鐘，等待時間過長。
LLM記性超群，巨大的上下文窗口讓它能輕松處理極大的信息量，根本不怕選項多。
LLM是格式達(dá)人，輸出精確的結(jié)構(gòu)化指令是它的拿手好戲。

結(jié)果就是，在使用GUI時，LLM被迫同時承擔(dān)“大腦”（策略）和“雙手”（機(jī)制）的角色，既要根據(jù)語義規(guī)劃任務(wù)，又要處理自己不擅長且繁瑣的底層操作，不僅效率低下，而且認(rèn)知負(fù)擔(dān)過重，極易出錯。

這種“命令式”的交互方式，就像是你打車去一個地方，但不能直接告訴司機(jī)目的地，而是必須一步步指揮他如何開：“前方200米左轉(zhuǎn)，再直行50米，在紅綠燈處右轉(zhuǎn)……”。一旦你說錯一步，或者司機(jī)理解錯了，就前功盡棄。這正是當(dāng)前LLM智能體面臨的窘境。

那么，有沒有一種可能，讓LLM“打車”時，只需要說出最終目的地，剩下的路線規(guī)劃和具體駕駛操作，都交給一個“老司機(jī)”來自動完成呢？

這就是這項研究的核心思路：將接口從“命令式”轉(zhuǎn)換為“聲明式”（Declarative）。為此，研究團(tuán)隊基于GUI和操作系統(tǒng)的可訪問性機(jī)制，提出了一個全新的抽象——聲明式接口（GOI）。

GOI的精髓在于“策略-機(jī)制分離”（policy-mechanism separation）：

策略（Policy）：要完成什么，即任務(wù)的高層語義規(guī)劃和功能編排。例如，“把所有幻燈片的背景都設(shè)置為藍(lán)色”這一任務(wù)，需要依次用到”藍(lán)色”和“應(yīng)用到全部”這兩個功能。這是LLM擅長的。
機(jī)制（Mechanism）：具體怎么做，即底層的導(dǎo)航和交互。例如，“點擊‘設(shè)計’選項卡 -> 點擊‘格式背景’ -> 點擊‘純色填充’ -> …”?；蛘邅砘夭煌５赝献L動條以移動到合適的位置。這是LLM不擅長，但可以被自動化的。

GOI將繁瑣、易錯的“機(jī)制”部分接管，只給LLM提供三個簡單直接的“聲明式”原語：訪問（access）、狀態(tài)（state）和觀察（observation）。

現(xiàn)在，LLM不再需要像新手司機(jī)一樣戰(zhàn)戰(zhàn)兢兢地發(fā)出每一個微操指令，而更像一位運籌帷幄的指揮官：它只需通過GOI下達(dá)“訪問‘藍(lán)色’和‘應(yīng)用到全部’”，或“設(shè)置滾動條到80%” 這樣的高層指令，GOI就會自動完成所有中間的GUI導(dǎo)航和交互。

如此一來，LLM終于可以從GUI的泥潭中被解放出來，專注于它最擅長的語義理解和任務(wù)規(guī)劃。更重要的是，整個過程不需要修改應(yīng)用程序的源代碼，也不依賴應(yīng)用程序?qū)ν馓峁〢PI。

GOI如何實現(xiàn)“策略”與“機(jī)制”的解耦？

GOI的實現(xiàn)分為兩個階段：離線建模和在線執(zhí)行。

第一步：離線“繪制地圖”。在離線階段，GOI會自動探索目標(biāo)應(yīng)用（如Word）的可訪問控件，分析點擊前后界面元素的變化，從而構(gòu)建出一張完整的“UI導(dǎo)航圖”（UI Navigation Graph）。

但挑戰(zhàn)隨之而來：復(fù)雜的應(yīng)用中充滿了循環(huán)路徑和“合并節(jié)點”（即多個路徑可以到達(dá)同一個控件），而不同的路徑會觸發(fā)同一控件的不同功能。

GOI的巧妙之處在于，它通過一套去循環(huán)和基于成本的“選擇性外化”算法，將這張復(fù)雜的圖（Graph）轉(zhuǎn)換成了一個路徑清晰、無路徑歧義的“森林”（Forest）結(jié)構(gòu) 。這確保了無論LLM想訪問哪個功能，都有唯一且確定的路徑可以到達(dá)。

第二步：在線執(zhí)行。在執(zhí)行任務(wù)的在線階段，LLM不再需要輸出細(xì)粒度的GUI導(dǎo)航和交互序列。

取而代之的，是GOI提供的一份壓縮后、對LLM上下文窗口非常友好的文本化“地圖” 。當(dāng)LLM需要執(zhí)行任務(wù)時，它只需調(diào)用GOI提供的三大聲明式原語接口：

訪問（Access）：通過visit接口，直接聲明要訪問的目標(biāo)功能控件ID 。GOI會自動計算路徑并完成導(dǎo)航。
狀態(tài)（State）：通過set_scrollbar_pos(), select_lines()或select_controls()等接口，直接聲明控件要達(dá)到的最終狀態(tài)。例如，將滾動條直接設(shè)置到80%的位置，而無需模擬拖拽。
觀察（Observation）：通過get_texts()等接口，直接獲取控件的結(jié)構(gòu)化信息，而無需LLM進(jìn)行像素級的屏幕內(nèi)容識別。

這些接口不依賴于特定應(yīng)用程序?qū)ν獗┞丁盇PI”，而是直接基于GUI和操作系統(tǒng)的通用可訪問性實現(xiàn)。

實驗效果：從“機(jī)制性”錯誤到“策略性”錯誤

為了驗證GOI的真實能力，研究團(tuán)隊在包含Word、Excel和PowerPoint的OSWorld-W基準(zhǔn)測試集上進(jìn)行了全面評估。

結(jié)果顯示，GOI帶來了壓倒性的性能提升。在使用GPT-5推理模型的核心設(shè)置下，成功率從44%飆升至74%。

此外，超過61%的成功任務(wù)，Agent只用了一次LLM調(diào)用就“一遍過”，高效完成了用戶的核心意圖。

更有趣的是失敗分析。

對于使用GUI的基線，53.3%的失敗都屬于機(jī)制層面的錯誤，比如通過視覺等信息對控件進(jìn)行定位和識別時發(fā)生了錯誤、導(dǎo)航規(guī)劃錯誤、在與控件進(jìn)行交互時發(fā)生錯誤等。這就像一個人因為不認(rèn)識路而失敗。

引入GOI后，81%的失敗集中到了策略層面，例如對任務(wù)的語義理解有誤，對圖片內(nèi)容的語義分析有誤，或者對控件功能的認(rèn)知出現(xiàn)偏差。

這意味著GOI成功地將LLM從繁瑣的機(jī)制中解放了出來，降低了機(jī)制原因?qū)е率〉目赡?。LLM不再輕易犯“低級錯誤”，更集中于LLM自身的語義理解能力。這好比于，LLM定位錯了目的地，而不是因為不認(rèn)識路而失敗。

團(tuán)隊表示，GOI的提出，為設(shè)計更適合大模型的交互范式指明了清晰方向。

這項工作不僅為提升現(xiàn)有Agent的性能提供了解決思路，也啟發(fā)我們思考：

未來的操作系統(tǒng)和應(yīng)用程序，是否應(yīng)該原生提供這種“LLM友好”的聲明式接口，從而為更強(qiáng)大、更通用的AI Agent鋪平道路。

論文地址：https://arxiv.org/abs/2510.04607

責(zé)任編輯：張燕妮來源：量子位

AI 計算機(jī)智能體

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營