偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

突破數(shù)據(jù)瓶頸!交大研發(fā)電腦智能體,讓 AI 替你熬夜做 PPT

人工智能 新聞
他們提出認(rèn)知遷移的方法,通過高效收集人類認(rèn)知軌跡,打造(訓(xùn)練,非 API 調(diào)用)了能夠像人類一樣閱讀電腦屏幕,精準(zhǔn)操控鍵盤鼠標(biāo),執(zhí)行長達(dá)數(shù)十步、跨軟件的復(fù)雜生產(chǎn)任務(wù)的 PC Agent,標(biāo)志著 AI 真正為人類減負(fù)的重要一步!

本文共同第一作者為上海交通大學(xué) ACM 班的三年級本科生何彥衡,金嘉禾,兩人均為 GAIR 實驗室成員,指導(dǎo)老師為劉鵬飛副教授。上海交通大學(xué)生成式人工智能實驗室 (GAIR Lab)的主要研究方向為:大模型的復(fù)雜推理,大模型預(yù)訓(xùn)練中的數(shù)據(jù)工程,多模態(tài)大模型,以及智能體。實驗室主頁:https://plms.ai/

想象這樣一個場景:深夜 11 點(diǎn),你已經(jīng)忙碌了一天,正準(zhǔn)備休息,卻想起明天早上還得分享一篇經(jīng)典論文《Attention Is All You Need》,需要準(zhǔn)備幻燈片。這時,你突然想到了自己的 AI 助手 —— PC Agent。你告訴它演講的要點(diǎn)以及 PPT 要保存的地方,然后就安心睡去。第二天醒來,一份內(nèi)容完備、制作精美的 PPT 已經(jīng)在電腦中準(zhǔn)備妥當(dāng)。

這個聽起來如同科幻的場景,已經(jīng)被上海交通大學(xué) GAIR 實驗室的研究者們變成了現(xiàn)實!他們提出認(rèn)知遷移的方法,通過高效收集人類認(rèn)知軌跡,打造(訓(xùn)練,非 API 調(diào)用)了能夠像人類一樣閱讀電腦屏幕,精準(zhǔn)操控鍵盤鼠標(biāo),執(zhí)行長達(dá)數(shù)十步、跨軟件的復(fù)雜生產(chǎn)任務(wù)的 PC Agent,標(biāo)志著 AI 真正為人類減負(fù)的重要一步!

Sam Altman 說,比起讓智能體「訂一家餐廳」,真正有趣的是讓它「咨詢 300 家餐廳」來找到最符合的口味。這樣大量重復(fù)性的工作,對 PC Agent 而言也不在話下。比如,它可以一口氣為多位圖靈獎得主分別制作海報:

圖片

此外,PC Agent 也能輕松對標(biāo)類似 Claude 3.5 Sonnet 的演示任務(wù) —— 展現(xiàn) “AI 調(diào)用 AI” 完成工作的巧妙設(shè)計。視頻展示了它如何為自己創(chuàng)造一個網(wǎng)站:

圖片

  • 論文標(biāo)題:PC Agent: While You Sleep, AI Works - A Cognitive Journey into Digital World
  • 論文地址:https://arxiv.org/pdf/2412.17589
  • 代碼地址:https://github.com/GAIR-NLP/PC-Agent

我們需要真正能為人類減負(fù)的智能體

數(shù)字智能體的革命性時刻

近期,Claude 3.5 Sonnet 的升級吸引了整個領(lǐng)域的目光。與 Siri 等依賴后端 API 調(diào)用的傳統(tǒng)智能助手不同,它能根據(jù)用戶指令,像人一樣操控電腦,解讀計算機(jī)屏幕,執(zhí)行鍵盤鼠標(biāo)操作。這種擬人的 GUI 前端交互模式具有高度通用性,賦予 AI 幾乎無限的可能。

圖片

兩年以來,隨著大語言模型的突破性進(jìn)展,AI 已經(jīng)實現(xiàn)了一個又一個里程碑,但依然局限于對話窗口,而無法邁入真實世界工作。我們需要讓智能體切實減輕人類的負(fù)擔(dān),邁向 OpenAI 通往 AGI 五級目標(biāo)中的第三級。

圖片

關(guān)鍵性挑戰(zhàn)

然而,當(dāng)下智能體的電腦使用能力依然遠(yuǎn)遜色于人類,并未達(dá)到真正能為人類減負(fù)的水平,對開源社區(qū)來說更是如此。團(tuán)隊指出了兩個關(guān)鍵的技術(shù)挑戰(zhàn):深度的電腦理解認(rèn)知與精準(zhǔn)的視覺定位能力。

1. 視覺定位:GUI 交互的基礎(chǔ)

為了像人類一樣使用電腦,智能體需要能為鼠標(biāo)操作輸出精確的坐標(biāo),視覺定位 —— 即精準(zhǔn)定位元素(如 “最小化” 按鈕)位置的能力,成為了 GUI 交互的基礎(chǔ)。

然而,目前絕大多數(shù)的視覺語言模型,包括最先進(jìn)的 GPT-4o,仍缺乏這一基本能力。近期有些研究試圖通過在大規(guī)模 GUI 視覺定位數(shù)據(jù)集上微調(diào)模型來解決此問題,但這種辦法往往犧牲了模型的通用能力。

2. 認(rèn)知理解:勝任復(fù)雜任務(wù)的關(guān)鍵

即使具備了基礎(chǔ)的視覺定位能力,當(dāng)前模型依然無法勝任真正復(fù)雜的任務(wù)。團(tuán)隊認(rèn)為,關(guān)鍵在于模型缺乏對電腦使用的認(rèn)知理解。這體現(xiàn)在兩個方面:

?缺乏細(xì)粒度的電腦操作知識

例如,為了在 PowerPoint 中添加標(biāo)題,需要先點(diǎn)擊文本框再輸入。這對人類來講非常直觀,卻能難倒目前的智能體。細(xì)粒度電腦操作知識的缺乏要求我們從人類認(rèn)知的角度補(bǔ)充訓(xùn)練數(shù)據(jù),因為 GUI 是為人類而設(shè)計的。

?缺乏智能體導(dǎo)向的訓(xùn)練

現(xiàn)有大語言模型展現(xiàn)出強(qiáng)大的能力,但未能完美勝任智能體工作流的需求,包括在長過程中充分關(guān)注上下文,根據(jù)變化的環(huán)境做出決策,并根據(jù)反饋調(diào)整策略。雖然提示工程可以在一定程度上彌補(bǔ)這一差距,但實現(xiàn)真正強(qiáng)大的智能體還需要專門的訓(xùn)練。

認(rèn)知遷移 (Congition Transfer) 

AI 從對話窗口到數(shù)字世界的關(guān)鍵道路

面對認(rèn)知理解的挑戰(zhàn),團(tuán)隊提出人類認(rèn)知遷移的方法,包括首個高效采集大規(guī)模人機(jī)交互數(shù)據(jù)的輕量級工具和從原始交互數(shù)據(jù)重建背后人類認(rèn)知的完整流水線。通過開源相關(guān)代碼,團(tuán)隊希望加速整個社區(qū)對數(shù)字智能體的研究進(jìn)展。

具體來說,他們 1)首先采集人類使用電腦的原始操作軌跡,2)然后使用大模型重建無法被采集的人類認(rèn)知 ,最終得到包含人類認(rèn)知的交互軌跡(Cognitive trajectory)。通過模仿學(xué)習(xí)人類認(rèn)知軌跡,AI 不僅能夠模仿具體的動作,還能學(xué)習(xí)動作背后人類對電腦使用的認(rèn)知理解。

初步實驗表明,僅在 133 條認(rèn)知軌跡數(shù)據(jù)上訓(xùn)練,PC Agent 就能夠?qū)W會執(zhí)行高達(dá) 50 步的復(fù)雜任務(wù),極大證明了人類認(rèn)知遷移方法的高效性。

圖片

一、首個高效采集大規(guī)模人機(jī)交互數(shù)據(jù)的輕量級工具

團(tuán)隊破解了一個阻礙智能體發(fā)展的關(guān)鍵瓶頸:訓(xùn)練數(shù)據(jù)的稀缺。他們開發(fā)了首個高效采集人機(jī)交互數(shù)據(jù)的輕量級工具 —— PC Tracker,旨在通過大規(guī)模收集真實人類動作軌跡來應(yīng)對這一數(shù)據(jù)挑戰(zhàn)。

類似于屏幕錄制,PC Tracker 在后臺運(yùn)行,通過監(jiān)控鍵盤和鼠標(biāo)的活動來記錄用戶動作,同時捕捉屏幕截圖以記錄狀態(tài)觀察。

下面是 PC Tracker 采集的軌跡的示例:在桌面上創(chuàng)建一個標(biāo)題為 “Hello,world” 的幻燈片。

圖片

具體而言,PC Tracker 具備以下關(guān)鍵特性:

圖片

1. 輕量級數(shù)據(jù)采集

不同于冗余的錄屏方案,PC Tracker 僅捕捉關(guān)鍵事件 —— 僅當(dāng)用戶動作發(fā)生時,才會觸發(fā)記錄,從而減小存儲開銷。

2. 無損用戶體驗

PC Tracker 在后臺運(yùn)行,在持續(xù)記錄的同時不會影響用戶體驗。軟件不會記錄可訪問樹,因為爬取過程會引入明顯的延遲,干擾用戶操作。而且隨著視覺語言模型的發(fā)展,團(tuán)隊認(rèn)為可訪問樹信息對未來模型不再必要。

3. 大規(guī)模數(shù)據(jù)采集

輕量級采集與無損用戶體驗的設(shè)計確保了大規(guī)模長期部署的可行性,使得 PC Tracker 支持無限規(guī)模的人機(jī)交互數(shù)據(jù)收集。團(tuán)隊統(tǒng)計表明,一小時的電腦使用即可產(chǎn)生約 2000 個事件,展現(xiàn)出巨大的數(shù)據(jù)潛力。

4. 統(tǒng)一動作空間

PC Tracker 支持一個為 AI 設(shè)計的統(tǒng)一動作空間,人類原始的離散鍵鼠操作會被合并封裝成如雙擊、輸入(type)等更具語義信息的動作。

5. 雙采集模式

PC Tracker 支持任務(wù)(task oriented)和無任務(wù) (non-task oriented) 兩種采集模式。無任務(wù)模式記錄用戶自由的交互軌跡,非常適合長期、大規(guī)模的數(shù)據(jù)收集;而任務(wù)模式記錄用戶完成特定任務(wù)的交互軌跡,主要用于監(jiān)督微調(diào)的數(shù)據(jù)標(biāo)注。

6. 數(shù)據(jù)透明與隱私

所有記錄數(shù)據(jù)均在用戶本地存儲并提供 Markdown 可視化文件,用戶也可以在采集過程中方便控制記錄的終止以及數(shù)據(jù)的丟棄,以確保隱私。

二、從原始交互數(shù)據(jù)重建認(rèn)知軌跡

人類行為是大腦認(rèn)知活動的外在投射。在使用電腦時,我們的腦中經(jīng)歷了自然的認(rèn)知活動過程,包括對歷史進(jìn)展和當(dāng)前狀態(tài)的分析,作出下一步?jīng)Q策的推理等。這一思考過程蘊(yùn)含了人類對電腦使用的認(rèn)知,但大腦活動無法被直接記錄。為此,團(tuán)隊利用大模型分兩階段對軌跡數(shù)據(jù)進(jìn)行認(rèn)知重建:

1. 動作語義重建 

原始點(diǎn)擊動作僅包括數(shù)值坐標(biāo)位置,與其他動作(如鍵盤輸入)相比缺乏直接的語義信息,因此首先進(jìn)行的處理是點(diǎn)擊動作的語義信息重建。具體而言,這一步為點(diǎn)擊的目標(biāo)生成了自然語言描述,如下圖所示為點(diǎn)擊位置 (717, 387) 生成描述 “TripAdvisor 網(wǎng)站上方中部的搜索框”。

圖片

2. 思考過程重建

利用軌跡數(shù)據(jù)中的上下文信息和補(bǔ)全的動作語義,團(tuán)隊迭代提示大模型生成每步動作背后的思考過程。如圖所示,人類動作 “點(diǎn)擊 TripAdvisor 網(wǎng)站上方中部的搜索框” 背后的思考過程被成功重建:我想要找埃菲爾鐵塔的高分餐廳,雖然已經(jīng)查看了關(guān)于 “埃菲爾鐵塔餐廳” 的信息,但需要擴(kuò)大搜索范圍。通過點(diǎn)擊搜索框,我可以輸入一個更廣泛的查詢......”

三、構(gòu)建能夠完成復(fù)雜任務(wù)的數(shù)字智能體

基于對當(dāng)前智能體面臨的主要挑戰(zhàn)(視覺定位與認(rèn)知理解)的深刻理解,團(tuán)隊分別提出解決方案,打造了一個能夠完成真正復(fù)雜任務(wù)的 PC Agent:

1. 以認(rèn)知軌跡訓(xùn)練規(guī)劃智能體

使用 PC Tracker 采集并重建認(rèn)知后得到的認(rèn)知軌跡,是訓(xùn)練智能體的高質(zhì)量數(shù)據(jù)。團(tuán)隊選擇了 PPT 制作(包括上網(wǎng)收集資源)這一綜合任務(wù)作為初步實驗場景,僅在 133 條認(rèn)知軌跡上訓(xùn)練以驗證其數(shù)據(jù)效率。這些軌跡分為自由(使用 Chrome 和 PowerPoint)任務(wù)與 PPT 制作任務(wù)兩類,動作數(shù)量明顯高于現(xiàn)有公開軌跡數(shù)據(jù),如下圖所示。

圖片

2. 通過自我驗證實現(xiàn)精準(zhǔn)視覺定位

團(tuán)隊發(fā)現(xiàn),Ai2 近期發(fā)布的開源通用視覺語言模型 Molmo,通過引入創(chuàng)新的指令微調(diào)數(shù)據(jù) Pixmo,展現(xiàn)了良好的視覺定位能力。因此,團(tuán)隊將其作為視覺定位智能體的基礎(chǔ)模型。然而,Molmo 仍會偶爾出現(xiàn)定位偏差,而操作電腦時微小的點(diǎn)擊錯位也可能導(dǎo)致災(zāi)難性后果,如不慎關(guān)閉瀏覽器 —— 當(dāng)前的智能體很難從這些錯誤中恢復(fù)。

團(tuán)隊提出了一種創(chuàng)新方法,進(jìn)一步增強(qiáng)其視覺定位能力,幾乎能達(dá)到人類的完美水平:Molmo 可以借助來自系統(tǒng)接口的外部反饋,自我驗證其視覺定位的準(zhǔn)確性。如下圖所示,定位智能體會先根據(jù)點(diǎn)擊目標(biāo)描述生成一個初步的坐標(biāo),然后從系統(tǒng)接口中獲取該坐標(biāo)對應(yīng)的元素信息,判斷是否與目標(biāo)描述匹配。如不匹配,定位過程將重新進(jìn)行。

圖片

3. 多智能體協(xié)作

在 PC Agent 的初步實現(xiàn)中,為了更好的利用現(xiàn)有模型的能力,團(tuán)隊采用了一個多智能體架構(gòu)。其中,規(guī)劃智能體負(fù)責(zé)動作決策,視覺定位智能體負(fù)責(zé)點(diǎn)擊動作執(zhí)行。值得指出的是,此系統(tǒng)完全基于開源模型構(gòu)建。

具體來說,兩個智能體如此協(xié)作:規(guī)劃智能體首先分析任務(wù)并觀察狀態(tài),以作出動作決策。非點(diǎn)擊相關(guān)動作將被直接執(zhí)行,而對于點(diǎn)擊相關(guān)動作,規(guī)劃智能體生成的點(diǎn)擊目標(biāo)描述將被轉(zhuǎn)發(fā)給視覺定位智能體,由其生成具體坐標(biāo)。如果它發(fā)現(xiàn)目標(biāo)在屏幕上不存在,將提示規(guī)劃智能體重新決策。具體的動作執(zhí)行將調(diào)用 pyautogui 函數(shù)完成。下圖為一個協(xié)作的示例。

圖片

結(jié)論與展望

團(tuán)隊提出了一種創(chuàng)新的認(rèn)知遷移框架,包括首個高效采集人機(jī)交互數(shù)據(jù)的工具 PC Tracker 和完整的認(rèn)知重建過程,并初步驗證了方法的高效性。PC Agent 在 PPT 制作場景下展示了執(zhí)行復(fù)雜長程任務(wù)的能力,標(biāo)志 AI 真正為人類減負(fù)邁出的重要一步。

展望未來,團(tuán)隊確定了幾個重要的研究方向:

1. 大規(guī)模泛化實驗:盡管已在有限的訓(xùn)練數(shù)據(jù)下初步實驗,但泛化能力的驗證仍需跨軟件和跨任務(wù)的更大規(guī)模實驗。

2. 長程規(guī)劃與魯棒性:OpenAI o1 所展現(xiàn)的推理與自我糾錯能力,為在長序列中實現(xiàn)魯棒操作提供了有力支撐。在面對復(fù)雜任務(wù)時,如何保持行動與目標(biāo)的一致性,以及如何建立更加完善的糾錯機(jī)制,仍是亟待深入討論的問題。

3. 無任務(wù)數(shù)據(jù)的利用:PC Tracker 可以在不限制特定任務(wù)的情況下提供近乎無限規(guī)模的自然人機(jī)交互數(shù)據(jù),這些數(shù)據(jù)包含了豐富的人類一般操作策略與行為偏好信息,可應(yīng)用于預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)等多個場景。探索有效的方法來利用這些數(shù)據(jù)是重要而有前景的方向。

4. 動作空間優(yōu)化:針對拖拽等復(fù)雜鼠標(biāo)操作的特殊挑戰(zhàn),需要開發(fā)更精確的空間關(guān)系理解機(jī)制,并優(yōu)化數(shù)據(jù)收集策略。

5. 復(fù)雜任務(wù)的評估:當(dāng)前對數(shù)字智能體的評估基準(zhǔn)主要關(guān)注基礎(chǔ)任務(wù)的成功率。然而,對于像 PPT 制作這樣的真實世界復(fù)雜任務(wù),我們需要更加全面的評估框架,不僅關(guān)注任務(wù)成功率,還要考慮完成質(zhì)量、專業(yè)性等多維度指標(biāo)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-01-06 22:29:35

人工智能機(jī)器人自動化

2025-06-03 14:17:18

WebDancerAgenticAI

2024-12-13 14:30:00

AI模型數(shù)據(jù)

2025-05-30 15:53:27

智能體模型AI

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2024-01-22 12:31:18

模型訓(xùn)練

2025-05-26 09:21:00

2021-12-03 13:52:25

AI 數(shù)據(jù)人工智能

2025-07-03 09:27:57

2017-10-13 11:50:17

人工智能PinoAI

2013-05-22 13:06:14

aerohive協(xié)同控制WLAN

2021-07-13 18:57:33

人工智能AI

2025-05-15 09:08:00

2021-12-06 12:06:59

蘋果汽車技術(shù)

2024-11-26 00:14:08

2017-06-23 16:06:58

2025-05-08 07:54:24

2025-06-26 15:16:42

AI獎勵模型GPT-4.1
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號