偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<big id="ylilx"><progress id="ylilx"></progress></big>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

突破數(shù)據(jù)瓶頸！交大研發(fā)電腦智能體，讓 AI 替你熬夜做 PPT

作者：機(jī)器之心 2024-12-25 09:06:44

人工智能新聞

他們提出認(rèn)知遷移的方法，通過高效收集人類認(rèn)知軌跡，打造（訓(xùn)練，非 API 調(diào)用）了能夠像人類一樣閱讀電腦屏幕，精準(zhǔn)操控鍵盤鼠標(biāo)，執(zhí)行長達(dá)數(shù)十步、跨軟件的復(fù)雜生產(chǎn)任務(wù)的 PC Agent，標(biāo)志著 AI 真正為人類減負(fù)的重要一步！

本文共同第一作者為上海交通大學(xué) ACM 班的三年級本科生何彥衡，金嘉禾，兩人均為 GAIR 實驗室成員，指導(dǎo)老師為劉鵬飛副教授。上海交通大學(xué)生成式人工智能實驗室 (GAIR Lab）的主要研究方向為：大模型的復(fù)雜推理，大模型預(yù)訓(xùn)練中的數(shù)據(jù)工程，多模態(tài)大模型，以及智能體。實驗室主頁：https://plms.ai/

想象這樣一個場景：深夜 11 點(diǎn)，你已經(jīng)忙碌了一天，正準(zhǔn)備休息，卻想起明天早上還得分享一篇經(jīng)典論文《Attention Is All You Need》，需要準(zhǔn)備幻燈片。這時，你突然想到了自己的 AI 助手 —— PC Agent。你告訴它演講的要點(diǎn)以及 PPT 要保存的地方，然后就安心睡去。第二天醒來，一份內(nèi)容完備、制作精美的 PPT 已經(jīng)在電腦中準(zhǔn)備妥當(dāng)。

這個聽起來如同科幻的場景，已經(jīng)被上海交通大學(xué) GAIR 實驗室的研究者們變成了現(xiàn)實！他們提出認(rèn)知遷移的方法，通過高效收集人類認(rèn)知軌跡，打造（訓(xùn)練，非 API 調(diào)用）了能夠像人類一樣閱讀電腦屏幕，精準(zhǔn)操控鍵盤鼠標(biāo)，執(zhí)行長達(dá)數(shù)十步、跨軟件的復(fù)雜生產(chǎn)任務(wù)的 PC Agent，標(biāo)志著 AI 真正為人類減負(fù)的重要一步！

Sam Altman 說，比起讓智能體「訂一家餐廳」，真正有趣的是讓它「咨詢 300 家餐廳」來找到最符合的口味。這樣大量重復(fù)性的工作，對 PC Agent 而言也不在話下。比如，它可以一口氣為多位圖靈獎得主分別制作海報：

此外，PC Agent 也能輕松對標(biāo)類似 Claude 3.5 Sonnet 的演示任務(wù) —— 展現(xiàn) “AI 調(diào)用 AI” 完成工作的巧妙設(shè)計。視頻展示了它如何為自己創(chuàng)造一個網(wǎng)站：

論文標(biāo)題：PC Agent: While You Sleep, AI Works - A Cognitive Journey into Digital World
論文地址：https://arxiv.org/pdf/2412.17589
代碼地址：https://github.com/GAIR-NLP/PC-Agent

我們需要真正能為人類減負(fù)的智能體

數(shù)字智能體的革命性時刻

近期，Claude 3.5 Sonnet 的升級吸引了整個領(lǐng)域的目光。與 Siri 等依賴后端 API 調(diào)用的傳統(tǒng)智能助手不同，它能根據(jù)用戶指令，像人一樣操控電腦，解讀計算機(jī)屏幕，執(zhí)行鍵盤鼠標(biāo)操作。這種擬人的 GUI 前端交互模式具有高度通用性，賦予 AI 幾乎無限的可能。

兩年以來，隨著大語言模型的突破性進(jìn)展，AI 已經(jīng)實現(xiàn)了一個又一個里程碑，但依然局限于對話窗口，而無法邁入真實世界工作。我們需要讓智能體切實減輕人類的負(fù)擔(dān)，邁向 OpenAI 通往 AGI 五級目標(biāo)中的第三級。

關(guān)鍵性挑戰(zhàn)

然而，當(dāng)下智能體的電腦使用能力依然遠(yuǎn)遜色于人類，并未達(dá)到真正能為人類減負(fù)的水平，對開源社區(qū)來說更是如此。團(tuán)隊指出了兩個關(guān)鍵的技術(shù)挑戰(zhàn)：深度的電腦理解認(rèn)知與精準(zhǔn)的視覺定位能力。

1. 視覺定位：GUI 交互的基礎(chǔ)

為了像人類一樣使用電腦，智能體需要能為鼠標(biāo)操作輸出精確的坐標(biāo)，視覺定位 —— 即精準(zhǔn)定位元素（如 “最小化” 按鈕）位置的能力，成為了 GUI 交互的基礎(chǔ)。

然而，目前絕大多數(shù)的視覺語言模型，包括最先進(jìn)的 GPT-4o，仍缺乏這一基本能力。近期有些研究試圖通過在大規(guī)模 GUI 視覺定位數(shù)據(jù)集上微調(diào)模型來解決此問題，但這種辦法往往犧牲了模型的通用能力。

2. 認(rèn)知理解：勝任復(fù)雜任務(wù)的關(guān)鍵

即使具備了基礎(chǔ)的視覺定位能力，當(dāng)前模型依然無法勝任真正復(fù)雜的任務(wù)。團(tuán)隊認(rèn)為，關(guān)鍵在于模型缺乏對電腦使用的認(rèn)知理解。這體現(xiàn)在兩個方面：

?缺乏細(xì)粒度的電腦操作知識

例如，為了在 PowerPoint 中添加標(biāo)題，需要先點(diǎn)擊文本框再輸入。這對人類來講非常直觀，卻能難倒目前的智能體。細(xì)粒度電腦操作知識的缺乏要求我們從人類認(rèn)知的角度補(bǔ)充訓(xùn)練數(shù)據(jù)，因為 GUI 是為人類而設(shè)計的。

?缺乏智能體導(dǎo)向的訓(xùn)練

現(xiàn)有大語言模型展現(xiàn)出強(qiáng)大的能力，但未能完美勝任智能體工作流的需求，包括在長過程中充分關(guān)注上下文，根據(jù)變化的環(huán)境做出決策，并根據(jù)反饋調(diào)整策略。雖然提示工程可以在一定程度上彌補(bǔ)這一差距，但實現(xiàn)真正強(qiáng)大的智能體還需要專門的訓(xùn)練。

認(rèn)知遷移 (Congition Transfer)

AI 從對話窗口到數(shù)字世界的關(guān)鍵道路

面對認(rèn)知理解的挑戰(zhàn)，團(tuán)隊提出人類認(rèn)知遷移的方法，包括首個高效采集大規(guī)模人機(jī)交互數(shù)據(jù)的輕量級工具和從原始交互數(shù)據(jù)重建背后人類認(rèn)知的完整流水線。通過開源相關(guān)代碼，團(tuán)隊希望加速整個社區(qū)對數(shù)字智能體的研究進(jìn)展。

具體來說，他們 1）首先采集人類使用電腦的原始操作軌跡，2）然后使用大模型重建無法被采集的人類認(rèn)知，最終得到包含人類認(rèn)知的交互軌跡（Cognitive trajectory)。通過模仿學(xué)習(xí)人類認(rèn)知軌跡，AI 不僅能夠模仿具體的動作，還能學(xué)習(xí)動作背后人類對電腦使用的認(rèn)知理解。

初步實驗表明，僅在 133 條認(rèn)知軌跡數(shù)據(jù)上訓(xùn)練，PC Agent 就能夠?qū)W會執(zhí)行高達(dá) 50 步的復(fù)雜任務(wù)，極大證明了人類認(rèn)知遷移方法的高效性。

一、首個高效采集大規(guī)模人機(jī)交互數(shù)據(jù)的輕量級工具

團(tuán)隊破解了一個阻礙智能體發(fā)展的關(guān)鍵瓶頸：訓(xùn)練數(shù)據(jù)的稀缺。他們開發(fā)了首個高效采集人機(jī)交互數(shù)據(jù)的輕量級工具 —— PC Tracker，旨在通過大規(guī)模收集真實人類動作軌跡來應(yīng)對這一數(shù)據(jù)挑戰(zhàn)。

類似于屏幕錄制，PC Tracker 在后臺運(yùn)行，通過監(jiān)控鍵盤和鼠標(biāo)的活動來記錄用戶動作，同時捕捉屏幕截圖以記錄狀態(tài)觀察。

下面是 PC Tracker 采集的軌跡的示例：在桌面上創(chuàng)建一個標(biāo)題為 “Hello，world” 的幻燈片。

具體而言，PC Tracker 具備以下關(guān)鍵特性：

1. 輕量級數(shù)據(jù)采集

不同于冗余的錄屏方案，PC Tracker 僅捕捉關(guān)鍵事件 —— 僅當(dāng)用戶動作發(fā)生時，才會觸發(fā)記錄，從而減小存儲開銷。

2. 無損用戶體驗

PC Tracker 在后臺運(yùn)行，在持續(xù)記錄的同時不會影響用戶體驗。軟件不會記錄可訪問樹，因為爬取過程會引入明顯的延遲，干擾用戶操作。而且隨著視覺語言模型的發(fā)展，團(tuán)隊認(rèn)為可訪問樹信息對未來模型不再必要。

3. 大規(guī)模數(shù)據(jù)采集

輕量級采集與無損用戶體驗的設(shè)計確保了大規(guī)模長期部署的可行性，使得 PC Tracker 支持無限規(guī)模的人機(jī)交互數(shù)據(jù)收集。團(tuán)隊統(tǒng)計表明，一小時的電腦使用即可產(chǎn)生約 2000 個事件，展現(xiàn)出巨大的數(shù)據(jù)潛力。

4. 統(tǒng)一動作空間

PC Tracker 支持一個為 AI 設(shè)計的統(tǒng)一動作空間，人類原始的離散鍵鼠操作會被合并封裝成如雙擊、輸入（type）等更具語義信息的動作。

5. 雙采集模式

PC Tracker 支持任務(wù)（task oriented)和無任務(wù) (non-task oriented) 兩種采集模式。無任務(wù)模式記錄用戶自由的交互軌跡，非常適合長期、大規(guī)模的數(shù)據(jù)收集；而任務(wù)模式記錄用戶完成特定任務(wù)的交互軌跡，主要用于監(jiān)督微調(diào)的數(shù)據(jù)標(biāo)注。

6. 數(shù)據(jù)透明與隱私

所有記錄數(shù)據(jù)均在用戶本地存儲并提供 Markdown 可視化文件，用戶也可以在采集過程中方便控制記錄的終止以及數(shù)據(jù)的丟棄，以確保隱私。

二、從原始交互數(shù)據(jù)重建認(rèn)知軌跡

人類行為是大腦認(rèn)知活動的外在投射。在使用電腦時，我們的腦中經(jīng)歷了自然的認(rèn)知活動過程，包括對歷史進(jìn)展和當(dāng)前狀態(tài)的分析，作出下一步?jīng)Q策的推理等。這一思考過程蘊(yùn)含了人類對電腦使用的認(rèn)知，但大腦活動無法被直接記錄。為此，團(tuán)隊利用大模型分兩階段對軌跡數(shù)據(jù)進(jìn)行認(rèn)知重建：

1. 動作語義重建

原始點(diǎn)擊動作僅包括數(shù)值坐標(biāo)位置，與其他動作（如鍵盤輸入）相比缺乏直接的語義信息，因此首先進(jìn)行的處理是點(diǎn)擊動作的語義信息重建。具體而言，這一步為點(diǎn)擊的目標(biāo)生成了自然語言描述，如下圖所示為點(diǎn)擊位置 (717, 387) 生成描述 “TripAdvisor 網(wǎng)站上方中部的搜索框”。

2. 思考過程重建

利用軌跡數(shù)據(jù)中的上下文信息和補(bǔ)全的動作語義，團(tuán)隊迭代提示大模型生成每步動作背后的思考過程。如圖所示，人類動作 “點(diǎn)擊 TripAdvisor 網(wǎng)站上方中部的搜索框” 背后的思考過程被成功重建：“我想要找埃菲爾鐵塔的高分餐廳，雖然已經(jīng)查看了關(guān)于 “埃菲爾鐵塔餐廳” 的信息，但需要擴(kuò)大搜索范圍。通過點(diǎn)擊搜索框，我可以輸入一個更廣泛的查詢......”

三、構(gòu)建能夠完成復(fù)雜任務(wù)的數(shù)字智能體

基于對當(dāng)前智能體面臨的主要挑戰(zhàn)（視覺定位與認(rèn)知理解）的深刻理解，團(tuán)隊分別提出解決方案，打造了一個能夠完成真正復(fù)雜任務(wù)的 PC Agent：

1. 以認(rèn)知軌跡訓(xùn)練規(guī)劃智能體

使用 PC Tracker 采集并重建認(rèn)知后得到的認(rèn)知軌跡，是訓(xùn)練智能體的高質(zhì)量數(shù)據(jù)。團(tuán)隊選擇了 PPT 制作（包括上網(wǎng)收集資源）這一綜合任務(wù)作為初步實驗場景，僅在 133 條認(rèn)知軌跡上訓(xùn)練以驗證其數(shù)據(jù)效率。這些軌跡分為自由（使用 Chrome 和 PowerPoint）任務(wù)與 PPT 制作任務(wù)兩類，動作數(shù)量明顯高于現(xiàn)有公開軌跡數(shù)據(jù)，如下圖所示。

2. 通過自我驗證實現(xiàn)精準(zhǔn)視覺定位

團(tuán)隊發(fā)現(xiàn)，Ai2 近期發(fā)布的開源通用視覺語言模型 Molmo，通過引入創(chuàng)新的指令微調(diào)數(shù)據(jù) Pixmo，展現(xiàn)了良好的視覺定位能力。因此，團(tuán)隊將其作為視覺定位智能體的基礎(chǔ)模型。然而，Molmo 仍會偶爾出現(xiàn)定位偏差，而操作電腦時微小的點(diǎn)擊錯位也可能導(dǎo)致災(zāi)難性后果，如不慎關(guān)閉瀏覽器 —— 當(dāng)前的智能體很難從這些錯誤中恢復(fù)。

團(tuán)隊提出了一種創(chuàng)新方法，進(jìn)一步增強(qiáng)其視覺定位能力，幾乎能達(dá)到人類的完美水平：Molmo 可以借助來自系統(tǒng)接口的外部反饋，自我驗證其視覺定位的準(zhǔn)確性。如下圖所示，定位智能體會先根據(jù)點(diǎn)擊目標(biāo)描述生成一個初步的坐標(biāo)，然后從系統(tǒng)接口中獲取該坐標(biāo)對應(yīng)的元素信息，判斷是否與目標(biāo)描述匹配。如不匹配，定位過程將重新進(jìn)行。

3. 多智能體協(xié)作

在 PC Agent 的初步實現(xiàn)中，為了更好的利用現(xiàn)有模型的能力，團(tuán)隊采用了一個多智能體架構(gòu)。其中，規(guī)劃智能體負(fù)責(zé)動作決策，視覺定位智能體負(fù)責(zé)點(diǎn)擊動作執(zhí)行。值得指出的是，此系統(tǒng)完全基于開源模型構(gòu)建。

具體來說，兩個智能體如此協(xié)作：規(guī)劃智能體首先分析任務(wù)并觀察狀態(tài)，以作出動作決策。非點(diǎn)擊相關(guān)動作將被直接執(zhí)行，而對于點(diǎn)擊相關(guān)動作，規(guī)劃智能體生成的點(diǎn)擊目標(biāo)描述將被轉(zhuǎn)發(fā)給視覺定位智能體，由其生成具體坐標(biāo)。如果它發(fā)現(xiàn)目標(biāo)在屏幕上不存在，將提示規(guī)劃智能體重新決策。具體的動作執(zhí)行將調(diào)用 pyautogui 函數(shù)完成。下圖為一個協(xié)作的示例。

結(jié)論與展望

團(tuán)隊提出了一種創(chuàng)新的認(rèn)知遷移框架，包括首個高效采集人機(jī)交互數(shù)據(jù)的工具 PC Tracker 和完整的認(rèn)知重建過程，并初步驗證了方法的高效性。PC Agent 在 PPT 制作場景下展示了執(zhí)行復(fù)雜長程任務(wù)的能力，標(biāo)志 AI 真正為人類減負(fù)邁出的重要一步。

展望未來，團(tuán)隊確定了幾個重要的研究方向：

1. 大規(guī)模泛化實驗：盡管已在有限的訓(xùn)練數(shù)據(jù)下初步實驗，但泛化能力的驗證仍需跨軟件和跨任務(wù)的更大規(guī)模實驗。

2. 長程規(guī)劃與魯棒性：OpenAI o1 所展現(xiàn)的推理與自我糾錯能力，為在長序列中實現(xiàn)魯棒操作提供了有力支撐。在面對復(fù)雜任務(wù)時，如何保持行動與目標(biāo)的一致性，以及如何建立更加完善的糾錯機(jī)制，仍是亟待深入討論的問題。

3. 無任務(wù)數(shù)據(jù)的利用：PC Tracker 可以在不限制特定任務(wù)的情況下提供近乎無限規(guī)模的自然人機(jī)交互數(shù)據(jù)，這些數(shù)據(jù)包含了豐富的人類一般操作策略與行為偏好信息，可應(yīng)用于預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)等多個場景。探索有效的方法來利用這些數(shù)據(jù)是重要而有前景的方向。

4. 動作空間優(yōu)化：針對拖拽等復(fù)雜鼠標(biāo)操作的特殊挑戰(zhàn)，需要開發(fā)更精確的空間關(guān)系理解機(jī)制，并優(yōu)化數(shù)據(jù)收集策略。

5. 復(fù)雜任務(wù)的評估：當(dāng)前對數(shù)字智能體的評估基準(zhǔn)主要關(guān)注基礎(chǔ)任務(wù)的成功率。然而，對于像 PPT 制作這樣的真實世界復(fù)雜任務(wù)，我們需要更加全面的評估框架，不僅關(guān)注任務(wù)成功率，還要考慮完成質(zhì)量、專業(yè)性等多維度指標(biāo)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<output id="v1abn"><big id="v1abn"></big></output>

<pre id="v1abn"><fieldset id="v1abn"></fieldset></pre>
<var id="v1abn"></var>

<sub id="v1abn"></sub>