卡帕西預(yù)言成真!華人團(tuán)隊(duì)開源全AI操作系統(tǒng):神經(jīng)網(wǎng)絡(luò)模擬Windows,預(yù)測(cè)下一幀屏幕圖像
瘋狂,太瘋狂了~
大神卡帕西預(yù)測(cè)的「下一代GUI系統(tǒng)」這就水靈靈地實(shí)現(xiàn)了?!
玩法相當(dāng)easy,當(dāng)你移動(dòng)鼠標(biāo)、點(diǎn)擊圖標(biāo)或敲鍵盤時(shí),這個(gè)完全由神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的操作系統(tǒng)就和咱們平時(shí)的電腦一樣,能在屏幕上實(shí)時(shí)顯示對(duì)應(yīng)的圖形界面。
就是說,AI現(xiàn)在能完全模擬Windows,直接預(yù)測(cè)下一幀屏幕圖像。
事實(shí)上,卡帕西在今年5月就預(yù)言了一波“AI時(shí)代的圖形用戶界面長(zhǎng)啥樣”。
在他看來,如今和大語言模型(LLM)聊天就像在使用80年代的電腦終端,還沒有用上圖形用戶界面(GUI)。
而在未來,隨著AI能力逐漸擴(kuò)展,GUI將是為每個(gè)用戶量身打造的流動(dòng)(fluid)、魔幻(magical)、可交互(ephemeral)的2D畫布,就像你專屬的操作系統(tǒng),實(shí)時(shí)重繪、實(shí)時(shí)響應(yīng)。
受此啟發(fā),5位來自滑鐵盧大學(xué)和加拿大國(guó)家研究委員會(huì)的研究人員提出NeuralOS,并打造出了一個(gè)可試玩的初版演示demo。
這一最新成果為構(gòu)建完全自適應(yīng)的生成式神經(jīng)接口邁出了重要一步,有望應(yīng)用于下一代人機(jī)交互系統(tǒng)。
那么問題來了——
NeuralOS是靠什么模擬Windows的呢?
關(guān)鍵法寶:RNN+渲染器
據(jù)論文介紹,NeuralOS能模擬操作系統(tǒng)界面,靠的是兩個(gè)核心“技能模塊”:
- 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):用于跟蹤計(jì)算機(jī)的狀態(tài)變化
- 基于擴(kuò)散的神經(jīng)渲染器(Renderer):負(fù)責(zé)生成屏幕圖像
具體而言,不管用戶操作多復(fù)雜(如現(xiàn)在打開了哪些軟件、鼠標(biāo)停在哪個(gè)位置、光標(biāo)是箭頭還是輸入狀態(tài)等),RNN模塊都能跟著“記”下來,保證后續(xù)反應(yīng)不脫節(jié)。
然后Renderer渲染器根據(jù)前面記下的狀態(tài)和用戶操作(如點(diǎn)擊了“瀏覽器”圖標(biāo)),直接生成對(duì)應(yīng)的屏幕畫面(包括窗口彈出、圖標(biāo)變色、菜單展開這些視覺變化)。
原理聽起來是不是很簡(jiǎn)單?但為了訓(xùn)練NeuralOS,團(tuán)隊(duì)可是下了一番功夫。
為了讓它學(xué)會(huì)模擬操作系統(tǒng),他們給它準(zhǔn)備了一大份“學(xué)習(xí)材料”——全是Ubuntu XFCE系統(tǒng)(Linux輕量級(jí)桌面系統(tǒng))的操作錄像。
內(nèi)容主要分為兩類:
一類是隨機(jī)生成的用戶交互。比如亂點(diǎn)鼠標(biāo)、隨便拖動(dòng)窗口、無規(guī)律敲擊鍵盤,相當(dāng)于讓AI見識(shí)“各種可能性”,避免只認(rèn)固定操作。
另一類是由AI Agent生成的真實(shí)交互。這里讓AI Agent來模擬人類的正常行為,比如打開瀏覽器、輸入文字、關(guān)閉窗口等,讓AI學(xué)習(xí)“符合常理的操作邏輯”。
然后經(jīng)過RNN預(yù)訓(xùn)練——RNN+Renderer聯(lián)合訓(xùn)練——計(jì)劃采樣——將RNN輸入的上下文序列加長(zhǎng)這一訓(xùn)練流程后,NeuralOS終于學(xué)會(huì)了根據(jù)之前的幀和用戶輸入(鼠標(biāo)、鍵盤)來預(yù)測(cè)下一幀屏幕圖像。
最后,為了檢驗(yàn)NeuralOS真實(shí)效果如何,團(tuán)隊(duì)選擇通過模擬用戶操作來測(cè)試模型。
得出的結(jié)論如下:
- 畫面逼真:連續(xù)操作時(shí),它生成的界面變化(如從桌面到打開文件夾,再到關(guān)閉窗口)看起來和真系統(tǒng)幾乎一樣。
- 鼠標(biāo)響應(yīng)準(zhǔn):不管是移動(dòng)鼠標(biāo)讓光標(biāo)跟著動(dòng),還是點(diǎn)擊圖標(biāo)觸發(fā)反應(yīng)(如點(diǎn)“關(guān)機(jī)”按鈕出現(xiàn)確認(rèn)窗口),它都能準(zhǔn)確對(duì)應(yīng)。
- 狀態(tài)轉(zhuǎn)換穩(wěn):像啟動(dòng)應(yīng)用、切換窗口這類“系統(tǒng)狀態(tài)變化”,它也能可靠模擬(如點(diǎn)“計(jì)算器” 圖標(biāo),就會(huì)出現(xiàn)計(jì)算器窗口,不會(huì)亂出別的東西)。
但它目前對(duì)鍵盤的精細(xì)操作處理不好,尤其是快速打字時(shí),它可能跟不上每個(gè)按鍵的實(shí)時(shí)顯示,或者出現(xiàn)字母順序錯(cuò)亂的情況。
下圖展示了模型預(yù)測(cè)狀態(tài)與真實(shí)狀態(tài)之間的對(duì)應(yīng)關(guān)系,主對(duì)角線區(qū)域有明顯高亮,說明模型大多數(shù)預(yù)測(cè)是準(zhǔn)確的;但也存在一定比例的偏移預(yù)測(cè),說明個(gè)別狀態(tài)存在混淆。
背后團(tuán)隊(duì)
NeuralOS論文作者一共5人,其中4位均為華人面孔。
Luke Rivard,目前正在滑鐵盧大學(xué)計(jì)算機(jī)科學(xué)系讀研,研究方向?yàn)樽匀徽Z言處理(NLP)。
這次研究是跟著他導(dǎo)師Yuntian Deng一起合作的。
Sun Sun,目前是加拿大國(guó)家研究委員會(huì)研究員,同時(shí)也是滑鐵盧大學(xué)兼職教授。
其研究方向?yàn)閮?yōu)化、機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)應(yīng)用。
Hongyu Guo,本科畢業(yè)于上海交大,目前是加拿大國(guó)家研究委員會(huì)數(shù)字技術(shù)研究中心的高級(jí)研究員。
他曾在渥太華大學(xué)獲得CS博士學(xué)位,目前任該校電氣工程與計(jì)算機(jī)科學(xué)學(xué)院兼職教授。
其論文多發(fā)表于ICML、ICLR、AAAI、IJCAI、ACL、EMNLP、IEEE等頂會(huì)期刊,谷歌學(xué)術(shù)論文總引用量達(dá)5000+。
陳文虎(Wenhu Chen),目前是滑鐵盧大學(xué)計(jì)算機(jī)科學(xué)助理教授。
其研究方向?yàn)橥评?、信息檢索、基準(zhǔn)與評(píng)估等,2022年獲得了加拿大的CIFAR AI主席獎(jiǎng),該獎(jiǎng)主要由加拿大政府授予在AI領(lǐng)域表現(xiàn)突出的世界頂尖人才。
從2021年起,他還兼職Google Deepmind的研究科學(xué)家。
Yuntian Deng,目前是滑鐵盧大學(xué)助理教授,也是英偉達(dá)客座教授。
曾獲得哈佛大學(xué)博士學(xué)位,研究興趣為自然語言處理和機(jī)器學(xué)習(xí)。
自NeuralOS論文發(fā)表后,他們還提供了一個(gè)在線體驗(yàn)版本,不過每個(gè)用戶的操作演示(session)運(yùn)行時(shí),后臺(tái)要專門分配一塊H100顯卡才能跑起來。
從使用指南來看,具體操作手法如下:
- 將鼠標(biāo)移入藍(lán)色框內(nèi),以與NeuralOS進(jìn)行交互;
- 點(diǎn)擊(左鍵或右鍵),可執(zhí)行點(diǎn)擊操作;
- 使用鍵盤輸入,可在模擬環(huán)境中打字;
- 調(diào)整采樣步數(shù),以平衡畫面質(zhì)量與生成速度;
- 切換“Use RNN”開關(guān),在RNN模式與擴(kuò)散模式之間切換;
- 切換“Auto Input”開關(guān),啟用自動(dòng)幀生成功能,即當(dāng)你將鼠標(biāo)移入畫布并保持靜止2秒后自動(dòng)開始,每0.5秒生成一幀。
連作者本人都表示,本來以為只是一個(gè)小demo,但沒想到來了太多用戶,以至于系統(tǒng)運(yùn)行緩慢。
不過隨著代碼開源,一切都還有進(jìn)一步優(yōu)化的空間。
雖然現(xiàn)在看起來很粗糙,但它展示了一個(gè)新可能——未來的“操作系統(tǒng)”不一定是死板的按鈕,而是可以被AI動(dòng)態(tài)“生成”的。
在線體驗(yàn):https://neural-os.com/
論文:https://arxiv.org/abs/2507.08800