AI 開始「自由玩電腦」了!吉大提出「屏幕探索者」智能體
作者簡介:本文第一作者牛潤良是吉林大學(xué)人工智能學(xué)院博士研究生,研究方向包括大模型智能體、強(qiáng)化學(xué)習(xí),專注于 GUI Agent。通訊作者王琪為吉林大學(xué)人工智能學(xué)院研究員,研究方向包括數(shù)據(jù)挖掘、大模型、強(qiáng)化學(xué)習(xí)。
邁向通用人工智能(AGI)的核心目標(biāo)之一就是打造能在開放世界中自主探索并持續(xù)交互的智能體。隨著大語言模型(LLMs)和視覺語言模型(VLMs)的飛速發(fā)展,智能體已展現(xiàn)出令人矚目的跨領(lǐng)域任務(wù)泛化能力。
而在我們觸手可及的開放世界環(huán)境中,圖形用戶界面(GUI)無疑是人機(jī)交互最普遍的舞臺(tái)。想象一下 --- 你的 AI 不僅能看懂屏幕,還能像人一樣主動(dòng)探索界面、學(xué)習(xí)操作,并在新應(yīng)用里靈活應(yīng)對,這不再是幻想!
近期,吉林大學(xué)人工智能學(xué)院發(fā)布了一項(xiàng)基于強(qiáng)化學(xué)習(xí)訓(xùn)練的 VLM 智能體最新研究《ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World》。它讓視覺語言模型(VLM)真正學(xué)會(huì)了「自我探索 GUI 環(huán)境」。

- 論文地址:https://arxiv.org/abs/2505.19095
 - 項(xiàng)目地址:https://github.com/niuzaisheng/ScreenExplorer
 
該工作帶來三大核心突破:
- 在真實(shí)的 Desktop GUI 環(huán)境中進(jìn)行 VLM 模型的在線訓(xùn)練;
 - 針對開放 GUI 環(huán)境反饋稀疏問題,創(chuàng)新性地引入「好奇心機(jī)制」,利用世界模型預(yù)測環(huán)境狀態(tài)轉(zhuǎn)移,估算環(huán)境狀態(tài)的新穎度,從而有效激勵(lì)智能體主動(dòng)探索多樣化的界面狀態(tài),告別「原地打轉(zhuǎn)」;
 - 此外,受 DeepSeek-R1 啟發(fā),構(gòu)建了「經(jīng)驗(yàn)流蒸餾」訓(xùn)練范式,每一代智能體的探索經(jīng)驗(yàn)都會(huì)被自動(dòng)提煉,用于微調(diào)下一代智能體。這不僅大幅提升探索效率、減少對人工標(biāo)注數(shù)據(jù)的依賴,更讓 ScreenExplorer 的能力實(shí)現(xiàn)了持續(xù)自主進(jìn)化,打造真正「學(xué)無止境」的智能體!論文同時(shí)開源了訓(xùn)練代碼等。
 
廢話少說,先看視頻:


方法
實(shí)時(shí)交互的在線強(qiáng)化學(xué)習(xí)框架

文章首先構(gòu)建了一個(gè)能夠與 GUI 虛擬機(jī)實(shí)時(shí)交互的在線強(qiáng)化學(xué)習(xí)環(huán)境,VLM 智能體可以通過輸出鼠標(biāo)和鍵盤動(dòng)作函數(shù)調(diào)用與真實(shí)運(yùn)行的 GUI 進(jìn)行交互。強(qiáng)化學(xué)習(xí)環(huán)境通過提示詞要求 VLM 智能體以 CoT 形式輸出,包含「意圖」與「動(dòng)作」兩部分。最后,強(qiáng)化學(xué)習(xí)環(huán)境解析函數(shù)調(diào)用形式的動(dòng)作并在真實(shí)的操作系統(tǒng)中執(zhí)行動(dòng)作。在采樣過程中,可以并行多個(gè)虛擬機(jī)環(huán)境進(jìn)行采樣,每個(gè)環(huán)境采樣多步,所有操作步都存儲(chǔ)在 Rollout Buffer 中。
啟發(fā)式 + 世界模型驅(qū)動(dòng)的獎(jiǎng)勵(lì)體系
文中構(gòu)建了啟發(fā)式 + 世界模型驅(qū)動(dòng)的探索獎(jiǎng)勵(lì),啟發(fā)式探索獎(jiǎng)勵(lì)鼓勵(lì)軌跡內(nèi)畫面之間差異度增大。世界模型可以導(dǎo)出每一個(gè)動(dòng)作的好奇心獎(jiǎng)勵(lì),鼓勵(lì)模型探索到越來越多的未見場景,此外還有格式獎(jiǎng)勵(lì)和意圖對齊獎(jiǎng)勵(lì)。綜合以上獎(jiǎng)勵(lì),為每一步動(dòng)作賦予即時(shí)獎(jiǎng)勵(lì),進(jìn)而鼓勵(lì)模型與環(huán)境開展有效交互的同時(shí)不斷探索新環(huán)境狀態(tài)。

計(jì)算 GRPO 的組優(yōu)勢函數(shù)計(jì)算
在獲得每一步輸出的獎(jiǎng)勵(lì)后,文中采用與 Deepseek-R1 相同的 GRPO 算法對 VLM 進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。作者將同一個(gè) Rollout Buffer 中所有動(dòng)作視為一個(gè)組,首先根據(jù) GRPO 的優(yōu)勢函數(shù)計(jì)算每一步動(dòng)作的優(yōu)勢值:

再使用 GRPO 損失函數(shù)更新 VLM 參數(shù):

由此可實(shí)現(xiàn)每個(gè)回合多個(gè)并行環(huán)境同步推理、執(zhí)行、記錄,再用當(dāng)批數(shù)據(jù)實(shí)時(shí)更新策略,實(shí)現(xiàn)「邊操作邊學(xué)」的在線強(qiáng)化學(xué)習(xí)。
實(shí)驗(yàn)結(jié)果
模型探索能力表現(xiàn)
文中的實(shí)驗(yàn)使用了 Qwen2.5-VL-3B 和 Qwen2.5-VL-7B 作為基礎(chǔ)模型,如果不經(jīng)訓(xùn)練,直接讓 3B 的小模型與環(huán)境進(jìn)行交互,模型只會(huì)在屏幕上「亂按一通」,未能成功打開任何一個(gè)軟件:

但是稍加訓(xùn)練,模型就能成功打開一些桌面上的軟件:

再進(jìn)行一段時(shí)間的探索,模型學(xué)會(huì)探索到更深的頁面:

Qwen2.5-VL-7B 的模型表現(xiàn)更好,在一段時(shí)間的訓(xùn)練后甚至能夠完成一次完整的「加購物車」過程:

基于啟發(fā)式和從世界模型導(dǎo)出的獎(jiǎng)勵(lì)都非常易得,因此無需構(gòu)建具體的任務(wù)獎(jiǎng)勵(lì)函數(shù),就能讓模型在環(huán)境中自己探索起來。動(dòng)態(tài)訓(xùn)練的 ScreenExplorer 能夠更加適應(yīng)當(dāng)前的環(huán)境,與調(diào)用靜態(tài)的 VLM 甚至專門為 GUI 場景訓(xùn)練的模型相比,能夠獲得更高的探索多樣性:

經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練,原本探索能力最弱的基礎(chǔ)模型 Qwen 2.5-VL-3B 成功躍升為探索表現(xiàn)最佳的 ScreenExplorer-3B-E1。更高的探索多樣性意味著智能體能夠與環(huán)境開展更有效的交互,自驅(qū)地打開更多軟件或探索更多頁面,這為接下來訓(xùn)練完成具體任務(wù),或是從屏幕內(nèi)容中學(xué)習(xí)新知識(shí),提供了最基礎(chǔ)的交互和探索能力。
在訓(xùn)練過程中,各分項(xiàng)的獎(jiǎng)勵(lì)值不斷升高。此外,World Model 的重建損失一直保持在較高的水平,這也反應(yīng)了模型一直在探索新的狀態(tài)。

為什么需要世界模型?
文中通過消融實(shí)驗(yàn)對比了各類獎(jiǎng)勵(lì)的必要性,尤其關(guān)注來自世界模型的好奇心獎(jiǎng)勵(lì)對探索訓(xùn)練的影響。實(shí)驗(yàn)發(fā)現(xiàn),一旦去掉來自世界模型的好奇心獎(jiǎng)勵(lì),模型就很難學(xué)習(xí)如何與環(huán)境進(jìn)行有效交互,各項(xiàng)獎(jiǎng)勵(lì)都未顯現(xiàn)提升的趨勢。

為了進(jìn)一步了解來自世界模型好奇心獎(jiǎng)勵(lì)給訓(xùn)練帶來的影響,文中展示了各種消融設(shè)定下 GRPO Advantage 的變化趨勢。

可以發(fā)現(xiàn),來自世界模型的好奇心獎(jiǎng)勵(lì)加大了 Advantage 的方差,這一點(diǎn)變化使得探索過程渡過了冷啟動(dòng)階段。而沒有世界模型獎(jiǎng)勵(lì)的消融組卻一直困于冷啟動(dòng)階段,很難開展有效的探索。
新技能涌現(xiàn)
此外,文中還展示了模型在經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后涌現(xiàn)出的技能,例如:
跨模態(tài)翻譯能力:

根據(jù)現(xiàn)狀制定計(jì)劃能力:

復(fù)雜推理能力:

探索產(chǎn)生的樣本中,「意圖」字段可以視為免費(fèi)的標(biāo)簽,為之后構(gòu)造完成具體任務(wù)提供數(shù)據(jù)標(biāo)注的基礎(chǔ)。
結(jié)論
本研究在開放世界 GUI 環(huán)境中成功訓(xùn)練了探索智能體 ScreenExplorer。通過結(jié)合探索獎(jiǎng)勵(lì)、世界模型和 GRPO 強(qiáng)化學(xué)習(xí),有效提升了智能體的 GUI 交互能力,經(jīng)驗(yàn)流蒸餾技術(shù)則進(jìn)一步增強(qiáng)了其探索效率。該智能體通過穩(wěn)健的探索直接從環(huán)境中獲取經(jīng)驗(yàn)流,降低了對人類遙控操作數(shù)據(jù)的依賴,為實(shí)現(xiàn)更自主的智能體、邁向通用人工智能(AGI)提供了一條可行的技術(shù)路徑。















 
 
 








 
 
 
 