字節(jié)發(fā)布通用游戲智能體!5000億token訓(xùn)練,用鼠標(biāo)鍵盤吊打GPT-5!
用鼠標(biāo)和鍵盤打游戲的智能體,這就來了!
它不僅能在《我的世界》中和普通玩家一較高下。

還能玩《神廟逃亡》、《星露谷》,甚至可以在未見過的3D網(wǎng)頁游戲中實(shí)現(xiàn)零樣本遷移。

而這,都是由字節(jié)seed團(tuán)隊(duì)打造的通用型游戲智能體——Game-TARS完成的。
Game-TARS基于統(tǒng)一、可擴(kuò)展的鍵盤—鼠標(biāo)動作空間訓(xùn)練,可在操作系統(tǒng)、網(wǎng)頁與模擬環(huán)境中進(jìn)行大規(guī)模預(yù)訓(xùn)練。
依托超5000億標(biāo)注量級的多模態(tài)訓(xùn)練數(shù)據(jù),結(jié)合稀疏推理(Sparse-Thinking) 與衰減持續(xù)損失(decaying continual loss),大幅提升了智能體的可擴(kuò)展性和泛化性。
在FPS、開放世界、WEB游戲等任務(wù)中,它的表現(xiàn)超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet。

這是怎么做到的?
像人一樣用鍵盤和鼠標(biāo)打游戲
Game-TARS的核心創(chuàng)新在于,讓智能體不再“調(diào)用函數(shù)打游戲”,而是像人一樣用鍵盤和鼠標(biāo)操作。

也就是說,它不只是簡單地執(zhí)行指令,而是真正通過模擬人類操作的方式完成游戲中的每一個動作。
相比之下,傳統(tǒng)智能體通常依賴為特定環(huán)境定制的動作集:
- 在MCP或Code層,它們可以直接調(diào)用Search(query)完成搜索,無需打開界面或點(diǎn)擊按鈕。
- 在GUI層則執(zhí)行封裝好的系統(tǒng)動作,如“雙擊”或“按下熱鍵”。
這些方式雖然高效,卻缺乏通用性。一旦換個操作系統(tǒng)或應(yīng)用環(huán)境,智能體就束手無策。
為解決這個問題,Game-TARS專注于最底層的Human Actions(人類動作):
- mouseMove(dx, dy):鼠標(biāo)相對移動,包括x軸和y軸。
- mouseClick(buttons):鼠標(biāo)點(diǎn)擊,如左鍵、右鍵或中鍵。
- keyPress(xkeys):鍵盤按鍵,包括單個按鍵和按鍵組合。
這種設(shè)計(jì)使智能體的動作指令集與任何特定應(yīng)用或操作系統(tǒng)解耦,實(shí)現(xiàn)了與人類用戶物理交互方式的直接對齊——
即Human-Native Interaction(人類自然交互)。
由此,Game-TARS定義了一個可擴(kuò)展、統(tǒng)一的動作空間,讓智能體告別高層級指令,直接動手“玩”,極大地提高了可擴(kuò)展性和泛化性。

訓(xùn)練過程
與傳統(tǒng)游戲機(jī)器人或模塊化人工智能不同,Game-TARS將視覺感知、策略推理、動作執(zhí)行和長期記憶整合到一個視覺語言模型(VLM)中。
智能體無需針對每款游戲編寫特定代碼或規(guī)則,就能自主學(xué)習(xí)操作,并在各種游戲中完成任務(wù)。
為實(shí)現(xiàn)這一點(diǎn),Game-TARS將該智能體構(gòu)建為一個自回歸的、參數(shù)化的策略,并利用統(tǒng)一的鍵盤—鼠標(biāo)動作空間進(jìn)行訓(xùn)練,包括持續(xù)預(yù)訓(xùn)練和后訓(xùn)練兩個階段。

在預(yù)訓(xùn)練階段,團(tuán)隊(duì)采用的ReAct范式,結(jié)合稀疏推理(Sparse Thinking)——只在關(guān)鍵決策點(diǎn)交錯進(jìn)行推理和行動,以模擬人類認(rèn)知模式。
具體做法包括:
- 離線思維鏈 + 在線“邊做邊說”(Think-Aloud):標(biāo)注者在執(zhí)行任務(wù)時,通過音頻實(shí)時表達(dá)思考,生成原生、即時推理的ReAct序列。
- 多模態(tài)同步采集:系統(tǒng)并行錄制屏幕幀、鼠標(biāo)鍵盤輸入及音頻,然后通過ASR轉(zhuǎn)文字,再用大語言模型去噪、增強(qiáng)邏輯。
- 視覺錨點(diǎn)因果對齊:用屏幕鼠標(biāo)光標(biāo)作為錨點(diǎn),精確對齊每個動作信號到其執(zhí)行幀,恢復(fù)因果鏈。
- 軌跡構(gòu)建與優(yōu)化:兩幀間的所有鍵鼠操作合并為動作事件,無操作標(biāo)記為no-op;推理時間戳重定位到語義相關(guān)的動作,生成高度同步、因果一致的訓(xùn)練序列。
此外,為了解決“行為慣性”問題,Game-TARS引入了指數(shù)衰減權(quán)重,對連續(xù)重復(fù)動作按指數(shù)降低權(quán)重,確保新動作獲得足夠關(guān)注,讓模型更專注于高熵動作轉(zhuǎn)變,學(xué)習(xí)出更穩(wěn)健、泛化能力更強(qiáng)的策略。

在超過2萬小時、約5000億token的游戲數(shù)據(jù)上大規(guī)模預(yù)訓(xùn)練后,研究進(jìn)入后訓(xùn)練階段,進(jìn)一步強(qiáng)化智能體在特定任務(wù)中的執(zhí)行能力和交互智能,重點(diǎn)提升三大核心能力:
- 指令遵循:隨機(jī)替換按鍵綁定(如把W換成X代表“向前”),迫使模型依賴系統(tǒng)提示理解動作語義。同時讓模型基于當(dāng)前幀預(yù)測中間動作,加深對動作—狀態(tài)因果關(guān)系的理解。
- 稀疏思維能力:定位關(guān)鍵決策點(diǎn),只在高熵步驟增強(qiáng)推理;通過拒絕微調(diào)(rejection fine-tuning)強(qiáng)化高效稀疏思維,讓智能體學(xué)會在關(guān)鍵時刻深思熟慮。
- 長期記憶:引入雙層記憶機(jī)制——短期記憶保存最新圖像,長期記憶只保留精煉的稀疏思維文本。
此外,為了將能力擴(kuò)展到游戲以外,后訓(xùn)練還引入了跨領(lǐng)域軌跡數(shù)據(jù),包括代碼生成、GUI 自動化和科研任務(wù),幫助 Game-TARS從游戲玩家成長為多功能通用計(jì)算機(jī)用戶。

在具體的訓(xùn)練細(xì)節(jié)上,研究采用了統(tǒng)一的、單階段的持續(xù)預(yù)訓(xùn)練方法,將所有數(shù)據(jù)源融合在一起,并對模型進(jìn)行了超過5000億個token的訓(xùn)練。
在后訓(xùn)練階段,對約200億個精心策劃的高質(zhì)量token進(jìn)行了微調(diào)。
實(shí)驗(yàn)驗(yàn)證
研究首先通過在《我的世界》中測試智能體的能力,驗(yàn)證了統(tǒng)一動作空間和大規(guī)模持續(xù)預(yù)訓(xùn)練的有效性。

與grounding-based或基于API的動作不同,研究發(fā)現(xiàn)統(tǒng)一動作空間在訓(xùn)練數(shù)據(jù)少于10B時,最初在成功率方面并未超越基于GUI動作的智能體。
然而,統(tǒng)一動作空間的關(guān)鍵優(yōu)勢在于其可擴(kuò)展性——可以高效地收集大規(guī)模數(shù)據(jù),并且智能體可以使用一致的格式跨所有游戲進(jìn)行預(yù)訓(xùn)練。
擴(kuò)展實(shí)驗(yàn)證明,這種統(tǒng)一動作空間為實(shí)現(xiàn)通用智能體提供了卓越的基礎(chǔ)。
當(dāng)在大量的通用計(jì)算機(jī)使用數(shù)據(jù)語料庫上進(jìn)行訓(xùn)練后,基于統(tǒng)一動作空間的Game-TARS在《我的世界》中的表現(xiàn)比以前最先進(jìn)的專家模型提高了約2倍。
正如開頭demo中所展示的,研究進(jìn)行了廣泛評估:包括FPS游戲Vizdoom、3D模擬器Miniworld和在線網(wǎng)頁游戲 。
實(shí)驗(yàn)表明,Game-TARS 的迷你版本在各種任務(wù)上超越了著名的預(yù)訓(xùn)練模型,如Gemini-2.5-Pro 、GPT-5和Claude-4-Sonnet ,展示了在不同領(lǐng)域中的卓越性能。

此外,實(shí)驗(yàn)表明Game-TARS在訓(xùn)練和推理過程中都具有可擴(kuò)展性。

總的來說,Game-TARS依靠簡單、通用的原生鍵盤和鼠標(biāo)動作空間,實(shí)現(xiàn)了大規(guī)??珙I(lǐng)域訓(xùn)練。
這一設(shè)計(jì)不僅提升了智能體的擴(kuò)展性,也為未來在更多任務(wù)和環(huán)境中的泛化能力奠定了基礎(chǔ)。
One more thing
Game-TARS的第一作者是北京大學(xué)人工智能研究院博士生——王子豪。
王子豪師從梁一韜教授,主要研究方向聚焦于開放式通用智能體的構(gòu)建,涵蓋計(jì)算機(jī)應(yīng)用、具身游戲與深度研究等領(lǐng)域,致力于通過大型預(yù)訓(xùn)練模型提升智能體的泛化與自主能力。

目前,他在字節(jié)跳動Seed團(tuán)隊(duì)擔(dān)任研究實(shí)習(xí)生。





































