強化學習新發(fā)現(xiàn):無需數(shù)學樣本,僅游戲訓練AI推理大增
第一作者謝云飛是萊斯大學博士生,導師為通訊作者魏晨教授,研究方向包括多模態(tài)生成與理解。
Project Leader 肖俊飛是約翰斯?霍普金斯大學博士生,導師為 Bloomberg Distinguished Professor Alan Yuille。
第二作者馬崟淞是約翰斯?霍普金斯大學博士生。
第三作者蘭石懿是英偉達 Research Scientist。
最近,強化學習領(lǐng)域出現(xiàn)了一個顛覆性發(fā)現(xiàn):研究人員不再需要大量數(shù)學訓練樣本,僅僅讓 AI 玩簡單游戲,就能顯著提升其數(shù)學推理能力。
此前已有研究發(fā)現(xiàn),即使不提供標準答案,僅用數(shù)學問題進行強化學習也能提高模型性能,這讓人們開始重新思考強化學習的訓練方式。而來自萊斯大學、約翰斯?霍普金斯大學和英偉達的研究團隊更進一步:他們讓多模態(tài)大語言模型 (MLLM) 玩貪吃蛇等簡單游戲,無需任何數(shù)學或多學科訓練數(shù)據(jù),就顯著提升了模型的多模態(tài)推理能力。研究團隊提出了 ViGaL (Visual Game Learning) 方法,在多個主流視覺數(shù)學基準測試和 MMMU 系列基準測試中,超越此前在數(shù)學等領(lǐng)域內(nèi)數(shù)據(jù)上訓練的強化學習模型。

- 論文標題:Play to Generalize: Learning to Reason Through Game Play
 - 論文鏈接:https://arxiv.org/abs/2506.08011
 - 項目主頁:https://yunfeixie233.github.io/ViGaL/
 
不用數(shù)學樣本,游戲訓練在數(shù)學基準取得突破
近期研究表明,相比監(jiān)督微調(diào)(SFT),強化學習(RL)往往能實現(xiàn)更強的 “舉一反三” 的跨領(lǐng)域泛化能力。以往的工作已經(jīng)證明,在數(shù)學問題訓練的模型能夠擴展推理到物理問題,經(jīng)過導航訓練的智能體能夠成功適應全新環(huán)境。然而,這些成功的泛化案例通常仍局限在單一領(lǐng)域內(nèi),源任務(wù)與泛化的目標任務(wù)依然屬于同一類型。

圖 1: 我們發(fā)現(xiàn),只在例如貪吃蛇這種游戲上進行強化學習訓練,模型就能涌現(xiàn)出領(lǐng)域外的泛化能力,在數(shù)學、多學科等多個任務(wù)上提高性能。
這篇工作的突破在于實現(xiàn)了更強形式的跨域泛化:從游戲領(lǐng)域完全遷移到數(shù)學推理、空間推理和多學科推理等領(lǐng)域。研究團隊用 7B 參數(shù)的 Qwen2.5-VL 模型進行訓練,發(fā)現(xiàn)僅通過強化學習訓練模型玩貪吃蛇和旋轉(zhuǎn)游戲,就能在多個基準測試中實現(xiàn)了顯著提升:
- 數(shù)學推理提升:不用數(shù)學樣本,僅通過游戲訓練,ViGaL 在 MathVista 等數(shù)學推理基準上平均提升 2.9%,相比之下,在高質(zhì)量數(shù)學數(shù)據(jù)集上進行強化學習的方法僅提升 2.4%。
 - 多學科推理突破:在 MMMU 系列多學科推理任務(wù)上,ViGaL 超越在多學科數(shù)據(jù)上進行 RL 訓練的 R1-OneVision-7B 模型 5.4 個百分點。
 - 通用能力保持:經(jīng)過測試,之前的強化學習推理模型在提升特定領(lǐng)域性能時,大部分都損害通用視覺能力,但 ViGaL 在保持原有通用性能的同時實現(xiàn)了推理能力的躍升。
 

圖 2: 不使用數(shù)學或者多學科樣本,僅通過游戲訓練,模型在數(shù)學推理基準上平均提升 2.9%(左圖),在多學科推理基準上平均提升 2.0%(右圖),超過此前專門在數(shù)學或者多學科數(shù)據(jù)上訓練的強化學習方法。
為什么游戲訓練如此有效?

圖 3: 我們在貪吃蛇游戲和旋轉(zhuǎn)游戲上利用強化學習進行訓練。在每個游戲里面,模型會接收圖片和文本形式的游戲環(huán)境作為輸入,遵循游戲指令進行推理,抉擇一個動作在游戲環(huán)境里執(zhí)行。執(zhí)行后會從環(huán)境獲得獎勵 ,用于進行強化學習。通過在游戲中訓練,模型獲得了推理能力,并且能遷移至下游的數(shù)學和多學科等任務(wù)。
為什么玩游戲能提升數(shù)學能力?這個發(fā)現(xiàn)其實并不違背認知科學的基本規(guī)律。
回想一下我們自己的成長過程:小時候通過搭積木學會了空間概念,通過躲貓貓理解了位置關(guān)系,通過各種益智游戲培養(yǎng)了邏輯思維。兒童正是通過這些看似 "玩耍" 的活動,逐步構(gòu)建起抽象思維的基礎(chǔ) —— 模式識別、空間推理、因果推斷。
認知科學研究也證實了這一點:游戲常被用作探索人類心智的實驗平臺。研究人員通過 "四子連珠" 游戲研究規(guī)劃能力,通過 "虛擬工具" 游戲探索問題解決的認知機制。
基于這樣的理論啟發(fā),研究團隊巧妙地設(shè)計了兩款互補的訓練游戲:
貪吃蛇游戲:這是一個經(jīng)典的策略決策游戲。在 10×10 的網(wǎng)格上,模型需要控制蛇的移動,避免撞墻、撞到自己或?qū)κ?,同時盡可能多地收集蘋果。游戲培養(yǎng)的核心能力包括路徑規(guī)劃、避障決策和空間導航,這些技能直接對應數(shù)學中的坐標幾何和函數(shù)圖像理解。
旋轉(zhuǎn)游戲:這是研究團隊自主設(shè)計的 3D 空間推理游戲。模型需要觀察同一 3D 物體的兩個視角 —— 初始視角和旋轉(zhuǎn)后視角,判斷物體旋轉(zhuǎn)了 90 度還是 180 度。這個游戲?qū)iT訓練空間幾何理解能力,直接對應角度和長度相關(guān)的數(shù)學推理問題。
兩款游戲的設(shè)計哲學互補:貪吃蛇主要提升 2D 坐標相關(guān)的數(shù)學表現(xiàn),旋轉(zhuǎn)游戲則更適合角度和長度推理。實驗證實,聯(lián)合訓練兩款游戲比單獨訓練效果更佳,展現(xiàn)了游戲多樣性的可擴展?jié)摿Α?/span>
結(jié)語:合成任務(wù)的新時代
ViGaL 的成功揭示了一個潛在的新趨勢:當高質(zhì)量人類數(shù)據(jù)枯竭,簡單任務(wù)性能飽和的時候,精心設(shè)計的游戲,作為一種合成任務(wù),可能為多模態(tài)推理能力的發(fā)展開辟新道路。
與傳統(tǒng)的直接訓練方法相比,這種游戲化的訓練范式展現(xiàn)出獨特的優(yōu)勢:
- 成本極低:無需人工標注,可無限擴展
 - 效果顯著:零數(shù)學樣本超越數(shù)學專訓模型
 - 拓展性強:可以組合多個任務(wù)進一步提升性能
 - 通用性好:不會造成 "偏科" 問題,保持模型的全面能力
 
更重要的是,ViGaL 可能揭示了一個樸素但深刻的道理:在直接學習目標任務(wù)之外,培養(yǎng)底層的通用推理能力,也許同樣有助于模型性能的提升。就像我們不只是通過死記硬背數(shù)學公式來培養(yǎng)數(shù)學思維,而是通過各種思維訓練來發(fā)展抽象推理能力一樣。
在 Scaling Law 可能逐漸面臨困境的今天,ViGaL 用一個簡單而優(yōu)雅的想法提醒我們:有時候,讓 AI"玩游戲" 可能比讓它 "刷題" 更有效。















 
 
 












 
 
 
 