大模型開始打王者榮耀了
大語言模型可以打王者榮耀了!
圖片
騰訊最新提出的Think-In-Games (TiG) 框架,直接把大模型丟進(jìn)王者榮耀里訓(xùn)練。它不僅能實(shí)時(shí)理解盤面信息(英雄、發(fā)育、兵線、防御塔、資源、視野等),還能打出像人類玩家一樣的操作。
更炸裂的是,靠著這種“邊玩邊學(xué)”的訓(xùn)練方式,讓僅14B參數(shù)的Qwen-3-14B,干翻了671B的 Deepseek-R1,動(dòng)作精準(zhǔn)度高達(dá)90.91%!
圖片
那么問題來了:它是怎么做到的?
TiG:邊玩邊學(xué)
總的來說,TiG將基于強(qiáng)化學(xué)習(xí)的決策重新定義為一種語言建模任務(wù)。大語言模型生成由語言指導(dǎo)的策略,然后根據(jù)環(huán)境反饋,通過在線強(qiáng)化學(xué)習(xí)進(jìn)行迭代優(yōu)化。
這一方法彌合了傳統(tǒng)大語言模型只知道為什么,但無法作出行動(dòng);強(qiáng)化學(xué)習(xí)只知道行動(dòng),卻無法解釋為什么的鴻溝。
為了實(shí)現(xiàn)這一方法,研究團(tuán)隊(duì)直接讓大語言模型在《王者榮耀》中行動(dòng),并解釋原因。
值得注意的是,在這一框架中,大語言模型主要學(xué)習(xí)了人類玩家在《王者榮耀》游戲中宏觀層面的推理能力。
與微觀層面動(dòng)作(如精確技能施放)不同,宏觀層面推理優(yōu)先考慮長期目標(biāo)和團(tuán)隊(duì)協(xié)同,涉及制定和執(zhí)行團(tuán)隊(duì)范圍的策略,例如控制目標(biāo)、地圖施壓和協(xié)調(diào)團(tuán)隊(duì)機(jī)動(dòng)。
這也就意味著,與其說TiG是一名職業(yè)選手,不如說他是能精準(zhǔn)判斷場上局勢的金牌教練。
具體來說,Tig將決策轉(zhuǎn)化為文本,模型通過讀取JSON獲取游戲狀態(tài),然后再從固定菜單(例如推進(jìn)或防御)中選擇宏操作(如推上路”、“奪龍”、“防守基地”),并解釋為何如此。
圖片
舉例來說,在上圖的游戲場景中,阿古朵,與隊(duì)友姜子牙在中路推進(jìn),目標(biāo)是敵方一座血量較低的一塔 。
基于此,模型先對游戲狀態(tài)進(jìn)行全面評(píng)估 。例如,“防御塔和野區(qū)保護(hù)機(jī)制均已失效”(對局已進(jìn)入中期)。然后分析優(yōu)先目標(biāo)(摧毀中路一塔),制定策略(聯(lián)合姜子牙前往敵方中路一塔,集中火力推塔)并提示風(fēng)險(xiǎn),
最后,模型將結(jié)合英雄的的理解,建議作為射手的阿古朵“保持安全距離輸出”,并與姜子牙的控制效果協(xié)同配合,并將這一指令輸出給玩家“聯(lián)合姜子牙推掉敵方中路一塔,注意敵方可能埋伏”。
為了實(shí)現(xiàn)上面在游戲中邊玩邊學(xué)的效果,研究團(tuán)隊(duì)先從真實(shí)游戲?qū)种胁蓸?,?gòu)建數(shù)據(jù)集,為了確保每個(gè)游戲狀態(tài)都帶有一個(gè)宏觀級(jí)別的動(dòng)作標(biāo)簽,研究提出了“重新標(biāo)注算法”。
該方法先在幀窗口內(nèi)進(jìn)行向后填充,再通過優(yōu)先級(jí)覆蓋機(jī)制確保每個(gè)狀態(tài)都標(biāo)注為最關(guān)鍵的宏觀動(dòng)作。這樣得到的密集且一致的序列,為后續(xù)的 GRPO 訓(xùn)練與基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)提供了穩(wěn)健信號(hào)。
之后,為了在游戲環(huán)境中實(shí)現(xiàn)有效的戰(zhàn)略推理學(xué)習(xí),研究團(tuán)隊(duì)采用了Group Relative Policy Optimization (GRPO) 算法,以最大化生成內(nèi)容的優(yōu)勢,并限制策略與參考模型之間的分歧。
圖片
在獎(jiǎng)勵(lì)設(shè)置方面,TiG使用基于二元規(guī)則的獎(jiǎng)勵(lì),當(dāng)預(yù)測操作與人類游戲玩法匹配時(shí)為1,否則為0,從而保持更新的穩(wěn)定性和成本。
獎(jiǎng)勵(lì)是基于實(shí)戰(zhàn)積累的過程性知識(shí)、人類可讀的戰(zhàn)略規(guī)劃,以及依然保持完好的通用語言能力。
訓(xùn)練過程與實(shí)驗(yàn)結(jié)果
TiG采用多階段訓(xùn)練方法,結(jié)合了監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)來增強(qiáng)模型能力。
- SFT階段:從Deepseek-R1中提取訓(xùn)練數(shù)據(jù)進(jìn)行SFT。這些數(shù)據(jù)展示了強(qiáng)大的推理能力,可以幫助較小的模型獲取深度推理能力。
 - 在線RL階段:使用真實(shí)游戲數(shù)據(jù),并利用GRPO算法訓(xùn)練模型。
 
在具體的實(shí)驗(yàn)中,研究探索了多種訓(xùn)練方法的組合方式。
- GRPO:僅使用GRPO算法訓(xùn)練基礎(chǔ)模型,不進(jìn)行SFT訓(xùn)練。
 - SFT:僅使用SFT訓(xùn)練數(shù)據(jù)集訓(xùn)練基礎(chǔ)模型 。
 - SFT + GRPO :首先使用SFT訓(xùn)練基礎(chǔ)模型,然后應(yīng)用GRPO 算法進(jìn)一步訓(xùn)練,以提高模型的推理能力。
 
(注:為了評(píng)估模型的質(zhì)量,研究設(shè)置了以下不同規(guī)模的基線模型,包括Qwen-2.5-7B-Instruct、Qwen-2.5-14B-Instruct、Qwen-2.5-32B-Instruct、Qwen-3-14B-Instruct和Deepseek-R1)
實(shí)驗(yàn)結(jié)果表明:SFT和GRPO的組合能顯著提高不同模型規(guī)模的性能,Qwen-2.5-32B在應(yīng)用GRPO后,準(zhǔn)確率從 66.67% 提高到86.84%。而Qwen2.5-14B在依次應(yīng)用SFT和GRPO后,準(zhǔn)確率從53.25%提高到83.12%。
圖片
此外,正如我們開頭提到的,經(jīng)過SFT和GRPO訓(xùn)練(2000步)的Qwen-3-14B達(dá)到了90.91%的準(zhǔn)確率,超過了參數(shù)量大一個(gè)數(shù)量級(jí)的 Deepseek-R1(86.67%)。
綜上,TiG不僅彌合了“知其然”與“知其所以然”之間的鴻溝,還在數(shù)據(jù)量和計(jì)算需求顯著降低的情況下,取得了與傳統(tǒng)RL方法具有競爭力的性能。
參考鏈接















 
 
 










 
 
 
 