偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型開始打王者榮耀了

人工智能
正如我們開頭提到的,經(jīng)過SFT和GRPO訓(xùn)練(2000步)的Qwen-3-14B達(dá)到了90.91%的準(zhǔn)確率,超過了參數(shù)量大一個(gè)數(shù)量級(jí)的 Deepseek-R1(86.67%)。

大語言模型可以打王者榮耀了!

圖片圖片

騰訊最新提出的Think-In-Games (TiG) 框架,直接把大模型丟進(jìn)王者榮耀里訓(xùn)練。它不僅能實(shí)時(shí)理解盤面信息(英雄、發(fā)育、兵線、防御塔、資源、視野等),還能打出像人類玩家一樣的操作。

更炸裂的是,靠著這種“邊玩邊學(xué)”的訓(xùn)練方式,讓僅14B參數(shù)的Qwen-3-14B,干翻了671B的 Deepseek-R1,動(dòng)作精準(zhǔn)度高達(dá)90.91%!

圖片圖片

那么問題來了:它是怎么做到的?

TiG:邊玩邊學(xué)

總的來說,TiG將基于強(qiáng)化學(xué)習(xí)的決策重新定義為一種語言建模任務(wù)。大語言模型生成由語言指導(dǎo)的策略,然后根據(jù)環(huán)境反饋,通過在線強(qiáng)化學(xué)習(xí)進(jìn)行迭代優(yōu)化。

這一方法彌合了傳統(tǒng)大語言模型只知道為什么,但無法作出行動(dòng);強(qiáng)化學(xué)習(xí)只知道行動(dòng),卻無法解釋為什么的鴻溝。

為了實(shí)現(xiàn)這一方法,研究團(tuán)隊(duì)直接讓大語言模型在《王者榮耀》中行動(dòng),并解釋原因。

值得注意的是,在這一框架中,大語言模型主要學(xué)習(xí)了人類玩家在《王者榮耀》游戲中宏觀層面的推理能力。

與微觀層面動(dòng)作(如精確技能施放)不同,宏觀層面推理優(yōu)先考慮長期目標(biāo)和團(tuán)隊(duì)協(xié)同,涉及制定和執(zhí)行團(tuán)隊(duì)范圍的策略,例如控制目標(biāo)、地圖施壓和協(xié)調(diào)團(tuán)隊(duì)機(jī)動(dòng)

這也就意味著,與其說TiG是一名職業(yè)選手,不如說他是能精準(zhǔn)判斷場上局勢的金牌教練。

具體來說,Tig將決策轉(zhuǎn)化為文本,模型通過讀取JSON獲取游戲狀態(tài),然后再從固定菜單(例如推進(jìn)或防御)中選擇宏操作(如推上路”、“奪龍”、“防守基地”),并解釋為何如此。

圖片圖片

舉例來說,在上圖的游戲場景中,阿古朵,與隊(duì)友姜子牙在中路推進(jìn),目標(biāo)是敵方一座血量較低的一塔 。

基于此,模型先對游戲狀態(tài)進(jìn)行全面評(píng)估 。例如,“防御塔和野區(qū)保護(hù)機(jī)制均已失效”(對局已進(jìn)入中期)。然后分析優(yōu)先目標(biāo)(摧毀中路一塔),制定策略(聯(lián)合姜子牙前往敵方中路一塔,集中火力推塔)并提示風(fēng)險(xiǎn),

最后,模型將結(jié)合英雄的的理解,建議作為射手的阿古朵“保持安全距離輸出”,并與姜子牙的控制效果協(xié)同配合,并將這一指令輸出給玩家“聯(lián)合姜子牙推掉敵方中路一塔,注意敵方可能埋伏”。

為了實(shí)現(xiàn)上面在游戲中邊玩邊學(xué)的效果,研究團(tuán)隊(duì)先從真實(shí)游戲?qū)种胁蓸?,?gòu)建數(shù)據(jù)集,為了確保每個(gè)游戲狀態(tài)都帶有一個(gè)宏觀級(jí)別的動(dòng)作標(biāo)簽,研究提出了“重新標(biāo)注算法”。

該方法先在幀窗口內(nèi)進(jìn)行向后填充,再通過優(yōu)先級(jí)覆蓋機(jī)制確保每個(gè)狀態(tài)都標(biāo)注為最關(guān)鍵的宏觀動(dòng)作。這樣得到的密集且一致的序列,為后續(xù)的 GRPO 訓(xùn)練與基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)提供了穩(wěn)健信號(hào)。

之后,為了在游戲環(huán)境中實(shí)現(xiàn)有效的戰(zhàn)略推理學(xué)習(xí),研究團(tuán)隊(duì)采用了Group Relative Policy Optimization (GRPO) 算法,以最大化生成內(nèi)容的優(yōu)勢,并限制策略與參考模型之間的分歧。

圖片圖片

在獎(jiǎng)勵(lì)設(shè)置方面,TiG使用基于二元規(guī)則的獎(jiǎng)勵(lì),當(dāng)預(yù)測操作與人類游戲玩法匹配時(shí)為1,否則為0,從而保持更新的穩(wěn)定性和成本。

獎(jiǎng)勵(lì)是基于實(shí)戰(zhàn)積累的過程性知識(shí)、人類可讀的戰(zhàn)略規(guī)劃,以及依然保持完好的通用語言能力。

訓(xùn)練過程與實(shí)驗(yàn)結(jié)果

TiG采用多階段訓(xùn)練方法,結(jié)合了監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)來增強(qiáng)模型能力。

  • SFT階段:從Deepseek-R1中提取訓(xùn)練數(shù)據(jù)進(jìn)行SFT。這些數(shù)據(jù)展示了強(qiáng)大的推理能力,可以幫助較小的模型獲取深度推理能力。
  • 在線RL階段:使用真實(shí)游戲數(shù)據(jù),并利用GRPO算法訓(xùn)練模型。

在具體的實(shí)驗(yàn)中,研究探索了多種訓(xùn)練方法的組合方式。

  • GRPO:僅使用GRPO算法訓(xùn)練基礎(chǔ)模型,不進(jìn)行SFT訓(xùn)練。
  • SFT:僅使用SFT訓(xùn)練數(shù)據(jù)集訓(xùn)練基礎(chǔ)模型 。
  • SFT + GRPO :首先使用SFT訓(xùn)練基礎(chǔ)模型,然后應(yīng)用GRPO 算法進(jìn)一步訓(xùn)練,以提高模型的推理能力。

(注:為了評(píng)估模型的質(zhì)量,研究設(shè)置了以下不同規(guī)模的基線模型,包括Qwen-2.5-7B-Instruct、Qwen-2.5-14B-Instruct、Qwen-2.5-32B-Instruct、Qwen-3-14B-Instruct和Deepseek-R1)

實(shí)驗(yàn)結(jié)果表明:SFT和GRPO的組合能顯著提高不同模型規(guī)模的性能,Qwen-2.5-32B在應(yīng)用GRPO后,準(zhǔn)確率從 66.67% 提高到86.84%。而Qwen2.5-14B在依次應(yīng)用SFT和GRPO后,準(zhǔn)確率從53.25%提高到83.12%。

圖片圖片

此外,正如我們開頭提到的,經(jīng)過SFT和GRPO訓(xùn)練(2000步)的Qwen-3-14B達(dá)到了90.91%的準(zhǔn)確率,超過了參數(shù)量大一個(gè)數(shù)量級(jí)的 Deepseek-R1(86.67%)。

綜上,TiG不僅彌合了“知其然”與“知其所以然”之間的鴻溝,還在數(shù)據(jù)量和計(jì)算需求顯著降低的情況下,取得了與傳統(tǒng)RL方法具有競爭力的性能。

參考鏈接

[1]https://arxiv.org/abs/2508.21365

[2]https://x.com/rohanpaul_ai/status/1962499431137493195

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2017-08-30 12:17:02

Python王者榮耀套路

2023-05-16 13:32:23

模型排行

2023-05-04 14:55:02

模型AI

2023-08-24 14:27:00

AI模型

2017-11-21 09:25:23

2017-11-27 11:02:46

高并發(fā)突發(fā)池系統(tǒng)架構(gòu)王者榮耀

2017-10-30 08:20:16

王者榮耀騰訊云游戲

2021-04-21 07:53:13

Android屏幕刷新

2023-11-03 07:47:12

機(jī)器資源大模型:

2024-06-28 11:04:32

2017-07-10 14:20:45

2017-12-25 16:20:40

Python自動(dòng)化王者榮耀

2020-07-10 08:27:55

王者榮耀微服務(wù)架構(gòu)

2017-06-09 18:31:00

電競手游王者榮耀

2020-09-01 10:46:55

微服務(wù)架構(gòu)服務(wù)器

2021-08-06 06:49:19

王者榮耀項(xiàng)目IDEA

2024-07-31 08:14:17

2024-11-26 09:33:44

2024-12-26 00:46:25

機(jī)器學(xué)習(xí)LoRA訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)