偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="eeu9k"></blockquote>

<meter id="eeu9k"><menuitem id="eeu9k"><pre id="eeu9k"></pre></menuitem></meter>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

大模型開始打王者榮耀了

2025-09-02 10:03:34

正如我們開頭提到的，經(jīng)過SFT和GRPO訓(xùn)練（2000步）的Qwen-3-14B達(dá)到了90.91%的準(zhǔn)確率，超過了參數(shù)量大一個(gè)數(shù)量級(jí)的 Deepseek-R1（86.67%）。

大語言模型可以打王者榮耀了！

圖片

騰訊最新提出的Think-In-Games (TiG) 框架，直接把大模型丟進(jìn)王者榮耀里訓(xùn)練。它不僅能實(shí)時(shí)理解盤面信息（英雄、發(fā)育、兵線、防御塔、資源、視野等），還能打出像人類玩家一樣的操作。

更炸裂的是，靠著這種“邊玩邊學(xué)”的訓(xùn)練方式，讓僅14B參數(shù)的Qwen-3-14B，干翻了671B的 Deepseek-R1，動(dòng)作精準(zhǔn)度高達(dá)90.91%！

圖片

那么問題來了：它是怎么做到的？

TiG：邊玩邊學(xué)

總的來說，TiG將基于強(qiáng)化學(xué)習(xí)的決策重新定義為一種語言建模任務(wù)。大語言模型生成由語言指導(dǎo)的策略，然后根據(jù)環(huán)境反饋，通過在線強(qiáng)化學(xué)習(xí)進(jìn)行迭代優(yōu)化。

這一方法彌合了傳統(tǒng)大語言模型只知道為什么，但無法作出行動(dòng)；強(qiáng)化學(xué)習(xí)只知道行動(dòng)，卻無法解釋為什么的鴻溝。

為了實(shí)現(xiàn)這一方法，研究團(tuán)隊(duì)直接讓大語言模型在《王者榮耀》中行動(dòng)，并解釋原因。

值得注意的是，在這一框架中，大語言模型主要學(xué)習(xí)了人類玩家在《王者榮耀》游戲中宏觀層面的推理能力。

與微觀層面動(dòng)作（如精確技能施放）不同，宏觀層面推理優(yōu)先考慮長期目標(biāo)和團(tuán)隊(duì)協(xié)同，涉及制定和執(zhí)行團(tuán)隊(duì)范圍的策略，例如控制目標(biāo)、地圖施壓和協(xié)調(diào)團(tuán)隊(duì)機(jī)動(dòng)。

這也就意味著，與其說TiG是一名職業(yè)選手，不如說他是能精準(zhǔn)判斷場上局勢的金牌教練。

具體來說，Tig將決策轉(zhuǎn)化為文本，模型通過讀取JSON獲取游戲狀態(tài)，然后再從固定菜單（例如推進(jìn)或防御）中選擇宏操作（如推上路”、“奪龍”、“防守基地”），并解釋為何如此。

圖片

舉例來說，在上圖的游戲場景中，阿古朵，與隊(duì)友姜子牙在中路推進(jìn)，目標(biāo)是敵方一座血量較低的一塔。

基于此，模型先對游戲狀態(tài)進(jìn)行全面評(píng)估。例如，“防御塔和野區(qū)保護(hù)機(jī)制均已失效”（對局已進(jìn)入中期）。然后分析優(yōu)先目標(biāo)（摧毀中路一塔），制定策略（聯(lián)合姜子牙前往敵方中路一塔，集中火力推塔）并提示風(fēng)險(xiǎn)，

最后，模型將結(jié)合英雄的的理解，建議作為射手的阿古朵“保持安全距離輸出”，并與姜子牙的控制效果協(xié)同配合，并將這一指令輸出給玩家“聯(lián)合姜子牙推掉敵方中路一塔，注意敵方可能埋伏”。

為了實(shí)現(xiàn)上面在游戲中邊玩邊學(xué)的效果，研究團(tuán)隊(duì)先從真實(shí)游戲?qū)种胁蓸?，?gòu)建數(shù)據(jù)集，為了確保每個(gè)游戲狀態(tài)都帶有一個(gè)宏觀級(jí)別的動(dòng)作標(biāo)簽，研究提出了“重新標(biāo)注算法”。

該方法先在幀窗口內(nèi)進(jìn)行向后填充，再通過優(yōu)先級(jí)覆蓋機(jī)制確保每個(gè)狀態(tài)都標(biāo)注為最關(guān)鍵的宏觀動(dòng)作。這樣得到的密集且一致的序列，為后續(xù)的 GRPO 訓(xùn)練與基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)提供了穩(wěn)健信號(hào)。

之后，為了在游戲環(huán)境中實(shí)現(xiàn)有效的戰(zhàn)略推理學(xué)習(xí)，研究團(tuán)隊(duì)采用了Group Relative Policy Optimization (GRPO) 算法，以最大化生成內(nèi)容的優(yōu)勢，并限制策略與參考模型之間的分歧。

圖片

在獎(jiǎng)勵(lì)設(shè)置方面，TiG使用基于二元規(guī)則的獎(jiǎng)勵(lì)，當(dāng)預(yù)測操作與人類游戲玩法匹配時(shí)為1，否則為0，從而保持更新的穩(wěn)定性和成本。

獎(jiǎng)勵(lì)是基于實(shí)戰(zhàn)積累的過程性知識(shí)、人類可讀的戰(zhàn)略規(guī)劃，以及依然保持完好的通用語言能力。

訓(xùn)練過程與實(shí)驗(yàn)結(jié)果

TiG采用多階段訓(xùn)練方法，結(jié)合了監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL）來增強(qiáng)模型能力。

SFT階段：從Deepseek-R1中提取訓(xùn)練數(shù)據(jù)進(jìn)行SFT。這些數(shù)據(jù)展示了強(qiáng)大的推理能力，可以幫助較小的模型獲取深度推理能力。
在線RL階段：使用真實(shí)游戲數(shù)據(jù)，并利用GRPO算法訓(xùn)練模型。

在具體的實(shí)驗(yàn)中，研究探索了多種訓(xùn)練方法的組合方式。

GRPO：僅使用GRPO算法訓(xùn)練基礎(chǔ)模型，不進(jìn)行SFT訓(xùn)練。
SFT：僅使用SFT訓(xùn)練數(shù)據(jù)集訓(xùn)練基礎(chǔ)模型。
SFT + GRPO ：首先使用SFT訓(xùn)練基礎(chǔ)模型，然后應(yīng)用GRPO 算法進(jìn)一步訓(xùn)練，以提高模型的推理能力。

（注：為了評(píng)估模型的質(zhì)量，研究設(shè)置了以下不同規(guī)模的基線模型，包括Qwen-2.5-7B-Instruct、Qwen-2.5-14B-Instruct、Qwen-2.5-32B-Instruct、Qwen-3-14B-Instruct和Deepseek-R1）

實(shí)驗(yàn)結(jié)果表明：SFT和GRPO的組合能顯著提高不同模型規(guī)模的性能，Qwen-2.5-32B在應(yīng)用GRPO后，準(zhǔn)確率從 66.67% 提高到86.84%。而Qwen2.5-14B在依次應(yīng)用SFT和GRPO后，準(zhǔn)確率從53.25%提高到83.12%。

圖片

此外，正如我們開頭提到的，經(jīng)過SFT和GRPO訓(xùn)練（2000步）的Qwen-3-14B達(dá)到了90.91%的準(zhǔn)確率，超過了參數(shù)量大一個(gè)數(shù)量級(jí)的 Deepseek-R1（86.67%）。

綜上，TiG不僅彌合了“知其然”與“知其所以然”之間的鴻溝，還在數(shù)據(jù)量和計(jì)算需求顯著降低的情況下，取得了與傳統(tǒng)RL方法具有競爭力的性能。

參考鏈接

[1]https://arxiv.org/abs/2508.21365

[2]https://x.com/rohanpaul_ai/status/1962499431137493195

責(zé)任編輯：武曉燕來源：量子位

大模型王者榮耀 GRPO

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nav id="t39sy"></nav>

<bdo id="t39sy"></bdo>