AI一鍵生成“類黑神話”!騰訊推出游戲視頻模型GameGen-O,業(yè)內(nèi)人士:游戲工作室的ChatGPT時(shí)刻
什么?大模型也許很快就能生成《黑神話·悟空》這種3A大作了?!
直接看一則demo,《西游記》這就上桌:

搭配BGM,是不是有內(nèi)味兒了(doge)。
這就是騰訊近日推出的GameGen-O,一個(gè)專門生成開放世界視頻游戲的Transformer模型。
簡(jiǎn)單說(shuō),這個(gè)模型能夠模擬各種游戲引擎功能,生成游戲角色、動(dòng)態(tài)環(huán)境、復(fù)雜動(dòng)作等等。

當(dāng)然也支持交互控制,用戶可以通過(guò)文本、操作信號(hào)和視頻提示來(lái)控制游戲內(nèi)容。

消息一公布就在??(前推特)開啟了刷屏模式,網(wǎng)友們開始列隊(duì)尖叫:

游戲工作室Azra Games的聯(lián)創(chuàng)兼CTO更是直言:
GameGen-O將成為游戲工作室的ChatGPT時(shí)刻。

“游戲工作室迎來(lái)ChatGPT時(shí)刻”
具體來(lái)說(shuō),這個(gè)項(xiàng)目由騰訊光子工作室(曾打造出和平精英)聯(lián)合港科大、中國(guó)科大推出。

推測(cè)想要做的事兒,是用AI模型替代一些游戲開發(fā)環(huán)節(jié)。比如目前公布的游戲角色創(chuàng)建、游戲環(huán)境生成、動(dòng)作生成、事件生成以及各種交互控制。
下面我們挨個(gè)預(yù)覽一波~
現(xiàn)在,用GameGen-O就能直接生成各種角色了,西部牛仔、太空人、魔法師、警衛(wèi)……一鍵生成。

經(jīng)費(fèi)不足造成真實(shí)取景困難,也有plan B了!

給隊(duì)友展示騷操作,各種人稱視角的動(dòng)作生成也能輕松拿捏。

游戲必備環(huán)節(jié)——給玩家偶爾上億點(diǎn)難度,海嘯、龍卷風(fēng)、火災(zāi)事件這就安排(doge)。

與此同時(shí),GameGen-O也支持開放域生成,即不限風(fēng)格、環(huán)境、場(chǎng)景那種。

最后,用文本、操作信號(hào)和視頻提示就能實(shí)現(xiàn)交互,向左、向右、走向黎明……

好家伙,誰(shuí)都知道游戲開發(fā)有多燒錢,這下,普通玩家也能用GameGen-O制作游戲了。
一位AI架構(gòu)師網(wǎng)友更是斷言:

用GPT-4o標(biāo)注數(shù)據(jù)
為了開發(fā)這個(gè)模型,團(tuán)隊(duì)自述主要進(jìn)行了兩項(xiàng)工作:
- 構(gòu)建專有數(shù)據(jù)集OGameData,采用GPT-4o標(biāo)注數(shù)據(jù)
- 經(jīng)歷兩個(gè)階段的訓(xùn)練過(guò)程
具體來(lái)說(shuō),團(tuán)隊(duì)首先提出了一個(gè)數(shù)據(jù)集構(gòu)建管道。

團(tuán)隊(duì)從互聯(lián)網(wǎng)上收集了32,000個(gè)原始視頻,這些視頻來(lái)自數(shù)百款開放世界游戲,時(shí)長(zhǎng)從幾分鐘到幾小時(shí)不等,類型包括角色扮演、第一人稱射擊、賽車、動(dòng)作益智游戲等。
然后由人類專家對(duì)這些視頻進(jìn)行識(shí)別和篩選,最終得到大約15,000個(gè)可用視頻。
下一步,將篩選后的視頻通過(guò)場(chǎng)景檢測(cè)技術(shù)切割成片段,并對(duì)這些視頻片段進(jìn)行基于美學(xué)、光流和語(yǔ)義內(nèi)容的嚴(yán)格排序和過(guò)濾。
接下來(lái)使用GPT-4o對(duì)超過(guò)4,000小時(shí)的高質(zhì)量視頻片段進(jìn)行細(xì)致的注釋,這些片段的分辨率從720p到4k不等。
為了實(shí)現(xiàn)交互控制性,團(tuán)隊(duì)從注釋后的數(shù)據(jù)集中選擇最高質(zhì)量的片段,并進(jìn)行解耦標(biāo)簽(decoupled labeling)。
這種標(biāo)簽設(shè)計(jì)用于描述片段內(nèi)容狀態(tài)的變化,確保訓(xùn)練模型的數(shù)據(jù)集更加精細(xì)和互動(dòng)。
對(duì)于這種人類專家和GPT-4o一起工作的形式,有網(wǎng)友認(rèn)為:
這是遞歸自我改進(jìn)(recursive self-improvement)的一種形式。(人類專家確保了注釋的準(zhǔn)確性,并通過(guò)反饋機(jī)制幫助GPT-4o進(jìn)行自我改進(jìn))

完成數(shù)據(jù)準(zhǔn)備工作后,團(tuán)隊(duì)經(jīng)過(guò)基礎(chǔ)預(yù)訓(xùn)練+指令調(diào)整兩個(gè)過(guò)程來(lái)訓(xùn)練GameGen-O。

在基礎(chǔ)訓(xùn)練階段,GameGen-O模型使用了一個(gè)2+1D VAE(變分自編碼器,如Magvit-v2)來(lái)壓縮視頻片段。
為了使VAE適應(yīng)游戲領(lǐng)域,團(tuán)隊(duì)對(duì)VAE解碼器進(jìn)行了特定領(lǐng)域的調(diào)整。
團(tuán)隊(duì)采用了不同幀速率和分辨率的混合訓(xùn)練策略,以增強(qiáng)跨幀率和跨分辨率的泛化能力。
另外,模型的整體架構(gòu)遵循了Latte和OpenSora V1.2框架的原則。
通過(guò)使用掩碼注意力機(jī)制,讓GameGen-O具備了文本到視頻生成和視頻續(xù)集的雙重能力。
團(tuán)隊(duì)介紹稱:
這種訓(xùn)練方法,結(jié)合OGameData數(shù)據(jù)集,使得模型能夠穩(wěn)定且高質(zhì)量地生成開放領(lǐng)域的視頻游戲內(nèi)容,并為后續(xù)的交互控制能力奠定了基礎(chǔ)。
在這之后,預(yù)訓(xùn)練的模型被固定,然后使用可訓(xùn)練的InstructNet進(jìn)行微調(diào),這使得模型能夠根據(jù)多模態(tài)結(jié)構(gòu)指令生成后續(xù)幀。

InstructNet主要用于接受各種多模態(tài)輸入,包括結(jié)構(gòu)化文本、操作信號(hào)和視頻提示。
在InstructNet分支的調(diào)整過(guò)程中,當(dāng)前內(nèi)容被用作條件,從而在當(dāng)前片段內(nèi)容和未來(lái)片段內(nèi)容之間建立了映射關(guān)系,這在多模態(tài)控制信號(hào)下進(jìn)行。
造成的結(jié)果是,在推理時(shí),GameGen-O允許用戶基于當(dāng)前片段不斷生成和控制下一個(gè)生成的片段。
目前,GameGen-O已創(chuàng)建GitHub官方倉(cāng)庫(kù),只不過(guò)還沒來(lái)得及上傳代碼。

感興趣的童鞋可以先收藏一波了~
項(xiàng)目主頁(yè):
https://gamegen-o.github.io/
GitHub官方倉(cāng)庫(kù):
https://github.com/GameGen-O/GameGen-O/





















