二次元專屬模型來了!B站開源首個(gè)動(dòng)漫專用生成模型Index-AniSora
昨天,B站宣布開源其最新的動(dòng)畫視頻生成模型——Index-AniSora,這是首個(gè)專為二次元風(fēng)格視頻生成打造的AI模型,支持一鍵生成多種動(dòng)漫風(fēng)格視頻,包括番劇、國創(chuàng)、漫改、鬼畜等。
B站團(tuán)隊(duì)提出了一種統(tǒng)一的框架,專為動(dòng)畫視頻生成設(shè)計(jì),包含時(shí)空掩碼模塊,能夠執(zhí)行圖像到視頻生成、幀插值和局部圖像引導(dǎo)動(dòng)畫等任務(wù)。
用戶僅需輸入一張靜態(tài)圖片或一段文字描述,模型即可通過“動(dòng)態(tài)拆解-重構(gòu)”流程,生成流暢且風(fēng)格統(tǒng)一的視頻。
在技術(shù)實(shí)現(xiàn)方面,B站的研究團(tuán)隊(duì)構(gòu)建了首個(gè)面向動(dòng)漫領(lǐng)域的高質(zhì)量獎(jiǎng)勵(lì)數(shù)據(jù)集,通過3萬條人工標(biāo)注數(shù)據(jù),從視覺平滑度、角色一致性等6大維度量化視頻質(zhì)量。
基于此,團(tuán)隊(duì)首創(chuàng)了AnimeReward評(píng)估系統(tǒng)——一個(gè)專為動(dòng)漫視頻生成對(duì)齊設(shè)計(jì)的多維度高可信獎(jiǎng)勵(lì)系統(tǒng)。并引入GAPO(差距感知偏好優(yōu)化)算法,強(qiáng)化模型的對(duì)齊性能,使得生成的動(dòng)畫視頻更貼近人類偏好。
B站這次放出了包含模型權(quán)重、訓(xùn)練代碼、數(shù)據(jù)集標(biāo)注規(guī)范在內(nèi)的全套工具鏈。
當(dāng)技術(shù)民主化的浪潮席卷二次元世界,我們或許正在見證一個(gè)新時(shí)代的黎明——在這個(gè)時(shí)代,每個(gè)人都能成為動(dòng)畫導(dǎo)演,每段故事都值得被完美呈現(xiàn)。
