AtomoVideo:AIGC賦能下的電商視頻動(dòng)效生成
1. 概述
當(dāng)今電商領(lǐng)域,內(nèi)容營銷的形式正日趨多樣化,視頻內(nèi)容以其生動(dòng)鮮明的視覺體驗(yàn)和迅捷高效的信息傳播能力,為商家創(chuàng)造了新的機(jī)遇。消費(fèi)者對(duì)視頻內(nèi)容的偏好驅(qū)動(dòng)了視頻創(chuàng)意供給的持續(xù)增長,視覺內(nèi)容作為連接消費(fèi)者和商品的橋梁,在廣告系統(tǒng)中正變得日益重要。
然而,與傳統(tǒng)的圖文內(nèi)容相比,視頻內(nèi)容的制作難度和成本都要高得多。制作一個(gè)高質(zhì)量的視頻需要專業(yè)的技能、設(shè)備以及時(shí)間,這使得成品的質(zhì)量層次不齊,且難以批量化生產(chǎn)。隨著人工智能和生成式內(nèi)容創(chuàng)造(AIGC)技術(shù)的進(jìn)步,使得通過智能化手段批量制作優(yōu)質(zhì)視頻創(chuàng)意成為可能,并且能夠?yàn)榭蛻魩盹@著價(jià)值。
近日,OpenAI Sora 的發(fā)布讓人們看到了視頻智能創(chuàng)作的曙光,如今各大團(tuán)隊(duì)也紛紛開始了“國產(chǎn)版 Sora”的探索之路,在 Sora 出現(xiàn)之前,阿里媽媽智能創(chuàng)作與AI應(yīng)用團(tuán)隊(duì)在視頻 AIGC 領(lǐng)域已有近一年的研究和探索,與業(yè)務(wù)相結(jié)合,我們孵化出了?? ??尺寸魔方??、商品視頻動(dòng)效生成等基于擴(kuò)散模型的視頻生成和編輯工具。本文將聚焦于商品視頻動(dòng)效生成,介紹我們?cè)谝曨l AIGC 應(yīng)用于視頻創(chuàng)意上的探索與實(shí)踐。
借助自研的AtomoVideo 視頻生成技術(shù)(中文:阿瞳木視頻,項(xiàng)目地址:https://atomo-video.github.io/),我們探索出了一種自動(dòng)化地將電商平臺(tái)上現(xiàn)有的圖片素材轉(zhuǎn)換為高質(zhì)量的視頻動(dòng)效的方法,并在萬相實(shí)驗(yàn)室、廣告投放平臺(tái)等場景進(jìn)行了落地和上線,服務(wù)于廣大阿里媽媽廣告客戶。
  | 
  | 
  | 
  | 
2. 核心技術(shù)
整個(gè)商品視頻動(dòng)效的生成過程面臨諸多挑戰(zhàn),尤其是在電商場景下,商品主體的細(xì)節(jié)是不允許被改變的,也是商家非常在意的基本準(zhǔn)則。因此,如何在保持商品外觀準(zhǔn)確性的同時(shí)進(jìn)行更加合理的動(dòng)效視頻生成,是非常值得探索的問題。我們?cè)诂F(xiàn)有T2V模型的基礎(chǔ)上,提出使用 Noise Rectification(無需訓(xùn)練的噪聲矯正器)來實(shí)現(xiàn)圖像到視頻的生成,為了進(jìn)一步提升視頻連貫性和保真度,進(jìn)而提出 AtomoVideo(阿瞳木視頻生成技術(shù)) 將基礎(chǔ)模型進(jìn)行升級(jí),賦能電商視頻動(dòng)效生成。
2.1 Noise Rectification: 無需訓(xùn)練的噪聲矯正器
文本到圖像生成(T2I)在過去一年取得了飛速的發(fā)展,諸多設(shè)計(jì)行業(yè)從業(yè)者、科技愛好者利用 Stable Diffusion WebUI、ComfyUI 等開源工具已經(jīng)可以生成攝影級(jí)圖像和實(shí)現(xiàn)商業(yè)級(jí)落地應(yīng)用。相比之下,受限于訓(xùn)練機(jī)器資源和數(shù)據(jù)集收集困難等挑戰(zhàn),視頻生成遠(yuǎn)沒有圖像生成領(lǐng)域發(fā)展迅速,近半年,隨著 Pika、Gen-2 等視頻編輯工具的出現(xiàn),社區(qū)中也涌現(xiàn)了許多文本到視頻生成(T2V)的工作,為了將此類 T2V 的工作遷移至我們的商品動(dòng)效生成中,我們提出了一種無需訓(xùn)練的噪聲矯正器(Noise Rectification),可以自然地實(shí)現(xiàn) T2V 到 I2V 的轉(zhuǎn)變。
具體來說,我們對(duì)給定圖片添加一定步數(shù)的噪聲,以此來模擬訓(xùn)練過程中的加噪過程,這樣我們便獲得了含有輸入圖像信息的噪聲先驗(yàn),在此基礎(chǔ)上進(jìn)行降噪即可保留一定輸入圖片的風(fēng)格等信息。然而,這種“墊圖”式 T2V 生成方式在電商領(lǐng)域?qū)o定圖片做動(dòng)效生成時(shí),會(huì)丟失大量原圖像中的細(xì)節(jié)信息,嚴(yán)重破壞原有圖片的美觀度。為此,我們專門設(shè)計(jì)了一個(gè)與“墊圖”生成可以完美配合的噪聲矯正器(Noise Rectification),噪聲矯正器流程圖如下所示:

Noise Rectification示意圖
考慮到模型訓(xùn)練無法達(dá)到完美損失,即模型預(yù)測(cè)噪聲總會(huì)存在偏差,從而導(dǎo)致視頻保真度的降低。為了緩解模型在 DDIM 去噪過程中的誤差累積(指實(shí)際添加的噪聲與每一步中模型預(yù)測(cè)的噪聲的差異),對(duì)于每一步模型預(yù)測(cè)的噪聲,我們利用初始采樣的噪聲,對(duì)其進(jìn)行“噪聲矯正”,即 通過計(jì)算預(yù)測(cè)噪聲和真實(shí)噪聲之間的差異,采樣加權(quán)的計(jì)算方式對(duì)預(yù)測(cè)的噪聲進(jìn)行適當(dāng)調(diào)整。通過這種設(shè)計(jì),我們的方案可以消除第一幀的噪聲誤差,使得第一幀達(dá)到完美保真,同時(shí)其余幀也會(huì)和第一幀保持時(shí)序內(nèi)容上的一致。本方案提出的“墊圖+噪聲矯正”策略,不需要引入額外的訓(xùn)練,直接作用于動(dòng)效模型的推理階段,即可提高圖生視頻的保真度。更多技術(shù)細(xì)節(jié)請(qǐng)參見我們的論文:
- Title:Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation
 - 鏈接:??https://arxiv.org/abs/2403.02827??
 - 項(xiàng)目主頁:??https://noise-rectification.github.io/???
 
使用該方案后的前后對(duì)比效果如下,能夠明顯看到動(dòng)效視頻與給定圖像一致性的提升,結(jié)合可控生成技術(shù),我們可以完美還原商品細(xì)節(jié)。但這種針對(duì) T2V 模型的噪聲校正策略在更多通用場景下會(huì)存在動(dòng)效幅度較小的缺點(diǎn),關(guān)于這一點(diǎn)的解決,我們將在下一章節(jié)進(jìn)行介紹我們的改進(jìn)。
輸入圖像  | 生成動(dòng)效(直接墊圖生成)  | 生成動(dòng)效(使用Noise Rectification生成)  | 
  | 
  | 
  | 
  | 
  | 
  | 
2.2 AtomoVideo:高保真度的I2V模型升級(jí)
在商品信息注入和噪聲矯正器的加持下,商品動(dòng)效生成已經(jīng)具備了不錯(cuò)的生成效果,我們也基于以上改進(jìn)在萬相實(shí)驗(yàn)室上線了動(dòng)效生成模塊的第一版,但由于所使用的基礎(chǔ)模型為 T2V 模型,并非適用于本任務(wù)的 I2V 模型,且生成時(shí)長僅有2s,在淘內(nèi)場景下使用受限。為此,我們專門研發(fā)了更適用于本任務(wù)的 I2V 基礎(chǔ)模型,稱為 AtomoVideo(中文:阿瞳木視頻),該模型對(duì)視頻的時(shí)序一致性和圖像保真度提升顯著,模型結(jié)構(gòu)框架圖如圖所示:

AtomoVideo 模型結(jié)構(gòu)圖
我們對(duì)模型做了如下幾個(gè)改進(jìn),包括優(yōu)質(zhì)數(shù)據(jù)集構(gòu)建、多粒度圖像注入、漸進(jìn)性動(dòng)作強(qiáng)度訓(xùn)練等。
1) 優(yōu)質(zhì)數(shù)據(jù)集構(gòu)建:收集內(nèi)部千萬規(guī)模的“文本-視頻”數(shù)據(jù)對(duì),利用美觀度、文本視覺相關(guān)性、主體檢測(cè)(過濾人物視頻)、動(dòng)效強(qiáng)度檢測(cè)等方式,清洗得到優(yōu)質(zhì)視頻數(shù)據(jù)子集,用于視頻生成模型訓(xùn)練。同時(shí)我們與設(shè)計(jì)師合作構(gòu)建了一個(gè)更加優(yōu)質(zhì)的數(shù)據(jù)集,匯集了大量在美觀度和動(dòng)效質(zhì)量上均表現(xiàn)出色的高清視頻。
2) 多粒度圖像注入:為增強(qiáng) I2V 生成的圖像保真度和時(shí)序一致性,我們使用了多粒度的圖像注入方法,在擴(kuò)散模型輸入側(cè)將圖像的low-level和high-level語義進(jìn)行輸入,在我們實(shí)驗(yàn)中,這可以在完美還原給定圖像保真度的同時(shí),增加生成視頻的時(shí)序一致性。
3) 訓(xùn)練方法:我們觀察到大多數(shù)其他工作(如Pika、Gen2等)很難生成動(dòng)作幅度大的視頻,還有一些工作在生成動(dòng)作幅度較大的視頻時(shí),穩(wěn)定性較差。為了克服這一點(diǎn),我們使用了漸進(jìn)性動(dòng)作強(qiáng)度增加的多階段訓(xùn)練方式,由低動(dòng)效視頻數(shù)據(jù)集開始,逐步增加至高動(dòng)效數(shù)據(jù)集進(jìn)行訓(xùn)練,我們發(fā)現(xiàn)這可以幫助模型在生成較大動(dòng)作幅度視頻的同時(shí),依然能夠維持較好的時(shí)序穩(wěn)定性。
經(jīng)過如上的改進(jìn)和大規(guī)模訓(xùn)練,我們將基礎(chǔ)模型升級(jí)為可產(chǎn)生4s,720P的視頻生成模型。更多相關(guān)細(xì)節(jié)可以閱讀我們的技術(shù)報(bào)告:
- Title:AtomoVideo: High Fidelity Image-to-Video Generation
 - 鏈接:??http://arxiv.org/abs/2403.01800??
 - 項(xiàng)目主頁:??https://atomo-video.github.io??
 
部分生成示例如下,更多示例可前往項(xiàng)目主頁瀏覽:
輸入圖片  | 輸入文本  | 輸出視頻  | 
  | Muppet walking down the street in a red shirt, cinematic.  | 
  | 
  | Flying through an intense battle between pirate ships in a stormy ocean.  | 
  | 
  | a singer of a music band  | 
  | 
此外,我們將I2V基礎(chǔ)模型的原始T2I模型部分進(jìn)行了參數(shù)固定,而僅對(duì)新增的時(shí)序建模層和輸入層進(jìn)行訓(xùn)練,因此,我們可以將社區(qū)廣泛使用的圖像 ControlNet 與 AtomoVideo 進(jìn)行結(jié)合,這也是我們相比于 SVD 等視頻開源模型的優(yōu)勢(shì)。結(jié)合 T2I 領(lǐng)域預(yù)訓(xùn)練好的 ControlNet,可以實(shí)現(xiàn)局部控制生成,以盡量還原商品細(xì)節(jié),當(dāng)前我們上線版本已全部切換為該模型。
2.3 動(dòng)效場景模板適配
由于輸入商品圖像的質(zhì)量一定程度會(huì)影響動(dòng)效生成的效果,有較多圖片中并未包含任何動(dòng)態(tài)元素,這種情況下,進(jìn)行圖像到視頻的轉(zhuǎn)換顯得比較困難,容易產(chǎn)出“偏靜態(tài)”的視頻。因此,基于以上考量,我們與設(shè)計(jì)師共建了視頻動(dòng)效場景模板,并針對(duì)每個(gè)不同的場景描述定制化了特殊的動(dòng)態(tài)描述。其中視頻動(dòng)效場景列表包含了諸如“山間云?!?、“海底世界”等動(dòng)態(tài)場景,同時(shí)在大促節(jié)日時(shí),會(huì)專門設(shè)計(jì)一批用于節(jié)日宣傳的動(dòng)態(tài)模板進(jìn)行投放(如下圖是在38大促期間設(shè)計(jì)的兩個(gè)動(dòng)效模板)。
場景模板名稱  | AIGC圖片  | 動(dòng)效視頻  | 
粉色煙花  | 
  | 
  | 
粉色世界  | 
  | 
  | 
3. 業(yè)務(wù)應(yīng)用
當(dāng)前,電商視頻動(dòng)效生成已經(jīng)在阿里媽媽-萬相實(shí)驗(yàn)室(https://agi.taobao.com)和廣告投放平臺(tái)進(jìn)行上線,支持廣告主在線生成視頻動(dòng)效。以下是生成的一些樣例:
輸入圖片  | 動(dòng)效視頻  | 
  | 
  | 
  | 
  | 
  | 
  | 
  | 
  | 
  | 
  | 
  | 
  | 
4. 總結(jié)與展望
近半年,AIGC 視頻生成技術(shù)取得了令人矚目的飛躍發(fā)展。隨著 GEN-2、PIKA 1.0、Sora 等視頻創(chuàng)作工具和模型的出現(xiàn),影視制作和多媒體設(shè)計(jì)等行業(yè)正迎來一場創(chuàng)造力的革新風(fēng)暴,這些技術(shù)正在推動(dòng)視頻內(nèi)容制作向著更高的逼真度和更強(qiáng)的可控性邁進(jìn)。本文介紹了我們團(tuán)隊(duì)在視頻 AIGC 賦能視頻廣告創(chuàng)意的探索和實(shí)踐,通過基于擴(kuò)散模型的視頻生成技術(shù),結(jié)合可控生成技術(shù),使得靜態(tài)電商圖片栩栩如生地“動(dòng)”了起來,實(shí)現(xiàn)了在電商領(lǐng)域的視頻 AIGC 應(yīng)用落地。
然而,目前的技術(shù)實(shí)現(xiàn)還遠(yuǎn)未觸及視頻生成的真正潛力,在視頻畫面的穩(wěn)定性、內(nèi)容創(chuàng)造的可控性以及視頻時(shí)長等關(guān)鍵要素上,仍有很大的進(jìn)步空間值得我們探索。Sora 的出現(xiàn)也讓我們看到了未來視頻創(chuàng)作工具大規(guī)模應(yīng)用的曙光,Diffusion Transformer、Scaling Up 等關(guān)鍵技術(shù)給了我們很多啟發(fā),在未來,希望不斷提升基礎(chǔ)模型生成效果的同時(shí),用視頻 AIGC 技術(shù)賦能更多業(yè)務(wù)場景。
本文轉(zhuǎn)載自?? 阿里媽媽技術(shù)??,作者:智能創(chuàng)作與AI應(yīng)用


















































