偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻

發(fā)布于 2025-7-28 01:03
瀏覽
0收藏

由約翰霍普金斯大學(xué)、字節(jié)跳動(dòng),斯坦福大學(xué)、香港中文大學(xué)聯(lián)合提出的 Captain Cinema旨在創(chuàng)作具有專業(yè)電影級(jí)品質(zhì)的多場(chǎng)景電影,同時(shí) 通過超長(zhǎng)上下文記憶保持角色和場(chǎng)景的一致性。你可以成為導(dǎo)演,用您的想法、場(chǎng)景和角色重新制作任何電影。

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

創(chuàng)建你自己的宇宙

Captain Cinema可以將故事線分支成截然不同的路徑,每條路徑都保持著內(nèi)在的一致性,同時(shí)又能探索不同的創(chuàng)意想象。

這部電影短片講述了布魯斯·韋恩、小丑和阿爾弗雷德·潘尼沃斯在宇宙中史詩(shī)般的星際之旅。根據(jù)敘事字幕,我們的模型首先渲染一致的關(guān)鍵幀場(chǎng)景,然后進(jìn)行交錯(cuò)條件視頻生成,最終輸出 一部具有卓越視覺一致性的無(wú)縫多場(chǎng)景影片。

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

一致、穩(wěn)健、流暢的電影生成

Captain Cinema將靜態(tài)生成和運(yùn)動(dòng)任務(wù)分開,使我們的視頻生成模型專注于運(yùn)動(dòng)合成,從而實(shí)現(xiàn)更一致、更穩(wěn)健、 更流暢的電影生成。

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

關(guān)鍵幀級(jí)創(chuàng)意控制

Captain Cinema配備強(qiáng)大的圖像編輯模型,將每個(gè)關(guān)鍵幀變成完全可編輯的畫布 - 讓您可以精確控制重新設(shè)計(jì)服裝、完善角色或 品牌物體,然后將這些編輯完美地傳播到整個(gè)鏡頭中。

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

論文名:Captain Cinema: Towards Short Movie Generation

相關(guān)鏈接

  • 論文:https://arxiv.org/pdf/2507.18634
  • 項(xiàng)目:https://thecinema.ai

論文介紹

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

Captain Cinema 是一個(gè)用于短片生成的生成框架。給定電影故事情節(jié)的詳細(xì)文本描述,該方法首先生成一系列關(guān)鍵幀,概述整個(gè)敘事,以確保故事情節(jié)和視覺外觀(例如場(chǎng)景和角色)的長(zhǎng)距離連貫性。論文將此步驟稱為自上而下的關(guān)鍵幀規(guī)劃。然后,這些關(guān)鍵幀作為支持長(zhǎng)上下文學(xué)習(xí)的視頻合成模型的調(diào)節(jié)信號(hào),以生成它們之間的時(shí)空動(dòng)態(tài)。此步驟稱為自下而上的視頻合成。為了支持穩(wěn)定高效地生成多場(chǎng)景長(zhǎng)篇敘事電影作品,論文引入了一種針對(duì)多模態(tài)擴(kuò)散變換器 (MM-DiT) 的交錯(cuò)訓(xùn)練策略,該策略專門針對(duì)長(zhǎng)上下文視頻數(shù)據(jù)進(jìn)行了調(diào)整。 模型在一個(gè)由交錯(cuò)數(shù)據(jù)對(duì)組成的專門策劃的電影數(shù)據(jù)集上進(jìn)行訓(xùn)練。實(shí)驗(yàn)表明,Captain Cinema 在高質(zhì)量、高效地自動(dòng)創(chuàng)作視覺連貫且敘事一致的短片方面表現(xiàn)出色。

方法概述

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

Captain Cinema:“我可以拍一整天!” Captain Cinema 將自上而下的交錯(cuò)關(guān)鍵幀規(guī)劃與自下而上的交錯(cuò)調(diào)節(jié)視頻生成連接起來,向首個(gè)多場(chǎng)景、整部電影的生成邁進(jìn)了一步,并在場(chǎng)景和身份識(shí)別方面保持了高度的視覺一致性。這里的所有電影幀都是生成的。

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

從整部電影中學(xué)習(xí)。這是一個(gè)從完整電影中處理的交錯(cuò)數(shù)據(jù)樣本。數(shù)據(jù)流水線提取了跨場(chǎng)景的結(jié)構(gòu)化敘事和視覺信息。每一幀都標(biāo)注了詳細(xì)的視覺描述,并標(biāo)注了電影中的主要<角色名稱>。

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

方法概述。 Captain Cinema 將自上而下和自下而上的交叉方法結(jié)合起來,實(shí)現(xiàn)單階段多場(chǎng)景電影生成。它引入了一種混合注意力掩蔽策略,并結(jié)合 GoldenMem 上下文壓縮,從而高效地學(xué)習(xí)和生成長(zhǎng)電影。GoldenMem 標(biāo)記的數(shù)量(指編碼圖像潛伏信息的短邊)是展示逆斐波那契下采樣的一個(gè)例子。

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

GoldenMem 壓縮了上下文長(zhǎng)度。 x 軸表示圖文對(duì)的數(shù)量,y 軸表示 token 總數(shù)。初始分辨率為 400×800(高×寬)。

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

面向語(yǔ)義的上下文檢索。在歷史上下文檢索方面,CLIP 文本轉(zhuǎn)圖像功能優(yōu)于 T5 文本轉(zhuǎn)文本功能。

實(shí)驗(yàn)結(jié)果

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

定性結(jié)果。從敘事提示“與布魯斯·韋恩、小丑和阿爾弗雷德·潘尼沃斯的星際之旅”出發(fā),Gemini 2.5 Pro 創(chuàng)作了鏡頭級(jí)描述,引導(dǎo)我們自上而下的關(guān)鍵幀生成器,最終生成如上所示的故事板面板。每個(gè)文本-關(guān)鍵幀對(duì)隨后會(huì)調(diào)節(jié)我們自下而上的視頻模型,該模型會(huì)合成完整的多場(chǎng)景影片。圖中突出顯示了 24 個(gè)代表性鏡頭,展現(xiàn)了整個(gè)制作過程中持續(xù)的敘事連貫性、人物保真度和視覺風(fēng)格。

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

定量評(píng)估與用戶研究。采用自動(dòng)指標(biāo)和平均人工排序 (AHR) 進(jìn)行評(píng)估。“一致性”表示主體和背景一致性的平均得分。*:大多數(shù)視頻片段的時(shí)間動(dòng)態(tài)性較低,但在 VBench 指標(biāo)上被評(píng)估為具有較高的時(shí)間一致性。

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

長(zhǎng)上下文壓力測(cè)試。 論文進(jìn)行了長(zhǎng)上下文壓力測(cè)試,以測(cè)試長(zhǎng)上下文生成的穩(wěn)健性。使用 Gemini 2.5 Flash 從多個(gè)方面評(píng)估生成質(zhì)量,并且使用 VBench 2.0 中引入的自動(dòng)身份一致性指標(biāo)。我們與 GoldenMem 的交錯(cuò)方法可以生成高質(zhì)量的長(zhǎng)上下文,并保持角色和場(chǎng)景的強(qiáng)一致性。

AI生成電影新革命!字節(jié)&港中文等提出Captain Cinema,當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

長(zhǎng)上下文壓力測(cè)試。盡管上下文長(zhǎng)度變得很長(zhǎng),但該方法即使在延長(zhǎng)的上下文長(zhǎng)度下仍然保持了良好的視覺一致性、高視覺質(zhì)量、多樣性和敘事連貫性。

結(jié)論

Captain Cinema模型是基于自上而下的交錯(cuò)關(guān)鍵幀規(guī)劃和自下而上的多關(guān)鍵幀條件化視頻合成,用于生成短片。利用 GoldenMem 壓縮視覺上下文、漸進(jìn)式長(zhǎng)上下文微調(diào)和動(dòng)態(tài)步幅采樣訓(xùn)練策略,該模型在保持全局?jǐn)⑹逻B貫性的同時(shí),還能在整個(gè)長(zhǎng)片中保留局部視覺保真度。Captain Cinema模型還展現(xiàn)了其在創(chuàng)意場(chǎng)景生成和跨電影角色交換方面的泛化能力。盡管存在上述局限性,但是Captain Cinema代表著朝著完全自動(dòng)化、故事驅(qū)動(dòng)的電影生成邁出的具體一步,并將啟發(fā)未來的電影研究。

本文轉(zhuǎn)載自??AIGC Studio??,作者:AIGC Studio 

標(biāo)簽
已于2025-7-28 10:08:36修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄