偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<optgroup id="nldio"><th id="nldio"></th></optgroup>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻

發(fā)布于 2025-7-28 01:03

瀏覽

0收藏

由約翰霍普金斯大學(xué)、字節(jié)跳動(dòng)，斯坦福大學(xué)、香港中文大學(xué)聯(lián)合提出的 Captain Cinema旨在創(chuàng)作具有專業(yè)電影級(jí)品質(zhì)的多場(chǎng)景電影，同時(shí) 通過超長(zhǎng)上下文記憶保持角色和場(chǎng)景的一致性。你可以成為導(dǎo)演，用您的想法、場(chǎng)景和角色重新制作任何電影。

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

創(chuàng)建你自己的宇宙

Captain Cinema可以將故事線分支成截然不同的路徑，每條路徑都保持著內(nèi)在的一致性，同時(shí)又能探索不同的創(chuàng)意想象。

這部電影短片講述了布魯斯·韋恩、小丑和阿爾弗雷德·潘尼沃斯在宇宙中史詩(shī)般的星際之旅。根據(jù)敘事字幕，我們的模型首先渲染一致的關(guān)鍵幀場(chǎng)景，然后進(jìn)行交錯(cuò)條件視頻生成，最終輸出一部具有卓越視覺一致性的無(wú)縫多場(chǎng)景影片。

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

一致、穩(wěn)健、流暢的電影生成

Captain Cinema將靜態(tài)生成和運(yùn)動(dòng)任務(wù)分開，使我們的視頻生成模型專注于運(yùn)動(dòng)合成，從而實(shí)現(xiàn)更一致、更穩(wěn)健、更流暢的電影生成。

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

關(guān)鍵幀級(jí)創(chuàng)意控制

Captain Cinema配備強(qiáng)大的圖像編輯模型，將每個(gè)關(guān)鍵幀變成完全可編輯的畫布 - 讓您可以精確控制重新設(shè)計(jì)服裝、完善角色或品牌物體，然后將這些編輯完美地傳播到整個(gè)鏡頭中。

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

論文名：Captain Cinema: Towards Short Movie Generation

相關(guān)鏈接

論文：https://arxiv.org/pdf/2507.18634
項(xiàng)目：https://thecinema.ai

論文介紹

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

Captain Cinema 是一個(gè)用于短片生成的生成框架。給定電影故事情節(jié)的詳細(xì)文本描述，該方法首先生成一系列關(guān)鍵幀，概述整個(gè)敘事，以確保故事情節(jié)和視覺外觀（例如場(chǎng)景和角色）的長(zhǎng)距離連貫性。論文將此步驟稱為自上而下的關(guān)鍵幀規(guī)劃。然后，這些關(guān)鍵幀作為支持長(zhǎng)上下文學(xué)習(xí)的視頻合成模型的調(diào)節(jié)信號(hào)，以生成它們之間的時(shí)空動(dòng)態(tài)。此步驟稱為自下而上的視頻合成。為了支持穩(wěn)定高效地生成多場(chǎng)景長(zhǎng)篇敘事電影作品，論文引入了一種針對(duì)多模態(tài)擴(kuò)散變換器 (MM-DiT) 的交錯(cuò)訓(xùn)練策略，該策略專門針對(duì)長(zhǎng)上下文視頻數(shù)據(jù)進(jìn)行了調(diào)整。模型在一個(gè)由交錯(cuò)數(shù)據(jù)對(duì)組成的專門策劃的電影數(shù)據(jù)集上進(jìn)行訓(xùn)練。實(shí)驗(yàn)表明，Captain Cinema 在高質(zhì)量、高效地自動(dòng)創(chuàng)作視覺連貫且敘事一致的短片方面表現(xiàn)出色。

方法概述

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

Captain Cinema：“我可以拍一整天！” Captain Cinema 將自上而下的交錯(cuò)關(guān)鍵幀規(guī)劃與自下而上的交錯(cuò)調(diào)節(jié)視頻生成連接起來，向首個(gè)多場(chǎng)景、整部電影的生成邁進(jìn)了一步，并在場(chǎng)景和身份識(shí)別方面保持了高度的視覺一致性。這里的所有電影幀都是生成的。

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

從整部電影中學(xué)習(xí)。這是一個(gè)從完整電影中處理的交錯(cuò)數(shù)據(jù)樣本。數(shù)據(jù)流水線提取了跨場(chǎng)景的結(jié)構(gòu)化敘事和視覺信息。每一幀都標(biāo)注了詳細(xì)的視覺描述，并標(biāo)注了電影中的主要<角色名稱>。

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

方法概述。 Captain Cinema 將自上而下和自下而上的交叉方法結(jié)合起來，實(shí)現(xiàn)單階段多場(chǎng)景電影生成。它引入了一種混合注意力掩蔽策略，并結(jié)合 GoldenMem 上下文壓縮，從而高效地學(xué)習(xí)和生成長(zhǎng)電影。GoldenMem 標(biāo)記的數(shù)量（指編碼圖像潛伏信息的短邊）是展示逆斐波那契下采樣的一個(gè)例子。

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

GoldenMem 壓縮了上下文長(zhǎng)度。 x 軸表示圖文對(duì)的數(shù)量，y 軸表示 token 總數(shù)。初始分辨率為 400×800（高×寬）。

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

面向語(yǔ)義的上下文檢索。在歷史上下文檢索方面，CLIP 文本轉(zhuǎn)圖像功能優(yōu)于 T5 文本轉(zhuǎn)文本功能。

實(shí)驗(yàn)結(jié)果

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

定性結(jié)果。從敘事提示“與布魯斯·韋恩、小丑和阿爾弗雷德·潘尼沃斯的星際之旅”出發(fā)，Gemini 2.5 Pro 創(chuàng)作了鏡頭級(jí)描述，引導(dǎo)我們自上而下的關(guān)鍵幀生成器，最終生成如上所示的故事板面板。每個(gè)文本-關(guān)鍵幀對(duì)隨后會(huì)調(diào)節(jié)我們自下而上的視頻模型，該模型會(huì)合成完整的多場(chǎng)景影片。圖中突出顯示了 24 個(gè)代表性鏡頭，展現(xiàn)了整個(gè)制作過程中持續(xù)的敘事連貫性、人物保真度和視覺風(fēng)格。

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

定量評(píng)估與用戶研究。采用自動(dòng)指標(biāo)和平均人工排序 (AHR) 進(jìn)行評(píng)估。“一致性”表示主體和背景一致性的平均得分。*：大多數(shù)視頻片段的時(shí)間動(dòng)態(tài)性較低，但在 VBench 指標(biāo)上被評(píng)估為具有較高的時(shí)間一致性。

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

長(zhǎng)上下文壓力測(cè)試。 論文進(jìn)行了長(zhǎng)上下文壓力測(cè)試，以測(cè)試長(zhǎng)上下文生成的穩(wěn)健性。使用 Gemini 2.5 Flash 從多個(gè)方面評(píng)估生成質(zhì)量，并且使用 VBench 2.0 中引入的自動(dòng)身份一致性指標(biāo)。我們與 GoldenMem 的交錯(cuò)方法可以生成高質(zhì)量的長(zhǎng)上下文，并保持角色和場(chǎng)景的強(qiáng)一致性。

AI生成電影新革命！字節(jié)&港中文等提出Captain Cinema，當(dāng)「無(wú)限記憶」打破〈盜夢(mèng)空間〉的第四面墻-AI.x社區(qū)

長(zhǎng)上下文壓力測(cè)試。盡管上下文長(zhǎng)度變得很長(zhǎng)，但該方法即使在延長(zhǎng)的上下文長(zhǎng)度下仍然保持了良好的視覺一致性、高視覺質(zhì)量、多樣性和敘事連貫性。

結(jié)論

Captain Cinema模型是基于自上而下的交錯(cuò)關(guān)鍵幀規(guī)劃和自下而上的多關(guān)鍵幀條件化視頻合成，用于生成短片。利用 GoldenMem 壓縮視覺上下文、漸進(jìn)式長(zhǎng)上下文微調(diào)和動(dòng)態(tài)步幅采樣訓(xùn)練策略，該模型在保持全局?jǐn)⑹逻B貫性的同時(shí)，還能在整個(gè)長(zhǎng)片中保留局部視覺保真度。Captain Cinema模型還展現(xiàn)了其在創(chuàng)意場(chǎng)景生成和跨電影角色交換方面的泛化能力。盡管存在上述局限性，但是Captain Cinema代表著朝著完全自動(dòng)化、故事驅(qū)動(dòng)的電影生成邁出的具體一步，并將啟發(fā)未來的電影研究。

本文轉(zhuǎn)載自??AIGC Studio??，作者：AIGC Studio

標(biāo)簽

已于2025-7-28 10:08:36修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

港中文提出CLongEval中文基準(zhǔn)測(cè)試集，準(zhǔn)確評(píng)估大模型長(zhǎng)上下文能力

zhangyannni ? 7160瀏覽 ? 0回復(fù)
革命新架構(gòu)掀翻Transformer！無(wú)限上下文處理，2萬(wàn)億token碾壓Llama 2

duhorse ? 3890瀏覽 ? 0回復(fù)
騰訊AI新研究打破長(zhǎng)文本生成模型限制，序列并行技術(shù)再突破

AI論文解讀 ? 8554瀏覽 ? 0回復(fù)
港大字節(jié)提出多模態(tài)大模型新范式，模擬人類先感知后認(rèn)知，精確定位圖中物體

Crystalcxt ? 3561瀏覽 ? 0回復(fù)
5秒完成3D生成，真香合成數(shù)據(jù)集已開源，上交港中文新框架超越Instant3D

Crystalcxt ? 4427瀏覽 ? 0回復(fù)
海報(bào)生成如此簡(jiǎn)單！OPPO聯(lián)合港中文發(fā)布基于LLM的端到端方案GlyphDraw2

angel ? 4996瀏覽 ? 0回復(fù)
港中文等提出DreamDissector

angel ? 3724瀏覽 ? 0回復(fù)
超越DiffEdit、SDEdit等6大編輯模型！字節(jié)等提出人像服飾、卡通表情編輯新SOTA！

angel ? 3707瀏覽 ? 0回復(fù)
阿里巴巴提出CODEXGRAPH：打破大模型與代碼庫(kù)的壁壘，引領(lǐng)軟件工程新革命

AI論文解讀 ? 5759瀏覽 ? 0回復(fù)
精準(zhǔn)可控新視角視頻生成+場(chǎng)景級(jí)3D生成！北大&港中文&騰訊等開源ViewCrafter

angel ? 4350瀏覽 ? 0回復(fù)
多提示視頻生成最新SOTA！港中文&騰訊等發(fā)布DiTCtrl：基于MM-DiT架構(gòu)

angel ? 4341瀏覽 ? 0回復(fù)
港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

angel ? 3381瀏覽 ? 0回復(fù)
用戶可控的電影級(jí)圖像到視頻生成方法！港中文&Adobe發(fā)布MotionCanvas

angel ? 3742瀏覽 ? 0回復(fù)
從低清到4K的魔法：FlashVideo突破高分辨率視頻生成計(jì)算瓶頸(港大&港中文&字節(jié))

angel ? 3685瀏覽 ? 0回復(fù)
告別粗糙AI生成！BlobCtrl帶你玩轉(zhuǎn)元素級(jí)視覺編輯，效果炸裂！(北大&港中文&騰訊)

angel ? 2915瀏覽 ? 0回復(fù)
跨越千年的對(duì)話：用即夢(mèng)AI當(dāng)古人的嘴替搭子

AIGC新知 ? 1.2w瀏覽 ? 0回復(fù)
中文、日文、韓文等多種語(yǔ)言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語(yǔ)言壁壘

angel ? 4233瀏覽 ? 0回復(fù)
盜夢(mèng)空間級(jí)AI試衣！中山等發(fā)布OMFA：一鍵“脫衣”換裝，姿勢(shì)任意擺，告別展平圖！

zhangyannni ? 7132瀏覽 ? 0回復(fù)
視頻生成的下一站？港中文&字節(jié)開源VAP：用視頻作提示詞，性能新SoTA，比肩天價(jià)商用

zhangyannni ? 868瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

還在擔(dān)心不會(huì)寫提示詞？騰訊混元提出PromptEnhancer，可自動(dòng)進(jìn)行提示詞改寫生成高保真且風(fēng)格多樣圖像 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對(duì)話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

上一篇：南洋理工力作Sparc3D：開啟三維重建可微分優(yōu)化與高效生成新紀(jì)元

下一篇：開源多模態(tài)生成模型新標(biāo)桿！OmniGen2：支持視覺理解、文生圖、圖像編輯等任務(wù)，探索高級(jí)多模態(tài)生成！

社區(qū)精華內(nèi)容

目錄