偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="ycadd"></ruby>

<samp id="ycadd"></samp>

<blockquote id="ycadd"></blockquote>

^{<em id="ycadd"></em>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架

發(fā)布于 2024-8-26 10:10

瀏覽

0收藏

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2408.11788

亮點直擊

多agent協(xié)作與關(guān)鍵幀迭代：提出了DreamFactory框架，模擬AI虛擬電影制作團隊，利用多agent協(xié)作進(jìn)行腳本編寫、角色設(shè)計等，并引入關(guān)鍵幀迭代設(shè)計方法以保持視頻段落的一致性。
監(jiān)控機制與圖像數(shù)據(jù)庫：通過引入監(jiān)控角色和集成圖像向量數(shù)據(jù)庫，確保了長視頻生成過程中的圖像一致性和穩(wěn)定性。
優(yōu)異的評估結(jié)果：在UTF-101和HMDB51數(shù)據(jù)集上測試，DreamFactory生成的視頻在質(zhì)量上顯著優(yōu)于傳統(tǒng)方法，同時超越了網(wǎng)絡(luò)上現(xiàn)有AI生成短視頻的平均質(zhì)量。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

目前的視頻生成模型在創(chuàng)建短小、逼真的片段方面表現(xiàn)出色，但在生成較長的多場景視頻時存在困難。本文介紹了DreamFactory，這是一種基于大語言模型（LLM）的框架，旨在解決這一挑戰(zhàn)。DreamFactory利用了多智能體協(xié)作的原則，并采用關(guān)鍵幀迭代設(shè)計方法，確保長視頻中的一致性和風(fēng)格。它使用了鏈?zhǔn)剿季S（COT）來解決大語言模型中固有的不確定性問題。DreamFactory能夠生成長度較長、風(fēng)格一致且復(fù)雜的視頻。對這些長視頻的評估也是一個挑戰(zhàn)。同時提出了新的指標(biāo)，如跨場景人臉距離評分和跨場景風(fēng)格一致性評分。為了進(jìn)一步推動這一領(lǐng)域的研究，本文貢獻(xiàn)了包含150多個經(jīng)過人工評分的視頻的多場景視頻數(shù)據(jù)集。DreamFactory為在視頻生成中利用多智能體系統(tǒng)開辟了道路。

DreamFactory

DreamFactory框架利用多個大語言模型（LLM）來構(gòu)建一個模擬的動畫公司，分配CEO、導(dǎo)演和創(chuàng)作者等角色。給定一個故事后，這些角色通過社交互動和合作來創(chuàng)建視頻。該框架使LLM能夠通過使用小型視頻生成模型作為工具來完成龐大的任務(wù)，從而模擬現(xiàn)實世界。

角色定義

在模擬動畫公司DreamFactory的架構(gòu)中，包含以下角色：CEO、電影導(dǎo)演、制片人、編劇、制片人和評論員。在DreamFactory框架內(nèi)，這些角色與現(xiàn)實世界中的相似，承擔(dān)確定電影風(fēng)格、編寫劇本和繪畫等職責(zé)。

角色定義提示主要包括三部分：職位、任務(wù)和要求。例如，電影創(chuàng)作者的定義提示包括以下內(nèi)容：（a）你是電影美術(shù)總監(jiān)。現(xiàn)在，都在Dream Factory工作……（b）你的工作是根據(jù)導(dǎo)演給出的場景生成圖片……以及（c）你必須遵守現(xiàn)實世界的規(guī)則，如顏色不變……。對于情節(jié)討論等任務(wù)，也限制其討論輪次不能超過特定數(shù)量（根據(jù)用戶的設(shè)置和公司的規(guī)模定義）。使用以下提示來確保這一點："你告訴我你的想法和故事，應(yīng)該集思廣益并互相批評對方的想法。在討論超過5個想法后，任何一方都必須主動終止討論，選擇最佳風(fēng)格，并以一個單詞<INFO>回復(fù)，后跟最新的風(fēng)格決定，例如卡通風(fēng)格。"

在下圖3的面板（a）和（b）中，展示了角色被定義和啟動角色扮演的示意圖。整個公司的完整架構(gòu)在圖8中得到了全面介紹。對于每個角色，定義了一張角色卡片，包括：

1）角色名稱放在每張卡片的左上角；
2）角色所涉及的階段放在卡片的右上角；
3）在每張角色卡片上，展示了角色所參與的對話和協(xié)作角色；
4）在卡片的右側(cè)展示了角色的中間輸出；
5）最后，將對話之外的相應(yīng)文件或內(nèi)容放在卡片的底部。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

DreamFactory框架流程

本節(jié)介紹DreamFactory的具體流程。下圖2展示了主要階段并指出了哪些agent參與了對話。在深入探討整個流程之前，有必要首先概述其基本組成部分：階段和對話。如上圖3所示，階段代表一個完整的過程，它以一些文本或圖像內(nèi)容作為輸入。由GPT組成的agent通過角色扮演、討論和協(xié)作來處理這些輸入，最終產(chǎn)生一些輸出。對話是一個階段的基本單元，通常一個階段包含多輪對話。在固定的對話輪次之后，一個階段接近結(jié)束，此時DreamFactory會保存該階段生成的某些中間結(jié)論，這些結(jié)論是希望保留的。例如，在“風(fēng)格決策”階段，最終的結(jié)論將被保留。此外，在后續(xù)的階段中，DreamFactory將提供必要的前期成果，例如在后續(xù)設(shè)計關(guān)鍵幀時調(diào)用之前的風(fēng)格和腳本。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

最近發(fā)現(xiàn)，大語言模型的能力受限于有限的推理能力，就像在現(xiàn)實生活中，過于復(fù)雜的情況會導(dǎo)致粗心和混亂。因此，該框架在視頻領(lǐng)域的主要思想是將長視頻的創(chuàng)作分解為特定的階段，允許特定的大型模型扮演指定的角色，發(fā)揮其在分析具體問題上的強大能力。就像現(xiàn)實生活中的電影制作公司一樣，DreamFactory采用經(jīng)典的工作流程，從劇本創(chuàng)作開始，隨后是繪圖?？傮w而言，框架涵蓋了六個主要階段：任務(wù)定義、風(fēng)格決策、故事提示、腳本設(shè)計和關(guān)鍵幀設(shè)計。最后一個階段，即關(guān)鍵幀迭代設(shè)計的方法將在下一節(jié)介紹；此方法用于保持各階段生成圖像的一致性和連續(xù)性。在前四個階段中，角色是通過對話進(jìn)行的。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

關(guān)鍵幀迭代設(shè)計

在生成長視頻時，最具挑戰(zhàn)性的問題是視頻由一系列長序列的圖像集合組成。因此，在生成時，模型需要保持長期一致的記憶，以確保模型生成的每一幀都能連貫地組成一致的視頻。這種記憶包括兩種類型：短期記憶知識和長期記憶系統(tǒng)。

短期記憶知識 嵌入在固定場景的視頻中。在相鄰幀之間，每一幀中的動畫應(yīng)保持連貫，角色應(yīng)統(tǒng)一，顏色、風(fēng)格等不應(yīng)有顯著變化。目前，最新的視頻模型在短期記憶方面表現(xiàn)非常好。然而，仍然添加了一個監(jiān)控器，以監(jiān)督視頻模型是否表現(xiàn)足夠出色。如下圖4所示，每一幀生成后都有一個審查過程。因此，為了保持短期一致性，引入的監(jiān)督機制解決了這個問題。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

長期記憶系統(tǒng) 則是困擾大多數(shù)當(dāng)前模型的挑戰(zhàn)，也是當(dāng)今視頻生成領(lǐng)域最緊迫的問題。特別是在基于GPT的全自動多智能體框架中，大語言模型固有的隨機性和漂移現(xiàn)象使得這一問題難以解決。長期記憶意味著在場景轉(zhuǎn)換之間，模型應(yīng)能夠保持繪圖風(fēng)格、角色連續(xù)性和敘事流程的一致性。為了維持長期記憶，引入了關(guān)鍵幀迭代設(shè)計方法，通過指導(dǎo)生成連續(xù)一致的圖像，將長期記憶轉(zhuǎn)化為短期記憶，并在每一步中迭代前進(jìn)生成。如上圖4所示，展示了每次迭代的過程。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

在實際應(yīng)用中，控制角色的細(xì)節(jié)是最具挑戰(zhàn)性的方面。因此，在研究者們精心修改的提示下，特別強調(diào)了在多次實驗中表現(xiàn)不佳的部分，關(guān)鍵幀迭代方法現(xiàn)在能夠生成非常一致且具有實際價值的一系列圖像。

實驗

傳統(tǒng)視頻質(zhì)量評估

評估指標(biāo) - 為了驗證關(guān)鍵幀的連續(xù)性和框架生成視頻的質(zhì)量，在架構(gòu)中嵌入了各種工具模型（如Runway、Diffusion、GPT）來評估由不同工具生成的視頻的質(zhì)量。在實驗中，主要采用了以下評估指標(biāo)：

(1) Fréchet Inception Distance (FID) 分?jǐn)?shù)：衡量生成圖像與真實圖像之間的相似性。

(2) Inception Score (IS)：評估生成圖像的質(zhì)量和多樣性。
(3) CLIP 分?jǐn)?shù)：評估生成圖像的文本描述準(zhǔn)確性。
(4) Fréchet Video Distance (FVD) 分?jǐn)?shù)：FID在視頻上的擴展，通過Fréchet距離比較真實視頻與合成視頻的特征分布。
(5) Kernel Video Distance (KVD)：利用核函數(shù)比較真實視頻與合成視頻的特征分布。

在常規(guī)階段，數(shù)據(jù)集包括由實驗人員從COCO數(shù)據(jù)集中隨機選擇的70個關(guān)鍵詞和簡短句子的常規(guī)提示。這被用于評估基本工具模型生成的圖像質(zhì)量以及圖像與文本之間的對齊程度。在腳本階段，腳本填充階段使用了從提供的數(shù)據(jù)集中隨機提取的70個任務(wù)相關(guān)的腳本。這引導(dǎo)了模型根據(jù)相關(guān)情節(jié)生成內(nèi)容，以評估DreamFactory框架中“動畫部門”的功能。DreamFactory標(biāo)簽表示框架生成的與腳本對應(yīng)的關(guān)鍵幀圖像。

輸出質(zhì)量統(tǒng)計 - 使用DALL·E和Diffusion等模型生成的圖像質(zhì)量較高，達(dá)到了各項指標(biāo)的最新水平。為了定量分析生成圖像的質(zhì)量，將與原始提示對應(yīng)的圖像輸入GPT以獲得GPT腳本，然后使用原始提示或GPT腳本作為提示生成1400張圖像，從中計算FID、IS和CLIP分?jǐn)?shù)。至于FVD和KVD，從多場景視頻數(shù)據(jù)集中選擇了100個樣本，并手動提取了每個樣本的10個關(guān)鍵幀，這些關(guān)鍵幀可用于生成多尺度視頻。

下表1中的數(shù)據(jù)表明，使用腳本生成的圖像質(zhì)量平均比使用普通提示詞生成的圖像更為精細(xì)。這可能歸因于GPT作為提示的有效性，并且當(dāng)代模型通常擅長處理較長的提示。然而，在DreamFactory框架中，關(guān)鍵幀迭代設(shè)計與故事板創(chuàng)建、角色詳細(xì)描述、場景設(shè)置、光照和風(fēng)格確定的結(jié)合應(yīng)用，顯著提高了圖像生成的質(zhì)量。下表2中也顯示出視頻質(zhì)量的類似提升。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

多場景視頻評估得分

跨場景面部距離得分 (Cross-Scene Face Distance Score, CSFD Score) - 在連續(xù)視頻的生成中，角色一致性是首要問題。角色外觀的不一致不僅會導(dǎo)致糟糕的視覺效果，還可能讓觀眾難以理解劇情和內(nèi)容。保持角色的一致性確保了圍繞角色展開的故事情節(jié)的連貫性，并增強了視頻的視覺吸引力。尤其是在長時長視頻領(lǐng)域，一個視頻通常由多個場景組成。這是一個前所未有的研究領(lǐng)域，迫切需要強有力的評估指標(biāo)來評估跨復(fù)雜多場景視頻中角色出現(xiàn)的一致性。在此背景下，實驗性地引入了跨場景面部距離得分（CSFD Score）的概念，旨在驗證不同場景中角色面部特征一致性的問題。在計算過程中，每個關(guān)鍵幀對應(yīng)一個面部，并使用dlib庫提取面部位置。通過面部識別庫可以計算相似度得分。對于每一幀的面部部分，可以計算其與后續(xù)所有幀的相似度，然后取平均值。通過這種方法，可以準(zhǔn)確地確定視頻中的面部是否一致。相關(guān)的示意圖和計算的偽代碼在下面算法1中提供。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

跨場景風(fēng)格一致性得分 (Cross-Scene Style Consistency Score, CSSC Score) - 在長視頻的制作中，保持風(fēng)格一致性同樣重要。一個一致的風(fēng)格使視頻看起來像一個連貫的整體?；谶@一概念，研究者們引入了跨場景風(fēng)格一致性得分（CSSC Score）。然而，目前還沒有成熟的方法來快速確定視頻的風(fēng)格，因此在這一階段，將依賴于大語言視覺模型的輔助。本質(zhì)上，將視頻分為幾類，包括：動畫、插畫、折紙、油畫、寫實主義、賽博朋克和水墨畫。

跨場景風(fēng)格 - 一致性分?jǐn)?shù)的計算方法如下：對于每個關(guān)鍵幀，使用由GPT-4V扮演的分類器來確定分類。一旦所有場景都被明確分為不同類別，計算最多數(shù)量類別的關(guān)鍵幀占總關(guān)鍵幀數(shù)的比例。下圖6展示了一個部分輸出，輸入為“現(xiàn)實生活中一位老人制作傳統(tǒng)的中國燈籠”。場景4展示了一個使用Dalle生成的動畫燈籠，由GPT-4V擔(dān)任分類器?？梢杂^察到，在四個場景中，前三個被歸類為寫實風(fēng)格，而第四個場景被分類為動漫風(fēng)格。因此，不同風(fēng)格的最大數(shù)量為三，導(dǎo)致跨場景風(fēng)格一致性分?jǐn)?shù)為75%。其他相關(guān)的示意圖和計算的偽代碼在算法2中提供。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

平均關(guān)鍵幀CLIP分?jǐn)?shù) - 在生成多場景的長視頻時，評估每個場景的關(guān)鍵幀與對應(yīng)文本的一致性至關(guān)重要。為確保一致性，它們?nèi)谌肓舜罅款~外信息，這可能在生成過程中導(dǎo)致與文本的偏差。這可能導(dǎo)致整體視頻未能遵循腳本。因此，本節(jié)提出了平均關(guān)鍵幀CLIP分?jǐn)?shù)，以確保關(guān)鍵幀場景與腳本的一致性。計算方法很簡單：計算每個關(guān)鍵幀相對于場景提示期間生成場景的CLIP分?jǐn)?shù)，并取平均值。

結(jié)果 - 在下表3中，本文的數(shù)據(jù)選擇包括來自多場景視頻數(shù)據(jù)集的70個以角色為中心的條目，這些條目由DreamFactory框架、GPT-4和DALL-E 3生成?；鶞?zhǔn)模型使用了DALL-E 3，并輸入了來自相同數(shù)據(jù)段的腳本。評估主要集中在以下三個指標(biāo)上：

（1）跨場景面部距離分?jǐn)?shù)（CSFD）
（2）跨場景風(fēng)格一致性分?jǐn)?shù)（CSSC）
（3）平均關(guān)鍵幀CLIP分?jǐn)?shù)。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

這些指標(biāo)用于評估框架內(nèi)面部特征的一致性、場景屬性的一致性以及框架生成的提示與敘事和圖像之間的對齊情況。

在跨場景人臉距離評分實驗中，使用了??face-recognition???庫中的面部定位方法，來定位68個面部標(biāo)志點，從而將肖像照片集中在面部區(qū)域。在圖像編碼階段，使用了來自??openai-clip??庫的ViT模型對面部區(qū)域進(jìn)行輸入，并計算向量表示。隨后，通過向量點積操作來確定最終的面部距離分?jǐn)?shù)。由于面部圖像之間的固有相似性，所有的分?jǐn)?shù)大多都在0.5以上。具體的參考面部匹配分?jǐn)?shù)對如下圖7所示。在對CSSC分?jǐn)?shù)和平均CLIP分?jǐn)?shù)的分析中，使用了相同的一組隨機選取的七十個樣本作為數(shù)據(jù)。CSSC分?jǐn)?shù)使用了GPT-4版本作為風(fēng)格分析器。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

結(jié)論

本文引入了DreamFactory：一個基于多agent的長視頻生成框架。DreamFactory將多agent的理念引入視頻生成領(lǐng)域，能夠生成一致、連貫且引人入勝的長視頻。DreamFactory引入了關(guān)鍵幀迭代設(shè)計方法，以確保不同幀之間風(fēng)格、角色和場景的一致性，并且可以基于任何圖像或視頻生成工具構(gòu)建。此外，DreamFactory還提出了新的評估指標(biāo)，通過跨場景面部和風(fēng)格一致性以及文本到視覺的對齊來驗證其能力。在測試集上，DreamFactory框架能夠?qū)崿F(xiàn)高度一致的連續(xù)故事生成，標(biāo)志著這一領(lǐng)域的重大突破。

本文轉(zhuǎn)自 AI生成未來，作者：Zhifei Xie等

原文鏈接:??https://mp.weixin.qq.com/s/U9VH7j6sc2vswFyqflk_sA??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

阿里巴巴AI研究團隊打破視頻生成技術(shù)壁壘，EasyAnimate實現(xiàn)高質(zhì)量長視頻生成

Syrupup ? 5846瀏覽 ? 0回復(fù)
長視頻生成速度提升100倍！新加坡國立提出Video-Infinity：分布式長視頻生成

angel ? 4785瀏覽 ? 0回復(fù)
ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝！ReCorD:交互場景生成最新SOTA！

angel ? 4216瀏覽 ? 0回復(fù)
360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA！

angel ? 3724瀏覽 ? 0回復(fù)
ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝！ReCorD:交互場景生成最新SOTA！

angel ? 3759瀏覽 ? 0回復(fù)
長視頻生成再突破！高質(zhì)量連貫達(dá)600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器

angel ? 3778瀏覽 ? 0回復(fù)
阿里商業(yè)級視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 3995瀏覽 ? 0回復(fù)
字節(jié)&上交&北大開源StoryTeller：生成一致性高的長視頻描述

angel ? 4112瀏覽 ? 0回復(fù)
從頻率到細(xì)節(jié)：ConsisID實現(xiàn)無縫身份一致的文本到視頻生成

angel ? 4915瀏覽 ? 0回復(fù)
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架

Halo咯咯 ? 5621瀏覽 ? 0回復(fù)
視頻編輯最新SOTA！港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

angel ? 3378瀏覽 ? 0回復(fù)
文本生成無限長視頻，無需任何訓(xùn)練

Aceryt ? 3434瀏覽 ? 0回復(fù)
AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒

angel ? 3493瀏覽 ? 0回復(fù)
長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效

AIPaperDaily ? 2865瀏覽 ? 0回復(fù)
AI視頻生成新突破！字節(jié)提出一致性視頻生成方法Phantom：通過跨模態(tài)對齊生成主題一致的視頻，超多應(yīng)用場景

AIGCStudio ? 1947瀏覽 ? 0回復(fù)
騰訊開源一致性視頻生成框架HunyuanCustom：可同時實現(xiàn)音頻同步與視頻編輯！

AIGCStudio ? 1660瀏覽 ? 0回復(fù)
ICCV 2025 | 視頻生成邁入“多段一致”新時代！TokensGen用“壓縮Token”玩轉(zhuǎn)長視頻生成

zhangyannni ? 2460瀏覽 ? 0回復(fù)
視頻生成模型中的零樣本學(xué)習(xí)和推理能力；視頻生成和編輯統(tǒng)一框架；掩碼擴散模型，圖片理解生成一體；物理驅(qū)

AI研究前瞻 ? 2907瀏覽 ? 0回復(fù)
AIGC 進(jìn)入「長劇情」時代！復(fù)旦&微軟開源StableAvatar: 首個端到端無限時長音頻驅(qū)動人物視頻生成新框架!

AIGCStudio ? 3466瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇：超越Text2Video-Zero｜無需額外訓(xùn)練，條件生成、專門生成和指令引導(dǎo)的視頻編輯全搞定！

下一篇： 400萬樣本，數(shù)據(jù)才是AIGC的王道！UltraEdit：基于指令的細(xì)粒度圖像編輯數(shù)據(jù)集

社區(qū)精華內(nèi)容

目錄

<u id="a57x0"></u>

<menuitem id="a57x0"><delect id="a57x0"></delect></menuitem>

<u id="a57x0"></u>