偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型精華

發(fā)布于 2024-12-12 14:46

瀏覽

0收藏

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2412.01064
github鏈接：https://deepbrainai-research.github.io/float/

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

亮點(diǎn)直擊

FLOAT，這是一種基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型，利用了學(xué)習(xí)的運(yùn)動(dòng)隱空間，比基于像素的隱空間更高效和有效。
引入了一種簡(jiǎn)單而有效的基于Transformer的流向量場(chǎng)預(yù)測(cè)器，用于時(shí)間一致的運(yùn)動(dòng)隱空間采樣，這也使得語(yǔ)音驅(qū)動(dòng)的情感控制成為可能。
大量實(shí)驗(yàn)表明，與基于擴(kuò)散和非擴(kuò)散的方法相比，F(xiàn)LOAT達(dá)到了最先進(jìn)的性能。

總結(jié)速覽

解決的問(wèn)題

在基于擴(kuò)散的生成模型中，迭代采樣導(dǎo)致時(shí)間一致的視頻生成困難。
如何實(shí)現(xiàn)快速采樣以提高生成效率。
如何在音頻驅(qū)動(dòng)的頭像圖像動(dòng)畫(huà)中自然地融入情感和表現(xiàn)力豐富的動(dòng)作。

提出的方案

將生成建模從基于像素的隱空間轉(zhuǎn)移到學(xué)習(xí)的運(yùn)動(dòng)隱空間，以實(shí)現(xiàn)更高效的時(shí)間一致運(yùn)動(dòng)設(shè)計(jì)。
引入基于Transformer的向量場(chǎng)預(yù)測(cè)器，具有簡(jiǎn)單而有效的逐幀條件機(jī)制。

應(yīng)用的技術(shù)

流匹配生成模型，用于優(yōu)化運(yùn)動(dòng)隱空間的學(xué)習(xí)。
Transformer模型，用于預(yù)測(cè)流向量場(chǎng)，實(shí)現(xiàn)時(shí)間一致的運(yùn)動(dòng)采樣。
逐幀條件機(jī)制，確保時(shí)間一致性并支持語(yǔ)音驅(qū)動(dòng)的情感控制。

達(dá)到的效果

在視覺(jué)質(zhì)量上，生成的頭像更加逼真，表現(xiàn)力更豐富。
在運(yùn)動(dòng)保真度上，動(dòng)作更加自然流暢。
在效率上，相較于基于擴(kuò)散和非擴(kuò)散的方法，F(xiàn)LOAT具有更高的采樣速度和生成效率。
支持語(yǔ)音驅(qū)動(dòng)的情感增強(qiáng)，能夠自然地融入表現(xiàn)力豐富的動(dòng)作。

方法：音頻驅(qū)動(dòng)的說(shuō)話頭像的流程匹配

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

運(yùn)動(dòng)隱空間自動(dòng)編碼器

近期的說(shuō)話頭像方法利用了Stable Diffusion (SD) 的VAE，因?yàn)槠渚哂胸S富的基于像素的語(yǔ)義隱空間。然而，當(dāng)應(yīng)用于視頻生成任務(wù)時(shí)，這些方法常常難以生成時(shí)間一致的幀 [8, 29, 76, 89, 101]。因此，第一個(gè)目標(biāo)是為逼真的說(shuō)話頭像獲得良好的運(yùn)動(dòng)隱空間，能夠捕捉全局（例如頭部運(yùn)動(dòng)）和細(xì)粒度局部（例如面部表情、嘴部運(yùn)動(dòng)、瞳孔運(yùn)動(dòng)）動(dòng)態(tài)。為此，我們采用隱空間圖像動(dòng)畫(huà)器 (LIA) 作為我們的運(yùn)動(dòng)自動(dòng)編碼器，而不是使用SD的VAE。關(guān)鍵區(qū)別在于訓(xùn)練目標(biāo)：LIA被訓(xùn)練為從同一視頻片段中采樣的源圖像重建驅(qū)動(dòng)圖像，這要求隱空間編碼包含能夠捕捉時(shí)間上相鄰和遠(yuǎn)離的運(yùn)動(dòng)的隱式運(yùn)動(dòng)。

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

運(yùn)動(dòng)隱空間中的流匹配

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

語(yǔ)音驅(qū)動(dòng)的情感標(biāo)簽。 如何使說(shuō)話動(dòng)作更具表現(xiàn)力和自然性？在說(shuō)話過(guò)程中，人類通過(guò)聲音自然地反映出他們的情感，而這些情感會(huì)影響說(shuō)話的動(dòng)作。例如，一個(gè)悲傷說(shuō)話的人可能更傾向于搖頭并避免眼神接觸。這種由情感引發(fā)的非語(yǔ)言動(dòng)作對(duì)說(shuō)話者頭像的自然性有著重要影響。

現(xiàn)有的工作 [30, 81, 90] 使用圖像-情感配對(duì)數(shù)據(jù)或圖像驅(qū)動(dòng)的情感預(yù)測(cè)器 [63] 來(lái)生成情感感知的動(dòng)作。相比之下，我們結(jié)合了語(yǔ)音驅(qū)動(dòng)的情感，這是一種更直觀的音頻驅(qū)動(dòng)說(shuō)話者頭像的情感控制方式。具體來(lái)說(shuō)，我們利用一個(gè)預(yù)訓(xùn)練的語(yǔ)音情感預(yù)測(cè)器，它輸出七種不同情感的 softmax 概率：憤怒、厭惡、恐懼、快樂(lè)、中性、悲傷和驚訝，然后我們將其輸入到 FMT 中。

然而，由于人們?cè)谡f(shuō)話時(shí)并不總是表現(xiàn)出單一、明確的情感，僅憑音頻來(lái)判斷情感往往是模糊的。簡(jiǎn)單地引入語(yǔ)音驅(qū)動(dòng)的情感可能會(huì)使情感感知的動(dòng)作生成更加困難。為了解決這個(gè)問(wèn)題，我們?cè)谟?xùn)練階段將情感與其他驅(qū)動(dòng)條件一起注入，并在推理階段對(duì)其進(jìn)行修改。

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

我們擴(kuò)展了 CFV 到增量 CFV，以便分別調(diào)整音頻和情感，靈感來(lái)自 [3]：

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

采樣后，ODE 求解器接收估計(jì)的向量場(chǎng)，通過(guò)數(shù)值積分計(jì)算運(yùn)動(dòng)隱空間變量。我們通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，F(xiàn)LOAT 可以在大約 10 次函數(shù)評(píng)估（NFE）內(nèi)生成合理的運(yùn)動(dòng)。

最后，我們將源身份隱空間變量添加到生成的運(yùn)動(dòng)隱空間變量中，并使用運(yùn)動(dòng)隱空間變量解碼器將其解碼為視頻幀。

實(shí)驗(yàn)

數(shù)據(jù)集和預(yù)處理

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

經(jīng)過(guò)預(yù)處理后，對(duì)于 HDTF，我們使用了總計(jì) 11.3 小時(shí)的 240 個(gè)視頻，這些視頻包含 230 個(gè)不同的身份用于訓(xùn)練，并使用 78 個(gè)不同身份的視頻進(jìn)行測(cè)試，每個(gè)視頻長(zhǎng) 15 秒。對(duì)于 RAVDESS，我們使用 22 個(gè)身份的視頻進(jìn)行訓(xùn)練，剩余 2 個(gè)身份的視頻用于測(cè)試，每個(gè)視頻長(zhǎng) 3-4 秒，代表 14 種情感強(qiáng)度。請(qǐng)注意，兩個(gè)數(shù)據(jù)集中訓(xùn)練和測(cè)試的身份是不重疊的。

實(shí)現(xiàn)細(xì)節(jié)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

評(píng)估

指標(biāo)和基線。 為了評(píng)估圖像和視頻生成的質(zhì)量，我們測(cè)量了Fréchet Inception Distance (FID) 和16幀的Fréchet Video Distance (FVD)。對(duì)于面部身份、表情和頭部運(yùn)動(dòng)，我們分別測(cè)量了身份embedding的余弦相似度 (CSIM)、表情FID (E-FID) 和姿態(tài)FID (P-FID)。最后，我們測(cè)量了音頻與視覺(jué)對(duì)齊的唇同步誤差距離和置信度 (LSE-D 和 LSE-C)。

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

我們將我們的方法與當(dāng)前最先進(jìn)的語(yǔ)音驅(qū)動(dòng)說(shuō)話者頭像方法進(jìn)行比較，這些方法的官方實(shí)現(xiàn)是公開(kāi)可用的。對(duì)于非擴(kuò)散方法，我們與SadTalker和EDTalk進(jìn)行比較。對(duì)于擴(kuò)散方法，我們與AniTalker、Hallo和EchoMimic進(jìn)行比較。

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

比較結(jié)果。在上表1和上圖4中，我們分別展示了定量和定性的比較結(jié)果。FLOAT在大多數(shù)指標(biāo)和視覺(jué)質(zhì)量上都優(yōu)于兩個(gè)數(shù)據(jù)集中的其他方法。

消融研究

關(guān)于FMT和流匹配的消融研究。 我們將使用逐幀AdaLN（和門(mén)控）并通過(guò)掩碼自注意力將條件分離與注意力分開(kāi)的FMT，與同時(shí)執(zhí)行條件和注意力的基于交叉注意力的Transformer進(jìn)行比較。如下表2所示，這兩種方法都在圖像和視頻質(zhì)量上表現(xiàn)出競(jìng)爭(zhēng)力，而FMT在表情生成和唇同步方面表現(xiàn)更佳。

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

對(duì)NFE的消融研究。 一般來(lái)說(shuō)，增加函數(shù)評(píng)估次數(shù)（NFE）可以減少ODE的解誤差。如下表3所示，即使在NFE=2較小的情況下，F(xiàn)LOAT也能實(shí)現(xiàn)有競(jìng)爭(zhēng)力的圖像質(zhì)量（FID）和唇同步（LSE-D）。然而，它在捕捉一致且富有表現(xiàn)力的動(dòng)作（FVD和E-FID）方面表現(xiàn)不佳，導(dǎo)致頭部動(dòng)作不穩(wěn)和表情靜態(tài)。這是因?yàn)镕LOAT在隱空間中生成動(dòng)作，而圖像保真度由自動(dòng)編碼器決定。

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

進(jìn)一步的研究

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

值得注意的是，引入姿態(tài)參數(shù)顯著改善了圖像和視頻指標(biāo)。這是因?yàn)轵?qū)動(dòng)的頭部姿態(tài)有助于捕捉目標(biāo)分布的頭部姿態(tài)。此外，語(yǔ)音驅(qū)動(dòng)的情感和圖像驅(qū)動(dòng)的情感都一致地提高了在情感密集數(shù)據(jù)集中生成的動(dòng)作質(zhì)量，其中圖像驅(qū)動(dòng)的情感取得了略好一些的指標(biāo)。這是因?yàn)榕c語(yǔ)音驅(qū)動(dòng)的方法相比，圖像驅(qū)動(dòng)的方法稍微不那么模糊。

重定向語(yǔ)音驅(qū)動(dòng)的情感。 由于 FLOAT 是在情感密集型視頻數(shù)據(jù)集上訓(xùn)練的，我們可以通過(guò)手動(dòng)將預(yù)測(cè)的情感標(biāo)簽重定向?yàn)榱硪环N（例如，一個(gè)獨(dú)熱標(biāo)簽），在推理時(shí)將生成的情感感知說(shuō)話動(dòng)作更改為不同的情感。如下圖7所示，當(dāng)從語(yǔ)音預(yù)測(cè)的情感復(fù)雜或模糊時(shí)，這可以實(shí)現(xiàn)手動(dòng)重定向。

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

用戶研究。 在下表 6 中，我們進(jìn)行了一項(xiàng)基于平均意見(jiàn)得分（MOS）的用戶研究，以比較每種方法的感知質(zhì)量（例如，牙齒清晰度和情感自然性）。我們使用基線和 FLOAT 生成了 6 個(gè)視頻，并請(qǐng) 15 名參與者根據(jù)五個(gè)評(píng)估因素對(duì)每個(gè)生成的視頻進(jìn)行 1 到 5 的評(píng)分。如下表 6 所示，F(xiàn)LOAT 優(yōu)于基線。

擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型-AI.x社區(qū)

結(jié)論

FLOAT，這是一種基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型，利用了學(xué)習(xí)到的運(yùn)動(dòng)隱空間。引入了一個(gè)基于transformer的矢量場(chǎng)預(yù)測(cè)器，實(shí)現(xiàn)了時(shí)間上一致的運(yùn)動(dòng)生成。此外，將語(yǔ)音驅(qū)動(dòng)的情感標(biāo)簽納入運(yùn)動(dòng)采樣過(guò)程，以提高音頻驅(qū)動(dòng)說(shuō)話動(dòng)作的自然性。FLOAT 通過(guò)流匹配減少采樣時(shí)間，同時(shí)實(shí)現(xiàn)了卓越的樣本質(zhì)量，解決了當(dāng)前基于擴(kuò)散的方法在生成說(shuō)話者頭像視頻時(shí)的核心限制。大量實(shí)驗(yàn)驗(yàn)證了 FLOAT 在視覺(jué)質(zhì)量、運(yùn)動(dòng)逼真度和效率方面達(dá)到了最新的性能。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/i0ysU0vnEcG0ZKiiCrjOBA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

出手就是SOTA！擴(kuò)散模型殺入部分監(jiān)督多任務(wù)預(yù)測(cè)領(lǐng)域！

angel ? 7237瀏覽 ? 0回復(fù)
擊敗SDXL登頂SOTA | CoMat:端到端的擴(kuò)散模型微調(diào)策略

angel ? 5428瀏覽 ? 0回復(fù)
系統(tǒng)回顧生成式AI的發(fā)展：GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列

angel ? 5794瀏覽 ? 0回復(fù)
加速擴(kuò)散模型，最快1步生成SOTA級(jí)圖片，字節(jié)Hyper-SD開(kāi)源了

輕薄滴假象 ? 3794瀏覽 ? 0回復(fù)
基于擴(kuò)散模型的，開(kāi)源世界模型DIAMOND

Aceryt ? 4176瀏覽 ? 0回復(fù)
在圖像生成領(lǐng)域，自回歸可以打敗擴(kuò)散模型嗎？

angel ? 4988瀏覽 ? 0回復(fù)
像藝術(shù)家一樣畫(huà)畫(huà)：通過(guò)構(gòu)圖、繪畫(huà)和潤(rùn)色用擴(kuò)散模型生成復(fù)雜場(chǎng)景

angel ? 3629瀏覽 ? 0回復(fù)
Lumina-T2X: 一款集成圖像、視頻、音頻和3D生成的多模態(tài)擴(kuò)散模型

sword_hero ? 4211瀏覽 ? 0回復(fù)
一文回顧生成式AI的發(fā)展：GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列

angel ? 5313瀏覽 ? 0回復(fù)
首次超越擴(kuò)散模型和非自回歸Transformer模型！字節(jié)開(kāi)源RAR：自回歸生成最新SOTA！

angel ? 3780瀏覽 ? 0回復(fù)
人物造型動(dòng)畫(huà)生成最新SOTA！階躍星辰等提出MikuDance：混合運(yùn)動(dòng)建模和混合控制擴(kuò)散

angel ? 4632瀏覽 ? 0回復(fù)
文生圖擊敗所有擴(kuò)散SOTA方案！智源研究院等提出NOVA：邁向統(tǒng)一的多任務(wù)大模型

angel ? 3654瀏覽 ? 0回復(fù)
PartGen：基于多視圖擴(kuò)散模型的多模態(tài)部件級(jí)3D生成和重建！

angel ? 3602瀏覽 ? 0回復(fù)
基于 Gemini AI 實(shí)現(xiàn)音頻和視頻解析

丟翅膀的魚(yú) ? 5269瀏覽 ? 0回復(fù)
僅128個(gè)token達(dá)到ImageNet生成SOTA性能！MAETok:有效的擴(kuò)散模型的關(guān)鍵是什么？(卡內(nèi)基梅隆&港大等)

angel ? 3496瀏覽 ? 0回復(fù)
有望重新定義語(yǔ)言生成技術(shù)的擴(kuò)散模型——LLaDA?

51CTO內(nèi)容精選 ? 3415瀏覽 ? 0回復(fù)
6秒音頻即可克隆AI語(yǔ)音！FLOAT數(shù)字人生成語(yǔ)音/口型/表情，情感同步超驚艷，文中附工作流

AIGCStudio ? 2622瀏覽 ? 0回復(fù)
FlowRL：基于流平衡的大語(yǔ)言模型推理獎(jiǎng)勵(lì)分布匹配方法

頓數(shù)AI ? 1948瀏覽 ? 0回復(fù)
視頻生成模型中的零樣本學(xué)習(xí)和推理能力；視頻生成和編輯統(tǒng)一框架；掩碼擴(kuò)散模型，圖片理解生成一體；物理驅(qū)

AI研究前瞻 ? 2960瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開(kāi)源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測(cè)未來(lái)畫(huà)面？ 2025-05-22 09:33:05發(fā)布

熱門(mén)推薦

別再怪AI“聽(tīng)不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開(kāi)發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對(duì)話中的問(wèn)題改寫(xiě)(優(yōu)化)方法—使用歷史記錄改寫(xiě)問(wèn)題 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇：比Janus更強(qiáng)！15M數(shù)據(jù)實(shí)現(xiàn)顛覆性統(tǒng)一多模態(tài)大模型！華為諾亞提出ILLUME

下一篇：首次實(shí)現(xiàn)8K圖像生成！FreeScale讓擴(kuò)散模型解鎖更高分辨率！

社區(qū)精華內(nèi)容

目錄

<var id="k30sj"></var>
<button id="k30sj"></button>

<samp id="k30sj"></samp>

<em id="k30sj"></em>