偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Stable Video Diffusion來了,代碼權(quán)重已上線

人工智能 新聞
本周二,基于 Stable Diffusion 的視頻生成模型 Stable Video Diffusion 來了,AI 社區(qū)馬上開始了熱議。

AI 畫圖的著名公司 Stability AI,終于入局 AI 生成視頻了。

本周二,基于 Stable Diffusion 的視頻生成模型 Stable Video Diffusion 來了,AI 社區(qū)馬上開始了熱議。

很多人都表示「我們終于等到了」。

圖片

項(xiàng)目地址:https://github.com/Stability-AI/generative-models

現(xiàn)在,你可以基于原有的靜止圖像來生成一段幾秒鐘的視頻。

基于 Stability AI 原有的 Stable Diffusion 文生圖模型,Stable Video Diffusion 成為了開源或已商業(yè)行列中為數(shù)不多的視頻生成模型之一。

圖片

圖片

但目前還不是所有人都可以使用,Stable Video Diffusion 已經(jīng)開放了用戶候補(bǔ)名單注冊(https://stability.ai/contact)。

據(jù)介紹,Stable Video Diffusion 可以輕松適應(yīng)各種下游任務(wù),包括通過對多視圖數(shù)據(jù)集進(jìn)行微調(diào)從單個(gè)圖像進(jìn)行多視圖合成。Stability AI 表示,正在計(jì)劃建立和擴(kuò)展這個(gè)基礎(chǔ)的各種模型,類似于圍繞 stable diffusion 建立的生態(tài)系統(tǒng)。

圖片

圖片

Stable Video Diffusion 以兩種圖像到視頻模型的形式發(fā)布,能夠以每秒 3 到 30 幀之間的可定制幀速率生成 14 和 25 幀的視頻。

在外部評估中,Stability AI 證實(shí)這些模型超越了用戶偏好研究中領(lǐng)先的閉源模型:

圖片

Stability AI 強(qiáng)調(diào),Stable Video Diffusion 現(xiàn)階段不適用于現(xiàn)實(shí)世界或直接的商業(yè)應(yīng)用,后續(xù)將根據(jù)用戶對安全和質(zhì)量的見解和反饋完善該模型。

圖片

論文地址:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

Stable Video Diffusion 是 Stability AI 各式各樣的開源模型大家族中的一員?,F(xiàn)在看來,他們的產(chǎn)品已經(jīng)橫跨圖像、語言、音頻、三維和代碼等多種模態(tài),這是他們致力于提升 AI 最好的證明。

Stable Video Diffusion 的技術(shù)層面

Stable Video Diffusion 作為一種高分辨率的視頻潛在擴(kuò)散模型,達(dá)到了文本到視頻或圖像到視頻的 SOTA 水平。近期,通過插入時(shí)間層并在小型高質(zhì)量視頻數(shù)據(jù)集上進(jìn)行微調(diào),為 2D 圖像合成訓(xùn)練的潛在擴(kuò)散模型已轉(zhuǎn)變?yōu)樯梢曨l模型。然而,文獻(xiàn)中的訓(xùn)練方法千差萬別,該領(lǐng)域尚未就視頻數(shù)據(jù)整理的統(tǒng)一策略達(dá)成一致。

在 Stable Video Diffusion 的論文中,Stability AI 確定并評估了成功訓(xùn)練視頻潛在擴(kuò)散模型的三個(gè)不同階段:文本到圖像預(yù)訓(xùn)練、視頻預(yù)訓(xùn)練和高質(zhì)量視頻微調(diào)。他們還證明了精心準(zhǔn)備的預(yù)訓(xùn)練數(shù)據(jù)集對于生成高質(zhì)量視頻的重要性,并介紹了訓(xùn)練出一個(gè)強(qiáng)大基礎(chǔ)模型的系統(tǒng)化策劃流程,其中包括了字幕和過濾策略。

Stability AI 在論文中還探討了在高質(zhì)量數(shù)據(jù)上對基礎(chǔ)模型進(jìn)行微調(diào)的影響,并訓(xùn)練出一個(gè)可與閉源視頻生成相媲美的文本到視頻模型。該模型為下游任務(wù)提供了強(qiáng)大的運(yùn)動表征,例如圖像到視頻的生成以及對攝像機(jī)運(yùn)動特定的 LoRA 模塊的適應(yīng)性。除此之外,該模型還能夠提供強(qiáng)大的多視圖 3D 先驗(yàn),這可以作為多視圖擴(kuò)散模型的基礎(chǔ),模型以前饋方式生成對象的多個(gè)視圖,只需要較小的算力需求,性能還優(yōu)于基于圖像的方法。

圖片

具體而言,成功訓(xùn)練該模型包括以下三個(gè)階段:

階段一:圖像預(yù)訓(xùn)練。本文將圖像預(yù)訓(xùn)練視為訓(xùn)練 pipeline 的第一階段,并將初始模型建立在 Stable Diffusion 2.1 的基礎(chǔ)上,這樣一來為視頻模型配備了強(qiáng)大的視覺表示。為了分析圖像預(yù)訓(xùn)練的效果,本文還訓(xùn)練并比較了兩個(gè)相同的視頻模型。圖 3a 結(jié)果表明,圖像預(yù)訓(xùn)練模型在質(zhì)量和提示跟蹤方面都更受青睞。

階段 2:視頻預(yù)訓(xùn)練數(shù)據(jù)集。本文依靠人類偏好作為信號來創(chuàng)建合適的預(yù)訓(xùn)練數(shù)據(jù)集。本文創(chuàng)建的數(shù)據(jù)集為 LVD(Large Video Dataset ),由 580M 對帶注釋的視頻片段組成。

進(jìn)一步的研究表明生成的數(shù)據(jù)集包含可能會降低最終視頻模型性能的示例。因此,本文還采用了密集光流來注釋數(shù)據(jù)集。

此外,本文還應(yīng)用光學(xué)字符識別來清除包含大量文本的剪輯。最后,本文使用 CLIP 嵌入來注釋每個(gè)剪輯的第一幀、中間幀和最后一幀。下表提供了 LVD 數(shù)據(jù)集的一些統(tǒng)計(jì)信息:

階段 3:高質(zhì)量微調(diào)。為了分析視頻預(yù)訓(xùn)練對最后階段的影響,本文對三個(gè)模型進(jìn)行了微調(diào),這些模型僅在初始化方面有所不同。圖 4e 為結(jié)果。

圖片

看起來這是個(gè)好的開始。什么時(shí)候,我們能用 AI 直接生成一部電影呢?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-11-22 17:34:37

2023-01-10 16:08:04

人工智能擴(kuò)散模型

2024-09-14 14:09:40

2023-07-14 13:34:34

StableDiffusion模型

2023-05-26 15:53:48

MidjourneyAI圖像

2023-04-24 09:28:53

2023-06-12 10:25:45

模型訓(xùn)練

2022-12-23 15:46:14

AI開源

2021-07-19 22:31:39

微信微信客服移動應(yīng)用

2024-12-06 10:21:04

2019-05-14 09:53:31

代碼開發(fā)工具

2024-03-25 00:25:00

2024-06-13 17:45:16

2023-02-10 21:12:41

GPUmacOSStable

2024-03-20 15:51:00

AI數(shù)據(jù)

2023-03-06 12:35:45

AI大腦畫面圖像

2022-10-20 16:04:26

模型質(zhì)量

2023-04-20 17:47:57

模型開源

2024-03-06 23:23:36

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號