偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

開源視頻生成天花板?最強攪局者Mochi 1免費直出電影級特效

人工智能 新聞
AI視頻生成領(lǐng)域最強攪局者,她來了!影視級效果免費開源,真「賽博菩薩」。

AI視頻生成賽道最強攪局者,來了!

何謂攪局?下面這些是模型直出的效果,開源免費送給你!

圖片

這也讓一些網(wǎng)友直呼:「賽博菩薩」!

圖片

雖然很想把標題寫成「劍指Sora」,但可惜這個標題小編我用過了~

而驀然回首,那驚世駭俗的Sora也已經(jīng)是很久之前的事情了。

今天,我們已經(jīng)可以通過親自與開源模型交互,來體驗當(dāng)初的震撼。

先來個高仿版世界名畫:

圖片

是不是直接夢回當(dāng)年?

圖片

這算是小編目前體驗過的最強開源文生視頻模型了。

圖片

開放權(quán)重:https://huggingface.co/genmo/mochi-1-preview

源代碼:https://github.com/genmoai/models

這個「賽博菩薩」名叫Mochi 1,來自Genmo,模型的研究預(yù)覽版已經(jīng)在hugging face開源(或通過磁力鏈接下載),Apache 2.0許可證,可免費用于個人和商業(yè)用途。

作為Genmo家最新的開源視頻生成模型,Mochi 1在運動質(zhì)量方面表現(xiàn)出色,并且具有極強的提示依從性。

除了開放權(quán)重之外,Genmo還在官網(wǎng)提供了免費試用Mochi 1的平臺:https://www.genmo.ai/play,完全免費,只不過限制每6小時生成2個視頻。

開玩!

神奇的魔法世界:

圖片

海上戰(zhàn)爭:

圖片

星際穿越:

圖片

月下美人:

圖片

開測

這些都是來自discover頁面的作品,有可能是網(wǎng)友做的,效果包不包真咱不知道,所以小編只好下場一試:

圖片

A Chinese female college student with fair skin, slim figure, and wearing a school uniform stood next to the bookshelf in the library, smiling and looking at the camera attentively. High resolution 4k.

直出的效果小編是比較滿意的,這里的動圖質(zhì)量有限,而且截圖工具過來有點偏色,還是推薦大家親自體驗,會有驚喜。

在上面的基礎(chǔ)上加一點細節(jié):

圖片

A Chinese female college student with fair skin, slender figure, and wearing a school uniform is standing next to the bookshelf in the library. She has shoulder-length black short hair, a high nose bridge, and a pointed chin. She is smiling and looking at the camera attentively. High resolution 4k.

雖然但是......還行吧,可能小編的提示詞功力還需修煉。

下面這張的效果最令小編驚喜,盡管有些瑕疵,但基本能上官圖了吧。

圖片

A young woman wearing a white shirt and navy blue dress on the beach at sunset. She was holding high heels in her hands and walking barefoot on the beach, her long silver hair fluttering in the sea breeze. The waves gently lap on the shore, creating a fresh and elegant atmosphere. 4K ultra-high definition, delicate and realistic style.

來看一下刻板印象(doge):

圖片

In the summer, a cute Japanese high school student is on campus. She was wearing a school uniform, a short skirt, white stockings and black leather shoes. She was carrying a black schoolbag, with her hands behind her back, smiling at the camera, with the University of Tokyo building behind her.

當(dāng)然肯定也有翻車的時候:

圖片

A cute girl walks on campus in summer. She was wearing her school uniform, short skirt, black stockings and boots, and was carrying a black school bag. She walks confidently and casually

翻車了嗎?微翻,翻的不多,也就40%

目前Genmo只發(fā)布了生成480p視頻的基礎(chǔ)版本,而更高級的Mochi 1 HD將于今年晚些時候推出。

另外模型的相關(guān)API也已經(jīng)發(fā)布,開發(fā)者可以將其無縫集成到自己的應(yīng)用程序中。

本地跑?

hugging face上的模型權(quán)重大小為40多G,根據(jù)官方的說法,需要4個H100才能運行。

——不過別擔(dān)心,既然敢開源,那么總有大神幫你解決問題:

圖片

地址:https://github.com/kijai/ComfyUI-MochiWrapper

Mochi 1已經(jīng)進入ComfyUI了,可以使用flash attention、pytorch attention(sdpa)或sage attention進行加速。

圖片

根據(jù)設(shè)置的幀數(shù),可以把生成過程限制在20GB內(nèi)存以下,作者還嘗試了CogVideoX -diffusers來挑戰(zhàn)更高的幀數(shù),目前做到了97幀。

Mochi 1模型架構(gòu)

Genmo表示自己要搞一個「人工智能的右腦」,而Mochi 1就是構(gòu)建可以想象任何東西的世界模擬器的第一步。

Mochi 1是基于新型的非對稱擴散Transformer(Asymmetric Diffusion Transformer,AsymmDiT) 架構(gòu)構(gòu)建的擴散模型。

參數(shù)量為100億,是有史以來開源的最大視頻生成模型。

Mochi 1是完全從頭開始訓(xùn)練的,同時提供了簡單、可以自由修改的架構(gòu)。

計算效率對于模型的發(fā)展至關(guān)重要。與Mochi一起開源的還有它的VAE編碼器。

VAE將視頻壓縮了128倍(包括空間壓縮和時間壓縮),轉(zhuǎn)化到12通道的潛在空間。

圖片

AsymmDiT通過簡化文本處理,并將神經(jīng)網(wǎng)絡(luò)能力集中在視覺推理上,有效地處理用戶提示和壓縮的視頻token。

AsymmDiT通過多模態(tài)自我注意共同關(guān)注文本和視覺token,并為每種模態(tài)學(xué)習(xí)單獨的MLP層,這類似于Stable Diffusion 3,所不同的是,這里的視覺流通過更大的隱藏維度(擁有幾乎是文本流的 4 倍的參數(shù))。

圖片

為了統(tǒng)一自我注意的模態(tài),研究人員使用非方形QKV和輸出投影層。這種非對稱設(shè)計降低了推理內(nèi)存要求。

許多現(xiàn)代擴散模型使用多個預(yù)訓(xùn)練語言模型來表示用戶提示。相比之下,Mochi 1只使用單個T5-XXL對提示進行編碼。

Mochi 1的上下文窗口高達44,520個視頻token,并具有完整的3D attention。

為了定位每個token,研究人員將可學(xué)習(xí)的旋轉(zhuǎn)位置嵌入(RoPE)擴展到3維,網(wǎng)絡(luò)端到端學(xué)習(xí)空間軸和時間軸的混合頻率。

其他的設(shè)計包括SwiGLU前饋層、用于增強穩(wěn)定性的query-key normalization,以及用于控制內(nèi)部激活的sandwich normalization。

詳細的技術(shù)論文將在不久之后發(fā)布。

評估

當(dāng)前的視頻生成模型與現(xiàn)實之間存在巨大差距。運動質(zhì)量和提示遵循是視頻生成模型中仍然缺少的兩個最關(guān)鍵的功能。

Mochi 1為開源視頻生成設(shè)定了新的標準,對比領(lǐng)先的封閉模型也表現(xiàn)出很強的競爭力:

提示依從性

提示依從性衡量生成的視頻遵循提供的文本說明的準確性,從而確保對用戶意圖的高度保真度。模型應(yīng)該允許用戶對字符、設(shè)置和操作進行詳細控制。

研究人員使用視覺語言模型作為裁判,遵循OpenAI DALL-E 3協(xié)議,使用自動指標對提示依從性進行基準測試。這里使用 Gemini-1.5-Pro-002評估生成的視頻。

圖片

Elo Score

運動質(zhì)量評估運動平滑度和空間真實感,確保生成的視頻流暢且具有視覺吸引力。

Mochi 1 以每秒30幀的速度生成流暢的視頻,持續(xù)時間長達5.4秒,具有高度的時間連貫性和逼真的運動動態(tài)。

Mochi模擬流體動力學(xué)、毛皮和頭發(fā)等物理特性,以及一致、流暢的人類動作,不存在恐怖谷問題。

評分者根據(jù)運動而不是幀級美學(xué)(標準包括運動的趣味性、物理合理性和流動性)來進行打分。Elo分數(shù)是按照LMSYS Chatbot Arena協(xié)議計算的。

局限性

Mochi 1目前仍處于不斷發(fā)展的狀態(tài),存在一些已知的限制。

比如初始版本只能生成480p的視頻,比如在某些極端運動的邊緣情況下,可能會出現(xiàn)輕微的扭曲。

由于Mochi 1針對照片級真實感樣式進行了優(yōu)化,因此在動畫內(nèi)容中表現(xiàn)不佳。

此外,模型實施了強大的安全審核協(xié)議,以確保所有視頻都保持安全并符合道德準則。

應(yīng)用

Mochi 1的開源在各個領(lǐng)域開辟了新的可能性:

研發(fā):推進視頻生成領(lǐng)域并探索新方法。


產(chǎn)品開發(fā):在娛樂、廣告、教育等領(lǐng)域構(gòu)建創(chuàng)新應(yīng)用程序。


創(chuàng)意表達:使藝術(shù)家和創(chuàng)作者能夠通過AI生成的視頻將他們的愿景變?yōu)楝F(xiàn)實。


機器人:生成合成數(shù)據(jù),用于在機器人、自動駕駛汽車和虛擬環(huán)境中訓(xùn)練AI模型。

What's next?

Genmo近日宣布已經(jīng)成功籌集了2840萬美元的A輪融資,該輪融資由Rick Yang、NEA領(lǐng)投,The House Fund、Gold House Ventures、WndrCo、Eastlink Capital Partners和Essence VC,以及天使投資人Abhay Parasnis(Typespace 首席執(zhí)行官)、Amjad Masad(Replit 首席執(zhí)行官)、Sabrina Hahn、Bonita Stewart和Michele Catasta等參投。

Genmo團隊包括DDPM(去噪擴散概率模型)、DreamFusion和Emu Video等項目的核心成員,由領(lǐng)先的技術(shù)專家提供咨詢,包括 Ion Stoica(Databricks和Anyscale的執(zhí)行主席兼聯(lián)合創(chuàng)始人)、Pieter Abbeel(Covariant的聯(lián)合創(chuàng)始人、OpenAI的早期團隊成員)和 Joey Gonzalez(語言模型系統(tǒng)的先驅(qū)、Turi的聯(lián)合創(chuàng)始人)。

Genmo表示將在今年年底之前,發(fā)布Mochi 1的完整版,其中包括 Mochi 1 HD。

Mochi 1 HD將支持720p視頻生成,具有更高的保真度和更流暢的運動,可解決復(fù)雜場景中的翹曲等邊緣情況。

除此之外,團隊還在開發(fā)圖像到視頻功能,并專注于提高模型的可控性和可操控性,以便用戶能夠更精確地控制自己的輸出。

展望未來,高分辨率、長視頻生成將觸手可及。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2021-12-20 07:03:54

秒殺系統(tǒng)擴容

2023-10-14 13:06:11

AI視頻

2024-09-20 16:20:00

2025-04-22 09:35:00

2015-08-27 09:16:53

2023-03-09 13:56:00

商業(yè)分析模型Revnue

2019-01-17 05:14:07

深度學(xué)習(xí)人工智能AI

2023-04-03 10:04:44

開源模型

2021-11-01 07:11:03

程序員職場公司

2025-04-22 09:17:00

模型生成開源

2013-04-24 10:37:21

移動互聯(lián)網(wǎng)創(chuàng)新天花板

2025-01-02 14:03:04

2018-11-08 13:43:20

2023-08-15 08:36:20

ChatGPT模型

2016-03-31 11:00:59

2021-05-22 10:04:39

AI

2013-07-14 13:59:25

計算密集應(yīng)用性能天花板性能優(yōu)化

2024-08-26 08:40:48

Linuxmain函數(shù)
點贊
收藏

51CTO技術(shù)棧公眾號