偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="3rtp9"></button>

<pre id="3rtp9"></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

微軟新作「Mora」，復(fù)原了Sora

發(fā)布于 2024-3-28 11:04

瀏覽

0收藏

微軟版Sora誕生了！

Sora雖爆火但閉源，給學(xué)術(shù)界帶來了不小的挑戰(zhàn)。學(xué)者們只能嘗試使用逆向工程來對Sora復(fù)現(xiàn)或擴(kuò)展。盡管提出了Diffusion Transformer和空間patch策略，但想要達(dá)到Sora的性能還是很難，何況還缺乏算力和數(shù)據(jù)集。不過，研究者發(fā)起的新一波復(fù)現(xiàn)Sora的沖鋒，這不就來了么！就在剛剛，理海大學(xué)聯(lián)手微軟團(tuán)隊(duì)一種新型的多AI智能體框架———Mora。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū) 圖片

論文地址：
???https://arxiv.org/abs/2403.13248??

沒錯(cuò)，理海大學(xué)和微軟的思路，是靠AI智能體。Mora更像是Sora的通才視頻生成。通過整合多個(gè)SOTA的視覺AI智能體，來復(fù)現(xiàn)Sora展示的通用視頻生成能力。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

具體來說，Mora能夠利用多個(gè)視覺智能體，在多種任務(wù)中成功模擬Sora的視頻生成能力，包括：

- 文本到視頻生成

- 基于文本條件的圖像到視頻生成

- 擴(kuò)展已生成視頻

- 視頻到視頻編輯

- 拼接視頻

- 模擬數(shù)字世界

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果表明，Mora在這些任務(wù)中取得了接近Sora的表現(xiàn)。值得一提的是，它在文本到視頻生成任務(wù)中的表現(xiàn)超越了現(xiàn)有的開源模型，在所有模型中排名第二，僅次于Sora。不過，在整體性能上，與Sora還有著明顯差距。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

Mora可根據(jù)文字提示生成高分辨率、時(shí)間連貫的視頻，分辨率為1024 × 576，時(shí)長12秒，共75幀。

復(fù)刻Sora所有能力

Mora基本上還原了Sora的所有能力，怎么體現(xiàn)？

文本到視頻生成

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

提示：A vibrant coral reef teeming with life under the crystal-clear blue ocean, with colorful fish swimming among the coral, rays of sunlight filtering through the water, and a gentle current moving the sea plants.

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

提示：A majestic mountain range covered in snow, with the peaks touching the clouds and a crystal-clear lake at its base, reflecting the mountains and the sky, creating a breathtaking natural mirror.

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

提示：In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve

基于文本條件圖像到視頻的生成

輸入這張經(jīng)典的「SORA字樣的逼真云朵圖像」。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

提示：An image of a realistic cloud that spells “SORA”.Sora模型生成的效果是這樣的。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

Mora生成出來的視頻，絲毫不差。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

還有輸入一張小怪獸圖片。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

提示：Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.Sora將其轉(zhuǎn)換為視頻的效果，讓這些小怪獸們活靈活現(xiàn)動(dòng)起來。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

Mora雖也讓小怪獸們動(dòng)起來，但是明顯可以看出有些不穩(wěn)定，圖中卡通人物樣子沒有保持一致。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

擴(kuò)展已生成的視頻

先給到一個(gè)視頻

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

Sora能夠生成穩(wěn)定的AI視頻，而且風(fēng)格一致。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

但Mora生成的視頻中，前面騎自行車的人最后自行車沒了，人也變形了，效果不是很好。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

視頻到視頻編輯

給到一個(gè)提示「將場景切換到20世紀(jì)20年代的老式汽車」，并輸入一個(gè)視頻。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

Sora經(jīng)過風(fēng)格替換后，整體看起來非常絲滑。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

Mora這段老式汽車的生成，破舊的有點(diǎn)不真實(shí)。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

拼接視頻

輸入兩個(gè)視頻，然后將其完成拼接。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

Mora拼接后的視頻

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

模擬數(shù)字世界

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

整體接近，但不如Sora

一大波演示之后，大家對Mora的視頻生成能力有了一定了解。與OpenAI Sora相比，Mora在六個(gè)任務(wù)中的表現(xiàn)非常接近，不過也存在著很大的不足。

文本到視頻生成

具體來說，Mora的視頻質(zhì)量得分0.792，僅次于第一名Sora的0.797，并且超過了當(dāng)前最好的開源模型（如VideoCrafter1）。在對象一致性方面，Mora得分0.95，與Sora持平，在整個(gè)視頻中都表現(xiàn)出了卓越的一致性。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

在下圖中，Mora文本到視頻生成的視覺保真度非常引人注目，體現(xiàn)了高分辨率圖像以及對細(xì)節(jié)的敏銳關(guān)注，和對場景的生動(dòng)描繪。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

在基于文本條件的圖像生成任務(wù)中，模型在將圖片和文本指令，轉(zhuǎn)化成連貫視頻能力上，Sora肯定是最完美的。不過Mora的結(jié)果，與Sora相差很小。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

擴(kuò)展生成的視頻

再來看擴(kuò)展生成視頻測試中，在連續(xù)性和質(zhì)量上的結(jié)果，也是Mora與Sora比較接近。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

盡管Sora處于領(lǐng)先地位，但Mora的能力，特別是在遵循時(shí)間風(fēng)格和擴(kuò)展現(xiàn)有視頻而不顯著損失質(zhì)量方面，證明了其在視頻擴(kuò)展領(lǐng)域的有效性。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

視頻到視頻編輯+視頻拼接

針對視頻到視頻編輯，Mora在保持視覺和風(fēng)格連貫性的能力方面接近Sora。還有拼接視頻任務(wù)中，Mora也可以實(shí)現(xiàn)將不同視頻進(jìn)行無縫拼接。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

在這個(gè)示例中，Sora和Mora都被指示將設(shè)置修改為1920年代風(fēng)格，同時(shí)保持汽車的紅色。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

模擬數(shù)字世界

還有最后的模擬數(shù)字世界的任務(wù)，Mora也能像Sora一樣具備創(chuàng)建虛擬環(huán)境世界的能力。不過質(zhì)量方面，比Sora差一些。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

Mora：基于智能體的視頻生成

Mora這個(gè)多智能體框架，是如何解決當(dāng)前視頻生成模型的局限的？它的關(guān)鍵，就是通過將視頻生成過程分解為多個(gè)子任務(wù)，并為每個(gè)任務(wù)指派專門的智能體，來靈活地完成一系列視頻生成任務(wù)，滿足用戶的多樣化需求。在推理過程中，Mora會(huì)生成一個(gè)中間圖像或視頻，從而保持文本到圖像模型中的視覺多樣性、風(fēng)格和質(zhì)量，并增強(qiáng)編輯功能。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

通過高效地協(xié)調(diào)處理從文本到圖像、從圖像到圖像、從圖像到視頻以及從視頻到視頻的轉(zhuǎn)換任務(wù)的智能體，Mora能夠處理一系列復(fù)雜的視頻生成任務(wù)，提供出色的編輯靈活性和視覺真實(shí)度?？偨Y(jié)來說，團(tuán)隊(duì)的主要貢獻(xiàn)如下：

創(chuàng)新性的多智能體框架，以及一個(gè)直觀的界面，方便用戶配置不同的組件和安排任務(wù)流程。
作者發(fā)現(xiàn)，通過多個(gè)智能體的協(xié)同工作（包括將文本轉(zhuǎn)換成圖像、圖像轉(zhuǎn)換成視頻等），可以顯著提升視頻的生成質(zhì)量。這一過程從文本開始，先轉(zhuǎn)化為圖像，然后將圖像和文本一起轉(zhuǎn)換成視頻，最后對視頻進(jìn)行優(yōu)化和編輯。
Mora在6個(gè)與視頻相關(guān)的任務(wù)中都展現(xiàn)出了卓越的性能，超過了現(xiàn)有的開源模型。這不僅證明了Mora的高效性，也展示了其作為一個(gè)多用途框架的潛力。

智能體的定義

在視頻生成的不同任務(wù)中，通常需要多個(gè)具有不同專長的智能體協(xié)同工作，每個(gè)智能體都提供其專業(yè)領(lǐng)域的輸出。為此，作者定義了5種基本類型的智能體：提示選擇與生成、文本到圖像生成、圖像到圖像生成、圖像到視頻生成、以及視頻到視頻生成。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

提示選擇與生成智能體：在開始生成初始圖像之前，文本提示會(huì)經(jīng)過一系列嚴(yán)格的處理和優(yōu)化步驟。這個(gè)智能體可以利用大型語言模型（如GPT-4）來精確分析文本，提取關(guān)鍵信息和動(dòng)作，大大提高生成圖像的相關(guān)性和質(zhì)量。
文本到圖像生成智能體：這個(gè)智能體負(fù)責(zé)將豐富的文本描述轉(zhuǎn)化為高質(zhì)量的圖像。它的核心功能是深入理解和可視化復(fù)雜的文本輸入，從而能夠根據(jù)提供的文本描述創(chuàng)建詳細(xì)、準(zhǔn)確的視覺圖像。
圖像到圖像生成智能體：根據(jù)特定的文本指令修改已有的源圖像。它能夠精確解讀文本提示，并據(jù)此調(diào)整源圖像（從細(xì)微修改到徹底改造）。通過使用預(yù)訓(xùn)練模型，它能夠?qū)⑽谋久枋雠c視覺表現(xiàn)有效拼接，實(shí)現(xiàn)新元素的整合、視覺風(fēng)格的調(diào)整或圖像構(gòu)成的改變。
圖像到視頻生成智能體：在初始圖像生成之后，這個(gè)智能體負(fù)責(zé)將靜態(tài)圖像轉(zhuǎn)化為動(dòng)態(tài)視頻。它通過分析初始圖像的內(nèi)容和風(fēng)格，生成后續(xù)的幀，確保視頻的連貫性和視覺一致性，展現(xiàn)了模型理解、復(fù)制初始圖像，以及預(yù)見并實(shí)現(xiàn)場景邏輯發(fā)展的能力。
視頻拼接智能體：這個(gè)智能體通過選擇性使用兩段視頻的關(guān)鍵幀，確保它們之間平滑且視覺上一致的過渡。它能夠準(zhǔn)確識(shí)別兩個(gè)視頻中的共同元素和風(fēng)格，生成既連貫又具有視覺吸引力的視頻。

智能體的實(shí)現(xiàn)

文本到圖像的生成

研究者利用預(yù)訓(xùn)練的大型文本到圖像模型，來生成高質(zhì)量且具有代表性的第一張圖像。第一個(gè)實(shí)現(xiàn)，用的是Stable Diffusion XL。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

它引入了文本到圖像合成的潛在擴(kuò)散模型的架構(gòu)和方法的重大演變，在該領(lǐng)域樹立了新的基準(zhǔn)。其架構(gòu)的核心，就是一個(gè)擴(kuò)大的UNet主干網(wǎng)絡(luò)，它比Stable Diffusion 2之前版本中使用的主干大三倍。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

這種擴(kuò)展主要是通過增加注意力塊的數(shù)量和更廣泛的交叉注意力上下文來實(shí)現(xiàn)的，并通過集成雙文本編碼器系統(tǒng)來促進(jìn)。第一個(gè)編碼器基于OpenCLIP ViT-bigG，而第二個(gè)編碼器則利用CLIP ViT-L，通過拼接這些編碼器的輸出，來允許對文本輸入進(jìn)行更豐富、更細(xì)致的解釋。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

這種架構(gòu)創(chuàng)新輔以多種新穎的調(diào)節(jié)方案的引入，這些方案不需要外部監(jiān)督，從而增強(qiáng)了模型的靈活性和生成跨多個(gè)長寬比的圖像的能力。此外，SDXL還具有一個(gè)細(xì)化模型，該模型采用事后圖像到圖像轉(zhuǎn)換來提高生成圖像的視覺質(zhì)量。此細(xì)化過程利用噪聲去噪技術(shù)，進(jìn)一步完善輸出圖像，而不會(huì)影響生成過程的效率或速度。

圖像到圖像的生成

在這個(gè)過程中，研究者用初始框架，實(shí)現(xiàn)了使用InstructPix2Pix作為圖像到圖像生成智能體。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

InstructPix2Pix經(jīng)過精心設(shè)計(jì)，可以根據(jù)自然語言指令進(jìn)行有效的圖像編輯。該系統(tǒng)的核心集成了兩個(gè)預(yù)訓(xùn)練模型的廣泛知識(shí)：GPT-3用于根據(jù)文本描述生成編輯指令和編輯后的標(biāo)題；Stable Diffusion用于將這些基于文本的輸入轉(zhuǎn)換為視覺輸出。這種巧妙的方法首先在精選的圖像標(biāo)題數(shù)據(jù)集和相應(yīng)的編輯指令上微調(diào)GPT-3，從而產(chǎn)生一個(gè)可以創(chuàng)造性地建議合理編輯并生成修改后的標(biāo)題的模型。在此之后，通過Prompt-to-Prompt技術(shù)增強(qiáng)的Stable Diffusion模型，會(huì)根據(jù)GPT-3生成的字幕生成圖像對(編輯前和后)。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

然后在生成的數(shù)據(jù)集上訓(xùn)練InstructPix2Pix核心的條件擴(kuò)散模型。InstructPix2Pix直接利用文本指令和輸入圖像，在單次前向傳遞中執(zhí)行編輯。通過對圖像和指令條件采用無分類器指導(dǎo)，進(jìn)一步提高了這種效率，使模型能夠平衡原始像的保真度和遵守編輯指令。

圖像到視頻的生成

在文本到視頻生成智能體中，視頻生成代理在確保視頻質(zhì)量和一致性方面發(fā)揮著重要作用。研究者的第一個(gè)實(shí)現(xiàn)，是利用目前的SOTA視頻生成模型Stable Video Diffusion來生成視頻。

微軟新作「Mora」，復(fù)原了Sora-AI.x社區(qū)

SVD架構(gòu)利用最初為圖像合成而開發(fā)的LDMs Stable Diffusion v2.1的優(yōu)勢，將其功能擴(kuò)展到處理視頻內(nèi)容固有的時(shí)間復(fù)雜性，從而引入了一種生成高分辨率視頻的先進(jìn)方法。SVD模型的核心遵循三階段訓(xùn)練體系，從文本到圖像相關(guān)開始，模型從一組不同的圖像中學(xué)習(xí)穩(wěn)健的視覺表示。這個(gè)基礎(chǔ)，使模型能夠理解并生成復(fù)雜的視覺圖案和紋理。在第二階段，即視頻預(yù)訓(xùn)練中，模型接觸大量視頻數(shù)據(jù)，使其能夠通過將時(shí)間卷積和注意力層與其空間對應(yīng)層結(jié)合起來來學(xué)習(xí)時(shí)間動(dòng)態(tài)和運(yùn)動(dòng)模式。訓(xùn)練是在系統(tǒng)管理的數(shù)據(jù)集上進(jìn)行的，確保模型從高質(zhì)量且相關(guān)的視頻內(nèi)容中學(xué)習(xí)。最后階段是高質(zhì)量視頻微調(diào)，重點(diǎn)是改進(jìn)模型使用更小但更高質(zhì)量的數(shù)據(jù)集，生成分辨率和保真度更高的視頻的能力。這種分層訓(xùn)練策略輔以新穎的數(shù)據(jù)管理流程，使SVD能夠出色地生成最先進(jìn)的文本到視頻和圖像到視頻合成，并且隨著時(shí)間的推移，具有非凡的細(xì)節(jié)、真實(shí)性和連貫性。

拼接視頻

對于這個(gè)任務(wù)，研究者利用SEINE來拼接視頻。SEINE是基于預(yù)訓(xùn)練的T2V模型LaVie智能體構(gòu)建的。SEINE以隨機(jī)掩碼視頻擴(kuò)散模型為中心，后者根據(jù)文本描述生成過渡。通過將不同場景的像與基于文本的控制相集成，SEINE可以生成保持連貫性和視覺質(zhì)量的過渡視頻。此外，該模型還可以擴(kuò)展到圖像到視頻動(dòng)畫和白回歸視頻預(yù)測等任務(wù)。

討論

優(yōu)勢

創(chuàng)新框架與靈活性：Mora引進(jìn)了一種革命性的多智能體視頻生成框架，大大拓展了此領(lǐng)域的可能性，使得執(zhí)行各種任務(wù)變得可能。它不僅簡化了將文本轉(zhuǎn)換成視頻的過程，還能模擬出數(shù)字世界，展現(xiàn)出前所未有的靈活性和效率。
開源貢獻(xiàn)：Mora的開源特性是對AI社區(qū)一個(gè)重要的貢獻(xiàn)，它通過提供一個(gè)堅(jiān)實(shí)的基礎(chǔ)，鼓勵(lì)進(jìn)一步的發(fā)展和完善，為未來的研究奠定了基礎(chǔ)。如此一來，不僅可以讓高級(jí)視頻生成技術(shù)更加普及，還促進(jìn)了該領(lǐng)域內(nèi)的合作和創(chuàng)新。

局限性

視頻數(shù)據(jù)至關(guān)重要：想捕捉人類動(dòng)作的細(xì)微差別，就需要高分辨率、流暢的視頻序列。這樣才能夠詳細(xì)展現(xiàn)動(dòng)力學(xué)的各個(gè)方面，包括平衡、姿勢及與環(huán)境的互動(dòng)。但高質(zhì)量的視頻數(shù)據(jù)集多來源于如電影、電視節(jié)目和專有游戲畫面等專業(yè)渠道。其中往往包含受版權(quán)保護(hù)的材料，不易合法收集或使用。而缺乏這些數(shù)據(jù)集，使得像Mora這樣的視頻生成模型難以模擬人類在現(xiàn)實(shí)環(huán)境中的動(dòng)作，如走路或騎自行車。
質(zhì)量與長度的差距：Mora雖然可以完成類似Sora的任務(wù)，但在涉及大量物體移動(dòng)的場景中，生成的視頻質(zhì)量明顯不高，質(zhì)量隨視頻長度增加而降低，尤其是在超過12秒之后。
指令跟隨能力：Mora雖然可以在視頻中包含提示所指定的所有對象，但它難以準(zhǔn)確解釋和展示提示中描述的運(yùn)動(dòng)動(dòng)態(tài)，比如移動(dòng)速度。此外，Mora還不能控制對象的運(yùn)動(dòng)方向，比如無法讓對象向左或向右移動(dòng)。這些局限主要是因?yàn)镸ora的視頻生成，是基于圖像轉(zhuǎn)視頻的方法，而不是直接從文本提示中獲取指令。
人類偏好對齊：由于視頻領(lǐng)域缺少人類的標(biāo)注信息，實(shí)驗(yàn)結(jié)果可能并不總是符合人類的視覺偏好。舉個(gè)例子，上面其中的一個(gè)視頻拼接任務(wù)，要求生成一個(gè)男性逐漸變成女性的過渡視頻，看起來非常不合邏輯。

本文轉(zhuǎn)載自夕小瑤科技說

原文鏈接：??https://mp.weixin.qq.com/s/G08_a5gkzjTIAt8MoprmMA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

深入理解Sora技術(shù)原理

卓勝微wjp ? 3859瀏覽 ? 0回復(fù)
字節(jié)Dreamina全面開放內(nèi)測了，效果夠驚艷嗎？Ta眼中的“Sora女士”原來是這樣！

51CTO技術(shù)棧 ? 5171瀏覽 ? 0回復(fù)
微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”

Crystalcxt ? 3831瀏覽 ? 0回復(fù)
微軟Copilot+PC之后還有大招！牽手GPT-4o后能力簡直王炸！奧特曼也來build現(xiàn)場了！

51CTO技術(shù)棧 ? 3149瀏覽 ? 0回復(fù)
Meta 新作：FlashAttention 的數(shù)值偏差有多大？

amei2000go ? 4719瀏覽 ? 0回復(fù)
被Luma刷屏了！零成本上手做大片的時(shí)代已至！驚奇發(fā)現(xiàn)：背后的技術(shù)與Sora大有不同！

51CTO技術(shù)棧 ? 4173瀏覽 ? 0回復(fù)
太逼真了！Gen-3 Alpha重磅發(fā)布，Sora最強(qiáng)競爭對手！

Aceryt ? 3230瀏覽 ? 0回復(fù)
OpenAI 再不發(fā)布 Sora，就晚了

51CTO技術(shù)棧 ? 2869瀏覽 ? 0回復(fù)
尤洋團(tuán)隊(duì)新作，網(wǎng)友：這是新紀(jì)元

angel ? 3169瀏覽 ? 0回復(fù)
微軟 GraphRAG 與傳統(tǒng) RAG 架構(gòu)設(shè)計(jì)精髓

AIGC觀察者 ? 6962瀏覽 ? 0回復(fù)
時(shí)間序列預(yù)測+NLP大模型新作：為時(shí)序預(yù)測自動(dòng)生成隱式Prompt

海因斯DK ? 3708瀏覽 ? 0回復(fù)
微軟野心再現(xiàn)：對Excel和谷歌Sheet下手了！

51CTO技術(shù)棧 ? 2725瀏覽 ? 0回復(fù)
Open-Sora 1.1 解讀：完全開源的高效復(fù)現(xiàn)類Sora視頻生成方案！

angel ? 2743瀏覽 ? 0回復(fù)
Ultralytics新作-YOLOv11

shizhi02 ? 7666瀏覽 ? 0回復(fù)
OpenAI 的 ?Sora 技術(shù)報(bào)告詳解

wsp_ping ? 2468瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：一文讀懂LoRA/DoRA/MoRA

魯班模錘1 ? 4108瀏覽 ? 0回復(fù)
微軟發(fā)布Mora視頻模型，吊打Sora？

echo_ning ? 2168瀏覽 ? 0回復(fù)
?探索Sora背后秘密：結(jié)合OpenAI Sora技術(shù)報(bào)告來看其能力和技術(shù)點(diǎn)

arnoldzhw ? 2999瀏覽 ? 0回復(fù)
小模型界o1來了：微軟推出Phi-4，數(shù)學(xué)推理能力太逆天！14B模型擊敗GPT-4o！還印證了AI墻的一個(gè)重要推斷

51CTO技術(shù)棧 ? 2532瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

今日arXiv最熱NLP大模型論文：浙大發(fā)布歌曲合成工具Prompt-Singer，歌手性別風(fēng)格均可控！ 2024-04-03 09:44:58發(fā)布
華盛頓大學(xué)撰文反駁微軟，我們無法刪除大模型關(guān)于哈利波特的記憶 2024-04-03 09:33:28發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：用大語言模型控制交通信號(hào)燈，有效緩解擁堵！

下一篇：一次性支持 200 萬字無損上下文！Kimi智能助手玩了個(gè)大的——月之暗面「登月」最新進(jìn)展!

社區(qū)精華內(nèi)容

目錄

<blockquote id="u3bnb"></blockquote>

<p id="u3bnb"><thead id="u3bnb"></thead></p>