出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
變天了!還記得OpenAI剛推出Sora時(shí)給人的驚艷感,但在文生視頻領(lǐng)域,Sora想一家獨(dú)大也沒(méi)有那么簡(jiǎn)單。如今,越來(lái)越多表現(xiàn)不俗的替代方案已經(jīng)出現(xiàn)。
繼Luma AI的Dream Machine首次亮相之后,Runway ML最近推出的Gen-3 Alpha也令人印象深刻。與此同時(shí),快手推出了Kling(可靈),這一模型能夠以每秒30幀的速度生成1080p高清分辨率的視頻。
圖片
Gen-3 Alpha經(jīng)過(guò)視頻和圖像的訓(xùn)練,將為Runway的文字轉(zhuǎn)視頻、圖像轉(zhuǎn)視頻及文字轉(zhuǎn)圖像工具提供支持。它還將增強(qiáng)現(xiàn)有的控制模式,如運(yùn)動(dòng)畫筆、高級(jí)攝像機(jī)控制和導(dǎo)演模式,并支持即將推出的工具,以便更精確地控制結(jié)構(gòu)、風(fēng)格和動(dòng)態(tài)。
正如OpenAI與好萊塢的合作一樣,Runway也與頂級(jí)娛樂(lè)和媒體公司合作,開(kāi)發(fā)Gen-3 Alpha的定制版本。這種Gen-3模型的定制化使得對(duì)風(fēng)格和角色一致性的控制更加靈活,可以滿足特定的藝術(shù)和敘事需求。
與OpenAI不同的是,Runway已經(jīng)宣布Gen-3 Alpha很快將向所有人開(kāi)放。
“Gen-3 Alpha僅用四個(gè)月便迅速逼近Sora的水平,這意味著Omni也可能在9月前被迎頭趕上。Anthropic甚至可能在GPT-5發(fā)布之前就推出他們的自主AI系統(tǒng)。OpenAI面臨著要么加快其戰(zhàn)略步伐,要么接受退居第二的現(xiàn)實(shí)選擇?!盭平臺(tái)的一位用戶寫道。
1.Sora明顯滯后
Sora的一大劣勢(shì)在于,目前它還無(wú)法生成具有持續(xù)表情和角色特征的逼真人像。
例如,在Shy Heads使用Sora制作的短片《氣球頭》中,為了克服Sora的局限性,他們將人物的臉替換成了氣球。該短片的創(chuàng)作者Walter Woodman提到,他們使用Premiere和After Effects進(jìn)行了影片編輯。
然而,Gen-3 Alpha擅長(zhǎng)生成表現(xiàn)力豐富的人類角色,能夠展示廣泛的動(dòng)作、手勢(shì)和情感。
正如下面這個(gè)示例。提示詞是:一位原本憂郁的中年禿頂男子,當(dāng)一頂卷曲的假發(fā)和墨鏡突然落在他頭上時(shí),變得開(kāi)心起來(lái)。(Prompt: A middle-aged sad bald man becomes happy as a wig of curly hair and sunglasses fall suddenly on his head.)
值得注意的是,Adobe最近宣布正在探索與領(lǐng)先的AI供應(yīng)商建立合作,包括OpenAI的Sora、RunwayML和Pika等。
此外,Gen-3 Alpha從設(shè)計(jì)之初就瞄準(zhǔn)創(chuàng)意應(yīng)用,這使得它能夠理解并生成多種風(fēng)格和藝術(shù)指令。
除了Gen-3 Alpha之外,Luma AI聲稱其Dream Machine與Sora不同,能夠理解世界物理原理及現(xiàn)實(shí)世界中的事物運(yùn)作方式。另一個(gè)有趣的特點(diǎn)是,它能將現(xiàn)有圖像擴(kuò)展成視頻。
“哇,來(lái)自@LumaLabsAI的新模型,將圖像延伸成視頻,真是非同凡響。我直覺(jué)上認(rèn)為這很快就會(huì)成為可能,但親眼見(jiàn)到并思考其未來(lái)迭代的潛力仍是另一回事?!鼻癘penAI研究員,大神Andrej Karpathy說(shuō)道。
梗圖被續(xù)寫,逐漸變成視頻。上述示例:災(zāi)難女孩(Disaster Girl)
另一個(gè)關(guān)鍵區(qū)別在于其視頻的超逼真質(zhì)量。Luma所采用的人工智能算法會(huì)仔細(xì)分析并增強(qiáng)每個(gè)細(xì)節(jié),從紋理到光照,確保最終輸出效果幾乎與現(xiàn)實(shí)世界的鏡頭難以區(qū)分。不過(guò),Dream Machine也存在一些限制,例如形變、在視頻中插入文字以及相機(jī)運(yùn)動(dòng)方面的處理。
另一方面,中國(guó)的可靈模型能夠生成長(zhǎng)達(dá)兩分鐘、分辨率為1080p、每秒30幀的視頻。該模型以其逼真的輸出效果和對(duì)現(xiàn)實(shí)世界物理精確模擬而著稱,尤其擅長(zhǎng)于3D人臉和身體重建,使得生成的內(nèi)容更加栩栩如生、富有表現(xiàn)力。
2.OpenAI 在GPU方面具有優(yōu)勢(shì)
Luma AI 成功的一個(gè)重要因素是AWS,它為公司提供了急需的GPU資源。
AWS的數(shù)據(jù)和機(jī)器學(xué)習(xí)服務(wù)副總裁Swami Sivasubramanian表示:“很高興看到AWS H100訓(xùn)練基礎(chǔ)設(shè)施如何幫助Luma AI團(tuán)隊(duì)減少基礎(chǔ)模型的訓(xùn)練時(shí)間,并支持Dream Machine的發(fā)布?!?/p>
然而,在公開(kāi)上線后不久,網(wǎng)站就因巨大的訪問(wèn)需求而難以應(yīng)對(duì)。在這方面,OpenAI顯示出其優(yōu)勢(shì)。
作為ChatGPT的開(kāi)發(fā)者,OpenAI能夠利用微軟Azure,獲得最新的NVIDIA GPU資源。在微軟Build大會(huì)上,CEO薩提亞·納德拉宣布,他們將成為首批使用NVIDIA最先進(jìn)的Blackwell GPU的云服務(wù)提供商之一。
OpenAI最近還與甲骨文(Oracle)建立了合作伙伴關(guān)系,以獲取更多的計(jì)算能力。
3.OpenAI 是否會(huì)真正推出產(chǎn)品?
與Luma AI相關(guān)的還有另一個(gè)有趣的故事。在Google I/O大會(huì)上,谷歌介紹了其視頻生成模型Veo。然而,出于安全考慮,谷歌尚未發(fā)布該模型。
現(xiàn)為L(zhǎng)uma AI研究科學(xué)家的Dan Kondratyuk此前曾在谷歌工作,他稱自己離開(kāi)谷歌是因?yàn)楣緵](méi)有推出任何產(chǎn)品。
他在X平臺(tái)上發(fā)帖說(shuō):“我離開(kāi)谷歌加入了Luma。我曾是早期參與開(kāi)發(fā)Veo團(tuán)隊(duì)的一員,但我知道它很長(zhǎng)一段時(shí)間內(nèi)都不會(huì)面向大眾發(fā)布,就像Sora一樣。除非有像Luma這樣的公司迫使他們出手,至少我希望如此(給我權(quán)限吧)”。
與此同時(shí),OpenAI采取了一種策略,即宣布產(chǎn)品來(lái)?yè)寠Z谷歌的風(fēng)頭,但實(shí)際上并未交付。例如,當(dāng)谷歌推出Gemini 1.5時(shí),OpenAI在同一天宣布了Sora。在2024年Google I/O大會(huì)前一天,OpenAI宣布了GPT-4o。然而,其語(yǔ)音功能至今仍不可用。
圖片
X平臺(tái)上甚至專門有人發(fā)帖調(diào)侃OpenAI在演示與發(fā)布階段截然不同的產(chǎn)品表現(xiàn)
另一方面,谷歌也和OpenAI一樣,加入了搶先宣布產(chǎn)品的競(jìng)賽。
最近,該公司推出了其視頻轉(zhuǎn)音頻(V2A)模型,該模型能為任意視頻生成音頻。有趣的是,這個(gè)模型可以與Veo配合使用,為視頻片段配上富有戲劇性的配樂(lè)、逼真的音效或與視頻角色及基調(diào)相匹配的對(duì)話。
OpenAI應(yīng)該趁早發(fā)布Sora,因?yàn)楦?jìng)爭(zhēng)不會(huì)減弱。
好萊塢演員艾什頓·庫(kù)徹最近贊揚(yáng)了OpenAI的Sora,稱創(chuàng)作者將能夠利用它來(lái)渲染整部電影?!拔矣幸粋€(gè)測(cè)試版,它相當(dāng)驚人,”他說(shuō)道。
在最近接受《華爾街日?qǐng)?bào)》采訪時(shí),首席技術(shù)官M(fèi)ira Murati表示,OpenAI很可能在今年晚些時(shí)候讓Sora向公眾開(kāi)放。
但事實(shí)如何,或許我們還需要靜心以待。
參考鏈接:https://analyticsindiamag.com/openai-should-release-sora-before-its-too-late/