
譯者 | 張哲剛
審校 | 重樓
熱門人工智能圖像生成服務(wù)商Midjourney 發(fā)布其首款人工智能(AI)視頻生成模型 V1,這標(biāo)志著該公司從圖像生成服務(wù)向全方位多媒體內(nèi)容創(chuàng)作的重大轉(zhuǎn)變。

從現(xiàn)在開始,Midjourney 的近2000萬用戶可以通過該網(wǎng)站將圖像制作成動畫,將他們生成或上傳的靜態(tài)圖像轉(zhuǎn)換成5秒鐘長的視頻片段。用戶還可以選擇將視頻生成時間延長至最多20秒(每5秒為一個片段),并且可以通過文字對視頻生成進(jìn)行引導(dǎo)。
隨著此次視頻模型的推出,這家起步不久名為“Midjourney”的小型初創(chuàng)公司已經(jīng)成功躋身于當(dāng)下炙手可熱的人工智能視頻賽道之上。但與此同時,比較不幸的是,它剛啟動就面臨著來自兩家全球超大型娛樂公司的嚴(yán)峻法律挑戰(zhàn)。
對于那些希望可以利用最新的創(chuàng)意技術(shù),來開展廣告和營銷或用戶互動的人工智能(AI)創(chuàng)作者和企業(yè)而言,這意味著什么呢?與眾多不斷涌現(xiàn)的人工智能(AI)視頻模型競爭對手相比,Midjourney表現(xiàn)如何?它如何與競爭對手抗衡?請繼續(xù)閱讀,答案會水落石出。
直接構(gòu)建于Midjourney熱門人工智能圖像生成技術(shù)之上的新產(chǎn)品
Midjourney公司的新產(chǎn)品延續(xù)了其一貫的基于圖像的工作流程,并新增了v7 版本的文本轉(zhuǎn)圖像模型。
用戶可以在Midjourney平臺上直接生成靜態(tài)圖像,也可以通過上傳外部文件來完成,然后點(diǎn)擊“制作動畫”按鈕,就可以將圖像轉(zhuǎn)換為視頻。
該模型有兩種主要運(yùn)作模式:一種是模型完全自動完成合成;另一種是用戶可以編寫自定義動作提示,通過文本指示元素在場景中的移動方式。因此,Midjourney視頻模型具備圖像到視頻以及文本到視頻這兩項(xiàng)的編輯與修改功能。
從創(chuàng)意角度來看,系統(tǒng)有兩種運(yùn)動設(shè)置供用戶選擇。一種是低運(yùn)動模式,此模式針對環(huán)境或很簡單的運(yùn)動進(jìn)行了優(yōu)化,例如角色眨眼睛或有微風(fēng)吹過時景物細(xì)微的變化;另一種是高運(yùn)動模式,此模式會嘗試對主體和攝像機(jī)進(jìn)行更動態(tài)的動畫處理,不過這有可能會增加產(chǎn)生視覺錯誤的幾率。
在Midjourney網(wǎng)站頁面上,這些選項(xiàng)位于生成或上傳的圖像下方右側(cè)選項(xiàng)窗格中,標(biāo)注為“動態(tài)圖像”的字段下方,如下所示:

每個視頻任務(wù)默認(rèn)會生成四個不同的5秒時長的視頻片段,用戶可以選擇將每個片段延長4秒,最多每個片段可延長至 20 秒。

雖然目前視頻時長還較短,但該公司已經(jīng)表示,未來下一步的更新中,視頻時長和功能都將會得到擴(kuò)展。
Midjourney公司于2022 年夏季面世,得益于其產(chǎn)品更新相對頻繁且具有情景逼真、創(chuàng)作選項(xiàng)多樣化的優(yōu)點(diǎn),在人工智能圖像生成領(lǐng)域至今仍被奉為圭皋,人們對其進(jìn)入人工智能視頻領(lǐng)域寄予厚望。
就我們目前所能看到的,用戶的初步反映總體上是比較滿意的,例如Perplexity AI設(shè)計(jì)師 Phi Hoang(X用戶@apostraphi)在X上的一篇帖子中評論道:“我覺得,它遠(yuǎn)超預(yù)期?!?/p>
下面是我使用我的個人Midjourney帳戶生成的一個示例:

實(shí)惠的價格
現(xiàn)有訂閱計(jì)劃已經(jīng)開始包含視頻服務(wù),起價為每月10美元。
該公司表示,每項(xiàng)視頻生成制作任務(wù)的成本大約是圖像生成任務(wù)的 8 倍。不過由于每項(xiàng)視頻任務(wù)能生成20秒時長的內(nèi)容,因此每秒視頻任務(wù)的成本與生成一張靜態(tài)圖片大致相當(dāng)——較之眾多競爭對手,Midjourney這種價格體系看起來具備一些優(yōu)勢。
針對專業(yè)版及以上層次訂閱用戶,Midjourney推出測試版“放松模式(video relax mode)”。這種模式與圖像生成中的對應(yīng)模式一樣,延遲處理任務(wù),來換取降低任務(wù)的計(jì)算成本。而快速生成模式則仍然根據(jù)分層的不同訂閱計(jì)劃以GPU分鐘數(shù)為單位計(jì)量任務(wù)。
社區(qū)評論員對這一定價普遍持積極態(tài)度。人工智能領(lǐng)域內(nèi)容創(chuàng)作者 @BLVCKLIGHTai 在社交媒體上強(qiáng)調(diào),此價格體系下,用戶為提升內(nèi)容視覺質(zhì)量所支付的費(fèi)用大體上剛剛覆蓋成本,對于以短視頻方面應(yīng)用為主的用戶來說,該價格相當(dāng)親民。
此價格與競爭對手Luma AI的“簡易網(wǎng)絡(luò)方案”(每月9.99美元)相當(dāng),低于Runway的“標(biāo)準(zhǔn)用戶”訂閱計(jì)劃(每月15美元)。
以下是其他一些可供選擇的服務(wù):
人工智能視頻模型 | 公司 | 起步價格 |
OpenAI | ChatGPT Plus (50個視頻)每月20美元起;ChatGPT Pro每月200美元起。 | |
谷歌 DeepMind / 谷歌 AI Ultra | 249.99 美元/月(通過 AI Ultra) | |
Runway | 免費(fèi)套餐;付費(fèi)計(jì)劃:標(biāo)準(zhǔn)版每月12美元;專業(yè)版每月28美元;無限版每月76美元。 | |
Luma Labs | 起價 9.99美元/月(簡易網(wǎng)絡(luò))或 6.99美元/月,按年計(jì)費(fèi) | |
可靈大模型 | 可靈(原快手) | 有折扣6.99 美元/月,無折扣8.80 美元/月 |
海螺人工智能 / MiniMax | 按次計(jì)費(fèi)每生成0.625 美元;標(biāo)準(zhǔn)套餐每月 9.99 美元或無限制版每月 14.99 美元。 | |
Pika Labs | 基礎(chǔ)用戶免費(fèi);訂閱9美元/月 | |
Adobe | 免費(fèi)套餐;標(biāo)準(zhǔn)版 9.99美元/月;專業(yè)版29.99 美元/月 | |
Higgsfield AI | 基礎(chǔ)訂閱計(jì)劃9美元/月 | |
Genmo | 免費(fèi)(開源) | |
Moonvalley | 未公布 | |
Lightricks | 基礎(chǔ)訂閱計(jì)劃9美元/月 |
目前還沒有聲音效果,并且內(nèi)置編輯器的功能也比不上諸如 Runway、Sora、Luma 這樣的 AI 視頻工具,功能較為有限。
該模型目前最明顯的缺陷是缺乏音效。
與谷歌的Veo 3以及Luma Labs的Dream Machine等競爭對手的產(chǎn)品不同,Midjourney的系統(tǒng)并不生成配套的音頻軌道或環(huán)境音效。
就目前而言,任何音效都需要在后期制作階段,通過使用單獨(dú)的工具手動添加進(jìn)去。
此外,Midjourney的輸出內(nèi)容仍然較短,最長為20秒。目前尚不支持對時間軸、場景過渡以及片段之間的連貫性進(jìn)行編輯。
Midjourney表示這只是個開始,此次首發(fā)的初始版本重在具備探索性、易用性以及可擴(kuò)展性。
人工智能視頻市場競爭激烈,競爭壓力不斷增大
Midjourney的此次發(fā)布,正值人工智能視頻生成技術(shù)迅速成為生成式人工智能領(lǐng)域中最具競爭力的領(lǐng)域之際。
科技巨頭、風(fēng)險(xiǎn)投資支持的初創(chuàng)公司以及開源項(xiàng)目都在迅速發(fā)展。
本周,中國初創(chuàng)公司MiniMax發(fā)布了Hailuo 02,這一版本是其先前視頻模型的升級版。早期用戶反饋對其逼真程度、動作和提示的契合程度以及原生1080p分辨率的評價甚高,不過也有一些評論者認(rèn)為其渲染時間仍然相對較慢。
該模型在解析復(fù)雜動作以及電影拍攝角度方面表現(xiàn)尤為出色,與西方科技公司同類產(chǎn)品(如Runway的Gen-3 Alpha以及谷歌的Veo系列)相比毫不遜色。
與此同時,Luma Labs的“夢想機(jī)器(Dream Machine)”由于能夠同時生成音頻和高保真視頻而備受關(guān)注,而這一功能恰恰是 Midjourney 的新產(chǎn)品所欠缺的。與Runway一樣,夢想機(jī)器(Dream Machine)還提供了一項(xiàng)名為“修改視頻”的新功能,允許用戶對視頻進(jìn)行風(fēng)格重塑或“重新裝扮”。
谷歌的Veo 3和OpenAI即將推出的Sora模型同樣都在致力于能夠?qū)崿F(xiàn)更廣泛的多模態(tài)合成,將文本、圖像、視頻和聲音整合到連貫且可編輯的場景之中。
Midjourney 的應(yīng)對策略似乎是追求簡潔和成本效益——這也算一種“盡善盡美”的解決方案,制定適合規(guī)模化應(yīng)用的價格體系,但這同時也意味著它發(fā)布的產(chǎn)品并未標(biāo)準(zhǔn)配備一眾高端人工智能視頻服務(wù)中常見的高級功能。
來自迪士尼和環(huán)球影業(yè)的知識產(chǎn)權(quán)侵權(quán)訴訟陰影
就在產(chǎn)品發(fā)布前的幾天,Midjourney公司卻意外卷入了一場由迪士尼和環(huán)球影業(yè)共同向美國聯(lián)邦地區(qū)法院提起的大規(guī)模版權(quán)侵權(quán)訴訟。
這份長達(dá)100多頁的訴訟文件指控Midjourney公司未經(jīng)許可使用包括漫威、星球大戰(zhàn)、辛普森一家和怪物史萊克等諸多受版權(quán)保護(hù)角色作為其模型訓(xùn)練數(shù)據(jù),并且允許用戶生成衍生內(nèi)容。
控方聲稱,Midjourney 制造了一個“無底線剽竊”,故意讓用戶能夠毫不費(fèi)力毫無障礙地生成包含諸如達(dá)斯·維達(dá)、艾爾莎、鋼鐵俠、巴特·辛普森、史萊克和無牙仔等角色的可下載圖像。
控方進(jìn)一步指出,Midjourney使用數(shù)據(jù)抓取工具和網(wǎng)絡(luò)爬蟲來獲取受版權(quán)保護(hù)的內(nèi)容,并且沒用采取技術(shù)措施來阻止此類受保護(hù)知識產(chǎn)權(quán)內(nèi)容的輸出。
特別值得注意的是:該訴訟先發(fā)制人地將 Midjourney的視頻服務(wù)列為未來可能產(chǎn)生侵權(quán)行為的潛在源頭,并指出該公司在發(fā)布產(chǎn)品前就已經(jīng)開始訓(xùn)練該模型,并且其訓(xùn)練動作可能已經(jīng)涉及復(fù)制這些受保護(hù)的角色。
根據(jù)該投訴,Midjourney在2024年的營收達(dá)到了3億美元,并擁有近2100萬用戶。控方認(rèn)為,這種規(guī)模使該平臺通過無償竊取創(chuàng)意活動而取得商業(yè)優(yōu)勢。
迪士尼的法律總顧問奧拉西奧·古鐵雷斯 (Horacio Gutierrez) 直言不諱地表示:“盜版就是盜版。即便這是由一家人工智能公司實(shí)施的盜版行為,也不意味著其性質(zhì)就會有所改變,更不會因此就不構(gòu)成侵權(quán)。”
這場訴訟大概率會考驗(yàn)美國版權(quán)法在人工智能訓(xùn)練數(shù)據(jù)及輸出控制方面的適用限度,進(jìn)而可能會影響諸如Midjourney、OpenAI等此類平臺將來在內(nèi)容過濾機(jī)制或許可協(xié)議方面的思路。
對于那些擔(dān)心侵權(quán)風(fēng)險(xiǎn)的企業(yè)來說,選擇像OpenAI的Sora或者Adobe的 Firefly Video這類內(nèi)置補(bǔ)償機(jī)制的服務(wù)進(jìn)行人工智能視頻創(chuàng)作,可能更好一些。
“構(gòu)建一個‘世界模型’并實(shí)現(xiàn)世界實(shí)時生成”是我們的目標(biāo)。
盡管存在即時的直接風(fēng)險(xiǎn),但Midjourney的長期規(guī)劃卻路線清晰且雄心勃勃。在關(guān)于視頻模型發(fā)布的公開聲明中,該公司表示其目標(biāo)是最終將靜態(tài)圖像生成、動態(tài)動作、3D空間導(dǎo)航以及實(shí)時渲染整合為一個統(tǒng)一的系統(tǒng),該系統(tǒng)被稱為“世界模型”。
這些系統(tǒng)旨在使用戶能夠在動態(tài)生成的環(huán)境中自由穿梭——在這些環(huán)境中,視覺效果、角色以及用戶操作都會實(shí)時變化,類似置身于沉浸式視頻游戲或虛擬現(xiàn)實(shí)體驗(yàn)之中。
他們設(shè)想這樣一個未來場景:用戶可以發(fā)出諸如“夕陽時分漫步于摩洛哥的市場之中”這樣的指令,而系統(tǒng)則會給出一個可探索可互動的模擬場景作為回應(yīng)——其中包含著不斷變化發(fā)展的視覺效果,將來最終可能還會加入生成的音效。
目前,這個視頻模型只是朝著這個方向邁出的一小步。Midjourney 認(rèn)為這是通往更復(fù)雜系統(tǒng)的一塊“技術(shù)墊腳石”。
不過,Midjourney絕非唯一一家正在雄心勃勃實(shí)施此類宏大計(jì)劃的人工智能研究機(jī)構(gòu)。
Odyssey 是一家由自動駕駛技術(shù)資深人士奧利弗·卡梅?。∣liver Cameron)和杰夫·哈克(Jeff Hawke)共同創(chuàng)立的初創(chuàng)公司。該公司最近推出了一個系統(tǒng),該系統(tǒng)能夠以每秒30幀的速度傳輸視頻,并具備空間交互功能。他們的模型嘗試根據(jù)先前的狀態(tài)和動作來預(yù)測“世界的下一個狀態(tài)”,從而使用戶能夠環(huán)顧四周并探索場景,仿佛置身于一個三維空間一樣。
Odyssey將人工智能建模技術(shù)與自身的 360 度攝像頭硬件相結(jié)合,并正在尋求與諸如Unreal Engine和Blender等3D平臺的整合,以便進(jìn)行后期編輯工作。然而,除了能夠移動攝像頭的位置,以及查看空間生成過程中模型所生成的隨機(jī)景象之外,它目前還無法讓用戶進(jìn)行更多的操作控制。
同樣,長期致力于人工智能視頻生成領(lǐng)域的Runway公司也已經(jīng)開始將世界建模納入其公開路線圖中。該公司的人工智能視頻模型(其最新Gen-4版本于2025年4月推出)支持先進(jìn)的人工智能攝像機(jī)控制,使用戶能夠環(huán)繞拍攝對象,進(jìn)行拉近和拉遠(yuǎn)拍攝,或者在環(huán)境中平穩(wěn)移動——這些功能已經(jīng)開始模糊了視頻生成與場景模擬之間的界限。
在 2023 年的一篇博客文章中,Runway的首席技術(shù)官安納斯塔西斯·格雷米迪斯(Anastasis Germanidi)將通用世界模型定義為能夠深入理解環(huán)境、從而能夠模擬其中的未來事件并可以和它們互動的系統(tǒng)。換句話說,它們不僅能夠單純生成場景的外觀,還能夠預(yù)測場景的行為方式。
該領(lǐng)域內(nèi)的其他重大人工智能項(xiàng)目以及重要人工智能模型如下:
- DeepMind,在機(jī)器人訓(xùn)練和強(qiáng)化學(xué)習(xí)的世界建模方面進(jìn)行了基礎(chǔ)性研究;
- World Labs,這是由人工智能研究者Fei-Fei Li領(lǐng)導(dǎo)的新項(xiàng)目,專注于以仿真為核心的模型;
- 微軟,致力于探索用于企業(yè)應(yīng)用(如數(shù)字孿生和基于仿真的培訓(xùn))的世界模型;
- Decart,一家低調(diào)但資金雄厚的初創(chuàng)公司,致力于多智能體仿真模型的研究。
盡管Midjourney的策略一直是注重易用性和便捷性,但現(xiàn)在它也已開始朝著更復(fù)雜的仿真框架方向發(fā)展。該公司表示,要實(shí)現(xiàn)這一目標(biāo),首先必須構(gòu)建必要的組件:靜態(tài)視覺效果(其原本的圖像模型)、動態(tài)效果(視頻模型)、空間控制(3D 定位)以及實(shí)時響應(yīng)能力。這樣看來,它這個新的視頻模型只是這一漫長過程中的一個基礎(chǔ)組成部分。
這使得Midjourney公司將自己置身于一場全球性的競賽之中——不僅要創(chuàng)作出精美的媒體內(nèi)容,還要構(gòu)建出交互式的、人工智能所生成之世界的基礎(chǔ)設(shè)施。
這是一次經(jīng)過深思熟慮精心策劃且充滿希望的跨越,進(jìn)入了一個日益復(fù)雜且競爭激烈的領(lǐng)域
Midjourney公司進(jìn)軍視頻生成領(lǐng)域,乃是其廣受歡迎的圖像平臺發(fā)展過程中的自然延伸。該平臺定價合理,便于廣泛使用,并降低了動態(tài)視頻的應(yīng)用門檻。它為創(chuàng)作者提供了一條可以輕松實(shí)現(xiàn)其視覺效果的途徑——目前從其成本結(jié)構(gòu)看起來既具競爭力又可持續(xù)。
但此次發(fā)布也使該公司直接面臨諸多挑戰(zhàn)。產(chǎn)品方面,它面臨著實(shí)力強(qiáng)勁且反應(yīng)迅速的競爭對手,這些對手功能更多且沒有法律包袱;法律方面,它必須在正面臨的一場訴訟中為自身進(jìn)行辯護(hù),這場訴訟可能會重塑人工智能公司在美國的訓(xùn)練和部署生成模型方式。
對于著眼于人工智能創(chuàng)意平臺的企業(yè)領(lǐng)導(dǎo)者而言,Midjourney這個產(chǎn)品的發(fā)布可謂是一把雙刃劍:它是一款成本低廉、發(fā)展迅速且用戶接受度很高的工具,但同時也存在尚未解決的監(jiān)管和知識產(chǎn)權(quán)風(fēng)險(xiǎn),這可能會影響企業(yè)部署的可靠性或持續(xù)性。
下一步需要解決的問題是:Midjourney是否能夠在不觸及法律紅線的前提下保持其發(fā)展速度?還是它最終將不得不對業(yè)務(wù)和技術(shù)進(jìn)行重大調(diào)整,方能在日益成熟的人工智能內(nèi)容生態(tài)系統(tǒng)中保持競爭力?
譯者介紹
張哲剛,51CTO社區(qū)編輯,系統(tǒng)運(yùn)維工程師,國內(nèi)較早一批硬件評測及互聯(lián)網(wǎng)從業(yè)者,曾入職阿里巴巴。
原文標(biāo)題:‘Surpassing all my expectations’: Midjourney releases first AI video model amid Disney, Universal lawsuit,作者:Carl Franzen




























