
譯者 | 布加迪
審校 | 重樓
上周,Grok 已成為美國、英國和新加坡等主要國家App Store 下載量最高的應(yīng)用程序。雖然Grok-4是一種非常出色的大語言模型(LLM),但這款聊天機(jī)器人缺少最熱門的AI功能之一:視頻。不過,馬斯克似乎也感受到了這種“錯失恐懼癥”(FOMO)的影響。正因如此,他及其團(tuán)隊剛發(fā)布了Imagine:這是其聊天機(jī)器人中的一項基于AI的視頻生成功能。
它能與谷歌的Veo 3或OpenAI的Sora相媲美嗎?本文解答了你的所有疑問。此外,本文還將指導(dǎo)你了解Imagine是什么、如何使用它以及它的用途。
不妨用Imagine來測試我們的想象力吧!
Grok Imagine簡介
Grok Imagine是X的Grok聊天機(jī)器人中最新的視頻生成功能,能夠生成圖像和視頻。它使用簡單的文本提示即可生成高質(zhì)量的輸出。
馬斯克說:“Grok Imagine 現(xiàn)在制作*視頻*的時間僅為主要競爭對手制作一張圖片所需時間的一半到四分之一!”。
不用說,Imagine的速度和激情毋庸置疑。它操作簡單,但凡具備基本提示技能的人都可以使用Grok的Imagine將想象變?yōu)楝F(xiàn)實(shí)。生成的視頻時長為6秒,比Veo 3生成的視頻短,但比OpenAI的Sor生成的視頻長。
Grok Imagine的主要功能有哪些?
Imagine的一些主要功能包括:
- 文本到圖像/視頻生成:該模型根據(jù)文本提示創(chuàng)建圖像和視頻。用戶只需提供他們想要的內(nèi)容的詳細(xì)描述,模型即可迅速生成內(nèi)容。
- 圖像到視頻生成:該模型還可以使用上傳的圖像作為參考來制作視頻,將靜態(tài)圖片轉(zhuǎn)換為動態(tài)場景。

- 音頻集成:視頻包含AI生成的音軌,音軌可自動與視覺效果同步,完美契合氛圍和主題。這里沒有靜音片段!
- 更少限制:想要激發(fā)創(chuàng)造力?啟用“Spicy模式”即可繞過嚴(yán)格的篩選器,探索更具前衛(wèi)感、審查較寬松的輸出。非常適合喜歡突破界限的創(chuàng)作者,不過敏感內(nèi)容仍有相應(yīng)的護(hù)欄機(jī)制。

- 速度遇上創(chuàng)造力:大多數(shù)AI視頻工具需要等待1-2分鐘,這在AI時代太漫長了,而Imagine只需一半的等待時間即可生成更具創(chuàng)意的結(jié)果。快速未必就意味著千篇一律。
- 語音命令魔法:無需打字——只需說出你的想法。Imagine的語音支持讓你可以借助自然語音命令生成圖像和視頻,讓創(chuàng)作變得像靈感迸發(fā)一樣簡單。
誰可以使用Grok的Imagine?
Imagine目前發(fā)布了測試版,僅供以下付費(fèi)客戶使用:
- Super Grok用戶和Super Grok Heavy用戶可以搶先體驗Imagine視頻生成工具。
- X Premium +用戶和Premium用戶沒有資格享受搶先體驗,但他們可以加入候補(bǔ)名單。如果他們是活躍的X用戶,預(yù)計很快就能獲得訪問權(quán)限。
目前,每個帳戶可渲染的視頻數(shù)量是有限制的。Premium用戶、Premium +用戶和Super Grok Heavy用戶的上限分別為50個、100個和500個。
如何訪問Imagine?
要訪問Grok的Imagine,請按以下步驟操作:
- 下載Grok/Super Grok移動應(yīng)用程序( Imagine 目前僅在移動應(yīng)用程序中可用)。
- 下載完成后,使用你的付費(fèi)帳戶登錄。
- 你會在頂部看到一個選項:Ask - Imagine。
- 點(diǎn)擊Imagine。
在文本框中添加你的提示,即可開始使用。
試用Grok的Imagine
我們已經(jīng)了解了Grok最新的視頻生成功能,不妨測試它在以下任務(wù)中的表現(xiàn):
- 生成產(chǎn)品視頻
- 生成病毒式表情包視頻
- 生成電影鏡頭
任務(wù)1:產(chǎn)品視頻
提示:“A model picks up a lipstick, shaped like a metallic pen, placed on a 90’s retro style restaurant and applies it on her lips and smiles, the focus should be on the lips and the background needs to be of a retro style restaurant, which is slightly blurred. The name of the lipstick – Nude browns by Popper, comes on the screen at the end.”(一位模特拿起一支金屬筆形狀的口紅,背景是一家90年代復(fù)古風(fēng)格的餐廳,涂在嘴唇上,然后微笑。重點(diǎn)放在嘴唇上,背景需要是復(fù)古風(fēng)格的餐廳,略微模糊。最后屏幕上會顯示這款口紅的名字——Popper 的裸棕色。)
輸出:
模型先根據(jù)你的提示生成各種圖像。你可以選擇最喜歡的圖像。一旦點(diǎn)擊后,你將獲得以下選項:

- 你可以點(diǎn)擊“心形圖標(biāo)”將圖像標(biāo)記為收藏。
- 你可以點(diǎn)擊“向下箭頭圖標(biāo)”下載圖像。
- 你可以點(diǎn)擊“向上箭頭圖標(biāo)”分享圖像。
最后,在右側(cè),你會找到“制作視頻”選項,點(diǎn)擊它,幾秒鐘內(nèi)你會得到一段基于提示的視頻,正包含你選擇的圖像。

視頻幾乎是即時生成的,而且質(zhì)量讓我驚喜!它完美地聚焦在口紅上,正如我在提示中指定的一樣。雖然你可以看出這是AI生成的(模型在逼真地涂抹口紅方面遇到了困難),但高清畫質(zhì)依然令人眼前一亮。
真正讓我印象深刻的是提示中的每個單詞都與視頻中顯示的完全一致,沒有任何尷尬的誤拼或誤解。
任務(wù)2:表情包視頻
提示:“A monkey typing furiously on a laptop while another monkey asks it to come outside, while the first monkey refuses and says – AI Agents are coming to take its job”(一只猴子在筆記本電腦上瘋狂地敲字,另一只猴子讓它出去玩,第一只猴子拒絕了,并說AI智能體要來搶走它的工作。)
輸出:
不出所料,Imagine生成了多個圖像選項供我選擇。然而,與我之前體驗的不同,一些生成的圖像含有錯誤的文本——這次的準(zhǔn)確率明顯下降。

上面有拼寫錯誤。最后,在翻閱大量生成的圖像后,我發(fā)現(xiàn)了文本正確、讓我感覺與給出的提示相似的那個圖像。

雖然我的提示還有其他要求,但我沒能在一個圖像中找到。但我用來生成視頻的圖像制作了一個相當(dāng)有趣的表情包。它發(fā)出的聲音聽起來像兩只猴子在爭吵。總的來說,我喜歡這個視頻——它很有趣,也達(dá)到了預(yù)期的效果。
任務(wù)3:電影鏡頭
提示:“A girl running through a dark alley, camera running with her, from the top, it starts to rain and she slips and looks back with fear, the last shot remains focused on her face, a cinematic shot.”(一個女孩在一條黑暗的小巷里狂奔,攝像機(jī)跟著她移動,雨水開始從天而降,她滑倒了,害怕地回頭張望,最后一個鏡頭聚焦在她的臉上,電影般的經(jīng)典鏡頭。)
輸出:

該工具提供了多個圖像選項可供選擇,但生成的視頻沒有完全符合我給出的提示。雖然一開始效果很好——捕捉到了我要求的那種氛圍和鏡頭,但隨著視頻的繼續(xù)呈現(xiàn),質(zhì)量明顯下降。AI生成的偽影變得很明顯,瑕疵也一目了然。
我懷疑模型有點(diǎn)勉為其難,因為我給出的提示包含多個復(fù)雜的請求。不過,音效還是很到位——完美契合場景需求。
Grok的Imagine怎么樣?
我對Imagine的看法褒貶不一。Imagine最出色的兩點(diǎn)是速度和生成的圖像質(zhì)量。說到視頻生成,我認(rèn)為我們很快會看到它變得更好。目前,該模型落后于Sora和Veo 3以及像Hulileo和Wan這樣的中國模型,它們都是視頻生成領(lǐng)域的標(biāo)桿。
隨著提示越來越詳細(xì),Imagine的效果會越來越好,所以在生成視頻時一定要提供盡可能豐富的上下文。目前生成的聲音比較普通,與生成的視頻不太協(xié)調(diào)。
結(jié)論
Imagine是一個出色的模型,但它還有很大的改進(jìn)空間。鑒于它是Grok的第一個圖像生成模型,我相信工作團(tuán)隊很快會讓它遠(yuǎn)遠(yuǎn)超越任何現(xiàn)有的模型。目前,該模型表現(xiàn)良好,但考慮到市面上有這么多先進(jìn)的視頻生成模型,它確實(shí)感覺有點(diǎn)過時了。
話雖如此,還是試試Imagine吧。它非常適合用來制作小片段和短視頻來展示創(chuàng)意。而且,由于其相當(dāng)靈活的速率限制,你可以用它真正創(chuàng)作出有意義的作品。
原文標(biāo)題:Grok Imagine: Is it the Best Video Generation Model?,作者:Anu Madan
































