Veo 3全網(wǎng)實(shí)測(cè)驚艷所有人!DeepMind CTO:規(guī)模是AGI全部嗎?
外星人駕駛飛碟給你送披薩,月球撞上地球——這不是科幻電影作品,而是來自于谷歌剛剛推出的視頻生成模型Veo 3。
只用一句提示詞就拍出電影質(zhì)感的短片。
不僅如此,Veo 3還能通過文本實(shí)現(xiàn)原生的音畫同步生成。
上幾個(gè)實(shí)例先。
視頻的場(chǎng)景設(shè)定在一個(gè)復(fù)古的餐廳,當(dāng)氤氳的煙霧在餐桌上翻騰時(shí),女郎的唇形卻配著清晰立體的對(duì)白。
畫面中,一個(gè)穿著黑色晚禮服的女人和一個(gè)穿西裝的男人坐在一張小圓餐桌上。桌面點(diǎn)著一盞小燈,旁邊還有一杯威士忌和一個(gè)托盤,像是老電影里的場(chǎng)景。
網(wǎng)友表示,這簡(jiǎn)直太瘋狂了,霸主正在出現(xiàn)。
牛頓穿著18世紀(jì)風(fēng)格的衣服,戴著白色假發(fā),穿著白色襯衫和黑馬甲,手里拿著一本金色的蘋果和一本書,在燈光昏暗的書房里。
視頻里年輕的牛頓爵士表情夸張,嘴里在念叨著引力拉扯物體,動(dòng)作幅度很大。
有人調(diào)侃「好萊塢要瑟瑟發(fā)抖了」,因?yàn)锳I的生成能力太強(qiáng)大了。
這段松餅對(duì)話,令人印象深刻。大個(gè)的松餅說了一句「我不敢相信Veo 3現(xiàn)在居然能對(duì)話了!」
旁邊的小松餅聽到后,嚇得大叫:「啊啊啊!一個(gè)會(huì)說話的松餅!」這場(chǎng)景太搞笑了,簡(jiǎn)直像動(dòng)畫里的情節(jié)。
Veo 3不僅能生成視頻,添加對(duì)話、音效和背景噪音,文本指令的遵循度也更高了。
視頻雖然只有8秒,但是畫面質(zhì)量很不錯(cuò),松餅的表情和動(dòng)作都做的特別生動(dòng),尤其是那個(gè)大叫的小松餅,聽起來還挺滲人的。
圖片
@Aaron Pitters表示,「高質(zhì)量的動(dòng)畫電影將以光速制作。這將節(jié)省大量時(shí)間,簡(jiǎn)直難以置信。」
圖片
@MartinNebelong分享了一段用Veo 3制作的長(zhǎng)視頻。
視頻開頭,老爺爺在一個(gè)書房里,周圍堆滿了書。他看起來特別興奮,揮舞著雙手。
不只是可以對(duì)話這么簡(jiǎn)單,甚至連Rap都可以!
畫面切換,一個(gè)穿著緊身衣的女人在宇宙飛船里,表情嚴(yán)肅。
接著又回到老爺爺,這一次他坐在桌子前,桌面上還有一個(gè)可愛的小機(jī)器人。
場(chǎng)景一閃,這次是一個(gè)穿著盔甲的騎士站在火把點(diǎn)亮的石墻走廊里。
整個(gè)視頻節(jié)奏很快,畫面切換頻繁,感覺像是一部電影的預(yù)告片。
@Janek Mann驚嘆,「那個(gè)較長(zhǎng)的視頻絕對(duì)令人難以置信,它現(xiàn)在真的能講述完整的故事。」
圖片
@Alex Patrascu表示,Veo 3領(lǐng)先了競(jìng)品好幾代,劇本已經(jīng)翻轉(zhuǎn)了。
畫面中是一個(gè)半人半機(jī)器的家伙,表情猙獰,背景有很多屏幕和電腦,燈光昏暗,空氣里的緊張感都傳達(dá)出來了。
圖片
他穿著破舊的長(zhǎng)袍,身上還有一些機(jī)械零件,胳膊上有電光在閃,看上去像是剛從科幻電影里走出來的反派角色。
從這個(gè)畫面來看,真的不得不服,整個(gè)場(chǎng)景的細(xì)節(jié)和真實(shí)感都太牛了,感覺像是好萊塢大片的一幕。
視頻效果被網(wǎng)友盛贊為超級(jí)史詩。
圖片
谷歌王者歸來,正突然取得巨大進(jìn)步。
圖片
Veo 3,特別是通過影視制作工具Flow,旨在賦能電影制作人和內(nèi)容創(chuàng)作者。Flow允許用戶創(chuàng)建場(chǎng)景、管理素材、編輯故事情節(jié)并控制鏡頭運(yùn)動(dòng)。
Klarna等公司正在使用Veo來提高營(yíng)銷內(nèi)容創(chuàng)作效率,從而顯著縮短制作周期。
數(shù)字營(yíng)銷公司Jellyfish已將Veo集成到其AI營(yíng)銷平臺(tái)Pencil中,并與航空公司合作提供AI生成的機(jī)上娛樂內(nèi)容。
他們報(bào)告稱,平均成本和制作時(shí)間減少了50%。
Veo 3目前還不是免費(fèi)開放,Google Gemini的AI Ultra訂閱者(每月249.99美元)才能使用。
想要體驗(yàn),還得先掏腰包啊。
DeepMind CTO專訪Veo 3、Deep Think與AGI
就在谷歌推出Veo 3的Google I/O 2025開發(fā)者大會(huì)期間,DeepMind的首席技術(shù)官Koray Kavukcuoglu參加了The Big Technology播客。
圖片
節(jié)目中他與主持人Alex Kantrowitz探討了最新的Veo 3、全新的Deep Think增強(qiáng)推理模式及AGI等熱門問題。
圖片
規(guī)模是AGI的全部嗎?
規(guī)模(Scale),是當(dāng)前推動(dòng)AI模型進(jìn)步的「明星」,還是一個(gè)「配角」?
這個(gè)問題,觸及了當(dāng)下大模型發(fā)展的核心。
畢竟,谷歌擁有得天獨(dú)厚的計(jì)算資源,似乎「大力出奇跡」是一條顯而易見的路徑。
Koray承認(rèn)規(guī)模確實(shí)是一個(gè)重要因素,這一點(diǎn)毋庸置疑:在任何研究問題中,擁有一個(gè)能帶來改進(jìn)的維度總是好事。
但他緊接著指出,在生成式AI模型的研究中,規(guī)模絕非唯一,它與其他因素同等重要。
哪些因素呢?Koray列舉了幾個(gè)同樣關(guān)鍵的「維度」:
- 架構(gòu):模型的內(nèi)在結(jié)構(gòu)如何設(shè)計(jì)。
- 算法:驅(qū)動(dòng)模型學(xué)習(xí)和運(yùn)行的算法。
- 數(shù)據(jù)(Data):高質(zhì)量、多樣化的數(shù)據(jù)與其他因素同樣關(guān)鍵。
- 推理階段技術(shù):如何在模型訓(xùn)練完成后,優(yōu)化其推理過程。
他認(rèn)為,評(píng)估模型的進(jìn)步,不能孤立地看規(guī)模,而是要研究規(guī)模、數(shù)據(jù)和參數(shù)數(shù)量這三者的組合。
他強(qiáng)調(diào),整個(gè)領(lǐng)域,包括谷歌內(nèi)部的許多不同模型,都在以顯著的步伐改進(jìn)。他用「相當(dāng)出色」和「非常令人興奮」來形容目前的進(jìn)展。
談到AGI時(shí),主持人引用了著名AI科學(xué)家、圖靈獎(jiǎng)得主Yann LeCun的觀點(diǎn)——僅僅依靠擴(kuò)展大型語言模型(Scaling Up LLM)無法達(dá)到人類水平智能。
Koray回應(yīng)道,這只是一種假設(shè),可能正確也可能不正確。
但他認(rèn)為,沒有哪個(gè)研究實(shí)驗(yàn)室,包括谷歌DeepMind,僅僅專注于擴(kuò)展大語言模型。
這背后蘊(yùn)含的哲理是:實(shí)現(xiàn)AGI,不僅僅是工程上的規(guī)模堆砌,更需要在基礎(chǔ)研究上實(shí)現(xiàn)突破和「發(fā)明」。
Koray認(rèn)為,通往AGI的路上,需要發(fā)明許多「關(guān)鍵要素」和「關(guān)鍵創(chuàng)新」。
AGI是一個(gè)極其雄心勃勃、可能是我們一生中遇到的最難的研究問題,因此,擁有一個(gè)同樣雄心勃勃的研究議程和投資組合,在許多不同的方向上進(jìn)行嘗試,是至關(guān)重要的。
「并行思考」的Deep Think模式
在谷歌I/O大會(huì)期間進(jìn)行的這次訪談,自然不會(huì)錯(cuò)過谷歌的最新技術(shù)發(fā)布。
主持人提到了谷歌宣布的一項(xiàng)新技術(shù):Deep Think。
最初主持人以為這是一個(gè)新產(chǎn)品,但Koray澄清說,Deep Think不是一個(gè)獨(dú)立的產(chǎn)品,而是集成在Gemini 2.5 Pro模型中的一種增強(qiáng)「模式」(mode)。
Deep Think模式的核心在于改變了模型的「思考」方式。它讓模型在推理時(shí)能夠花費(fèi)更多時(shí)間來「思考」。
更重要的是,與傳統(tǒng)推理模型通常構(gòu)建單一思維鏈(CoT)不同,Deep Think增強(qiáng)推理模式構(gòu)建并推理多條并行的思維鏈。
想象一下,傳統(tǒng)模型像一條直線思考,而Deep Think則像擁有多個(gè)并行的大腦,同時(shí)探索不同的可能性、分析不同的假設(shè)。
這無疑是一種更接近人類復(fù)雜思維過程的方式。
當(dāng)被問及模型改進(jìn)的價(jià)值,例如提高10%或50%意味著什么時(shí),Koray認(rèn)為很難簡(jiǎn)單量化。
如果能在數(shù)學(xué)或復(fù)雜推理等領(lǐng)域?qū)⒛P偷睦斫饽芰μ岣?0%,Koray認(rèn)為這將是巨大的進(jìn)步。因?yàn)檫@會(huì)極大地?cái)U(kuò)展模型的通用知識(shí)和適用范圍。
這種提升不僅僅是分?jǐn)?shù)上的增加,而且是質(zhì)的飛躍,意味著模型能夠處理以前無法觸及的問題。
例如,幫助人們學(xué)習(xí)新知識(shí)或解決實(shí)際難題。所以,模型的價(jià)值,最終體現(xiàn)在它能為人類帶來多大的幫助。
多模態(tài)的躍進(jìn)Veo 3
訪談中還提到了谷歌在視頻生成領(lǐng)域的新進(jìn)展,特別是Veo 3模型和Flow。
視頻生成是多模態(tài)AI的一個(gè)生動(dòng)體現(xiàn)。Koray回顧了Veo 3的演進(jìn):
Veo 1到Veo 2主要的進(jìn)展在于理解物理和動(dòng)力學(xué),特別是物體對(duì)象之間的交互作用。
他提到了一個(gè)曾引起廣泛關(guān)注的例子——切番茄視頻,Veo 2生成的切片過程和物體互動(dòng)(刀、番茄、切片掉落)非常精確和逼真。
在此基礎(chǔ)上,Veo 3增加了聲音生成匹配。Koray認(rèn)為這體現(xiàn)了模型對(duì)視覺和聲音之間交互性和互補(bǔ)性的理解。
「氛圍編程」全民創(chuàng)造時(shí)代
訪談的最后,主持人問了一個(gè)輕松但充滿洞察的問題:作為CTO,你是否是「vibe coding」(氛圍編程)的粉絲?
Koray的回答是肯定的,而且充滿了興奮。
他認(rèn)為「vibe coding」令人興奮之處在于,它使得沒有編碼背景的人也能夠構(gòu)建應(yīng)用程序——這打開了一個(gè)全新的世界。
他以學(xué)習(xí)為例,你可以向模型描述你想要一個(gè)什么樣的應(yīng)用來解釋某個(gè)概念,模型就能幫你構(gòu)建出來。
盡管還處于早期,AI有些地方做得好、有些還不足。但Koray認(rèn)為,這是技術(shù)帶來的巨大變革,惠及了更廣泛人群。
不僅僅是程序員的福音,更是所有想要將想法轉(zhuǎn)化為實(shí)際應(yīng)用的人的福音,一個(gè)全民創(chuàng)造的時(shí)代正在到來。
參考資料:
https://x.com/babaeizadeh/status/1924942128851124284
https://x.com/fofrAI/status/1924917797366247719
https://x.com/MartinNebelong/status/1924926779677905014