谷歌I/O大會(huì)武庫(kù)盡出 劍指OpenAI 原創(chuàng) 精華
5 月 14 日凌晨,OpenAI 在首次「春季新品發(fā)布會(huì)」上搬出了新一代旗艦生成模型 GPT-4o、桌面 App,并展示了一系列新能力。這一次,技術(shù)顛覆了產(chǎn)品形態(tài),OpenAI 用行動(dòng)給全世界的科技公司上了一課。OpenAI 的首席技術(shù)官 Mira Murati主要講三件事:
- 第一,以后 OpenAI 做產(chǎn)品就是要免費(fèi)優(yōu)先,為的就是讓更多的人能使用。?
- 第二,因此 OpenAI 此次發(fā)布了桌面版本的程序和更新后的 UI,其使用起來(lái)更簡(jiǎn)單,也更自然。?
- 第三,GPT-4 之后,新版本的大模型來(lái)了,名字叫 GPT-4o。GPT-4o 的特別之處在于它以極為自然的交互方式為每個(gè)人帶來(lái)了 GPT-4 級(jí)別的智能,包括免費(fèi)用戶(hù)。
ChatGPT 的這次更新以后,大模型可以接收文本、音頻和圖像的任意組合作為輸入,并實(shí)時(shí)生成文本、音頻和圖像的任意組合輸出 —— 這才是屬于未來(lái)的交互方式。
最近,ChatGPT 不用注冊(cè)也可以使用了,今天又增加了桌面程序,OpenAI 的目標(biāo)就是讓人們可以隨時(shí)隨地的無(wú)感使用它,讓 ChatGPT 集成在你的工作流中, AI 現(xiàn)在就是生產(chǎn)力了。
GPT-4o 是面向未來(lái)人機(jī)交互范式的全新大模型,具有文本、語(yǔ)音、圖像三種模態(tài)的理解力,反應(yīng)極快還帶有感情,也很通人性。
前一晚 OpenAI 發(fā)布了 ChatGPT-4o 后,壓力就給到了 Google I/O 。如果說(shuō)2023年的I/O大會(huì)是谷歌在AI領(lǐng)域的背水一戰(zhàn),今年的I/O大會(huì)上皮查雖然靠著自家的Gemini等產(chǎn)品逐步追上OpenAI,但形勢(shì)卻難稱(chēng)喜人。過(guò)去一年里,就算祭出免費(fèi)兩個(gè)月的大殺器,Gemini的用戶(hù)量也不過(guò)是ChatGPT的1/5,每每有新品上市,必然被OpenAI截胡。
而 Google 則通過(guò)近 2 個(gè)小時(shí)的發(fā)布會(huì),提了 121 次 AI ,推出了十余種新品及升級(jí),可謂火力全面覆蓋,全面對(duì)標(biāo)OpenAI在AI各領(lǐng)域上的發(fā)展,但給人的驚喜卻并不多。
我們先給大家一次性總結(jié)這場(chǎng)發(fā)布會(huì)的亮點(diǎn),更多功能解析請(qǐng)接著往下看。
發(fā)布會(huì)要點(diǎn):
Google Search AI:發(fā)布了 AI Overviews,加強(qiáng)版 AI 搜索概要功能,多步推理能力上架。
Gemini 大模型:Gemini 1.5 Flash(100 萬(wàn)上下文);Gemini Pro(200 萬(wàn)上下文)。
Gemma 大模型:發(fā)布開(kāi)源多模態(tài)大模型 Pali Gemma 和 Gemma2。
AI in Google Workspace:用 Gemini 的能力和 Side Panel 的形式,將 Google 系列產(chǎn)品串在一起。
Gemini App:手機(jī)版的 Gemini 應(yīng)用程序,即將支持和 AI 視頻對(duì)話,近幾周發(fā)布。
Project Astra:最新的多模態(tài) AI 項(xiàng)目,包含 Imagen3、 Music AI Sandbox 和 Veo 等針對(duì)圖像、音樂(lè)、視頻的生成式 AI。
與OpenAI的僅半個(gè)小時(shí),集中在產(chǎn)品介紹的發(fā)布會(huì)完全不同,谷歌的I/O骨子里就透著一種武庫(kù)盡出,拼死一戰(zhàn)的意思。
很多產(chǎn)品單看Demo還是有著不錯(cuò)的完成度,但整場(chǎng)發(fā)布會(huì)沒(méi)有一點(diǎn)像GPT-4o帶來(lái)那樣的驚艷感。因?yàn)樗麄儼l(fā)布的大多數(shù)是追趕那些OpenAI已有的東西,沒(méi)人會(huì)為一些別人已經(jīng)做到的事情感到驚艷。連帶發(fā)布和新升級(jí)的AI相關(guān)產(chǎn)品有14項(xiàng):
首先是模型性能,谷歌通過(guò)數(shù)據(jù)和算法改進(jìn)增強(qiáng)了其代碼生成、邏輯推理和計(jì)劃、多回合對(duì)話以及音頻和圖像理解能力。最新版本的 1.5 Pro 在多個(gè)benchmark中取得了Sota的成績(jī),谷歌揚(yáng)眉吐氣。
上下文方面,谷歌還把新Gemini 1.5 Pro 的上下文窗口從業(yè)界最高的100萬(wàn)token 擴(kuò)展到合300本書(shū)的200萬(wàn)token。三個(gè)月就提升一倍,谷歌的表現(xiàn)證明了上下文的問(wèn)題在今年看起來(lái)已經(jīng)不再是什么門(mén)檻了。
在多模態(tài)支持上,Gemini Pro現(xiàn)在還把語(yǔ)音理解這個(gè)過(guò)去的短板部分進(jìn)行了補(bǔ)齊,Gemini 1.5 Pro也進(jìn)行了一輪更新。后續(xù)宣布的Gemini 1.5 Flash的主要特色——快速反應(yīng)和昨天的GPT-4o完美撞車(chē),本該有的驚艷感被完全破壞了。
從功能上看,Gemini 1.5 Flash雖然它比 1.5 Pro 輕量化,但它也能夠跨大量信息進(jìn)行多模態(tài)推理,并且擅長(zhǎng)摘要、聊天、圖像和視頻字幕、長(zhǎng)文檔和表格的數(shù)據(jù)提取等工作。Flash 通過(guò)一種稱(chēng)為“蒸餾”的過(guò)程,從較大的模型中傳遞最重要的知識(shí)和技能到較小、更高效的模型,實(shí)現(xiàn)了速度的提升。
這里展示的能力是需要Agent支持的,因此谷歌的下一個(gè)重磅產(chǎn)品是Project Astra。谷歌將其定義為自己的Agent戰(zhàn)略的核心。
它是一種Agent 框架:為了真正有用,Agent需要像人類(lèi)一樣理解和響應(yīng)復(fù)雜多變的世界——并且記住它看到和聽(tīng)到的內(nèi)容以理解上下文并采取行動(dòng)。它還需要具有主動(dòng)性、可教性和個(gè)性化,這樣用戶(hù)可以自然地與它交流而不會(huì)有滯后或延遲。低延遲的要求,讓你可以把Astra理解成Gemini Light 的Agent形式。在谷歌的展示中,它的最佳形態(tài)就是個(gè)人助手。
谷歌通過(guò)持續(xù)編碼視頻幀、將視頻和語(yǔ)音輸入結(jié)合到事件時(shí)間線上,并緩存這些信息以實(shí)現(xiàn)高效回憶來(lái)更快地處理信息,就是能與視頻交互,還有時(shí)間記憶。通過(guò)語(yǔ)音模型,谷歌還增強(qiáng)了Astra的聲音,使Agent具有更廣泛的語(yǔ)調(diào),讓這些Agent可以更好地理解它們所處的上下文,并在對(duì)話中快速響應(yīng)。
從演示上看,Astra的視覺(jué)理解能力確實(shí)讓人似曾見(jiàn)過(guò)。除了這兩個(gè)核心模型更新外,谷歌還宣布了前一陣大火的開(kāi)源模型Gemma 的2.0版本,270億參數(shù)。并為它拓展了PaliGemma這個(gè)多模態(tài)版本。
除了文生視頻模型的新公開(kāi),谷歌還推出了文生圖像模型Imagen 3。從細(xì)節(jié)擬真度來(lái)看與Midjourney v6能達(dá)到同一級(jí)別,比起Dalle-3更勝一籌。而且在對(duì)細(xì)節(jié)的跟隨上也要更細(xì)致。
音樂(lè)生成方面,去年驚艷眾人的期貨Lydia到這場(chǎng)發(fā)布會(huì)為止還是期貨。谷歌又給他加了個(gè)新拓展 Music AI Sandbox,一套音樂(lè) AI 工具。這些工具旨在為創(chuàng)意打開(kāi)新的游樂(lè)場(chǎng),讓人們從頭開(kāi)始創(chuàng)作新的器樂(lè)部分,以新的方式轉(zhuǎn)換聲音等等。
最后,谷歌介紹了自己的視頻生成模型——Veo 。它屬于谷歌之前的一系列視頻生成嘗試的集大成者:融合了WALT、VideoPoet、Lumiere這幾款在Sora之前發(fā)布的明星文生視頻模型的長(zhǎng)處。
Veo可以生成高質(zhì)量的 1080p 分辨率視頻,超過(guò)一分鐘,涵蓋廣泛的電影和視覺(jué)風(fēng)格。從示例視頻上看,Veo生成的畫(huà)面相當(dāng)一致且連貫,具有對(duì)自然語(yǔ)言和視覺(jué)語(yǔ)義的高級(jí)理解能力,能夠生成與用戶(hù)創(chuàng)意愿景緊密匹配的視頻——準(zhǔn)確呈現(xiàn)詳細(xì)的長(zhǎng)提示并捕捉情感。
從質(zhì)量上講,谷歌的Veo和Sora足有一戰(zhàn)之力。和Sora一樣,Veo 只會(huì)將作為 VideoFX 內(nèi)的私人預(yù)覽版提供給少量創(chuàng)作者,一般用戶(hù)可以報(bào)名加入候補(bǔ)隊(duì)列。不過(guò)這也說(shuō)明,靠著VEo,現(xiàn)在谷歌和OpenAI已經(jīng)進(jìn)入了誰(shuí)能首先壓縮成本,把這一技術(shù)推向toC領(lǐng)域的同一場(chǎng)競(jìng)賽了。
AI搜索可以說(shuō)是谷歌的必爭(zhēng)之地。從去年一年來(lái)看,新興的AI搜索雖然獲得了不少用戶(hù),但基本上沒(méi)有動(dòng)搖到谷歌搜索的根基。谷歌的AI搜索服務(wù)ESG從去年五月到現(xiàn)在,整整公布一年時(shí)間后總算從今天起向公眾開(kāi)放使用了。這個(gè)更強(qiáng)的AI搜索引擎被谷歌命名為AI Overview,但僅限美國(guó),其他國(guó)家還得排隊(duì)等著開(kāi)。
從Demo展示來(lái)看,谷歌搜索在功能上的創(chuàng)新不算多,主要集中在多模態(tài)。
首先,用戶(hù)將能夠通過(guò)簡(jiǎn)化語(yǔ)言或更詳細(xì)地分解來(lái)調(diào)整 AI 搜索結(jié)果概述。這個(gè)功能并不新,現(xiàn)在主流的AI搜索產(chǎn)品也會(huì)區(qū)分快捷回復(fù)和更深入的研究模式。
其次,借助 Gemini 的多步推理能力,AI 搜索可以一次性處理復(fù)雜的多步,乃至多問(wèn)題。比如說(shuō),當(dāng)用戶(hù)尋找一個(gè)新的瑜伽或普拉提工作室,用戶(hù)希望找到受當(dāng)?shù)厝藲g迎,方便用戶(hù)的通勤,并且還提供新會(huì)員折扣的選項(xiàng)。
同樣構(gòu)建在多步推理能力之上的是AI搜索的計(jì)劃能力。通過(guò)AI搜索中的計(jì)劃功能,你可以直接在搜索里獲得一個(gè)完整的計(jì)劃。比如搜索類(lèi)似“為一群人創(chuàng)建一個(gè)易于準(zhǔn)備的三天餐飲計(jì)劃”,您將獲得一個(gè)起點(diǎn),包含來(lái)自網(wǎng)絡(luò)各處的各種食譜。這是其他搜索軟件暫時(shí)還沒(méi)有專(zhuān)精的能力。
GPT-4o生成的版本
谷歌生成的版本
最后是靈感延展功能,就是AI搜索在創(chuàng)建一個(gè) AI 組織的結(jié)果頁(yè)面,使您更容易探索。在問(wèn)了一個(gè)問(wèn)題后,谷歌搜索將會(huì)延展到其他可能你感興趣的結(jié)果,按獨(dú)特的 AI 生成標(biāo)題分類(lèi),展示廣泛的視角和內(nèi)容類(lèi)型。
這種聯(lián)想搜索能力也已經(jīng)是AI搜索的某種標(biāo)配了,但谷歌對(duì)這個(gè)功能做了更好的結(jié)構(gòu)化??縂emini的多模態(tài)功能,谷歌可以做到利用聲音搜歌曲,利用圖片搜產(chǎn)品。甚至可以用Circle to Secarch 功能圈出圖片中的一部分去搜索。
AI還能結(jié)合視頻進(jìn)行搜索。谷歌舉了個(gè)范例,比如用戶(hù)在舊貨店買(mǎi)了一臺(tái)唱片機(jī),但打開(kāi)時(shí)無(wú)法工作,帶有針頭的金屬部件在意外漂移。用視頻搜索能節(jié)省了用戶(hù)找到合適詞語(yǔ)來(lái)描述這個(gè)問(wèn)題的時(shí)間和麻煩。
模型產(chǎn)品還多少讓人看出谷歌的保守態(tài)勢(shì)。
你可以通過(guò) Side Panel功能總結(jié)一系列郵件,可以總結(jié)你的賬單,形成一個(gè)Sheet,自動(dòng)回復(fù)郵件,可以從確認(rèn),回絕,擱置三種可能中選。
其他的更新,包括在聊天軟件里的虛擬員工Chip,能力基本沒(méi)超過(guò)前幾個(gè)月我們?cè)趪?guó)內(nèi)看到的各種辦公軟件Agent的演示。
模型產(chǎn)品里最重要的更新就是Gmini Live。這是一個(gè)移動(dòng)對(duì)話助理性產(chǎn)品,通過(guò) Gemini Live,用戶(hù)可以與 Gemini 對(duì)話,并選擇它可以用來(lái)回應(yīng)的各種自然聲音。用戶(hù)甚至可以按照自己的節(jié)奏說(shuō)話或在回答中途打斷以提出澄清問(wèn)題,就像您在任何對(duì)話中一樣。
通過(guò)描述希望 Gem 做什么以及希望它如何回應(yīng),例如“你是我的跑步教練,給我一個(gè)每日跑步計(jì)劃,并保持積極、樂(lè)觀和激勵(lì)的態(tài)度?!保珿emini 將根據(jù)這些指示進(jìn)行增強(qiáng),以創(chuàng)建一個(gè)符合您特定需求的 Gem。
去年上線的API擴(kuò)展功能將再次擴(kuò)大,例如正在推出的 YouTube Music 擴(kuò)展、Tasks 和 Keep。全是谷歌自家的服務(wù)。就算加上這些新拓展,和其他Agent產(chǎn)品支持的API庫(kù)也完全無(wú)法同日而語(yǔ)。
本次Android AI重點(diǎn)是介紹了Gemini的手機(jī)應(yīng)用,可以和手機(jī)上正在展示的內(nèi)容進(jìn)行互動(dòng)。比如閱讀打開(kāi)的PDF,從你正在看的YouTube頻道反饋問(wèn)題。
在這次發(fā)布會(huì)上,所有的AI模型都是由谷歌最新的TPU——Trillium TPU訓(xùn)練的。相較于前代,它的進(jìn)步還是非常明顯的。Trillium實(shí)現(xiàn)了每芯片峰值計(jì)算性能的 4.7 倍提升,比 TPU v5e 提高了一倍。
Trillium 配備了第三代 SparseCore,這是一種專(zhuān)門(mén)用于處理超大嵌入的加速器,常見(jiàn)于先進(jìn)的排序和推薦工作負(fù)載中。Trillium TPU 使訓(xùn)練下一波基礎(chǔ)模型更快,并以更低的延遲和更低的成本服務(wù)這些模型。Trillium 可以擴(kuò)展到一個(gè)包含 256 個(gè) TPU 的單個(gè)高帶寬低延遲 Pod。另外,能耗上Trillium TPU 比 TPU v5e 的能源效率提高了 67% 以上,省電能力一流。
這場(chǎng)發(fā)布會(huì),我們想看新的、有競(jìng)爭(zhēng)力的產(chǎn)品,谷歌卻在不停的播片。從創(chuàng)作者感受,到體驗(yàn)演示,就是沒(méi)有產(chǎn)品細(xì)部的表現(xiàn)。甚至在很多地方是重復(fù)的,很多產(chǎn)品在不同位置被多次提到并展示。
我們更多的從它的搜索產(chǎn)品,模型產(chǎn)品上看到了谷歌的疲態(tài),創(chuàng)新的缺失。本想看巔峰對(duì)決,但實(shí)際上昨天這場(chǎng)對(duì)決就已經(jīng)結(jié)束了。這當(dāng)然有OpenAI截胡的原因,但25分鐘,三個(gè)產(chǎn)品的發(fā)布會(huì),就足夠破壞谷歌這兩個(gè)小時(shí)里的十多個(gè)產(chǎn)品發(fā)布更新所帶來(lái)的所有驚喜。
這說(shuō)明了什么問(wèn)題?
毫無(wú)疑問(wèn),谷歌的技術(shù)力還在,那些模型都很能打。但那些讓人贊嘆的技術(shù)突破,讓人興奮的產(chǎn)品演示,都沒(méi)有了。有的只是可預(yù)期的表現(xiàn),難超同行的功能。在一個(gè)新技術(shù)的時(shí)代,一個(gè)無(wú)比需要去開(kāi)創(chuàng)可能性的時(shí)代中,想象力可能才是最重要的。
本文轉(zhuǎn)載自公眾號(hào)數(shù)字化助推器 作者:天涯咫尺TGH
