GPT-4大殺器谷歌Gemini來(lái)襲!26位研發(fā)大佬名單曝出,祭出類Midjourney生圖能力
谷歌的全新大殺器Gemini,即將和全世界見(jiàn)面了!
據(jù)傳,Gemini不僅能像GPT-4一樣可以進(jìn)行文本對(duì)話,還融合了Midjourney、Stable Diffusion的能力,能夠生成圖像。

為了對(duì)抗OpenAI,谷歌CEO劈柴在今年4月邁出了絕非尋常的一步,將擁有完全不同文化和代碼的團(tuán)隊(duì)——谷歌大腦和DeepMind合并。
現(xiàn)在,集結(jié)了數(shù)百位工程師的谷歌復(fù)仇者聯(lián)盟已經(jīng)全軍待命,日夜趕工,只為狙擊OpenAI的GPT-4,一舉重奪AI領(lǐng)域的頭把交椅。
谷歌創(chuàng)始人謝爾蓋·布林也已重回戰(zhàn)壕,親自操刀Gemini的訓(xùn)練。
據(jù)稱,今年秋天,Gemini就會(huì)面世,而谷歌的考驗(yàn)也即將到來(lái)。

復(fù)仇者聯(lián)盟名單已被曝出
押注Gemini,打造GPT-4最強(qiáng)殺手
根據(jù)知情人士的爆料,Gemini將LLM的文本能力與文生圖的能力相結(jié)合。
也就是說(shuō),它相當(dāng)于GPT-4和Midjourney/Stable Diffusion的合體版。

這也是外界首次聽(tīng)說(shuō),Gemini具有如此強(qiáng)大的繪圖能力。
另外,它還能夠提供分析圖表、創(chuàng)建帶有文本描述的圖形、使用文本或語(yǔ)音命令控制軟件。
在6月底,谷歌DeepMind CEO Hassabis也曾爆料,Gemini將結(jié)合進(jìn)AlphaGo和大語(yǔ)言模型,而谷歌DeepMind已經(jīng)準(zhǔn)備好砸進(jìn)數(shù)千萬(wàn)美元,甚至數(shù)億。
Gemini會(huì)整合使用了強(qiáng)化學(xué)習(xí)和樹(shù)搜索的AlphaGO,以及機(jī)器人、神經(jīng)科學(xué)等領(lǐng)域的技術(shù)。
圖片
可以說(shuō),谷歌把重注押在了Gemini身上,Gemini會(huì)為Bard聊天機(jī)器人提供動(dòng)力,推動(dòng)Google Docs、Slides等企業(yè)級(jí)應(yīng)用。
另外,谷歌還希望通過(guò)云服務(wù)器租賃服務(wù),向開(kāi)發(fā)者收取訪問(wèn)Gemini的費(fèi)用。

目前,谷歌云通過(guò)Vertex AI產(chǎn)品售賣對(duì)谷歌AI模型的訪問(wèn)
如果這些新功能實(shí)現(xiàn),谷歌很有可能會(huì)趕上微軟。
畢竟,微軟在AI產(chǎn)品上已經(jīng)領(lǐng)先不少,Office 365應(yīng)用中包含AI功能,其應(yīng)用程序也會(huì)對(duì)用戶出售對(duì)ChatGPT的訪問(wèn)權(quán)限。
彭博社風(fēng)投分支Bloomberg Beta的AI初創(chuàng)企業(yè)投資人James Cham對(duì)彭博社表示,「過(guò)去9個(gè)月里,每個(gè)人都在問(wèn)這樣一個(gè)問(wèn)題:什么時(shí)候才能有一家公司,看起來(lái)有趕超OpenAI的可能?」
「現(xiàn)在,終于似乎有一個(gè)模型,可以和GPT-4旗鼓相當(dāng)了?!?/span>
谷歌,被迫走出舒適區(qū)
隨著OpenAI的崛起,谷歌也不得不在保證核心搜索業(yè)務(wù)的情況下,試著推出新的技術(shù)了。
據(jù)內(nèi)部人士透露,在推出Gemini之前,谷歌很可能就會(huì)在某些產(chǎn)品中使用它。
過(guò)去,谷歌會(huì)使比較簡(jiǎn)單的模型來(lái)改進(jìn)搜索,但是像Bard以及Gemini這樣的產(chǎn)品,需要通過(guò)分析大量圖像和文本,來(lái)生成更像人類的回答。
如此海量數(shù)據(jù)所帶來(lái)的潛在巨額服務(wù)器成本,也是谷歌必須要控制的。

更新之后的Bard,更強(qiáng)大了
手握YouTube的優(yōu)勢(shì)
根據(jù)The Information報(bào)道,谷歌對(duì)Gemini進(jìn)行了大量YouTube視頻的訓(xùn)練。

并且,Gemini還可以把音頻和視頻集成到模型自身,形成多模態(tài)能力,而后者,已經(jīng)被許多研究者認(rèn)為是AI的下一個(gè)前沿。
比如,根據(jù)YouTube視頻訓(xùn)練的模型,可以幫助機(jī)械師根據(jù)視頻診斷汽車的維修問(wèn)題。
或者可以根據(jù)用戶想要?jiǎng)?chuàng)建網(wǎng)站或應(yīng)用程序的草圖,來(lái)生成軟件代碼。此前,OpenAI曾展示了GPT-4的這項(xiàng)功能,但目前尚未推出。

OpenAI老板Greg Brockman曾演示GPT-4讀圖寫網(wǎng)頁(yè)代碼的能力,但似乎鴿了
使用YouTube內(nèi)容,還可以幫助谷歌開(kāi)發(fā)更先進(jìn)的文本轉(zhuǎn)視頻軟件,根據(jù)用戶想看的內(nèi)容描述,自動(dòng)生成詳細(xì)的視頻。
這類似于谷歌支持的初創(chuàng)公司RunwayML正在開(kāi)發(fā)的技術(shù),現(xiàn)在好萊塢的內(nèi)容創(chuàng)作者們都在密切關(guān)注這項(xiàng)技術(shù)的發(fā)展。
Google DeepMind,發(fā)起全面反擊
2011年,谷歌創(chuàng)立了谷歌大腦(Google Brain),旨在構(gòu)建起谷歌自己的AI,來(lái)優(yōu)化搜索的結(jié)果、廣告精準(zhǔn)投放,以及在Gmail中的自動(dòng)填充等功能。
而位于倫敦的DeepMind則更多地致力于學(xué)術(shù)研究——2016年Alpha Go以4比1的成績(jī)戰(zhàn)勝了李世石,這項(xiàng)工作被人們視為通向通用人工智能(AGI)道路上的重要里程碑。
谷歌除了會(huì)用DeepMind開(kāi)發(fā)的軟件提高數(shù)據(jù)中心的運(yùn)行效率外,DeepMind的工作并沒(méi)有對(duì)其核心產(chǎn)品產(chǎn)生太大影響。
但在去年年底,一切都改變了。

2022年11月,OpenAI發(fā)布了ChatGPT,短短幾周內(nèi)用戶人數(shù)飆升到了數(shù)千萬(wàn),之后更是達(dá)成了用戶破億最短時(shí)間的成就。
幾個(gè)月內(nèi),OpenAI的收入就達(dá)到數(shù)億美元,并且在這期間微軟新投資了100億美元、數(shù)不清的資本熱錢向著OpenA流去,OpenAI的市值、知名度都達(dá)到了一個(gè)前所未有的高度。

這時(shí),谷歌才意識(shí)到,自己在AI領(lǐng)域的領(lǐng)導(dǎo)地位已經(jīng)岌岌可危了。
谷歌大腦+DeepMind=?
今年4月,陷入被動(dòng)的谷歌放出終極大招:谷歌大腦和DeepMind正式合并!

「王不見(jiàn)王」的兩大部門居然合體了,這一舉動(dòng)也是讓瓜眾們驚掉了下巴。

合并后的Google DeepMind將由DeepMind首席執(zhí)行官Demis Hassabis領(lǐng)導(dǎo),而前谷歌AI負(fù)責(zé)人Jeff Dean接任首席科學(xué)家一職。

現(xiàn)在,至少有26名大佬正在負(fù)責(zé)Gemini的開(kāi)發(fā),這些人包括曾在谷歌大腦和DeepMind工作的研究人員。
知情人士稱, DeepMind的兩位高管Oriol Vinyals和Koray Kavukcuoglu,將和前谷歌大腦負(fù)責(zé)人Jeff Dean一起負(fù)責(zé)Gemini的開(kāi)發(fā)。他們將監(jiān)督數(shù)百名參與Gemini開(kāi)發(fā)的員工。

另外,谷歌的聯(lián)合創(chuàng)始人謝爾蓋·布林也老將出馬,久違地回歸了。

謝爾蓋·布林和拉里·佩奇
他一直在對(duì)Gemini模型進(jìn)行評(píng)估,并幫助員工訓(xùn)練模型。
據(jù)爆料,在團(tuán)隊(duì)發(fā)現(xiàn)Gemini意外地接受了潛在打擊性內(nèi)容的訓(xùn)練后,布林也參與到了重新訓(xùn)練模型的技術(shù)決策過(guò)程中。
「意外聯(lián)姻」的陣痛
隨著谷歌大腦和DeepMind的合并,新團(tuán)隊(duì)很快就遇到了非常嚴(yán)峻的問(wèn)題——代碼怎么合并,用誰(shuí)家的軟件開(kāi)發(fā)?
畢竟,這兩個(gè)部門的代碼庫(kù)在之前是完全獨(dú)立的。
雖然雙方在各讓一步之后達(dá)成了妥協(xié):
- 在模型的預(yù)訓(xùn)練階段,使用谷歌大腦用于訓(xùn)練機(jī)器學(xué)習(xí)模型的軟件Pax
- 在后期階段,使用DeepMind用于開(kāi)發(fā)模型的軟件Core Model Strike
但據(jù)內(nèi)部人士爆料,還是有不少員工因?yàn)椴坏貌皇褂米约翰皇煜さ能浖鴳崙嵅黄健?/span>

除此之外,谷歌和DeepMind都針對(duì)ChatGPT開(kāi)發(fā)了自己的模型。
DeepMind著手開(kāi)展了一個(gè)代號(hào)為Goodall的項(xiàng)目,旨在使用未公開(kāi)模型Chipmunk的不同變體來(lái)開(kāi)發(fā)一個(gè)與ChatGPT競(jìng)爭(zhēng)的系統(tǒng)。而谷歌大腦則開(kāi)發(fā)立項(xiàng)了Gemini。
最終,DeepMind決定放棄自己原先的努力,選擇基于谷歌大腦的項(xiàng)目合作開(kāi)發(fā)Gemini。
有趣的是,在遠(yuǎn)程工作的政策上,據(jù)說(shuō)谷歌大腦的態(tài)度也要比DeepMind寬松得多。
內(nèi)耗、狼狽、反攻
比起OpenAI那邊的形勢(shì)一片大好,谷歌則陷入了一場(chǎng)精疲力盡的內(nèi)耗中。
先是一連多個(gè)高級(jí)技術(shù)人才出走,如Liam Fedus、Barret Zoph和Luke Metz等在內(nèi)的研究人員,紛紛選擇加入OpenAI。
雖然谷歌找回了一些人才:比如重新招回了Jacob Devlin和Jack Rae。
Jacob Devlin批評(píng)Bard的開(kāi)發(fā)后,在今年1月份去了OpenAI。而Jack Rae是前DeepMind的研究員,在2022年加入了OpenAI。

此前,Devlin向劈柴、Dean等高管表達(dá)了對(duì)Bard團(tuán)隊(duì)使用ChatGPT數(shù)據(jù)訓(xùn)練的擔(dān)憂,隨后辭職
接著,谷歌為了對(duì)抗一枝獨(dú)秀的ChatGPT,也為了重回人工智能賽道領(lǐng)航者的地位,在今年2月的時(shí)候匆忙發(fā)布了聊天機(jī)器人Bard。
然而,發(fā)布會(huì)卻因一個(gè)低級(jí)的事實(shí)性錯(cuò)誤慘遭翻車,導(dǎo)致公司的市值在一夜之間蒸發(fā)了千億美元。
谷歌的第一次反攻,以狼狽收尾。

到了5月,谷歌I/O大會(huì)上發(fā)布了全新的PaLM 2模型,大大改進(jìn)了Bard回答問(wèn)題和生成代碼的能力。
同時(shí)發(fā)布的,還有將生成式AI和自己傳統(tǒng)搜索服務(wù)結(jié)合起來(lái)的Search Generative Experience(SGE)。
簡(jiǎn)單來(lái)說(shuō),SGE是一個(gè)類似Bing Chat的AI搜索服務(wù),但并沒(méi)有直接使用新的聊天窗口,而是將AI生成的內(nèi)容集合在搜索結(jié)果中展示給用戶。

也就是說(shuō),在搜索的同時(shí),谷歌會(huì)利用AI為搜索的內(nèi)容提供說(shuō)明,回答用戶提出的問(wèn)題,幫用戶做旅行規(guī)劃等等。
而用戶不再需要貨比三家般的在多個(gè)鏈接之間來(lái)回跳轉(zhuǎn),也不用花心力去判斷哪個(gè)鏈接背后的信息是真的,因?yàn)樗锌捎玫膬?nèi)容都被集中到了AI收集到的回復(fù)之中。

在最近的更新中,谷歌添加了讓SGE在AI生成的回復(fù)內(nèi)容中附加圖片和視頻的功能,幫助用戶更加直觀的了解自己搜索的知識(shí)和信息。
就像Bing Chat一樣,SGE的AI響應(yīng)中也會(huì)有標(biāo)注了發(fā)布時(shí)間的鏈接,來(lái)支持由AI生成的回復(fù)內(nèi)容。如果用戶對(duì)于相關(guān)的信息感興趣,點(diǎn)擊鏈接就能更加全面地了解具體的內(nèi)容。
在AI生成的回復(fù)中,對(duì)于很多知識(shí)性的信息和概念,用戶能夠直接通過(guò)鼠標(biāo)的懸停,就能獲取到概念準(zhǔn)確的定義。
現(xiàn)在針對(duì)科學(xué),歷史,經(jīng)濟(jì)等知識(shí)性問(wèn)題的AI回復(fù),都已經(jīng)上線這個(gè)功能。

而對(duì)于需要瀏覽很冗長(zhǎng)的網(wǎng)頁(yè)信息來(lái)學(xué)習(xí)或者了解信息的用戶,SGE還更新了一個(gè)網(wǎng)頁(yè)內(nèi)的AI概括功能——SGE while browsing。
這個(gè)功能相當(dāng)于給用戶提供了一個(gè)隨時(shí)聽(tīng)候差遣的「大綱生成器」。對(duì)于任何篇幅比較長(zhǎng)的網(wǎng)頁(yè)內(nèi)容,用戶都可以用它來(lái)生成大綱,快速掌握要點(diǎn)。
在下方的Explore the Page部分,用戶還能看到和頁(yè)面內(nèi)容相關(guān)的問(wèn)題。如果用戶對(duì)于問(wèn)題感興趣,直接點(diǎn)擊,就能看到文章中內(nèi)容是如何解答這些問(wèn)題的。

然而,是由于谷歌保守的市場(chǎng)策略,SEG目前只允許美國(guó)本土的用戶采用Waiting List申請(qǐng)測(cè)試。
所以可能大部分用戶甚至都不知道,谷歌已經(jīng)推出了這樣一個(gè)服務(wù)。
總之,據(jù)悉兩部門合體后,至少測(cè)試了21項(xiàng)生成式AI工具,甚至還包含為用戶提供生活建議和心理輔導(dǎo)的工具。

在去年緊急解雇了聲稱聊天AI有意識(shí)的工程師的谷歌,現(xiàn)在居然也開(kāi)始探索這類「敏感」地帶,可見(jiàn)真的是決定放手一搏了。
Gemini項(xiàng)目,目前形勢(shì)大好
不過(guò),兩個(gè)團(tuán)隊(duì)的合并,對(duì)于一些正在負(fù)責(zé)Gemini項(xiàng)目的工程師來(lái)說(shuō),確實(shí)是個(gè)不小的驚喜。
曾在DeepMind工作的James Molloy和Tom Hennigan與谷歌資深研究員Paul Barham一起負(fù)責(zé)基礎(chǔ)設(shè)施。
Timothy Lillicrap曾在DeepMind從事國(guó)際象棋和圍棋方面的系統(tǒng)開(kāi)發(fā)工作,而谷歌大腦的研究員Emily Pitler則領(lǐng)導(dǎo)一個(gè)團(tuán)隊(duì),專注于使LLM具備處理數(shù)學(xué)或網(wǎng)絡(luò)搜索等專門任務(wù)的能力。
但除了合并組織中的人員安排問(wèn)題,Gemini團(tuán)隊(duì)在開(kāi)發(fā)過(guò)程中還面臨著巨大的挑戰(zhàn),如確定可以用于模型訓(xùn)練的數(shù)據(jù)等。
因此,谷歌的律師們一直在密切評(píng)估這項(xiàng)訓(xùn)練工作。
在一個(gè)案例中,由于擔(dān)心版權(quán)持有者的反對(duì)意見(jiàn),律師們要求研究人員刪除了來(lái)自教科書(shū)的訓(xùn)練數(shù)據(jù)。
而這些數(shù)據(jù)本可以幫助訓(xùn)練模型回答有關(guān)天文學(xué)或生物學(xué)等領(lǐng)域的問(wèn)題。
不過(guò),谷歌前高管、VC公司Felicis Ventures的創(chuàng)始人Aydin Senkut評(píng)價(jià)Gemini的發(fā)布讓他看到了「谷歌決心再次走在最前沿,而不是極度保守」。
Aydin Senkut也十分贊同谷歌的決定:
「這是正確的方向。最終,他們會(huì)火的。」







































