小扎自曝愿開源100億美元模型!2025年AGI沒戲,能源短缺成最大瓶頸
如果你手頭有一個(gè)價(jià)值100億美元的AI模型,通過了安全測(cè)試且讓所有人受益,你愿意將它開源嗎?
這個(gè)問題會(huì)讓許多人陷入良久的思考,但小扎沒有猶豫,他的回答是——我愿意!
這個(gè)驚人的言論,出自最近小扎在Dwarkesh Patel播客中的談話。

此外,這期干貨滿滿的談話中,他還曝出了不少內(nèi)幕消息,比如Meta為何會(huì)未卜先知,在2022年就大量買進(jìn)H100;為何自己會(huì)篤信元宇宙等等。
而且,跟Sam Altman、馬斯克等高歌猛進(jìn)的樂觀主義者不同,小扎對(duì)于AGI的短期實(shí)現(xiàn)是持悲觀態(tài)度的。
在他看來,人類根本不可能在2025年之前實(shí)現(xiàn)AGI,因?yàn)樽畲蟮钠款i就是能源限制。要解決能源問題,我們還需要幾十年時(shí)間。
開源價(jià)值100億美元的AI模型,我愿意
當(dāng)主持人Patel問道:如果Meta砸了100億美元開發(fā)出一個(gè)模型,它完全安全,甚至評(píng)估值還可以對(duì)模型微調(diào),你會(huì)開源嗎?
小扎堅(jiān)定不移地表示:會(huì)。
主持人魯豫臉表示不信:「花了100億美元研發(fā)費(fèi)用的模型,真的說開源就開源?」
小扎表示,Meta會(huì)對(duì)此進(jìn)行評(píng)估的,畢竟公司一向以開源英雄著稱,在開源方面有悠久的歷史,擁有PyTorch、React和開放計(jì)算等項(xiàng)目。
在開放計(jì)算項(xiàng)目中,Meta將所有服務(wù)器、網(wǎng)絡(luò)交換機(jī)和數(shù)據(jù)中心的設(shè)計(jì)都開源了。這樣,整個(gè)行業(yè)都以他們的設(shè)計(jì)為標(biāo)準(zhǔn),直接讓供應(yīng)鏈圍繞這種設(shè)計(jì)建立起來。
這就大大降低了價(jià)格,直接為相關(guān)人員節(jié)省了數(shù)十億美元。
而且,開源就能集思廣益,如果有人能找到更便宜的運(yùn)行方法,提升10%的效率,那就能直接節(jié)省數(shù)十億甚至數(shù)百億美元,這本身就是很值錢的,因此開源好處多多。
不過,他也承認(rèn):如果模型成為產(chǎn)品時(shí),情況就變得復(fù)雜了。此時(shí),就需要仔細(xì)權(quán)衡開源在經(jīng)濟(jì)上的利弊,不過,目前Meta并不處于這種情況。
這是顯而易見的,因?yàn)镸eta絕對(duì)不會(huì)把Instagram的代碼開源。
蘋果和谷歌是糟糕的守門人
同時(shí),小扎也痛批了競爭對(duì)手一把。
他表示,移動(dòng)生態(tài)最糟糕的一點(diǎn)就是,我們可以開發(fā)什么,是由蘋果和谷歌這兩個(gè)守門人把門的。
因?yàn)槊慨?dāng)Meta構(gòu)建出一些產(chǎn)品,這倆就會(huì)分走一大筆錢。
更讓小扎不滿的是,很多次Meta想要推出新產(chǎn)品或新功能,蘋果都會(huì)說不行。
小扎直呼:如果世界里只有這幾家運(yùn)行封閉模型的公司,它們將直接控制API!
就是為了打破這種局面,Meta深信自己去構(gòu)建一個(gè)模型是值得的。
對(duì)此,Ate-a-Pi開玩笑道:因?yàn)樵瞬袷莻€(gè)好人!

當(dāng)然,他確實(shí)是個(gè)好人。但更重要的是這背后商業(yè)上的考量:
1. 允許在Meta之外進(jìn)行社交產(chǎn)品的調(diào)試:
- 社交產(chǎn)品總會(huì)有bug!
- Meta以及所有社交平臺(tái)的產(chǎn)品,都需要對(duì)互動(dòng)的內(nèi)容進(jìn)行控制(例如對(duì)孩子說有害的話)
- 將技術(shù)推向市場(chǎng),可以讓Meta在小規(guī)模環(huán)境中觀察到這些bug
2. Meta面臨的最大威脅是character.ai:
- AI朋友將更多、更友好、更易于獲取,超越你的現(xiàn)實(shí)朋友(目前被FB、Ins和WhatsApp等「控制」)
- 但Meta目前還不能直接下場(chǎng),因?yàn)檫@會(huì)讓人感到不安,尤其是在技術(shù)還未完善時(shí),會(huì)產(chǎn)生一種怪異的不自然感
- Meta曾嘗試過Tom Brady和Snoop Dogg風(fēng)格的AI朋友,但為了安全,有趣的互動(dòng)受到了很高的限制
- 如果AI朋友的表現(xiàn)足夠好,小扎或許不得不「解散」他建立的社交網(wǎng)絡(luò)
3. 摧毀競爭對(duì)手:
- 技術(shù)或產(chǎn)品的早期領(lǐng)先可以幫助一家初創(chuàng)公司克服分銷上的不利
- Meta擁有終極的分銷優(yōu)勢(shì) ,而小扎不希望其他人分一杯羹
- 通過開源,他可以有效限制character.ai、OpenAI等公司收入的增長
- 這些公司必須在資本的限制下加速創(chuàng)新,而他并不會(huì)受到資本的限制
- 最終,防止大型競爭對(duì)手的出現(xiàn)
4. 分布式研發(fā):
- 他希望其他人能夠開發(fā)出有趣的社交創(chuàng)意,并進(jìn)行復(fù)制(此前就曾將Snap的創(chuàng)新融入Instagram)
- 現(xiàn)在更甚,因?yàn)槟惚仨毥o微調(diào)的Llama 3打上標(biāo)注
不得不說,小扎的這波操作可謂是體現(xiàn)了他對(duì)社交無人能及的理解,仿佛就像來自另一個(gè)星球一樣。

除此之外,在2023年第四季度財(cái)報(bào)中,小扎也曾詳細(xì)說明過了以上內(nèi)容。

簡而言之,開源可以改進(jìn)我們的模型。
首先,將模型轉(zhuǎn)化為產(chǎn)品還需要大量工作,而且無論如何市場(chǎng)上都會(huì)有其他開源模型。
因此,我們認(rèn)為成為開源的領(lǐng)導(dǎo)者不僅不會(huì)顯著削弱我們產(chǎn)品的差異化,而且還會(huì)帶來優(yōu)勢(shì)。

我之前以為,面向社交、商業(yè)或媒體領(lǐng)域的這些工具,只需解決AI挑戰(zhàn)的一個(gè)子集就能交付。但現(xiàn)在看來,為了提供我們?cè)O(shè)想的最佳服務(wù),模型必須具備推理、規(guī)劃、編碼、記憶等多種認(rèn)知能力。
FAIR從事通用智能研究已有十多年,現(xiàn)在通用智能也將成為我們產(chǎn)品工作的重點(diǎn)。
寒冬已來,25年前不可能實(shí)現(xiàn)AGI
關(guān)于AGI的短期實(shí)現(xiàn),小扎是持悲觀態(tài)度的。
在他看來,2025年之前是不可能實(shí)現(xiàn)AGI的,最大的瓶頸,就是能源限制。
能源將限制AI的發(fā)展,而如果要解決這些問題,可能需要幾十年時(shí)間。
雖然坐擁至少數(shù)萬塊英偉達(dá)GPU,但小扎卻覺得,單純把計(jì)算集群造大,早晚會(huì)遇到邊際效應(yīng)的那一點(diǎn),感覺有點(diǎn)在內(nèi)涵Sam Altman。

在采訪中,他表示如今世界上最棘手的事情就是:雖然Llama-3的8B比Llama-2 的70B更好,但指數(shù)曲線還能持續(xù)多久?
盡管如此,他也認(rèn)為投資100億美元,甚至1000億美元,來建設(shè)基礎(chǔ)設(shè)施是值得的,或許會(huì)讓我們得到一些驚人的東西。
是的,如今GPU的供應(yīng)限制,已經(jīng)讓很多公司投入大量資金來構(gòu)建基礎(chǔ)設(shè)施。
在到達(dá)某一點(diǎn)的時(shí)候,投入更多資本的性價(jià)比就變低了。
而且在到達(dá)這一點(diǎn)之前,我們就會(huì)遇到能源的限制。因?yàn)槟壳斑€沒人建立過一千兆瓦的單一訓(xùn)練集群。

在過去十年中,每單位能量的原始計(jì)算量每兩年翻一番,老黃也意識(shí)到了這一點(diǎn)
主持人提問道:如果你有1萬億美元呢?
小扎表示,這還是取決于指數(shù)曲線會(huì)走多遠(yuǎn)。
現(xiàn)在的數(shù)據(jù)中心,規(guī)模大概是50兆瓦或100兆瓦,特別大型的能達(dá)到150兆瓦。
但300兆瓦、500兆瓦甚至1吉瓦的數(shù)據(jù)中心,需要花費(fèi)數(shù)年時(shí)間才建成,如果是1吉瓦,就需要一個(gè)核電廠的能源。
此外,也存在架構(gòu)瓶頸。
小扎認(rèn)為,如果持續(xù)給Llama-3 70B提供更多數(shù)據(jù),或者通過token進(jìn)行優(yōu)化,它會(huì)持續(xù)改進(jìn)。
不過,我們?cè)诖嘶A(chǔ)上構(gòu)建的東西,不可能無限進(jìn)步。
也就是說,小扎基本陷入了漸進(jìn)主義的陷阱,他不相信GPT-4的性能可以提升100倍,或AGI在短期內(nèi)能實(shí)現(xiàn)。
如果GPT-5的性能是GPT-4的10到100倍,那當(dāng)前的MMLU之類的基準(zhǔn)測(cè)試,根本就不起作用。
那該如何衡量,模型創(chuàng)造的價(jià)值是否超過了部署成本呢?
總之,放出這種言論的小扎,現(xiàn)在并沒有在籌集資金。而Sam Altman、馬斯克、Dario Amodei等瘋狂籌資的大佬,都預(yù)計(jì)AI模型能力將大幅提高。

這其中有多少是真實(shí)水分,有多少是炒作需要,我們就不得而知了。
只能說,相比之下小扎目前看起來更像個(gè)老實(shí)人。
22年買入大量GPU,是未卜先知?
在2022年公司股價(jià)遭遇重創(chuàng)之際,小扎還是鋌而走險(xiǎn),購買了大批H100。
當(dāng)年第三季度財(cái)報(bào)顯示,Meta資本支出高達(dá)320億-330億美元。
其中一部分大多流向數(shù)據(jù)中心、服務(wù)器和網(wǎng)絡(luò)基礎(chǔ)設(shè)施構(gòu)建,以及在元宇宙上的巨額投入。

而現(xiàn)在看來,他好像擁有一種未卜先知的能力。
在采訪中,小扎解釋道,「當(dāng)時(shí)Meta正大力發(fā)展短視頻工具Reels,因此需要更多的GPU來訓(xùn)模型」。
「這也是我們提供服務(wù)的一次重大轉(zhuǎn)變,我們不再針對(duì)你所關(guān)注的人或頁面的內(nèi)容進(jìn)行排名,而是開始大力推薦『非關(guān)聯(lián)內(nèi)容』的內(nèi)容」。

也就是說,向用戶展示候選內(nèi)容的語料庫,有時(shí)會(huì)從幾千個(gè)擴(kuò)大到數(shù)億個(gè)。
若想在這一數(shù)量級(jí)數(shù)據(jù)中完成訓(xùn)練推理,就需要一個(gè)完全不同的基礎(chǔ)設(shè)施。
「因此,我們要訂購足夠多的GPU,以滿足我們?cè)赗eels、內(nèi)容排序和信息流等方面的需求。還要額外多購買一倍」。
另外,小扎曾在年初宣布,計(jì)劃到年底要部署35萬塊英偉達(dá)H100。

他透露了更多的細(xì)節(jié),這將是一個(gè)非常大的艦隊(duì)。Meta內(nèi)部將為訓(xùn)練LLM打造兩個(gè)單集群,一個(gè)配備22,000塊H100,另一個(gè)集群配備24,000塊。
因?yàn)槟P屯评韺?duì)Meta來說,是至關(guān)重要的一件大事,需要為Facebook、Ins等自家應(yīng)用的用戶提供服務(wù)。
用小扎的原話來說,就是:
我們所需的推理計(jì)算與訓(xùn)練的比率,可能遠(yuǎn)高于其他從事這一領(lǐng)域的公司,這是因?yàn)槲覀兯?wù)的社區(qū)用戶量非常龐大。

GPT-4級(jí)開源模型,今年晚些發(fā)布
小扎還提到,對(duì)于Llama 3,主要專注于使用大量代碼進(jìn)行訓(xùn)練。在代碼中訓(xùn)練模型,有助于其在不同的領(lǐng)域中進(jìn)行推理。
與此同時(shí),Llama 3是專為工具使用而設(shè)計(jì)。
「我們的開發(fā)者不需要手寫所有代碼,就可以讓模型使用谷歌并進(jìn)行搜索」。
他還提到了,下一代模型Llama 4將針對(duì)智能體行為而打造。
其實(shí),整個(gè)AI圈更加期待的是,媲美GPT-4級(jí)別的開源模型Llama 3-405B能夠發(fā)布。
小扎稱,4050億參數(shù)的Llama 3將具備更強(qiáng)的多模態(tài)能力,支持多種語言,以及更大的上下文窗口,并計(jì)劃在今年晚些時(shí)候推出。

就目前訓(xùn)練結(jié)果而言,405B已經(jīng)在大規(guī)模多任務(wù)語言理解的基準(zhǔn)測(cè)試(MMLU)中,取得了大約85分的成績。
其實(shí)Llama3發(fā)布三天后,已經(jīng)有1000個(gè)微調(diào)模型在Hugging Face上發(fā)布。
1000個(gè)微調(diào)Llama 3模型,中文占8個(gè)
HF的創(chuàng)始人Clement Delangue非常期待,下周結(jié)束前,或許會(huì)有1萬個(gè)開源Llama3變體上線。

其中,網(wǎng)友@meng__shao總結(jié)了,截止目前中文的微調(diào)模型已達(dá)到6個(gè)。

目前,最小版本的額Llama-3 8B已經(jīng)在改變世界,不僅能在消費(fèi)級(jí)設(shè)備上運(yùn)行,還開辟了大量領(lǐng)域的應(yīng)用。

那么,未來的Llama模型,或許是能夠解決用戶所有用例的Llama 10發(fā)布那天,是否足以取代現(xiàn)實(shí)中的程序員?
小扎表示,「我不確定我們是否正在取代人類程序猿,因?yàn)镸eta正在給人們提供工具來做更多的事情」。
而且衡量人類智力不僅只有單一的閾值,因?yàn)槊總€(gè)人都有不同的技能。我認(rèn)為,在某種程度上,人工智能可能會(huì)在大多數(shù)方面超過人類,這取決于模型的強(qiáng)大程度。但這個(gè)過程,是循序漸進(jìn)的。
對(duì)元宇宙的信仰從何而來
雖然燒了300億美元不止,但小扎對(duì)元宇宙似乎依然沒有放棄。
主持人提出了一個(gè)尖銳的問題:就是市場(chǎng)對(duì)你大加指責(zé),你也要堅(jiān)定去做元宇宙。這種篤定,究竟來源于什么?是什么樣的價(jià)值觀或直覺,讓你如此篤信元宇宙?
小扎表示,自己只是單純喜歡建造東西。
他喜歡圍繞人們的交流、表達(dá)和工作來構(gòu)建產(chǎn)品,這跟他大學(xué)時(shí)的專業(yè)有關(guān)。他學(xué)的是計(jì)算機(jī)科學(xué)和心理學(xué),而建造元宇宙,就是兩門專業(yè)的交叉點(diǎn)。
這是一種深刻的內(nèi)驅(qū)力,讓他覺得自己如果不做點(diǎn)新東西,就像犯了錯(cuò)一樣。
而且,無論身處何處,元宇宙都能讓你感受到與人的聯(lián)結(jié),在小扎看來,這是一個(gè)殺手锏。

技術(shù)的一個(gè)教訓(xùn)是,要盡可能將物理約束領(lǐng)域的東西轉(zhuǎn)移到軟件中,因?yàn)檐浖菀讟?gòu)建和迭代。
不是每個(gè)人都有數(shù)據(jù)中心,但很多人都可以寫代碼,并且使用和修改源代碼。
而元宇宙版本的軟件,就是實(shí)現(xiàn)現(xiàn)實(shí)的數(shù)字存在。在社交、溝通、醫(yī)療行業(yè)等,元宇宙都會(huì)作用巨大。
而且,在為AI投資1000億美元,或者為元宇宙投入巨額資金時(shí),商業(yè)計(jì)劃就能表明:如果產(chǎn)品奏效,這是很好的投資。
即使在生活中,小扎也是這樣的。在考愛島,他建了一個(gè)牧場(chǎng),負(fù)責(zé)設(shè)計(jì)所有建筑。
「如果要養(yǎng)出世界上最好的牛,該怎么設(shè)計(jì)呢?這就是我。」
































