Anthropic CEO:大模型訓(xùn)練成本暴漲,2027年將達(dá)1000億美元!
AI行業(yè)巨大的收支鴻溝近日引起了廣泛討論,僅僅按照現(xiàn)在的訓(xùn)練成本計(jì)算,已經(jīng)達(dá)到了5000億美元的天文數(shù)字,許多人都在擔(dān)憂(yōu)AI泡沫被戳破之后,有可能會(huì)導(dǎo)致新的經(jīng)濟(jì)危機(jī)。
目前來(lái)看,能夠商業(yè)化落地并實(shí)現(xiàn)大額盈利的「巨物」還未誕生,但是AI訓(xùn)練的成本卻還在攀升,并且會(huì)逐年呈指數(shù)級(jí)增長(zhǎng)。
Anthropic首席執(zhí)行官Dario Amodei在In Good Company播客節(jié)目中表示,目前正在開(kāi)發(fā)的人工智能模型的訓(xùn)練成本高達(dá)10億美元。
GPT-4o已經(jīng)成為了歷史,因?yàn)橄袼@樣的模型「僅」需花費(fèi)約1億美元,跟現(xiàn)在正在開(kāi)發(fā)的模型相比,可謂是小巫見(jiàn)大巫了。
Dario Amodei預(yù)計(jì),從現(xiàn)在開(kāi)始,短短三年內(nèi),AI模型的訓(xùn)練成本將上升到100億美元甚至1000億美元。
Dario Amodei,OpenAI前研究副總裁,2021年創(chuàng)立Claude大模型母公司Anthropic
預(yù)測(cè)來(lái)自于Amodei在討論AI如何從生成式人工智能(GenAI)發(fā)展到通用人工智能(AGI)時(shí)的一段分析。
他說(shuō),「我們不會(huì)在某一點(diǎn)上突然達(dá)到 AGI,這將是一個(gè)循序漸進(jìn)的發(fā)展過(guò)程,模型建立在過(guò)去模型發(fā)展的基礎(chǔ)上,就像人類(lèi)兒童的學(xué)習(xí)方式一樣」。
如果人工智能模型每年強(qiáng)大十倍,我們可以合理地預(yù)期訓(xùn)練它們所需的硬件也至少?gòu)?qiáng)大十倍。
因此,硬件可能是人工智能訓(xùn)練中最大的成本驅(qū)動(dòng)因素?!纲u(mài)鏟子」的英偉達(dá)又要賺得盆滿(mǎn)缽滿(mǎn)了。
早在2023年,就有報(bào)道稱(chēng)ChatGPT將需要超過(guò)30000個(gè)GPU,Sam Altman證實(shí)GPT-4的訓(xùn)練成本為1億美元。
去年,超過(guò)380萬(wàn)個(gè)GPU交付給數(shù)據(jù)中心。鑒于英偉達(dá)最新的B200 AI芯片的成本約為 30000-40000 美元,兩個(gè)數(shù)字相乘,我們就能明白Dario所言非虛——2024年AI訓(xùn)練成本已經(jīng)高達(dá)10億美元。
如果模型繼續(xù)以當(dāng)前的指數(shù)速度增長(zhǎng),那硬件資源也得跟上,缺口會(huì)越來(lái)越大,除非像Sohu人工智能芯片這樣更高效的技術(shù)變得更加普遍。
我們已經(jīng)可以看到這種指數(shù)級(jí)增長(zhǎng)的發(fā)生。
埃隆·馬斯克計(jì)劃采購(gòu)30萬(wàn)個(gè)B200 AI芯片,據(jù)報(bào)道OpenAI和微軟正在計(jì)劃建造一個(gè)價(jià)值1000億美元的 AI 數(shù)據(jù)中心。
考慮到所有這些需求,如果英偉達(dá)和其他供應(yīng)商能夠跟上市場(chǎng)的步伐,明年GPU數(shù)據(jù)中心的交付量將激增至3800萬(wàn)個(gè),是去年的10倍!
芯片硬件不是唯一掣肘的因素,電力和相關(guān)基礎(chǔ)設(shè)施也是重要的成本損耗之一。
據(jù)估計(jì),去年售出的所有數(shù)據(jù)中心GPU的總耗電量可為130萬(wàn)戶(hù)家庭供電。
如果數(shù)據(jù)中心的電力需求繼續(xù)呈指數(shù)級(jí)增長(zhǎng),那么當(dāng)前足夠的價(jià)格經(jīng)濟(jì)的電力將會(huì)被消耗殆盡。
此外,這些數(shù)據(jù)中心不僅需要發(fā)電廠,它們還需要一個(gè)完全升級(jí)的電網(wǎng),以處理耗電量巨大的人工智能芯片運(yùn)行所需的所有電子。
因此,包括微軟在內(nèi)的許多科技公司現(xiàn)在都在考慮為其數(shù)據(jù)中心采用模塊化核電,微軟正在尋找一位關(guān)鍵人物來(lái)領(lǐng)導(dǎo)其核技術(shù)戰(zhàn)略,重點(diǎn)是為其數(shù)據(jù)中心實(shí)施小型模塊化反應(yīng)堆 (SMR) 和微反應(yīng)堆。
那么,3年之內(nèi),AI訓(xùn)練成本真的會(huì)達(dá)到Anthropic所預(yù)測(cè)的1000億美元嗎?有沒(méi)有更多的證據(jù)支撐呢?我們一起來(lái)算筆賬看看——
1000億美元怎么花?
根據(jù)斯坦福大學(xué)《人工智能指數(shù)數(shù)據(jù)報(bào)告2024》顯示,AI模型的訓(xùn)練成本呈現(xiàn)飛速增長(zhǎng),短短幾年間從四位數(shù)躍升至九位數(shù)。
例如,2017年訓(xùn)練最初的Transformer模型的成本僅為約900美元,而到了2019年,RoBERTa Large模型的訓(xùn)練成本已經(jīng)升至約160000美元。
到了2023年,OpenAI的GPT-4和Google的Gemini Ultra的訓(xùn)練成本更是分別達(dá)到了約7800萬(wàn)美元和近2億美元。
報(bào)告指出,隨著AI模型參數(shù)數(shù)量的激增,其訓(xùn)練所需的算力和能耗也隨之水漲船高。
大參數(shù)模型通常意味著更高的訓(xùn)練成本,因?yàn)樗鼈冃枰鼜?qiáng)大的硬件設(shè)施、更長(zhǎng)的訓(xùn)練時(shí)間以及更大的數(shù)據(jù)集來(lái)支撐。
這種關(guān)聯(lián)性在報(bào)告中通過(guò)圖表清晰地顯示出參數(shù)數(shù)量與訓(xùn)練成本之間成正比例關(guān)系,參數(shù)越大,訓(xùn)練成本越高。
2億已經(jīng)數(shù)額頗為驚人了,那么十個(gè)指頭都數(shù)不過(guò)來(lái)的千億美刀會(huì)怎么花?
首先大頭必定花在硬件成本上。
主要包括購(gòu)置和維護(hù)高性能計(jì)算設(shè)備(如GPU、TPU、CPU集群等)的費(fèi)用。這些設(shè)備是執(zhí)行大量計(jì)算以訓(xùn)練大規(guī)模模型所必需的。
硬件成本占比較高,尤其是在需要大規(guī)模并行計(jì)算和高吞吐量存儲(chǔ)的情況下。
前幾天馬斯克剛透露花40億美元購(gòu)買(mǎi)10萬(wàn)張H100訓(xùn)練Grok 3,這會(huì)兒Amodei預(yù)言千億訓(xùn)練模型,老黃屏幕背后微微一笑,又可以靠賣(mài)鏟子買(mǎi)新皮衣了!
reddit網(wǎng)友也指出,千億美元一大半要被老黃賺走。
黃仁勛:(興奮地搓手手)
老黃家GPU產(chǎn)生的熱量,把億萬(wàn)資金燒的付之一炬。
也有網(wǎng)友打趣到,不管是GPU燒的熱量還是未來(lái)百億大單讓人想想就紅溫,皮衣戰(zhàn)神可以脫下他的經(jīng)典皮膚散散熱。
其次成本的重頭還在于能源消耗。
有數(shù)據(jù)顯示,全美AI數(shù)據(jù)中心的耗電量占全美總用電量的2.5%,足以點(diǎn)亮整個(gè)紐約市。
GPT-3的訓(xùn)練約消耗1300兆瓦時(shí)電力,如果連續(xù)播放視頻可持續(xù)播放約186年。
由此可見(jiàn),AI模型訓(xùn)練是一個(gè)高度能源密集的過(guò)程,涉及到大量的計(jì)算操作和數(shù)據(jù)交換。
數(shù)據(jù)中心的電力消耗、冷卻設(shè)施運(yùn)行以及潛在的碳排放成本構(gòu)成了能源成本。隨著對(duì)可持續(xù)性和碳中和目標(biāo)的關(guān)注增加,這部分成本的重要性愈發(fā)凸顯。
奧特曼曾經(jīng)就表示,AGI的盡頭可能是能源問(wèn)題,核聚變或是AI能源戰(zhàn)的最終方案。
微軟已經(jīng)表示,他們正在考慮建造一座價(jià)值1000億美元的設(shè)施,其中最令人震驚的是對(duì)電力的投入。
首先需要解決能源問(wèn)題,否則就不會(huì)有 AGl。大腦使用約20瓦特的功率,而粗放的使用方法消耗的功率相當(dāng)于一個(gè)國(guó)家的使用量。
第三是人力資源的支出。
訓(xùn)練AI模型需要一支專(zhuān)業(yè)的工程師和科學(xué)家團(tuán)隊(duì),包括數(shù)據(jù)工程師、AI研究員、軟件工程師等。他們的薪資、福利、培訓(xùn)和發(fā)展成本構(gòu)成了人力資源成本。
AI人才也是AI軍備競(jìng)賽中一個(gè)不可忽視的兵家必爭(zhēng)之地。大佬們紛紛開(kāi)百萬(wàn)年薪,親自發(fā)郵件挖人,親自打電話(huà)留人等等,只為獲得AI人才青睞。
第四就是數(shù)據(jù)成本的花銷(xiāo),高質(zhì)量、大規(guī)模的訓(xùn)練數(shù)據(jù)對(duì)于AI模型的性能至關(guān)重要。
數(shù)據(jù)采集、標(biāo)注、清洗、存儲(chǔ)和傳輸?shù)拳h(huán)節(jié)會(huì)產(chǎn)生相應(yīng)的成本,包括人力、工具、平臺(tái)使用費(fèi)等。
對(duì)于某些特定領(lǐng)域的數(shù)據(jù)(如醫(yī)療影像、金融交易數(shù)據(jù)),數(shù)據(jù)獲取可能涉及購(gòu)買(mǎi)許可證、支付版權(quán)費(fèi)等額外支出。
例如,Scale AI CEO就開(kāi)出時(shí)薪40美元招聘高學(xué)歷博士訓(xùn)練AI數(shù)據(jù)標(biāo)注,只為獲得專(zhuān)業(yè)性強(qiáng)的高質(zhì)量數(shù)據(jù)。
最后要考慮運(yùn)行維護(hù)和管理成本。
包括數(shù)據(jù)中心運(yùn)維、網(wǎng)絡(luò)帶寬、安全防護(hù)、故障恢復(fù)、備份系統(tǒng)等的建設(shè)和維護(hù)費(fèi)用。
隨著模型規(guī)模的擴(kuò)大和模型復(fù)雜度的提升,對(duì)基礎(chǔ)設(shè)施的穩(wěn)定性和可靠性要求更高。
其中,硬件成本和能源消耗占比較大,特別是在訓(xùn)練超大規(guī)模模型時(shí),這兩部分成本可能會(huì)占到總成本的大頭。
隨著AI技術(shù)的發(fā)展和應(yīng)用規(guī)模的擴(kuò)大,能源消耗問(wèn)題的解決迫在眉睫。許多研究和實(shí)踐已經(jīng)開(kāi)始探討如何通過(guò)優(yōu)化算法、提高硬件能效、采用可再生能源、采用液冷系統(tǒng)等方式降低AI訓(xùn)練的能源成本。
總體來(lái)說(shuō),資金在未來(lái)大規(guī)模流向AI領(lǐng)域早就可以預(yù)見(jiàn),不過(guò)也有人懷疑如此大規(guī)模的千億巨單錢(qián)從哪兒來(lái)?投入產(chǎn)出比又會(huì)如何?
雖說(shuō)AI被類(lèi)比為人類(lèi)兒童的學(xué)習(xí)方式,但它可比「訓(xùn)練」人類(lèi)小孩花費(fèi)多得多,網(wǎng)友在投入產(chǎn)出比這塊兒調(diào)侃道「請(qǐng)訓(xùn)練我好不好」。
誰(shuí)在我身上花一千億我搞不好也能達(dá)到一樣的目標(biāo),訓(xùn)的比大多數(shù)人厲害呢。