偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

萬字獨(dú)家爆光,首揭o1 pro架構(gòu)!驚人反轉(zhuǎn),Claude 3.5 Opus沒失???

人工智能 新聞
全網(wǎng)獨(dú)一份o1 pro架構(gòu)爆料來了!首創(chuàng)自洽性機(jī)制打破推理極限,「草莓訓(xùn)練」系統(tǒng)首次揭秘。更令人震驚的是,OpenAI和Anthropic自留Orion、Claude 3.5超大杯,并不是內(nèi)部失敗了,而是它們成為數(shù)據(jù)生成的秘密武器。

大模型Scaling Law終結(jié),前段時(shí)間曾被吵得沸沸揚(yáng)揚(yáng)。

面對(duì)諸多的質(zhì)疑,硅谷巨頭們用行動(dòng)給出了截然不同的答案。

谷歌祭出最強(qiáng)下一代新模型Gemini 2.0 Flash,并帶著多個(gè)智能體一同亮相;OpenAI「滿血版」o1和o1 pro mode向所有人證明了模型的能力還遠(yuǎn)沒有觸及到天花板。

最近,外媒SemiAnalysis一篇深度報(bào)道再次指明了方向——Scale的維度遠(yuǎn)不止預(yù)訓(xùn)練,Scaling Law仍將繼續(xù)下去。

圖片

據(jù)爆料,Claude 3.5 Opus并非如傳言所說,內(nèi)部已經(jīng)失敗了。

相反,它是Anthropic精心打造的一件「戰(zhàn)略武器」。一直以來并未公開發(fā)布的原因是,3.5 Opus被秘密應(yīng)用在兩個(gè)關(guān)鍵領(lǐng)域:「內(nèi)部數(shù)據(jù)合成」和「強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)建模」。

令人震撼的是,通過這種創(chuàng)新訓(xùn)練方法,Anthropic不僅沒有增加推理成本,反而顯著提升了模型性能。

SemiAnalysis分析稱,相比直接對(duì)外開放這款超大杯模型,Anthropic更愿意將其用于訓(xùn)練優(yōu)化,發(fā)布Claude 3.5 Sonnet就已足夠!

圖片

不僅如此,這份最新報(bào)告中,三位行業(yè)分析師獨(dú)家揭秘了o1和o1 pro的架構(gòu),深入探究了Orion未來規(guī)劃。

o1穿越「草莓田」,只有單一CoT

眾所周知,o1在推理階段采用了一種思維鏈(Chain of Thought)的方法,將推理過程分解為多個(gè)離散的步驟。

o1能夠規(guī)劃其推理步驟,評(píng)估中間結(jié)果,并在步驟出錯(cuò)或陷入僵局時(shí)進(jìn)行回溯。

坊間,研究員們?cè)岢鲈S多關(guān)于o1推理方式的觀點(diǎn),比如它在推理階段會(huì)探索一種潛在推理路徑或思維鏈樹。

然而,事實(shí)并非如此。

o1在推理過程中,實(shí)際上在推理過程中只會(huì)沿著單一CoT前進(jìn),直至給出答案。

而且, o1在測(cè)試階段并不依賴搜索,因此在推理過程中放棄了對(duì)潛在推理路徑樹的探索。

這也意味著,它在推理時(shí)僅能使用pass@1方法。

而o1 Pro則采用了自洽性(self-consistency),或多數(shù)投票(majority vote)的方法。(注:如下token經(jīng)濟(jì)學(xué)的部分中,會(huì)有更很多介紹)

圖片

關(guān)于o1如何生成其單一的思維鏈,有幾種理論。

其中一種廣為接受的理論是,在強(qiáng)化學(xué)習(xí)過程中,o1使用了一種「過程獎(jiǎng)勵(lì)模型」(Process Reward Model)來驅(qū)動(dòng)推理步驟。

PRM類似于一種獎(jiǎng)勵(lì)機(jī)制,可以在驗(yàn)證和生成之間進(jìn)行切換。

通過使用同一個(gè)模型同時(shí)作為生成器和驗(yàn)證器,模型能夠在兩者之間高效切換,并不斷迭代其思維過程。

回溯:是涌現(xiàn)現(xiàn)象還是訓(xùn)練結(jié)果?

如前所述,o1的另一個(gè)核心能力是其在單一思維鏈上進(jìn)行自我糾正和回溯的能力。

值得注意的是,這種能力并非是刻意設(shè)計(jì),而是推理階段計(jì)算量scale的自然結(jié)果。

也就意味著,o1就像一個(gè)不斷學(xué)習(xí)的學(xué)生,能夠意識(shí)到并糾正自己的錯(cuò)誤。

不過,這種能力并非對(duì)所有問題,都同樣有效。

具體還要取決于問題的類型。

比如,對(duì)于像「x的首都是哪里」這樣簡(jiǎn)單的問題,延長(zhǎng)思考時(shí)間并無太大的幫助。

而對(duì)于復(fù)雜的數(shù)學(xué)或編程問題,延長(zhǎng)思考時(shí)間則可能顯著提升結(jié)果。

此外,與驗(yàn)證英語作文相比,驗(yàn)證數(shù)學(xué)和編程問題相對(duì)更容易。

目前,分析師稱也尚不清楚OpenAI是如何具體利用額外的測(cè)試時(shí)計(jì)算資源。

他們只知道,「OpenAI的后臺(tái)有某種設(shè)置可以控制這一點(diǎn)」。

從以下按主題劃分的勝率圖表可以看出,o1和推理模型在那些相對(duì)容易驗(yàn)證,但生成答案較難的學(xué)科中表現(xiàn)優(yōu)于非推理模型,而在驗(yàn)證和生成答案都困難的領(lǐng)域中表現(xiàn)較差。

這主要是因?yàn)閛1的訓(xùn)練過程在很大程度上,依賴功能驗(yàn)證器(functional verifiers)在訓(xùn)練期間為模型提供反饋。

圖片

OpenAI打造「草莓訓(xùn)練」,生成合成數(shù)據(jù)

為了訓(xùn)練o1,OpenAI為此生成了海量數(shù)據(jù)。

他們打造了一個(gè)名為草莓訓(xùn)練(Berry Training)的復(fù)雜系統(tǒng),專為訓(xùn)練推理模型。

這些合成數(shù)據(jù),通過蒙特卡洛樹(Monte Carlo tree)生成,伴隨著許多并發(fā)的回合(rollouts)。

然后,模型會(huì)基于過程獎(jiǎng)勵(lì)模型(PRM),針對(duì)約1000萬個(gè)問題生成許多不同的變體,并在多個(gè)不同點(diǎn)進(jìn)行分支。

這些問題會(huì)生成數(shù)千條不同的答案「軌跡」(trajectories)。

由于部分答案在分支時(shí)共享前綴,因此某些軌跡可能有著相同的開頭。

之所以稱其為「軌跡」,是因?yàn)閱为?dú)來看,它是一條通向答案思維鏈。

這些軌跡中的每一條都包含數(shù)千個(gè)token。訓(xùn)練像o1這樣的草莓模型需要生成數(shù)百萬億個(gè)token。

隨后,這些軌跡會(huì)通過功能驗(yàn)證器(functional verifiers)和優(yōu)化獎(jiǎng)勵(lì)模型(ORM)進(jìn)行修剪。

由于PRM的效率較低,大多數(shù)數(shù)據(jù)選擇是通過ORM實(shí)現(xiàn)的,因此每個(gè)問題會(huì)有許多并發(fā)的回合完成,并且直到最終才會(huì)被修剪。

如果PRM的表現(xiàn)更好,那么生成的軌跡與保留的優(yōu)質(zhì)軌跡的比例會(huì)更高。但遺憾的是,ORM的生成占主導(dǎo)地位,并會(huì)篩除大部分?jǐn)?shù)據(jù)。

這些功能驗(yàn)證器在許多方面有所不同,但可以將它們視為獨(dú)立的「沙盒」,用來檢查數(shù)學(xué)計(jì)算或運(yùn)行代碼以驗(yàn)證生成的數(shù)據(jù)是否正確。

同時(shí)運(yùn)行所有這些模型并正確地并行化,是一個(gè)極其復(fù)雜的系統(tǒng)和基礎(chǔ)設(shè)施問題。

比如,不同模型必須在各種 GPU 上運(yùn)行,計(jì)算結(jié)果需要精確路由到下一個(gè)處理階段,同時(shí)更新多個(gè)模型權(quán)重,并確保工作負(fù)載均衡。

此外,功能驗(yàn)證器「沙盒」通常在GPU上運(yùn)行效果不佳,因此經(jīng)常被轉(zhuǎn)移到CPU上。

一個(gè)有趣的現(xiàn)象是,當(dāng)前標(biāo)準(zhǔn)的英偉達(dá)系統(tǒng)通常配備8個(gè)GPU和2個(gè)x86 CPU,也就是4:1的比例,而英偉達(dá)下一代GPU系統(tǒng)GB200 NVL72配備了72個(gè)GPU和36個(gè)CPU,是2:1的比例。

另一方面,Anthropic背后金主爸爸亞馬遜下一代系統(tǒng)(代號(hào)Project Rainier)配備了16個(gè)Trainium2,但只有2個(gè)CPU,是8:1的比例。

圖片

可見,下一代訓(xùn)練系統(tǒng)的CPU與GPU資源之間存在巨大差異,英偉達(dá)系統(tǒng)能夠讓OpenAI運(yùn)行更復(fù)雜的功能驗(yàn)證器,而Anthropic在每FLOP成本和內(nèi)存帶寬/容量成本方面具有優(yōu)勢(shì)。

然而,Anthropic更少的CPU資源可能會(huì)使運(yùn)行復(fù)雜功能驗(yàn)證系統(tǒng)變得更加困難。

訓(xùn)練期間的大量前向傳播

現(xiàn)在,或許就不難理解,推理訓(xùn)練是極其計(jì)算密集型的原因了。

僅針對(duì)1000萬個(gè)推理問題,就可能生成數(shù)百億條軌跡,包含了數(shù)百萬億token。

想象一下,隨著問題集的繼續(xù)擴(kuò)展并涵蓋更多領(lǐng)域,會(huì)發(fā)生什么?

數(shù)據(jù)量只會(huì)呈指數(shù)級(jí)增長(zhǎng)。

而且這些數(shù)據(jù)并不完全與客戶請(qǐng)求重疊,因此推理部分生成的token數(shù)量將超過預(yù)訓(xùn)練數(shù)據(jù)集。

此外,由于PPO(近端策略優(yōu)化算法)和 PRN(過程獎(jiǎng)勵(lì)網(wǎng)絡(luò))的工作方式,必須在每次反向傳播(更新模型)之前運(yùn)行多次前向傳播(運(yùn)行模型)。

這是因?yàn)?,除了極其密集的生成器模型之外,還有策略模型、多種獎(jiǎng)勵(lì)模型以及其他基于模型的驗(yàn)證器,它們?cè)诤笥?xùn)練階段的每次反向傳播中都會(huì)運(yùn)行以驗(yàn)證數(shù)據(jù)。

在許多情況下,這些模型每次反向傳播會(huì)運(yùn)行多次,具體取決于需要修剪或拒絕的數(shù)據(jù)量。

這導(dǎo)致后訓(xùn)練階段的前向傳播與反向傳播的比例極高,而在預(yù)訓(xùn)練階段,這一比例通常為1:1。

這種變化,對(duì)訓(xùn)練的基礎(chǔ)設(shè)施需求產(chǎn)生了巨大影響。比如,過去可能需要單一的大型全連接擴(kuò)展架構(gòu),而現(xiàn)在這種需求可能不再必要。

不過,它帶來的一個(gè)顯著的優(yōu)勢(shì)是,跨地理分布的數(shù)據(jù)中心進(jìn)行訓(xùn)練變得更加容易。

后訓(xùn)練FLOPS超過預(yù)訓(xùn)練

以往,推理模型的后訓(xùn)練階段,運(yùn)行幾乎需要與預(yù)訓(xùn)練相同的計(jì)算量。

當(dāng)前,在許多情況下,目前的后訓(xùn)練FLOPS(每秒浮點(diǎn)運(yùn)算次數(shù))已經(jīng)超過了預(yù)訓(xùn)練。

這是因?yàn)楹笥?xùn)練通常需要在生成器、獎(jiǎng)勵(lì)模型、策略模型以及各種驗(yàn)證器的前向傳播階段使用多個(gè)副本的最大或最優(yōu)模型。

以O(shè)penAI的下一代模型為例。

他們目前正在訓(xùn)練一個(gè)在預(yù)訓(xùn)練規(guī)模上介于GPT-4o和Orion之間的模型。

圖片

他們會(huì)先預(yù)訓(xùn)練一個(gè)「基礎(chǔ)模型」,然后從中派生出兩個(gè)模型:一個(gè)是傳統(tǒng)的聊天模型,另一個(gè)是真正的推理模型。

從基礎(chǔ)模型轉(zhuǎn)變?yōu)橥评砟P偷倪^程,所需的后訓(xùn)練FLOPs將超過預(yù)訓(xùn)練所需的計(jì)算量。

這是因?yàn)镺rion將被用于生成大量的「草莓訓(xùn)練」數(shù)據(jù),并且還會(huì)被廣泛應(yīng)用于各種驗(yàn)證器和獎(jiǎng)勵(lì)模型中。

預(yù)訓(xùn)練的規(guī)模將繼續(xù)擴(kuò)大,這得益于新架構(gòu)的研發(fā)、對(duì)日益增長(zhǎng)的合成數(shù)據(jù)以及視頻數(shù)據(jù)的處理需求。

更重要的是,推理訓(xùn)練的興起意味著,后訓(xùn)練不再局限于簡(jiǎn)單的微調(diào),而且需要更多的計(jì)算量。

訓(xùn)練的計(jì)算scaing law依然有效,并充滿活力。

快速迭代:另一種形式的Scaling

業(yè)內(nèi)高度發(fā)展,讓模型迭代速度不斷提升,大幅縮短了訓(xùn)練時(shí)間。

當(dāng)前,算法的進(jìn)步使得模型每年所需的物理計(jì)算量減少約三分之一。同時(shí),其他架構(gòu)的改進(jìn)也允許開發(fā)出更優(yōu)質(zhì)的模型。

因此,訓(xùn)練運(yùn)行時(shí)間很少超過3個(gè)月,大多數(shù)主要的預(yù)訓(xùn)練運(yùn)行通常在發(fā)布時(shí)僅需1-2個(gè)月。

然而,OpenAI的Orion卻打破了這一常規(guī),其訓(xùn)練時(shí)間超過了3個(gè)月。

由于推理模型的「反饋循環(huán)」機(jī)制,使得這種情況發(fā)生了變化。

OpenAI現(xiàn)在專注于更快的訓(xùn)練運(yùn)行反饋循環(huán),并嘗試通過更大的集群不斷迭代模型。

像Orion這樣超大規(guī)模的訓(xùn)練,在構(gòu)建小模型時(shí)仍然很關(guān)鍵。不過在英偉達(dá)Blackwell出現(xiàn)之前,這樣的模型由于本身的巨大成本和資源需求,難以實(shí)現(xiàn)經(jīng)濟(jì)化部署。

o1推理架構(gòu):token經(jīng)濟(jì)學(xué)

即使是較小的推理模型,使用Blackwell后也能顯著提升服務(wù)效率。

盡管GPT-4o和o1的架構(gòu)、規(guī)模相同,但每個(gè)token的定價(jià)差異高達(dá)6倍。同樣地,GPT-4o mini和o1 mini的每個(gè)token定價(jià)差異更大,高達(dá)20倍。

部分原因不排除OpenAI是為了盈利,因其具有獨(dú)特的功能,收取更高的費(fèi)用。

但主要原因在于,成本本身更高。

接下來,可以通過一個(gè)簡(jiǎn)單的實(shí)驗(yàn),從基本原理出發(fā)快速說明推理模型在token定價(jià)上的巨大差異。

使用最近Qwen QwQ最近博客中,展示的第一個(gè)邏輯推理提示詞示例,并將其輸入到幾個(gè)模型中:

請(qǐng)?jiān)谝韵洛e(cuò)誤的等式中添加一對(duì)括號(hào)使其成立:1 + 2 * 3 + 4 * 5 + 6 * 7 + 8 * 9 = 479

圖片

從Qwen發(fā)布博客中可以看到,這個(gè)問題需要生成約2166個(gè)詞才能得出答案

正如預(yù)期的那樣,推理模型(如o1-preview和o1-mini)比同等規(guī)模的非推理模型,生成更多的輸出token。

需要注意的是,即使推理token并未顯示或提供給用戶,它們也包含在可計(jì)費(fèi)的輸出token中。

由于推理模型的每個(gè)token成本顯著更高,查詢成本在o1-mini的情況下高出24倍,而在o1-preview的情況下高出57倍。

圖片

這種查詢成本的差異,足以令人震驚,但需要關(guān)注的重要部分是序列長(zhǎng)度和KV緩存(KVCache)。

假設(shè)對(duì)o1-preview的7661個(gè)輸出token運(yùn)行一個(gè)查詢,并使其在Llama 3.1 405B模型上,產(chǎn)生相同的7661個(gè)token序列長(zhǎng)度。

在上述條件下,如果想要達(dá)到每秒每用戶30個(gè)token的交互性,最大批大小將限制為72。

也就是說,序列越長(zhǎng),為了維持一定的交互速度,就必須減少一次性并行處理的批大小。

這是根據(jù)「Roofline模型」進(jìn)行計(jì)算得出的純理論值。

圖片

在此簡(jiǎn)化分析中,還未考慮不同批大小對(duì)內(nèi)存帶寬利用率或模型FLOPs利用率的影響

相同的問題在GPT-4o上運(yùn)行時(shí)僅生成了775個(gè)token的序列長(zhǎng)度。

如果在Llama 3.1 405B上運(yùn)行相同數(shù)量的token,并以每秒每用戶30個(gè)token的交互性為目標(biāo),最大批大小可達(dá)368。

由于較長(zhǎng)的序列長(zhǎng)度查詢,限制了最大批大小,推理模型的成本無法在更多用戶之間分?jǐn)?,這意味著每個(gè)token的成本因KV緩存限制而高出5倍以上。

這僅是一個(gè)基于基本原理的框架,但它可以幫助我們了解上下文長(zhǎng)度如何影響成本的方向性。

除此此外,還有其他因素導(dǎo)致了這種巨大的定價(jià)差異。

那么,是什么導(dǎo)致推理模型計(jì)算密度增加和內(nèi)存需求更高,從而導(dǎo)致批大小減少和每GPU吞吐量降低?

答案有兩個(gè)方面。

首先,內(nèi)存需求增加的主要驅(qū)動(dòng)因素是,處理更長(zhǎng)序列長(zhǎng)度所需的更大KV緩存。使用全局查詢注意力(GQA)時(shí),總KV緩存大小可以按以下公式計(jì)算:


總GQA KV緩存大小(字節(jié))=批大小×序列長(zhǎng)度×2×層數(shù)×(隱藏層大小/頭數(shù)×KV頭數(shù))×精度(字節(jié))


KV緩存大小隨序列長(zhǎng)度線性增長(zhǎng),但也隨著批大小線性增長(zhǎng),因此同時(shí)擁有大量用戶生成長(zhǎng)序列長(zhǎng)度會(huì)導(dǎo)致巨大的KV緩存需求。

下圖中展示了對(duì)于Llama 3.1 405B,一個(gè)39,000 token的序列長(zhǎng)度,將完全占滿8xH100節(jié)點(diǎn)的640GB總HBM容量,而分析師尚未考慮加載模型參數(shù)所需的405GB。

如果將參數(shù)考慮在內(nèi),用于KV緩存的可用內(nèi)存將減少到 235GB(下圖中的紅線),實(shí)際上在序列長(zhǎng)度約為16k token時(shí)就已達(dá)到內(nèi)存限制。

圖片

由于KV緩存大小的增加直接導(dǎo)致更大的內(nèi)存容量和帶寬需求。當(dāng)批大小保持恒定時(shí),這也降低了交互性,或者限制了最大批大小至16,從而提供最低的交互性。

圖片

另一個(gè)關(guān)鍵因素是FLOP需求如何隨著序列長(zhǎng)度的增加而擴(kuò)展:


每個(gè)token所需的縮放點(diǎn)積注意力(SDPA)FLOP=4×頭數(shù)×層數(shù)×頭維度×序列長(zhǎng)度token


每個(gè)token所需的FLOP隨序列長(zhǎng)度線性增長(zhǎng),但由于這是每個(gè)token的FLOP,總FLOP隨給定序列的序列長(zhǎng)度平方增長(zhǎng)。這意味著FLOP需求相對(duì)于序列長(zhǎng)度呈二次方增長(zhǎng)。

在下圖中可以看到,隨著上下文長(zhǎng)度的增加,推理系統(tǒng)很快達(dá)到FLOPS的限制——在下例中,約為4096 的序列長(zhǎng)度。

圖片

序列長(zhǎng)度的增加極大地線性增加了內(nèi)存和FLOP需求,并分別呈現(xiàn)線性和二次方增長(zhǎng),這導(dǎo)致批大小顯著縮小,從而難以分?jǐn)偧嚎倱碛谐杀尽?/span>

這反過來使每個(gè)token的服務(wù)成本顯著提高。

需要注意的是,OpenAI廣泛使用了諸如局部全局注意力(local-global attention)等注意力機(jī)制改進(jìn),這些改進(jìn)有助于緩解這些問題,但僅僅改變了Transformer注意力中的常數(shù),減緩了二次方增長(zhǎng),而未能解決它。

需要能夠在保持質(zhì)量的同時(shí)解決這些問題的長(zhǎng)上下文架構(gòu),否則推理模型的每token成本將始終顯著更高,同時(shí)生成的token數(shù)量也會(huì)更多。

推理模型挑戰(zhàn):可靠性問題

推理時(shí)帶來了內(nèi)存的顯著增加,和FLOPS需求外,序列長(zhǎng)度的增加還帶來了另一個(gè)挑戰(zhàn):可靠性問題。

前面已經(jīng)討論過容錯(cuò)性,以及它如何實(shí)現(xiàn)跨數(shù)據(jù)中心的訓(xùn)練,這也是超大規(guī)?;A(chǔ)設(shè)施工具集中所有應(yīng)用的關(guān)鍵部分。

在訓(xùn)練運(yùn)行過程中進(jìn)行檢查點(diǎn)保存(Checkpointing)已被AI實(shí)驗(yàn)室廣泛采用,以便在發(fā)生故障后快速重啟訓(xùn)練,從而顯著減少這些故障帶來的中斷。

然而,在推理過程中,靜默數(shù)據(jù)損壞錯(cuò)誤和其他故障仍然可能發(fā)生。

盡管這些故障的發(fā)生率較低,但由于超大規(guī)模服務(wù)商需要服務(wù)龐大的用戶群體,以及用于推理的大量加速器設(shè)備,這些問題必須得到解決。

在Transformer架構(gòu)中,每生成一個(gè)新的token,該token 都會(huì)被附加到之前生成的所有token上,并再次通過模型。如果在生成某個(gè)token時(shí)發(fā)生錯(cuò)誤,這個(gè)已損壞的token就會(huì)成為對(duì)話上下文的一部分,可能導(dǎo)致語法、語境或格式上的錯(cuò)誤。

這一問題對(duì)所有長(zhǎng)上下文模型都適用,但對(duì)推理模型尤其明顯,因?yàn)殚L(zhǎng)序列長(zhǎng)度會(huì)導(dǎo)致錯(cuò)誤的累積。

此外,許多錯(cuò)誤可能是模型本身固有的,或者由于推理過程中思維鏈(Chain of Thought)從一開始就走上了錯(cuò)誤的軌跡所致。

o1 pro破解推理難題,首采自洽性機(jī)制

基于上述原因,o1 pro在推理階段采用了自洽性(Self-Consistency)/多數(shù)投票(Majority Vote)機(jī)制。

它與普通的o1模型使用完全相同的模型和權(quán)重。

從表面上看,自洽性/多數(shù)投票的成本似乎非常高,因?yàn)槿绻?個(gè)投票流,那么需要生成5倍的token。

這也為OpenAI將ChatGPT Pro訂閱價(jià)格從20美元提高到200美元提供了合理的依據(jù)。

圖片

但實(shí)際上,OpenAI的成本增加遠(yuǎn)低于價(jià)格上漲的幅度。

這是因?yàn)樵谶\(yùn)行更長(zhǎng)的平均序列長(zhǎng)度,并增加解碼token與預(yù)填充token的比例時(shí),推理系統(tǒng)通常更多受到帶寬和容量的限制,而不是FLOPs的限制。系統(tǒng)雖然有多余的 FLOPs,但無法有效利用。

另一方面,由于自洽性/多數(shù)投票在大部分序列長(zhǎng)度上使用了共享的前綴,因此無需在KV緩存上花費(fèi)額外的帶寬或內(nèi)存。

摩爾定律:計(jì)算領(lǐng)域最重要的Scaling Law

OpenAI o1已向世界證明了推理模型的巨大潛力,為AI開辟了全新的探索空間——計(jì)算時(shí)推理。

隨著計(jì)算能力的提升,合成數(shù)據(jù)生成、PPO、功能驗(yàn)證器(Functional Verifiers),以及其他推理訓(xùn)練基礎(chǔ)設(shè)施,都將為Scaling Law續(xù)命。

現(xiàn)在大家熱議的AI「Scaling Law」之爭(zhēng),其實(shí)和過去幾十年對(duì)計(jì)算能力擴(kuò)展和摩爾定律的爭(zhēng)論如出一轍。

在2000年代末Dennard Scaling失效之前,有些人總是固守著CPU主頻這一個(gè)指標(biāo)。按這種算法,這些年確實(shí)沒有多大進(jìn)展。

但事實(shí)是,計(jì)算能力一直在穩(wěn)步提升。

當(dāng)CPU主頻遇到瓶頸后,業(yè)界迅速轉(zhuǎn)向多核架構(gòu)等新方向。雖然功耗和散熱始終是個(gè)挑戰(zhàn),但創(chuàng)新從未停止。

圖片

摩爾定律走向終結(jié)的討論曾經(jīng)十分熱鬧,但最近聲音也小了很多。主要是因?yàn)橄裼ミ_(dá)這樣的AI領(lǐng)軍企業(yè)找到了全新的擴(kuò)展維度,帶來了顯著的算力提升。

比如,先進(jìn)封裝技術(shù)不僅提升了I/O能力,還突破了傳統(tǒng)光罩尺寸的限制,用上了更大的硅片面積。

芯片內(nèi)外的并行計(jì)算,再加上更大規(guī)模的高帶寬網(wǎng)絡(luò),讓這些芯片在大規(guī)模部署時(shí)能夠更好地協(xié)同工作——尤其是在AI推理方面。

這種情況和2004年很相似:某些傳統(tǒng)增長(zhǎng)曲線確實(shí)在放緩,但得益于新技術(shù)范式的出現(xiàn)和擴(kuò)展,整個(gè)行業(yè)依然在快速發(fā)展。

因此,就像過去50多年的摩爾定律一樣,AI領(lǐng)域的「Scaling Law」也會(huì)持續(xù)擴(kuò)展下去。

圖片

Scaling不只預(yù)訓(xùn)練

在關(guān)于Scaling Law的討論中,預(yù)訓(xùn)練往往是關(guān)注的焦點(diǎn),因?yàn)樗子诶斫?,但這只是AI生命周期的一部分。模型完成預(yù)訓(xùn)練后,仍需進(jìn)行大量工作,準(zhǔn)備好實(shí)際使用。

預(yù)訓(xùn)練的目標(biāo)非常單一,即「正確預(yù)測(cè)下一個(gè) token」。然而,實(shí)現(xiàn)這一目標(biāo)仍然遠(yuǎn)未達(dá)到LLM開發(fā)的最終目標(biāo),即「回答用戶的提示詞」或「完成任務(wù)」。

推理模型與思維鏈

由于訓(xùn)練模型缺乏足夠復(fù)雜、高難度的提示詞,數(shù)學(xué)成為微調(diào)模型的重點(diǎn)領(lǐng)域之一。

方法之一,是聘請(qǐng)高技能的人類專家來設(shè)計(jì)提示詞,或者在內(nèi)部生成這些提示詞。通過推理有效解決數(shù)學(xué)問題,需要清晰表達(dá)且正確的思維鏈,模型可以從中學(xué)習(xí)。

盡管某些數(shù)學(xué)能力可以通過代碼解釋器等工具得到提升,后者允許模型生成并執(zhí)行Python之類語言的代碼,從而幫助解決部分?jǐn)?shù)學(xué)問題,但代碼并不足以解決所有問題,尤其是最復(fù)雜的數(shù)學(xué)問題。

因此,訓(xùn)練推理模型解決復(fù)雜數(shù)學(xué)問題,是目前研究者付諸大量努力的方向。

模型可以通過提示詞直接生成思維鏈,但結(jié)果可能不可靠,因?yàn)镃oT中某一步出錯(cuò),就會(huì)導(dǎo)致錯(cuò)誤累積到最終的錯(cuò)誤答案。不過,為了防止這種情況,o1 Pro引入了多重保障機(jī)制。

另一個(gè)挑戰(zhàn)在于,即使是最新的模型,在面對(duì)不確定性時(shí)也可能生成虛假信息,這容易導(dǎo)致推理步驟中的錯(cuò)誤進(jìn)一步累積。

通過CoT推理的對(duì)齊訓(xùn)練,可以解決這些挑戰(zhàn)。其中,強(qiáng)化學(xué)習(xí)用于將模型行為對(duì)齊到CoT推理,并通過多個(gè)獨(dú)立模型提高其準(zhǔn)確性。

第一個(gè)獨(dú)立的LLM是生成器(Generator),訓(xùn)練后,它可以跨多個(gè)步驟生成經(jīng)過推理的解決方案。生成器通常與基礎(chǔ)LLM分開,因?yàn)樗鼘iT針對(duì)生成這些推理步驟的任務(wù)進(jìn)行微調(diào),而基礎(chǔ)LLM通常針對(duì)通用任務(wù)進(jìn)行微調(diào)。

第二個(gè)是驗(yàn)證器模型(Verifier Model),職責(zé)是評(píng)估生成器生成的解決方案是否正確,提供相應(yīng)獎(jiǎng)勵(lì)。

驗(yàn)證器模型可以通過人工注釋、自動(dòng)過程注釋或自動(dòng)驗(yàn)證器進(jìn)行訓(xùn)練。

在OpenAI論文「Let’s Verify Step by Step」中,研究人員介紹了PRM800K過程監(jiān)督數(shù)據(jù)集,其中人工數(shù)據(jù)標(biāo)注員對(duì)來自MATH數(shù)據(jù)集12,000個(gè)問題的75,000個(gè)解決方案中的800,000個(gè)過程步驟進(jìn)行了注釋,這些方案就是由生成器生成的。

圖片

收集這些注釋的成本不可忽視。在原始數(shù)學(xué)論文中,一些大學(xué)生被要求在一小時(shí)內(nèi)完成20個(gè)問題,其得分在40%到90%之間,90%的得分者,是一位三次獲得IMO金牌的選手。

OpenAI論文指出,由于成本原因,建立一個(gè)足夠大的人工注釋PRM數(shù)據(jù)集,以匹配數(shù)量級(jí)更大的ORM數(shù)據(jù)集進(jìn)行公平比較,是不現(xiàn)實(shí)的。

替代方法,就是使用自動(dòng)過程注釋,或?qū)ふ易詣?dòng)驗(yàn)證器。

自動(dòng)驗(yàn)證器是一個(gè)可以快速、輕松驗(yàn)證給定問題方案是否正確的系統(tǒng)或模型。

對(duì)于代碼,可能是通過執(zhí)行或測(cè)試代碼;對(duì)于數(shù)學(xué),則可能是評(píng)估給定函數(shù),或使用像LEAN這樣的證明工具來檢查正確性。然而,使用自動(dòng)驗(yàn)證器可能并不會(huì)那么「自動(dòng)化」——依賴外部系統(tǒng)會(huì)增加開銷,影響訓(xùn)練性能,還可能需要長(zhǎng)時(shí)間運(yùn)行。

另一個(gè)則是完成器(Completer)。與讓人類評(píng)估中間步驟不同,它用于創(chuàng)建多條不同的推理步驟路徑。

「Math-Shepherd」論文使用了自動(dòng)過程注釋——生成多條路徑,然后通過以下兩種方式評(píng)估這些路徑:如果路徑導(dǎo)致正確的最終答案,則將其標(biāo)記為一個(gè)好的推理步驟(即硬估計(jì));或者根據(jù)該步驟導(dǎo)致正確解決方案的頻率分配一個(gè)分?jǐn)?shù)(即軟估計(jì))。

圖片

第四個(gè)模型是獎(jiǎng)勵(lì)模型(Reward Model),從過程注釋標(biāo)簽中訓(xùn)練而來。

RM有兩種類型:一種是基于結(jié)果提供獎(jiǎng)勵(lì)的結(jié)果獎(jiǎng)勵(lì)模型(ORM),另一種是基于過程提供獎(jiǎng)勵(lì)的過程獎(jiǎng)勵(lì)模型(PRM)。

ORM通常對(duì)模型提供的多種答案進(jìn)行排序,選擇排名最高的答案。而PRM為推理思維鏈的每一步分配一個(gè)分?jǐn)?shù),并基于該分?jǐn)?shù)提供獎(jiǎng)勵(lì)。因此,在訓(xùn)練思維鏈模型時(shí),PRM通常更受青睞。

「Let’s Verify Step by Step」論文展示了PRM相較于ORM的更強(qiáng)表現(xiàn)。盡管如此,OpenAI仍然更多依賴于ORM。

圖片

在「Math-Shepherd」中,就是通過一步一步近端策略優(yōu)化(PPO)進(jìn)行強(qiáng)化學(xué)習(xí),從而訓(xùn)練最終的LLM,使其掌握期望的CoT推理行為。

推理時(shí)Scaling

o1-preview的發(fā)布引起了業(yè)界對(duì)全新Scaling Law的關(guān)注——即測(cè)試時(shí)計(jì)算(推理時(shí)計(jì)算)越多,答案越好,而利用這一scaling維度的努力正處于一個(gè)重要的轉(zhuǎn)折點(diǎn)。

圖片

測(cè)試時(shí)scaling并不是一個(gè)新概念。在棋類游戲和撲克中,scaling測(cè)試時(shí)計(jì)算的理念已經(jīng)存在了一段時(shí)間。比如,AlphaGo在測(cè)試時(shí)使用蒙特卡洛樹搜索來決定下一步棋。

通過更強(qiáng)大的計(jì)算力,推理模型可以思考更多步驟,從而增加得出正確答案的可能性。

然而,目前推理能力受限于推理系統(tǒng)的性能,因?yàn)橥评砟P退璧拈L(zhǎng)上下文長(zhǎng)度顯著增加了內(nèi)存和計(jì)算需求。

這意味著,為了保持上下文長(zhǎng)度和價(jià)格的合理性,同時(shí)為一定數(shù)量的用戶提供性價(jià)比服務(wù),推理模型開發(fā)者限制了CoT的長(zhǎng)度和復(fù)雜度。

因此,當(dāng)前的推理模型相當(dāng)于「表現(xiàn)受限」,它們的性能可以隨著更強(qiáng)大的推理系統(tǒng)(如GB200 NVL72)的上市而顯著scaling。

一旦具備經(jīng)濟(jì)可行性,允許o1調(diào)整CoT的長(zhǎng)度和計(jì)算資源的使用,將成為利用測(cè)試時(shí)計(jì)算scaling的關(guān)鍵技術(shù)。

圖片

從評(píng)估結(jié)果和下方圖表中可以看出,即使只嘗試一次,GPT-4o也能擊敗其他模型。

scaling測(cè)試時(shí)計(jì)算最簡(jiǎn)單的方式是同時(shí)增加運(yùn)行的樣本數(shù)量,這實(shí)際上類似于「無限猴子定理」。

論文「Large Language Monkeys」表明,簡(jiǎn)單的重復(fù)采樣可以scaling推理時(shí)計(jì)算,并產(chǎn)生更好的結(jié)果。

圖片

這可以說是最基本的搜索方法之一。

生成更多樣本可以實(shí)現(xiàn)更大的覆蓋率,覆蓋率定義為任何一個(gè)樣本得出正確答案的概率(即pass@k)。

有人可能會(huì)認(rèn)為,僅僅讓這些較小的模型多次思考一個(gè)問題可能會(huì)更準(zhǔn)確且更便宜,但我們需要一個(gè)有效的驗(yàn)證器來判斷是否成功生成了「莎士比亞全集」式的答案。

圖片

「這是最好的時(shí)代,也是最糟的時(shí)代」

通過搜索,Scaling推理計(jì)算

搜索是Scaling推理計(jì)算的另一個(gè)維度,這在o1中未被利用,但在o1 Pro中得到了應(yīng)用。

o1在測(cè)試時(shí)(即推理階段)并未評(píng)估多條推理路徑,也沒有進(jìn)行任何搜索。

Sasha Rush在其關(guān)于測(cè)試時(shí)scaling的推測(cè)(o1)的演講視頻中,對(duì)搜索以及與推理模型相關(guān)的其他主題進(jìn)行了深入討論和說明。

自洽性/多數(shù)投票是一種搜索方法。

在這種方法中,多次將提示詞輸入模型,以生成多個(gè)響應(yīng),然后通過選擇在一定數(shù)量的樣本中出現(xiàn)次數(shù)最多的響應(yīng)來確定正確答案。

圖片

Best-of-N采樣是另一種方法。

在這種方法中,為特定提示詞生成N個(gè)解決方案,然后使用驗(yàn)證器模型識(shí)別出導(dǎo)致正確答案的思維鏈。

圖片

蒙特卡洛展開是一種基于Best-of-N的技術(shù)。在這種方法中,通過從某個(gè)中間步驟出發(fā)生成多個(gè)路徑來完成思維鏈,從而對(duì)該中間步驟進(jìn)行評(píng)估。

這種評(píng)估可以決定是否繼續(xù)當(dāng)前步驟,或者轉(zhuǎn)向未來可能更優(yōu)的步驟,從而改進(jìn)整體的思維鏈。

Scaling訓(xùn)練比Scaling推理計(jì)算更便宜

推理模型高昂的成本特性,加上其使用了大量token,使得推理成本顯著上升。

如果科技企業(yè)希望以更高性價(jià)比的部署這些推理模型,那么控制部署成本的上升趨勢(shì)至關(guān)重要。

目前,主要實(shí)驗(yàn)室并沒有足夠的能力。以他們期望的規(guī)模服務(wù)這些模型。

微軟仍然無法全面推出其Copilot功能集;Sora無法廣泛使用,為此,奧特曼甚至關(guān)閉了注冊(cè)入口。

圖片

無論是在預(yù)訓(xùn)練還是推理階段,計(jì)算能力依然非常有限。

為此,scaling預(yù)訓(xùn)練仍然可以在降低成本方面產(chǎn)生巨大影響。

具體而言,通過使用比Chinchilla最優(yōu)點(diǎn)多兩個(gè)數(shù)量級(jí)的FLOPs進(jìn)行過度訓(xùn)練,可以實(shí)現(xiàn)與Chinchilla最優(yōu)點(diǎn)相同的性能,同時(shí)將推理成本降低一個(gè)數(shù)量級(jí)。

圖片

scaling預(yù)訓(xùn)練兩個(gè)數(shù)量級(jí)所需的成本將比以往任何時(shí)候都更高,但這仍然是合理的。

超大規(guī)模計(jì)算提供商也在繼續(xù)建設(shè)更大的集群,比如馬斯克計(jì)劃建立一個(gè)擁有100萬塊GPU的集群。

圖片

鑒于OpenAI和微軟目前大約在數(shù)十萬塊GPU上運(yùn)行GPT的推理,對(duì)預(yù)訓(xùn)練進(jìn)行scaling似乎仍然能夠提供所需的成本節(jié)約。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-09 08:00:00

AI大模型人工智能

2021-01-19 05:49:44

DNS協(xié)議

2024-12-26 17:13:17

AI模型訓(xùn)練

2024-10-23 09:20:00

2024-10-30 14:25:00

GitHub模型

2024-11-25 12:50:14

2024-12-27 09:50:00

模型數(shù)據(jù)測(cè)試

2025-02-19 15:40:00

OpenAI編程模型

2025-02-28 09:22:00

2020-08-11 07:34:29

Java溢出事故

2024-11-07 15:40:00

2025-06-09 08:48:00

2025-01-22 16:57:32

字節(jié)跳動(dòng)豆包大模型

2025-02-19 13:50:00

明星編程軟件

2025-07-01 09:02:06

2024-06-21 09:51:17

2023-10-31 12:58:00

TypeScriptJavaScript

2021-03-16 08:21:29

Spark系統(tǒng)并行

2024-12-12 14:10:00

AI模型數(shù)據(jù)

2024-12-09 09:00:00

AGI智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)