偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

新Scaling Law浮出水面!OpenAI內(nèi)部員工爆料下一代模型Orion性能堪憂 原創(chuàng)

發(fā)布于 2024-11-15 15:31
瀏覽
0收藏

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

Scaling Law 最近被業(yè)內(nèi)不少人士唱衰,一方面以O(shè)penAI為代表大模型廠商們,基本上還是圍繞著GPT-4在探索周邊,雖說不是原地打轉(zhuǎn),但單就性能提升而言,就連OpenAI自家的員工都爆料說非常有限。

1.OpenAI內(nèi)部人士:Orion性能提升遇到瓶頸

昨天,外媒媒體曝出消息稱,奧特曼一直吊胃口的下一代模型“Orion”,也被自家的兩位知情人士,坦承:GPT-4與Orion之間的質(zhì)量差距明顯小于GPT-3與GPT-4之間的差距,并透露截止到夏末,Orion在回答未經(jīng)訓(xùn)練的編碼問題時表現(xiàn)不佳,僅在語言處理能力方面顯示出提升。

這可影響大了,業(yè)界都在向著OpenAI學(xué)習(xí)、追趕,OpenAI的放緩自然也就意味著大模型進展在放緩。

其實,不止這些頭部的模型廠商面臨著規(guī)模定律的擴大困境,就連算力有限,只能量化做小模型(例如只有1bit參數(shù)的BitNet,再有業(yè)內(nèi)很多基于Llama做量化的小模型)的那些機構(gòu)同樣也面臨著困境。

那接下來大模型的大小廠商們還能怎么走?除了o1的“慢思考推理”、強化學(xué)習(xí)外,規(guī)模定律短期還有別的出路嗎?

2.新規(guī)模定律來了

答案終于來了!

最近,哈佛、斯坦福大學(xué)發(fā)表了一篇研究論文《Scaling Laws of Precision》掀起了AI圈不小的波瀾,得到了許多研究人士的瘋狂轉(zhuǎn)發(fā)與討論。

新Scaling Law浮出水面!OpenAI內(nèi)部員工爆料下一代模型Orion性能堪憂-AI.x社區(qū)圖片

論文中,研究人員進行了一項新研究,指出精度(即模型中用于表示數(shù)字的比特數(shù))在模型擴展規(guī)律中比之前認為的更為重要,可以顯著影響語言模型的性能。

研究人員指出,在以往描述模型性能隨參數(shù)量和訓(xùn)練數(shù)據(jù)量變化的擴展規(guī)律基本忽略了精度這一因素。

3.大模型已經(jīng)被過度訓(xùn)練,Llama3越來越難以量化

論文作者之一Kumar指出了兩點,一點是基于Llama3的量化越來越難,第二點則是發(fā)現(xiàn)提高數(shù)據(jù)精度可以提高量化的性能。

“由于模型在大量數(shù)據(jù)上過度訓(xùn)練,因此訓(xùn)練后量化變得更加困難,因此,如果在訓(xùn)練后量化,最終原來更多的預(yù)訓(xùn)練數(shù)據(jù)可能會造成危害!在預(yù)訓(xùn)練期間以不同的精度放置權(quán)重、激活或注意力的效果是一致且可預(yù)測的,并且擬合縮放定律表明,高精度(BF16)和下一代精度(FP4)的預(yù)訓(xùn)練可能都是次優(yōu)的設(shè)計選擇!”

新Scaling Law浮出水面!OpenAI內(nèi)部員工爆料下一代模型Orion性能堪憂-AI.x社區(qū)圖片

具體實驗上,研究團隊進行了超過465次訓(xùn)練,測試不同精度(3到16位)對模型的影響。實驗使用的語言模型規(guī)模達到17億參數(shù),訓(xùn)練數(shù)據(jù)量達260億個tokens。研究發(fā)現(xiàn),過度訓(xùn)練的模型在訓(xùn)練后對量化處理更為敏感。模型如果在訓(xùn)練數(shù)據(jù)量遠超“Chinchilla最優(yōu)”值20倍時,即被視為過度訓(xùn)練,這次實驗測試的比率達到了1000倍。

研究人員首先對訓(xùn)練后量化模型權(quán)重的常用技術(shù)進行了研究,發(fā)現(xiàn)訓(xùn)練時間越長/預(yù)訓(xùn)練期間用到的數(shù)據(jù)越多,模型對推理時的量化就越敏感,這解釋了為什么 Llama-3 可能更難量化。 

“事實上,這種損失下降大致是預(yù)訓(xùn)練期間的token/參數(shù)比率的冪律,因此你可以提前預(yù)測臨界數(shù)據(jù)大小,如果你正在為量化模型提供服務(wù),則超過該臨界數(shù)據(jù)大小,對更多數(shù)據(jù)進行預(yù)訓(xùn)練將會產(chǎn)生積極影響。”

“直覺可能是,隨著你在更多數(shù)據(jù)上進行訓(xùn)練,越來越多的知識被壓縮為權(quán)重,給定的擾動將對性能造成更大的損害。 ”

下面是一個固定語言模型,該模型對各種數(shù)據(jù)預(yù)算進行了過度訓(xùn)練,最高可達 300 億個 token,之后進行訓(xùn)練后量化。這表明,更多的預(yù)訓(xùn)練 FLOP 并不一定能帶來更好的生產(chǎn)模型。具體的實驗數(shù)字和圖示如下:

新Scaling Law浮出水面!OpenAI內(nèi)部員工爆料下一代模型Orion性能堪憂-AI.x社區(qū)圖片

(左)以固定的模型大小,針對不同的數(shù)據(jù)量在BF16精度下進行訓(xùn)練,并在最后對權(quán)重進行量化。研究發(fā)現(xiàn),由于訓(xùn)練后量化所導(dǎo)致的性能下降會隨著預(yù)訓(xùn)練期間觀察到的標記(token)數(shù)量的增加而增加,因此,最終額外的預(yù)訓(xùn)練數(shù)據(jù)可能會產(chǎn)生負面影響。

(右)我們的擴展研究表明,根據(jù)論文中的成本模型,以較低的精度訓(xùn)練更大的模型可能是計算上最優(yōu)的選擇。權(quán)重、激活值、注意力機制均進行了量化,所有模型均在同一數(shù)據(jù)量下進行訓(xùn)練,具體細節(jié)見附錄H。

然后該研究將注意力轉(zhuǎn)向低精度訓(xùn)練,主要研究量化感知訓(xùn)練(僅權(quán)重)和低精度訓(xùn)練。該研究將模型分解為權(quán)重、激活和 KV 緩存,找到其中任何一個量化到任意精度時損失的 Scaling Law,并開發(fā)一種組合且可解釋的函數(shù)形式來預(yù)測在預(yù)訓(xùn)練期間,量化這三者的任意組合對損失的影響。

4.新Scaling Law:精度擴展定律

作者介紹道,新發(fā)現(xiàn)的精度擴展定律依賴于“有效參數(shù)數(shù)量”的概念,“我們假設(shè)它是在固定數(shù)量的真實參數(shù)下降低精度時減少的數(shù)量,因此在 FP4 中訓(xùn)練的 10 億參數(shù)模型具有與 BF16 中的 2.5億參數(shù)模型相當?shù)摹行?shù)’數(shù)量。”

雖然權(quán)重可以在低精度下訓(xùn)練而不會出現(xiàn)問題,但激活和 KV 緩存卻很敏感。下面是標準化的“有效參數(shù)計數(shù)”,作為每個(權(quán)重、激活、KV 緩存)的精度函數(shù),以及當它們都保持相同精度(綁定)時,基于我們的擬合。

新Scaling Law浮出水面!OpenAI內(nèi)部員工爆料下一代模型Orion性能堪憂-AI.x社區(qū)圖片

實驗還揭示了基于新擴展規(guī)律的計算最優(yōu)精度。研究表明,當模型參數(shù)、數(shù)據(jù)和精度聯(lián)合優(yōu)化時,這一最優(yōu)精度通常獨立于計算預(yù)算。劃重點:下面的結(jié)論很重要——

首先,通過實驗,研究人員制定了新的精度縮放定律。另一項重要發(fā)現(xiàn)則提出了預(yù)訓(xùn)練期間計算的最優(yōu)精度。根據(jù)該研究,當同時優(yōu)化參數(shù)數(shù)量、數(shù)據(jù)和精度時,這一精度通常與計算預(yù)算無關(guān)。

其次,普遍采用的16位模型訓(xùn)練法并非最優(yōu),因為很多位是多余的。然而,使用4位進行訓(xùn)練則需要不成比例地增加模型大小,以維持損失縮放。研究人員的計算表明,對于較大的模型而言,7-8位是計算最優(yōu)的。

但是,當模型大小從一開始就固定時,情況就會發(fā)生變化:更大且訓(xùn)練更好的模型應(yīng)以更高的精度進行訓(xùn)練——例如,使用16位的Llama 3.1 8B模型。

然而,實際的計算節(jié)省還取決于硬件對更低精度的支持。此外,這里研究的模型(參數(shù)最多達17億個)尚未在最大的實際規(guī)模上進行測試。不過,這些一般趨勢仍然適用于更大的模型。

5.寫在最后OpenAI或轉(zhuǎn)向?qū)S心P突驊?yīng)用

正如文章開頭提到的,OpenAI難產(chǎn)的下一代大模型,如果按照此前的設(shè)想,將會面臨短期難以克服的困難:模型的參數(shù)規(guī)模沒有更大的算力儲備,即便儲備充足,這一新模型也會在數(shù)據(jù)中心的運行成本只會更加昂貴,再者還有一個硬傷:

這也是OpenAI內(nèi)部研究人員指出的,高質(zhì)量訓(xùn)練數(shù)據(jù)的缺乏是性能提升放緩的原因之一,因為大部分公開的文本和數(shù)據(jù)已被使用。為此,OpenAI創(chuàng)建了一個由Nick Ryder領(lǐng)導(dǎo)的“基礎(chǔ)團隊”(Foundations Team),以應(yīng)對數(shù)據(jù)資源短缺問題。

這些都需要大量的時間等待去補足。

而哈佛、斯坦福的這篇研究也被很多AI圈人士看好,比如知名AI研究員Tim Dettmers,認為這些結(jié)果揭示了量化的局限性。他預(yù)計,隨著低精度帶來的效率提升達到極限,將出現(xiàn)從純規(guī)模擴張向?qū)S媚P秃腿吮緫?yīng)用的轉(zhuǎn)變。

簡單理解,就是純規(guī)模擴張的量化模型已迎來瓶頸,專用模型勢必在接下來一年大放異彩。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄