偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Ilya錯(cuò)了,預(yù)訓(xùn)練沒結(jié)束!LeCun等反擊,「小模型時(shí)代」讓奧特曼預(yù)言成真

人工智能 新聞
Ilya「預(yù)訓(xùn)練結(jié)束了」言論一出,圈內(nèi)嘩然。谷歌大佬Logan Klipatrick和LeCun站出來反對(duì)說:預(yù)訓(xùn)練還沒結(jié)束!Scaling Law真的崩了嗎?Epoch AI發(fā)布報(bào)告稱,我們已經(jīng)進(jìn)入「小模型」周期,但下一代依然會(huì)更大。

最近,Ilya在NeurIPS 2024中宣布:預(yù)訓(xùn)練結(jié)束了!瞬間一石激起千層浪。

在他看來,數(shù)據(jù)如同化石燃料般難以再生,因此訓(xùn)練模型需要的海量數(shù)據(jù)即將枯竭。

圖片

作為前OpenAI首席科學(xué)家,Ilya的這番話,有可能影響之后數(shù)十年的AI發(fā)展方向。

不過,預(yù)訓(xùn)練真的結(jié)束了嗎?

最近,幾位圈內(nèi)大佬,就公開站出來質(zhì)疑和反對(duì)Ilya了。

谷歌大佬Logan Kilpatrick是這樣內(nèi)涵Ilya的:認(rèn)為預(yù)訓(xùn)練結(jié)束,恐怕是因?yàn)槟闳狈ο胂罅Α?/span>

圖片

前Meta具身智能團(tuán)隊(duì)的高級(jí)總監(jiān)Dhruv Batra也站出來共同表示:Ilya錯(cuò)了!

在他看來,人類的數(shù)據(jù)還沒有用完。

我們只是用完了人類書寫的文本而已,但我們擁有的視頻數(shù)量,依然遠(yuǎn)超我們的處理能力,目前只是尚未解決視覺領(lǐng)域的預(yù)訓(xùn)練問題罷了。

圖片

的確,要知道,網(wǎng)絡(luò)上的文本公共數(shù)據(jù),畢竟只是冰山一角而已。

我們除了文本,還能對(duì)音頻、視頻、圖像進(jìn)行預(yù)訓(xùn)練,甚至可以把視覺、嗅覺、觸覺、平衡和傳感器這些人類進(jìn)化出來的功能賦予機(jī)器。

而如果模型真的可以學(xué)習(xí)的話,那數(shù)據(jù)或許確實(shí)是無所不在。

圖片

圖片

圖片

有人則充分放分想象:如果預(yù)訓(xùn)練能和生物相連,那它的確永遠(yuǎn)不會(huì)結(jié)束。

圖片

Scaling Law和預(yù)訓(xùn)練到底有沒有撞墻?

種種事件表明,我們已經(jīng)站在了一個(gè)發(fā)展路線的分水嶺。

Ilya、LeCun甚至奧特曼,都已經(jīng)感覺到:目前的發(fā)展路線不能再延續(xù)下去了,我們亟需探索新的出路。

早期,Ilya曾是暴力Scaling的早期倡導(dǎo)者之一,認(rèn)為通過增加數(shù)據(jù)和算力來「scale up」,能顯著改善模型性能。

但現(xiàn)在,Ilya已經(jīng)承認(rèn)自己曾經(jīng)的想法錯(cuò)了,并透露SSI正在研究一種全新的替代方法,來擴(kuò)展預(yù)訓(xùn)練。

圖片

相較之下,外媒SemiAnalysis則在一篇關(guān)于o1的深度報(bào)道中指出——scale的維度遠(yuǎn)不止預(yù)訓(xùn)練,Scaling Law仍將繼續(xù)下去。

圖片

最近,Epoch AI研究員的一篇長文,更是直觀地展示了這個(gè)「矛盾」的現(xiàn)象。

圖片

從2017年Transformer架構(gòu)誕生到GPT-4發(fā)布,SOTA模型的規(guī)模一直在變大,但增幅在變小。

  • 從GPT-1到GPT-3,用了2年時(shí)間,模型參數(shù)量從1.17億增加到1750億,增加了1000倍
  • 從GPT-3到GPT-4,用了2年9個(gè)月,模型參數(shù)量從1750億增加到1.8萬億,增加了10倍

而到了2023年,這一趨勢(shì)直接發(fā)生了逆轉(zhuǎn)。

據(jù)估計(jì),當(dāng)前SOTA模型的參數(shù)可能要比GPT-4的1.8萬億小一個(gè)數(shù)量級(jí)!

  • GPT-4o大約為2000億參數(shù)
  • Claude 3.5 Sonnet約為4000億參數(shù)

但有趣的是,下一代模型的規(guī)模,可能又會(huì)重新超過GPT-4。

圖片

當(dāng)今SOTA模型最大只有約4000億參數(shù)

盡管許多實(shí)驗(yàn)室沒有公開模型架構(gòu),Epoch AI的研究員依然從蛛絲馬跡中發(fā)現(xiàn)了線索。

首先是開源模型的證據(jù)。根據(jù)Artificial Analysis的模型質(zhì)量指數(shù),當(dāng)前最佳的開源模型是Mistral Large 2和Llama 3.3,分別擁有1230億和700億參數(shù)。

這些稠密模型,架構(gòu)與GPT-3相似,但參數(shù)更少。它們總體的基準(zhǔn)表現(xiàn)超過了GPT-4和Claude 3 Opus,且由于參數(shù)更少,它們的推理成本和速度也更優(yōu)。

對(duì)于閉源模型,盡管我們通常無法得知參數(shù)詳情,但可以根據(jù)推理速度和收費(fèi)推測(cè)它們的大小。

僅考慮短上下文請(qǐng)求,OpenAI提供的2024年11月版本GPT-4o,每個(gè)用戶每秒100-150個(gè)輸出token,收費(fèi)每百萬輸出token 10美元;而GPT-4 Turbo每秒最多大約55個(gè)輸出token,費(fèi)用是每百萬輸出token 30美元。

顯然,GPT-4o比GPT-4 Turbo更便宜且更快,因此它的參數(shù)可能比GPT-4小得多。

另外,我們還可以使用推理經(jīng)濟(jì)學(xué)的理論模型,來預(yù)測(cè)GPT-4在H200上進(jìn)行推理的成本。

假設(shè)使用H200進(jìn)行推理的機(jī)會(huì)成本為每小時(shí)3美元,下面的圖顯示了不同價(jià)格點(diǎn)下,GPT-4及其假設(shè)縮小版的生成速度。

圖片

總體來說,為了讓模型每秒生成100個(gè)以上的token并且能夠流暢服務(wù),模型需要比GPT-4小得多。

根據(jù)上圖,假設(shè)OpenAI的價(jià)格加成大約是GPU成本的八分之一,GPT-4o的參數(shù)量可能在2000億左右,雖然這個(gè)估計(jì)可能有2倍的誤差。

有證據(jù)表明,Anthropic的Claude 3.5 Sonnet可能比GPT-4o更大。Sonnet每秒生成約60個(gè)token,每百萬輸出token收費(fèi)15美元。這速度在優(yōu)化設(shè)置下接近原版GPT-4的收支平衡點(diǎn)。

不過,考慮到Anthropic API可能加價(jià)不少,Sonnet參數(shù)規(guī)模仍顯著小于GPT-4,估計(jì)在4000億左右。

總體來看,當(dāng)前前沿模型的參數(shù)大多在4000億左右,像Llama 3.1 405B和Claude 3.5 Sonnet可能是最大的。

雖然對(duì)于閉源模型的參數(shù)估計(jì)有很大的不確定性,但我們?nèi)匀豢梢酝茰y(cè),從GPT-4和Claude 3 Opus到如今最強(qiáng)的模型,規(guī)模縮小的幅度可能接近一個(gè)數(shù)量級(jí)。

為什么會(huì)這樣?

針對(duì)這一現(xiàn)象,Epoch AI認(rèn)為有四個(gè)主要原因:

1. AI需求爆發(fā),模型不得不瘦身

自ChatGPT和GPT-4發(fā)布以來,AI產(chǎn)品需求激增,服務(wù)商面臨的推理請(qǐng)求大大超出預(yù)期。

此前,從2020年到2023年3月,模型訓(xùn)練的目標(biāo)是最小化訓(xùn)練計(jì)算量,即在固定的能力水平下,花費(fèi)盡可能少的計(jì)算資源完成訓(xùn)練。Kaplan和Chinchilla的Scaling Law建議,隨著訓(xùn)練計(jì)算量的增加,模型規(guī)模也應(yīng)擴(kuò)大。

隨著推理成本占據(jù)支出的大頭,傳統(tǒng)法則的適用性受到了挑戰(zhàn)。相比scaling模型規(guī)模,在更多訓(xùn)練數(shù)據(jù)(token)上訓(xùn)練較小的模型反而更劃算,因?yàn)檩^小的模型在推理階段的計(jì)算需求較低,能夠以更低的成本服務(wù)用戶。

比如,從Llama 2 70B到Llama 3 70B,雖然模型參數(shù)規(guī)模沒有顯著增加,但模型的性能卻顯著提升。

這是因?yàn)橥ㄟ^過度訓(xùn)練(在更多數(shù)據(jù)上訓(xùn)練較小的模型),可以讓模型在保持小規(guī)模的同時(shí),表現(xiàn)得更強(qiáng)大。

2. 蒸餾,讓小模型更能打

實(shí)驗(yàn)室還采用了「蒸餾」方法,從而讓更小的模型表現(xiàn)得更強(qiáng)大。

蒸餾指的是讓小模型模仿已經(jīng)訓(xùn)練好的大模型的性能。

蒸餾方法有很多種,其中一種簡(jiǎn)單的方法是使用大模型生成高質(zhì)量的合成數(shù)據(jù)集來訓(xùn)練小模型,而更復(fù)雜的方法則需要訪問大模型的內(nèi)部信息(如隱藏狀態(tài)和logprobs)。

Epoch AI認(rèn)為,GPT-4o和Claude 3.5 Sonnet很可能是從更大的模型蒸餾得到的。

3. Scaling Law的轉(zhuǎn)變

Kaplan Scaling Law(2020)建議,模型的參數(shù)量與訓(xùn)練用的token數(shù)量(即數(shù)據(jù)量)應(yīng)保持較高的比例。簡(jiǎn)單來說,當(dāng)你增加訓(xùn)練數(shù)據(jù)時(shí),應(yīng)該相應(yīng)增加模型的規(guī)模(參數(shù)量)

而Chinchilla Scaling Law(2022)則偏向于更多訓(xùn)練數(shù)據(jù)和更少的參數(shù)。模型不必越來越大,關(guān)鍵在于訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性。

這個(gè)轉(zhuǎn)變導(dǎo)致了訓(xùn)練方式的改變:模型變得更小,但訓(xùn)練數(shù)據(jù)更多。

從Kaplan到Chinchilla的轉(zhuǎn)變,并非因?yàn)橥评硇枨蟮脑黾?,而是我們?duì)如何有效scaling預(yù)訓(xùn)練的理解發(fā)生了變化。

4. 推理更快,模型更小

隨著推理方法的改進(jìn),模型生成token的效率和低延遲變得更加重要。

過去,判斷一個(gè)模型「足夠快」的標(biāo)準(zhǔn)是看它的生成速度是否接近人類的閱讀速度。

然而,當(dāng)模型在生成每個(gè)輸出token時(shí)需要先推理出多個(gè)token時(shí)(比如每個(gè)輸出token對(duì)應(yīng)10個(gè)推理token),提升生成效率就變得更關(guān)鍵。

這推動(dòng)了實(shí)驗(yàn)室,像OpenAI,專注于優(yōu)化推理過程,使得模型在處理復(fù)雜推理任務(wù)時(shí)能夠更高效運(yùn)行,也因此促使它們縮小模型的規(guī)模。

5. 用AI喂AI,成本更低

越來越多的實(shí)驗(yàn)室開始采用合成數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)來源,這也是促使模型變小的原因之一。

合成數(shù)據(jù)為訓(xùn)練計(jì)算scaling提供了一種新的途徑,超越了傳統(tǒng)的增加模型參數(shù)量和訓(xùn)練數(shù)據(jù)集大小的方法(即,超越預(yù)訓(xùn)練計(jì)算scaling)。

我們可以生成將來用于訓(xùn)練的token,而不是從互聯(lián)網(wǎng)上抓取它們,就像AlphaGo通過自我對(duì)弈生成訓(xùn)練數(shù)據(jù)一樣。

這樣,我們可以保持Chinchilla Scaling Law下計(jì)算最優(yōu)的token與參數(shù)比例,但通過生成數(shù)據(jù)時(shí)為每個(gè)token投入更多計(jì)算,從而增加訓(xùn)練計(jì)算量而不增加模型大小。

奧特曼:參數(shù)規(guī)模競(jìng)賽即將終結(jié)?

2023年4月,OpenAI發(fā)布了當(dāng)時(shí)最強(qiáng)的,同時(shí)也是第一款未公開參量的模型GPT-4。

之后不久,CEO奧特曼曾預(yù)言了模型參數(shù)競(jìng)賽的終結(jié):圍繞模型參數(shù)量的競(jìng)賽,就像歷史上對(duì)更高處理器主頻的追求,是一個(gè)死胡同。

圖片

那么,前沿模型的規(guī)模會(huì)不會(huì)越變?cè)叫∧兀?/span>

簡(jiǎn)短的答案是——可能不會(huì)。但也很難說是否應(yīng)該期待它們?cè)诙唐趦?nèi)變得比GPT-4更大。

從Kaplan到Chinchilla的轉(zhuǎn)變是一次性的,因此我們沒有理由期待它繼續(xù)讓模型變小。

GPT-4發(fā)布后的推理需求增長也可能快于未來推理支出的增長速度。且合成數(shù)據(jù)和scaling計(jì)算并非每個(gè)實(shí)驗(yàn)室都在采納——即使有高質(zhì)量的訓(xùn)練數(shù)據(jù),對(duì)于非常小的模型而言,能夠取得的成就可能非常有限。

此外,硬件的進(jìn)步可能會(huì)促使更大的模型變得更優(yōu),因?yàn)樵谙嗤A(yù)算下,大模型通常表現(xiàn)更好。

較小的模型在推理時(shí)可能表現(xiàn)更差,尤其在長上下文和復(fù)雜任務(wù)上。

未來的模型(如GPT-5或Claude 4)可能會(huì)恢復(fù)或稍微超過GPT-4的規(guī)模,之后是否繼續(xù)縮小規(guī)模難以預(yù)料。

理論上,當(dāng)前硬件足以支持比GPT-4大50倍、約100萬億參數(shù)的模型,可能以每百萬輸出token 3000美元、每秒10-20個(gè)token的速度提供服務(wù)。

但正如Karpathy所說,相比于如今這種只能根據(jù)prompt去解決博士級(jí)別問題的AI,一個(gè)能夠真正作為「實(shí)習(xí)生」入職的AI更為實(shí)用。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-16 07:10:00

OpenAIAI人工智能

2024-12-16 08:20:00

AI工具

2024-09-29 13:40:00

2023-06-26 07:10:51

2024-12-16 07:15:00

2024-12-24 14:30:00

模型AI訓(xùn)練

2022-08-25 10:31:57

模型人工智能

2024-11-12 13:07:44

2022-05-30 15:44:33

模型訓(xùn)練GAN

2025-06-13 09:29:51

2022-01-21 15:33:56

架構(gòu)模型AI

2024-05-29 13:11:00

2022-06-25 21:38:36

AI模型

2018-01-30 17:08:13

AI開源人工智能

2024-11-04 00:24:56

2025-07-04 16:39:56

AI模型機(jī)器學(xué)習(xí)

2009-12-28 09:54:54

2024-11-18 08:40:00

2017-12-26 13:53:31

深度學(xué)習(xí)遷移學(xué)習(xí)

2023-11-20 21:56:57

入職微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)