偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

萬萬沒想到,ChatGPT參數(shù)只有200億?

人工智能 新聞
微軟一篇題為《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的論文,在做對比的時(shí)候透露出了重要信息:ChatGPT 是個(gè)「只有」20B(200 億)參數(shù)的模型,這件事引起了廣泛關(guān)注。

誰都沒有想到,ChatGPT 的核心秘密是由這種方式,被微軟透露出來的。

昨天晚上,很多討論 AI 的微信群都被一篇 EMNLP 論文和其中的截圖突然炸醒。

微軟一篇題為《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的論文,在做對比的時(shí)候透露出了重要信息:ChatGPT 是個(gè)「只有」20B(200 億)參數(shù)的模型,這件事引起了廣泛關(guān)注。

圖片

距 ChatGPT 發(fā)布已經(jīng)快一年了,但 OpenAI 一直未透露 ChatGPT 的技術(shù)細(xì)節(jié)。由于其強(qiáng)大的模型性能,人們對 ChatGPT 的參數(shù)量、訓(xùn)練數(shù)據(jù)等信息抱有諸多疑問和猜測。

作為行業(yè)一直以來的標(biāo)桿,ChatGPT 性能強(qiáng)大,可以解決各種各樣的問題。它的前身 GPT-3 參數(shù)量就達(dá)到了 1750 億,實(shí)用化以后的大模型居然被 OpenAI 瘦身了快 9 倍,這合理嗎?

「如何看待這篇論文」的話題立刻沖上了知乎熱榜。

圖片

論文鏈接:https://arxiv.org/abs/2310.17680

具體來說,微軟這篇論文提出了一種預(yù)訓(xùn)練的擴(kuò)散代碼生成模型 ——CodeFusion。CodeFusion 的參數(shù)量是 75M。在實(shí)驗(yàn)比較部分,論文的表 1 將 ChatGPT 的參數(shù)量明確標(biāo)成了 20B。

眾所周知,微軟和 OpenAI 是合作已久的一對伙伴,并且這是一篇 EMNLP 2023 論文,因此大家推測這個(gè)數(shù)據(jù)很有可能是真實(shí)的。

然而,關(guān)于 ChatGPT 參數(shù)量的猜測,人們一直認(rèn)為是一個(gè)龐大的數(shù)字,畢竟 GPT-3 的參數(shù)量就已經(jīng)達(dá)到了 175B(1750 億)。掀起大型語言模型(LLM)浪潮的 ChatGPT,難道就只有 20B 參數(shù)?

大家怎么看?

這個(gè)數(shù)據(jù)被扒出來之后,在知乎和 Twitter 已經(jīng)引起了廣泛討論。畢竟,200 億參數(shù)達(dá)到這樣的效果十分驚人。再則,國內(nèi)追趕出的大模型動(dòng)則就是數(shù)百億、上千億。

那么這個(gè)數(shù)據(jù)保不保真?大家都有什么看法呢?

NLP 知名博主、新浪微博新技術(shù)研發(fā)負(fù)責(zé)人張俊林「盲猜」分析了一波,引起了大家廣泛贊同:

不負(fù)責(zé)任猜測一波:GPT 4 是去年 8 月做好的,ChatGPT 估計(jì)是 OpenAI 應(yīng)對 Anthropic 要推出的 Claude 專門做的,那時(shí)候 GPT 4 應(yīng)該價(jià)值觀還沒對齊,OpenAI 不太敢放出來,所以臨時(shí)做了 ChatGPT 來搶先發(fā)優(yōu)勢。OpenAI 在 2020 年推出 Scaling law 的文章,Deepmind 在 2022 年推出的改進(jìn)版本 chinchilla law。OpenAI 做大模型肯定會(huì)遵循科學(xué)做法的,不會(huì)拍腦袋,那么就有兩種可能:

可能性一:OpenAI 已經(jīng)看到 Chinchilla 的論文,模型是按照龍貓法則做的,我們假設(shè) ChatGPT 的訓(xùn)練數(shù)據(jù)量不低于 2.5T token 數(shù)量(為啥這樣后面分析),那么按照龍貓法則倒推,一般訓(xùn)練數(shù)據(jù)量除以 20 就應(yīng)該是最優(yōu)參數(shù)量。于是我們可以推出:這種情況 ChatGPT 模型的大小約在 120B 左右。

可能性二:OpenAI 在做 ChatGPT 的時(shí)候還沒看到 Chinchilla 的論文,于是仍然按照 OpenAI 自己推導(dǎo)的 Scaling law 來設(shè)計(jì)訓(xùn)練數(shù)據(jù)量和模型大小,推算起來訓(xùn)練數(shù)據(jù)量除以 12.5 左右對應(yīng)模型最優(yōu)參數(shù),他們自己的 Scaling law 更傾向把模型推大。假設(shè)訓(xùn)練數(shù)據(jù)量是 2.5T 左右,那么這種情況 ChatGPT 的模型大小應(yīng)該在 190 到 200B 左右。

大概率第一個(gè)版本 ChatGPT 推出的時(shí)候在 200B 左右,所以剛出來的時(shí)候大家還是覺得速度慢,價(jià)格也高。3 月份 OpenAI 做過一次大升級,價(jià)格降低為原先的十分之一。如果僅僅靠量化是不太可能壓縮這么猛的,目前的結(jié)論是大模型量化壓縮到 4 到 6bit 模型效果是能保持住不怎么下降的。

所以很可能 OpenAI 這次升級從自己的 Scaling law 升級到了 Chinchilla 的 Scaling law,這樣模型大小就壓縮了 120B 左右,接近一半(也有可能遠(yuǎn)小于 120B,如果按照 chinchilla law,llama 2 最大的模型應(yīng)該是 100B 左右,此時(shí)算力分配最優(yōu),也就是說成本收益最合算。但是實(shí)際最大的 llama2 模型才 70B,而且更小的模型比如 7B 模型也用超大數(shù)據(jù)集。

llama1 65B 基本是符合 chinchilla law 的,llama2 最大模型已經(jīng)打破 chinchilla law 開始懟數(shù)據(jù)了。就是說目前大家做大模型的趨勢是盡管不是算力分配最優(yōu),但是都傾向于增加數(shù)據(jù)減小模型規(guī)模,這樣盡管訓(xùn)練成本不合算,但是推理合算,而訓(xùn)練畢竟是一次性的,推理則并發(fā)高次數(shù)多,所以這么配置很明顯總體是更合算的),再加上比如 4bit 量化,這樣推理模型的大小可以壓縮 4 倍,速度大約可提升 8 倍左右,如果是采取繼續(xù)增加訓(xùn)練數(shù)據(jù)減小模型規(guī)模,再加上其它技術(shù)優(yōu)化是完全有可能把推理價(jià)格打到十分之一的。

后續(xù)在 6 月份和 8 月份各自又價(jià)格下調(diào)了 25%,最終可能通過反復(fù)加數(shù)據(jù)減小規(guī)模逐漸把模型壓縮到 20B 左右。

這里解釋下為何 ChatGPT 的訓(xùn)練數(shù)據(jù)量不太可能比 2.5T 低,LLaMA 2 的訓(xùn)練數(shù)據(jù)量是 2T,效果應(yīng)該稍弱于 ChatGPT,所以這里假設(shè)最少 2.5T 的訓(xùn)練數(shù)據(jù)。目前研究結(jié)論是當(dāng)模型規(guī)模固定住,只要持續(xù)增加訓(xùn)練數(shù)據(jù)量,模型效果就會(huì)直接增長,mistral 7B 效果炸裂,歸根結(jié)底是訓(xùn)練數(shù)據(jù)量達(dá)到了 8 個(gè) T,所以導(dǎo)致基礎(chǔ)模型效果特別強(qiáng)。以 ChatGPT 的效果來說,它使用的數(shù)據(jù)量不太可能低于 2.5T。

當(dāng)然,還有另外一種可能,就是 ChatGPT 在后期優(yōu)化(比如第一次大升級或者后續(xù)的升級中,開始版本不太可能走的這條路)的時(shí)候也不管 scaling law 了,走的是類似 mistral 的路線,就是模型大小固定在 20B,瘋狂增加訓(xùn)練數(shù)據(jù),如果又構(gòu)造出合適的 instruct 數(shù)據(jù),效果也可能有保障。

不論怎么講,對于 6B 到 13B 左右比較適合應(yīng)用落地的模型,強(qiáng)烈呼吁中文開源模型模仿 mistral,固定住一個(gè)最適合使用的模型大小,然后瘋狂增加訓(xùn)練數(shù)據(jù),再加上好的 instruct 策略,是有可能作出小規(guī)模效果體驗(yàn)足夠好的模型的。我個(gè)人認(rèn)為對于開源模型來說,7B-13B 左右大小的模型應(yīng)該是兵家必爭之地。有心氣做開源的可以再努把力,把訓(xùn)練數(shù)據(jù)往上再努力懟一懟。

早在 OpenAI 開放 ChatGPT API 時(shí),0.002 美元 / 1k token 的定價(jià)就令人們意外,這個(gè)價(jià)格只有 GPT-3.5 的 1/10。彼時(shí)就有人推測:「ChatGPT 是百億(~10B)參數(shù)的模型」,并且「ChatGPT 使用的獎(jiǎng)勵(lì)模型(reward model)可能是千億級模型」。該推測來源于清華大學(xué) NLP 在讀博士鄭楚杰的知乎回答。

原回答鏈接:https://www.zhihu.com/question/587083296/answer/2918080518

而國內(nèi)外許多網(wǎng)友也都認(rèn)為,200 億的參數(shù),是完全合理的。

也有知乎網(wǎng)友從價(jià)格上分析,這個(gè)數(shù)據(jù)也應(yīng)該是對的。

當(dāng)然,也有網(wǎng)友認(rèn)為這可能是個(gè)「拼寫錯(cuò)誤」,或許實(shí)際是 120B(1200 億),至少 120B 和 GPT-3(175B)是一個(gè)數(shù)量級。

但所有這些都是猜測,由于 OpenAI 對參數(shù)量、訓(xùn)練數(shù)據(jù)、方法等核心信息一直諱莫如深,因此 20B 這個(gè)數(shù)據(jù)到底是不是真的根本無法求證。如果是真的,那么大型語言模型未來的改進(jìn)方向還會(huì)是增加參數(shù)量嗎?

再過幾天,就是 OpenAI 的開發(fā)者大會(huì)了,也許我們能夠了解到更多有用的信息,讓我們拭目以待吧。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-11-29 05:37:24

Windows Def操作系統(tǒng)微軟

2021-08-12 06:52:02

谷歌面試ArrayList

2015-07-15 13:00:31

英特爾開源

2018-06-27 14:23:38

機(jī)器學(xué)習(xí)人工智能入門方法

2017-12-12 11:09:39

顯卡散熱CPU

2021-02-21 17:14:27

程序員技能開發(fā)者

2024-01-04 12:33:17

ChatGPTAI視頻

2018-05-02 09:38:02

程序員代碼互聯(lián)網(wǎng)

2021-08-31 09:35:01

TCPIP漏洞

2021-01-27 18:13:35

日志nginx信息

2021-07-21 05:38:20

中國聯(lián)通攜號轉(zhuǎn)網(wǎng)移動(dòng)

2019-08-19 09:21:36

程序員Bug代碼

2023-10-31 19:11:11

2019-10-12 08:53:26

Redis多線程版本

2019-04-28 14:14:48

爬蟲網(wǎng)絡(luò)特價(jià)機(jī)票

2017-12-26 15:41:26

2018-01-26 23:23:23

JDBC MySQL數(shù)據(jù)庫

2018-12-10 09:45:05

2024-01-12 10:25:02

蓋茨ChatGPT

2019-12-09 10:13:20

HashMap選擇容量
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號