偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

萬萬沒想到，ChatGPT參數(shù)只有200億？

作者：機器之心 2023-10-31 12:29:25

人工智能新聞

微軟一篇題為《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的論文，在做對比的時候透露出了重要信息：ChatGPT 是個「只有」20B（200 億）參數(shù)的模型，這件事引起了廣泛關(guān)注。

誰都沒有想到，ChatGPT 的核心秘密是由這種方式，被微軟透露出來的。

昨天晚上，很多討論 AI 的微信群都被一篇 EMNLP 論文和其中的截圖突然炸醒。

微軟一篇題為《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的論文，在做對比的時候透露出了重要信息：ChatGPT 是個「只有」20B（200 億）參數(shù)的模型，這件事引起了廣泛關(guān)注。

距 ChatGPT 發(fā)布已經(jīng)快一年了，但 OpenAI 一直未透露 ChatGPT 的技術(shù)細(xì)節(jié)。由于其強大的模型性能，人們對 ChatGPT 的參數(shù)量、訓(xùn)練數(shù)據(jù)等信息抱有諸多疑問和猜測。

作為行業(yè)一直以來的標(biāo)桿，ChatGPT 性能強大，可以解決各種各樣的問題。它的前身 GPT-3 參數(shù)量就達到了 1750 億，實用化以后的大模型居然被 OpenAI 瘦身了快 9 倍，這合理嗎？

「如何看待這篇論文」的話題立刻沖上了知乎熱榜。

論文鏈接：https://arxiv.org/abs/2310.17680

具體來說，微軟這篇論文提出了一種預(yù)訓(xùn)練的擴散代碼生成模型 ——CodeFusion。CodeFusion 的參數(shù)量是 75M。在實驗比較部分，論文的表 1 將 ChatGPT 的參數(shù)量明確標(biāo)成了 20B。

眾所周知，微軟和 OpenAI 是合作已久的一對伙伴，并且這是一篇 EMNLP 2023 論文，因此大家推測這個數(shù)據(jù)很有可能是真實的。

然而，關(guān)于 ChatGPT 參數(shù)量的猜測，人們一直認(rèn)為是一個龐大的數(shù)字，畢竟 GPT-3 的參數(shù)量就已經(jīng)達到了 175B（1750 億）。掀起大型語言模型（LLM）浪潮的 ChatGPT，難道就只有 20B 參數(shù)？

大家怎么看？

這個數(shù)據(jù)被扒出來之后，在知乎和 Twitter 已經(jīng)引起了廣泛討論。畢竟，200 億參數(shù)達到這樣的效果十分驚人。再則，國內(nèi)追趕出的大模型動則就是數(shù)百億、上千億。

那么這個數(shù)據(jù)保不保真？大家都有什么看法呢？

NLP 知名博主、新浪微博新技術(shù)研發(fā)負(fù)責(zé)人張俊林「盲猜」分析了一波，引起了大家廣泛贊同：

不負(fù)責(zé)任猜測一波：GPT 4 是去年 8 月做好的，ChatGPT 估計是 OpenAI 應(yīng)對 Anthropic 要推出的 Claude 專門做的，那時候 GPT 4 應(yīng)該價值觀還沒對齊，OpenAI 不太敢放出來，所以臨時做了 ChatGPT 來搶先發(fā)優(yōu)勢。OpenAI 在 2020 年推出 Scaling law 的文章，Deepmind 在 2022 年推出的改進版本 chinchilla law。OpenAI 做大模型肯定會遵循科學(xué)做法的，不會拍腦袋，那么就有兩種可能：

可能性一：OpenAI 已經(jīng)看到 Chinchilla 的論文，模型是按照龍貓法則做的，我們假設(shè) ChatGPT 的訓(xùn)練數(shù)據(jù)量不低于 2.5T token 數(shù)量（為啥這樣后面分析），那么按照龍貓法則倒推，一般訓(xùn)練數(shù)據(jù)量除以 20 就應(yīng)該是最優(yōu)參數(shù)量。于是我們可以推出：這種情況 ChatGPT 模型的大小約在 120B 左右。

可能性二：OpenAI 在做 ChatGPT 的時候還沒看到 Chinchilla 的論文，于是仍然按照 OpenAI 自己推導(dǎo)的 Scaling law 來設(shè)計訓(xùn)練數(shù)據(jù)量和模型大小，推算起來訓(xùn)練數(shù)據(jù)量除以 12.5 左右對應(yīng)模型最優(yōu)參數(shù)，他們自己的 Scaling law 更傾向把模型推大。假設(shè)訓(xùn)練數(shù)據(jù)量是 2.5T 左右，那么這種情況 ChatGPT 的模型大小應(yīng)該在 190 到 200B 左右。

大概率第一個版本 ChatGPT 推出的時候在 200B 左右，所以剛出來的時候大家還是覺得速度慢，價格也高。3 月份 OpenAI 做過一次大升級，價格降低為原先的十分之一。如果僅僅靠量化是不太可能壓縮這么猛的，目前的結(jié)論是大模型量化壓縮到 4 到 6bit 模型效果是能保持住不怎么下降的。

所以很可能 OpenAI 這次升級從自己的 Scaling law 升級到了 Chinchilla 的 Scaling law，這樣模型大小就壓縮了 120B 左右，接近一半（也有可能遠(yuǎn)小于 120B，如果按照 chinchilla law，llama 2 最大的模型應(yīng)該是 100B 左右，此時算力分配最優(yōu)，也就是說成本收益最合算。但是實際最大的 llama2 模型才 70B，而且更小的模型比如 7B 模型也用超大數(shù)據(jù)集。

llama1 65B 基本是符合 chinchilla law 的，llama2 最大模型已經(jīng)打破 chinchilla law 開始懟數(shù)據(jù)了。就是說目前大家做大模型的趨勢是盡管不是算力分配最優(yōu)，但是都傾向于增加數(shù)據(jù)減小模型規(guī)模，這樣盡管訓(xùn)練成本不合算，但是推理合算，而訓(xùn)練畢竟是一次性的，推理則并發(fā)高次數(shù)多，所以這么配置很明顯總體是更合算的），再加上比如 4bit 量化，這樣推理模型的大小可以壓縮 4 倍，速度大約可提升 8 倍左右，如果是采取繼續(xù)增加訓(xùn)練數(shù)據(jù)減小模型規(guī)模，再加上其它技術(shù)優(yōu)化是完全有可能把推理價格打到十分之一的。

后續(xù)在 6 月份和 8 月份各自又價格下調(diào)了 25%，最終可能通過反復(fù)加數(shù)據(jù)減小規(guī)模逐漸把模型壓縮到 20B 左右。

這里解釋下為何 ChatGPT 的訓(xùn)練數(shù)據(jù)量不太可能比 2.5T 低，LLaMA 2 的訓(xùn)練數(shù)據(jù)量是 2T，效果應(yīng)該稍弱于 ChatGPT，所以這里假設(shè)最少 2.5T 的訓(xùn)練數(shù)據(jù)。目前研究結(jié)論是當(dāng)模型規(guī)模固定住，只要持續(xù)增加訓(xùn)練數(shù)據(jù)量，模型效果就會直接增長，mistral 7B 效果炸裂，歸根結(jié)底是訓(xùn)練數(shù)據(jù)量達到了 8 個 T，所以導(dǎo)致基礎(chǔ)模型效果特別強。以 ChatGPT 的效果來說，它使用的數(shù)據(jù)量不太可能低于 2.5T。

當(dāng)然，還有另外一種可能，就是 ChatGPT 在后期優(yōu)化（比如第一次大升級或者后續(xù)的升級中，開始版本不太可能走的這條路）的時候也不管 scaling law 了，走的是類似 mistral 的路線，就是模型大小固定在 20B，瘋狂增加訓(xùn)練數(shù)據(jù)，如果又構(gòu)造出合適的 instruct 數(shù)據(jù)，效果也可能有保障。

不論怎么講，對于 6B 到 13B 左右比較適合應(yīng)用落地的模型，強烈呼吁中文開源模型模仿 mistral，固定住一個最適合使用的模型大小，然后瘋狂增加訓(xùn)練數(shù)據(jù)，再加上好的 instruct 策略，是有可能作出小規(guī)模效果體驗足夠好的模型的。我個人認(rèn)為對于開源模型來說，7B-13B 左右大小的模型應(yīng)該是兵家必爭之地。有心氣做開源的可以再努把力，把訓(xùn)練數(shù)據(jù)往上再努力懟一懟。

早在 OpenAI 開放 ChatGPT API 時，0.002 美元 / 1k token 的定價就令人們意外，這個價格只有 GPT-3.5 的 1/10。彼時就有人推測：「ChatGPT 是百億（~10B）參數(shù)的模型」，并且「ChatGPT 使用的獎勵模型（reward model）可能是千億級模型」。該推測來源于清華大學(xué) NLP 在讀博士鄭楚杰的知乎回答。

原回答鏈接：https://www.zhihu.com/question/587083296/answer/2918080518

而國內(nèi)外許多網(wǎng)友也都認(rèn)為，200 億的參數(shù)，是完全合理的。

也有知乎網(wǎng)友從價格上分析，這個數(shù)據(jù)也應(yīng)該是對的。

當(dāng)然，也有網(wǎng)友認(rèn)為這可能是個「拼寫錯誤」，或許實際是 120B（1200 億），至少 120B 和 GPT-3（175B）是一個數(shù)量級。

但所有這些都是猜測，由于 OpenAI 對參數(shù)量、訓(xùn)練數(shù)據(jù)、方法等核心信息一直諱莫如深，因此 20B 這個數(shù)據(jù)到底是不是真的根本無法求證。如果是真的，那么大型語言模型未來的改進方向還會是增加參數(shù)量嗎？

再過幾天，就是 OpenAI 的開發(fā)者大會了，也許我們能夠了解到更多有用的信息，讓我們拭目以待吧。

責(zé)任編輯：張燕妮來源：機器之心

模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="vguyz"><rp id="vguyz"><pre id="vguyz"></pre></rp></cite>

<blockquote id="vguyz"></blockquote>