偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

新聞 前端
雖然GPT-3沒有開源,卻已經(jīng)有人在復(fù)刻GPT系列的模型了。例如,慕尼黑工業(yè)大學(xué)的Connor Leahy,此前用200個小時、6000RMB,復(fù)現(xiàn)了GPT-2。

[[377000]]

 本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

雖然GPT-3沒有開源,卻已經(jīng)有人在復(fù)刻GPT系列的模型了。

例如,慕尼黑工業(yè)大學(xué)的Connor Leahy,此前用200個小時、6000RMB,復(fù)現(xiàn)了GPT-2。

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

又例如,基于150億參數(shù)版GPT-3的DALL·E模型剛出,來自康奈爾大學(xué)的Philip Wang就開始復(fù)現(xiàn)了。

但此前,還沒人能復(fù)現(xiàn)出GPT-3大小的大語言模型來。

不過,已經(jīng)有人開始嘗試了。這是一個名為GPT-Neo的項(xiàng)目,用于復(fù)現(xiàn)GPT系列的各種語言模型,當(dāng)然也包括GPT-3。

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

作者表示,目前他們已經(jīng)成功制造出GPT-2大小的模型。

從項(xiàng)目代碼的可擴(kuò)展性來看,他們預(yù)計(jì)可以復(fù)刻出GPT-3大小的語言模型,甚至比GPT-3更大。

不僅如此,由于這是個開源的項(xiàng)目,大家還可以自主訓(xùn)練這些模型(將來也會包括GPT-3)。

目前,作者已經(jīng)給出了詳細(xì)的訓(xùn)練步驟。

消息一出,網(wǎng)友沸騰了:

要是真能復(fù)現(xiàn),說不定會比現(xiàn)在的GPT-3還要更好用!

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

GPT系列的“高仿”項(xiàng)目

本質(zhì)上,GPT-Neo有點(diǎn)像是GPT系列的“高仿”項(xiàng)目:

GPT-Neo中的各種模型,設(shè)計(jì)原理接近GPT系列,但代碼并不一樣。

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

作者們打算嘗試各種結(jié)構(gòu)和注意力類型,最終擴(kuò)展出GPT-3大小的大語言模型。

為了實(shí)現(xiàn)這一目標(biāo),他們從復(fù)現(xiàn)GPT系列的模型開始,不斷嘗試各種模型架構(gòu)、和各種注意力機(jī)制的實(shí)現(xiàn)方式。

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

也就是說,GPT-Neo更像是一個實(shí)驗(yàn)性質(zhì)的項(xiàng)目,通過各種嘗試,擴(kuò)展出更大的模型。

這里面,融合了各種讓模型變得“更大”的研究:

例如,多任務(wù)學(xué)習(xí)方法MoE(Mixture of Experts),采用多個專家的結(jié)構(gòu),將問題空間劃分為同質(zhì)區(qū)域,然后采用分發(fā)器,決定問題應(yīng)該問哪些專家。

又比如,具有線性復(fù)雜性的自注意力機(jī)制。

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

……

這個項(xiàng)目還在施工中,不過,連模型的訓(xùn)練方式都準(zhǔn)備好了。

項(xiàng)目計(jì)劃通過TPU或GPU,對大語言模型進(jìn)行訓(xùn)練。

為此,作者們已經(jīng)基于Tensorflow-mesh(用于在GPU上訓(xùn)練模型)、Deepspeed(用于在TPU上訓(xùn)練模型)兩個項(xiàng)目,編寫了GPT-Neo的訓(xùn)練代碼。

這兩個項(xiàng)目都可以擴(kuò)展到大于GPT-3的大小,甚至還能更大。

[[377002]]

因此,訓(xùn)練GPT-3大小的模型,軟件理論上是可行的。

但硬件上的問題,目前作者們還在思考明確的解決方案。如果將來真的做出了GPT-3大小的模型,他們打算先從谷歌那多要點(diǎn)免費(fèi)資源,如果不行的話,就再說……

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

如何訓(xùn)練GPT-Neo

當(dāng)然,在TPU和GPU上訓(xùn)練的方式有所不同。

如果使用TPU訓(xùn)練的話,需要注冊一個谷歌云平臺,創(chuàng)建存儲空間,然后再搞個虛擬機(jī),將模型放到TPU上訓(xùn)練。

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

不過,如果你的GPU硬件足夠OK,也可以選擇直接訓(xùn)練GPT-Neo,就不用設(shè)置一系列谷歌云了。

此外,也可以用谷歌Colab來訓(xùn)練項(xiàng)目,它免費(fèi)提供TPU-V8S處理器,訓(xùn)練GPT的3XL(1.5B參數(shù))版本綽綽有余。

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

訓(xùn)練過程也不復(fù)雜,主要包括創(chuàng)建分詞器、數(shù)據(jù)集預(yù)處理、指定訓(xùn)練數(shù)據(jù)集、選擇訓(xùn)練配置、訓(xùn)練模型幾個步驟。

在創(chuàng)建分詞器上,GPT-Neo目前提供一個Huggingface的預(yù)訓(xùn)練GPT-2分詞器。不過,也可以訓(xùn)練自己專屬的分詞器。

然后,對數(shù)據(jù)進(jìn)行預(yù)處理,可以直接下載項(xiàng)目提供的數(shù)據(jù),也可以使用自己的數(shù)據(jù)集。

在那之后,指定模型訓(xùn)練所用的數(shù)據(jù)集,然后對訓(xùn)練方式進(jìn)行設(shè)置,例如優(yōu)化算法、訓(xùn)練步數(shù)等。

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

然后,指定硬件名稱、數(shù)量,就可以開始訓(xùn)練模型了。

“只會用谷歌搜索的自動化團(tuán)隊(duì)”

不過,對于GPT系列的項(xiàng)目復(fù)現(xiàn),有網(wǎng)友并不看好。

網(wǎng)友認(rèn)為,GPT-X系列項(xiàng)目,就像是一個由幾百人組成的自動化團(tuán)隊(duì),這幾百人只會用谷歌搜索來干活,而且還沒辦法寫出最新的新聞事件報道。(因?yàn)橛?xùn)練數(shù)據(jù)無法一直更新)

它雖然是個非常有趣的研究,但目前卻還沒有一個“殺手級”應(yīng)用,來讓GPT-3項(xiàng)目的存在變得更有意義。

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

當(dāng)然,也有人認(rèn)為,復(fù)現(xiàn)這一項(xiàng)目還是有意義的。

即使只是“幾百個只會用搜索引擎干活的團(tuán)隊(duì)”,他們也需要快速給出某個問題的答案。

如何在大量零碎信息中,高效地選出最優(yōu)解,本身就是GPT-X項(xiàng)目的價值之一。畢竟如果只是幾百個“會用谷歌搜索”的人組成的團(tuán)隊(duì),是無法像GPT-3一樣,快速得出最佳答案的。

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

當(dāng)然,也有一些程序員調(diào)侃,要是這個GPT-3項(xiàng)目真的被復(fù)現(xiàn)了,豈不是他們馬上就要失業(yè)了。

“我們總是在用谷歌搜索、和stackoverflow來解決問題。這不就是像GPT-3一樣,只會整合搜索引擎上的信息,來解決問題嗎?”

“該死,原來GPT-3竟然可以取代這么多程序員。”

GPT“高仿”系列開源了!最大可達(dá)GPT-3大小,能自主訓(xùn)練

目前,GPT-Neo的所有項(xiàng)目和代碼已開源。

想要上手一試、或是對項(xiàng)目感興趣的小伙伴,可以行動起來了~

項(xiàng)目地址:
https://github.com/EleutherAI/gpt-neo

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-03-23 15:21:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-07-19 10:56:36

GPE-3OpenAI微軟

2023-04-07 09:53:02

量子AI

2022-03-10 09:48:11

人工智能機(jī)器學(xué)習(xí)模型

2023-03-01 16:15:16

2020-09-02 10:10:37

AI 數(shù)據(jù)人工智能

2022-03-14 09:33:56

神經(jīng)網(wǎng)絡(luò)模型人工智能

2023-02-14 08:00:00

人工智能GPT-3語言模型

2023-06-08 15:33:31

人工智能GPT-3

2021-01-28 15:16:09

程序員技能開發(fā)者

2023-06-08 11:41:40

芯片AI

2022-03-24 10:35:38

人工智能模型代碼

2022-06-01 16:47:53

AI模型開源

2023-06-02 13:39:00

GPT-3開源GPU

2024-07-04 15:26:56

2024-10-18 11:12:44

2020-08-21 13:22:12

GPT-3AI機(jī)器

2022-05-05 09:00:00

AI模型數(shù)據(jù)

2023-12-04 13:38:55

模型3D可視化

2023-02-20 14:06:19

GPT-3AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號