美歐亞三洲開(kāi)發(fā)者聯(lián)手,全球首個(gè)組團(tuán)訓(xùn)練的大模型來(lái)了,全流程開(kāi)源
11 月 22 日,Prime Intellect 宣布通過(guò)去中心化方式訓(xùn)練完成了一個(gè) 10B 模型。30 號(hào),他們開(kāi)源了一切,包括基礎(chǔ)模型、檢查點(diǎn)、后訓(xùn)練模型、數(shù)據(jù)、PRIME 訓(xùn)練框架和技術(shù)報(bào)告。據(jù)了解,這應(yīng)該是有史以來(lái)首個(gè)以去中心化形式訓(xùn)練得到的 10B 大模型。
- 技術(shù)報(bào)告:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
- Hugging Face 頁(yè)面:https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct
- GitHub 地址:https://github.com/PrimeIntellect-ai/prime
- 體驗(yàn)鏈接:chat.primeintellect.ai
Prime Intellect 表示,相比此前的研究,INTELLECT-1 實(shí)現(xiàn)了 10 倍的規(guī)模提升。這一突破證明,大規(guī)模模型訓(xùn)練已不再是大公司的專(zhuān)利,通過(guò)去中心化的、社區(qū)驅(qū)動(dòng)的方式同樣可以實(shí)現(xiàn)。
他們的下一步計(jì)劃是將模型進(jìn)一步擴(kuò)展到前沿規(guī)模,最終目標(biāo)是實(shí)現(xiàn)開(kāi)源 AGI。這一點(diǎn)在其在線 Demo 的模型選項(xiàng)中已有暗示 —— 其中包含開(kāi)放推理模型甚至 AGI 和 ASI 的潛在選項(xiàng)??雌饋?lái)這確實(shí)是一個(gè)雄心勃勃的團(tuán)隊(duì)。
模型發(fā)布后,雖也有質(zhì)疑聲音,但 AI 社區(qū)總體上還是給出了非常積極的肯定。
機(jī)器之心也用幾個(gè)經(jīng)典問(wèn)題簡(jiǎn)單嘗試了其在線 Demo 版本的模型。
首先是經(jīng)典的草莓問(wèn)題,INTELLECT-1 一開(kāi)始答對(duì)了,但繼續(xù)提問(wèn)就又變成了常見(jiàn)的錯(cuò)誤答案。
該模型也具備還不錯(cuò)的文本理解能力,但總體而言和 Llama 和 Qwen 等前沿開(kāi)源模型還有所差距。
下面我們看看它的漢語(yǔ)能力。從多次測(cè)試的結(jié)果來(lái)看,這個(gè)模型的漢語(yǔ)能力并不好,并且幻覺(jué)現(xiàn)象似乎也挺嚴(yán)重的,比如下圖中,即使該模型暫時(shí)并不具備讀取鏈接的能力,也會(huì)根據(jù)上下文強(qiáng)行作答。
不管怎樣,INTELLECT-1 都是 AI 歷史上一次頗具開(kāi)創(chuàng)性的實(shí)驗(yàn)。下面我們就來(lái)看看這個(gè)系統(tǒng)是如何煉成的。
大規(guī)模去中心化訓(xùn)練
Prime Intellect 的這場(chǎng)去中心化訓(xùn)練的規(guī)模其實(shí)相當(dāng)大,涉及到 3 個(gè)大洲的 5 個(gè)國(guó)家,同時(shí)運(yùn)行了 112 臺(tái) H100 GPU。
全球 30 位貢獻(xiàn)者的基本信息
該團(tuán)隊(duì)表示:「我們?cè)诟鞔笾迣?shí)現(xiàn)了 83% 的總體計(jì)算利用率。當(dāng)僅在分布于整個(gè)美國(guó)的節(jié)點(diǎn)上進(jìn)行訓(xùn)練時(shí),實(shí)現(xiàn)了 96% 的計(jì)算利用率。與中心化訓(xùn)練方法相比,開(kāi)銷(xiāo)極小?!?/span>
這樣的結(jié)果表明 INTELLECT-1 在存在嚴(yán)重的帶寬限制和節(jié)點(diǎn)波動(dòng)的情況下,依然能維持訓(xùn)練收斂性和高計(jì)算利用率,這昭示了一種新的可能性:能夠以去中心化、社區(qū)驅(qū)動(dòng)的方式訓(xùn)練出前沿的基礎(chǔ)模型!
一萬(wàn)億 token 的訓(xùn)練過(guò)程,這里給出了訓(xùn)練過(guò)程中損失、困惑度、訓(xùn)練速度等信息
訓(xùn)練細(xì)節(jié)與數(shù)據(jù)集
INTELLECT-1 基于 Llama-3 架構(gòu),它包含:
- 42 層,隱藏維度為 4,096
- 32 個(gè)注意力頭
- 序列長(zhǎng)度為 8,192
- 詞表大小為 128,256
模型在經(jīng)過(guò)精心篩選的 1 萬(wàn)億 token 數(shù)據(jù)集上訓(xùn)練,數(shù)據(jù)構(gòu)成如下:
數(shù)據(jù)集 Huggingface 鏈接:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu
- 55% FineWeb-Edu
- 20% Stack v2(Stack Overflow 等技術(shù)問(wèn)答數(shù)據(jù))
- 10% FineWeb(精選網(wǎng)頁(yè)數(shù)據(jù))
- 10% DCLM-baseline(基準(zhǔn)通用語(yǔ)料)
- 5% OpenWebMath(數(shù)學(xué)數(shù)據(jù))
模型訓(xùn)練持續(xù)了 42 天,采用了以下技術(shù):
- 采用 WSD 動(dòng)態(tài)調(diào)整學(xué)習(xí)速度,讓模型學(xué)習(xí)更高效
- 精細(xì)調(diào)教的學(xué)習(xí)參數(shù):內(nèi)層學(xué)習(xí)率設(shè)為 7.5e-5
- 引入特殊的損失函數(shù)(max-z-loss)來(lái)確保訓(xùn)練過(guò)程的穩(wěn)定性
- 使用 Nesterov 動(dòng)量?jī)?yōu)化算法,幫助模型更快更好地學(xué)習(xí)
- 支持訓(xùn)練機(jī)器的靈活接入和退出,最多可同時(shí)使用 14 臺(tái)機(jī)器協(xié)同訓(xùn)練
從訓(xùn)練過(guò)程的監(jiān)控圖表可以看出,PRIME 系統(tǒng)表現(xiàn)出色:即使參與訓(xùn)練的機(jī)器數(shù)量經(jīng)常變化(從最少 4 臺(tái)逐漸增加到最多 14 臺(tái)),整個(gè)訓(xùn)練過(guò)程依然保持穩(wěn)定,充分證明了系統(tǒng)的可靠性。
訓(xùn)練動(dòng)態(tài)圖展示了整個(gè)訓(xùn)練過(guò)程中模型困惑度和學(xué)習(xí)率的變化,包括預(yù)熱階段、穩(wěn)定階段和退火階段。
Prime:一個(gè)去中心化訓(xùn)練框架
該團(tuán)隊(duì)使用的訓(xùn)練框架名為 Prime,這基于他們開(kāi)發(fā)的 OpenDiLoCo。而 OpenDiLoCo 又基于 DeepMind 之前開(kāi)發(fā)的 Distributed Low-Communication(DiLoCo)方法。
項(xiàng)目地址:https://github.com/PrimeIntellect-ai/OpenDiLoCo
在此之前,Prime Intellect 已經(jīng)在 1B 參數(shù)規(guī)模上實(shí)驗(yàn)了去中心化 AI 模型訓(xùn)練。該團(tuán)隊(duì)表示:「這讓我們到達(dá)了我們的 masterplan 的第三步:合作訓(xùn)練用于語(yǔ)言、智能體和科學(xué)的開(kāi)放式基礎(chǔ)模型。」
Prime Intellect 的 masterplan
相比于之前開(kāi)源的 OpenDiLoCo,Prime 有兩大關(guān)鍵提升。
一是在算法方面,他們?cè)?OpenDiLoCo 上執(zhí)行了許多消融研究,發(fā)現(xiàn)還能進(jìn)一步降低通信要求。值得注意的是,他們將偽梯度的 int8 量化與每 500 步進(jìn)行一次的外部?jī)?yōu)化器同步相結(jié)合,從而將帶寬要求降低了多達(dá) 2000 倍。這些結(jié)果不僅在較小規(guī)模下是有效的,該團(tuán)隊(duì)也將它們擴(kuò)展到了更大的模型。
在具體的大規(guī)模擴(kuò)展方面,我們知道,去中心化訓(xùn)練既是工程挑戰(zhàn),也是研究挑戰(zhàn)。當(dāng)今最大的 AI 實(shí)驗(yàn)室也還沒(méi)有徹底解決在多個(gè)分布式數(shù)據(jù)中心上的容錯(cuò)訓(xùn)練。該團(tuán)隊(duì)表示,Prime 這種全新的去中心化訓(xùn)練框架支持容錯(cuò)訓(xùn)練,支持計(jì)算資源的動(dòng)態(tài)開(kāi)啟/關(guān)閉,還能優(yōu)化全球分布式 GPU 網(wǎng)絡(luò)中的通信和路由。
Prime 中用于容錯(cuò)訓(xùn)練的 ElasticDeviceMesh 的拓?fù)浣Y(jié)構(gòu)
該團(tuán)隊(duì)在博客中寫(xiě)道:「該框架構(gòu)成了我們開(kāi)源技術(shù)堆棧的基礎(chǔ),其目標(biāo)是支持我們自己的算法以及 OpenDiLoCo 之外的其他去中心化訓(xùn)練算法。通過(guò)在此基礎(chǔ)架構(gòu)上構(gòu)建,我們的目標(biāo)是突破全球分布式 AI 訓(xùn)練的極限?!?/span>
具體來(lái)說(shuō),Prime 框架包含以下關(guān)鍵特性:
- 用于容錯(cuò)訓(xùn)練的 ElasticDeviceMesh
- 異步分布式檢查點(diǎn)
- 實(shí)時(shí)檢查點(diǎn)恢復(fù)
- 自定義 Int8 All-Reduce 內(nèi)核
- 最大化帶寬利用率
- PyTorch FSDP2 / DTensor ZeRO-3 實(shí)現(xiàn)
- CPU 卸載
計(jì)算效率
雖然訓(xùn)練散作滿(mǎn)天星,但計(jì)算效率仍保持「聚是一團(tuán)火」的高水準(zhǔn):在美國(guó)境內(nèi)集群部署時(shí),計(jì)算資源利用率高達(dá) 96%(中位數(shù)同步延遲僅 103s);跨越大西洋的部署場(chǎng)景下依然維持在 85.6% 的優(yōu)異水平(中位數(shù)同步延遲 382s);即便是在全球分布式節(jié)點(diǎn)配置下,計(jì)算利用率也能穩(wěn)定保持在 83%(中位數(shù)同步延遲 469s)。
這一系列亮眼的數(shù)據(jù)充分證明了該去中心化訓(xùn)練框架的容錯(cuò)性和擴(kuò)展性,不僅能夠從容應(yīng)對(duì)不同地理位置的網(wǎng)絡(luò)延遲挑戰(zhàn),更在確保訓(xùn)練穩(wěn)定性的同時(shí)實(shí)現(xiàn)了高效計(jì)算。
后訓(xùn)練
在完成分布在全球的預(yù)訓(xùn)練階段后,Prime Intellect 與 Arcee AI 合作開(kāi)展了一系列后訓(xùn)練,以提升 INTELLECT-1 的整體能力和特定任務(wù)表現(xiàn)。主要包含三個(gè)階段:
- SFT(監(jiān)督微調(diào),16 輪)
- DPO(直接偏好優(yōu)化,8 輪)
- 使用 MergeKit 整合訓(xùn)練成果
更多信息請(qǐng)查看詳細(xì)技術(shù)報(bào)告:
論文鏈接:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
未來(lái)計(jì)劃:長(zhǎng)期目標(biāo)是 AGI
INTELLECT-1 的成功讓我們看到了去中心化訓(xùn)練的巨大潛力。至于如何將開(kāi)源的 PRIME 框架擴(kuò)展到目前動(dòng)輒 70B 的規(guī)模呢?Prime Intellect 提了三點(diǎn)規(guī)劃:
- 繼續(xù)擴(kuò)大全球計(jì)算網(wǎng)絡(luò)
- 用更多獎(jiǎng)金激勵(lì)推動(dòng)社區(qū)參與
- 進(jìn)一步優(yōu)化 PRIME 去中心化訓(xùn)練架構(gòu)以支持更大的模型
在博客結(jié)尾,Prime Intellect 寫(xiě)道:「為了防止 AI 能力被少數(shù)組織壟斷,我們誠(chéng)邀全球 AI 社區(qū)通過(guò) GitHub 或 Discord 加入我們。讓我們攜手共建一個(gè)更開(kāi)放、更具協(xié)作性的 AI 發(fā)展未來(lái)?!?/span>