偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="p1hxf"></tt>

<ruby id="p1hxf"><blockquote id="p1hxf"></blockquote></ruby><var id="p1hxf"><optgroup id="p1hxf"><tbody id="p1hxf"></tbody></optgroup></var>

<abbr id="p1hxf"><blockquote id="p1hxf"><span id="p1hxf"></span></blockquote></abbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

美歐亞三洲開(kāi)發(fā)者聯(lián)手，全球首個(gè)組團(tuán)訓(xùn)練的大模型來(lái)了，全流程開(kāi)源

作者：機(jī)器之心 2024-12-02 12:47:08

人工智能新聞

Prime Intellect 表示，相比此前的研究，INTELLECT-1 實(shí)現(xiàn)了 10 倍的規(guī)模提升。這一突破證明，大規(guī)模模型訓(xùn)練已不再是大公司的專(zhuān)利，通過(guò)去中心化的、社區(qū)驅(qū)動(dòng)的方式同樣可以實(shí)現(xiàn)。

11 月 22 日，Prime Intellect 宣布通過(guò)去中心化方式訓(xùn)練完成了一個(gè) 10B 模型。30 號(hào)，他們開(kāi)源了一切，包括基礎(chǔ)模型、檢查點(diǎn)、后訓(xùn)練模型、數(shù)據(jù)、PRIME 訓(xùn)練框架和技術(shù)報(bào)告。據(jù)了解，這應(yīng)該是有史以來(lái)首個(gè)以去中心化形式訓(xùn)練得到的 10B 大模型。

技術(shù)報(bào)告：https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
Hugging Face 頁(yè)面：https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct
GitHub 地址：https://github.com/PrimeIntellect-ai/prime
體驗(yàn)鏈接：chat.primeintellect.ai

Prime Intellect 表示，相比此前的研究，INTELLECT-1 實(shí)現(xiàn)了 10 倍的規(guī)模提升。這一突破證明，大規(guī)模模型訓(xùn)練已不再是大公司的專(zhuān)利，通過(guò)去中心化的、社區(qū)驅(qū)動(dòng)的方式同樣可以實(shí)現(xiàn)。

他們的下一步計(jì)劃是將模型進(jìn)一步擴(kuò)展到前沿規(guī)模，最終目標(biāo)是實(shí)現(xiàn)開(kāi)源 AGI。這一點(diǎn)在其在線 Demo 的模型選項(xiàng)中已有暗示 —— 其中包含開(kāi)放推理模型甚至 AGI 和 ASI 的潛在選項(xiàng)?？雌饋?lái)這確實(shí)是一個(gè)雄心勃勃的團(tuán)隊(duì)。

模型發(fā)布后，雖也有質(zhì)疑聲音，但 AI 社區(qū)總體上還是給出了非常積極的肯定。

機(jī)器之心也用幾個(gè)經(jīng)典問(wèn)題簡(jiǎn)單嘗試了其在線 Demo 版本的模型。

首先是經(jīng)典的草莓問(wèn)題，INTELLECT-1 一開(kāi)始答對(duì)了，但繼續(xù)提問(wèn)就又變成了常見(jiàn)的錯(cuò)誤答案。

該模型也具備還不錯(cuò)的文本理解能力，但總體而言和 Llama 和 Qwen 等前沿開(kāi)源模型還有所差距。

下面我們看看它的漢語(yǔ)能力。從多次測(cè)試的結(jié)果來(lái)看，這個(gè)模型的漢語(yǔ)能力并不好，并且幻覺(jué)現(xiàn)象似乎也挺嚴(yán)重的，比如下圖中，即使該模型暫時(shí)并不具備讀取鏈接的能力，也會(huì)根據(jù)上下文強(qiáng)行作答。

不管怎樣，INTELLECT-1 都是 AI 歷史上一次頗具開(kāi)創(chuàng)性的實(shí)驗(yàn)。下面我們就來(lái)看看這個(gè)系統(tǒng)是如何煉成的。

大規(guī)模去中心化訓(xùn)練

Prime Intellect 的這場(chǎng)去中心化訓(xùn)練的規(guī)模其實(shí)相當(dāng)大，涉及到 3 個(gè)大洲的 5 個(gè)國(guó)家，同時(shí)運(yùn)行了 112 臺(tái) H100 GPU。

全球 30 位貢獻(xiàn)者的基本信息

該團(tuán)隊(duì)表示：「我們?cè)诟鞔笾迣?shí)現(xiàn)了 83% 的總體計(jì)算利用率。當(dāng)僅在分布于整個(gè)美國(guó)的節(jié)點(diǎn)上進(jìn)行訓(xùn)練時(shí)，實(shí)現(xiàn)了 96% 的計(jì)算利用率。與中心化訓(xùn)練方法相比，開(kāi)銷(xiāo)極小?！?/span>

這樣的結(jié)果表明 INTELLECT-1 在存在嚴(yán)重的帶寬限制和節(jié)點(diǎn)波動(dòng)的情況下，依然能維持訓(xùn)練收斂性和高計(jì)算利用率，這昭示了一種新的可能性：能夠以去中心化、社區(qū)驅(qū)動(dòng)的方式訓(xùn)練出前沿的基礎(chǔ)模型！

一萬(wàn)億 token 的訓(xùn)練過(guò)程，這里給出了訓(xùn)練過(guò)程中損失、困惑度、訓(xùn)練速度等信息

訓(xùn)練細(xì)節(jié)與數(shù)據(jù)集

INTELLECT-1 基于 Llama-3 架構(gòu)，它包含：

42 層，隱藏維度為 4,096
32 個(gè)注意力頭
序列長(zhǎng)度為 8,192
詞表大小為 128,256

模型在經(jīng)過(guò)精心篩選的 1 萬(wàn)億 token 數(shù)據(jù)集上訓(xùn)練，數(shù)據(jù)構(gòu)成如下：

數(shù)據(jù)集 Huggingface 鏈接：https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu

55% FineWeb-Edu
20% Stack v2（Stack Overflow 等技術(shù)問(wèn)答數(shù)據(jù)）
10% FineWeb（精選網(wǎng)頁(yè)數(shù)據(jù)）
10% DCLM-baseline（基準(zhǔn)通用語(yǔ)料）
5% OpenWebMath（數(shù)學(xué)數(shù)據(jù)）

模型訓(xùn)練持續(xù)了 42 天，采用了以下技術(shù)：

采用 WSD 動(dòng)態(tài)調(diào)整學(xué)習(xí)速度，讓模型學(xué)習(xí)更高效
精細(xì)調(diào)教的學(xué)習(xí)參數(shù)：內(nèi)層學(xué)習(xí)率設(shè)為 7.5e-5
引入特殊的損失函數(shù)（max-z-loss）來(lái)確保訓(xùn)練過(guò)程的穩(wěn)定性
使用 Nesterov 動(dòng)量?jī)?yōu)化算法，幫助模型更快更好地學(xué)習(xí)
支持訓(xùn)練機(jī)器的靈活接入和退出，最多可同時(shí)使用 14 臺(tái)機(jī)器協(xié)同訓(xùn)練

從訓(xùn)練過(guò)程的監(jiān)控圖表可以看出，PRIME 系統(tǒng)表現(xiàn)出色：即使參與訓(xùn)練的機(jī)器數(shù)量經(jīng)常變化（從最少 4 臺(tái)逐漸增加到最多 14 臺(tái)），整個(gè)訓(xùn)練過(guò)程依然保持穩(wěn)定，充分證明了系統(tǒng)的可靠性。

訓(xùn)練動(dòng)態(tài)圖展示了整個(gè)訓(xùn)練過(guò)程中模型困惑度和學(xué)習(xí)率的變化，包括預(yù)熱階段、穩(wěn)定階段和退火階段。

Prime：一個(gè)去中心化訓(xùn)練框架

該團(tuán)隊(duì)使用的訓(xùn)練框架名為 Prime，這基于他們開(kāi)發(fā)的 OpenDiLoCo。而 OpenDiLoCo 又基于 DeepMind 之前開(kāi)發(fā)的 Distributed Low-Communication（DiLoCo）方法。

項(xiàng)目地址：https://github.com/PrimeIntellect-ai/OpenDiLoCo

在此之前，Prime Intellect 已經(jīng)在 1B 參數(shù)規(guī)模上實(shí)驗(yàn)了去中心化 AI 模型訓(xùn)練。該團(tuán)隊(duì)表示：「這讓我們到達(dá)了我們的 masterplan 的第三步：合作訓(xùn)練用于語(yǔ)言、智能體和科學(xué)的開(kāi)放式基礎(chǔ)模型。」

Prime Intellect 的 masterplan

相比于之前開(kāi)源的 OpenDiLoCo，Prime 有兩大關(guān)鍵提升。

一是在算法方面，他們?cè)?OpenDiLoCo 上執(zhí)行了許多消融研究，發(fā)現(xiàn)還能進(jìn)一步降低通信要求。值得注意的是，他們將偽梯度的 int8 量化與每 500 步進(jìn)行一次的外部?jī)?yōu)化器同步相結(jié)合，從而將帶寬要求降低了多達(dá) 2000 倍。這些結(jié)果不僅在較小規(guī)模下是有效的，該團(tuán)隊(duì)也將它們擴(kuò)展到了更大的模型。

在具體的大規(guī)模擴(kuò)展方面，我們知道，去中心化訓(xùn)練既是工程挑戰(zhàn)，也是研究挑戰(zhàn)。當(dāng)今最大的 AI 實(shí)驗(yàn)室也還沒(méi)有徹底解決在多個(gè)分布式數(shù)據(jù)中心上的容錯(cuò)訓(xùn)練。該團(tuán)隊(duì)表示，Prime 這種全新的去中心化訓(xùn)練框架支持容錯(cuò)訓(xùn)練，支持計(jì)算資源的動(dòng)態(tài)開(kāi)啟/關(guān)閉，還能優(yōu)化全球分布式 GPU 網(wǎng)絡(luò)中的通信和路由。

Prime 中用于容錯(cuò)訓(xùn)練的 ElasticDeviceMesh 的拓?fù)浣Y(jié)構(gòu)

該團(tuán)隊(duì)在博客中寫(xiě)道：「該框架構(gòu)成了我們開(kāi)源技術(shù)堆棧的基礎(chǔ)，其目標(biāo)是支持我們自己的算法以及 OpenDiLoCo 之外的其他去中心化訓(xùn)練算法。通過(guò)在此基礎(chǔ)架構(gòu)上構(gòu)建，我們的目標(biāo)是突破全球分布式 AI 訓(xùn)練的極限?！?/span>

具體來(lái)說(shuō)，Prime 框架包含以下關(guān)鍵特性：

用于容錯(cuò)訓(xùn)練的 ElasticDeviceMesh
異步分布式檢查點(diǎn)
實(shí)時(shí)檢查點(diǎn)恢復(fù)
自定義 Int8 All-Reduce 內(nèi)核
最大化帶寬利用率
PyTorch FSDP2 / DTensor ZeRO-3 實(shí)現(xiàn)
CPU 卸載

計(jì)算效率

雖然訓(xùn)練散作滿(mǎn)天星，但計(jì)算效率仍保持「聚是一團(tuán)火」的高水準(zhǔn)：在美國(guó)境內(nèi)集群部署時(shí)，計(jì)算資源利用率高達(dá) 96%（中位數(shù)同步延遲僅 103s）；跨越大西洋的部署場(chǎng)景下依然維持在 85.6% 的優(yōu)異水平（中位數(shù)同步延遲 382s）；即便是在全球分布式節(jié)點(diǎn)配置下，計(jì)算利用率也能穩(wěn)定保持在 83%（中位數(shù)同步延遲 469s）。

這一系列亮眼的數(shù)據(jù)充分證明了該去中心化訓(xùn)練框架的容錯(cuò)性和擴(kuò)展性，不僅能夠從容應(yīng)對(duì)不同地理位置的網(wǎng)絡(luò)延遲挑戰(zhàn)，更在確保訓(xùn)練穩(wěn)定性的同時(shí)實(shí)現(xiàn)了高效計(jì)算。

后訓(xùn)練

在完成分布在全球的預(yù)訓(xùn)練階段后，Prime Intellect 與 Arcee AI 合作開(kāi)展了一系列后訓(xùn)練，以提升 INTELLECT-1 的整體能力和特定任務(wù)表現(xiàn)。主要包含三個(gè)階段：

SFT（監(jiān)督微調(diào)，16 輪）
DPO（直接偏好優(yōu)化，8 輪）
使用 MergeKit 整合訓(xùn)練成果

更多信息請(qǐng)查看詳細(xì)技術(shù)報(bào)告：

論文鏈接：https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf

未來(lái)計(jì)劃：長(zhǎng)期目標(biāo)是 AGI

INTELLECT-1 的成功讓我們看到了去中心化訓(xùn)練的巨大潛力。至于如何將開(kāi)源的 PRIME 框架擴(kuò)展到目前動(dòng)輒 70B 的規(guī)模呢？Prime Intellect 提了三點(diǎn)規(guī)劃：

繼續(xù)擴(kuò)大全球計(jì)算網(wǎng)絡(luò)
用更多獎(jiǎng)金激勵(lì)推動(dòng)社區(qū)參與
進(jìn)一步優(yōu)化 PRIME 去中心化訓(xùn)練架構(gòu)以支持更大的模型

在博客結(jié)尾，Prime Intellect 寫(xiě)道：「為了防止 AI 能力被少數(shù)組織壟斷，我們誠(chéng)邀全球 AI 社區(qū)通過(guò) GitHub 或 Discord 加入我們。讓我們攜手共建一個(gè)更開(kāi)放、更具協(xié)作性的 AI 發(fā)展未來(lái)?！?/span>

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)