偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="jjxni"></tt>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

全球閑置算力訓(xùn)個(gè)模型，性能媲美R1，老黃天塌了！Karpathy曾投資它

2025-05-13 13:51:20

人工智能新聞

全球首個(gè)分布式RL訓(xùn)練模型INTELLECT-2發(fā)布，它僅通過(guò)整合全球閑置或分散的計(jì)算資源，就完成了模型的強(qiáng)化學(xué)習(xí)訓(xùn)練，訓(xùn)練成本大大降低。

一夜之間，老黃天塌了（doge）。

全球首個(gè)分布式RL訓(xùn)練模型INTELLECT-2發(fā)布，它僅通過(guò)整合全球閑置或分散的計(jì)算資源，就完成了模型的強(qiáng)化學(xué)習(xí)訓(xùn)練，訓(xùn)練成本大大降低。

其模型性能與DeepSeek-R1媲美！

一旦范式成立，這也就意味RL訓(xùn)練擺脫了對(duì)集中式算力的依賴(lài)，世界上任何一個(gè)人都可以參與到模型訓(xùn)練當(dāng)中，大公司壟斷算力時(shí)代可能就此終結(jié)。

Just like this~算力來(lái)算力來(lái)，算力從四面八方來(lái)。

此模型版本有19個(gè)人/機(jī)構(gòu)提供了算力資源支持（源自模型回答，還包括它自己）

除了貢獻(xiàn)算力，還有不少大佬愿意投錢(qián)，包括不限于Karpathy大神、FlashAttention作者Tri Dao大神、HuggingFace聯(lián)創(chuàng)兼CEO Clem Delangue等等。

據(jù)團(tuán)隊(duì)成員介紹，他們從編寫(xiě)模型強(qiáng)化學(xué)習(xí)框架prime-rl，到今天發(fā)布大概只用了兩個(gè)月時(shí)間。

目前基礎(chǔ)設(shè)施已到位，并且經(jīng)過(guò)驗(yàn)證，超過(guò)那些先進(jìn)實(shí)驗(yàn)室只是時(shí)間問(wèn)題。

（比如OpenAI？）

有人已經(jīng)開(kāi)始斷言：未來(lái)的頂級(jí)開(kāi)源模型將以分布式方式進(jìn)行訓(xùn)練。

INTELLECT-2搶先測(cè)

目前INTELLECT-2支持網(wǎng)頁(yè)端體驗(yàn)，只需簡(jiǎn)單注冊(cè)就可以使用。與其他通用助手頁(yè)面類(lèi)似差不多，不過(guò)輸入僅支持文本。

那咱們先來(lái)一些基礎(chǔ)問(wèn)題：INTELLECT-2最大的特點(diǎn)是什么？

在推理思考了幾秒鐘之后，它給出了答案，首先強(qiáng)調(diào)了這是首個(gè)去中心化RL訓(xùn)練的超大規(guī)模模型，其次還有強(qiáng)化學(xué)習(xí)訓(xùn)練、參數(shù)規(guī)模與性能的平衡、數(shù)據(jù)隱私安全與社區(qū)驅(qū)動(dòng)等特點(diǎn)。

回答基本OK，那直接來(lái)上點(diǎn)難度：

一個(gè)外星人來(lái)到地球后，第一天有相等的可能選擇以下四件事中的一件完成：1，自我毀滅；2，分裂成兩個(gè)外星人；3，分裂成三個(gè)外星人；4，什么都不做。

此后每天，每個(gè)外星人均會(huì)做一次選擇，且彼此之間相互獨(dú)立，求地球上最終沒(méi)有外星人的概率

在思考了一會(huì)兒之后，回答是醬嬸。

雖然格式有點(diǎn)亂，但是最后回答正確，而且是解析解。(o゜▽゜)o☆[BINGO!]。

如果昨天是明天就好了，那么今天就是周五了。問(wèn)：句子中的今天可能是星期幾？

可以看到基本能力有，但現(xiàn)在還不是特別穩(wěn)定。像當(dāng)你開(kāi)始新對(duì)話(huà)時(shí)，會(huì)碰到以下這種情況。

已經(jīng)有熱心網(wǎng)友已經(jīng)制作成了GGUF格式上傳到HF。

分布式強(qiáng)化學(xué)習(xí)訓(xùn)練

INTELLECT-2是一個(gè)分布式的大模型訓(xùn)練框架，采用了全球分布式異步強(qiáng)化學(xué)習(xí)的范式。

通俗講，INTELLECT-2就如同一個(gè)超大型的眾包項(xiàng)目，任何擁有閑置算力資源的人都可以參與其中。

“異步”則是指不同階段可以獨(dú)立、并行地進(jìn)行，因此不同性能的設(shè)備可以同時(shí)參與，而不會(huì)相互影響。

具體來(lái)說(shuō)，系統(tǒng)會(huì)利用全球貢獻(xiàn)者提供的異構(gòu)算力在本地生成推理數(shù)據(jù)；這些數(shù)據(jù)經(jīng)過(guò)驗(yàn)證后匯集到中心，用于更新模型策略；更新后的策略再分發(fā)到每個(gè)節(jié)點(diǎn)，開(kāi)始新一輪迭代。

在這套流程當(dāng)中，一共涉及了四大關(guān)鍵組件——

核心RL框架PRIME-RL，實(shí)現(xiàn)推理數(shù)據(jù)生成與模型訓(xùn)練的解耦和異步進(jìn)行；
參數(shù)分發(fā)網(wǎng)絡(luò)SHARDCAST，負(fù)責(zé)將更新后的模型參數(shù)高效分發(fā)給全球各地的推理節(jié)點(diǎn)；
推理驗(yàn)證協(xié)議TOPLOC，驗(yàn)證每個(gè)推理節(jié)點(diǎn)提交數(shù)據(jù)的可信性；
Protocol Testnet，為不同學(xué)習(xí)任務(wù)構(gòu)建獨(dú)立算力資源池，實(shí)現(xiàn)算力貢獻(xiàn)和使用的去中心化管理。

INTELLECT團(tuán)隊(duì)已將這四大組件全部開(kāi)源。

核心RL框架PRIME-RL

PRIME-RL的核心，是支持推理數(shù)據(jù)生成與模型訓(xùn)練的解耦與異步執(zhí)行。

這種方式允許分散的推理節(jié)點(diǎn)按照自己的進(jìn)度生成數(shù)據(jù)，無(wú)需彼此協(xié)調(diào)和等待。

為了進(jìn)一步提升性能和減小顯存占用，PRIME-RL采用支持bfloat16精度的vLLM(vector LLM)作為推理運(yùn)行時(shí)。

另外還集成了FSDP（Fully Sharded Data Parallel）技術(shù)對(duì)模型進(jìn)行切片。

FSDP將模型的參數(shù)和梯度按層切分到不同的GPU上，每個(gè)GPU只負(fù)責(zé)一部分的計(jì)算和存儲(chǔ)。

參數(shù)分發(fā)網(wǎng)絡(luò)SHARDCAST

SHARDCAST是一個(gè)基于HTTP的參數(shù)分發(fā)網(wǎng)絡(luò)，負(fù)責(zé)將更新后的模型權(quán)重廣播給全球范圍內(nèi)的推理節(jié)點(diǎn)。

在分布式強(qiáng)化學(xué)習(xí)中，由于文件體積極大，而網(wǎng)絡(luò)帶寬資源良莠不齊，模型權(quán)重的分發(fā)通常是一個(gè)難點(diǎn)。

為了解決這個(gè)問(wèn)題，SHARDCAST引入了分片傳輸、多級(jí)緩存、智能調(diào)度等一系列優(yōu)化技術(shù)。

分片傳輸指的是將模型權(quán)重文件切分成多個(gè)小的分片，然后并行傳輸。這種做法不僅能充分利用網(wǎng)絡(luò)帶寬，降低傳輸延遲，還能提高傳輸?shù)聂敯粜?，不?huì)因?yàn)閭€(gè)別分片傳輸失敗而造成整體重傳。

多級(jí)緩存是一種類(lèi)似于CDN的傳輸模式，具體來(lái)說(shuō)，SHARDCAST在推理節(jié)點(diǎn)和中心節(jié)點(diǎn)之間引入了一層中繼服務(wù)器作為緩存。每當(dāng)中心節(jié)點(diǎn)產(chǎn)生新的模型權(quán)重，它首先將權(quán)重文件推送到這些中繼服務(wù)器。

這樣一來(lái)，推理節(jié)點(diǎn)就可以就近從中繼服務(wù)器拉取權(quán)重文件，而不是直接從中心節(jié)點(diǎn)獲取，可以有效緩解中心節(jié)點(diǎn)的網(wǎng)絡(luò)I/O壓力。

另外，與普通的被動(dòng)響應(yīng)式傳輸不同，SHARDCAST的中繼服務(wù)器會(huì)主動(dòng)跟蹤每個(gè)推理節(jié)點(diǎn)的權(quán)重版本，當(dāng)發(fā)現(xiàn)版本落后時(shí)，會(huì)主動(dòng)將增量權(quán)重推送給節(jié)點(diǎn)，確保了權(quán)重更新的實(shí)時(shí)性。

同時(shí)，SHARDCAST還會(huì)根據(jù)網(wǎng)絡(luò)拓?fù)浜蛶挔顩r，動(dòng)態(tài)調(diào)整傳輸策略和路由，選擇最優(yōu)的分發(fā)路徑。

推理驗(yàn)證協(xié)議TOPLOC

TOPLOC全稱(chēng)Tierion backed Proof-of-Locality Protocol，是INTELLECT-2中負(fù)責(zé)驗(yàn)證推理節(jié)點(diǎn)生成數(shù)據(jù)可信性的關(guān)鍵組件。

其目的是確保每個(gè)推理節(jié)點(diǎn)提交的數(shù)據(jù)可信，避免惡意節(jié)點(diǎn)通過(guò)提交虛假數(shù)據(jù)來(lái)破壞模型訓(xùn)練。

TOPLOC通過(guò)密碼學(xué)證明和可驗(yàn)證計(jì)算等技術(shù)實(shí)現(xiàn)，可以概括為Proof生成和Proof檢查兩個(gè)主要步驟。

Proof生成是指當(dāng)一個(gè)推理節(jié)點(diǎn)完成一組推理任務(wù)后，不僅要將生成的軌跡數(shù)據(jù)提交給中心節(jié)點(diǎn)，還要附帶提交一個(gè)密碼學(xué)proof。

這個(gè)proof證明了所提交的數(shù)據(jù)確實(shí)是由特定版本的模型、特定的輸入、特定的隨機(jī)數(shù)種子生成的，其生成基于安全哈希算法，確保了proof與推理過(guò)程綁定。

中心節(jié)點(diǎn)在收到推理數(shù)據(jù)和proof后，會(huì)定期抽查部分?jǐn)?shù)據(jù)的可信性。驗(yàn)證節(jié)點(diǎn)首先會(huì)重放推理節(jié)點(diǎn)的模型prefill，然后將計(jì)算得到的中間狀態(tài)與proof進(jìn)行比對(duì)。

為了降低開(kāi)銷(xiāo)，推理節(jié)點(diǎn)只需提交關(guān)鍵的中間狀態(tài)，而非完整的計(jì)算過(guò)程；驗(yàn)證節(jié)點(diǎn)也只需重放部分關(guān)鍵路徑，而不是全盤(pán)重做。

Protocol Testnet

Protocol Testnet是INTELLECT-2的底層基礎(chǔ)設(shè)施，為全球范圍內(nèi)的計(jì)算資源管理和任務(wù)調(diào)度提供了統(tǒng)一的接口和規(guī)范。

它將不同類(lèi)別的人工智能訓(xùn)練任務(wù)組織成獨(dú)立的計(jì)算域，每個(gè)計(jì)算域都有自己的資源池，由去中心化的“賬本系統(tǒng)”來(lái)管理節(jié)點(diǎn)的身份、貢獻(xiàn)和信譽(yù)值。

每個(gè)計(jì)算域?qū)?yīng)了一種特定的訓(xùn)練任務(wù)，如語(yǔ)言模型預(yù)訓(xùn)練、多模態(tài)對(duì)齊、強(qiáng)化學(xué)習(xí)等。

針對(duì)一個(gè)特定的訓(xùn)練任務(wù)，開(kāi)發(fā)者會(huì)在Testnet上注冊(cè)一個(gè)新的計(jì)算域，計(jì)算域定義了任務(wù)的相關(guān)屬性和協(xié)議規(guī)范。

全球范圍內(nèi)的算力提供者可以將自己的計(jì)算設(shè)備注冊(cè)到Testnet的資源池中。每個(gè)節(jié)點(diǎn)在加入時(shí)，，都需要在去中心化“賬本”上生成一個(gè)唯一的密碼學(xué)身份，用于后續(xù)的貢獻(xiàn)度記錄和信譽(yù)管理。

當(dāng)一個(gè)計(jì)算域有新的訓(xùn)練任務(wù)需要執(zhí)行時(shí)，Testnet的任務(wù)調(diào)度服務(wù)會(huì)根據(jù)各節(jié)點(diǎn)的算力特征和網(wǎng)絡(luò)狀況，將任務(wù)分發(fā)到合適的節(jié)點(diǎn)上。節(jié)點(diǎn)按照任務(wù)要求，執(zhí)行計(jì)算并生成結(jié)果。

節(jié)點(diǎn)生成的計(jì)算結(jié)果需要經(jīng)過(guò)驗(yàn)證，以確保其可信性，對(duì)于通過(guò)驗(yàn)證的結(jié)果，節(jié)點(diǎn)的貢獻(xiàn)度會(huì)被記錄在去中心化賬本上，作為后續(xù)獎(jiǎng)勵(lì)分配的依據(jù)。

服務(wù)支持：在整個(gè)任務(wù)執(zhí)行過(guò)程中，Testnet還提供了節(jié)點(diǎn)發(fā)現(xiàn)、健康監(jiān)控、日志管理等一系列配套服務(wù)，以協(xié)助節(jié)點(diǎn)的管理和問(wèn)題診斷，保障分布式網(wǎng)絡(luò)的穩(wěn)定運(yùn)行。

更多訓(xùn)練細(xì)節(jié)

另外在訓(xùn)練過(guò)程中，INTELLECT2還采用了兩步異步強(qiáng)化學(xué)習(xí)的模式，也就是權(quán)重的廣播與正在進(jìn)行的推理和訓(xùn)練完全重疊，從而消除了通信瓶頸。

以及雙面GRPO剪輯，通過(guò)使用雙面標(biāo)記概率比剪輯來(lái)緩解梯度尖峰，從而使訓(xùn)練更加穩(wěn)定。

數(shù)據(jù)方面，INTELLECT2采用了來(lái)自NuminaMath-1.5、Deepscaler和 SYNTHETIC-1的28.5萬(wàn)個(gè)可驗(yàn)證任務(wù)（數(shù)學(xué)和編碼），并結(jié)合離線(xiàn)和在線(xiàn)過(guò)濾來(lái)選擇具有挑戰(zhàn)性的任務(wù)，顯著提高了模型學(xué)習(xí)效率。

QwQ-32B數(shù)學(xué)和代碼性能提升

INTELLECT-2的實(shí)驗(yàn)主要包括兩個(gè)部分——TARGET-SHORT和TARGET-LONG，分別對(duì)應(yīng)短目標(biāo)長(zhǎng)度和長(zhǎng)目標(biāo)長(zhǎng)度的訓(xùn)練設(shè)置。

TARGET-SHORT：隨著訓(xùn)練的進(jìn)行，任務(wù)獎(jiǎng)勵(lì)（表示數(shù)學(xué)和編程能力）顯著提高，長(zhǎng)度懲罰有所下降；
TARGET-LONG：任務(wù)獎(jiǎng)勵(lì)同樣大幅提升，長(zhǎng)度懲罰也呈下降趨勢(shì)，但在實(shí)驗(yàn)的有限時(shí)間內(nèi)尚未完全收斂，模型還未完全學(xué)會(huì)嚴(yán)格遵守思考預(yù)算。

與基線(xiàn)模型QwQ-32B（INTELLECT-2是由QwQ-32B經(jīng)強(qiáng)化訓(xùn)練而成）相比，INTELLECT-2在數(shù)學(xué)和編程基準(zhǔn)測(cè)試（如AIME、LiveCodeBench）上的表現(xiàn)有所提升，但在IFEval上略有下降，可能是因?yàn)橛?xùn)練只專(zhuān)注于數(shù)學(xué)和編程任務(wù)。

在計(jì)算資源利用方面，INTELLECT-2通過(guò)異步強(qiáng)化學(xué)習(xí)成功實(shí)現(xiàn)了通信和計(jì)算的重疊。在兩個(gè)實(shí)驗(yàn)設(shè)置中，SHARDCAST廣播平均耗時(shí)14分鐘，實(shí)現(xiàn)了約590Mb/s的帶寬吞吐量。

團(tuán)隊(duì)曾獲Karpathy投資

INTELLEC-2背后的團(tuán)隊(duì)，名叫Prime Intellect，位于美國(guó)舊金山。

創(chuàng)始人兼CEO是Vincent Weisser，來(lái)自德國(guó)（實(shí)際上團(tuán)隊(duì)中很多人都有德國(guó)背景），之前參與過(guò)大量的創(chuàng)業(yè)項(xiàng)目，Prime Intellect是他最新的創(chuàng)業(yè)成果。

聯(lián)創(chuàng)兼CTO Johannes Hagemann，德國(guó)Hasso Plattner研究所碩士，本科畢業(yè)于多特蒙德工業(yè)大學(xué)。

CEO Weisser擔(dān)任核心成員的創(chuàng)業(yè)項(xiàng)目VitaDAO，Hagemann曾出任策略顧問(wèn)。

創(chuàng)始工程師Jannik Straube，慕尼黑工業(yè)大學(xué)碩士，之前曾在IBM工作。

在INTELLEC-2之前，Prime Intellect團(tuán)隊(duì)也發(fā)布過(guò)一系列分布式訓(xùn)練的模型成果：

INTELLECT-1，第一個(gè)在分散式基礎(chǔ)設(shè)施上訓(xùn)練的10B參數(shù)模型；
METAGENE-1，用于早期流行病檢測(cè)和全球健康應(yīng)用的生物模型；
INTELLECT-MATH，使用RL訓(xùn)練的數(shù)學(xué)推理模型。

另外，基于分布式強(qiáng)化學(xué)習(xí)，團(tuán)隊(duì)還推出了從DeepSeek-R1 生成最大的合成推理數(shù)據(jù)集GENESYS + SYNTHETIC-1。

今年2月，Prime Intellect團(tuán)隊(duì)獲得了1500萬(wàn)美元（約1.08億人民幣）的新投資，用來(lái)構(gòu)建點(diǎn)對(duì)點(diǎn)AI協(xié)議。

這筆投資由創(chuàng)始人基金領(lǐng)銜，投資者中還包括大神Karpathy、Hugging Face聯(lián)創(chuàng)兼CEO Clem Delangue、FlashAttention作者Tri Dao、Stability AI前CEO Emad Mostaque等AI界名人。

加上之前已有的資金，Prime Intellect團(tuán)隊(duì)獲得的總資金超過(guò)了2000萬(wàn)美元。

在接下來(lái)的計(jì)劃當(dāng)中，Prime Intellect將進(jìn)行提高推理-訓(xùn)練計(jì)算的比例，為模型提供推理鏈中的內(nèi)置工具（網(wǎng)絡(luò)搜索、Python 解釋器等），以及融合獨(dú)立訓(xùn)練的RL模型等一系列工作。

宏觀方面，團(tuán)隊(duì)也將擴(kuò)大計(jì)算市場(chǎng)，擴(kuò)展去中心化訓(xùn)練，并與開(kāi)源和去中心化人工智能領(lǐng)域的其他領(lǐng)先項(xiàng)目開(kāi)展合作。

責(zé)任編輯：張燕妮來(lái)源：量子位

模型 AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<strong id="6pauz"></strong>

<output id="6pauz"><center id="6pauz"></center></output>

<thead id="6pauz"><tbody id="6pauz"></tbody></thead>

<li id="6pauz"></li>

<u id="6pauz"><rp id="6pauz"></rp></u>