偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

顛覆LLM格局!AI2新模型OLMo2,訓(xùn)練過程全公開,數(shù)據(jù)架構(gòu)雙升級(jí)

人工智能 新聞
非營利研究機(jī)構(gòu)AI2近日推出的完全開放模型OLMo 2,在同等大小模型中取得了最優(yōu)性能,且該模型不止開放權(quán)重,還十分大方地公開了訓(xùn)練數(shù)據(jù)和方法。

最近,非營利研究機(jī)構(gòu)AI2上新了OLMo2系列模型,他們稱之為「迄今為止最好的完全開源模型」。

圖片

OLMo 2系列包含7B和13B兩個(gè)型號(hào),相比如Llama 3.1和Qwen 2.5等開源模型達(dá)到了同等甚至更優(yōu)的性能,同時(shí)FLOPS計(jì)算量更少,在性能和計(jì)算效率之間取得了極佳的平衡,為開源LLM開辟了新的可能性。

圖片

不同大小開源模型的性能對(duì)比,OLMo 2的表現(xiàn)優(yōu)于同參數(shù)規(guī)模模型

在多個(gè)下游任務(wù)上,OLMo 2展現(xiàn)出了強(qiáng)大的泛化能力和適應(yīng)能力。在10個(gè)基準(zhǔn)上,OLMo-2-13B的性能全面超越了Llama-2-13B,OLMo-2-8B的基準(zhǔn)均分也超過了Llama-3.1-8B。

圖片

訓(xùn)練過程全公開

不同于Llama、Qwen這類只開源模型權(quán)重的項(xiàng)目,這次AI2也秉持了一貫的開源風(fēng)格,即不止發(fā)布了訓(xùn)練好的OLMo 2模型權(quán)重,還公開了訓(xùn)練數(shù)據(jù)、代碼、訓(xùn)練過程。這無疑為之后的LLM的研究和應(yīng)用提供了寶貴的資源。

圖片

論文地址:https://arxiv.org/pdf/2501.00656

OLMo 2的訓(xùn)練過程分為3個(gè)階段,分別是預(yù)訓(xùn)練、中期訓(xùn)練和后期的指令調(diào)優(yōu)。預(yù)訓(xùn)練數(shù)據(jù)混合了高質(zhì)量的網(wǎng)頁數(shù)據(jù)、代碼數(shù)據(jù)和學(xué)術(shù)論文數(shù)據(jù)等。

在預(yù)訓(xùn)練階段,OLMo 2通過多種技術(shù)改進(jìn)了訓(xùn)練穩(wěn)定性,例如過濾重復(fù)的n-gram、使用更好的初始化方法、架構(gòu)改進(jìn)和超參數(shù)調(diào)整。這確保了模型在訓(xùn)練過程中不會(huì)出現(xiàn)崩潰或損失激增,從而提高了最終模型的性能。

圖片

預(yù)訓(xùn)練使用的高質(zhì)量數(shù)據(jù)集

中期訓(xùn)練階段使用高質(zhì)量的領(lǐng)域特定數(shù)據(jù)(例如數(shù)學(xué)數(shù)據(jù)),以及合成數(shù)據(jù),來增強(qiáng)模型的能力,特別是在數(shù)學(xué)任務(wù)上的表現(xiàn);加上微退火技術(shù)評(píng)估以及選擇高質(zhì)量的數(shù)據(jù)源,進(jìn)一步優(yōu)化了中期訓(xùn)練的效果。

圖片

中期訓(xùn)練使用的高質(zhì)量數(shù)據(jù)集

最后的指令調(diào)優(yōu)階段,研究人員基于Tülu 3的指令調(diào)優(yōu)方法,開發(fā)了OLMo 2-Instruct模型,專注于使用許可數(shù)據(jù),并擴(kuò)展最終階段的強(qiáng)化學(xué)習(xí)與可驗(yàn)證獎(jiǎng)勵(lì)(RLVR)。

此外,監(jiān)督微調(diào)(SFT)、直接偏好優(yōu)化(DPO)和RLVR等多階段訓(xùn)練,顯著提高了模型的指令跟隨能力和生成質(zhì)量。

OLMo 2的開源是全方位的,包括所有用于復(fù)制和擴(kuò)展這些模型所需的訓(xùn)練和評(píng)估代碼、數(shù)據(jù)集、模型檢查點(diǎn)、日志及超參數(shù)的選擇等,相比只開源權(quán)重,使更多研究人員和開發(fā)者能夠使用和改進(jìn)這些模型。

通過開源所有組件,OLMo 2促進(jìn)了對(duì)語言模型行為和使用的理解和研究,促進(jìn)語言模型研究的透明度和可重復(fù)性,這些足以成為之后研究所依賴的基礎(chǔ)設(shè)施。

圖片

OLMo 2 7B和13B模型的訓(xùn)練過程中的超參數(shù)

多管齊下造就「低碳」LLM

在大規(guī)模語言模型訓(xùn)練中,計(jì)算資源和環(huán)境影響是不可忽視的因素。Deepseek V3能夠以20分之一的成本進(jìn)行訓(xùn)練,而OLMo 2團(tuán)隊(duì)也通過減少主機(jī)-設(shè)備同步、數(shù)據(jù)預(yù)處理、數(shù)據(jù)緩存等多種方法降低了訓(xùn)練成本,并取得了顯著的成效。

OLMo 2的訓(xùn)練主要在兩個(gè)集群上進(jìn)行:Jupiter和Augusta。Jupiter集群配備了128個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)有8張H100,總共1024個(gè)GPU;Augusta集群由160個(gè)A3 Mega虛擬機(jī)組成,每個(gè)虛擬機(jī)也有8張H100,總共1280個(gè)GPU。

OLMo 2的7B模型在4.05萬億token上進(jìn)行訓(xùn)練,13B模型在5.6萬億token上進(jìn)行訓(xùn)練。訓(xùn)練時(shí)間取決于模型的參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)量。

同時(shí)為了降低能源消耗,團(tuán)隊(duì)使用水冷系統(tǒng)來降低GPU的溫度和功耗,從而提高訓(xùn)練效率并降低電力成本。

這些措施加在一起,相比訓(xùn)練同大小的Llama 3.1所消耗的1022MWh電力,OLMo 2 7B訓(xùn)練過程中總計(jì)只消耗了131MWh的電力,相當(dāng)于只有約10分之一的耗電量,顯著降低了訓(xùn)練過程消耗的算力,能源及碳足跡。

圖片

OLMo 和Llama訓(xùn)練能耗的對(duì)比

OLMo 2的發(fā)布,標(biāo)志著開源LLM的持續(xù)進(jìn)步,為相關(guān)領(lǐng)域的研究建立一個(gè)新生態(tài)系統(tǒng)。在這個(gè)生態(tài)系統(tǒng)中,新的訓(xùn)練方法和技術(shù)需要被理解和分享。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-02-04 09:17:00

模型數(shù)據(jù)

2023-06-15 14:06:13

2021-07-30 18:35:57

數(shù)據(jù)建模聚類

2024-11-12 09:20:03

神經(jīng)網(wǎng)絡(luò)語言模型

2025-03-25 09:04:55

2024-08-19 13:16:16

2025-02-17 14:34:52

2025-02-03 00:00:01

Ai2o1LLM

2024-11-26 10:44:18

2024-12-10 16:00:00

AI開源

2023-09-18 13:13:00

人工智能訓(xùn)練

2025-02-12 13:42:25

2025-06-13 09:29:51

2025-03-03 10:42:50

深度學(xué)習(xí)PyTorch大型語言模型

2023-06-25 13:37:09

GPT-4AI

2024-04-25 09:25:33

2010-05-11 22:13:53

數(shù)據(jù)中心虛擬化H3C

2023-12-01 14:34:42

AnthropicAILLM

2023-01-06 08:42:02

學(xué)習(xí)訓(xùn)練

2025-06-13 02:55:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)