偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LIama 4發(fā)布重奪開源第一!DeepSeek同等代碼能力但參數(shù)減一半,一張H100就能跑,還有兩萬(wàn)億參數(shù)超大杯

人工智能 新聞
Llama 4 Scout,16位專家的170億激活參數(shù)的多模態(tài)模型,單個(gè)H100 GPU可運(yùn)行, 同類SOTA ,并擁有10M上下文窗口。

AI不過(guò)周末,硅谷也是如此。

大周日的,Llama家族上新,一群LIama 4就這么突然發(fā)布了。

這是Meta首個(gè)基于MoE架構(gòu)模型系列,目前共有三個(gè)款:

Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。

最后一個(gè)尚未推出,只是預(yù)告,但Meta已經(jīng)毫不避諱地稱前兩者是“我們迄今為止最先進(jìn)的型號(hào),也是同類產(chǎn)品中最好的多模態(tài)型號(hào)”

詳細(xì)來(lái)看一些關(guān)鍵詞——

Llama 4 Scout,16位專家的170億激活參數(shù)的多模態(tài)模型,單個(gè)H100 GPU可運(yùn)行, 同類SOTA,并擁有10M上下文窗口

Llama 4 Maverick,128位專家的170億激活參數(shù)多模態(tài)模型,擊敗GPT-4o和Gemini 2.0 Flash,與DeepSeek-V3同等代碼能力參數(shù)只要一半,主打與DeepSeek一樣的性價(jià)比,單個(gè)H100主機(jī)即可運(yùn)行

Llama 4 Behemoth:2萬(wàn)億參數(shù)的超大超強(qiáng)模型,以上二者都由這個(gè)模型蒸餾而來(lái);目前還在訓(xùn)練中;多個(gè)基準(zhǔn)測(cè)試超過(guò)GPT-4.5、Claude Sonnet 3.7和 Gemini 2.0 Pro。

圖片

Meta官推激情表示,這些Llama 4模型標(biāo)志著Llama生態(tài)系統(tǒng)新時(shí)代——原生多模態(tài)AI創(chuàng)新的開始。

圖片

與此同時(shí),大模型競(jìng)技場(chǎng)排名迎來(lái)一輪更新。

此次發(fā)布的Llama 4 Maverick,在困難提示、編碼、數(shù)學(xué)、創(chuàng)意寫作方面并列第一;得分1417,不僅大大超越了此前Meta自家的Llama-3-405B(提升了149分),還成為史上第4個(gè)突破1400分的模型;。

而且跑分明確——超越DeepSeek-V3,實(shí)現(xiàn)亮相即登頂,直接成為排名第一的開源模型。

圖片

谷歌CEO劈柴哥第一時(shí)間發(fā)來(lái)賀電:

AI世界,從不平淡!恭喜呀!前進(jìn)吧,Llama 4團(tuán)隊(duì)!

圖片

中杯、大杯首批亮相

了解了Llama 4家族全體成員后,我們先來(lái)見(jiàn)識(shí)一下首批發(fā)布的2個(gè)模型:

  • 中杯:Llama 4 Scout(偵查兵Llama 4)。
  • 大杯:Llama 4 Maverick(特立獨(dú)行的Llama 4)。

兩者均已能在Llama官網(wǎng)和抱抱臉上下載。

圖片

我們抓取并提煉出這倆模型的一些特點(diǎn):

Meta首批MoE架構(gòu)模型

這是Llama系列,第一批使用MoE(混合專家模型)構(gòu)建的模型。

中杯Llama 4 Scout有17B激活參數(shù),擁有16個(gè)專家模型。

大杯Llama 4 Maverick擁有17B激活參數(shù),擁有128個(gè)專家模型。

至于還沒(méi)和大家正式見(jiàn)面的超大杯Llama 4 Maverick,擁有288B激活參數(shù),擁有16個(gè)專家模型。

非常長(zhǎng)————的上下文

Llama 4系列,均具有很長(zhǎng)的上下文窗口。

這一點(diǎn)主要體現(xiàn)在Meta公布的中杯Llama 4 Scout的詳細(xì)數(shù)據(jù)里:

Llama 4 Scout提供了行業(yè)領(lǐng)先的100萬(wàn)上下文窗口。經(jīng)過(guò)預(yù)訓(xùn)練和后訓(xùn)練,Llama 4 Scout長(zhǎng)度為256K,這使基本模型具有高級(jí)長(zhǎng)度泛化能力。

這個(gè)配置,讓它在廣泛的測(cè)評(píng)集上,比Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1的結(jié)果更優(yōu)秀。

圖片

它在「大海撈針」測(cè)試上的表現(xiàn)如下:

結(jié)果如下:

圖片

那么之前的Llama系列模型的上下文窗口情況呢?

  • Llama 1,上下文窗口為2k;
  • Llama 2,上下文窗口默認(rèn)為4k,但可以通過(guò)微調(diào)等可以拓展到32k;
  • Llama 3,上下文窗口是8k,后來(lái)Llama 3.1的長(zhǎng)文本能力拓展到了128k。

Meta官方博客中是這么寫的:

(Llama 4的長(zhǎng)上下文)開辟了一個(gè)充滿可能性的世界,包括多文檔摘要、解析廣泛的用戶活動(dòng)以執(zhí)行個(gè)性化任務(wù)以及對(duì)龐大的代碼庫(kù)進(jìn)行推理。

原生多模態(tài)設(shè)計(jì)

Llama 4系列,開啟了Llama的原生多模態(tài)時(shí)代。

而已經(jīng)公開對(duì)外的中杯和大杯,被官方稱為“輕量級(jí)原生多模態(tài)模型”。

給用戶的體驗(yàn)就是,上傳一張圖片,可以直接在對(duì)話框中提問(wèn)關(guān)于這張圖片的各種問(wèn)題。

不是我說(shuō),Llama終于長(zhǎng)眼睛了!?。?/span>

上面這張動(dòng)圖展示的僅僅是最基礎(chǔ)的,“為難”程都升級(jí)也不怕。

比如喂它一張鋪滿工具的圖片,問(wèn)它哪些適合來(lái)干某個(gè)活。

它會(huì)很快地把適用的工具圈出來(lái):

圖片

要認(rèn)顏色+認(rèn)小鳥,也沒(méi)在怕的:

圖片

中杯和大杯都在官方介紹中被打上了“世界上同類產(chǎn)品中最好的多模態(tài)模型”的tag。

來(lái)看和Llama系列前作、Gemma 3、Mistral 3.1、Gemini 2.0 Flash-Lite的對(duì)比結(jié)果——

可以看到,在各個(gè)測(cè)評(píng)集上的表現(xiàn),Llama 4 Scout樣樣都是新SOTA。

圖片

語(yǔ)言天賦Max

經(jīng)過(guò)了預(yù)訓(xùn)練和微調(diào)的Llama 4,掌握全球12種語(yǔ)言,以此“方便全球開發(fā)者的部署”。

比DeepSeek更狠的“AI模型拼多多”

一定要跟大家分享的一個(gè)細(xì)節(jié),Meta這次在模型API價(jià)格方面,下狠手了!

先說(shuō)結(jié)果:

系列超大杯Llama 4 Maverick,不僅超越了同類型號(hào)其它模型,價(jià)格還非常之美麗。

圖片

更直觀地來(lái)看這張表格,真的狠過(guò)DeepSeek——從性能到價(jià)格各個(gè)緯度。

圖片

要知道,超大杯Llama 4 Behemoth屬于是Llama 4系列的教師模型。

如果說(shuō)中杯和大杯是輕量級(jí)選手,這位就是絕對(duì)的重磅玩家。

288B激活參數(shù),16個(gè)專家模型。

最重要的是,它的總參數(shù)量高達(dá)2000B!

在數(shù)學(xué)、多語(yǔ)言和圖像基準(zhǔn)測(cè)試中,它提供了非推理模型的最先進(jìn)性能。

圖片

當(dāng)“最?!焙汀白畋阋恕睌[在一起的時(shí)候,試問(wèn)哪位開發(fā)者會(huì)不心動(dòng)?(doge)

訓(xùn)練細(xì)節(jié)

用他們自己的話來(lái)說(shuō),Llama系列是進(jìn)行了徹底的重新設(shè)計(jì)。目前第一組LIama 4系列模型,他們也公布了具體的訓(xùn)練細(xì)節(jié)。

預(yù)訓(xùn)練

他們首次使用混合專家MoE架構(gòu),在MoE架構(gòu)中,單個(gè)token僅激活總參數(shù)的一小部分。MoE架構(gòu)在訓(xùn)練和推理方面具有更高的計(jì)算效率,固定訓(xùn)練FLOP成本情況下質(zhì)量更高。

圖片

比如,Llama 4Maverick模型有17B個(gè)激活參數(shù)和400B個(gè)總參數(shù)。他們使用交替的密集層和混合專家(MoE)層來(lái)提高推理效率。

MoE層使用128位路由(Routed)專家和一位共享專家。每個(gè)令牌都會(huì)發(fā)送給共享專家以及128位路由(Routed)專家之一。

因此,雖然所有參數(shù)都存儲(chǔ)在內(nèi)存中,但在為這些模型提供服務(wù)時(shí),只有總參數(shù)的子集被激活。

這通過(guò)降低模型服務(wù)成本和延遲來(lái)提高推理效率——Llama 4 Maverick 可以在單個(gè)H100 DGX主機(jī)上運(yùn)行,以便于部署,也可以通過(guò)分布式推理實(shí)現(xiàn)最高效率。

他們?cè)缙谌诤?,將文本和視覺(jué)token無(wú)縫集成到統(tǒng)一模型中。

他們開發(fā)了一種新的訓(xùn)練技術(shù):MetaP,可以設(shè)置關(guān)鍵模型超參數(shù),比如每層的學(xué)習(xí)率和初始化尺度。

結(jié)果發(fā)現(xiàn),所選的超參數(shù)能在批量大小、模型寬度、深度和訓(xùn)練token的不同值之間很好地?cái)U(kuò)展和泛化——

Llama 4通過(guò)在200種語(yǔ)言(包括100多種語(yǔ)言,每種語(yǔ)言有超過(guò)10億個(gè)詞庫(kù))上進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)了開源微調(diào)工作,多語(yǔ)言詞庫(kù)總量是Llama 3的10倍。

此外,他們使用FP8精度進(jìn)行高效模型訓(xùn)練,同時(shí)不犧牲質(zhì)量并確保模型 FLOPs的高利用率—在使用FP8和32K GPU 預(yù)訓(xùn)練 Llama 4 Behemoth模型時(shí),結(jié)果他們實(shí)現(xiàn)了390TFLOPs/GPU。

用于訓(xùn)練的整體混合數(shù)據(jù)包括30多萬(wàn)億個(gè)token,是Llama 3預(yù)訓(xùn)練混合物的兩倍多,其中包括各種文本、圖像和視頻數(shù)據(jù)集。

在所謂的“中期訓(xùn)練”中繼續(xù)訓(xùn)練模型,通過(guò)新的訓(xùn)練方法(包括使用專業(yè)數(shù)據(jù)集進(jìn)行長(zhǎng)上下文擴(kuò)展)來(lái)提高模型的核心功能。

后訓(xùn)練

后訓(xùn)練階段,他們提出一個(gè)課程策略,與單個(gè)模式專家模型相比,該策略不會(huì)犧牲性能。

在Llama 4中,采用了一種不同的方法來(lái)改造我們的后期訓(xùn)練管道:

輕量級(jí)監(jiān)督微調(diào)(SFT)>在線強(qiáng)化學(xué)習(xí)(RL)>輕量級(jí)直接偏好優(yōu)化 (DPO)。

一個(gè)關(guān)鍵的教訓(xùn)是,SFT和DPO可能會(huì)過(guò)度約束模型,限制在線強(qiáng)化學(xué)習(xí)階段的探索,并導(dǎo)致精度降低,尤其是在推理、編碼和數(shù)學(xué)領(lǐng)域。

為了解決這個(gè)問(wèn)題,他們使用Llama模型作為評(píng)判標(biāo)準(zhǔn),刪除了50%以上被標(biāo)記為簡(jiǎn)單的數(shù)據(jù),并對(duì)剩余的較難數(shù)據(jù)集進(jìn)行了輕量級(jí)SFT處理。

在隨后的在線強(qiáng)化學(xué)習(xí)階段,通過(guò)仔細(xì)選擇較難的提示,我們實(shí)現(xiàn)了性能上的飛躍。

此外,他們還實(shí)施了一種連續(xù)的在線強(qiáng)化學(xué)習(xí)策略,即交替訓(xùn)練模型,然后利用模型不斷過(guò)濾并只保留中等難度到較高難度的提示。事實(shí)證明,這種策略在計(jì)算量和準(zhǔn)確性的權(quán)衡方面非常有利。

然后,他們采用輕量級(jí)DPO來(lái)處理與模型響應(yīng)質(zhì)量相關(guān)的拐角情況,從而有效地在模型的智能性和對(duì)話能力之間實(shí)現(xiàn)了良好的平衡。流水線架構(gòu)和帶有自適應(yīng)數(shù)據(jù)過(guò)濾功能的連續(xù)在線RL策略,最后造就了現(xiàn)在的LIama 4。

總結(jié)來(lái)看,Llama 4架構(gòu)的一項(xiàng)關(guān)鍵創(chuàng)新是使用交錯(cuò)注意力層,而無(wú)需位置嵌入。此外,他們還采用了注意力推理時(shí)間溫度縮放來(lái)增強(qiáng)長(zhǎng)度泛化。

這些他們稱之為iRoPE架構(gòu),其中“i”代表 “交錯(cuò) ”注意力層,突出了支持 “無(wú)限”上下文長(zhǎng)度的長(zhǎng)期目標(biāo),而 “RoPE ”指的是大多數(shù)層中采用的旋轉(zhuǎn)位置嵌入。

Llama 4 Behemoth

最后,他們還透露了超大模型Llama 4 Behemoth一些蒸餾和訓(xùn)練細(xì)節(jié)。

我們開發(fā)了一種新穎的蒸餾損失函數(shù),可通過(guò)訓(xùn)練動(dòng)態(tài)加權(quán)軟目標(biāo)和硬目標(biāo)。

預(yù)訓(xùn)練階段,Llama 4 Behemoth的代碼蒸餾功能可以攤銷學(xué)生訓(xùn)練中使用的大部分訓(xùn)練數(shù)據(jù)計(jì)算蒸餾目標(biāo)所需的資源密集型前向傳遞的計(jì)算成本。對(duì)于納入學(xué)生訓(xùn)練的其他新數(shù)據(jù),他們?cè)贐ehemoth模型上運(yùn)行前向傳遞,以創(chuàng)建蒸餾目標(biāo)。

后訓(xùn)練階段,為了最大限度地提高性能,他們刪減了95%的SFT數(shù)據(jù),而小型模型只需刪減50%的數(shù)據(jù),以實(shí)現(xiàn)對(duì)質(zhì)量和效率的必要關(guān)注。

他們?cè)谶M(jìn)行輕量級(jí)SFT后,再進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)(RL),模型的推理和編碼能力會(huì)有更顯著的提高。

強(qiáng)化學(xué)習(xí)方法側(cè)重于通過(guò)對(duì)策略模型進(jìn)行pass@k分析來(lái)抽取高難度提示,并根據(jù)提示難度的增加精心設(shè)計(jì)訓(xùn)練課程。

此外還發(fā)現(xiàn),在訓(xùn)練過(guò)程中動(dòng)態(tài)過(guò)濾掉優(yōu)勢(shì)為零的提示語(yǔ),并構(gòu)建包含多種能力的混合提示語(yǔ)的訓(xùn)練批次,有助于提高數(shù)學(xué)、推理和編碼的性能。最后,從各種系統(tǒng)指令中取樣對(duì)于確保模型在推理和編碼方面保持指令跟隨能力并在各種任務(wù)中表現(xiàn)出色至關(guān)重要。

由于其規(guī)??涨埃獮閮扇f(wàn)億個(gè)參數(shù)模型擴(kuò)展RL,還需要改造底層RL基礎(chǔ)設(shè)施。

他們優(yōu)化了MoE并行化的設(shè)計(jì),從而加快了迭代速度;并開發(fā)了一個(gè)完全異步的在線RL訓(xùn)練框架,提高了靈活性。

現(xiàn)有的分布式訓(xùn)練框架會(huì)犧牲計(jì)算內(nèi)存以將所有模型堆疊在內(nèi)存中,相比之下,他們新基礎(chǔ)架構(gòu)能夠?qū)⒉煌P挽`活分配到不同GPU上,并根據(jù)計(jì)算速度在多個(gè)模型之間平衡資源。

與前幾代產(chǎn)品相比,這一創(chuàng)新使訓(xùn)練效率提高了約10倍。

One More Thing

要知道,由于昨天DeepSeek發(fā)了新論文,搞得奧特曼都坐不住了,趕緊出來(lái)發(fā)聲:

計(jì)劃改變:我們可能在幾周之后先發(fā)布o(jì)3和o4-mini。GPT-5就在幾個(gè)月后啊~

但,誰(shuí)知道半路又殺出個(gè)Llama 4?!

前有猛虎,后有豺狼,OpenAI你真的得加油了……

網(wǎng)友調(diào)侃道,當(dāng)奧特曼一睜眼,看到Llama 4來(lái)了,而且Llama 4的成本比GPT-4.5降低了3個(gè)數(shù)量級(jí)后——

他的狀態(tài)一定是醬嬸兒的:

以及相比Llama,現(xiàn)在可能神秘低調(diào)的DeepSeek,可能不知道什么時(shí)候突然就會(huì)推出DeepSeek R2和V4…同在杭州的通義千問(wèn)也干勁十足,Llama也好GPT也好,基本成為平行參考了。

太平洋這頭,已經(jīng)開始落地應(yīng)用和智能體了。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-04-07 07:00:00

2024-11-21 12:09:26

2016-11-16 15:17:06

APP開發(fā)移動(dòng)應(yīng)用

2015-07-27 10:24:01

蘋果中國(guó)

2018-03-26 10:56:04

2013-02-25 10:11:35

4GLTE商用網(wǎng)絡(luò)

2020-12-04 10:11:26

Unsafejava并發(fā)包

2024-03-15 08:30:00

AI數(shù)據(jù)

2011-02-22 17:33:36

Windows Pho

2025-04-15 08:50:01

DeepSeek模型AI

2016-12-16 13:07:30

云存儲(chǔ)運(yùn)營(yíng)混合云

2023-10-21 12:42:19

模型訓(xùn)練

2012-06-19 09:34:15

2010-09-17 16:21:33

系統(tǒng)升級(jí)

2024-03-27 13:31:00

模型AI

2013-12-10 09:15:46

FedoraFedora 20

2013-11-27 15:48:56

移動(dòng)中間件廠商

2018-06-03 08:49:21

2009-12-17 08:54:31

MySQL 5.5半同步復(fù)制

2012-03-09 09:38:00

JavaEWeb4J
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)