偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Llama 3.1橫空出世!開源巨無霸首次擊潰閉源,全民GPT-4時(shí)代來臨

人工智能
大模型格局,再次一夜變天。Llama 3.1 405B重磅登場(chǎng),在多項(xiàng)測(cè)試中一舉超越GPT-4o和Claude 3.5 Sonnet。史上首次,開源模型擊敗當(dāng)今最強(qiáng)閉源模型。小扎大膽豪言:開源AI必將勝出,就如Linux最終取得了勝利。

開源新王Llama 3.1 405B,昨夜正式上線!

在多項(xiàng)基準(zhǔn)測(cè)試中,GPT-4o和Claude 3.5 Sonnet都被超越。也即是說,閉源SOTA模型,已經(jīng)在被開源模型趕上。

圖片圖片

一夜之間,Llama 3.1 405B已成世界最強(qiáng)大模型。

(同時(shí)上線的,還有新版70B和8B模型)

圖片圖片

LeCun總結(jié)了Llama 3.1模型家族的幾大要點(diǎn):

- 405B的性能,與最好的閉源模型性能相當(dāng)

- 開源/免費(fèi)使用權(quán)重和代碼,允許進(jìn)行微調(diào)、蒸餾到其他模型中,以及在任何地方部署

- 128k的上下文,多語言,良好的代碼生成能力,復(fù)雜推理能力,以及工具使用能力

- Llama Stack API可以輕松集成

圖片圖片


,時(shí)長(zhǎng)02:48

Meta這次可謂是將開源的精神貫徹到底,同時(shí)大方放出的,還有一篇90多頁的論文。

HuggingFace首席科學(xué)家Thomas Wolf贊賞道:如果想從0開始研究大模型,你需要的就是這篇paper!

它簡(jiǎn)直無所不包——預(yù)訓(xùn)練數(shù)據(jù)、過濾、退火、合成數(shù)據(jù)、縮放定律、基礎(chǔ)設(shè)施、并行處理、訓(xùn)練方法、訓(xùn)練后適應(yīng)、工具使用、基準(zhǔn)測(cè)試、推理策略、量化、視覺、語音和視頻……

AI2的研究員Nathan Lambert估計(jì),這份90頁的Llama 3.1論文,將直接把開源模型的進(jìn)展往前推上3-9個(gè)月!

圖片圖片

Meta CEO小扎則自豪地寫下一篇長(zhǎng)文:開源人工智能是前進(jìn)的道路。

在紐約時(shí)報(bào)的采訪中,小扎力挺開源AI在紐約時(shí)報(bào)的采訪中,小扎力挺開源AI

在這篇文章中,小扎感慨地回憶了Meta在LLM浪潮中的翻身之路——

去年,Llama 2只能與邊緣的舊模型相提并論;今年,Llama 3在某些方面已經(jīng)領(lǐng)先于最先進(jìn)的模型;明年開始,未來的Llama模型將成為最先進(jìn)的模型。

對(duì)于自己被多次問到的「是否擔(dān)心開源Llama而失去技術(shù)優(yōu)勢(shì)」,小扎直接以Linux自比。

他表示,曾經(jīng)大科技公司都大力投資于自己的Unix版本,然而最終還是開源Linux勝出了,因?yàn)樗试S開發(fā)者隨意修改代碼,更先進(jìn)、更安全、生態(tài)更廣泛。

AI,也必將以類似方式發(fā)展。

為此,Meta特地放寬了自己的許可,首次允許開發(fā)者使用Llama 3.1模型的高質(zhì)量輸出,來改進(jìn)和開發(fā)第三方AI模型。

圖片圖片

網(wǎng)友:一個(gè)新時(shí)代開始

Llama 3.1正式解禁后,在全網(wǎng)掀起軒然大波。

AI大神Karpathy隨即發(fā)表了一些自己的感想:

今天,隨著405B模型的發(fā)布,GPT-4/Claude 3.5 Sonnet級(jí)別的前沿大模型首次對(duì)所有人開放供大家使用和構(gòu)建。。其權(quán)重開源,商用許可、允許生成合成數(shù)據(jù)、蒸餾和微調(diào)模型。

這是Meta發(fā)布的一個(gè)真正開放的前沿LLM。除此以外,他們還放出了長(zhǎng)達(dá)92頁的技術(shù)報(bào)告,其中包含有大量模型細(xì)節(jié):https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

圖片圖片

這次模型發(fā)布背后的理念,在小扎的一篇長(zhǎng)文中有詳細(xì)闡述,非常值得一讀,因?yàn)樗芎玫睾w了支持開放AI生態(tài)系統(tǒng)世界觀的所有主要觀點(diǎn)和論點(diǎn):

開源AI是未來。

我常說,現(xiàn)在仍處于早期階段,就像計(jì)算機(jī)發(fā)展的1980年代重現(xiàn)一樣,LLM是下一個(gè)重要的計(jì)算范式,而Meta顯然正定位自己為其開放生態(tài)系統(tǒng)的領(lǐng)導(dǎo)者。

- 人們將對(duì)這些模型進(jìn)行提示和使用RAG

- 人們將對(duì)模型進(jìn)行微調(diào)

- 人們將把它們蒸餾成更小的專家模型,用于特定任務(wù)和應(yīng)用

- 人們對(duì)其進(jìn)行研究、基準(zhǔn)測(cè)試、優(yōu)化

另外,開放生態(tài)系統(tǒng)還以模塊化的方式自組織成產(chǎn)品、應(yīng)用和服務(wù),每個(gè)參與方都可以貢獻(xiàn)自己的獨(dú)特專業(yè)知識(shí)。

一個(gè)例子是,AI芯片初創(chuàng)Groq已經(jīng)集成了Llama 3.1模型,幾乎能實(shí)現(xiàn)8B模型瞬間推理。

Karpathy稱,由于服務(wù)器壓力,自己似乎無法嘗試運(yùn)行在Groq上的405B可能是今天能力最強(qiáng)、最快的大模型。

圖片圖片

他還預(yù)計(jì),閉源模型們很快就會(huì)追趕上來,并對(duì)此非常期待。

Meta研究員田淵棟稱,一個(gè)新的時(shí)代已經(jīng)開始!開源LLM現(xiàn)在與閉源LLM不相上下/更勝一籌!

圖片圖片

開源模型新王者誕生了。

圖片圖片

OpenPipe創(chuàng)始人在測(cè)試完經(jīng)過微調(diào)的Llama 3.1 8B后感慨道:從未有過如此小且如此強(qiáng)大的開源模型——它在每個(gè)任務(wù)上的表現(xiàn)都優(yōu)于GPT-4o mini!

圖片圖片

圖片圖片

英偉達(dá)高級(jí)科學(xué)家Jim Fan表示,GPT-4的力量就在我們手中。這是一個(gè)具有歷史性意義的時(shí)刻。

圖片圖片

鮮有人關(guān)注AI模型訓(xùn)練背后的基礎(chǔ)設(shè)施,Pytorch之父Soumith Chintala站出來表示,在16000塊GPU搭建的設(shè)施中,也會(huì)遇到失敗的時(shí)候。

這些細(xì)節(jié)都藏在了Llama 3.1的論文中,包括如何并行化、保持系統(tǒng)可靠性。值得一提的是,Meta團(tuán)隊(duì)在模型訓(xùn)練中實(shí)現(xiàn)了90%的有效訓(xùn)練時(shí)間。

圖片圖片

圖片圖片

有網(wǎng)友細(xì)數(shù)了Llama模型迭代過程中,GPU的用量也在不斷增長(zhǎng)。

Llama 1:2048塊GPU

Llama 2:4096塊GPU

Llama 3.1:16384塊GPU(其實(shí),Llama 3是在兩個(gè)擁有24,000塊GPU集群完成訓(xùn)練)

Llama 4:......

最強(qiáng)開源模型家族

其實(shí),關(guān)于Llama 3.1系列模型一些要點(diǎn),在昨天基本上被劇透得體無完膚了。

正如泄露信息所述,Llama 3.1可以支持8種語言(英語,德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語),多語言對(duì)話智能體、翻譯用例等。

在上下文長(zhǎng)度上,比起Llama 2、Llama 3,Llama 3.1系列模型中所有上下文增加了16倍,為128K。

圖片圖片

Meta強(qiáng)調(diào),Llama 3.1還在工具使用方面得到了改進(jìn),支持零樣本工具使用,包括網(wǎng)絡(luò)搜索、數(shù)學(xué)運(yùn)算和代碼執(zhí)行。

基于長(zhǎng)上下文,模型不僅知道何時(shí)使用工具,還能理解如何使用以及如何解釋結(jié)果。

此外, 通過微調(diào),Llama 3.1在調(diào)用自定義工具方面提供了強(qiáng)大的靈活性。

主要能力

首先,Llama 3.1可以作為一個(gè)能夠執(zhí)行「智能體」任務(wù)的系統(tǒng)來運(yùn)行:

- 分解任務(wù)并進(jìn)行多步驟推理

- 使用工具

    - 內(nèi)置工具:模型自帶對(duì)搜索或代碼解釋器等工具的知識(shí)

    - 零樣本學(xué)習(xí):模型可以通過以前未見過的上下文工具定義來學(xué)會(huì)調(diào)用工具

比如問模型:「這是一個(gè)CSV文件,你可以描述它里面有什么嗎?」

它會(huì)識(shí)別出:這份CSV文件包含了多年的每月通貨膨脹率,年份一欄表示了每組每月通貨膨脹率的年份。

圖片圖片

接下來,我們可以要求它按時(shí)間序列繪制圖表。

圖片圖片

接下來,它還能完成一系列刁鉆的任務(wù),比如在同一圖表中繪制S&P500的走勢(shì)圖。

圖片圖片

完成之后,還能重新調(diào)整圖表,把信息加到不同的坐標(biāo)軸上。

圖片圖片

如上所示,Llama 3.1支持8種語言,因此可以勝任多語言的翻譯。

我們可以讓它將童話故事《漢澤爾與格萊特》(糖果屋)翻譯成西班牙語。

圖片圖片

即使面對(duì)比較復(fù)雜的推理題,Llama 3.1也能輕松拿下。

「我有3件襯衫、5條短褲和1條連衣裙。我要出行10天,這些衣服夠我度假用嗎」?

AI將已知的條件,進(jìn)行分解,對(duì)上衣、短褲、裙子設(shè)想了一個(gè)合理的搭配方案,并建議最好多帶幾件上衣。

圖片圖片

在推理完成后,它還貼心地為我們提供了更詳細(xì)的出行穿衣指南、行李清單。

圖片圖片

我們還可以讓AI手寫代碼。

比如讓它創(chuàng)建一個(gè)程序,使用遞歸回溯算法或深度優(yōu)先搜索算法生成一個(gè)完美迷宮,并且可以自定義大小和復(fù)雜度。

只見AI一上手,直出迷宮程序的Python代碼。

圖片圖片

代碼完成后,AI還給出了詳細(xì)的解釋。

圖片圖片

再接下來,若想自定義程序,AI代碼助手為我們提供了相應(yīng)的代碼建議——調(diào)整寬度和高度。

圖片圖片

評(píng)測(cè)結(jié)果

為了評(píng)估Llama3.1的表現(xiàn),Meta不僅在測(cè)試中囊括了150個(gè)涵蓋多語種的基準(zhǔn)數(shù)據(jù)集,并且還在真實(shí)場(chǎng)景中進(jìn)行了比較。

在多種任務(wù)中,405B都可以和GPT-4、GPT-4o、Claude 3.5 Sonnet等閉源領(lǐng)先模型掰手腕。

圖片圖片

而8B和70B的小模型,在參數(shù)量相似的閉源和開源模型中,同樣表現(xiàn)出色。

除了長(zhǎng)上下文任務(wù),8B和70B模型在通用任務(wù)、代碼、數(shù)學(xué)、推理、工具使用、多語言上,取得了SOTA。

圖片圖片

人類評(píng)估中,Llama 3.1 405B模型與GPT-4不相上下,但略遜于GPT-4o。

不過,在與Claude  3.5 Sonnet相較下,405B大模型更有優(yōu)勢(shì),勝率為24.9%。

圖片圖片

此外,在Scale的排行榜中,Llama 3.1 405B微調(diào)版本在指令跟隨評(píng)估中,碾壓Claude 3.5 Sonnet、GPT-4o。

在數(shù)學(xué)任務(wù)中,405B僅次于Claude 3.5 Sonnet,位列第二。不過,Llama 3.1在代碼任務(wù)上,得分相對(duì)較低。

圖片圖片

92頁超詳技術(shù)報(bào)告

沒有誰能夠像Meta一樣開源徹底,92頁超長(zhǎng)技術(shù)報(bào)告,也在今天一并放出。

圖片圖片

論文地址:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

論文提出,Llama 3.1這種高質(zhì)量的基座模型有3個(gè)關(guān)鍵杠桿:數(shù)據(jù)、規(guī)模以及復(fù)雜度管理。

數(shù)據(jù)方面,相比前代,Llama 3.1的數(shù)據(jù)總量和質(zhì)量都有所提高,比如對(duì)預(yù)訓(xùn)練數(shù)據(jù)更仔細(xì)的預(yù)處理和管理管道,以及對(duì)訓(xùn)練后數(shù)據(jù)更嚴(yán)格的質(zhì)量保證和過濾方法。

Llama 2僅在1.8T token的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,而Llama 3.1的多語言預(yù)訓(xùn)練語料則達(dá)到了15.6T token,有超過8倍的增長(zhǎng)。

規(guī)模方面,Llama 3.1的訓(xùn)練使用了超過1.6萬個(gè)英偉達(dá)H100 GPU,計(jì)算總量達(dá)到3.8e25 FLOPS,幾乎是Llama 2的50×。

為了更好地實(shí)現(xiàn)「scale up」,論文特別提出了「復(fù)雜度管理」這個(gè)方面。在選擇模型架構(gòu)和算法時(shí),需要更關(guān)注其穩(wěn)定性和可擴(kuò)展性。

值得關(guān)注的是,Llama 3.1并沒有使用最受關(guān)注的MoE架構(gòu),而是decoder-only架構(gòu)的稠密Transformer,僅將原始的Transformer架構(gòu)進(jìn)行過一些修改和調(diào)整,以最大化訓(xùn)練穩(wěn)定性。

類似的做法還有,使用SFT、RS、DPO等簡(jiǎn)潔的訓(xùn)練后流程,而不是更復(fù)雜的強(qiáng)化學(xué)習(xí)算法。

和許多大模型類似,Llama 3的開發(fā)也主要包括兩個(gè)階段:預(yù)訓(xùn)練和后訓(xùn)練。

預(yù)訓(xùn)練時(shí)同樣使用「預(yù)測(cè)下一個(gè)token」作為訓(xùn)練目標(biāo),首先將上下文窗口設(shè)定為8K,之后在繼續(xù)預(yù)訓(xùn)練階段擴(kuò)展到128K。

后訓(xùn)練階段通過多個(gè)輪次迭代的人類反饋來改進(jìn)模型,顯著提升了編碼和推理性能,并整合了工具使用的能力。

此外,論文還嘗試使用3個(gè)額外階段為L(zhǎng)lama 3.1添加圖像、視頻、語音等多模態(tài)功能:

- 多模態(tài)編碼器預(yù)訓(xùn)練:圖像和語音的編碼器分開訓(xùn)練,前者的預(yù)訓(xùn)練數(shù)據(jù)是圖像-文本對(duì),后者則采用自監(jiān)督方法,嘗試通過離散化的token重建語音中被掩碼的部分。

- 視覺適配器:由一系列跨注意力層組成,將圖像編碼器的表示注入到經(jīng)過預(yù)訓(xùn)練的語言模型中。以圖像為基礎(chǔ),論文還嘗試在視頻-文本對(duì)上訓(xùn)練了視頻適配器。

- 語音適配器:連接語音編碼器和語言模型,此外還集成了「文本到語音」系統(tǒng)。

圖片圖片

遺憾的是,上述的多模態(tài)功能依舊在開發(fā)階段,因此沒有包含在新發(fā)布的Llama 3.1中。

模型架構(gòu)

Llama 3.1依舊使用標(biāo)準(zhǔn)的稠密Transformer,與Llama和Llama 2在架構(gòu)方面并沒有顯著差異,性能的改進(jìn)主要來自訓(xùn)練數(shù)據(jù)質(zhì)量、多樣性的提升,以及規(guī)模擴(kuò)展。

圖片圖片

與Llama 3相比,Llama 3.1的架構(gòu)有以下改進(jìn):

- 分組查詢注意力(GQA):帶有8個(gè)鍵-值頭,提升推理速度并減少解碼時(shí)的KV緩存

- 注意力掩碼:防止同一序列中不同文檔之間出現(xiàn)自注意力。這個(gè)技巧在標(biāo)準(zhǔn)預(yù)訓(xùn)練中效果有限,但對(duì)很長(zhǎng)的序列進(jìn)行繼續(xù)預(yù)訓(xùn)練時(shí)非常重要

- 128K token詞表:包括tiktoken中的100K以及額外的28K,以更好支持非英語語言。與Llama 2相比,同時(shí)提高了英語和非英語的壓縮比率

- 將RoPE的超參數(shù)θ設(shè)置為500,000:更好支持長(zhǎng)上下文

模型的關(guān)鍵超參數(shù)如表3所示,基于數(shù)據(jù)量和訓(xùn)練算力,模型的大小達(dá)到了Scaling Law所揭示的算力最優(yōu)化。

圖片圖片

并行效率

要在1.6萬張GPU上訓(xùn)練405B的模型,僅僅是考慮并行和故障處理,就已經(jīng)是一個(gè)大工程了。

除了模型本身,論文對(duì)訓(xùn)練過程使用的并行化方案,以及存儲(chǔ)、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施都進(jìn)行了闡述。

Llama 3.1的訓(xùn)練采用4D并行(張量+流水線+上下文+數(shù)據(jù)),在BF16精度下,GPU利用率(MFU)約為38%~41%。

圖片

Llama 3.1訓(xùn)練集群的故障處理也十分出色,達(dá)到了超過90%的有效訓(xùn)練時(shí)間,但這依舊意味著,總共54天的預(yù)訓(xùn)練過程中,每天都至少有一次中斷。

論文將全部419次意外中斷的故障原因都詳細(xì)列出(表5),對(duì)未來的GPU集群搭建有非常重要的借鑒意義。其中確認(rèn)或懷疑與硬件相關(guān)的問題占比達(dá)到了78%。

圖片

由于集群的自動(dòng)化運(yùn)維比較完善,盡管故障次數(shù)多,但大部分都可以被自動(dòng)處理。整個(gè)過程中,只有3次故障需要手動(dòng)干預(yù)。

提高特定能力的性能

代碼

為了提高模型的編碼能力,Meta采用了訓(xùn)練代碼專家、生成SFT合成數(shù)據(jù)、通過系統(tǒng)提示引導(dǎo)改進(jìn)格式,以及創(chuàng)建質(zhì)量過濾器(從訓(xùn)練數(shù)據(jù)中刪除不良樣本)等方法。

使用Llama 3將Python代碼(左)轉(zhuǎn)換為PHP代碼(右),以使用更廣泛的編程語言來擴(kuò)充SFT使用Llama 3將Python代碼(左)轉(zhuǎn)換為PHP代碼(右),以使用更廣泛的編程語言來擴(kuò)充SFT

通過系統(tǒng)提升,讓代碼質(zhì)量提高。左:無系統(tǒng)提示 右:有系統(tǒng)提示通過系統(tǒng)提升,讓代碼質(zhì)量提高。左:無系統(tǒng)提示 右:有系統(tǒng)提示

多語種

為了提高Llama 3的多語種能力,Meta專門訓(xùn)練了一個(gè)能夠處理更多多語言數(shù)據(jù)的專家,從而獲取和生成高質(zhì)量的多語言指令微調(diào)數(shù)據(jù)(如德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語),并解決多語言引導(dǎo)中的特定挑戰(zhàn)。

圖片圖片

數(shù)學(xué)推理

訓(xùn)練擅長(zhǎng)數(shù)學(xué)推理的模型,面臨著幾大挑戰(zhàn),比如缺乏提示、缺乏真實(shí)的CoT、不正確的中間步驟、需要教模型使用外部工具、訓(xùn)練和推理之間的差異等。

為此,Meta采用了以下方法:解決提示不足問題、增強(qiáng)訓(xùn)練數(shù)據(jù)中的逐步推理過程、過濾錯(cuò)誤的推理過程、結(jié)合代碼和文本推理、從反饋和錯(cuò)誤中學(xué)習(xí)。

圖片圖片

長(zhǎng)上下文

在最后的預(yù)訓(xùn)練階段,Meta將Llama 3的上下文長(zhǎng)度從8K token擴(kuò)展到128K。

在實(shí)踐中團(tuán)隊(duì)發(fā)現(xiàn),如果僅使用短上下文數(shù)據(jù)進(jìn)行SFT,會(huì)導(dǎo)致模型長(zhǎng)上下文能力顯著退化;而閱讀冗長(zhǎng)的上下文非常乏味、耗時(shí),所以讓人類標(biāo)注此類示例也是不切實(shí)際的。

因此,Meta選擇了合成數(shù)據(jù)來填補(bǔ)這一空白。

他們使用Llama 3的早期版本,生成了基于關(guān)鍵長(zhǎng)上下文用例的合成數(shù)據(jù):(多輪)問答、長(zhǎng)文檔摘要、代碼庫(kù)推理。

工具使用

Meta訓(xùn)練了Llama 3與搜索引擎、Python解釋器、數(shù)學(xué)計(jì)算引擎交互。

在開發(fā)過程中,隨著Llama 3的逐步改進(jìn),Meta也逐漸復(fù)雜化了人工標(biāo)注協(xié)議。從單輪工具使用標(biāo)注開始,轉(zhuǎn)向?qū)υ捴械墓ぞ呤褂?,最后進(jìn)行多步工具使用和數(shù)據(jù)分析的標(biāo)注。

Llama 3執(zhí)行多步驟規(guī)劃、推理和工具調(diào)用來解決任務(wù)Llama 3執(zhí)行多步驟規(guī)劃、推理和工具調(diào)用來解決任務(wù)

圖片圖片

基于提供文件,要求模型總結(jié)文件內(nèi)容、查找并修復(fù)錯(cuò)誤、優(yōu)化代碼、執(zhí)行數(shù)據(jù)分析或可視化等

事實(shí)性

對(duì)于LLM的公認(rèn)挑戰(zhàn)幻覺問題,Meta采取了幻覺優(yōu)先的方法。

他們遵循的原則是,訓(xùn)練后應(yīng)該使模型「知道它知道什么」,而不是添加知識(shí)。

可操縱性

對(duì)于Llama 3,Meta通過帶有自然語言指令的系統(tǒng)提示,來增強(qiáng)其可操縱性,特別是在響應(yīng)長(zhǎng)度、格式、語氣和角色/人格方面。

「你是一個(gè)樂于助人、開朗的AI聊天機(jī)器人,為忙碌的家庭充當(dāng)膳食計(jì)劃助手」「你是一個(gè)樂于助人、開朗的AI聊天機(jī)器人,為忙碌的家庭充當(dāng)膳食計(jì)劃助手」

團(tuán)隊(duì)成員

Llama 3的團(tuán)隊(duì)可以說非常龐大,單核心成員而言就達(dá)到了差不多220人,其他貢獻(xiàn)者也有312人之多。

圖片圖片

圖片圖片

圖片圖片

小扎:開源AI是未來

眾所周知,小扎一直是開源AI的忠誠(chéng)擁躉者。

這次不僅是發(fā)布一個(gè)新的最強(qiáng)模型那么簡(jiǎn)單,而是誓要讓開源AI走上神壇。

圖片圖片

在博客中,小扎直接以史為鑒,曾經(jīng),各大科技公司都投入巨資埋頭開發(fā)封閉源Unix版本。

Unix戰(zhàn)場(chǎng)打得火熱,沒想到笑到最后的卻是開源的Linux。

Linux最初是因?yàn)樗试S開發(fā)者隨意修改代碼,并且價(jià)格更實(shí)惠,廣受開發(fā)者青睞。

但隨著時(shí)間的推移,它變得更加先進(jìn)、更安全,并且擁有比任何封閉的Unix更廣泛的生態(tài)系統(tǒng)支持更多的功能。

今天,Linux已成為云計(jì)算和大多數(shù)移動(dòng)設(shè)備操作系統(tǒng)的行業(yè)標(biāo)準(zhǔn),而所有人都因此受益。

小扎相信,AI的發(fā)展軌跡也將如此,并且將矛頭直指「幾家科技公司」的閉源模型。

「今天,幾家科技公司正在開發(fā)領(lǐng)先的封閉模型,但開源正在迅速縮小差距。」

小扎敢直接點(diǎn)名自然有他的實(shí)力作為底氣,去年,Llama 2還落后于前沿的舊一代模型。

而今年,Llama 3在性能方面已經(jīng)能與其他巨頭大模型分庭抗禮了。

Llama 3.1 405B作為第一個(gè)前沿級(jí)別的開源AI模型,除了相對(duì)于封閉模型顯著更好的成本/性能比之外,405B模型的開放性使其成為微調(diào)和蒸餾小型模型的最佳選擇。

為什么開源AI對(duì)開發(fā)者有益?

對(duì)于開發(fā)者來說,堅(jiān)持開源模型有五大好處:

第一,開源模型允許開發(fā)者自由地訓(xùn)練、微調(diào)和蒸餾自己的模型。

每個(gè)開發(fā)者的需求不同,設(shè)備上的任務(wù)和分類任務(wù)需要小模型,而更復(fù)雜的任務(wù)則需要大模型。

利用最先進(jìn)的開源模型,開發(fā)者可以用自己的數(shù)據(jù)繼續(xù)訓(xùn)練,并蒸餾成理想大小。

第二,可以避免被單一供應(yīng)商限制。

開發(fā)者不希望依賴于自己無法運(yùn)行和控制的模型,也不希望供應(yīng)商改變模型、修改使用條款,甚至完全停止服務(wù)。

而開源使得模型可以輕松切換和部署,從而打造一個(gè)廣泛的生態(tài)系統(tǒng)。

第三,保護(hù)數(shù)據(jù)安全。

開發(fā)者在處理敏感數(shù)據(jù)時(shí),需要確保數(shù)據(jù)的安全,這就要求他們不能通過API發(fā)送給閉源模型。

眾所周知,由于開發(fā)過程更透明,因此開源軟件通常更安全。

第四,運(yùn)行高效且成本更低。

開發(fā)者運(yùn)行Llama 3.1 405B的推理成本只有GPT-4o的一半,無論是用戶端還是離線推理任務(wù)。

第五,長(zhǎng)遠(yuǎn)眼光來看,開源將成為全行業(yè)標(biāo)準(zhǔn)。

實(shí)際上,開源的發(fā)展速度比閉源模型更快,而開發(fā)者也希望能夠在長(zhǎng)期具有優(yōu)勢(shì)的架構(gòu)上構(gòu)建自己的系統(tǒng)。

在小扎看來,Llama 3.1的發(fā)布將成為行業(yè)轉(zhuǎn)折點(diǎn),讓開源變得愈發(fā)勢(shì)不可擋。

參考資料:

https://ai.meta.com/blog/meta-llama-3-1/

https://llama.meta.com/

https://www.facebook.com/4/posts/10115716861061241/?rdid=VE0wPWaJDdF21j32

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2010-03-25 10:04:10

UbuntuOne M

2021-12-17 07:00:56

ESMongoDBRedisJson

2018-11-29 10:49:36

2014-11-13 16:37:50

2010-12-09 09:09:37

2016-10-08 23:30:58

Power8云計(jì)算

2022-05-12 15:25:16

惡意軟件網(wǎng)絡(luò)攻擊

2013-11-01 09:07:15

2009-05-07 18:50:35

四核Nehalem服務(wù)器

2016-04-27 11:01:11

SparkStormApache Apex

2025-05-22 08:10:37

2023-04-19 07:34:21

AutoGPT程序員GitHub

2014-01-17 14:08:45

移動(dòng)os國(guó)產(chǎn)軟件

2023-02-21 21:48:29

2011-05-04 15:09:56

激光打印機(jī)奔圖科技

2019-05-15 22:17:19

商用新時(shí)代nokelock

2023-08-27 12:54:59

GPT-4神秘版本Code

2025-06-23 15:55:46

2024-09-26 14:07:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)