偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一條磁力鏈爆全網(wǎng),Mixtral 8x7B論文來了!碾壓Llama 2 70B,每token僅需激活13B參數(shù)

人工智能 新聞
爆火社區(qū)的Mixtral 8x7B模型,今天終于放出了arXiv論文!所有模型細節(jié)全部公開了。

還記得一個月前,Mistral AI突然公布的一條磁力鏈接,引爆了整個AI社區(qū)。

緊接著,Mixtral 8x7B的技術細節(jié)隨之公布,其表現(xiàn)不僅優(yōu)于Llama 2 70B,而且推理速度提高了整整6倍。

甚至,它在大多數(shù)標準基準測試上與GPT-3.5打平,甚至略勝一籌。

今天,這家法國初創(chuàng)正式發(fā)布了Mixtral 8x7B混合專家模型(Mixtral of Experts)的論文。

論文地址:https://arxiv.org/abs/2401.04088

網(wǎng)友紛紛表示,最好的開源模型論文終于發(fā)布了。

具體技術細節(jié),我們一探究竟。

架構

Mixtral是一個稀疏的混合專家網(wǎng)絡,而且是一個純解碼器模型。其中前饋塊從一組8個不同的參數(shù)組中進行選擇。

在每一層,對于每個token,路由網(wǎng)絡都會選擇其中的兩個組「專家」來處理token,并將它們的輸出相加。

這項技術不僅增加了模型的參數(shù)數(shù)量,而且控制了成本和延遲,因為模型每處理一個token只會使用部分參數(shù)。

具體來說,Mixtral使用32000個token的上下文信息時進行了預訓練。在多項基準測試中,它的性能達到或超過Llama 2 70B和GPT-3.5。

尤其,Mixtral在數(shù)學、代碼生成和多語言理解任務方面,表現(xiàn)卓越,并在這些領域顯著優(yōu)于Llama 2 70B。

而且研究表明,Mixtral能夠成功地從32k token的上下文窗口中檢索信息,無論序列長度和信息在序列中的位置如何。

架構細節(jié)

Mixtra基于Transformer架構打造,并使用了「Mistral 7B」論文中一些模型修改方法。

但明顯不同的是,Mixtral完全支持32k token的全密集上下文長度,并且前饋塊被混合專家層(Mixture-of-Expert layer)所取代。先看如下表1,匯總了模型架構的具體參數(shù)。

圖片

稀疏混合專家

下圖所示,研究人員具體介紹了混合專家層。

這是一個處理輸入數(shù)據(jù)的特殊層,在這里,每個輸入數(shù)據(jù)點都會被分配給8個處理單元(稱為「專家」)中的2個。

這個分配過程是由一個路由完成的,但這里的路由并不是我們通常說的網(wǎng)絡設備,而是神經(jīng)網(wǎng)絡中的一個組件,它負責決定哪些「專家」來處理特定的數(shù)據(jù)點。

每個「專家」實際上是一個處理模塊,它們各自獨立處理被分配的數(shù)據(jù),并輸出結果。

最終,這層的輸出結果是由這2個被選中的「專家」的輸出經(jīng)過特定的加權計算后得到的。

在Mixtral這個系統(tǒng)中,每個「專家」其實就是一個標準的前饋網(wǎng)絡模塊,這種模塊也被用在了我們所說的標準Transformer模型架構中。

混合專家層(Mixture of Experts Layer)

MoE層可以在具有高性能專用內(nèi)核的單個GPU上高效運行。

比如Megablocks將MoE層的前饋網(wǎng)絡(FFN)操作轉換為大型稀疏矩陣乘法,顯著提高了執(zhí)行速度,并自然地處理不同專家獲得分配它們的可變數(shù)量token的情況。

此外,MoE層可以通過標準模型并行技術以及一種稱為專家并行(EP)的特殊分區(qū)策略分布到多個GPU。

在MoE層執(zhí)行期間,本應由特定專家處理的token將被路由到相應的GPU進行處理,并且專家的輸出將返回到原始token位置。

結果

研究人員對Mixtral和Llama進行了對比研究,為了確保比較的公正性,并重新運行了所有的基準測試,這一次采用了內(nèi)部開發(fā)的評估流程。

研究人員在多種不同的任務上進行了性能評估,這些任務可以分為以下幾類:

- 常識推理(零樣本):包括Hellaswag,Winogrande,PIQA,SIQA,OpenbookQA,ARC-Easy,ARC-Challenge,以及CommonsenseQA

- 世界知識(少樣本,5個樣本):涵蓋了NaturalQuestions和TriviaQA

- 閱讀理解(零樣本):BoolQ和QuAC

- 數(shù)學:GSM8K(少樣本,8個樣本)使用了多數(shù)投票法(maj@8),以及MATH(少樣本,4個樣本)同樣采用了多數(shù)投票法(maj@4)

- 編程代碼:Humaneval(零樣本)和MBPP(少樣本,3個樣本)

- 綜合性測試:MMLU(少樣本,5個樣本),BBH(少樣本,3個樣本),還有AGI Eval(少樣本,3至5個樣本,僅限英語選擇題)

可以看到,在所有基準測試中,Mixtral的表現(xiàn)都超過,或至少與Llama 2 70B相當。值得一提的是,在數(shù)學和代碼生成這兩個領域,Mixtral顯著優(yōu)于Llama 2 70B。

圖片

Mixtral與不同參數(shù)的Llama模型在一系列基準測試中的性能對比

如下表2展示了Mixtral 8x7B、Mistral 7B以及Llama 2 7B/13B/70B和Llama 1 34B的詳細結果。

模型參數(shù)規(guī)模與效率對比

研究人員將Mixtral模型的性能與Llama 2系列做了對比,目的是要探究Mixtral在成本與性能比上的高效性(圖3)。

作為一種稀疏的混合專家模型(Sparse Mixture-of-Experts model),Mixtral每處理一個token只需激活13B參數(shù)。盡管活躍參數(shù)減少了5倍,但Mixtral在大部分領域的表現(xiàn)仍然超過了Llama 2 70B。

此外,需要指出的是,這項分析主要關注活躍參數(shù)的數(shù)量,這個數(shù)量直接關聯(lián)到推理階段的計算成本,不過并未涉及內(nèi)存成本和硬件的使用效率。

用于運行Mixtral的內(nèi)存成本與其稀疏參數(shù)的總數(shù)有關,總共為47B,這仍然比Llama 2 70B參數(shù)要少。

關于硬件的使用率,研究人員注意到由于專家模型的路由機制,SMoEs層會引入額外的計算成本。

而且當每個硬件設備運行多個專家模型時,由于內(nèi)存需求增加,也會帶來更高的成本。這種模型更適用于可以實現(xiàn)高運算密度的批量處理任務。

與Llama 2 70B和GPT-3.5的性能比較

在表3中,研究人員展示了Mixtral 8x7B與Llama 2 70B、GPT-3.5在性能上的對比結果。

通過對比,研究人員還發(fā)現(xiàn)Mixtral在多個方面表現(xiàn)媲美,甚至超越了另外兩個模型。

在多模態(tài)學習理解(MMLU)的評測中,Mixtral盡管在模型參數(shù)量上較?。?7B token對比70B),性能卻更勝一籌。

至于機器翻譯評測(MT Bench),研究人員則是報告了當前最新的GPT-3.5-Turbo模型,即gpt-3.5-turbo-1106版本的性能數(shù)據(jù)。

可以看到,在所有基準測試中,Mixtral的表現(xiàn)普遍優(yōu)于Llama 2 70B,唯一的例外是在閱讀理解基準測試中,當其激活參數(shù)數(shù)量僅為Llama 2 70B的1/5時。

特別是在代碼和數(shù)學領域,Mixtral顯著勝過Llama 2 70B。

Mixtral(7B/8x7B)與 Llama 2(7B/13B/70B)在MMLU、常識推理、世界知識、閱讀理解、數(shù)學和代碼方面的比較結果

多語言基準

與Mistral 7B相比較,研究人員在模型預訓練階段,顯著提高了多語言數(shù)據(jù)的比重。

這種增加的模型參數(shù)讓Mixtral在多語種的性能評估中表現(xiàn)出色,同時還不損失對英語的準確度。

尤其值得一提的是,Mixtral在處理法語、德語、西班牙語和意大利語的任務上,明顯勝過了Llama 2 70B,具體成績可以參見表4。

長距離性能

為了檢驗Mixtral在處理涉及廣泛信息的情境下的表現(xiàn),研究人員還提出了一項稱為passkey檢索的任務對其進行測試。

這項任務是專門設計來評估模型在面對一個包含隨機插入的passkey的長篇提示信息時,恢復passkey的能力。

圖4(左)的結果表明,無論上下文有多長或者passkey出現(xiàn)在文本序列的哪個位置,Mixtral都能保持100%的恢復精度。

而圖4(右)則展示了Mixtral在proof-pile數(shù)據(jù)集的一個子集上的困惑度(perplexity),隨著上下文量的增加,其困惑度呈現(xiàn)出單調下降的趨勢。

圖片

指令微調

此外,研究人員還開發(fā)了Mixtral–Instruct模型,首先在一個指令數(shù)據(jù)集上進行了監(jiān)督微調(SFT),然后在一個成對的反饋數(shù)據(jù)集上采用了直接偏好優(yōu)化(DPO)。

在MT-Bench的評估中,Mixtral–Instruct取得了8.30的高分(表2),成為了截至2023年12月表現(xiàn)最佳的開源權重模型。

LMSys進行的人工評估結果顯示在圖6,結果表明Mixtral–Instruct的表現(xiàn)超越了GPT-3.5-Turbo、Gemini Pro、Claude-2.1以及Llama 2 70B chat模型。

路由分析

最后,研究人員對路由器如何選擇「專家」進行了簡要分析。特別是在訓練期間,是否會有「專家」選擇專攻某些特定的領域(如數(shù)學、生物學、哲學等)。

為了探究這一點,研究人員對The Pile驗證數(shù)據(jù)集的不同子集進行了「專家」選擇分布的測量,結果如圖7所示。涉及模型的第0層、第15層和第31層(最后一層)。

出乎意料的是,這里并沒有發(fā)現(xiàn)明顯的基于主題分配「專家」的模式。

比如,在所有層中,無論是arXiv論文(用LaTeX編寫)、生物學領域(PubMed摘要)還是哲學領域(PhilPapers文件),「專家」的分配分布都非常相似。

只有在數(shù)學領域(DM Mathematics)中,「專家」的分布略有不同。

研究人員認為,這種差異可能是因為數(shù)據(jù)集本身是合成的,且對自然語言的覆蓋上有限,尤其是在模型的第一層和最后一層,隱藏狀態(tài)分別與輸入和輸出嵌入高度相關。

而這也表明,路由器確實表現(xiàn)出了一些結構化的句法行為。

圖8展示了不同領域(Python 代碼、數(shù)學和英語)的文本示例。其中,每個token都用不同的背景色標注,便于查看對應分配到的「專家」。

可以發(fā)現(xiàn),像Python中的「self」和英文中的「Question」這樣的詞語,雖然包含有多個token,但往往被分配給同一個「專家」。同樣,相鄰的token也會被分配給同一位「專家」。

在代碼中,縮進的token也總是被指派給相同的「專家」,這一點在模型的第一層和最后一層尤為顯著,因為這些層的隱藏狀態(tài)與模型的輸入和輸出更加緊密相關。

此外,根據(jù)The Pile數(shù)據(jù)集,研究人員還發(fā)現(xiàn)了一些位置上的鄰近性(positional locality)。

表5展示了在不同領域和網(wǎng)絡層中,連續(xù)token被同一個「專家」選中的比例。

在網(wǎng)絡的上層,這種連續(xù)性的重復分配遠高于隨機分配的概率。這一現(xiàn)象對于模型的優(yōu)化——加速訓練和推理過程,有重要的啟示。

例如,在專家并行(Expert Parallelism)處理中,那些位置上具有高鄰近性的情況更容易導致某些「專家」被過度使用。不過,這種鄰近性也可以用于緩存技術。

關于這些「專家」被選擇的頻率,圖10提供了一個更全面的視角,涵蓋了所有網(wǎng)絡層和不同的數(shù)據(jù)集。

結論

在這篇論文中,研究人員介紹了第一個性能達到SOTA的開源專家混合網(wǎng)絡——Mixtral 8x7B。

在人類評估基準中,Mixtral 8x7B Instruct的表現(xiàn)超越了Claude-2.1、Gemini Pro以及GPT-3.5-Turbo。

Mixtral的一大特點是,它在處理每個token時,僅激活使用13B參數(shù),而這一數(shù)值遠低于Llama 2 70B所使用的70B參數(shù)。

現(xiàn)在,研究人員已經(jīng)把訓練和微調后的模型在Apache 2.0開源許可下公開,以便社區(qū)成員可以自由使用。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-10-13 19:58:33

Mistral7B模型

2024-01-16 12:10:33

模型數(shù)據(jù)

2024-04-09 13:21:00

AI開源

2024-06-03 10:43:34

2023-12-11 09:23:00

AI模型

2024-02-22 10:09:00

開源模型

2024-06-05 08:33:29

2023-12-13 13:29:00

數(shù)據(jù)訓練

2024-12-13 14:03:44

模型訓練AI

2023-11-18 09:37:49

2024-04-19 08:01:01

Llama 3 8BMeta

2023-02-28 07:03:09

AIMeta大型語言

2024-05-30 12:50:05

2024-01-02 09:55:26

AI模型

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2024-07-02 09:20:59

2024-09-09 09:20:00

2024-04-30 08:28:44

開源大模型Llama

2023-12-12 13:16:00

模型訓練

2025-01-10 14:15:02

點贊
收藏

51CTO技術棧公眾號