非Transformer模型終于來了！

2024-08-15 11:37:05

TII 的 Falcon 系列語言模型下載量已超過 4500 萬次，成為阿聯(lián)酋最成功的 LLM 版本之一。

Falcon Mamba 7B 強(qiáng)大的新 AI 架構(gòu)為 Transformer 模型提供了替代方案。

8月12日，阿布扎比技術(shù)創(chuàng)新研究所（TII）發(fā)布了一款名為 Falcon Mamba 7B 的新開源模型。同時(shí)，這款模型已經(jīng)放在了Hugging Face平臺。

Mamba 7B 采用了一種新穎的Mamba狀態(tài)空間語言模型（SSLM）架構(gòu)來處理各種文本生成任務(wù)，并在選定基準(zhǔn)測試中優(yōu)于其尺寸類別中的主流模型，包括Meta的Llama 3 8B、Llama 3.1 8B和Mistral 7B。

盡管，它是繼Falcon 180B、Falcon 40B 和Falcon 2 之后 TII 的第四個(gè)開放模型，但令人興奮的點(diǎn)在于，它是非Transformer架構(gòu)的第一個(gè)類別，意義非比尋常。它正在迅速成為人工智能領(lǐng)域基于Transformer的大型語言模型 (LLM) 的新替代品。

據(jù)介紹，該模型采用了“Falcon License 2.0”，一種基于 Apache 2.0 的許可證。

01、Falcon Mamba 7B 有何優(yōu)勢？

盡管變換模型繼續(xù)在生成式人工智能領(lǐng)域占據(jù)主導(dǎo)地位，但研究人員指出，該架構(gòu)在處理較長的文本時(shí)可能會遇到困難。

本質(zhì)上，Transformer 的注意力機(jī)制通過將每個(gè)單詞（或標(biāo)記）與文本中的每個(gè)單詞進(jìn)行比較來理解上下文，它需要更多的計(jì)算能力和內(nèi)存來處理不斷增長的上下文窗口。

如果不相應(yīng)地?cái)U(kuò)展資源，推理速度就會變慢，并達(dá)到無法處理超過一定長度的文本的程度。

為了克服這些障礙，狀態(tài)空間語言模型(SSLM) 架構(gòu)應(yīng)運(yùn)而生，該架構(gòu)通過在處理單詞時(shí)不斷更新“狀態(tài)”來工作，已成為一種有前途的替代方案。一些組織已經(jīng)部署了它——TII 是最新的采用者。

據(jù) TII 介紹，其全新的 Falcon 型號采用了 Mamba SSM 架構(gòu)，該架構(gòu)最初由卡內(nèi)基梅隆大學(xué)和普林斯頓大學(xué)的研究人員在 2023 年 12 月的一篇論文中提出。

該架構(gòu)使用一種選擇機(jī)制，允許模型根據(jù)輸入動態(tài)調(diào)整其參數(shù)。這樣，模型可以關(guān)注或忽略特定輸入，類似于注意力機(jī)制在 Transformer 中的工作方式，同時(shí)提供處理長文本序列（例如整本書）的能力，而無需額外的內(nèi)存或計(jì)算資源。

TII 指出，該方法使模型適用于企業(yè)級機(jī)器翻譯、文本摘要、計(jì)算機(jī)視覺和音頻處理任務(wù)以及估計(jì)和預(yù)測等任務(wù)。

02、挑戰(zhàn) Meta、Google 和 Mistral

為了了解 Falcon Mamba 7B 與同尺寸級別領(lǐng)先的 transformer 模型的表現(xiàn)如何，該研究所進(jìn)行了一項(xiàng)測試，以確定使用單個(gè) 24GB A10GPU 時(shí)模型可以處理的最大上下文長度。

結(jié)果顯示，F(xiàn)alcon Mamba“可以適應(yīng)比基于 SoTA Transformer 的模型更大的序列，同時(shí)理論上如果逐個(gè)處理整個(gè)上下文標(biāo)記，或者按適合 GPU 的大小處理標(biāo)記塊（稱為順序并行），則能夠適應(yīng)無限的上下文長度?！?/span>

Falcon 7B

在單獨(dú)的吞吐量測試中，它的表現(xiàn)優(yōu)于 Mistral 7B 高效的滑動窗口注意力架構(gòu)，能夠以恒定的速度生成所有 token，并且不會增加 CUDA 峰值內(nèi)存。

即使在標(biāo)準(zhǔn)行業(yè)基準(zhǔn)中，新模型的性能也優(yōu)于或幾乎與流行的變壓器模型以及純和混合狀態(tài)空間模型的性能相同。

例如，在 Arc、TruthfulQA 和 GSM8K 基準(zhǔn)測試中，F(xiàn)alcon Mamba 7B 得分分別為 62.03%、53.42% 和 52.54%，明顯優(yōu)于 Llama 3 8B、Llama 3.1 8B、Gemma 7B和 Mistral 7B。

然而，在 MMLU 和 Hellaswag 基準(zhǔn)測試中，它緊隨所有這些模型之后。

但這僅僅是一個(gè)開始。下一步，TII 計(jì)劃進(jìn)一步優(yōu)化模型設(shè)計(jì)，以提高其性能并覆蓋更多的應(yīng)用場景。

TII 人工智能跨中心部門代理首席研究員 Hakim Hacid 博士在一份聲明中表示：“此次發(fā)布代表著向前邁出的重大一步，它激發(fā)了新的觀點(diǎn)，并進(jìn)一步推動了對智能系統(tǒng)的探索。在 TII，我們正在突破 SSLM 和 transformer 模型的界限，以激發(fā)生成式人工智能的進(jìn)一步創(chuàng)新?！?/span>

總體而言，TII 的 Falcon 系列語言模型下載量已超過 4500 萬次，成為阿聯(lián)酋最成功的 LLM 版本之一。

責(zé)任編輯：龐桂玉來源： 51CTO技術(shù)棧

Transforme 模型

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

非Transformer模型終于來了！

01、Falcon Mamba 7B 有何優(yōu)勢？

02、挑戰(zhàn) Meta、Google 和 Mistral

非Transformer模型終于來了！

01、Falcon Mamba 7B 有何優(yōu)勢？

02、挑戰(zhàn) Meta、Google 和 Mistral