Transformer挑戰(zhàn)者出現(xiàn)!斯坦福CMU聯(lián)合團隊,開源模型及代碼,公司已創(chuàng)辦
現(xiàn)在ChatGPT等大模型一大痛點:
處理長文本算力消耗巨大,背后原因是Transformer架構(gòu)中注意力機制的二次復雜度。
FlashAttention作者Tri Dao參與提出的新架構(gòu),成為有力挑戰(zhàn)者,引起大量關(guān)注:
Mamba(曼巴,一種蛇),在語言任務上擊敗/匹配Transformer性能,具有線性復雜度和5倍推理吞吐量。
圖片
具體來說,Mamba在語言、音頻、DNA序列模態(tài)上都實現(xiàn)SOTA。
在最受關(guān)注的語言任務上,Mamba-3B超越同等規(guī)模的Transformer,與兩倍大的Transformer匹敵。
并且相關(guān)代碼、預訓練模型checkpoint都已開源。
兩位作者的解讀都獲得大量轉(zhuǎn)發(fā)。
圖片
有網(wǎng)友發(fā)現(xiàn),連在線預測平臺上的“Transformer在2027年還是SOTA嗎?”都在這一天出現(xiàn)明顯下降。
圖片
有選擇處理信息+硬件感知算法。
Mamba是一種狀態(tài)空間模型(SSM,State Space Model)。
建立在更現(xiàn)代的適用于深度學習的結(jié)構(gòu)化SSM(S4, Structured SSM)基礎(chǔ)上,與經(jīng)典架構(gòu)RNN有相似之處。
圖片
在先前研究的Mamba主要有三點創(chuàng)新:
- 對輸入信息有選擇性處理
- 硬件感知的算法
- 更簡單的架構(gòu)
選擇性狀態(tài)空間模型
作者認為,序列建模的一個基礎(chǔ)問題是把上下文壓縮成更小的狀態(tài)。
從這個角度來看,注意力機制雖然高性能但低效率,需要顯式地存儲整個上下文(也就是KV緩存),直接導致訓練和推理消耗算力大。
類RNN的循環(huán)神經(jīng)網(wǎng)絡(luò)具有有限的狀態(tài),高效,但性能受到對上下文壓縮程度的限制。
Mamba的解決辦法,是讓模型對信息有選擇性處理,可以關(guān)注或忽略傳入的內(nèi)容,即使狀態(tài)大小固定也能壓縮上下文。
一個直觀的類比:
Transformer就像人類每寫一個字之前,都把前面的所有字+輸入都復習一遍,所以寫的慢。
RNN每次只參考前面固定的字數(shù),寫的快,但容易忘掉更前面的內(nèi)容。
Mamba每次參考前面所有內(nèi)容的一個概括,越往后寫對前面內(nèi)容概括得越狠,丟掉細節(jié)保留大意。
在其前身結(jié)構(gòu)化狀態(tài)空間模型(S4)中,四個參數(shù)A、B、C、?都是固定的,不隨輸入變化。
在Mamaba中,作者讓這些參數(shù)B、C、?成為輸入的函數(shù),讓模型能夠根據(jù)輸入內(nèi)容自適應地調(diào)整其行為。
圖片
硬件感知的狀態(tài)擴展
為了讓古老的SSM在現(xiàn)代GPU上也能高效計算,Mamba中使用了FlashAttention同款技術(shù)。
核心思想是利用內(nèi)存的不同層級結(jié)構(gòu)處理SSM的狀態(tài),減少高帶寬但慢速的HBM內(nèi)存反復讀寫這個瓶頸,具體來說:
- 在更高速的SRAM內(nèi)存中執(zhí)行離散化和遞歸操作,再將輸出寫回HBM。
- 通過并行掃描算法實現(xiàn)并行化。
- 當輸入從HBM加載到SRAM時,中間狀態(tài)不被保存,而是在反向傳播中重新計算。
圖片
簡化的SSM架構(gòu)
將大多數(shù)SSM架構(gòu)的基礎(chǔ)塊,與現(xiàn)代神經(jīng)網(wǎng)絡(luò)中普遍存在的門控MLP相結(jié)合,組成新的Mamba塊。
重復這個塊,與歸一化和殘差連接結(jié)合,構(gòu)成Mamba架構(gòu)。
圖片
實驗結(jié)果
Mamba在Chinchilla縮放定律下預訓練時,語言任務優(yōu)于同類開源模型。
對比對象中的Transformer++為標準GPT-3架構(gòu)加上谷歌PaLM和Meta Llama中的改進方案,也就是已知最強Transformer配方。
圖片
下游任務上,每個規(guī)模尺寸的Mamba都是同類最佳,并且通常與兩倍規(guī)模的基線性能匹配。
圖片
特別是當序列長度增加到512k時,相比使用FlashAttention-2的Transformer快幾個數(shù)量級,而且不會內(nèi)存不足。
圖片
Transformer的下一步?
最終,Mamba是第一個真正實現(xiàn)匹配Transformer性能的線性時間序列模型,無論是在預訓練困惑度還是下游任務評估方面。
并且在音頻和DNA序列建模上也優(yōu)于之前的SOTA模型,表現(xiàn)出一定的通用性。
作者在結(jié)論中提出,Mamba是通用序列模型骨干的有力候選者。
Stability AI創(chuàng)始人當即表示關(guān)注。
圖片
英偉達科學家Jim Fan也對Transformer的挑戰(zhàn)者出現(xiàn)感到興奮。
圖片
論文兩位作者Albert Gu和Tri Dao,博士都畢業(yè)于斯坦福大學,導師為Christopher Ré。
Albert Gu現(xiàn)在是CMU助理教授,多年來一直推動SSM架構(gòu)發(fā)展。
他曾在DeepMind 工作,目前是Cartesia AI的聯(lián)合創(chuàng)始人及首席科學家。
圖片
Tri Dao,以FlashAttention、FlashDecoding系列工作聞名,現(xiàn)在是普林斯頓助理教授,和Together AI首席科學家,也在Cartesia AI擔任顧問。
圖片
Cartesia AI公司介紹中提到致力于基于新架構(gòu)構(gòu)建下一代基礎(chǔ)模型,現(xiàn)在看來主要就是指創(chuàng)新的SSM架構(gòu)。
聯(lián)創(chuàng)及CEO Karan Goel同為斯坦福博士畢業(yè),也是Mamba的前身S4論文作者之一。
圖片
對于Mamba的下一步,在論文中有提到“探索新架構(gòu)是否能適用于Transformer已建立起的豐富大模型生態(tài)”。
其中包括微調(diào)、自適應、提示學習、上下文學習、指令微調(diào)、RLHF、量化……也就是要把基礎(chǔ)模型發(fā)展成GPT-3.5、Llama同類的助手模型了。
圖片
但作者也提到,目前的實驗規(guī)模較小,要全面評估SSM是否能與Transformer和其他架構(gòu)如RWKV、微軟RetNet競爭,至少還需要驗證7B規(guī)模。
圖片
在擴展SSM的過程中,還會遇到新的工程挑戰(zhàn)和對模型的調(diào)整,論文中沒有涉及。
最后,Albert Gu還分享了為什么把新架構(gòu)起名為一種毒蛇的名字:
速度快、對序列建模問題很致命、前身S4是SSSS(嘶嘶嘶嘶)。
圖片
論文:https://arxiv.org/abs/2312.00752
參考鏈接:
[1]https://twitter.com/_albertgu/status/1731727672286294400
[2]https://twitter.com/_albertgu/status/1731727672286294400