中科院類腦大模型SpikingBrain,2%數(shù)據(jù),百倍速度
中國(guó)科學(xué)院自動(dòng)化研究所的李國(guó)齊、徐波團(tuán)隊(duì)發(fā)布全球首款大規(guī)模類腦脈沖大模型SpikingBrain 1.0。

處理一段400萬(wàn)token的超長(zhǎng)文本,它的速度比現(xiàn)在主流的Transformer模型快了100多倍。更離譜的是,它的訓(xùn)練數(shù)據(jù)量,只有別人家的2%。
大模型,要換個(gè)腦子了?
我們今天用的大語(yǔ)言模型,比如GPT系列,基本都構(gòu)建在Transformer架構(gòu)上。這套架構(gòu)的核心是自注意力機(jī)制,非常強(qiáng)大,但有個(gè)致命的問(wèn)題:計(jì)算復(fù)雜度。
簡(jiǎn)單說(shuō),你給它的文本長(zhǎng)度增加一倍,它的計(jì)算量不是增加一倍,而是暴增到四倍,也就是二次方(O(n2))關(guān)系。處理長(zhǎng)文本時(shí),它就像一輛陷入泥潭的跑車,不僅慢,還巨耗油(顯存和能耗)。
這就是為什么我們很難讓AI一次性讀完一部長(zhǎng)篇小說(shuō)或者分析一整套法律卷宗。成本太高,效率太低。
中科院的科學(xué)家們把目光投向了自然界最牛的智能系統(tǒng)——人腦。
人腦里有千億級(jí)的神經(jīng)元,連接數(shù)量更是天文數(shù)字,但它的功耗只有區(qū)區(qū)20瓦,比你家燈泡還省電。
團(tuán)隊(duì)提出了一個(gè)概念,把現(xiàn)在堆料的Transformer路線叫做“基于外生復(fù)雜性”,就是靠外部的堆砌來(lái)提升性能。而他們走的路叫“基于內(nèi)生復(fù)雜性”,意思是把功夫花在單元內(nèi)部,讓每一個(gè)“神經(jīng)元”本身就更聰明、更高效,師從大腦。
SpikingBrain,一套從里到外的顛覆
SpikingBrain(瞬悉)的核心,就是用一套全新的架構(gòu),模擬大腦神經(jīng)元的工作方式。它有兩個(gè)版本,一個(gè)70億參數(shù)的SpikingBrain-7B,一個(gè)760億參數(shù)的SpikingBrain-76B。

它到底顛覆了什么?
首先,它把Transformer那個(gè)二次方復(fù)雜度的自注意力機(jī)制給扔了,換成了一套“混合線性注意力架構(gòu)”。
思路很巧妙。它把幾種不同的注意力機(jī)制組合起來(lái)用:線性注意力負(fù)責(zé)看全局、抓要點(diǎn),滑窗注意力負(fù)責(zé)看局部、摳細(xì)節(jié)。在7B模型里,這兩種注意力一層一層地交替堆疊。在更強(qiáng)的76B模型里,它們甚至在同一層里并行開工,還時(shí)不時(shí)插入一層標(biāo)準(zhǔn)的全注意力來(lái)“校準(zhǔn)”一下。

這么一搞,計(jì)算復(fù)雜度直接從二次方降到了線性(O(n))。處理長(zhǎng)文本的效率,自然就坐上了火箭。
其次,也是最“類腦”的一點(diǎn),是它用了“自適應(yīng)閾值脈沖神經(jīng)元”。
傳統(tǒng)AI模型里的神經(jīng)元,不管有沒(méi)有活干,都在那里傻乎乎地參與計(jì)算。但大腦神經(jīng)元不是,它們平時(shí)很安靜,只有當(dāng)接收到的信號(hào)強(qiáng)度超過(guò)一個(gè)“閾值”時(shí),才會(huì)“發(fā)放”一個(gè)脈沖,也就是“說(shuō)句話”。這種事件驅(qū)動(dòng)的方式極其節(jié)能。
過(guò)去的脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)模型雖然模仿了這一點(diǎn),但總做不好,要么神經(jīng)元集體“沉默”,要么集體“過(guò)度興奮”,模型很難訓(xùn)練。
SpikingBrain的創(chuàng)新在于,這個(gè)“閾值”不是固定的,而是自適應(yīng)的。它會(huì)根據(jù)神經(jīng)元的狀態(tài)動(dòng)態(tài)調(diào)整,確保每個(gè)神經(jīng)元都處在一個(gè)恰到好處的活躍水平。這就好比給每個(gè)員工都設(shè)定了一個(gè)彈性的KPI,既不會(huì)讓他閑著,也不會(huì)把他累死,整個(gè)公司(模型)的運(yùn)行效率就高了。
這種機(jī)制帶來(lái)的直接好處就是“稀疏性”。數(shù)據(jù)顯示,SpikingBrain的計(jì)算稀疏度高達(dá)69.15%,在處理長(zhǎng)序列時(shí),真正被激活的脈沖占比只有1.85%。這意味著絕大部分時(shí)間里,大部分神經(jīng)元都在“節(jié)能模式”,能耗自然就降下來(lái)了。
最后,還有一個(gè)非常務(wù)實(shí)的技術(shù):高效模型轉(zhuǎn)換。
從頭訓(xùn)練一個(gè)大模型,燒錢跟燒紙一樣。團(tuán)隊(duì)開發(fā)了一套技術(shù),可以直接把現(xiàn)有的Transformer模型“改造”成SpikingBrain架構(gòu),而不是一切推倒重來(lái)。整個(gè)轉(zhuǎn)換和繼續(xù)訓(xùn)練過(guò)程,所需要的計(jì)算量,還不到從頭訓(xùn)練一個(gè)同等規(guī)模模型的2%。
國(guó)產(chǎn)芯上跑出的“中國(guó)速度”
這一整套顛覆性的工作,都是在國(guó)產(chǎn)GPU算力集群上完成的。

團(tuán)隊(duì)攻克了在非英偉達(dá)平臺(tái)上進(jìn)行大規(guī)模分布式訓(xùn)練的種種難題,開發(fā)了配套的算子庫(kù)和通信框架,硬是把這塊硬骨頭啃了下來(lái)。
下表,能最直觀地看到SpikingBrain的性能有多“炸裂”。


訓(xùn)練數(shù)據(jù)只用2%,性能卻能和主流模型打平。

處理百萬(wàn)、四百萬(wàn)token級(jí)別的超長(zhǎng)文本,推理啟動(dòng)速度提升幾十倍甚至上百倍。

把模型壓縮后放到手機(jī)CPU上跑,解碼速度還能甩開對(duì)手十幾倍。
能耗顯著降低,稀疏度極高。
不只發(fā)論文,直接開源
技術(shù)報(bào)告同時(shí)發(fā)布在了學(xué)術(shù)網(wǎng)站arXiv和代碼托管平臺(tái)GitHub上,中英文雙版本,把所有技術(shù)細(xì)節(jié)和盤托出。
團(tuán)隊(duì)直接把SpikingBrain-7B模型的權(quán)重、完整代碼、推理框架全部開源,放在了魔搭(ModelScope)和GitHub上,人人都可以下載使用。76B的模型也提供了在線試用。
SpikingBrain 1.0的問(wèn)世,宣告了在Transformer的“規(guī)模法則”之外,還存在著另一條通往通用人工智能的道路。
類腦新賽道,才是新未來(lái)嗎?
免費(fèi)試用:
https://controller-fold-injuries-thick.trycloudflare.com/
GitHub:
https://github.com/BICLab/SpikingBrain-7B
ModelScope:
- Pre-trained model (7B): https://www.modelscope.cn/models/Panyuqi/V1-7B-base
- Chat model (7B-SFT): https://www.modelscope.cn/models/Panyuqi/V1-7B-sft-s3-reasoning
- Quantized weights (7B-W8ASpike): https://www.modelscope.cn/models/Abel2076/SpikingBrain-7B-W8ASpike

























