偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

中科院類腦大模型SpikingBrain,2%數(shù)據(jù),百倍速度

人工智能 新聞
團(tuán)隊(duì)提出了一個(gè)概念,把現(xiàn)在堆料的Transformer路線叫做“基于外生復(fù)雜性”,就是靠外部的堆砌來(lái)提升性能。而他們走的路叫“基于內(nèi)生復(fù)雜性”,意思是把功夫花在單元內(nèi)部,讓每一個(gè)“神經(jīng)元”本身就更聰明、更高效,師從大腦。

中國(guó)科學(xué)院自動(dòng)化研究所的李國(guó)齊、徐波團(tuán)隊(duì)發(fā)布全球首款大規(guī)模類腦脈沖大模型SpikingBrain 1.0。

處理一段400萬(wàn)token的超長(zhǎng)文本,它的速度比現(xiàn)在主流的Transformer模型快了100多倍。更離譜的是,它的訓(xùn)練數(shù)據(jù)量,只有別人家的2%。

大模型,要換個(gè)腦子了?

我們今天用的大語(yǔ)言模型,比如GPT系列,基本都構(gòu)建在Transformer架構(gòu)上。這套架構(gòu)的核心是自注意力機(jī)制,非常強(qiáng)大,但有個(gè)致命的問(wèn)題:計(jì)算復(fù)雜度。

簡(jiǎn)單說(shuō),你給它的文本長(zhǎng)度增加一倍,它的計(jì)算量不是增加一倍,而是暴增到四倍,也就是二次方(O(n2))關(guān)系。處理長(zhǎng)文本時(shí),它就像一輛陷入泥潭的跑車,不僅慢,還巨耗油(顯存和能耗)。

這就是為什么我們很難讓AI一次性讀完一部長(zhǎng)篇小說(shuō)或者分析一整套法律卷宗。成本太高,效率太低。

中科院的科學(xué)家們把目光投向了自然界最牛的智能系統(tǒng)——人腦。

人腦里有千億級(jí)的神經(jīng)元,連接數(shù)量更是天文數(shù)字,但它的功耗只有區(qū)區(qū)20瓦,比你家燈泡還省電。

團(tuán)隊(duì)提出了一個(gè)概念,把現(xiàn)在堆料的Transformer路線叫做“基于外生復(fù)雜性”,就是靠外部的堆砌來(lái)提升性能。而他們走的路叫“基于內(nèi)生復(fù)雜性”,意思是把功夫花在單元內(nèi)部,讓每一個(gè)“神經(jīng)元”本身就更聰明、更高效,師從大腦。

SpikingBrain,一套從里到外的顛覆

SpikingBrain(瞬悉)的核心,就是用一套全新的架構(gòu),模擬大腦神經(jīng)元的工作方式。它有兩個(gè)版本,一個(gè)70億參數(shù)的SpikingBrain-7B,一個(gè)760億參數(shù)的SpikingBrain-76B。

它到底顛覆了什么?

首先,它把Transformer那個(gè)二次方復(fù)雜度的自注意力機(jī)制給扔了,換成了一套“混合線性注意力架構(gòu)”。

思路很巧妙。它把幾種不同的注意力機(jī)制組合起來(lái)用:線性注意力負(fù)責(zé)看全局、抓要點(diǎn),滑窗注意力負(fù)責(zé)看局部、摳細(xì)節(jié)。在7B模型里,這兩種注意力一層一層地交替堆疊。在更強(qiáng)的76B模型里,它們甚至在同一層里并行開工,還時(shí)不時(shí)插入一層標(biāo)準(zhǔn)的全注意力來(lái)“校準(zhǔn)”一下。

這么一搞,計(jì)算復(fù)雜度直接從二次方降到了線性(O(n))。處理長(zhǎng)文本的效率,自然就坐上了火箭。

其次,也是最“類腦”的一點(diǎn),是它用了“自適應(yīng)閾值脈沖神經(jīng)元”。

傳統(tǒng)AI模型里的神經(jīng)元,不管有沒(méi)有活干,都在那里傻乎乎地參與計(jì)算。但大腦神經(jīng)元不是,它們平時(shí)很安靜,只有當(dāng)接收到的信號(hào)強(qiáng)度超過(guò)一個(gè)“閾值”時(shí),才會(huì)“發(fā)放”一個(gè)脈沖,也就是“說(shuō)句話”。這種事件驅(qū)動(dòng)的方式極其節(jié)能。

過(guò)去的脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)模型雖然模仿了這一點(diǎn),但總做不好,要么神經(jīng)元集體“沉默”,要么集體“過(guò)度興奮”,模型很難訓(xùn)練。

SpikingBrain的創(chuàng)新在于,這個(gè)“閾值”不是固定的,而是自適應(yīng)的。它會(huì)根據(jù)神經(jīng)元的狀態(tài)動(dòng)態(tài)調(diào)整,確保每個(gè)神經(jīng)元都處在一個(gè)恰到好處的活躍水平。這就好比給每個(gè)員工都設(shè)定了一個(gè)彈性的KPI,既不會(huì)讓他閑著,也不會(huì)把他累死,整個(gè)公司(模型)的運(yùn)行效率就高了。

這種機(jī)制帶來(lái)的直接好處就是“稀疏性”。數(shù)據(jù)顯示,SpikingBrain的計(jì)算稀疏度高達(dá)69.15%,在處理長(zhǎng)序列時(shí),真正被激活的脈沖占比只有1.85%。這意味著絕大部分時(shí)間里,大部分神經(jīng)元都在“節(jié)能模式”,能耗自然就降下來(lái)了。

最后,還有一個(gè)非常務(wù)實(shí)的技術(shù):高效模型轉(zhuǎn)換。

從頭訓(xùn)練一個(gè)大模型,燒錢跟燒紙一樣。團(tuán)隊(duì)開發(fā)了一套技術(shù),可以直接把現(xiàn)有的Transformer模型“改造”成SpikingBrain架構(gòu),而不是一切推倒重來(lái)。整個(gè)轉(zhuǎn)換和繼續(xù)訓(xùn)練過(guò)程,所需要的計(jì)算量,還不到從頭訓(xùn)練一個(gè)同等規(guī)模模型的2%。

國(guó)產(chǎn)芯上跑出的“中國(guó)速度”

這一整套顛覆性的工作,都是在國(guó)產(chǎn)GPU算力集群上完成的。

團(tuán)隊(duì)攻克了在非英偉達(dá)平臺(tái)上進(jìn)行大規(guī)模分布式訓(xùn)練的種種難題,開發(fā)了配套的算子庫(kù)和通信框架,硬是把這塊硬骨頭啃了下來(lái)。

下表,能最直觀地看到SpikingBrain的性能有多“炸裂”。

訓(xùn)練數(shù)據(jù)只用2%,性能卻能和主流模型打平。

處理百萬(wàn)、四百萬(wàn)token級(jí)別的超長(zhǎng)文本,推理啟動(dòng)速度提升幾十倍甚至上百倍。

把模型壓縮后放到手機(jī)CPU上跑,解碼速度還能甩開對(duì)手十幾倍。

能耗顯著降低,稀疏度極高。

不只發(fā)論文,直接開源

技術(shù)報(bào)告同時(shí)發(fā)布在了學(xué)術(shù)網(wǎng)站arXiv和代碼托管平臺(tái)GitHub上,中英文雙版本,把所有技術(shù)細(xì)節(jié)和盤托出。

團(tuán)隊(duì)直接把SpikingBrain-7B模型的權(quán)重、完整代碼、推理框架全部開源,放在了魔搭(ModelScope)和GitHub上,人人都可以下載使用。76B的模型也提供了在線試用。

SpikingBrain 1.0的問(wèn)世,宣告了在Transformer的“規(guī)模法則”之外,還存在著另一條通往通用人工智能的道路。

類腦新賽道,才是新未來(lái)嗎?

免費(fèi)試用:

https://controller-fold-injuries-thick.trycloudflare.com/

GitHub:

https://github.com/BICLab/SpikingBrain-7B

ModelScope:

  • Pre-trained model (7B): https://www.modelscope.cn/models/Panyuqi/V1-7B-base
  • Chat model (7B-SFT): https://www.modelscope.cn/models/Panyuqi/V1-7B-sft-s3-reasoning
  • Quantized weights (7B-W8ASpike): https://www.modelscope.cn/models/Abel2076/SpikingBrain-7B-W8ASpike
責(zé)任編輯:張燕妮 來(lái)源: AIGC開放社區(qū)
相關(guān)推薦

2025-09-12 09:03:00

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫(kù)

2017-05-15 15:07:36

納米材料農(nóng)藥

2014-11-11 15:57:07

2023-04-18 10:12:06

模型解碼

2024-03-07 12:31:29

AI技術(shù)

2009-09-18 09:40:57

浪潮中科院合肥

2023-06-27 17:35:39

FastSAM模型SAM

2023-06-26 22:15:14

ChatGPT思維模型

2016-04-19 12:51:26

2010-05-14 10:09:21

中科院LED無(wú)線上網(wǎng)

2009-10-11 01:04:43

曙光中科院計(jì)算中心

2012-11-21 17:35:21

Oracle技術(shù)嘉年華

2024-01-17 15:38:21

大模型人工智能軟件測(cè)試

2013-09-02 10:21:31

曙光核高基中科院

2021-12-29 10:26:58

芯片半導(dǎo)體技術(shù)

2019-06-14 08:28:32

SQL數(shù)據(jù)庫(kù)語(yǔ)句

2020-08-30 14:29:01

Pandas數(shù)據(jù)分析函數(shù)

2020-01-16 15:20:48

編程語(yǔ)言PythonJava
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)