Tokenization謝幕?H-Net登場:Mamba作者新作正面硬剛Transformer 原創(chuàng)
盡管近年來語言模型取得了驚人進(jìn)展,這一進(jìn)步主要源于從面向特定任務(wù)的專用模型轉(zhuǎn)向基于強(qiáng)大架構(gòu)(如 Transformer)的通用模型——這些模型能從原始數(shù)據(jù)中直接學(xué)習(xí)一切。然而,諸如分詞(tokenization)之類的預(yù)處理步驟仍是構(gòu)建真正端到端基礎(chǔ)模型的障礙。
「Mamba」作者之一的Albert Gu最新Paper又提出一系列新技術(shù),實(shí)現(xiàn)了一種動態(tài)分塊機(jī)制(dynamic chunking):它能自動學(xué)習(xí)內(nèi)容與上下文相關(guān)的切分策略,并與模型的其余部分聯(lián)合訓(xùn)練。將該機(jī)制嵌入顯式的層級網(wǎng)絡(luò)(hierarchical network:H-Net),即可用一個完全端到端訓(xùn)練的模型替代“分詞→語言模型→反分詞”的傳統(tǒng)流水線。
- (左)兩級分層結(jié)構(gòu)(S = 2)的 H-Net 整體架構(gòu)概覽。(右)動態(tài)分塊(DC)示意圖。
- (右下)chunking層關(guān)鍵組件:
(a) 路由模塊——動態(tài)決定分塊邊界;
(b) 下采樣器——依據(jù)邊界指示符保留關(guān)鍵向量,縮短序列長度并保留語義重要位置。
- (右上)dechunking層關(guān)鍵組件:
(c) 平滑模塊——將離散塊插值為連續(xù)表示;(d) 上采樣器——依據(jù)邊界指示符將壓縮向量恢復(fù)至原始分辨率。
H-Net 所劃邊界的可視化。(a) 單階段 H-Net 主要在“類空格”字節(jié)處劃邊界,與 SpaceByte 非常相似。(b) 兩階段 H-Net 的第一階段同樣聚焦于類空格字節(jié)和每個單詞的首字符;第二階段則將文本劃分為更有意義的單元,如單詞或編號(例如 ‘(ii)’)。還觀察到,它常將多個語義相關(guān)的單詞合并為一個塊,例如 ‘the backbone’ 和 ‘such as’。
在算力與數(shù)據(jù)規(guī)模相匹配的條件下,僅在byte level運(yùn)行的單級 H-Net 就能超越基于 BPE token 的強(qiáng) Transformer 語言模型;將層級擴(kuò)展為多級后,模型通過抽象層級的疊加進(jìn)一步提效,數(shù)據(jù)擴(kuò)展性顯著優(yōu)于傳統(tǒng)模型,性能可與兩倍參數(shù)量的 token 級 Transformer 相媲美。
具體實(shí)驗結(jié)果:
英文(FineWeb-Edu) | 兩階段 H-Net 僅用 30B bytes 訓(xùn)練即超越 BPE Transformer(1.3B 參數(shù))。 |
中文 | 在 XWinograd-zh 上準(zhǔn)確率從 59.9 → 66.3,顯著優(yōu)于 BPE Transformer。 |
代碼 | 壓縮率更高,BPB 更低,表現(xiàn)優(yōu)于 BPE Transformer。 |
DNA 序列 | 數(shù)據(jù)效率提升 3.6×,優(yōu)于傳統(tǒng) isotropic 模型。 |
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
https://arxiv.org/pdf/2507.07955
https://goombalab.github.io/blog/2025/hnet-past/
本文轉(zhuǎn)載自?????????PaperAgent??
