Glyph:智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路 原創(chuàng)
一、上下文瓶頸:大模型的隱形天花板
在大語言模型(LLM)快速演化的這兩年,性能的提升早已不只是“誰的參數(shù)多、算力強”的問題。上下文長度(Context Length),也就是模型一次能理解的文本量,成為了新的競爭焦點。
舉個例子:
- GPT-4o 支持 128K tokens(大約幾百頁文本);
- Claude 3.5 claims 可達 200K;
- Gemini 1.5 更是放出“100萬 token”的驚人數(shù)字。
但現(xiàn)實是——上下文越長,成本和延遲就成倍上升。原因在于,傳統(tǒng) Transformer 的注意力機制(Attention)計算量與 token 數(shù)量是平方級關(guān)系。 換句話說,輸入從 128K 翻到 1M,計算量可能漲幾十倍。

于是,各種“省算力”的方案層出不窮:
- 有的在算法上做稀疏 Attention(如 Longformer、Mamba);
- 有的用檢索(Retrieval)技術(shù)挑重點輸入;
- 還有的直接擴展位置編碼(RoPE、ALiBi)。
但這些方法都有硬傷:
- 稀疏 Attention犧牲了上下文的完整性;
- 檢索容易漏掉關(guān)鍵信息;
- 位置編碼雖然能“撐長”,但計算和內(nèi)存成本并沒有減。
這就是智譜AI團隊想要解決的關(guān)鍵瓶頸。

二、Glyph的突破:把文字變成圖像,再交給視覺語言模型
智譜AI的研究團隊提出了一個相當(dāng)大膽的設(shè)想:
如果我們不讓模型“讀字”,而是讓它“看圖”呢?
他們的新框架 Glyph,正是基于這個想法誕生的。
簡單來說,Glyph 的核心流程是這樣的:
- 把超長文本渲染成頁面圖像——類似電子書截圖;
- 用視覺語言模型(VLM)讀取這些圖像;
- 讓每個視覺token代表多個字符或單詞,實現(xiàn)信息壓縮。
這樣做的好處是顯而易見的:
- 每個視覺 token 承載的信息密度遠超文本 token;
- 模型一次能“看”更多內(nèi)容;
- 同時還能保留語義和排版結(jié)構(gòu)(如標(biāo)題、表格、引用等)。
最終,Glyph 在不損失精度的前提下,實現(xiàn)了 3~4倍的token壓縮率。 這意味著:一個原本需要 128K token 的文本,現(xiàn)在只需要約 30K~40K 視覺 token 就能處理完。 甚至在極限場景下,Glyph 讓 128K 的模型成功應(yīng)對了原本 百萬級上下文任務(wù)。
這無疑是一次范式的轉(zhuǎn)變: 從“語言建模”到“視覺-語言融合建?!?,Glyph 把長上下文問題轉(zhuǎn)化成了多模態(tài)壓縮問題。
三、系統(tǒng)架構(gòu):從渲染、搜索到訓(xùn)練的三步曲

Glyph 的整個訓(xùn)練與優(yōu)化過程非常系統(tǒng),分為三大階段:
1?? 持續(xù)預(yù)訓(xùn)練(Continual Pretraining)
團隊首先在大量渲染后的文本圖像上進行預(yù)訓(xùn)練。 這些圖像涵蓋了不同字體、字號、排版、行距等變化,以此讓模型熟悉各種視覺文本樣式。 目標(biāo)是讓模型在“看圖識字”的過程中,建立視覺token與文字語義的映射關(guān)系。
2?? LLM驅(qū)動的渲染搜索(Rendering Search)
這是 Glyph 的“黑科技”部分。 研究團隊讓一個 LLM 來主導(dǎo)搜索最佳的渲染參數(shù)組合—— 包括頁面大小、dpi、字體、縮進、對齊方式、行高、間距等。
它用類似遺傳算法(genetic loop)的方式不斷變異、評估、優(yōu)化, 以找到壓縮率和識別準(zhǔn)確率之間的最優(yōu)平衡點。
這一步很關(guān)鍵,因為如果字體太小或排版太緊,OCR精度就會下降; 而字體太大、行距太寬,又會降低壓縮效率。
3?? 后訓(xùn)練(Post Training)
在最后階段,團隊采用了監(jiān)督微調(diào)(SFT)+ 強化學(xué)習(xí)(RL)的混合訓(xùn)練流程。 其中強化學(xué)習(xí)部分使用了 Group Relative Policy Optimization(GRPO) 算法, 并額外加入了 OCR對齊損失(Alignment Loss), 以保證在高壓縮狀態(tài)下,字符識別依然準(zhǔn)確無誤。
最終,這套流程讓 Glyph 不僅能“看懂”文字,還能“記住”長文邏輯。
四、實測結(jié)果:3倍壓縮、4倍提速、語義不丟

智譜AI在多個長上下文評測集上驗證了 Glyph 的性能,包括:
- LongBench(長對話與上下文任務(wù))
- MRCR(多文檔閱讀任務(wù))
- Ruler(長輸入魯棒性測試)
核心結(jié)果非常亮眼:
- 平均有效壓縮率約3.3倍,部分任務(wù)可達5倍;
- 在 128K 輸入下,推理前填充(Prefill)提速約4.8倍;
- 解碼速度提升約4.4倍;
- 微調(diào)吞吐量提升約2倍;
- 精度幾乎與 8B 參數(shù)級別的強基線(如 Qwen3 8B)持平。
此外,Glyph 在多模態(tài)文檔理解任務(wù)(MMLongBench Doc)上表現(xiàn)也更優(yōu), 證明它的“視覺壓縮”不僅節(jié)省token,也增強了模型的布局與圖文推理能力。
不過,研究團隊也坦言:Glyph 的主要瓶頸在于對排版敏感。 如果字體太小、間距太緊,尤其是帶有UUID這類稀有字符串時,OCR性能會下降。 因此,實際部署仍需要較強的服務(wù)端渲染能力和OCR先驗知識。
五、應(yīng)用前景:為百萬Token時代鋪路
Glyph 的出現(xiàn),實際上打開了大模型「長上下文」的新方向。 它不再單純依賴算法結(jié)構(gòu)優(yōu)化,而是通過視覺層面的信息壓縮實現(xiàn)性能提升。
這種思路的潛力遠不止上下文擴展:
1?? 文檔級推理(Document Reasoning)在企業(yè)應(yīng)用中,大模型常需要分析長達數(shù)百頁的報告、專利或合同。 Glyph 的渲染機制讓模型直接“看”文檔頁,理解圖表、標(biāo)題、段落布局。 這意味著多模態(tài)文檔AI的門檻大幅降低。
2?? RAG系統(tǒng)加速(Retrieval-Augmented Generation)傳統(tǒng)RAG要先檢索、再分塊、再拼接輸入,過程復(fù)雜且昂貴。 若采用Glyph式壓縮,可讓模型一次“看下”更大語料, 檢索模塊甚至可以被弱化或替代。
3?? 推理成本降低在模型服務(wù)中,推理速度和顯存成本是最關(guān)鍵的經(jīng)濟因素。 Glyph的4倍提速意味著同等算力下可服務(wù)更多用戶, 這對于大規(guī)模API服務(wù)、企業(yè)私有部署、以及Agent系統(tǒng)尤為重要。
4?? 視覺-語言一體化趨勢Glyph 也預(yù)示了一個趨勢:語言模型正在成為真正的多模態(tài)智能體。從文本、語音、圖像到視頻,統(tǒng)一的表征空間正在形成, 未來“輸入是什么格式”將不再重要,模型都能理解。
六、智譜AI的布局:從GLM到Glyph
對于智譜AI來說,Glyph 并不是一次“孤立實驗”。 它實際上是繼 GLM系列 之后, 智譜在“通用智能架構(gòu)”探索中的又一步。
GLM 強調(diào)語言能力的通用性, 而 Glyph 則瞄準(zhǔn) 長記憶與高效推理 這兩大痛點。 兩者結(jié)合,意味著智譜在構(gòu)建“可擴展智能體”方面的路線愈發(fā)清晰:
- 讓模型更懂語言(GLM);
- 讓模型記得更多(Glyph);
- 最終形成能自主規(guī)劃的多模態(tài)Agent生態(tài)。
在這一點上,Glyph 的意義甚至超越了壓縮技術(shù)本身—— 它為百萬級上下文、低延遲推理的 AI 未來,提供了一個實際可行的路徑。
七、總結(jié)與展望
Glyph 代表了一種顛覆性思路: 不去“擴容”模型的注意力,而是重新定義輸入的表示方式。
通過視覺化壓縮,Glyph 將超長文本轉(zhuǎn)化為圖像, 讓視覺語言模型在更高的信息密度下工作, 從而在算力受限的前提下實現(xiàn)百萬級上下文的理解與生成。
這種跨模態(tài)的巧思,讓人看到了一種全新的可能: 未來的大模型,也許不再是“記得多”就強, 而是“壓得巧”更強。
想象一下,當(dāng)文檔、網(wǎng)頁、視頻字幕都能被渲染為模型可視的“知識圖頁”, 那時,AI 讀世界的方式,可能真的會像人一樣,用“眼睛”去理解語義。
本文轉(zhuǎn)載自???Halo咯咯?? 作者:基咯咯

















