偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Glyph:智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路 原創(chuàng)

發(fā)布于 2025-10-31 07:46
瀏覽
0收藏

一、上下文瓶頸:大模型的隱形天花板

在大語言模型(LLM)快速演化的這兩年,性能的提升早已不只是“誰的參數(shù)多、算力強”的問題。上下文長度(Context Length),也就是模型一次能理解的文本量,成為了新的競爭焦點。

舉個例子:

  • GPT-4o 支持 128K tokens(大約幾百頁文本);
  • Claude 3.5 claims 可達 200K;
  • Gemini 1.5 更是放出“100萬 token”的驚人數(shù)字。

但現(xiàn)實是——上下文越長,成本和延遲就成倍上升。原因在于,傳統(tǒng) Transformer 的注意力機制(Attention)計算量與 token 數(shù)量是平方級關(guān)系。 換句話說,輸入從 128K 翻到 1M,計算量可能漲幾十倍。

Glyph:智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路-AI.x社區(qū)

于是,各種“省算力”的方案層出不窮:

  • 有的在算法上做稀疏 Attention(如 Longformer、Mamba);
  • 有的用檢索(Retrieval)技術(shù)挑重點輸入;
  • 還有的直接擴展位置編碼(RoPE、ALiBi)。

但這些方法都有硬傷:

  • 稀疏 Attention犧牲了上下文的完整性;
  • 檢索容易漏掉關(guān)鍵信息;
  • 位置編碼雖然能“撐長”,但計算和內(nèi)存成本并沒有減。

這就是智譜AI團隊想要解決的關(guān)鍵瓶頸。

Glyph:智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路-AI.x社區(qū)

二、Glyph的突破:把文字變成圖像,再交給視覺語言模型

智譜AI的研究團隊提出了一個相當(dāng)大膽的設(shè)想:

如果我們不讓模型“讀字”,而是讓它“看圖”呢?

他們的新框架 Glyph,正是基于這個想法誕生的。

簡單來說,Glyph 的核心流程是這樣的:

  1. 把超長文本渲染成頁面圖像——類似電子書截圖;
  2. 用視覺語言模型(VLM)讀取這些圖像;
  3. 讓每個視覺token代表多個字符或單詞,實現(xiàn)信息壓縮。

這樣做的好處是顯而易見的:

  • 每個視覺 token 承載的信息密度遠超文本 token;
  • 模型一次能“看”更多內(nèi)容;
  • 同時還能保留語義和排版結(jié)構(gòu)(如標(biāo)題、表格、引用等)。

最終,Glyph 在不損失精度的前提下,實現(xiàn)了 3~4倍的token壓縮率。 這意味著:一個原本需要 128K token 的文本,現(xiàn)在只需要約 30K~40K 視覺 token 就能處理完。 甚至在極限場景下,Glyph 讓 128K 的模型成功應(yīng)對了原本 百萬級上下文任務(wù)。

這無疑是一次范式的轉(zhuǎn)變: 從“語言建模”到“視覺-語言融合建?!?,Glyph 把長上下文問題轉(zhuǎn)化成了多模態(tài)壓縮問題。

三、系統(tǒng)架構(gòu):從渲染、搜索到訓(xùn)練的三步曲

Glyph:智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路-AI.x社區(qū)

Glyph 的整個訓(xùn)練與優(yōu)化過程非常系統(tǒng),分為三大階段:

1?? 持續(xù)預(yù)訓(xùn)練(Continual Pretraining)

團隊首先在大量渲染后的文本圖像上進行預(yù)訓(xùn)練。 這些圖像涵蓋了不同字體、字號、排版、行距等變化,以此讓模型熟悉各種視覺文本樣式。 目標(biāo)是讓模型在“看圖識字”的過程中,建立視覺token與文字語義的映射關(guān)系

2?? LLM驅(qū)動的渲染搜索(Rendering Search)

這是 Glyph 的“黑科技”部分。 研究團隊讓一個 LLM 來主導(dǎo)搜索最佳的渲染參數(shù)組合—— 包括頁面大小、dpi、字體、縮進、對齊方式、行高、間距等。

它用類似遺傳算法(genetic loop)的方式不斷變異、評估、優(yōu)化, 以找到壓縮率和識別準(zhǔn)確率之間的最優(yōu)平衡點。

這一步很關(guān)鍵,因為如果字體太小或排版太緊,OCR精度就會下降; 而字體太大、行距太寬,又會降低壓縮效率。

3?? 后訓(xùn)練(Post Training)

在最后階段,團隊采用了監(jiān)督微調(diào)(SFT)+ 強化學(xué)習(xí)(RL)的混合訓(xùn)練流程。 其中強化學(xué)習(xí)部分使用了 Group Relative Policy Optimization(GRPO) 算法, 并額外加入了 OCR對齊損失(Alignment Loss), 以保證在高壓縮狀態(tài)下,字符識別依然準(zhǔn)確無誤。

最終,這套流程讓 Glyph 不僅能“看懂”文字,還能“記住”長文邏輯。

四、實測結(jié)果:3倍壓縮、4倍提速、語義不丟

Glyph:智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路-AI.x社區(qū)

智譜AI在多個長上下文評測集上驗證了 Glyph 的性能,包括:

  • LongBench(長對話與上下文任務(wù))
  • MRCR(多文檔閱讀任務(wù))
  • Ruler(長輸入魯棒性測試)

核心結(jié)果非常亮眼:

  • 平均有效壓縮率約3.3倍,部分任務(wù)可達5倍;
  • 在 128K 輸入下,推理前填充(Prefill)提速約4.8倍;
  • 解碼速度提升約4.4倍;
  • 微調(diào)吞吐量提升約2倍
  • 精度幾乎與 8B 參數(shù)級別的強基線(如 Qwen3 8B)持平。

此外,Glyph 在多模態(tài)文檔理解任務(wù)(MMLongBench Doc)上表現(xiàn)也更優(yōu), 證明它的“視覺壓縮”不僅節(jié)省token,也增強了模型的布局與圖文推理能力。

不過,研究團隊也坦言:Glyph 的主要瓶頸在于對排版敏感。 如果字體太小、間距太緊,尤其是帶有UUID這類稀有字符串時,OCR性能會下降。 因此,實際部署仍需要較強的服務(wù)端渲染能力和OCR先驗知識。

五、應(yīng)用前景:為百萬Token時代鋪路

Glyph 的出現(xiàn),實際上打開了大模型「長上下文」的新方向。 它不再單純依賴算法結(jié)構(gòu)優(yōu)化,而是通過視覺層面的信息壓縮實現(xiàn)性能提升。

這種思路的潛力遠不止上下文擴展:

1?? 文檔級推理(Document Reasoning)在企業(yè)應(yīng)用中,大模型常需要分析長達數(shù)百頁的報告、專利或合同。 Glyph 的渲染機制讓模型直接“看”文檔頁,理解圖表、標(biāo)題、段落布局。 這意味著多模態(tài)文檔AI的門檻大幅降低。

2?? RAG系統(tǒng)加速(Retrieval-Augmented Generation)傳統(tǒng)RAG要先檢索、再分塊、再拼接輸入,過程復(fù)雜且昂貴。 若采用Glyph式壓縮,可讓模型一次“看下”更大語料, 檢索模塊甚至可以被弱化或替代。

3?? 推理成本降低在模型服務(wù)中,推理速度和顯存成本是最關(guān)鍵的經(jīng)濟因素。 Glyph的4倍提速意味著同等算力下可服務(wù)更多用戶, 這對于大規(guī)模API服務(wù)、企業(yè)私有部署、以及Agent系統(tǒng)尤為重要。

4?? 視覺-語言一體化趨勢Glyph 也預(yù)示了一個趨勢:語言模型正在成為真正的多模態(tài)智能體。從文本、語音、圖像到視頻,統(tǒng)一的表征空間正在形成, 未來“輸入是什么格式”將不再重要,模型都能理解。

六、智譜AI的布局:從GLM到Glyph

對于智譜AI來說,Glyph 并不是一次“孤立實驗”。 它實際上是繼 GLM系列 之后, 智譜在“通用智能架構(gòu)”探索中的又一步。

GLM 強調(diào)語言能力的通用性, 而 Glyph 則瞄準(zhǔn) 長記憶與高效推理 這兩大痛點。 兩者結(jié)合,意味著智譜在構(gòu)建“可擴展智能體”方面的路線愈發(fā)清晰:

  • 讓模型更懂語言(GLM)
  • 讓模型記得更多(Glyph);
  • 最終形成能自主規(guī)劃的多模態(tài)Agent生態(tài)。

在這一點上,Glyph 的意義甚至超越了壓縮技術(shù)本身—— 它為百萬級上下文、低延遲推理的 AI 未來,提供了一個實際可行的路徑。

七、總結(jié)與展望

Glyph 代表了一種顛覆性思路: 不去“擴容”模型的注意力,而是重新定義輸入的表示方式。

通過視覺化壓縮,Glyph 將超長文本轉(zhuǎn)化為圖像, 讓視覺語言模型在更高的信息密度下工作, 從而在算力受限的前提下實現(xiàn)百萬級上下文的理解與生成。

這種跨模態(tài)的巧思,讓人看到了一種全新的可能: 未來的大模型,也許不再是“記得多”就強, 而是“壓得巧”更強。

想象一下,當(dāng)文檔、網(wǎng)頁、視頻字幕都能被渲染為模型可視的“知識圖頁”, 那時,AI 讀世界的方式,可能真的會像人一樣,用“眼睛”去理解語義。

本文轉(zhuǎn)載自???Halo咯咯??    作者:基咯咯

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦