偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Glyph：智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路原創(chuàng)

發(fā)布于 2025-10-31 07:46

瀏覽

0收藏

一、上下文瓶頸：大模型的隱形天花板

在大語言模型（LLM）快速演化的這兩年，性能的提升早已不只是“誰的參數(shù)多、算力強”的問題。上下文長度（Context Length），也就是模型一次能理解的文本量，成為了新的競爭焦點。

舉個例子：

GPT-4o 支持 128K tokens（大約幾百頁文本）；
Claude 3.5 claims 可達 200K；
Gemini 1.5 更是放出“100萬 token”的驚人數(shù)字。

但現(xiàn)實是——上下文越長，成本和延遲就成倍上升。原因在于，傳統(tǒng) Transformer 的注意力機制（Attention）計算量與 token 數(shù)量是平方級關(guān)系。換句話說，輸入從 128K 翻到 1M，計算量可能漲幾十倍。

Glyph：智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路-AI.x社區(qū)

于是，各種“省算力”的方案層出不窮：

有的在算法上做稀疏 Attention（如 Longformer、Mamba）；
有的用檢索（Retrieval）技術(shù)挑重點輸入；
還有的直接擴展位置編碼（RoPE、ALiBi）。

但這些方法都有硬傷：

稀疏 Attention犧牲了上下文的完整性；
檢索容易漏掉關(guān)鍵信息；
位置編碼雖然能“撐長”，但計算和內(nèi)存成本并沒有減。

這就是智譜AI團隊想要解決的關(guān)鍵瓶頸。

Glyph：智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路-AI.x社區(qū)

二、Glyph的突破：把文字變成圖像，再交給視覺語言模型

智譜AI的研究團隊提出了一個相當(dāng)大膽的設(shè)想：

如果我們不讓模型“讀字”，而是讓它“看圖”呢？

他們的新框架 Glyph，正是基于這個想法誕生的。

簡單來說，Glyph 的核心流程是這樣的：

把超長文本渲染成頁面圖像——類似電子書截圖；
用視覺語言模型（VLM）讀取這些圖像；
讓每個視覺token代表多個字符或單詞，實現(xiàn)信息壓縮。

這樣做的好處是顯而易見的：

每個視覺 token 承載的信息密度遠超文本 token；
模型一次能“看”更多內(nèi)容；
同時還能保留語義和排版結(jié)構(gòu)（如標(biāo)題、表格、引用等）。

最終，Glyph 在不損失精度的前提下，實現(xiàn)了 3~4倍的token壓縮率。這意味著：一個原本需要 128K token 的文本，現(xiàn)在只需要約 30K~40K 視覺 token 就能處理完。甚至在極限場景下，Glyph 讓 128K 的模型成功應(yīng)對了原本 百萬級上下文任務(wù)。

這無疑是一次范式的轉(zhuǎn)變：從“語言建模”到“視覺-語言融合建?！?，Glyph 把長上下文問題轉(zhuǎn)化成了多模態(tài)壓縮問題。

三、系統(tǒng)架構(gòu)：從渲染、搜索到訓(xùn)練的三步曲

Glyph：智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路-AI.x社區(qū)

Glyph 的整個訓(xùn)練與優(yōu)化過程非常系統(tǒng)，分為三大階段：

1?? 持續(xù)預(yù)訓(xùn)練（Continual Pretraining）

團隊首先在大量渲染后的文本圖像上進行預(yù)訓(xùn)練。這些圖像涵蓋了不同字體、字號、排版、行距等變化，以此讓模型熟悉各種視覺文本樣式。目標(biāo)是讓模型在“看圖識字”的過程中，建立視覺token與文字語義的映射關(guān)系。

2?? LLM驅(qū)動的渲染搜索（Rendering Search）

這是 Glyph 的“黑科技”部分。研究團隊讓一個 LLM 來主導(dǎo)搜索最佳的渲染參數(shù)組合—— 包括頁面大小、dpi、字體、縮進、對齊方式、行高、間距等。

它用類似遺傳算法（genetic loop）的方式不斷變異、評估、優(yōu)化，以找到壓縮率和識別準(zhǔn)確率之間的最優(yōu)平衡點。

這一步很關(guān)鍵，因為如果字體太小或排版太緊，OCR精度就會下降；而字體太大、行距太寬，又會降低壓縮效率。

3?? 后訓(xùn)練（Post Training）

在最后階段，團隊采用了監(jiān)督微調(diào)（SFT）+ 強化學(xué)習(xí)（RL）的混合訓(xùn)練流程。其中強化學(xué)習(xí)部分使用了 Group Relative Policy Optimization（GRPO） 算法，并額外加入了 OCR對齊損失（Alignment Loss），以保證在高壓縮狀態(tài)下，字符識別依然準(zhǔn)確無誤。

最終，這套流程讓 Glyph 不僅能“看懂”文字，還能“記住”長文邏輯。

四、實測結(jié)果：3倍壓縮、4倍提速、語義不丟

Glyph：智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路-AI.x社區(qū)

智譜AI在多個長上下文評測集上驗證了 Glyph 的性能，包括：

LongBench（長對話與上下文任務(wù)）
MRCR（多文檔閱讀任務(wù)）
Ruler（長輸入魯棒性測試）

核心結(jié)果非常亮眼：

平均有效壓縮率約3.3倍，部分任務(wù)可達5倍；
在 128K 輸入下，推理前填充（Prefill）提速約4.8倍；
解碼速度提升約4.4倍；
微調(diào)吞吐量提升約2倍；
精度幾乎與 8B 參數(shù)級別的強基線（如 Qwen3 8B）持平。

此外，Glyph 在多模態(tài)文檔理解任務(wù)（MMLongBench Doc）上表現(xiàn)也更優(yōu)，證明它的“視覺壓縮”不僅節(jié)省token，也增強了模型的布局與圖文推理能力。

不過，研究團隊也坦言：Glyph 的主要瓶頸在于對排版敏感。如果字體太小、間距太緊，尤其是帶有UUID這類稀有字符串時，OCR性能會下降。因此，實際部署仍需要較強的服務(wù)端渲染能力和OCR先驗知識。

五、應(yīng)用前景：為百萬Token時代鋪路

Glyph 的出現(xiàn)，實際上打開了大模型「長上下文」的新方向。它不再單純依賴算法結(jié)構(gòu)優(yōu)化，而是通過視覺層面的信息壓縮實現(xiàn)性能提升。

這種思路的潛力遠不止上下文擴展：

1?? 文檔級推理（Document Reasoning）在企業(yè)應(yīng)用中，大模型常需要分析長達數(shù)百頁的報告、專利或合同。 Glyph 的渲染機制讓模型直接“看”文檔頁，理解圖表、標(biāo)題、段落布局。這意味著多模態(tài)文檔AI的門檻大幅降低。

2?? RAG系統(tǒng)加速（Retrieval-Augmented Generation）傳統(tǒng)RAG要先檢索、再分塊、再拼接輸入，過程復(fù)雜且昂貴。若采用Glyph式壓縮，可讓模型一次“看下”更大語料，檢索模塊甚至可以被弱化或替代。

3?? 推理成本降低在模型服務(wù)中，推理速度和顯存成本是最關(guān)鍵的經(jīng)濟因素。 Glyph的4倍提速意味著同等算力下可服務(wù)更多用戶，這對于大規(guī)模API服務(wù)、企業(yè)私有部署、以及Agent系統(tǒng)尤為重要。

4?? 視覺-語言一體化趨勢Glyph 也預(yù)示了一個趨勢：語言模型正在成為真正的多模態(tài)智能體。從文本、語音、圖像到視頻，統(tǒng)一的表征空間正在形成，未來“輸入是什么格式”將不再重要，模型都能理解。

六、智譜AI的布局：從GLM到Glyph

對于智譜AI來說，Glyph 并不是一次“孤立實驗”。它實際上是繼 GLM系列 之后，智譜在“通用智能架構(gòu)”探索中的又一步。

GLM 強調(diào)語言能力的通用性，而 Glyph 則瞄準(zhǔn) 長記憶與高效推理 這兩大痛點。兩者結(jié)合，意味著智譜在構(gòu)建“可擴展智能體”方面的路線愈發(fā)清晰：

讓模型更懂語言（GLM）；
讓模型記得更多（Glyph）；
最終形成能自主規(guī)劃的多模態(tài)Agent生態(tài)。

在這一點上，Glyph 的意義甚至超越了壓縮技術(shù)本身—— 它為百萬級上下文、低延遲推理的 AI 未來，提供了一個實際可行的路徑。

七、總結(jié)與展望

Glyph 代表了一種顛覆性思路：不去“擴容”模型的注意力，而是重新定義輸入的表示方式。

通過視覺化壓縮，Glyph 將超長文本轉(zhuǎn)化為圖像，讓視覺語言模型在更高的信息密度下工作，從而在算力受限的前提下實現(xiàn)百萬級上下文的理解與生成。

這種跨模態(tài)的巧思，讓人看到了一種全新的可能：未來的大模型，也許不再是“記得多”就強，而是“壓得巧”更強。

想象一下，當(dāng)文檔、網(wǎng)頁、視頻字幕都能被渲染為模型可視的“知識圖頁”，那時，AI 讀世界的方式，可能真的會像人一樣，用“眼睛”去理解語義。

本文轉(zhuǎn)載自???Halo咯咯?? 作者：基咯咯

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

上下文瓶頸

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

長音頻理解功能獨一份，100萬上下文敞開用

Crystalcxt ? 4212瀏覽 ? 0回復(fù)
無限上下文處理，2萬億token碾壓Llama 2

duhorse ? 3885瀏覽 ? 0回復(fù)
LLM上下文窗口突破200萬！無需架構(gòu)變化+復(fù)雜微調(diào)，輕松擴展8倍

duhorse ? 4633瀏覽 ? 0回復(fù)
提升5.69倍，高效RAG上下文壓縮方法COCOM

Aceryt ? 3930瀏覽 ? 0回復(fù)
基于Agent的金融問答系統(tǒng)：RAG的檢索增強之上下文重排和壓縮

一起AI技術(shù) ? 3677瀏覽 ? 0回復(fù)
長上下文語言模型評估體系探析

Baihai_IDP ? 4424瀏覽 ? 0回復(fù)
Claude的MCP（模型上下文協(xié)議）簡介

Halo咯咯 ? 7106瀏覽 ? 0回復(fù)
smolagents：Hugging Face 開源的Agent框架，用代碼驅(qū)動 Agent 的新思路

Syrupup ? 6842瀏覽 ? 0回復(fù)
AI 編程必備：用 Cline 的四個命令實現(xiàn)無縫上下文管理

凝固的雨_1 ? 1.2w瀏覽 ? 0回復(fù)
微軟LongRoPE v2：幾乎無損的上下文擴展！

NLP前沿1 ? 3287瀏覽 ? 0回復(fù)
Llama 4 凌晨震撼發(fā)布：Meta開源最強MoE多模態(tài)模型，1000萬上下文碾壓行業(yè)！

AI博物院 ? 3432瀏覽 ? 0回復(fù)
剛剛，OpenAI發(fā)布GPT-4.1，性能暴漲、100萬上下文

Aceryt ? 2580瀏覽 ? 0回復(fù)
圖像、視頻、音頻多模態(tài)大模型中長上下文token壓縮方法綜述

大模型自然語言處理 ? 2624瀏覽 ? 0回復(fù)
大型語言模型的上下文工程（Context Engineering）綜述

chengganfei ? 4283瀏覽 ? 0回復(fù)
智譜AI開源GLM-4.5V：多模態(tài)推理能力全面升級，64K上下文解析長文檔

Halo咯咯 ? 4386瀏覽 ? 0回復(fù)
我是如何玩轉(zhuǎn)Claude100 萬 Token上下文的？（附代碼實戰(zhàn)）

51CTO技術(shù)棧 ? 1227瀏覽 ? 0回復(fù)
100萬Token上下文開啟AI新紀(jì)元, 開發(fā)者如何抓住長文本應(yīng)用新機遇

七牛云行業(yè)應(yīng)用 ? 1589瀏覽 ? 0回復(fù)
通過強化學(xué)習(xí)讓多模態(tài)大模型自主決策圖像token壓縮的新思路-VisionThink實現(xiàn)思路及獎勵函數(shù)設(shè)計

大模型自然語言處理 ? 2016瀏覽 ? 0回復(fù)
Glyph：文本轉(zhuǎn)圖片解決長上下文困境，智譜把“DeepSeek-OCR”具像化了

Syrupup ? 587瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

MiniMax M2：2300 億參數(shù)的“小巨人”，正改寫大模型競爭邏輯 2天前發(fā)布
Liquid AI 推出 LFM2-VL-3B：3B 參數(shù)多模態(tài)模型，讓視覺語言推理落地邊緣設(shè)備 2天前發(fā)布

熱門推薦

為什么它能成為強化學(xué)習(xí)的“黃金標(biāo)準(zhǔn)”？深扒 Proximal Policy Optimization (PPO) 的核心奧秘 0回復(fù)

微軟開源 VibeVoice-1.5B：90分鐘多角色語音合成，讓TTS進入“長音頻時代” 0回復(fù)

GPU vs TPU：誰才是2025年大模型訓(xùn)練的最優(yōu)解？最新性能榜單揭曉 0回復(fù)

不止能切文本：多向量檢索如何讓RAG搞定復(fù)雜PDF 0回復(fù)

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

上一篇： MiniMax M2：2300 億參數(shù)的“小巨人”，正改寫大模型競爭邏輯

社區(qū)精華內(nèi)容

目錄

<form id="fxkfi"></form>