偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

優(yōu)雅談大模型：DeepStack是什么？原創(chuàng)

發(fā)布于 2025-10-21 00:11

瀏覽

0收藏

當(dāng)Qwen3-VL發(fā)布，一項名為DeepStack的技術(shù)浮出水面。今天就跟隨著小編一起來看看這項技術(shù)是否有過人之處。想象你在欣賞一幅畫作。你的視線會從畫布的紋理質(zhì)感，游移到人物的表情神態(tài)，最后領(lǐng)會整幅畫的意境氛圍。這是一個自然而連貫的多層次認(rèn)知過程。然而，傳統(tǒng)的AI視覺模型卻像是望遠(yuǎn)鏡看畫——只能看清遠(yuǎn)處的整體輪廓，卻丟失了筆觸、色彩過渡等近處的細(xì)膩之處。DeepStack的出現(xiàn)，正是嘗試彌補這一缺憾。

1.傳統(tǒng)視覺語言模型

在DeepStack誕生之前，主流的視覺語言模型如GPT-4V、LLaVA、Qwen-VL等都采用類似的架構(gòu)：先用視覺編碼器提取圖像特征，再將這些特征輸入語言模型生成描述。

以LLaVA-1.5為例，這個開源模型使用CLIP的視覺編碼器處理圖像。CLIP本身是一個多層神經(jīng)網(wǎng)絡(luò)，包含12到24層不等的Transformer層。每一層都在提取不同抽象程度的特征：早期層捕捉邊緣和紋理，中間層識別形狀和部件，最后幾層則形成高層語義概念。但LLaVA只使用了CLIP最后一層的輸出，就像讀書只看總結(jié)，所有過程中的細(xì)節(jié)都被舍棄了。

當(dāng)讓模型描述一張包含小字的圖片時，它往往無法識別文字內(nèi)容；當(dāng)圖像中有細(xì)微的紋理差異時，模型容易混淆；要求模型精確定位"圖片左上角第三個按鈕"這類細(xì)節(jié)時，它常常無能為力。根源就在于：細(xì)節(jié)信息在視覺編碼器的早期層，而這些信息從未傳遞給語言模型。

類似的問題也出現(xiàn)在InternVL、MiniGPT-4等開源模型中。盡管它們在整體語義理解上表現(xiàn)出色，但在需要細(xì)粒度視覺信息的任務(wù)上，表現(xiàn)始終受限。

2.ViT的技術(shù)秘訣

要理解DeepStack的創(chuàng)新，需要先深入了解Vision Transformer（ViT）這個關(guān)鍵組件。ViT由Google在2020年提出，現(xiàn)在已成為視覺AI的基礎(chǔ)架構(gòu)，被廣泛應(yīng)用于CLIP、DINO、DINOv2等知名開源模型中。

ViT的核心思想是將圖像處理問題轉(zhuǎn)化為序列處理問題。它首先把一張圖片（比如224×224像素）切割成固定大小的小塊（通常是16×16像素），這樣一張圖就被分解成196個小塊。每個小塊經(jīng)過線性變換后成為一個"token"，就像文本中的一個詞。然后，這196個token被送入多層Transformer進(jìn)行處理。ViT的魔力在于它的層級處理機制。以DINOv2為例，這個Meta開源的自監(jiān)督視覺模型包含24層Transformer。

研究表明，不同層關(guān)注的內(nèi)容截然不同：

淺層（第1-6層）專注于低級視覺特征。在這些層中，模型學(xué)習(xí)識別邊緣方向、顏色對比、簡單紋理。如果你可視化這些層的激活圖，會看到類似邊緣檢測器的效果。這些特征是視覺理解的基石。
中層（第7-16層）開始組合這些低級特征，形成更復(fù)雜的模式。這里能識別出物體的部件——車輪、窗戶、樹枝、眼睛。這些層開始理解形狀和空間關(guān)系，但還沒有達(dá)到"物體"級別的抽象。
深層（第17-24層）進(jìn)行高層語義抽象。在這里，分散的部件被整合成完整的概念——"汽車"、"樹木"、"人臉"。這些層的輸出已經(jīng)非常抽象，包含的是物體類別、場景類型等語義信息，但代價是丟失了大量的細(xì)節(jié)信息。

這種層級結(jié)構(gòu)不是設(shè)計出來的，而是通過訓(xùn)練自然涌現(xiàn)的。無論是有監(jiān)督訓(xùn)練的ViT，還是自監(jiān)督訓(xùn)練的DINO，都表現(xiàn)出這種從具體到抽象的漸進(jìn)特性。這恰恰反映了視覺認(rèn)知的本質(zhì)：理解圖像需要在多個抽象層次上同時工作。

3.LLM的技術(shù)秘訣

如果說ViT是分層理解圖像，那么大型語言模型（LLM）同樣是分層理解文本的。這一點常被忽視，但對理解DeepStack至關(guān)重要。

以Llama-3為例，這個Meta開源的語言模型有32層Transformer。每一層都在不同的抽象級別上處理語言信息，就像ViT處理視覺信息一樣。

淺層（第1-8層）處理基礎(chǔ)語言現(xiàn)象。這些層負(fù)責(zé)識別詞性、理解詞形變化、掌握基本語法規(guī)則。如果輸入"cats"，淺層會識別這是"cat"的復(fù)數(shù)形式；如果輸入"running"，會理解這是"run"的現(xiàn)在分詞。這些層就像語言的"邊緣檢測器"，處理最基礎(chǔ)的語言構(gòu)件。
中層（第9-16層）開始理解句法結(jié)構(gòu)和局部語義。這里能分析出主謂賓結(jié)構(gòu)、識別短語邊界、理解簡單的指代關(guān)系。如果輸入"The cat that sat on the mat was gray"，中層能理解"that sat on the mat"是修飾"cat"的定語從句，"gray"是描述貓的顏色。
中深層（第17-24層）進(jìn)行語義理解和推理。這些層調(diào)用世界知識，進(jìn)行常識推理，理解隱含信息。如果輸入"雖然下雨了，他還是去了公園"，這些層能推斷出：下雨通常讓人不想出門，"雖然...還是"表示意志堅定，他可能有重要的理由去公園。
深層（第25-32層）負(fù)責(zé)全局理解和生成決策。這些層把握整體意圖、判斷文本風(fēng)格、規(guī)劃生成策略。它們決定著模型如何回應(yīng)用戶，應(yīng)該生成什么樣的內(nèi)容。

這種層級劃分已經(jīng)被大量的"探針實驗"（probing experiments）證實。研究者們會凍結(jié)模型的某一層，然后測試它在特定任務(wù)上的表現(xiàn)。結(jié)果顯示：語法任務(wù)在淺層表現(xiàn)最好，語義任務(wù)在中層表現(xiàn)最好，推理任務(wù)在深層表現(xiàn)最好。

像Mistral、Qwen、Gemma這些開源語言模型，盡管架構(gòu)細(xì)節(jié)不同，但都展現(xiàn)出類似的層級特性。這不是偶然，而是語言理解本身的層次性在神經(jīng)網(wǎng)絡(luò)中的體現(xiàn)。

4.DeepStack的核心思想

DeepStack的核心思想可以用一句話概括：讓視覺編碼器的每一層，與語言模型的對應(yīng)層進(jìn)行對話。傳統(tǒng)方法只用ViT的最后一層輸出，相當(dāng)于只把"貓"這個抽象概念告訴語言模型。DeepStack則從ViT的多個層提取特征，分別注入到語言模型的不同層。這就像給語言模型提供了一份"多層次的視覺報告"：

ViT淺層的特征（邊緣、紋理）注入到LLM淺層
ViT中層的特征（形狀、部件）注入到LLM中層
ViT深層的特征（語義、概念）注入到LLM深層

優(yōu)雅談大模型：DeepStack是什么？-AI.x社區(qū)

為什么這樣做有效？因為它遵循了一個優(yōu)雅的原則：層級對齊。

當(dāng)LLM的淺層在處理基礎(chǔ)語法時，它同時接收到ViT淺層的視覺細(xì)節(jié)。這些細(xì)節(jié)信息（邊緣、紋理、小字符）對應(yīng)著語言中的"詞"和"字"級別的理解。比如識別圖片中的文字，就需要這種細(xì)粒度的視覺信息與字符級的語言理解配合。

當(dāng)LLM的中層在分析句子結(jié)構(gòu)時，它接收到ViT中層的物體部件信息。這些中等抽象的視覺特征（輪廓、形狀）對應(yīng)著語言中的"短語"和"句子成分"。比如描述"左上角的紅色按鈕"，需要空間關(guān)系、顏色、形狀等中層特征支撐。

當(dāng)LLM的深層在進(jìn)行語義理解時，它接收到ViT深層的高層概念。這些抽象的語義信息（物體類別、場景類型）對應(yīng)著語言中的"主題"和"意圖"。比如判斷"這是一張自然風(fēng)景照"，需要的是整體性的語義理解。

這種對齊不是簡單的拼接，而是通過殘差連接（residual connection）實現(xiàn)的深度融合。具體來說，在LLM的第k層，模型不僅處理來自前一層的文本信息，還會接收來自ViT對應(yīng)層的視覺token。這些視覺token通過加法運算融入LLM的隱藏狀態(tài)，參與后續(xù)的計算。

在前向傳播過程中，當(dāng)圖像進(jìn)入ViT時，模型會在預(yù)設(shè)的檢查點層保存輸出。這些輸出都是形狀為(196, embed_dim)的張量。其中196是圖像patch的數(shù)量，embed_dim是特征維度（通常是768或1024）

這些保存的特征會在LLM的對應(yīng)層被調(diào)用，融合方式如下：

LLM第k層的輸出 = LLM第k層處理文本的結(jié)果 + ViT對應(yīng)層的視覺token

這個加法操作看似簡單，實則蘊含深意。它通過殘差連接的方式，讓視覺信息能夠"插入"到語言模型的信息流中，而不是生硬地拼接在輸入端。

5.DeepStack的技術(shù)實現(xiàn)

DeepStack的實現(xiàn)比許多人想象的要簡單，最核心的問題是：如何決定ViT的哪一層對應(yīng)LLM的哪一層？答案是等間距映射。

假設(shè)ViT有24層，LLM有32層，想從ViT中采樣4個檢查點層。那么：

從ViT中選擇第6、12、18、24層，分別映射到LLM的第8、16、24、32層

映射規(guī)則很簡單：LLM層索引 = (LLM總層數(shù) / 采樣層數(shù)) × 采樣序號

這種均勻分布的策略確保了各個抽象層次的信息都被覆蓋，不需要復(fù)雜的學(xué)習(xí)算法來決定映射關(guān)系。在Qwen3-VL的實現(xiàn)中，這個映射是固定的，模型訓(xùn)練過程會自動學(xué)習(xí)如何最好地利用這些多層特征。

DeepStack的訓(xùn)練是端到端的。整個模型（ViT + 投影層 + LLM）一起訓(xùn)練，損失函數(shù)是標(biāo)準(zhǔn)的語言建模損失——預(yù)測下一個token。關(guān)鍵在于，反向傳播的梯度會流經(jīng)所有注入點，這意味著：ViT的每一層都會收到來自LLM多個層的梯度信號。

DeepStack的理論優(yōu)雅性最終要體現(xiàn)在實際效果上。在多個開源基準(zhǔn)測試上，采用DeepStack的Qwen3-VL展現(xiàn)出明顯的優(yōu)勢。

在OCR（光學(xué)字符識別）任務(wù)上，DeepStack的優(yōu)勢尤為明顯。傳統(tǒng)的視覺語言模型在識別圖片中的小字、模糊文字或藝術(shù)字體時常常失敗，因為這些信息在ViT的深層早已被抽象掉了。而DeepStack通過淺層特征注入，讓模型能夠訪問原始的紋理和邊緣信息，大幅提升了文字識別的準(zhǔn)確率。

在TextVQA數(shù)據(jù)集上，Qwen3-VL的表現(xiàn)超越了同等規(guī)模的LLaVA和InternVL模型。更重要的是，這種提升不需要專門的OCR模塊，完全是通過更好的視覺-語言對齊實現(xiàn)的。

優(yōu)雅談大模型：DeepStack是什么？-AI.x社區(qū)

"描述圖片左上角的物體"——這類涉及空間關(guān)系的任務(wù)對視覺語言模型是個挑戰(zhàn)?？臻g信息在ViT的中層表示得最清晰，而傳統(tǒng)方法忽略了這些中層特征。DeepStack通過中層特征注入，讓模型能夠更準(zhǔn)確地理解和描述空間位置。在RefCOCO系列數(shù)據(jù)集上（專門測試指代表達(dá)理解的基準(zhǔn)），DeepStack架構(gòu)展現(xiàn)出更強的定位能力。模型不僅能識別"紅色的杯子"，還能理解"左邊那個紅色的杯子"這種包含空間關(guān)系的復(fù)雜指代。

DeepStack的優(yōu)勢在視頻理解任務(wù)上更加突出。視頻本質(zhì)上是時空序列，既需要理解每一幀的細(xì)節(jié)，又需要把握整體的敘事。多層特征注入讓模型能夠同時處理這兩個層次：淺層特征幫助追蹤快速的運動細(xì)節(jié)，深層特征理解長期的動作意圖。

結(jié)合Qwen3-VL的另外兩項技術(shù)——Interleaved-MRoPE（多維旋轉(zhuǎn)位置編碼）和Text-Timestamp Alignment（文本-時間戳對齊），DeepStack使模型能夠精確定位"視頻第23秒出現(xiàn)的物體"，或者回答"紅衣服的人在第幾秒離開畫面"這類細(xì)粒度問題。

即便在不特別需要細(xì)節(jié)信息的任務(wù)上，DeepStack也帶來了整體性能提升。原因在于，多層特征提供了更豐富的信息，讓語言模型有更多的"線索"來理解圖像。這就像給盲人描述一幅畫，提供的細(xì)節(jié)越多，他腦海中的畫面就越清晰。

6.其他類似的技術(shù)

DeepStack并不是唯一嘗試改進(jìn)視覺-語言對齊的技術(shù)，BLIP-2是Salesforce開源的經(jīng)典視覺語言模型，它使用一個名為Q-Former的額外模塊來處理視覺特征。Q-Former接收ViT的最后一層輸出，通過可學(xué)習(xí)的查詢向量（query vectors）提取最有用的信息，然后輸入到LLM。

這個設(shè)計的優(yōu)點是靈活性——Q-Former可以學(xué)習(xí)提取任意類型的信息。但缺點也明顯：它仍然只使用ViT的最后一層，細(xì)節(jié)信息已經(jīng)丟失；額外的模塊增加了模型復(fù)雜度和訓(xùn)練難度。

DeepMind的Flamingo采用了交叉注意力（cross-attention）機制，讓LLM的每一層都可以"查詢"視覺特征。這是一個強大的機制，允許靈活的視覺-語言交互。但交叉注意力的計算成本很高，因為每個LLM層都要與所有視覺token進(jìn)行注意力計算。這在處理高分辨率圖像或長視頻時成為瓶頸。、

LLaVA系列模型采用最簡單的方法：用一個線性層或淺層MLP將ViT的最后一層輸出投影到LLM的輸入空間。這種方法簡單高效，也是為什么LLaVA能夠快速迭代的原因。LLaVA-1.5、LLaVA-NeXT等模型在細(xì)節(jié)理解任務(wù)上的表現(xiàn)始終不如采用更復(fù)雜對齊機制的模型。它們通過增大ViT規(guī)模、提高圖像分辨率來彌補，但這只能部分緩解問題。

盡管DeepStack是一項重要創(chuàng)新，但它也有自己的局限。首先是計算成本。從ViT的多個層提取特征并保存，確實增加了內(nèi)存使用和計算量。雖然這個增加相對可控（只在前向傳播時多保存幾組張量），但在處理超高分辨率圖像或超長視頻時，累積效應(yīng)不容忽視。

其次是映射策略的簡單性。當(dāng)前的等間距映射雖然優(yōu)雅，但可能不是最優(yōu)的。不同的任務(wù)可能需要不同的層級對齊策略——OCR任務(wù)可能更需要淺層特征，而場景理解任務(wù)可能更依賴深層特征。固定的映射策略無法動態(tài)適應(yīng)。

再者是可解釋性的挑戰(zhàn)。雖然理論上知道各層在做什么,但很難精確驗證每個注入點的具體作用。模型的黑盒特性在DeepStack中進(jìn)一步加深。

后續(xù)還有很多有趣的研究方向，例如自適應(yīng)層選擇可能是一個有前景的方向。與其固定采樣ViT的哪些層，可以讓模型根據(jù)輸入動態(tài)決定。比如，對于包含小字的圖像，自動增強淺層特征的權(quán)重；對于需要整體理解的場景圖像，提升深層特征的權(quán)重?；蛘邔蛹墮?quán)重學(xué)習(xí)也值得探索。目前所有注入層的貢獻(xiàn)是平等的，但實際上某些層的特征可能更重要?？梢砸肟蓪W(xué)習(xí)的權(quán)重參數(shù)，讓模型自動調(diào)整各層的相對重要性。

DeepStack更多的代表了一種思考方式的轉(zhuǎn)變。在大模型時代，不應(yīng)滿足于"能用"的方案，而要追問：模型真的"理解"了嗎？如果沒有，瓶頸在哪里？DeepStack對這些問題給出了自己的答案，也為后來者指明了方向。

本文轉(zhuǎn)載自??魯班模錘??，作者：祝融

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2025-10-21 00:12:45修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系

AI探索時代 ? 6473瀏覽 ? 0回復(fù)
大模型所謂的參數(shù)是什么？大模型為什么需要訓(xùn)練？大模型訓(xùn)練到底干了什么？

AI探索時代 ? 8854瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：揭開計算機視覺任務(wù)神秘面紗

魯班模錘1 ? 4226瀏覽 ? 0回復(fù)
你知道什么是微調(diào)嗎？大模型為什么要微調(diào)？以及大模型微調(diào)的原理是什么？

AI探索時代 ? 8882瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：“System2”與“System 1”

魯班模錘1 ? 6489瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：Python編程篇

魯班模錘1 ? 3871瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：LangChain Vs. LlamaIndex

魯班模錘1 ? 4504瀏覽 ? 0回復(fù)
什么是端到端(end to end)大模型，它和傳統(tǒng)的大模型有什么區(qū)別？其優(yōu)勢與劣勢是什么？

AI探索時代 ? 6017瀏覽 ? 0回復(fù)
爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系

AI探索時代 ? 4630瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：白話ZeRO 上

魯班模錘1 ? 3644瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：一文讀懂LoRA/DoRA/MoRA

魯班模錘1 ? 5792瀏覽 ? 0回復(fù)
大模型訓(xùn)練的本質(zhì)是什么？以及大模型訓(xùn)練的核心要點

AI探索時代 ? 4273瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：神經(jīng)網(wǎng)絡(luò)與矩陣

魯班模錘1 ? 3650瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：Token與分詞方法

魯班模錘1 ? 4704瀏覽 ? 0回復(fù)
大模型之嵌入與向量化的區(qū)別是什么？

AI探索時代 ? 3598瀏覽 ? 0回復(fù)
大模型面經(jīng)：目前不同階段的scaling law之間的區(qū)別和聯(lián)系是什么？

shizhi02 ? 4722瀏覽 ? 0回復(fù)
【人人都會做智能體】Agent是什么,簡單中等復(fù)雜商用的智能體又是什么?

九歌AI大模型 ? 2990瀏覽 ? 0回復(fù)
OpenAI談：大模型為什么會有幻覺？如何避免？

探索AGI ? 1338瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：一路走來的AI智能體

魯班模錘1 ? 490瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

優(yōu)雅談大模型：一路走來的AI智能體 2025-10-21 00:27:25發(fā)布
OpenTSLM：突破AI的時序盲區(qū) 2025-10-21 00:18:51發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇： Meta CWM：代碼世界模型的技術(shù)突破

下一篇： OpenTSLM：突破AI的時序盲區(qū)

社區(qū)精華內(nèi)容

目錄

<nobr id="yj7zj"></nobr>

<button id="yj7zj"></button>