偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

優(yōu)雅談大模型:DeepStack是什么? 原創(chuàng)

發(fā)布于 2025-10-21 00:11
瀏覽
0收藏

當(dāng)Qwen3-VL發(fā)布,一項名為DeepStack的技術(shù)浮出水面。今天就跟隨著小編一起來看看這項技術(shù)是否有過人之處。想象你在欣賞一幅畫作。你的視線會從畫布的紋理質(zhì)感,游移到人物的表情神態(tài),最后領(lǐng)會整幅畫的意境氛圍。這是一個自然而連貫的多層次認(rèn)知過程。然而,傳統(tǒng)的AI視覺模型卻像是望遠(yuǎn)鏡看畫——只能看清遠(yuǎn)處的整體輪廓,卻丟失了筆觸、色彩過渡等近處的細(xì)膩之處。DeepStack的出現(xiàn),正是嘗試彌補這一缺憾。

1.傳統(tǒng)視覺語言模型

在DeepStack誕生之前,主流的視覺語言模型如GPT-4V、LLaVA、Qwen-VL等都采用類似的架構(gòu):先用視覺編碼器提取圖像特征,再將這些特征輸入語言模型生成描述。

以LLaVA-1.5為例,這個開源模型使用CLIP的視覺編碼器處理圖像。CLIP本身是一個多層神經(jīng)網(wǎng)絡(luò),包含12到24層不等的Transformer層。每一層都在提取不同抽象程度的特征:早期層捕捉邊緣和紋理,中間層識別形狀和部件,最后幾層則形成高層語義概念。但LLaVA只使用了CLIP最后一層的輸出,就像讀書只看總結(jié),所有過程中的細(xì)節(jié)都被舍棄了。

當(dāng)讓模型描述一張包含小字的圖片時,它往往無法識別文字內(nèi)容;當(dāng)圖像中有細(xì)微的紋理差異時,模型容易混淆;要求模型精確定位"圖片左上角第三個按鈕"這類細(xì)節(jié)時,它常常無能為力。根源就在于:細(xì)節(jié)信息在視覺編碼器的早期層,而這些信息從未傳遞給語言模型。

類似的問題也出現(xiàn)在InternVL、MiniGPT-4等開源模型中。盡管它們在整體語義理解上表現(xiàn)出色,但在需要細(xì)粒度視覺信息的任務(wù)上,表現(xiàn)始終受限。

2.ViT的技術(shù)秘訣

要理解DeepStack的創(chuàng)新,需要先深入了解Vision Transformer(ViT)這個關(guān)鍵組件。ViT由Google在2020年提出,現(xiàn)在已成為視覺AI的基礎(chǔ)架構(gòu),被廣泛應(yīng)用于CLIP、DINO、DINOv2等知名開源模型中。

ViT的核心思想是將圖像處理問題轉(zhuǎn)化為序列處理問題。它首先把一張圖片(比如224×224像素)切割成固定大小的小塊(通常是16×16像素),這樣一張圖就被分解成196個小塊。每個小塊經(jīng)過線性變換后成為一個"token",就像文本中的一個詞。然后,這196個token被送入多層Transformer進(jìn)行處理。ViT的魔力在于它的層級處理機制。以DINOv2為例,這個Meta開源的自監(jiān)督視覺模型包含24層Transformer。

研究表明,不同層關(guān)注的內(nèi)容截然不同:

  • 淺層(第1-6層)專注于低級視覺特征。在這些層中,模型學(xué)習(xí)識別邊緣方向、顏色對比、簡單紋理。如果你可視化這些層的激活圖,會看到類似邊緣檢測器的效果。這些特征是視覺理解的基石。
  • 中層(第7-16層)開始組合這些低級特征,形成更復(fù)雜的模式。這里能識別出物體的部件——車輪、窗戶、樹枝、眼睛。這些層開始理解形狀和空間關(guān)系,但還沒有達(dá)到"物體"級別的抽象。
  • 深層(第17-24層)進(jìn)行高層語義抽象。在這里,分散的部件被整合成完整的概念——"汽車"、"樹木"、"人臉"。這些層的輸出已經(jīng)非常抽象,包含的是物體類別、場景類型等語義信息,但代價是丟失了大量的細(xì)節(jié)信息。

這種層級結(jié)構(gòu)不是設(shè)計出來的,而是通過訓(xùn)練自然涌現(xiàn)的。無論是有監(jiān)督訓(xùn)練的ViT,還是自監(jiān)督訓(xùn)練的DINO,都表現(xiàn)出這種從具體到抽象的漸進(jìn)特性。這恰恰反映了視覺認(rèn)知的本質(zhì):理解圖像需要在多個抽象層次上同時工作。

3.LLM的技術(shù)秘訣

如果說ViT是分層理解圖像,那么大型語言模型(LLM)同樣是分層理解文本的。這一點常被忽視,但對理解DeepStack至關(guān)重要。

以Llama-3為例,這個Meta開源的語言模型有32層Transformer。每一層都在不同的抽象級別上處理語言信息,就像ViT處理視覺信息一樣。

  • 淺層(第1-8層)處理基礎(chǔ)語言現(xiàn)象。這些層負(fù)責(zé)識別詞性、理解詞形變化、掌握基本語法規(guī)則。如果輸入"cats",淺層會識別這是"cat"的復(fù)數(shù)形式;如果輸入"running",會理解這是"run"的現(xiàn)在分詞。這些層就像語言的"邊緣檢測器",處理最基礎(chǔ)的語言構(gòu)件。
  • 中層(第9-16層)開始理解句法結(jié)構(gòu)和局部語義。這里能分析出主謂賓結(jié)構(gòu)、識別短語邊界、理解簡單的指代關(guān)系。如果輸入"The cat that sat on the mat was gray",中層能理解"that sat on the mat"是修飾"cat"的定語從句,"gray"是描述貓的顏色。
  • 中深層(第17-24層)進(jìn)行語義理解和推理。這些層調(diào)用世界知識,進(jìn)行常識推理,理解隱含信息。如果輸入"雖然下雨了,他還是去了公園",這些層能推斷出:下雨通常讓人不想出門,"雖然...還是"表示意志堅定,他可能有重要的理由去公園。
  • 深層(第25-32層)負(fù)責(zé)全局理解和生成決策。這些層把握整體意圖、判斷文本風(fēng)格、規(guī)劃生成策略。它們決定著模型如何回應(yīng)用戶,應(yīng)該生成什么樣的內(nèi)容。

這種層級劃分已經(jīng)被大量的"探針實驗"(probing experiments)證實。研究者們會凍結(jié)模型的某一層,然后測試它在特定任務(wù)上的表現(xiàn)。結(jié)果顯示:語法任務(wù)在淺層表現(xiàn)最好,語義任務(wù)在中層表現(xiàn)最好,推理任務(wù)在深層表現(xiàn)最好。

像Mistral、Qwen、Gemma這些開源語言模型,盡管架構(gòu)細(xì)節(jié)不同,但都展現(xiàn)出類似的層級特性。這不是偶然,而是語言理解本身的層次性在神經(jīng)網(wǎng)絡(luò)中的體現(xiàn)。

4.DeepStack的核心思想

DeepStack的核心思想可以用一句話概括:讓視覺編碼器的每一層,與語言模型的對應(yīng)層進(jìn)行對話。傳統(tǒng)方法只用ViT的最后一層輸出,相當(dāng)于只把"貓"這個抽象概念告訴語言模型。DeepStack則從ViT的多個層提取特征,分別注入到語言模型的不同層。這就像給語言模型提供了一份"多層次的視覺報告":

  • ViT淺層的特征(邊緣、紋理)注入到LLM淺層
  • ViT中層的特征(形狀、部件)注入到LLM中層
  • ViT深層的特征(語義、概念)注入到LLM深層

優(yōu)雅談大模型:DeepStack是什么?-AI.x社區(qū)

為什么這樣做有效?因為它遵循了一個優(yōu)雅的原則:層級對齊。

當(dāng)LLM的淺層在處理基礎(chǔ)語法時,它同時接收到ViT淺層的視覺細(xì)節(jié)。這些細(xì)節(jié)信息(邊緣、紋理、小字符)對應(yīng)著語言中的"詞"和"字"級別的理解。比如識別圖片中的文字,就需要這種細(xì)粒度的視覺信息與字符級的語言理解配合。

當(dāng)LLM的中層在分析句子結(jié)構(gòu)時,它接收到ViT中層的物體部件信息。這些中等抽象的視覺特征(輪廓、形狀)對應(yīng)著語言中的"短語"和"句子成分"。比如描述"左上角的紅色按鈕",需要空間關(guān)系、顏色、形狀等中層特征支撐。

當(dāng)LLM的深層在進(jìn)行語義理解時,它接收到ViT深層的高層概念。這些抽象的語義信息(物體類別、場景類型)對應(yīng)著語言中的"主題"和"意圖"。比如判斷"這是一張自然風(fēng)景照",需要的是整體性的語義理解。

這種對齊不是簡單的拼接,而是通過殘差連接(residual connection)實現(xiàn)的深度融合。具體來說,在LLM的第k層,模型不僅處理來自前一層的文本信息,還會接收來自ViT對應(yīng)層的視覺token。這些視覺token通過加法運算融入LLM的隱藏狀態(tài),參與后續(xù)的計算。

在前向傳播過程中,當(dāng)圖像進(jìn)入ViT時,模型會在預(yù)設(shè)的檢查點層保存輸出。這些輸出都是形狀為(196, embed_dim)的張量。其中196是圖像patch的數(shù)量,embed_dim是特征維度(通常是768或1024)

這些保存的特征會在LLM的對應(yīng)層被調(diào)用,融合方式如下:

LLM第k層的輸出 = LLM第k層處理文本的結(jié)果 + ViT對應(yīng)層的視覺token

這個加法操作看似簡單,實則蘊含深意。它通過殘差連接的方式,讓視覺信息能夠"插入"到語言模型的信息流中,而不是生硬地拼接在輸入端。

5.DeepStack的技術(shù)實現(xiàn)

DeepStack的實現(xiàn)比許多人想象的要簡單,最核心的問題是:如何決定ViT的哪一層對應(yīng)LLM的哪一層?答案是等間距映射。

假設(shè)ViT有24層,LLM有32層,想從ViT中采樣4個檢查點層。那么:

從ViT中選擇第6、12、18、24層,分別映射到LLM的第8、16、24、32層

映射規(guī)則很簡單:LLM層索引 = (LLM總層數(shù) / 采樣層數(shù)) × 采樣序號

這種均勻分布的策略確保了各個抽象層次的信息都被覆蓋,不需要復(fù)雜的學(xué)習(xí)算法來決定映射關(guān)系。在Qwen3-VL的實現(xiàn)中,這個映射是固定的,模型訓(xùn)練過程會自動學(xué)習(xí)如何最好地利用這些多層特征。

DeepStack的訓(xùn)練是端到端的。整個模型(ViT + 投影層 + LLM)一起訓(xùn)練,損失函數(shù)是標(biāo)準(zhǔn)的語言建模損失——預(yù)測下一個token。關(guān)鍵在于,反向傳播的梯度會流經(jīng)所有注入點,這意味著:ViT的每一層都會收到來自LLM多個層的梯度信號。

DeepStack的理論優(yōu)雅性最終要體現(xiàn)在實際效果上。在多個開源基準(zhǔn)測試上,采用DeepStack的Qwen3-VL展現(xiàn)出明顯的優(yōu)勢。

在OCR(光學(xué)字符識別)任務(wù)上,DeepStack的優(yōu)勢尤為明顯。傳統(tǒng)的視覺語言模型在識別圖片中的小字、模糊文字或藝術(shù)字體時常常失敗,因為這些信息在ViT的深層早已被抽象掉了。而DeepStack通過淺層特征注入,讓模型能夠訪問原始的紋理和邊緣信息,大幅提升了文字識別的準(zhǔn)確率。

在TextVQA數(shù)據(jù)集上,Qwen3-VL的表現(xiàn)超越了同等規(guī)模的LLaVA和InternVL模型。更重要的是,這種提升不需要專門的OCR模塊,完全是通過更好的視覺-語言對齊實現(xiàn)的。

優(yōu)雅談大模型:DeepStack是什么?-AI.x社區(qū)

"描述圖片左上角的物體"——這類涉及空間關(guān)系的任務(wù)對視覺語言模型是個挑戰(zhàn)??臻g信息在ViT的中層表示得最清晰,而傳統(tǒng)方法忽略了這些中層特征。DeepStack通過中層特征注入,讓模型能夠更準(zhǔn)確地理解和描述空間位置。在RefCOCO系列數(shù)據(jù)集上(專門測試指代表達(dá)理解的基準(zhǔn)),DeepStack架構(gòu)展現(xiàn)出更強的定位能力。模型不僅能識別"紅色的杯子",還能理解"左邊那個紅色的杯子"這種包含空間關(guān)系的復(fù)雜指代。

DeepStack的優(yōu)勢在視頻理解任務(wù)上更加突出。視頻本質(zhì)上是時空序列,既需要理解每一幀的細(xì)節(jié),又需要把握整體的敘事。多層特征注入讓模型能夠同時處理這兩個層次:淺層特征幫助追蹤快速的運動細(xì)節(jié),深層特征理解長期的動作意圖。

結(jié)合Qwen3-VL的另外兩項技術(shù)——Interleaved-MRoPE(多維旋轉(zhuǎn)位置編碼)和Text-Timestamp Alignment(文本-時間戳對齊),DeepStack使模型能夠精確定位"視頻第23秒出現(xiàn)的物體",或者回答"紅衣服的人在第幾秒離開畫面"這類細(xì)粒度問題。

即便在不特別需要細(xì)節(jié)信息的任務(wù)上,DeepStack也帶來了整體性能提升。原因在于,多層特征提供了更豐富的信息,讓語言模型有更多的"線索"來理解圖像。這就像給盲人描述一幅畫,提供的細(xì)節(jié)越多,他腦海中的畫面就越清晰。

6.其他類似的技術(shù)

DeepStack并不是唯一嘗試改進(jìn)視覺-語言對齊的技術(shù),BLIP-2是Salesforce開源的經(jīng)典視覺語言模型,它使用一個名為Q-Former的額外模塊來處理視覺特征。Q-Former接收ViT的最后一層輸出,通過可學(xué)習(xí)的查詢向量(query vectors)提取最有用的信息,然后輸入到LLM。

這個設(shè)計的優(yōu)點是靈活性——Q-Former可以學(xué)習(xí)提取任意類型的信息。但缺點也明顯:它仍然只使用ViT的最后一層,細(xì)節(jié)信息已經(jīng)丟失;額外的模塊增加了模型復(fù)雜度和訓(xùn)練難度。

DeepMind的Flamingo采用了交叉注意力(cross-attention)機制,讓LLM的每一層都可以"查詢"視覺特征。這是一個強大的機制,允許靈活的視覺-語言交互。但交叉注意力的計算成本很高,因為每個LLM層都要與所有視覺token進(jìn)行注意力計算。這在處理高分辨率圖像或長視頻時成為瓶頸。、

LLaVA系列模型采用最簡單的方法:用一個線性層或淺層MLP將ViT的最后一層輸出投影到LLM的輸入空間。這種方法簡單高效,也是為什么LLaVA能夠快速迭代的原因。LLaVA-1.5、LLaVA-NeXT等模型在細(xì)節(jié)理解任務(wù)上的表現(xiàn)始終不如采用更復(fù)雜對齊機制的模型。它們通過增大ViT規(guī)模、提高圖像分辨率來彌補,但這只能部分緩解問題。

盡管DeepStack是一項重要創(chuàng)新,但它也有自己的局限。首先是計算成本。從ViT的多個層提取特征并保存,確實增加了內(nèi)存使用和計算量。雖然這個增加相對可控(只在前向傳播時多保存幾組張量),但在處理超高分辨率圖像或超長視頻時,累積效應(yīng)不容忽視。

其次是映射策略的簡單性。當(dāng)前的等間距映射雖然優(yōu)雅,但可能不是最優(yōu)的。不同的任務(wù)可能需要不同的層級對齊策略——OCR任務(wù)可能更需要淺層特征,而場景理解任務(wù)可能更依賴深層特征。固定的映射策略無法動態(tài)適應(yīng)。

再者是可解釋性的挑戰(zhàn)。雖然理論上知道各層在做什么,但很難精確驗證每個注入點的具體作用。模型的黑盒特性在DeepStack中進(jìn)一步加深。

后續(xù)還有很多有趣的研究方向,例如自適應(yīng)層選擇可能是一個有前景的方向。與其固定采樣ViT的哪些層,可以讓模型根據(jù)輸入動態(tài)決定。比如,對于包含小字的圖像,自動增強淺層特征的權(quán)重;對于需要整體理解的場景圖像,提升深層特征的權(quán)重?;蛘邔蛹墮?quán)重學(xué)習(xí)也值得探索。目前所有注入層的貢獻(xiàn)是平等的,但實際上某些層的特征可能更重要??梢砸肟蓪W(xué)習(xí)的權(quán)重參數(shù),讓模型自動調(diào)整各層的相對重要性。

DeepStack更多的代表了一種思考方式的轉(zhuǎn)變。在大模型時代,不應(yīng)滿足于"能用"的方案,而要追問:模型真的"理解"了嗎?如果沒有,瓶頸在哪里?DeepStack對這些問題給出了自己的答案,也為后來者指明了方向。

本文轉(zhuǎn)載自??魯班模錘??,作者:祝融

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-10-21 00:12:45修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦