阿里、南開(kāi)大學(xué)發(fā)布免訓(xùn)練，視頻大模型創(chuàng)新壓縮方法

2025-08-04 09:11:07

阿里巴巴通義實(shí)驗(yàn)室與南開(kāi)大學(xué)計(jì)算機(jī)科學(xué)學(xué)院聯(lián)合發(fā)布了創(chuàng)新壓縮方法LLaVA-Scissor。

視頻模型相比單圖像輸入需要對(duì)每一幀圖像單獨(dú)編碼，這種序列化處理方式會(huì)導(dǎo)致token數(shù)量成倍增長(zhǎng)，嚴(yán)重影響模型推理速度與擴(kuò)展性。

傳統(tǒng)的token壓縮方法主要依賴(lài)于基于注意力機(jī)制的篩選，例如FastV、VisionZip、PLLaVA等方法雖然在圖像領(lǐng)域取得了一定進(jìn)展，但在視頻理解中卻暴露出語(yǔ)義覆蓋不足，時(shí)序冗余無(wú)法處理等一系列問(wèn)題。

為了解決這些難題，阿里巴巴通義實(shí)驗(yàn)室與南開(kāi)大學(xué)計(jì)算機(jī)科學(xué)學(xué)院聯(lián)合發(fā)布了創(chuàng)新壓縮方法LLaVA-Scissor。

LLaVA-Scissor的核心在于SCC方法，這是一種基于圖論的算法，用于識(shí)別token集中的不同語(yǔ)義區(qū)域。SCC方法主要通過(guò)計(jì)算token之間的相似性，構(gòu)建一個(gè)基于相似性的圖，并識(shí)別出圖中的連通分量。這種方法不僅能夠捕捉全局語(yǔ)義關(guān)系，還能避免因位置鄰近性導(dǎo)致的局部偏見(jiàn)。

舉個(gè)例子，假設(shè)我們有一組token，每個(gè)token都代表視頻中的一個(gè)小片段。我們首先計(jì)算這些token之間的相似性，如果兩個(gè)token在語(yǔ)義上很相似，就認(rèn)為它們之間有一條連接線(xiàn)。通過(guò)這種方式，我們可以構(gòu)建一個(gè)圖，其中每個(gè)token是一個(gè)節(jié)點(diǎn)，相似的token之間有連接線(xiàn)。

接下來(lái)，我們需要找出這個(gè)圖中的“連通分量”。連通分量是指圖中相互連接的一組節(jié)點(diǎn)，這些節(jié)點(diǎn)之間可以通過(guò)連接線(xiàn)互相到達(dá)。例如，如果token A和token B相似，token B和token C相似，那么A、B和C就構(gòu)成了一個(gè)連通分量。我們?yōu)槊總€(gè)連通分量選擇一個(gè)代表性的token，這樣就可以用較少的token來(lái)代表整個(gè)視頻的內(nèi)容。

為了高效地計(jì)算連通分量，LLaVA-Scissor采用了一種近似方法。從所有token中隨機(jī)選擇一部分token作為樣本，然后計(jì)算這些樣本token與其他所有token之間的相似性。通過(guò)這種方式，我們可以快速識(shí)別出圖中的連通分量。

如果有些token沒(méi)有被包含在任何連通分量中，我們就將它們視為獨(dú)立的連通分量。然后，我們根據(jù)每個(gè)連通分量中token的重要性對(duì)它們進(jìn)行排序，以保留最重要的語(yǔ)義信息。

通過(guò)這種方式，SCC方法能夠?qū)oken集分割成不同的語(yǔ)義區(qū)域，每個(gè)區(qū)域由一個(gè)代表性的token表示，從而將原始的token集壓縮為更小的、更高效的表示。這種方法不僅能夠有效地減少token的數(shù)量，還能保留視頻內(nèi)容的關(guān)鍵語(yǔ)義信息。

LLaVA-Scissor的兩步時(shí)空壓縮策略進(jìn)一步優(yōu)化了視頻token的表示。這一策略分為兩個(gè)階段：空間壓縮和時(shí)間壓縮。

在空間壓縮階段，對(duì)于每個(gè)視頻幀，我們使用SCC方法識(shí)別出該幀中不同語(yǔ)義區(qū)域，并為每個(gè)區(qū)域選擇一個(gè)代表性的token。這些代表性的token能夠有效地表示每個(gè)視頻幀中的獨(dú)特語(yǔ)義信息。然后，我們將所有幀的代表性token連接起來(lái)，形成一個(gè)時(shí)間序列。

在時(shí)間壓縮階段，我們?cè)俅螒?yīng)用SCC方法，去除時(shí)間序列中跨幀的語(yǔ)義區(qū)域的時(shí)間冗余，并進(jìn)行進(jìn)一步的融合。具體來(lái)說(shuō)，我們識(shí)別時(shí)間序列中的連通分量，去除重復(fù)的語(yǔ)義信息，最終生成一組能夠有效表示整個(gè)視頻的非重疊語(yǔ)義token。

為了將壓縮后的token與原始token進(jìn)行融合，我們計(jì)算原始token和壓縮token之間的相似性，并為每個(gè)原始token找到最相似的壓縮token。然后，我們將每個(gè)原始token分配給最相似的壓縮token，并進(jìn)行平均融合，得到最終的壓縮token。

這種方法不僅能夠有效地減少token的數(shù)量，還能保留視頻內(nèi)容的關(guān)鍵語(yǔ)義信息，從而實(shí)現(xiàn)更高效的視頻表示。

為了驗(yàn)證LLaVA-Scissor的有效性，研究人員在多個(gè)視頻理解基準(zhǔn)測(cè)試中進(jìn)行了廣泛的實(shí)驗(yàn)，包括視頻問(wèn)答、長(zhǎng)視頻理解和多選基準(zhǔn)測(cè)試。實(shí)驗(yàn)結(jié)果表明，LLaVA-Scissor在各種視頻理解基準(zhǔn)測(cè)試中均優(yōu)于其他token壓縮方法，尤其是在低token保留率下，其性能優(yōu)勢(shì)更為明顯。

在視頻問(wèn)答基準(zhǔn)測(cè)試中，LLaVA-Scissor在50%的token保留率下，與原始模型的性能相當(dāng)，而在35%和10%的token保留率下，LLaVA-Scissor的性能顯著優(yōu)于其他方法。

例如，在A(yíng)ctivityNet-QA數(shù)據(jù)集上，LLaVA-Scissor在35%的token保留率下，準(zhǔn)確率達(dá)到了47.89%，而在10%的token保留率下，準(zhǔn)確率仍能達(dá)到47.75%。這表明LLaVA-Scissor在保留關(guān)鍵語(yǔ)義信息方面具有顯著的優(yōu)勢(shì)。

在長(zhǎng)視頻理解基準(zhǔn)測(cè)試中，LLaVA-Scissor同樣表現(xiàn)出色。在EgoSchema數(shù)據(jù)集上，LLaVA-Scissor在35%的token保留率下，準(zhǔn)確率達(dá)到了57.94%，而在10%的token保留率下，準(zhǔn)確率仍能達(dá)到57.52%。

這些結(jié)果表明，LLaVA-Scissor不僅能夠在高token保留率下保持良好的性能，還能在低token保留率下有效地保留關(guān)鍵語(yǔ)義信息，從而實(shí)現(xiàn)更高效的長(zhǎng)視頻處理。

責(zé)任編輯：張燕妮