阿里、南開(kāi)大學(xué)發(fā)布免訓(xùn)練,視頻大模型創(chuàng)新壓縮方法
視頻模型相比單圖像輸入需要對(duì)每一幀圖像單獨(dú)編碼,這種序列化處理方式會(huì)導(dǎo)致token數(shù)量成倍增長(zhǎng),嚴(yán)重影響模型推理速度與擴(kuò)展性。
傳統(tǒng)的token壓縮方法主要依賴(lài)于基于注意力機(jī)制的篩選,例如FastV、VisionZip、PLLaVA等方法雖然在圖像領(lǐng)域取得了一定進(jìn)展,但在視頻理解中卻暴露出語(yǔ)義覆蓋不足,時(shí)序冗余無(wú)法處理等一系列問(wèn)題。
為了解決這些難題,阿里巴巴通義實(shí)驗(yàn)室與南開(kāi)大學(xué)計(jì)算機(jī)科學(xué)學(xué)院聯(lián)合發(fā)布了創(chuàng)新壓縮方法LLaVA-Scissor。

LLaVA-Scissor的核心在于SCC方法,這是一種基于圖論的算法,用于識(shí)別token集中的不同語(yǔ)義區(qū)域。SCC方法主要通過(guò)計(jì)算token之間的相似性,構(gòu)建一個(gè)基于相似性的圖,并識(shí)別出圖中的連通分量。這種方法不僅能夠捕捉全局語(yǔ)義關(guān)系,還能避免因位置鄰近性導(dǎo)致的局部偏見(jiàn)。
舉個(gè)例子,假設(shè)我們有一組token,每個(gè)token都代表視頻中的一個(gè)小片段。我們首先計(jì)算這些token之間的相似性,如果兩個(gè)token在語(yǔ)義上很相似,就認(rèn)為它們之間有一條連接線(xiàn)。通過(guò)這種方式,我們可以構(gòu)建一個(gè)圖,其中每個(gè)token是一個(gè)節(jié)點(diǎn),相似的token之間有連接線(xiàn)。

接下來(lái),我們需要找出這個(gè)圖中的“連通分量”。連通分量是指圖中相互連接的一組節(jié)點(diǎn),這些節(jié)點(diǎn)之間可以通過(guò)連接線(xiàn)互相到達(dá)。例如,如果token A和token B相似,token B和token C相似,那么A、B和C就構(gòu)成了一個(gè)連通分量。我們?yōu)槊總€(gè)連通分量選擇一個(gè)代表性的token,這樣就可以用較少的token來(lái)代表整個(gè)視頻的內(nèi)容。
為了高效地計(jì)算連通分量,LLaVA-Scissor采用了一種近似方法。從所有token中隨機(jī)選擇一部分token作為樣本,然后計(jì)算這些樣本token與其他所有token之間的相似性。通過(guò)這種方式,我們可以快速識(shí)別出圖中的連通分量。
如果有些token沒(méi)有被包含在任何連通分量中,我們就將它們視為獨(dú)立的連通分量。然后,我們根據(jù)每個(gè)連通分量中token的重要性對(duì)它們進(jìn)行排序,以保留最重要的語(yǔ)義信息。
通過(guò)這種方式,SCC方法能夠?qū)oken集分割成不同的語(yǔ)義區(qū)域,每個(gè)區(qū)域由一個(gè)代表性的token表示,從而將原始的token集壓縮為更小的、更高效的表示。這種方法不僅能夠有效地減少token的數(shù)量,還能保留視頻內(nèi)容的關(guān)鍵語(yǔ)義信息。
LLaVA-Scissor的兩步時(shí)空壓縮策略進(jìn)一步優(yōu)化了視頻token的表示。這一策略分為兩個(gè)階段:空間壓縮和時(shí)間壓縮。

在空間壓縮階段,對(duì)于每個(gè)視頻幀,我們使用SCC方法識(shí)別出該幀中不同語(yǔ)義區(qū)域,并為每個(gè)區(qū)域選擇一個(gè)代表性的token。這些代表性的token能夠有效地表示每個(gè)視頻幀中的獨(dú)特語(yǔ)義信息。然后,我們將所有幀的代表性token連接起來(lái),形成一個(gè)時(shí)間序列。
在時(shí)間壓縮階段,我們?cè)俅螒?yīng)用SCC方法,去除時(shí)間序列中跨幀的語(yǔ)義區(qū)域的時(shí)間冗余,并進(jìn)行進(jìn)一步的融合。具體來(lái)說(shuō),我們識(shí)別時(shí)間序列中的連通分量,去除重復(fù)的語(yǔ)義信息,最終生成一組能夠有效表示整個(gè)視頻的非重疊語(yǔ)義token。
為了將壓縮后的token與原始token進(jìn)行融合,我們計(jì)算原始token和壓縮token之間的相似性,并為每個(gè)原始token找到最相似的壓縮token。然后,我們將每個(gè)原始token分配給最相似的壓縮token,并進(jìn)行平均融合,得到最終的壓縮token。
這種方法不僅能夠有效地減少token的數(shù)量,還能保留視頻內(nèi)容的關(guān)鍵語(yǔ)義信息,從而實(shí)現(xiàn)更高效的視頻表示。
為了驗(yàn)證LLaVA-Scissor的有效性,研究人員在多個(gè)視頻理解基準(zhǔn)測(cè)試中進(jìn)行了廣泛的實(shí)驗(yàn),包括視頻問(wèn)答、長(zhǎng)視頻理解和多選基準(zhǔn)測(cè)試。實(shí)驗(yàn)結(jié)果表明,LLaVA-Scissor在各種視頻理解基準(zhǔn)測(cè)試中均優(yōu)于其他token壓縮方法,尤其是在低token保留率下,其性能優(yōu)勢(shì)更為明顯。
在視頻問(wèn)答基準(zhǔn)測(cè)試中,LLaVA-Scissor在50%的token保留率下,與原始模型的性能相當(dāng),而在35%和10%的token保留率下,LLaVA-Scissor的性能顯著優(yōu)于其他方法。
例如,在A(yíng)ctivityNet-QA數(shù)據(jù)集上,LLaVA-Scissor在35%的token保留率下,準(zhǔn)確率達(dá)到了47.89%,而在10%的token保留率下,準(zhǔn)確率仍能達(dá)到47.75%。這表明LLaVA-Scissor在保留關(guān)鍵語(yǔ)義信息方面具有顯著的優(yōu)勢(shì)。

在長(zhǎng)視頻理解基準(zhǔn)測(cè)試中,LLaVA-Scissor同樣表現(xiàn)出色。在EgoSchema數(shù)據(jù)集上,LLaVA-Scissor在35%的token保留率下,準(zhǔn)確率達(dá)到了57.94%,而在10%的token保留率下,準(zhǔn)確率仍能達(dá)到57.52%。
這些結(jié)果表明,LLaVA-Scissor不僅能夠在高token保留率下保持良好的性能,還能在低token保留率下有效地保留關(guān)鍵語(yǔ)義信息,從而實(shí)現(xiàn)更高效的長(zhǎng)視頻處理。



























