偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

阿里、南開(kāi)大學(xué)發(fā)布免訓(xùn)練,視頻大模型創(chuàng)新壓縮方法

人工智能 新聞
阿里巴巴通義實(shí)驗(yàn)室與南開(kāi)大學(xué)計(jì)算機(jī)科學(xué)學(xué)院聯(lián)合發(fā)布了創(chuàng)新壓縮方法LLaVA-Scissor。

視頻模型相比單圖像輸入需要對(duì)每一幀圖像單獨(dú)編碼,這種序列化處理方式會(huì)導(dǎo)致token數(shù)量成倍增長(zhǎng),嚴(yán)重影響模型推理速度與擴(kuò)展性。

傳統(tǒng)的token壓縮方法主要依賴(lài)于基于注意力機(jī)制的篩選,例如FastV、VisionZip、PLLaVA等方法雖然在圖像領(lǐng)域取得了一定進(jìn)展,但在視頻理解中卻暴露出語(yǔ)義覆蓋不足,時(shí)序冗余無(wú)法處理等一系列問(wèn)題。

為了解決這些難題,阿里巴巴通義實(shí)驗(yàn)室與南開(kāi)大學(xué)計(jì)算機(jī)科學(xué)學(xué)院聯(lián)合發(fā)布了創(chuàng)新壓縮方法LLaVA-Scissor。

圖片

LLaVA-Scissor的核心在于SCC方法,這是一種基于圖論的算法,用于識(shí)別token集中的不同語(yǔ)義區(qū)域。SCC方法主要通過(guò)計(jì)算token之間的相似性,構(gòu)建一個(gè)基于相似性的圖,并識(shí)別出圖中的連通分量。這種方法不僅能夠捕捉全局語(yǔ)義關(guān)系,還能避免因位置鄰近性導(dǎo)致的局部偏見(jiàn)。

舉個(gè)例子,假設(shè)我們有一組token,每個(gè)token都代表視頻中的一個(gè)小片段。我們首先計(jì)算這些token之間的相似性,如果兩個(gè)token在語(yǔ)義上很相似,就認(rèn)為它們之間有一條連接線(xiàn)。通過(guò)這種方式,我們可以構(gòu)建一個(gè)圖,其中每個(gè)token是一個(gè)節(jié)點(diǎn),相似的token之間有連接線(xiàn)。

圖片

接下來(lái),我們需要找出這個(gè)圖中的“連通分量”。連通分量是指圖中相互連接的一組節(jié)點(diǎn),這些節(jié)點(diǎn)之間可以通過(guò)連接線(xiàn)互相到達(dá)。例如,如果token A和token B相似,token B和token C相似,那么A、B和C就構(gòu)成了一個(gè)連通分量。我們?yōu)槊總€(gè)連通分量選擇一個(gè)代表性的token,這樣就可以用較少的token來(lái)代表整個(gè)視頻的內(nèi)容。

為了高效地計(jì)算連通分量,LLaVA-Scissor采用了一種近似方法。從所有token中隨機(jī)選擇一部分token作為樣本,然后計(jì)算這些樣本token與其他所有token之間的相似性。通過(guò)這種方式,我們可以快速識(shí)別出圖中的連通分量。

如果有些token沒(méi)有被包含在任何連通分量中,我們就將它們視為獨(dú)立的連通分量。然后,我們根據(jù)每個(gè)連通分量中token的重要性對(duì)它們進(jìn)行排序,以保留最重要的語(yǔ)義信息。

通過(guò)這種方式,SCC方法能夠?qū)oken集分割成不同的語(yǔ)義區(qū)域,每個(gè)區(qū)域由一個(gè)代表性的token表示,從而將原始的token集壓縮為更小的、更高效的表示。這種方法不僅能夠有效地減少token的數(shù)量,還能保留視頻內(nèi)容的關(guān)鍵語(yǔ)義信息。

LLaVA-Scissor的兩步時(shí)空壓縮策略進(jìn)一步優(yōu)化了視頻token的表示。這一策略分為兩個(gè)階段:空間壓縮和時(shí)間壓縮。

圖片

在空間壓縮階段,對(duì)于每個(gè)視頻幀,我們使用SCC方法識(shí)別出該幀中不同語(yǔ)義區(qū)域,并為每個(gè)區(qū)域選擇一個(gè)代表性的token。這些代表性的token能夠有效地表示每個(gè)視頻幀中的獨(dú)特語(yǔ)義信息。然后,我們將所有幀的代表性token連接起來(lái),形成一個(gè)時(shí)間序列。

在時(shí)間壓縮階段,我們?cè)俅螒?yīng)用SCC方法,去除時(shí)間序列中跨幀的語(yǔ)義區(qū)域的時(shí)間冗余,并進(jìn)行進(jìn)一步的融合。具體來(lái)說(shuō),我們識(shí)別時(shí)間序列中的連通分量,去除重復(fù)的語(yǔ)義信息,最終生成一組能夠有效表示整個(gè)視頻的非重疊語(yǔ)義token。

為了將壓縮后的token與原始token進(jìn)行融合,我們計(jì)算原始token和壓縮token之間的相似性,并為每個(gè)原始token找到最相似的壓縮token。然后,我們將每個(gè)原始token分配給最相似的壓縮token,并進(jìn)行平均融合,得到最終的壓縮token。

這種方法不僅能夠有效地減少token的數(shù)量,還能保留視頻內(nèi)容的關(guān)鍵語(yǔ)義信息,從而實(shí)現(xiàn)更高效的視頻表示。

為了驗(yàn)證LLaVA-Scissor的有效性,研究人員在多個(gè)視頻理解基準(zhǔn)測(cè)試中進(jìn)行了廣泛的實(shí)驗(yàn),包括視頻問(wèn)答、長(zhǎng)視頻理解和多選基準(zhǔn)測(cè)試。實(shí)驗(yàn)結(jié)果表明,LLaVA-Scissor在各種視頻理解基準(zhǔn)測(cè)試中均優(yōu)于其他token壓縮方法,尤其是在低token保留率下,其性能優(yōu)勢(shì)更為明顯。

在視頻問(wèn)答基準(zhǔn)測(cè)試中,LLaVA-Scissor在50%的token保留率下,與原始模型的性能相當(dāng),而在35%和10%的token保留率下,LLaVA-Scissor的性能顯著優(yōu)于其他方法。

例如,在A(yíng)ctivityNet-QA數(shù)據(jù)集上,LLaVA-Scissor在35%的token保留率下,準(zhǔn)確率達(dá)到了47.89%,而在10%的token保留率下,準(zhǔn)確率仍能達(dá)到47.75%。這表明LLaVA-Scissor在保留關(guān)鍵語(yǔ)義信息方面具有顯著的優(yōu)勢(shì)。

圖片

在長(zhǎng)視頻理解基準(zhǔn)測(cè)試中,LLaVA-Scissor同樣表現(xiàn)出色。在EgoSchema數(shù)據(jù)集上,LLaVA-Scissor在35%的token保留率下,準(zhǔn)確率達(dá)到了57.94%,而在10%的token保留率下,準(zhǔn)確率仍能達(dá)到57.52%。

這些結(jié)果表明,LLaVA-Scissor不僅能夠在高token保留率下保持良好的性能,還能在低token保留率下有效地保留關(guān)鍵語(yǔ)義信息,從而實(shí)現(xiàn)更高效的長(zhǎng)視頻處理。

責(zé)任編輯:張燕妮
相關(guān)推薦

2015-10-15 10:22:52

無(wú)線(xiàn)校園華為敏捷網(wǎng)絡(luò)

2022-06-08 13:33:45

AI機(jī)器人克隆

2016-03-10 18:01:53

Wi-Fi華為

2018-02-28 10:54:05

華為云

2018-01-05 11:25:33

華為云

2025-10-22 10:16:02

2022-12-22 15:29:59

昇思

2024-01-16 12:10:10

2015-08-27 14:05:01

大數(shù)據(jù)創(chuàng)業(yè)

2023-11-26 17:32:18

深度學(xué)習(xí)AI

2021-05-07 09:34:20

量子芯片計(jì)算機(jī)

2025-05-29 09:21:28

2012-08-28 10:25:02

超級(jí)計(jì)算天河一號(hào)云計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)