偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPT-4o差點(diǎn)沒及格！首個多任務(wù)長視頻評測基準(zhǔn)，它有億點(diǎn)難

作者：量子位 2024-06-21 13:04:43

人工智能新聞

研究進(jìn)一步證明，提升上下文窗口，提升圖像理解能力，以及使用更強(qiáng)大的LLM Backbone對長視頻理解的性能具有顯著的提升作用。

難度大升級的多任務(wù)長視頻理解評測基準(zhǔn)MLVU來了！

由智源聯(lián)合北郵、北大和浙大等多所高校推出。

究竟有多難呢？最終排名第一的GPT-4o單選正確率還不足65%。

而且研究發(fā)現(xiàn)，大部分模型的性能都會隨著視頻時(shí)長增加顯著下降。

研究進(jìn)一步證明，提升上下文窗口，提升圖像理解能力，以及使用更強(qiáng)大的LLM Backbone對長視頻理解的性能具有顯著的提升作用。

目前相關(guān)論文及數(shù)據(jù)集已公開，具體細(xì)節(jié)下面一起看看吧~

MLVU的構(gòu)建過程

當(dāng)前流行的Video Benchmark主要針對短視頻設(shè)計(jì)，大部分視頻的長度都在1分鐘以內(nèi)。

且現(xiàn)有評測基準(zhǔn)往往專注在特定領(lǐng)域的視頻（例如電影、第一視角）和特定的視頻評測任務(wù)（例如Captioning，Temporal Perception，Action Understanding）。

此外，現(xiàn)有部分長視頻理解評測任務(wù)往往只和局部幀有關(guān)，或者針對經(jīng)典電影進(jìn)行問答，這導(dǎo)致MLLMs可以直接憑借text prompt正確回答而無需對視頻進(jìn)行分析。

針對以上不足，新基準(zhǔn)MLVU從以下3個層面進(jìn)行構(gòu)建：

時(shí)長和來源更豐富

MLVU的視頻時(shí)長覆蓋了3分鐘到超過2小時(shí)，平均視頻時(shí)長12分鐘，極大擴(kuò)展了當(dāng)前流行的Video Benchmark的時(shí)長范圍。

另外，MLVU的大部分任務(wù)標(biāo)注過程中進(jìn)行了片段-問題對應(yīng)標(biāo)注。

例如，Video Summarization任務(wù)分段標(biāo)注了視頻的前3分鐘，前6分鐘……

這意味著，MLLMs可以靈活地在MLVU上選擇測試不同時(shí)長情況下的長視頻理解能力。

同時(shí)，MLVU收集了包括電影、電視劇、紀(jì)錄片、卡通動畫片、監(jiān)控視頻、第一視角視頻和游戲視頻等多個類型的長視頻，覆蓋了長視頻理解的多個領(lǐng)域范圍。

任務(wù)類別更全面

團(tuán)隊(duì)針對長視頻理解設(shè)計(jì)了9類不同的任務(wù)，并進(jìn)一步將任務(wù)分為三類：全面理解、單細(xì)節(jié)理解、多細(xì)節(jié)理解。

全面理解任務(wù)：要求MLLMs理解和利用視頻的全局信息來解決問題
單細(xì)節(jié)理解任務(wù)：要求MLLMs根據(jù)問題定位長視頻中的某一細(xì)節(jié)，并利用該細(xì)節(jié)來解決問題
多細(xì)節(jié)理解任務(wù)：要去MLLMs定位和理解長視頻中的多個相關(guān)片段來完成和解決問題

此外，還包括了單項(xiàng)選擇題和開放生成式問題，全面考察MLLMs在不同場景下的長視頻理解能力。

以下為9大任務(wù)的示例：

問題設(shè)置與答案標(biāo)注更合理

為了突出新舊基準(zhǔn)變化，直接以情節(jié)問答（Plot Question Answering）任務(wù)為例。

假如以電影、電視的角色作為問題線索來對MLLMs進(jìn)行提問，舊基準(zhǔn)的常見問題有兩種。

一是挑“經(jīng)典”下手，這導(dǎo)致MLLMs在沒有對視頻進(jìn)行分析的情況下，直接使用了自有知識回答問題。

另一部分試圖避免這個問題，但由于長視頻的復(fù)雜性，僅僅利用代詞和描述性語句來指代情節(jié)細(xì)節(jié)非常困難。

他們的問題非常寬泛或者需要在問題中額外指定具體的時(shí)間片段而不是讓MLLMs自己根據(jù)題目尋找對應(yīng)細(xì)節(jié)。

MLVU通過精細(xì)的人工標(biāo)注克服了這些問題。

在所有的情節(jié)問答任務(wù)中，MLVU均使用“具有詳細(xì)細(xì)節(jié)的代詞”來指代情節(jié)中的人物、事件或背景，避免了問題泄露帶來的潛在影響，MLLMs需要根據(jù)問題提供的線索識別和定位相關(guān)片段才能進(jìn)一步解決問題。

此外，MLVU的Plot QA問題具備豐富的多樣性，增強(qiáng)了評測的合理性和可靠性。

模型在MLVU上的表現(xiàn)

團(tuán)隊(duì)在MLVU上對20個流行的MLLM進(jìn)行了評測，包括開源模型和閉源模型。

實(shí)驗(yàn)結(jié)果表明，盡管GPT-4o在所有任務(wù)中均取得了第1名，但它的單選平均準(zhǔn)確率只有64.6%。

且所有模型都在需要細(xì)粒度理解能力的任務(wù)上（單細(xì)節(jié)、多細(xì)節(jié)理解任務(wù)）表現(xiàn)糟糕。

此外，大部分模型的性能都會隨著視頻時(shí)長增加顯著下降。

另一明顯結(jié)論是，開源模型和閉源模型之間存在較大的差距。

開源模型中單項(xiàng)選擇題性能最強(qiáng)的InternVL-1.5單選平均準(zhǔn)確度僅有50.4%；開放生成式題目最強(qiáng)的LLaMA-Vid得分僅有4.22，均遠(yuǎn)遠(yuǎn)落后于GPT-4o的64.6%和5.80。

不過研究發(fā)現(xiàn)，提升上下文窗口，提升MLLM的圖像理解能力，以及使用更強(qiáng)大的LLM Backbone對長視頻理解的性能具有顯著的提升作用。

這揭示了未來MLLMs在提升長視頻理解能力的重要改進(jìn)方向。

論文：https://arxiv.org/abs/2406.04264

項(xiàng)目鏈接：https://github.com/JUNJIE99/MLVU

責(zé)任編輯：張燕妮來源：量子位

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="ffcs8"></cite>

<sub id="ffcs8"><p id="ffcs8"></p></sub><p id="ffcs8"></p>

<style id="ffcs8"></style>