偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<wbr id="hhz6i"></wbr>

<kbd id="hhz6i"><dd id="hhz6i"><source id="hhz6i"></source></dd></kbd>

<center id="hhz6i"></center>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

北大視頻大模型新SOTA，搞笑抖音視頻AI秒懂笑點

作者：夢晨 2023-11-20 22:02:54

人工智能新聞

北大等團隊開源視覺語言大模型Video-LLaVA，將圖像和視頻表示對齊到統(tǒng)一的視覺特征空間，在13個圖片和視頻基準(zhǔn)上達到先進的性能。

AI能理解搞笑視頻笑點在哪里了。

AI回答：這個視頻之所以搞笑，在于一個小寶寶正坐在床上努力讀書，但他顯然還不會真正讀書。他只是不停地指著書頁上的各處，而攝影者則在背后笑他。小寶寶的這種嘗試很有趣，因為他在嘗試閱讀一本對他而言過大的書，也看不懂里面的文字。

北大等團隊開源視覺語言大模型Video-LLaVA，將圖像和視頻表示對齊到統(tǒng)一的視覺特征空間，在13個圖片和視頻基準(zhǔn)上達到先進的性能。

值得注意的是，Video-LLaVA在訓(xùn)練過程中沒有使用成對的視頻和圖片數(shù)據(jù)，但在訓(xùn)練后，LLM令人驚訝地展現(xiàn)出同時理解圖片和視頻的能力。

如下圖所示，Video-LLaVA成功地識別出自由女神像的圖片是近景且細膩的，而視頻描述了自由女神像的多個角度，表明它們來自同一個地方。

在投影之前對齊圖像和視頻表示

這項工作具體貢獻如下：

Video-LLaVA解決了在視覺-語言理解中同時處理圖像和視頻的挑戰(zhàn)。它將視覺表示統(tǒng)一到語言特征空間中，使得大型語言模型能夠同時對圖像和視頻進行視覺推理能力。
Video-LLaVA通過最初將圖像和視頻的表示對齊到一個統(tǒng)一的視覺特征空間中，將視覺表示統(tǒng)一到語言特征空間中。這是通過使用LanguageBind編碼器來實現(xiàn)的，該編碼器將不同的模態(tài)映射到文本特征空間中，提供了一個統(tǒng)一的視覺表示。然后，統(tǒng)一的視覺表示經(jīng)過共享的投影層和詞嵌入層進行編碼，以將統(tǒng)一的視覺表示映射給大型語言模型使用。
Video-LLaVA在視頻上表現(xiàn)出色，在MSVD、MSRVTT、TGIF和ActivityNet視頻問答數(shù)據(jù)集上分別超過了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。

對于模型能力，研究團隊做了充分實驗。

視頻理解能力實驗。

如表3所示，Video-LLaVA在4個視頻問答數(shù)據(jù)集上全面超過了Video-ChatGPT，并且漲幅相當(dāng)可觀。

圖片理解能力實驗。

該研究還與InstructBLIP，Otter，mPLUG-owl 等圖片語言大模型在圖片語言理解任務(wù)上進行了比較，結(jié)果如表2所示：

為了評估預(yù)先對齊視覺輸入的效果，研究團隊進行了大量的對比實驗。

他們使用了相同規(guī)模的MAE編碼器替換了圖片編碼器，其中MAE編碼器生成分離的視覺表示，而LanguageBind編碼器生成統(tǒng)一的視覺表示（因為預(yù)先對齊了視覺表征）。

然后，他們在13個基準(zhǔn)測試中比較了MAE編碼器和LanguageBind編碼器的性能，包括9個圖片理解基準(zhǔn)和4個視頻理解基準(zhǔn)。

通過替換圖片編碼器為MAE編碼器，LLM在初始學(xué)習(xí)視覺表示時將視頻特征和圖片特征分開處理，不再將它們統(tǒng)一起來。

有關(guān)圖6的實驗結(jié)果顯示，與分離的視覺表示相比，聯(lián)合的視覺表示在4個視頻問答數(shù)據(jù)集上顯著提升了性能。

這一發(fā)現(xiàn)表明，預(yù)先對齊的視覺表征有助于LLM進一步學(xué)習(xí)和理解視頻內(nèi)容。它提供了更好的能力，使得模型能夠更有效地處理視頻問答任務(wù)并展現(xiàn)出更好的性能表現(xiàn)。

同時論文還驗證了無論是對于圖片還是視頻，在聯(lián)合訓(xùn)練中他們能相互受益。

通過聯(lián)合訓(xùn)練視頻數(shù)據(jù)，對于圖片理解任務(wù)，可以緩解幻覺問題。類似的趨勢也在LLaVA-Bench基準(zhǔn)測試上觀察到。

在視頻理解方面，聯(lián)合訓(xùn)練的也得到了明顯的提升。

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<rt id="ylqot"><strike id="ylqot"></strike></rt><wbr id="ylqot"></wbr>

<p id="ylqot"><li id="ylqot"><pre id="ylqot"></pre></li></p>

<u id="ylqot"><li id="ylqot"><video id="ylqot"></video></li></u>

<pre id="ylqot"><span id="ylqot"></span></pre>