偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)大語(yǔ)言模型(LLM) 和視頻語(yǔ)言預(yù)訓(xùn)練的關(guān)鍵進(jìn)展、應(yīng)用、數(shù)據(jù)集和方法

人工智能
本文將回顧大規(guī)模視頻語(yǔ)言預(yù)訓(xùn)練任務(wù)的最新進(jìn)展、后續(xù)應(yīng)用、基礎(chǔ)數(shù)據(jù)集和技術(shù)。

隨著視頻應(yīng)用的發(fā)展,大量視頻被上傳到網(wǎng)上。因此,如何利用視頻及其對(duì)應(yīng)的弱字幕進(jìn)行表征學(xué)習(xí)成為近期的熱門(mén)話題。本文將回顧大規(guī)模視頻語(yǔ)言預(yù)訓(xùn)練任務(wù)的最新進(jìn)展、后續(xù)應(yīng)用、基礎(chǔ)數(shù)據(jù)集和技術(shù)。

1. 簡(jiǎn)介

本系列的第一部分回顧了大規(guī)模視頻語(yǔ)言預(yù)訓(xùn)練的進(jìn)展、應(yīng)用、數(shù)據(jù)集和技術(shù)。該任務(wù)使用弱字幕和視頻進(jìn)行表征學(xué)習(xí)。預(yù)訓(xùn)練和微調(diào)是深度學(xué)習(xí)中的一種標(biāo)準(zhǔn)學(xué)習(xí)范式,用于在大型數(shù)據(jù)集上對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后在較小的數(shù)據(jù)集上針對(duì)特定任務(wù)進(jìn)行微調(diào)。這消除了為不同任務(wù)訓(xùn)練新模型的需要,并降低了計(jì)算成本。

預(yù)訓(xùn)練通常使用自監(jiān)督學(xué)習(xí)在 ImageNet 等大型數(shù)據(jù)集上進(jìn)行,而無(wú)監(jiān)督學(xué)習(xí)在自然語(yǔ)言處理 (NLP) 和計(jì)算機(jī)視覺(jué) (CV) 領(lǐng)域也表現(xiàn)出色。預(yù)訓(xùn)練模型的權(quán)重隨后會(huì)在較小的數(shù)據(jù)集上進(jìn)行微調(diào),以實(shí)現(xiàn)特定任務(wù)的學(xué)習(xí)目標(biāo)。

視頻語(yǔ)言預(yù)訓(xùn)練利用大規(guī)模視頻文本數(shù)據(jù)進(jìn)行自監(jiān)督/無(wú)監(jiān)督學(xué)習(xí),以獲得泛化表征。主要的代理任務(wù)包括掩碼語(yǔ)言模型 (MLM)、掩碼幀模型 (MFM)、語(yǔ)言重構(gòu) (LR)、視頻語(yǔ)言匹配 (VLM)、句子排序模型 (SOM) 和幀排序模型 (FOM)。這些任務(wù)分別側(cè)重于語(yǔ)言預(yù)測(cè)、幀預(yù)測(cè)、句子生成、視頻語(yǔ)言對(duì)齊、句子排序和幀排序。這些任務(wù)旨在從序列視角學(xué)習(xí)共現(xiàn)關(guān)聯(lián)、語(yǔ)義限制、視頻字幕生成、對(duì)齊和關(guān)系。

2.最新進(jìn)展及應(yīng)用

預(yù)訓(xùn)練模型的最新進(jìn)展凸顯了數(shù)據(jù)集大小對(duì)于表征學(xué)習(xí)的重要性。因此,研究人員正在使用來(lái)自互聯(lián)網(wǎng)的大規(guī)模、弱標(biāo)記跨模態(tài)數(shù)據(jù),例如圖像-字幕對(duì)和視頻-字幕數(shù)據(jù)。這引發(fā)了跨模態(tài)任務(wù)研究的激增,尤其是視覺(jué)-語(yǔ)言任務(wù)和視頻-語(yǔ)言任務(wù)。

視覺(jué)語(yǔ)言預(yù)訓(xùn)練的一項(xiàng)重要進(jìn)展是對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練 (CLIP),它使用對(duì)比損失從弱監(jiān)督數(shù)據(jù)中學(xué)習(xí)多模態(tài)表征。該模型基于 4 億個(gè)圖像-文本對(duì)的數(shù)據(jù)集進(jìn)行訓(xùn)練,在圖像分類(lèi)等零樣本視覺(jué)識(shí)別任務(wù)中表現(xiàn)出色。

視頻數(shù)據(jù)本身就具有多模態(tài)性,包含標(biāo)題、音頻和旁白等元素,其處理也取得了進(jìn)展。諸如 Howto100M 之類(lèi)的大型視頻數(shù)據(jù)集已被提出,該數(shù)據(jù)集包含 1.36 億個(gè)包含旁白文本數(shù)據(jù)的視頻。這促進(jìn)了視頻語(yǔ)言預(yù)訓(xùn)練的發(fā)展,為視頻理解任務(wù)開(kāi)辟了新的領(lǐng)域。

Transformer 模型最初是為機(jī)器翻譯而提出的,在計(jì)算機(jī)視覺(jué)領(lǐng)域表現(xiàn)出色。它計(jì)算元素的相似度,并聚合這些元素的長(zhǎng)程依賴(lài)關(guān)系,從而能夠在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。

視頻語(yǔ)言預(yù)訓(xùn)練旨在將知識(shí)從大型數(shù)據(jù)集遷移到下游任務(wù),這些任務(wù)應(yīng)包含文本和視頻輸入。下游任務(wù)包括視頻文本檢索、動(dòng)作識(shí)別、視頻問(wèn)答和視頻字幕。每個(gè)任務(wù)都需要采用不同的方法將信息從預(yù)訓(xùn)練遷移到下游任務(wù),這凸顯了預(yù)訓(xùn)練和下游任務(wù)之間兼容性的重要性。

3. 開(kāi)放視頻語(yǔ)言預(yù)訓(xùn)練數(shù)據(jù)集

預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模和質(zhì)量對(duì)于學(xué)習(xí)魯棒的視覺(jué)表征至關(guān)重要,尤其對(duì)于基于 Transformer 的模型而言。視頻語(yǔ)言預(yù)訓(xùn)練的關(guān)鍵數(shù)據(jù)集可分為兩類(lèi):基于標(biāo)簽的數(shù)據(jù)集和基于字幕的數(shù)據(jù)集。

基于標(biāo)簽的視頻數(shù)據(jù)集:

  • Kinetics:一個(gè)具有多種類(lèi)別的大規(guī)模動(dòng)作識(shí)別數(shù)據(jù)集,包含多達(dá) 650,000 個(gè)視頻片段,涵蓋 400/600/700 個(gè)人類(lèi)動(dòng)作類(lèi)別。
  • AVA:在 15 分鐘的電影剪輯中密集注釋 80 個(gè)原子視覺(jué)動(dòng)作,產(chǎn)生 1.62M 個(gè)動(dòng)作標(biāo)簽,并且每個(gè)人經(jīng)常出現(xiàn)多個(gè)標(biāo)簽。

基于字幕的視頻數(shù)據(jù)集:

  • ActivityNet Captions:包含 20k 個(gè)視頻,總計(jì) 849 個(gè)視頻小時(shí),總共 100k 個(gè)描述,每個(gè)描述都有其獨(dú)特的開(kāi)始和結(jié)束時(shí)間。
  • YouCook2:最大的面向任務(wù)的教學(xué)視頻數(shù)據(jù)集之一,包含 89 種烹飪食譜的 2000 個(gè)較長(zhǎng)的未剪輯視頻。
  • Howto100m:一個(gè)大規(guī)模的旁白視頻數(shù)據(jù)集,包含超過(guò) 1.36 億個(gè)視頻片段,其字幕來(lái)自 120 萬(wàn)個(gè) YouTube 視頻。
  • WebVid:一個(gè)包含超過(guò)兩百萬(wàn)個(gè)弱字幕視頻的數(shù)據(jù)集,這些視頻均從互聯(lián)網(wǎng)上抓取。目前有兩個(gè)版本:WebVid-2M 和 WebVid-10M。
  • HD-VILA:第一個(gè)高分辨率數(shù)據(jù)集,包含 1 億個(gè)視頻片段和來(lái)自 330 萬(wàn)個(gè)視頻的句子對(duì),其中 371.5K 小時(shí)為 720p 視頻。

這些數(shù)據(jù)集對(duì)視頻語(yǔ)言預(yù)訓(xùn)練方法的進(jìn)步起到了重要作用,為訓(xùn)練穩(wěn)健模型提供了多樣化和大規(guī)模的數(shù)據(jù)。

4. 視頻語(yǔ)言預(yù)訓(xùn)練方法

近期的視頻語(yǔ)言預(yù)訓(xùn)練方法主要使用 Transformer 作為特征提取器,從大規(guī)模多模態(tài)數(shù)據(jù)中進(jìn)行學(xué)習(xí)。這些方法可以分為兩類(lèi):?jiǎn)瘟?(Single-Stream) 和雙流 (Two-Stream)。

單流方法:

  • VideoBERT:第一個(gè)使用基于 Transformer 的預(yù)訓(xùn)練方法探索視頻語(yǔ)言表示的模型。
  • HERO:一種單流視頻語(yǔ)言預(yù)訓(xùn)練框架,以分層結(jié)構(gòu)對(duì)多模式輸入進(jìn)行編碼。
  • ClipBert:提出了一個(gè)通用框架,通過(guò)采用稀疏采樣,實(shí)現(xiàn)視頻和語(yǔ)言任務(wù)的經(jīng)濟(jì)實(shí)惠的端到端學(xué)習(xí)。
  • DeCEMBERT:開(kāi)發(fā)該技術(shù)是為了解決預(yù)訓(xùn)練數(shù)據(jù)集中自動(dòng)生成的字幕嘈雜且偶爾與視頻材料不一致的問(wèn)題。
  • VATT:一種使用無(wú)卷積 Transformer 結(jié)構(gòu)從未標(biāo)記數(shù)據(jù)中學(xué)習(xí)多模態(tài)表示的方法。
  • VIOLET:提出了一種端到端模擬視頻時(shí)間動(dòng)態(tài)的變換框架。
  • ALPRO:一種用于視頻語(yǔ)言預(yù)訓(xùn)練的單流框架,提出了視頻文本對(duì)比以促進(jìn)多模式交互。

雙流方法:

  • CBT:提出對(duì)比噪聲估計(jì)(NCE)作為視頻語(yǔ)言學(xué)習(xí)的損失目標(biāo)。
  • UniVL:提出用于多模態(tài)理解和生成的模型。
  • Frozen in Time(FiT):旨在學(xué)習(xí)聯(lián)合多模態(tài)嵌入,以實(shí)現(xiàn)有效的文本到視頻檢索。
  • CLIP-ViP:建議在視頻語(yǔ)言數(shù)據(jù)上預(yù)訓(xùn)練 CLIP 模型,以進(jìn)一步將視覺(jué)語(yǔ)言對(duì)齊擴(kuò)展到視頻級(jí)別。

這些方法在各種應(yīng)用中都展現(xiàn)出了良好的效果,包括動(dòng)作識(shí)別、視頻字幕、動(dòng)作預(yù)測(cè)和視頻分割。單流和雙流方法的選擇取決于任務(wù)的具體要求。單流方法通常能夠捕捉文本和視頻之間更細(xì)粒度的關(guān)系,而雙流方法則通過(guò)分別提取不同模態(tài)的特征來(lái)提供更大的靈活性。


責(zé)任編輯:龐桂玉 來(lái)源: 數(shù)據(jù)驅(qū)動(dòng)智能
相關(guān)推薦

2024-01-03 18:53:13

語(yǔ)言模型LLM

2024-12-18 18:57:58

2023-02-01 09:46:29

2025-01-08 08:21:16

2025-08-24 09:24:07

2022-03-04 19:07:03

模型視覺(jué)人工智能

2024-04-11 14:12:53

2024-04-25 14:40:47

2024-05-17 16:02:00

2024-11-11 15:11:23

2023-07-04 10:11:28

數(shù)據(jù)模型

2022-02-28 10:31:22

人工智能視覺(jué)檢測(cè)

2024-09-02 12:30:30

2024-03-25 12:30:18

AI訓(xùn)練開(kāi)源

2024-07-19 08:36:39

2025-03-04 01:00:00

LLM架構(gòu)數(shù)據(jù)訓(xùn)練

2023-05-15 12:14:02

ChatGPT語(yǔ)音模型

2024-01-02 10:20:42

清華大學(xué)人工智能

2023-09-04 19:19:36

語(yǔ)言模型LLM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)