偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

單向VLM變雙向!人大斯坦福等提出MoCa框架:雙向多模態(tài)編碼器

人工智能 新聞
MoCa框架把單向視覺(jué)語(yǔ)言模型轉(zhuǎn)化為雙向多模態(tài)嵌入模型,通過(guò)持續(xù)預(yù)訓(xùn)練和異構(gòu)對(duì)比微調(diào),提升模型性能和泛化能力,在多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,尤其小規(guī)模模型性能突出。

預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型(VLM)因其強(qiáng)大的圖文聯(lián)合建模能力,在多種任務(wù)上展現(xiàn)出巨大潛力,也成為了許多目前廣泛使用的多模態(tài)嵌入模型的基礎(chǔ)。

然而,這些使用因果注意力機(jī)制的多模態(tài)嵌入模型在多模態(tài)嵌入任務(wù)中存在三個(gè)關(guān)鍵限制:

  • 表示能力弱:因果注意力機(jī)制單向預(yù)測(cè)的特性,限制了模型充分捕獲雙向跨模態(tài)的深層語(yǔ)義。
  • 泛化性差:傳統(tǒng)模型多依賴于簡(jiǎn)單的圖文對(duì)訓(xùn)練數(shù)據(jù),缺乏更廣泛、更豐富的數(shù)據(jù)源,難以在新任務(wù)或新領(lǐng)域快速泛化。
  • 擴(kuò)展性低:現(xiàn)有模型的對(duì)比學(xué)習(xí)方法嚴(yán)重依賴于高質(zhì)量的標(biāo)注數(shù)據(jù),導(dǎo)致成本高昂,難以有效地利用大規(guī)模無(wú)標(biāo)注數(shù)據(jù)。

如何高效地將預(yù)訓(xùn)練因果VLM轉(zhuǎn)變?yōu)閺?qiáng)大的雙向多模態(tài)編碼器,已成為多模態(tài)理解領(lǐng)域的重要挑戰(zhàn)。

為了克服這些挑戰(zhàn),亟需開(kāi)發(fā)出一種新型框架,能夠高效利用大規(guī)模非標(biāo)注數(shù)據(jù),提升多模態(tài)嵌入模型的雙向理解和泛化能力。

中國(guó)人民大學(xué)、微軟亞洲研究院、斯坦福大學(xué)、普林斯頓大學(xué)等機(jī)構(gòu)的研究者提出了MoCa框架,采用雙階段方法,將基于單向注意力預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型(VLM)轉(zhuǎn)化為有效的雙向多模態(tài)編碼模型。

圖片

論文鏈接:https://arxiv.org/abs/2506.23115

項(xiàng)目主頁(yè):https://haon-chen.github.io/MoCa/

MoCa通過(guò)針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練和異構(gòu)對(duì)比微調(diào),有效解決了傳統(tǒng)模型表示能力弱、泛化性差、擴(kuò)展性低的問(wèn)題,取得了顯著的性能提升。

MoCa:從單向到雙向

MoCa框架包括兩個(gè)核心階段:

  1. 針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練(Modality-aware Continual Pre-training)

    利用隨機(jī)遮蔽的文本與圖像塊進(jìn)行聯(lián)合重建(MLM+MAE),增強(qiáng)模型的雙向跨模態(tài)理解能力;有效捕獲了更豐富的跨模態(tài)語(yǔ)義信息。
  2. 異構(gòu)對(duì)比微調(diào)(Heterogeneous Contrastive Fine-tuning)

    利用多樣化的訓(xùn)練數(shù)據(jù)(如長(zhǎng)文檔、專業(yè)領(lǐng)域圖文、純文本等)和任務(wù)批次采樣策略,進(jìn)一步提高模型的魯棒性和泛化性能。

通過(guò)上述方法,MoCa有效提升了多模態(tài)嵌入模型的雙向表示能力和泛化性能,并顯著降低了對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的依賴。

實(shí)驗(yàn)結(jié)果表明,MoCa在多個(gè)標(biāo)準(zhǔn)多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)出色,尤其是在小規(guī)模模型條件下即可超越更大模型的性能,為多模態(tài)嵌入模型的進(jìn)一步發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。

圖片

MoCa框架包含兩個(gè)關(guān)鍵的技術(shù)組件:

  1. 針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練(Modality-aware Continual Pre-training)

    跨模態(tài)雙向注意力:有效捕獲圖文之間的深層語(yǔ)義交互,改善因果模型單向推理的不足。

    聯(lián)合mask重建(MLM+MAE):隨機(jī)遮蔽文本詞匯與圖像塊,讓模型雙向預(yù)測(cè)并恢復(fù)缺失信息;充分挖掘無(wú)標(biāo)注數(shù)據(jù)的潛力,增強(qiáng)模型的跨模態(tài)表示能力。
  2. 異構(gòu)對(duì)比微調(diào) (Heterogeneous Contrastive Fine-tuning)

    任務(wù)批次采樣策略:動(dòng)態(tài)采樣不同任務(wù)批次,確保模型能夠高效地適應(yīng)多任務(wù)、多領(lǐng)域的應(yīng)用需求。

    多樣化數(shù)據(jù)源:采用長(zhǎng)文檔、多領(lǐng)域圖文、純文本等豐富數(shù)據(jù)類型,提升模型的泛化能力。

通過(guò)這兩個(gè)組件的緊密協(xié)作,MoCa實(shí)現(xiàn)了預(yù)訓(xùn)練到微調(diào)的高效流程,充分利用無(wú)監(jiān)督數(shù)據(jù),在性能和泛化性上取得突破。

與傳統(tǒng)多模態(tài)嵌入框架的對(duì)比

MoCa框架相比傳統(tǒng)的多模態(tài)嵌入模型有著明顯優(yōu)勢(shì)。

· 傳統(tǒng)框架(如mmE5、VLM2Vec)

單純依賴高質(zhì)量標(biāo)注圖文對(duì),擴(kuò)展性低;

以單向因果注意力為主,跨模態(tài)表示能力受限;

對(duì)新領(lǐng)域、新任務(wù)泛化性差。

· MoCa框架

充分利用大規(guī)模無(wú)標(biāo)注數(shù)據(jù),通過(guò)持續(xù)預(yù)訓(xùn)練顯著降低成本;

雙向模態(tài)交互機(jī)制,能更深層次地捕捉圖文語(yǔ)義;

豐富的數(shù)據(jù)類型和任務(wù)采樣策略,大幅提升泛化性能和擴(kuò)展性。

因此,MoCa的提出為多模態(tài)嵌入領(lǐng)域提供了一條更加高效、更具泛化性的研究路徑。

實(shí)驗(yàn)效果:以小博大,效果顯著提升

研究人員在主流多模態(tài)嵌入基準(zhǔn)MMEB和ViDoRe-v2上進(jìn)行了全面評(píng)估。

在MMEB基準(zhǔn)上

圖片

3B的MoCa模型即可達(dá)到現(xiàn)有7B規(guī)模baseline模型的性能水平。

7B的MoCa模型實(shí)現(xiàn)當(dāng)前最佳性能(SOTA),顯著超越現(xiàn)有模型。

在ViDoRe-v2任務(wù)中

圖片

MoCa在跨語(yǔ)言、跨領(lǐng)域的復(fù)雜任務(wù)中表現(xiàn)突出,整體性能超過(guò)現(xiàn)有先進(jìn)方法。

特別在多語(yǔ)言和專業(yè)領(lǐng)域數(shù)據(jù)泛化能力上表現(xiàn)出明顯優(yōu)勢(shì)。

實(shí)驗(yàn)結(jié)果充分驗(yàn)證了MoCa框架在低資源條件下實(shí)現(xiàn)高性能的能力,以及卓越的泛化性能。

消融實(shí)驗(yàn)

圖片

實(shí)驗(yàn)驗(yàn)證了MoCa各核心組件的有效性,結(jié)果顯示,去除針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練或異構(gòu)對(duì)比微調(diào)中的任一環(huán)節(jié),模型性能均明顯下降,進(jìn)一步證明了MoCa框架每個(gè)組件的必要性和重要性。

持續(xù)預(yù)訓(xùn)練的數(shù)據(jù)規(guī)模效應(yīng)

圖片

為了探究持續(xù)預(yù)訓(xùn)練數(shù)據(jù)規(guī)模對(duì)模型性能的影響,研究人員進(jìn)行了針對(duì)性實(shí)驗(yàn)。

實(shí)驗(yàn)表明,隨著用于持續(xù)預(yù)訓(xùn)練的數(shù)據(jù)規(guī)模增加,模型的多模態(tài)理解性能持續(xù)提升,但存在一定的性能飽和效應(yīng)。

結(jié)果顯示,在實(shí)際應(yīng)用中應(yīng)合理權(quán)衡數(shù)據(jù)規(guī)模與計(jì)算成本,以實(shí)現(xiàn)最優(yōu)性能。

未來(lái)展望

MoCa框架的成功驗(yàn)證了針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練和異構(gòu)對(duì)比微調(diào)策略的巨大潛力。這一方法不僅提升了小規(guī)模模型的表現(xiàn),也為更廣泛的數(shù)據(jù)利用和泛化能力奠定了基礎(chǔ)。

未來(lái),研究人員計(jì)劃進(jìn)一步探索以下幾個(gè)方面:

  • 擴(kuò)展到多模態(tài)多語(yǔ)言領(lǐng)域,探索更廣泛的跨語(yǔ)言泛化能力。
  • 集成更多模態(tài)信息,如視頻和音頻,推動(dòng)模型在更復(fù)雜場(chǎng)景下的應(yīng)用。
  • 優(yōu)化持續(xù)預(yù)訓(xùn)練策略,探索更高效的訓(xùn)練技術(shù),進(jìn)一步降低計(jì)算成本。

通過(guò)持續(xù)的努力,MoCa框架一定能夠在多模態(tài)嵌入領(lǐng)域發(fā)揮更廣泛、更深遠(yuǎn)的影響。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-06-13 08:46:00

2023-11-06 12:47:00

數(shù)據(jù)訓(xùn)練

2024-10-21 12:40:00

視頻生成模型

2025-04-07 03:30:00

2022-07-28 12:18:40

視覺(jué)語(yǔ)言模型

2021-03-29 11:37:50

人工智能深度學(xué)習(xí)

2021-03-22 10:52:13

人工智能深度學(xué)習(xí)自編碼器

2025-09-08 09:10:00

2025-04-10 11:52:55

2025-04-10 06:30:00

2023-07-04 10:11:28

數(shù)據(jù)模型

2023-10-07 09:29:09

2024-08-07 13:00:00

2021-02-02 12:17:05

人工智能算法技術(shù)

2024-02-19 00:09:49

開(kāi)源模型

2023-03-15 10:35:16

GPTAI

2025-01-20 13:08:25

2025-02-28 10:15:00

3D模型編碼器

2019-12-16 14:33:01

AI人工智能斯坦福

2021-05-07 08:20:52

前端開(kāi)發(fā)技術(shù)熱點(diǎn)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)