偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點?有什么解決方法? 原創(chuàng)

發(fā)布于 2025-6-10 10:42
瀏覽
0收藏

多模態(tài)大模型中模態(tài)對齊數(shù)據(jù)構(gòu)建的難點及解決方案。

多模態(tài)大模型相對于LLM的訓練難度更高一些,其中很關(guān)鍵的部分在于模態(tài)的對齊。

多模態(tài)對齊需要把各種模態(tài)映射或?qū)R到token空間中,讓圖像、語音等多模態(tài)信息抽象為token表征,從而利用現(xiàn)有的LLM的技術(shù)實現(xiàn)多模態(tài)領(lǐng)域的思維鏈和涌現(xiàn)。

那么本系列開始總結(jié)MLLM中多模態(tài)對齊的難點以及現(xiàn)有的解決方法,下面是本系列想要包含的內(nèi)容。

1. 模態(tài)對齊的難點總結(jié)

  • 模態(tài)對齊數(shù)據(jù)構(gòu)建
  • 跨模態(tài)差異影響融合效果
  • 模態(tài)對齊評估效率比較低

2. 現(xiàn)有難點的解決方案

本篇主要來講述模態(tài)對齊的部分。

多模態(tài)模型架構(gòu)與訓練方法

在開始前先簡單回顧一下多模態(tài)模型架構(gòu)與訓練方法~

目前MLLM常見的輸入模態(tài)包括圖像、視頻、音頻,另外IMU(慣性測量單元,Inertial Measurement Unit)傳感器數(shù)據(jù)以及腦波等生理信號數(shù)據(jù)也有在嘗試接入。

下圖是一個可以參考的多模態(tài)大模型基本架構(gòu)。

大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點?有什么解決方法?-AI.x社區(qū)

典型的多模態(tài)大模型基本架構(gòu)(來源:騰訊AI Lab)

目前多模態(tài)大模型的訓練方法和架構(gòu)上比較趨同,多采用兩段式訓練方法,按照一定次序分別訓練視覺編碼器和語言模型,但最后階段都會訓練到跨模態(tài)映射(Q-former或者MLP)的參數(shù)。

大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點?有什么解決方法?-AI.x社區(qū)

兩段式訓練方法(來源:阿里巴巴達摩院)


具體來說:

第一階段,通過模態(tài)對齊預訓練,將映射層和模態(tài)編碼器(Modality 的輸出優(yōu)化映射到聯(lián)合LLM嵌入空間,進行各模態(tài)的對齊。

第二階段,通過多模態(tài)指令調(diào)整,模型將系統(tǒng)指令/文本查詢與輸入多模態(tài)上下文相關(guān)聯(lián)。CLIP ViT-L等就是比較典型的特定模態(tài)編碼器。

可以看到模態(tài)對齊確實是非常重要的部分。

數(shù)據(jù)模態(tài)對齊的難點和解決方案

1. 安全性難點

多模態(tài)數(shù)據(jù)對齊需要文本指令、上下文響應,以及非文本模態(tài)(如圖像/音頻)的強關(guān)聯(lián)標注。此外目前新興的生物信號、傳感器信號等數(shù)據(jù)在建模時也需要考慮,以及標注過程中還需要考慮COT的部分。

目前數(shù)據(jù)收集過程中需要著重考慮內(nèi)容相關(guān)性和安全性,需要人工介入的環(huán)節(jié)非常多,因此成本極高且難以規(guī)?;?。

2. 解決方案簡述

可以通過標注或合成的方式構(gòu)建一部分引導樣本,引導生成內(nèi)容與生成風格,并以目標嵌入的方式替代真實的多模態(tài)數(shù)據(jù),在MLLM的前向傳播過程中引導生成相關(guān)引導目標嵌入來進行優(yōu)化。

3. 具體示例說明

上面的話可能有些抽象,這里推薦一篇ACL2025北航彭浩團隊提出的合成嵌入技術(shù)SEA(Synthetic Embedding augmented safety Alignment)框架輔助大家理解。

大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點?有什么解決方法?-AI.x社區(qū)

SEA在模態(tài)編碼器表示空間中優(yōu)化合成嵌入,替代真實多模態(tài)數(shù)據(jù);通過梯度更新生成目標嵌入,比如對訓練結(jié)果有害的相關(guān)向量,與文本指令結(jié)合構(gòu)建訓練數(shù)據(jù)集。

主要分為3個階段,下面簡單的進行表述。

大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點?有什么解決方法?-AI.x社區(qū)

1)數(shù)據(jù)準備

構(gòu)建一個文本安全對齊數(shù)據(jù)集

大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點?有什么解決方法?-AI.x社區(qū)

其中x表示有害指令,y是道德響應,對于每個pair構(gòu)建一個輔助數(shù)據(jù)集,用于內(nèi)容控制和風格控制。

內(nèi)容控制的樣本示例

指令:請簡要描述圖像中的活動(產(chǎn)品)

目標真值:響應前綴 + 答案

風格控制的樣本示例

指令:圖像的風格是什么?

目標真值:響應前綴 + 風格描述(風格描述要從預定義的風格集合中隨機采樣)

2)嵌入優(yōu)化

對于每個pair,準備一個空白圖像(或空白視頻、靜音音頻)的嵌入 E0,并將其作為可訓練的嵌入進行優(yōu)化。

優(yōu)化目標是給定E0,以及內(nèi)容控制和風格控制的指令,最大化MLLM生成內(nèi)容控制和風格控制目標樣本的概率。優(yōu)化過程如下:

大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點?有什么解決方法?-AI.x社區(qū)


3)安全性對齊

將優(yōu)化后的嵌入 Ei與文本數(shù)據(jù)集 DT結(jié)合,構(gòu)建多模態(tài)數(shù)據(jù)集 

大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點?有什么解決方法?-AI.x社區(qū)


對于每個x,添加一個前綴,如“圖像顯示一個活動(產(chǎn)品)。請理解它并回答以下問題?!鄙?。保留 DT 中的響應。

在安全性對齊訓練中,忽略模態(tài)編碼器 M(?),修改MLLM的前向傳播過程為

大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點?有什么解決方法?-AI.x社區(qū)

使其適應現(xiàn)有的安全性對齊訓練策略。

個人認為這種方法在實踐中還是比較實用,目前在圖像這個模態(tài)中應用的會更多一些;未來積累的這里具備引導性質(zhì)的Embedding庫本身就具備很大的價值。

大佬們有更多見解的話,可以加微信一起多多討論。

參考文獻:

[1]  GPT-4o 實現(xiàn)真正的多模態(tài)大一統(tǒng)了嗎?技術(shù)難度多高? - 知乎(https://www.zhihu.com/question/655951646/answer/3498544864?share_code=SyMNrAHBEGXN&utm_psn=1911120005984163324)

[2] SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings  (https://arxiv.org/pdf/2502.12562)


本文轉(zhuǎn)載自??瓦力算法學研所??,作者:喜歡瓦力的卷卷


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
已于2025-6-10 10:42:03修改
收藏
回復
舉報
回復
相關(guān)推薦