偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型面經(jīng)——MLLM中模態(tài)對(duì)齊有哪些難點(diǎn)?有什么解決方法? 原創(chuàng)

發(fā)布于 2025-6-10 10:42
瀏覽
0收藏

多模態(tài)大模型中模態(tài)對(duì)齊數(shù)據(jù)構(gòu)建的難點(diǎn)及解決方案。

多模態(tài)大模型相對(duì)于LLM的訓(xùn)練難度更高一些,其中很關(guān)鍵的部分在于模態(tài)的對(duì)齊。

多模態(tài)對(duì)齊需要把各種模態(tài)映射或?qū)R到token空間中,讓圖像、語(yǔ)音等多模態(tài)信息抽象為token表征,從而利用現(xiàn)有的LLM的技術(shù)實(shí)現(xiàn)多模態(tài)領(lǐng)域的思維鏈和涌現(xiàn)。

那么本系列開(kāi)始總結(jié)MLLM中多模態(tài)對(duì)齊的難點(diǎn)以及現(xiàn)有的解決方法,下面是本系列想要包含的內(nèi)容。

1. 模態(tài)對(duì)齊的難點(diǎn)總結(jié)

  • 模態(tài)對(duì)齊數(shù)據(jù)構(gòu)建
  • 跨模態(tài)差異影響融合效果
  • 模態(tài)對(duì)齊評(píng)估效率比較低

2. 現(xiàn)有難點(diǎn)的解決方案

本篇主要來(lái)講述模態(tài)對(duì)齊的部分。

多模態(tài)模型架構(gòu)與訓(xùn)練方法

在開(kāi)始前先簡(jiǎn)單回顧一下多模態(tài)模型架構(gòu)與訓(xùn)練方法~

目前MLLM常見(jiàn)的輸入模態(tài)包括圖像、視頻、音頻,另外IMU(慣性測(cè)量單元,Inertial Measurement Unit)傳感器數(shù)據(jù)以及腦波等生理信號(hào)數(shù)據(jù)也有在嘗試接入。

下圖是一個(gè)可以參考的多模態(tài)大模型基本架構(gòu)。

大模型面經(jīng)——MLLM中模態(tài)對(duì)齊有哪些難點(diǎn)?有什么解決方法?-AI.x社區(qū)

典型的多模態(tài)大模型基本架構(gòu)(來(lái)源:騰訊AI Lab)

目前多模態(tài)大模型的訓(xùn)練方法和架構(gòu)上比較趨同,多采用兩段式訓(xùn)練方法,按照一定次序分別訓(xùn)練視覺(jué)編碼器和語(yǔ)言模型,但最后階段都會(huì)訓(xùn)練到跨模態(tài)映射(Q-former或者M(jìn)LP)的參數(shù)。

大模型面經(jīng)——MLLM中模態(tài)對(duì)齊有哪些難點(diǎn)?有什么解決方法?-AI.x社區(qū)

兩段式訓(xùn)練方法(來(lái)源:阿里巴巴達(dá)摩院)


具體來(lái)說(shuō):

第一階段,通過(guò)模態(tài)對(duì)齊預(yù)訓(xùn)練,將映射層和模態(tài)編碼器(Modality 的輸出優(yōu)化映射到聯(lián)合LLM嵌入空間,進(jìn)行各模態(tài)的對(duì)齊。

第二階段,通過(guò)多模態(tài)指令調(diào)整,模型將系統(tǒng)指令/文本查詢(xún)與輸入多模態(tài)上下文相關(guān)聯(lián)。CLIP ViT-L等就是比較典型的特定模態(tài)編碼器。

可以看到模態(tài)對(duì)齊確實(shí)是非常重要的部分。

數(shù)據(jù)模態(tài)對(duì)齊的難點(diǎn)和解決方案

1. 安全性難點(diǎn)

多模態(tài)數(shù)據(jù)對(duì)齊需要文本指令、上下文響應(yīng),以及非文本模態(tài)(如圖像/音頻)的強(qiáng)關(guān)聯(lián)標(biāo)注。此外目前新興的生物信號(hào)、傳感器信號(hào)等數(shù)據(jù)在建模時(shí)也需要考慮,以及標(biāo)注過(guò)程中還需要考慮COT的部分。

目前數(shù)據(jù)收集過(guò)程中需要著重考慮內(nèi)容相關(guān)性和安全性,需要人工介入的環(huán)節(jié)非常多,因此成本極高且難以規(guī)?;?。

2. 解決方案簡(jiǎn)述

可以通過(guò)標(biāo)注或合成的方式構(gòu)建一部分引導(dǎo)樣本,引導(dǎo)生成內(nèi)容與生成風(fēng)格,并以目標(biāo)嵌入的方式替代真實(shí)的多模態(tài)數(shù)據(jù),在MLLM的前向傳播過(guò)程中引導(dǎo)生成相關(guān)引導(dǎo)目標(biāo)嵌入來(lái)進(jìn)行優(yōu)化。

3. 具體示例說(shuō)明

上面的話可能有些抽象,這里推薦一篇ACL2025北航彭浩團(tuán)隊(duì)提出的合成嵌入技術(shù)SEA(Synthetic Embedding augmented safety Alignment)框架輔助大家理解。

大模型面經(jīng)——MLLM中模態(tài)對(duì)齊有哪些難點(diǎn)?有什么解決方法?-AI.x社區(qū)

SEA在模態(tài)編碼器表示空間中優(yōu)化合成嵌入,替代真實(shí)多模態(tài)數(shù)據(jù);通過(guò)梯度更新生成目標(biāo)嵌入,比如對(duì)訓(xùn)練結(jié)果有害的相關(guān)向量,與文本指令結(jié)合構(gòu)建訓(xùn)練數(shù)據(jù)集。

主要分為3個(gè)階段,下面簡(jiǎn)單的進(jìn)行表述。

大模型面經(jīng)——MLLM中模態(tài)對(duì)齊有哪些難點(diǎn)?有什么解決方法?-AI.x社區(qū)

1)數(shù)據(jù)準(zhǔn)備

構(gòu)建一個(gè)文本安全對(duì)齊數(shù)據(jù)集

大模型面經(jīng)——MLLM中模態(tài)對(duì)齊有哪些難點(diǎn)?有什么解決方法?-AI.x社區(qū)

其中x表示有害指令,y是道德響應(yīng),對(duì)于每個(gè)pair構(gòu)建一個(gè)輔助數(shù)據(jù)集,用于內(nèi)容控制和風(fēng)格控制。

內(nèi)容控制的樣本示例

指令:請(qǐng)簡(jiǎn)要描述圖像中的活動(dòng)(產(chǎn)品)

目標(biāo)真值:響應(yīng)前綴 + 答案

風(fēng)格控制的樣本示例

指令:圖像的風(fēng)格是什么?

目標(biāo)真值:響應(yīng)前綴 + 風(fēng)格描述(風(fēng)格描述要從預(yù)定義的風(fēng)格集合中隨機(jī)采樣)

2)嵌入優(yōu)化

對(duì)于每個(gè)pair,準(zhǔn)備一個(gè)空白圖像(或空白視頻、靜音音頻)的嵌入 E0,并將其作為可訓(xùn)練的嵌入進(jìn)行優(yōu)化。

優(yōu)化目標(biāo)是給定E0,以及內(nèi)容控制和風(fēng)格控制的指令,最大化MLLM生成內(nèi)容控制和風(fēng)格控制目標(biāo)樣本的概率。優(yōu)化過(guò)程如下:

大模型面經(jīng)——MLLM中模態(tài)對(duì)齊有哪些難點(diǎn)?有什么解決方法?-AI.x社區(qū)


3)安全性對(duì)齊

將優(yōu)化后的嵌入 Ei與文本數(shù)據(jù)集 DT結(jié)合,構(gòu)建多模態(tài)數(shù)據(jù)集 

大模型面經(jīng)——MLLM中模態(tài)對(duì)齊有哪些難點(diǎn)?有什么解決方法?-AI.x社區(qū)


對(duì)于每個(gè)x,添加一個(gè)前綴,如“圖像顯示一個(gè)活動(dòng)(產(chǎn)品)。請(qǐng)理解它并回答以下問(wèn)題?!鄙?。保留 DT 中的響應(yīng)。

在安全性對(duì)齊訓(xùn)練中,忽略模態(tài)編碼器 M(?),修改MLLM的前向傳播過(guò)程為

大模型面經(jīng)——MLLM中模態(tài)對(duì)齊有哪些難點(diǎn)?有什么解決方法?-AI.x社區(qū)

使其適應(yīng)現(xiàn)有的安全性對(duì)齊訓(xùn)練策略。

個(gè)人認(rèn)為這種方法在實(shí)踐中還是比較實(shí)用,目前在圖像這個(gè)模態(tài)中應(yīng)用的會(huì)更多一些;未來(lái)積累的這里具備引導(dǎo)性質(zhì)的Embedding庫(kù)本身就具備很大的價(jià)值。

大佬們有更多見(jiàn)解的話,可以加微信一起多多討論。

參考文獻(xiàn):

[1]  GPT-4o 實(shí)現(xiàn)真正的多模態(tài)大一統(tǒng)了嗎?技術(shù)難度多高? - 知乎(https://www.zhihu.com/question/655951646/answer/3498544864?share_code=SyMNrAHBEGXN&utm_psn=1911120005984163324)

[2] SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings  (https://arxiv.org/pdf/2502.12562)


本文轉(zhuǎn)載自??瓦力算法學(xué)研所??,作者:喜歡瓦力的卷卷


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-6-10 10:42:03修改
1
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦