可信度超越GPT-4V,清華&面壁揭秘「小鋼炮」模型背后的高效對(duì)齊技術(shù)
近期,由清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室聯(lián)合面壁智能推出的全新開(kāi)源多模態(tài)大模型 MiniCPM-Llama3-V 2.5 引起了廣泛關(guān)注,在發(fā)布后火速登頂 Hugging Face、GitHub、Papers With Code 的 Trending 榜首,與 Meta、微軟、谷歌等科技巨頭共同從全球 66 萬(wàn)模型中脫穎而出。與此同時(shí),該模型使用的多模態(tài)對(duì)齊數(shù)據(jù)集也登上了 Hugging Face Trending 第二位。
僅有 8B 體量的 MiniCPM-Llama3-V 2.5 不僅在多模態(tài)綜合性能上超越了商用閉源的 GPT-4V、Gemini Pro、Claude3,同時(shí)在模型可信度方面也達(dá)到了開(kāi)源模型中的最高水平。其出色的性能離不開(kāi)背后的一項(xiàng)關(guān)鍵性技術(shù) ——RLAIF-V。這項(xiàng)技術(shù)基于完全開(kāi)源的范式進(jìn)行多模態(tài)大模型的對(duì)齊,實(shí)現(xiàn)了超越 GPT-4V 的可信度。
- 論文:RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness
- 論文地址: https://arxiv.org/abs/2405.17220
- 項(xiàng)目地址:https://github.com/RLHF-V/RLAIF-V
- DEMO:https://huggingface.co/spaces/openbmb/RLAIF-V-12B
RLAIF-V 核心特點(diǎn)
從亦步亦趨邁向切磋琢磨,通過(guò)開(kāi)源反饋實(shí)現(xiàn)超越 GPT-4V 的可信度。
已有的多模態(tài)大模型對(duì)齊方案主要采用蒸餾 GPT-4V 等昂貴的閉源模型的方式,實(shí)際上提供了一種模仿的方法(“亦步亦趨”)。隨著開(kāi)源社區(qū)的不斷發(fā)展,我們急需一種能夠讓開(kāi)源模型利用能力相仿或者相同的模型提供反饋,進(jìn)行自動(dòng)對(duì)齊的方案(“切磋琢磨”)。RLAIF-V 通過(guò)無(wú)偏候選構(gòu)造和分而治之的反饋收集策略,可以從 OmniLMM 12B 等常規(guī)開(kāi)源模型收集大規(guī)模的高質(zhì)量反饋數(shù)據(jù)。通過(guò)充分利用這些數(shù)據(jù),RLAIF-V 12B 模型在生成任務(wù)和判別任務(wù)中都實(shí)現(xiàn)了超越 GPT-4V 的可信度。
RLAIF-V 學(xué)習(xí)范式與模型可信度對(duì)比
具備優(yōu)秀泛用性的大規(guī)模高質(zhì)量反饋數(shù)據(jù)。
研究團(tuán)隊(duì)將訓(xùn)練 RLAIF-V 7B 和 RLAIF-V 12B 過(guò)程中所構(gòu)造的高質(zhì)量對(duì)齊數(shù)據(jù)整理為規(guī)模超過(guò) 83k 的多任務(wù)多模態(tài)對(duì)齊數(shù)據(jù)集 RLAIF-V Dataset,包括圖片詳細(xì)描述、圖片知識(shí)問(wèn)答、文字識(shí)別等多類(lèi)指令,圖片種類(lèi)覆蓋照片、藝術(shù)作品、名人、地標(biāo)、場(chǎng)景文字等。實(shí)驗(yàn)表明,該數(shù)據(jù)集可有效減少 LLaVA 1.5, MiniCPM-V 等不同多模態(tài)大模型在多種任務(wù)中的幻覺(jué),展現(xiàn)出了優(yōu)秀的泛用性。
RLAIF-V 數(shù)據(jù)泛用性
迭代對(duì)齊的高效反饋學(xué)習(xí)。
在現(xiàn)有的模型訓(xùn)練中,采用的偏好數(shù)據(jù)是靜態(tài)的,但隨著訓(xùn)練的進(jìn)行,模型的輸出分布卻在不斷變化,這導(dǎo)致訓(xùn)練數(shù)據(jù)分布與模型真實(shí)分布產(chǎn)生偏移,從而無(wú)法充分利用偏好數(shù)據(jù),影響模型的對(duì)齊效率。RLAIF-V 采用了迭代的方式進(jìn)行對(duì)齊訓(xùn)練,相較于非迭代方法表現(xiàn)出了更高的學(xué)習(xí)效率和更好的性能,具有更優(yōu)秀的規(guī)模效應(yīng)。
迭代與非迭代式訓(xùn)練的效果對(duì)比
更可靠全面的多模態(tài)評(píng)測(cè)集 RefoMB。
隨著模型能力的發(fā)展,已有的評(píng)測(cè)集或存在評(píng)測(cè)飽和的情況,或評(píng)測(cè)準(zhǔn)確性不足,從而難以正確區(qū)分不同可信度的模型。為此,RLAIF-V 提出了新的 RefoMB 評(píng)測(cè)集,其指令覆蓋了多模態(tài)模型感知和推理任務(wù)中的 8 個(gè)子能力,并包含了卡通圖片、富文字圖片、照片等多樣化的圖片類(lèi)型,用于評(píng)估現(xiàn)有多模態(tài)模型在開(kāi)放生成時(shí)的回復(fù)可信度和通用性能。通過(guò)人工標(biāo)注圖片詳細(xì)描述作為評(píng)判參考,RefoMB 有效提高了評(píng)測(cè)準(zhǔn)確性,人工一致性可以達(dá)到 96%。
RefoMB 指令類(lèi)型分布
RLAIF-V 框架
RLAIF-V 包含兩項(xiàng)創(chuàng)新方法:數(shù)據(jù)層面,提出完全基于開(kāi)源模型的高質(zhì)量反饋數(shù)據(jù)構(gòu)造方法;算法層面,采用迭代對(duì)齊算法進(jìn)行模型優(yōu)化。
RLAIF-V 框架
大規(guī)模高質(zhì)量開(kāi)源模型反饋數(shù)據(jù)的構(gòu)造
為了減小反饋對(duì)齊數(shù)據(jù)的獲取成本,實(shí)現(xiàn)規(guī)?;姆答亴?duì)齊數(shù)據(jù)獲取,并提高開(kāi)源多模態(tài)大模型提供反饋的質(zhì)量,研究團(tuán)隊(duì)結(jié)合分而治之的思想,提出了如下數(shù)據(jù)構(gòu)造流程以實(shí)現(xiàn)高質(zhì)量開(kāi)源模型反饋的獲?。?/span>
- 無(wú)偏候選回復(fù)生成(deconfounded candidate response generation):使用隨機(jī)解碼方法生成多個(gè)候選響應(yīng)。在這種生成方式下,不同回復(fù)來(lái)自一個(gè)相同的分布,有效消除了樣本對(duì)之間的文本風(fēng)格差異等混淆因素,使訓(xùn)練過(guò)程專(zhuān)注于內(nèi)容的可信度,從而提高數(shù)據(jù)效率。
- 分而治之(divide-and-conquer):將復(fù)雜的響應(yīng)分解為更簡(jiǎn)單、可以單獨(dú)評(píng)估的子問(wèn)題。這種簡(jiǎn)化使開(kāi)源多模態(tài)大模型可以提供更可靠的反饋。
應(yīng)用這種數(shù)據(jù)構(gòu)造方法,我們不僅可以利用具有更高模型性能的開(kāi)源多模態(tài)大模型為性能較弱的模型提供反饋,還能夠通過(guò)模型自身反饋的方式,使 OmniLMM 12B 模型實(shí)現(xiàn)超越 GPT-4V 的可信度。
迭代對(duì)齊算法
為了緩解現(xiàn)有對(duì)齊算法存在的分布偏移問(wèn)題,一個(gè)直接的思路是在每步優(yōu)化時(shí)更新反饋數(shù)據(jù)。但是,這種在線(xiàn)反饋的方式開(kāi)銷(xiāo)大、訓(xùn)練不穩(wěn)定。因此,研究團(tuán)隊(duì)采用了一種迭代對(duì)齊算法,在每輪迭代中更新反饋數(shù)據(jù),提升數(shù)據(jù)與模型分布的一致性。具體而言,在每一輪迭代時(shí),利用上一輪訓(xùn)練得到的模型權(quán)重生成新的反饋數(shù)據(jù),并使用新數(shù)據(jù)進(jìn)行訓(xùn)練。
迭代對(duì)齊算法
RefoMB 評(píng)測(cè)集
在開(kāi)放問(wèn)答下的多模態(tài)幻覺(jué)評(píng)測(cè)中,有兩類(lèi)常見(jiàn)評(píng)測(cè)方式。一類(lèi)是利用圖片標(biāo)注的常見(jiàn)物體類(lèi)型,對(duì)模型回復(fù)中的存在性幻覺(jué)進(jìn)行評(píng)測(cè)的方式,例如基于 MSCOCO 標(biāo)注信息的 CHAIR 評(píng)測(cè)。另一類(lèi)則利用 GPT-4 模型作為裁判,根據(jù)參考信息對(duì)模型回復(fù)的可信度進(jìn)行打分,如 MMHal Bench 評(píng)測(cè)。
然而,隨著模型能力的增強(qiáng),僅考慮物體存在性幻覺(jué)的評(píng)測(cè)指標(biāo)接近飽和,難以區(qū)分更加先進(jìn)的模型之間的可信度差異;而采用 GPT-4 打分的形式構(gòu)造的評(píng)測(cè)集則因?yàn)樘峁┑?strong>圖片參考信息缺乏全面性,影響了可信度判斷的準(zhǔn)確性。
針對(duì)這兩個(gè)問(wèn)題,我們需要一個(gè)更加準(zhǔn)確、且能夠評(píng)估更加全面的幻覺(jué)類(lèi)型的評(píng)測(cè)集,以真實(shí)反映目前多模態(tài)模型的可信度情況。為此,研究團(tuán)隊(duì)采用了如下方法:
- 人工標(biāo)注詳盡圖片描述:通過(guò)提供人工標(biāo)注的詳盡圖片描述,GPT-4 模型能夠更好地掌握?qǐng)D片的完整信息,從而提供更準(zhǔn)確的判斷。
人工標(biāo)注詳盡圖片描述樣例
- 基于比較的評(píng)估:受語(yǔ)言大模型評(píng)測(cè)集 AlpacaEval 的啟發(fā),研究團(tuán)隊(duì)采用 GPT-4 模型對(duì)兩個(gè)多模態(tài)模型的回復(fù)優(yōu)劣進(jìn)行比較,并選擇其中更優(yōu)的回復(fù)。相比于直接對(duì)模型回復(fù)進(jìn)行打分,這種比較的形式可以產(chǎn)生更高的判斷準(zhǔn)確率。
評(píng)測(cè)結(jié)果樣例
通過(guò)以上改進(jìn),RefoMB 能夠在人工一致性上顯著優(yōu)于已有的開(kāi)放問(wèn)答幻覺(jué)評(píng)測(cè)集 MMHal Bench,達(dá)到 96% 的準(zhǔn)確率。
RefoMB 與 MMHal Bench 的評(píng)測(cè)人工一致性比較
實(shí)驗(yàn)驗(yàn)證和結(jié)果
1.RLAIF-V 在 LLaVA 1.5 和 OmniLMM 兩種多模態(tài)大模型上均產(chǎn)生了顯著的可信度提升。
為了評(píng)估模型的幻覺(jué)水平,研究團(tuán)隊(duì)測(cè)試了模型在開(kāi)放生成任務(wù)和幻覺(jué)識(shí)別任務(wù)中的可信度表現(xiàn)。團(tuán)隊(duì)還通過(guò) LLaVA Bench 評(píng)測(cè)集評(píng)估了模型在開(kāi)放對(duì)話(huà)和推理方面的性能。此外,為了全面了解模型的通用能力,研究團(tuán)隊(duì)還在結(jié)合了 6 個(gè)常用多模態(tài)評(píng)測(cè)數(shù)據(jù)集的綜合評(píng)測(cè)集 MMStar 上進(jìn)行了測(cè)試。
實(shí)驗(yàn)結(jié)果表明:相比于人類(lèi)反饋和 GPT-4V 反饋,RLAIF-V 提出的開(kāi)源模型反饋方法甚至實(shí)現(xiàn)了更好的效果。RLAIF-V 12B 模型更是在幻覺(jué)評(píng)測(cè)指標(biāo)上遠(yuǎn)超已有的開(kāi)源多模態(tài)大模型甚至 GPT-4V,在通用能力方面也能維持優(yōu)秀的性能。
圖片
RLAIF-V 與其他開(kāi)源模型及 GPT-4V 在可信度和通用能力上的對(duì)比
2. 采用 RLAIF-V 提出的分治反饋方法能夠有效提高開(kāi)源多模態(tài)大模型的反饋質(zhì)量。
為了驗(yàn)證 RLAIF-V 所提分治算法的有效性,研究團(tuán)隊(duì)分別對(duì)三種不同的反饋模型采用直接反饋與分治反饋的方式構(gòu)造了訓(xùn)練數(shù)據(jù),并評(píng)測(cè)訓(xùn)練后模型在開(kāi)放生成任務(wù)和幻覺(jué)識(shí)別任務(wù)中的可信度表現(xiàn)。
實(shí)驗(yàn)結(jié)果表明,在不同性能的反饋模型中,采用分治反饋方式訓(xùn)練得到的模型效果均顯著優(yōu)于直接反饋。
分治反饋算法與直接反饋相比的模型可信度對(duì)比
3.RLAIF-V 數(shù)據(jù)能夠與其他多模態(tài)反饋數(shù)據(jù)互補(bǔ),進(jìn)一步提升模型可信度。
目前已經(jīng)有一些工作構(gòu)造了基于人工標(biāo)注或啟發(fā)式規(guī)則的多模態(tài)反饋數(shù)據(jù),為了探究不同方法構(gòu)造數(shù)據(jù)之間的互補(bǔ)性,研究團(tuán)隊(duì)將不同類(lèi)型的反饋數(shù)據(jù)進(jìn)行了合并訓(xùn)練,并觀察模型性能的變化。從實(shí)驗(yàn)結(jié)果來(lái)看,應(yīng)用 RLAIF-V 數(shù)據(jù)能夠顯著提高模型可信度,而進(jìn)一步融合其他反饋數(shù)據(jù)時(shí),模型可信度能夠進(jìn)一步提升。
同時(shí)使用 RLAIF-V 數(shù)據(jù)與其他多模態(tài)反饋數(shù)據(jù)的效果
效果展示
使用 RLAIF-V 方法訓(xùn)練 LLaVA 1.5 7B 模型以及 OmniLMM 12B 模型后,在開(kāi)放生成問(wèn)題下,RLAIF-V 模型與 GPT-4V 模型的表現(xiàn)如下:
測(cè)試效果 1:RLAIF-V 7B 模型能夠進(jìn)行正確的推理,并具有更優(yōu)的可信度。
RLAIF-V 7B 與 GPT-4V 效果對(duì)比,其中紅色部分為幻覺(jué),綠色部分為正確的回答。注:原始問(wèn)題和回答均為英文,翻譯為中文方便閱讀
當(dāng)用戶(hù)提問(wèn) “分析圖中任務(wù)之間的關(guān)系” 時(shí),RLAIF-V 7B 與 GPT-4V 均能夠根據(jù)圖中的信息判斷出同事關(guān)系,但 GPT-4V 錯(cuò)誤地認(rèn)為講話(huà)者是站立的狀態(tài),產(chǎn)生了人物動(dòng)作上的幻覺(jué)。
測(cè)試效果 2:RLAIF-V 12B 模型能夠在回復(fù)可信度上顯著優(yōu)于 GPT-4V。
RLAIF-V 12B 與 GPT-4V 效果對(duì)比,其中紅色部分為幻覺(jué),綠色部分為正確的回答。注:原始問(wèn)題和回答均為英文,翻譯為中文方便閱讀
可以看到,當(dāng)用戶(hù)提問(wèn):“圖中可以看到的主要顏色是哪些” 時(shí),RLAIF-V 12B 以及 GPT-4V 均能夠正確回答出問(wèn)題。但 GPT-4V 的回答中對(duì)文字顏色和背景顏色的識(shí)別均產(chǎn)生了錯(cuò)誤。
測(cè)試效果 3:在更多類(lèi)型的圖片和指令上,例如代碼問(wèn)答任務(wù)上,RLAIF-V 方法同樣能減少模型幻覺(jué),產(chǎn)生更可信的回復(fù)。
RLAIF-V 12B 與 GPT-4V 效果對(duì)比,其中紅色部分為幻覺(jué),綠色部分為正確的回答。注:原始問(wèn)題和回答均為英文,翻譯為中文方便閱讀
當(dāng)要求模型解釋代碼輸出時(shí),RLAIF-V 12B 與 GPT-4V 均能夠正確推理出代碼的運(yùn)行結(jié)果,但 GPT-4V 錯(cuò)誤地認(rèn)為圖片中缺少一個(gè)分號(hào),因此代碼無(wú)法編譯成功。這表明 RLAIF-V 方法所構(gòu)造的偏好對(duì)齊數(shù)據(jù)能夠讓模型在諸如 OCR 等更廣泛的能力上的可信度同步提高。
總結(jié)
將模型輸出對(duì)齊人類(lèi)偏好是構(gòu)建實(shí)用化人工智能的關(guān)鍵環(huán)節(jié)。RLAIF-V 方法通過(guò)分而治之與迭代式訓(xùn)練的方式實(shí)現(xiàn)了僅利用開(kāi)源模型進(jìn)行可信度提升的對(duì)齊目標(biāo)。未來(lái),研究團(tuán)隊(duì)也將進(jìn)一步探索邏輯推理、復(fù)雜任務(wù)等更廣泛能力上的對(duì)齊方法。