多模態(tài)大模型幻覺降低30%!中科大等提出首個(gè)幻覺修正架構(gòu)「Woodpecker」啄木鳥
視覺幻覺是常見于多模態(tài)大語(yǔ)言模型(Multimodal Large Language Models, MLLMs)的一個(gè)典型問(wèn)題。
簡(jiǎn)單來(lái)說(shuō)就是:模型輸出的描述與圖片內(nèi)容不相符。
下圖中體現(xiàn)了兩種幻覺,紅色部分錯(cuò)誤地描述了狗的顏色(屬性幻覺),藍(lán)色部分描述了圖中實(shí)際不存在的事物(目標(biāo)幻覺)。

幻覺對(duì)模型的可靠性產(chǎn)生了顯著的負(fù)面影響,因此引起了許多研究者的重視。
以往的方法主要集中在MLLM本身,通過(guò)在訓(xùn)練數(shù)據(jù)以及架構(gòu)上進(jìn)行改進(jìn),以重新微調(diào)的方式訓(xùn)練一個(gè)新的MLLM。
然而,這種方式會(huì)造成較大的數(shù)據(jù)構(gòu)建和訓(xùn)練開銷,且較難推廣到各種已有的MLLMs。
近日,來(lái)自中科大等機(jī)構(gòu)的研究者們提出了一種免訓(xùn)練的即插即用的通用架構(gòu)「啄木鳥(Woodpecker)」,通過(guò)修正的方式解決MLLM輸出幻覺的問(wèn)題。

論文地址: https://arxiv.org/pdf/2310.16045.pdf
項(xiàng)目地址: https://github.com/BradyFU/Woodpecker
效果展示
具體來(lái)說(shuō),Woodpecker可以修正各種場(chǎng)景下模型輸出的幻覺,并輸出檢測(cè)框作為引證,表明相應(yīng)的目標(biāo)確實(shí)存在。
例如,面對(duì)描述任務(wù),Woodpecker可以修正其中帶有幻覺的部分:

對(duì)于MLLM難以檢測(cè)到的小對(duì)象,Woodpecker也可以精準(zhǔn)修正:

面對(duì)MLLM難以解決的復(fù)雜的計(jì)數(shù)場(chǎng)景,Woodpecker同樣可以進(jìn)行解決:

對(duì)于目標(biāo)屬性類的幻覺問(wèn)題,Woopecker處理地也很好:

此外,Woodpecker還提供了Demo供讀者測(cè)試使用。
如下圖所示,上傳圖片并輸入請(qǐng)求,就可以得到修正前以及修正后的模型答復(fù),以及供參考驗(yàn)證的新圖片。

方法
Woodpecker的架構(gòu)如下,它包括五個(gè)主要步驟: 關(guān)鍵概念提取、問(wèn)題構(gòu)造、視覺知識(shí)檢驗(yàn)、視覺斷言生成以及幻覺修正。

- 關(guān)鍵概念提取
關(guān)鍵概念指的是MLLM的輸出中最可能存在幻覺的存在性目標(biāo),例如上圖描述中的「自行車;垃圾桶;人」。
我們可以Prompt大語(yǔ)言模型來(lái)提取出這些關(guān)鍵概念,這些關(guān)鍵概念是后續(xù)步驟進(jìn)行的基礎(chǔ)。
- 問(wèn)題構(gòu)造
圍繞著前一步提取出的關(guān)鍵概念,Prompt大語(yǔ)言模型來(lái)提出一些有助于檢驗(yàn)圖片描述真?zhèn)蔚膯?wèn)題,如「圖中有幾輛自行車?」、「垃圾桶邊上的是什么?」等等。
- 視覺知識(shí)檢驗(yàn)
使用視覺基礎(chǔ)模型對(duì)提出的問(wèn)題進(jìn)行檢驗(yàn),獲得與圖片以及描述文本相關(guān)的信息。
例如,我們可以利用GroundingDINO來(lái)進(jìn)行目標(biāo)檢測(cè),確定關(guān)鍵目標(biāo)是否存在以及關(guān)鍵目標(biāo)的數(shù)量。因?yàn)橄馟roundingDINO這類視覺基礎(chǔ)模型對(duì)圖片的感知能力比MLLM本身的感知能力更強(qiáng)。
對(duì)于目標(biāo)顏色等這類屬性問(wèn)題,則可以利用BLIP-2來(lái)進(jìn)行回答。BLIP-2這類傳統(tǒng)VQA模型輸出答案的長(zhǎng)度有限,幻覺問(wèn)題也更少。
- 視覺斷言生成
基于前兩步中獲得的問(wèn)題以及對(duì)應(yīng)的視覺信息,合成結(jié)構(gòu)化的「視覺斷言」。這些視覺斷言可以看做與原有MLLM的回答以及輸入圖片相關(guān)的視覺知識(shí)庫(kù)。
- 幻覺修正
基于前面得到的,使用大語(yǔ)言模型對(duì)MLLM的文本輸出進(jìn)行逐一修正,并提供目標(biāo)對(duì)應(yīng)的檢測(cè)框信息作為視覺檢驗(yàn)的參照。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)選取了幾個(gè)典型的MLLM作為基線,包括: LLaVA,mPLUG-Owl,Otter,MiniGPT-4。
論文中首先測(cè)試了Woodpecker在面對(duì)目標(biāo)幻覺時(shí)的修正能力,在POPE驗(yàn)證集的實(shí)驗(yàn)結(jié)果如下表所示:

結(jié)果表明在不同的MLLM上應(yīng)用Woodpecker修正后,均有不同程度的提升。
在隨機(jī)設(shè)定下,Woodpecker給MiniGPT-4和mPLUG-Owl在準(zhǔn)確率指標(biāo)上分別帶來(lái)了30.66%和24.33%的提升。
此外,研究者還應(yīng)用更全面的驗(yàn)證集MME,進(jìn)一步測(cè)試Woodpecker在面對(duì)屬性幻覺時(shí)的修正能力,結(jié)果如下表所示:

從表中可見Woodpecker不僅在應(yīng)對(duì)目標(biāo)幻覺時(shí)有效,在修正顏色等屬性幻覺時(shí)也具有出色的表現(xiàn)。LLaVA的顏色得分從78.33分大幅提升到155分!
經(jīng)過(guò)Woodpecker修正后,四個(gè)基線模型在四個(gè)測(cè)試子集上的總分均超過(guò)500分,在總體感知能力上獲得了顯著提升。
為了更直接地衡量修正表現(xiàn),更直接的方式是使用開放評(píng)測(cè)。
不同于以往將圖片轉(zhuǎn)譯后送入純文本GPT-4的做法,文章利用OpenAI最近開放的視覺接口,提出使用GPT-4(Vision)對(duì)修正前后的圖片描述直接對(duì)下列兩個(gè)維度進(jìn)行打分:
- 準(zhǔn)確度:模型的答復(fù)相對(duì)于圖片內(nèi)容是否準(zhǔn)確
- 詳細(xì)程度:模型答復(fù)的細(xì)節(jié)豐富度
在該實(shí)驗(yàn)條件下,實(shí)驗(yàn)結(jié)果如下表所示:

結(jié)果表明經(jīng)過(guò)Woodpecker修正后圖片描述的準(zhǔn)確性有一定的提升,這說(shuō)明該框架可以有效修正描述中幻視的部分。
另一方面,Woodpecker修正后引入的定位信息豐富了文本描述,提供了進(jìn)一步的位置信息,從而提升了細(xì)節(jié)豐富度。
GPT-4V輔助的評(píng)測(cè)樣例如下圖所示:

感興趣的讀者,可以讀論文進(jìn)一步了解更多內(nèi)容。


































