「知識(shí)型圖像問(wèn)答」微調(diào)也沒(méi)用?谷歌發(fā)布搜索系統(tǒng)AVIS:少樣本超越有監(jiān)督PALI,準(zhǔn)確率提升三倍
在大型語(yǔ)言模型(LLM)的加持下,與視覺(jué)結(jié)合的多模態(tài)任務(wù),如圖像描述、視覺(jué)問(wèn)答(VQA)和開(kāi)放詞匯目標(biāo)識(shí)別(open-vocabulary object detection)等都取得了重大進(jìn)展。
不過(guò)目前視覺(jué)語(yǔ)言模型(VLM)基本都只是利用圖像內(nèi)的視覺(jué)信息來(lái)完成任務(wù),在inforseek和OK-VQA等需要外部知識(shí)輔助問(wèn)答的數(shù)據(jù)集上往往表現(xiàn)不佳。

最近谷歌發(fā)表了一個(gè)全新的自主視覺(jué)信息搜索方法AVIS,利用大型語(yǔ)言模型(LLM)來(lái)動(dòng)態(tài)地制定外部工具的使用策略,包括調(diào)用API、分析輸出結(jié)果、決策等操作為圖像問(wèn)答提供關(guān)鍵知識(shí)。

論文鏈接:https://arxiv.org/pdf/2306.08129.pdf
AVIS主要集成了三種類型的工具:
1. 從圖像中提取視覺(jué)信息的工具
2. 檢索開(kāi)放世界知識(shí)和事實(shí)的網(wǎng)絡(luò)搜索工具
3. 檢索視覺(jué)上相似的圖像搜索工具

然后使用基于大型語(yǔ)言模型的規(guī)劃器在每個(gè)步驟中選擇一個(gè)工具和查詢結(jié)果,動(dòng)態(tài)地生成問(wèn)題答案。
模擬人類決策
Infoseek和OK-VQA數(shù)據(jù)集中的許多視覺(jué)問(wèn)題甚至對(duì)人類來(lái)說(shuō)都相當(dāng)難,通常需要各種外部工具的輔助,所以研究人員選擇先進(jìn)行一項(xiàng)用戶調(diào)研,觀察人類在解決復(fù)雜視覺(jué)問(wèn)題時(shí)的解決方案。

首先為用戶配備一組可用的工具集,包括PALI,PALM和網(wǎng)絡(luò)搜索,然后展示輸入圖像、問(wèn)題、檢測(cè)到的物體裁剪圖、圖像搜索結(jié)果的鏈接知識(shí)圖譜實(shí)體、相似的圖像標(biāo)題、相關(guān)的產(chǎn)品標(biāo)題以及圖像描述。
然后研究人員對(duì)用戶的操作和輸出進(jìn)行記錄,并通過(guò)兩種方式來(lái)引導(dǎo)系統(tǒng)做出回答:
1. 通過(guò)分析用戶做出的決策序列來(lái)構(gòu)建轉(zhuǎn)換圖,其中包含不同的狀態(tài),每個(gè)狀態(tài)下的可用操作集都不同。

AVIS轉(zhuǎn)換圖
例如在開(kāi)始狀態(tài)下,系統(tǒng)只能執(zhí)行三個(gè)操作:PALI描述、PALI VQA或目標(biāo)檢測(cè)。
2. 使用人類決策的樣例來(lái)引導(dǎo)規(guī)劃器(planner)和推理器(reasoner)與相關(guān)的上下文實(shí)例,來(lái)提高系統(tǒng)的性能和有效性。
總體框架
AVIS方法采用了一個(gè)動(dòng)態(tài)的決策策略,旨在響應(yīng)視覺(jué)信息尋求查詢。
該系統(tǒng)有三個(gè)主要組成部分:
1. 規(guī)劃器(planner),用來(lái)確定后續(xù)操作,包括適當(dāng)?shù)腁PI調(diào)用以及需要處理的查詢。
2. 運(yùn)行記憶(working memory)工作內(nèi)存,保留了從API執(zhí)行中獲得的結(jié)果信息。
3. 推理器(reasoner),用來(lái)處理API調(diào)用的輸出,可以確定所獲得的信息是否足以產(chǎn)生最終響應(yīng),或者是否需要額外的數(shù)據(jù)檢索。
每次需要決定使用哪個(gè)工具以及向系統(tǒng)發(fā)送哪些查詢時(shí),規(guī)劃器都要執(zhí)行一系列操作;基于當(dāng)前狀態(tài),規(guī)劃器還會(huì)提供潛在的后續(xù)動(dòng)作。
為了解決由于潛在的動(dòng)作空間可能過(guò)多,導(dǎo)致搜索空間過(guò)大的問(wèn)題,規(guī)劃器需要參考轉(zhuǎn)換圖來(lái)消除不相關(guān)的動(dòng)作,排除之前已經(jīng)采取并存儲(chǔ)在工作記憶中的動(dòng)作。

然后由規(guī)劃器從用戶研究數(shù)據(jù)中組裝出一套上下文示例,結(jié)合之前工具交互的記錄,由規(guī)劃器制定提示后輸入到語(yǔ)言模型中,LLM再返回一個(gè)結(jié)構(gòu)化的答案,確定要激活的下一個(gè)工具以及派發(fā)的查詢。
整個(gè)設(shè)計(jì)流程可以多次調(diào)用規(guī)劃器,從而促進(jìn)動(dòng)態(tài)決策,逐步生成答案。

研究人員使用推理器來(lái)分析工具執(zhí)行的輸出,提取有用的信息,并決定工具輸出哪個(gè)類別:提供信息的、不提供信息的或最終答案。
如果推理器返回結(jié)果是「提供答案」,則直接輸出作為最終結(jié)果,結(jié)束任務(wù);如果結(jié)果是無(wú)信息,則退回規(guī)劃器,并基于當(dāng)前狀態(tài)選擇另一個(gè)動(dòng)作;如果推理器認(rèn)為工具輸出是有用的,則修改狀態(tài)并將控制權(quán)轉(zhuǎn)移回規(guī)劃器,以在新?tīng)顟B(tài)下做出新的決定。

AVIS采用動(dòng)態(tài)決策策略來(lái)響應(yīng)視覺(jué)信息搜索查詢
實(shí)驗(yàn)結(jié)果
工具集合
圖像描述模型,使用PALI 17B模型為輸入圖像和檢測(cè)到的物體裁剪圖像生成描述。
視覺(jué)問(wèn)題回答模型,使用 PALI 17B VQA 模型,將圖像和問(wèn)題作為輸入,并將基于文本的答案作為輸出。
物體檢測(cè),使用在Open Images數(shù)據(jù)集的超集上訓(xùn)練的物體檢測(cè)器,具體類別Google Lens API提供;使用高置信度閾值,只保留 輸入圖像中排名靠前的檢測(cè)框。
圖像搜索,利用Google Image Search來(lái)獲取與檢測(cè)到的方框的圖像裁剪相關(guān)的信息。
在進(jìn)行決策時(shí),規(guī)劃器將每條信息的利用都視為一項(xiàng)單獨(dú)的操作,因?yàn)槊織l信息可能包含數(shù)百個(gè)token,需要進(jìn)行復(fù)雜的處理和推理。
OCR,在某些情況下,圖像可能包含文字內(nèi)容,如街道名稱或品牌名稱,使用Google Lens API 中的光學(xué)字符識(shí)別(OCR)功能獲取文本。
網(wǎng)絡(luò)搜索,使用谷歌搜索API,輸入為文本查詢,輸出包括相關(guān)文檔鏈接和片段、提供直接答案的知識(shí)圖譜面板、最多五個(gè)與輸入查詢相關(guān)的問(wèn)題。
實(shí)驗(yàn)結(jié)果
研究人員在Infoseek和OK-VQA數(shù)據(jù)集上對(duì)AVIS框架進(jìn)行了評(píng)估,從結(jié)果中可以看到,即使是健壯性非常好的視覺(jué)語(yǔ)言模型,如OFA和PALI模型,在Infoseek數(shù)據(jù)集上進(jìn)行微調(diào)后也無(wú)法獲得高準(zhǔn)確性。

而AVIS方法在沒(méi)有微調(diào)的情況下,就實(shí)現(xiàn)了50.7%的準(zhǔn)確率。
在OK-VQA數(shù)據(jù)集上,AVIS系統(tǒng)在few-shot設(shè)置下實(shí)現(xiàn)了60.2%的準(zhǔn)確率,僅次于微調(diào)后的PALI模型。

性能上的差異可能是由于OK-VQA中的大多數(shù)問(wèn)答示例依賴于常識(shí)知識(shí)而非細(xì)粒度知識(shí),所以PALI能夠利用到在模型參數(shù)中編碼的通用知識(shí),不需要外部知識(shí)的輔助。

AVIS的一個(gè)關(guān)鍵特性是能夠動(dòng)態(tài)地做出決策,而非執(zhí)行固定的序列,從上面的樣例中可以看出AVIS在不同階段使用不同工具的靈活性。
值得注意的是,文中推理器設(shè)計(jì)使AVIS能夠識(shí)別不相關(guān)的信息,回溯到以前的狀態(tài),并重復(fù)搜索。
例如,在關(guān)于真菌分類學(xué)的第二個(gè)例子中,AVIS最初通過(guò)選擇葉子對(duì)象做出了錯(cuò)誤的決定;推理器發(fā)現(xiàn)與問(wèn)題無(wú)關(guān)后,促使AVIS重新規(guī)劃,然后成功地選擇了與假火雞尾真菌有關(guān)的對(duì)象,從而得出了正確的答案,Stereum
結(jié)論
研究人員提出了一種新的方法AVIS,將LLM作為裝配中心,使用各種外部工具來(lái)回答知識(shí)密集型的視覺(jué)問(wèn)題。
在該方法中,研究人員選擇錨定在從用戶研究中收集的人類決策數(shù)據(jù),采用結(jié)構(gòu)化的框架,使用一個(gè)基于LLM的規(guī)劃器,動(dòng)態(tài)地決定工具選擇和查詢形成。
LLM驅(qū)動(dòng)的推理器可以從所選工具的輸出中處理和提取關(guān)鍵信息,迭代地使用規(guī)劃器和推理器來(lái)選擇不同的工具,直到收集出回答視覺(jué)問(wèn)題所需的所有必要信息。

































