Gemini vs GPT-4V到底哪家強?視覺-語言模型的全面比較和結合使用
本文經(jīng)自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。
概括
大家好,我是戚張揚,目前就讀于香港大學,今天和大家分享一篇我們關于視覺語言模型最新的研究,這篇論文提供了對谷歌的Gemini和OpenAI的GPT-4V(ision)兩個SOTA模型的深入定性比較研究。我們的研究涉及到對這兩個模型在視覺語言能力、與人類的互動、時間理解以及智力和情感智商等關鍵維度上的多方面評估。完整的例子和論文請見Arxiv Paper (115 pages)。
論文鏈接:https://arxiv.org/abs/2312.15011
Gemini的獨特輸入模式
我們的目標是澄清Gemini的輸入模式。GPT-4V的輸入模式支持連續(xù)攝入多個圖像作為上下文,因此具有增強的記憶能力。然而,對于Gemini,它的獨特屬性體現(xiàn)在以下幾個方面:
- 單圖像輸入。 Gemini一次只能輸入一張圖像。此外,它無法處理獨立的圖像;相反,它需要附帶的文本說明。
- 有限的記憶容量。 與GPT-4V不同,Gemini的多模塊缺乏保留過去圖像輸入和輸出記憶的能力。因此,在處理多個圖像時,我們的方法需要將所有圖像合并為單一圖像輸入。除非另有明示說明,否則將使用這種綜合輸入模式。
- 敏感信息屏蔽。 當處理包含明確的面部或醫(yī)療信息的圖像時,Gemini在一定程度上表現(xiàn)出模糊處理,無法識別這些圖像。這可能對其泛化能力造成一定限制。
- 圖像和鏈接輸出。 與僅能生成文本輸出的GPT-4V不同,Gemini具有創(chuàng)建與內容相關的圖像并提供相應鏈接的能力。這建立了一種類似于搜索引擎功能的更高級的關聯(lián)。
- 視頻輸入和理解。 Gemini展示了理解視頻的能力,需要YouTube鏈接作為視頻輸入。需要注意的是,它可以有效處理附帶準確字幕文件的視頻。然而,在處理單一、簡單和信息稀缺的視頻時,其理解能力可能受到限制。
Contents
五個方面的比較:
第節(jié)到第節(jié) 將多模態(tài)評估分為五個方面。第一級涉及對圖像及其中文本的基本識別。第二級超越了識別,需要進一步的推理和推斷。第三級包括多模態(tài)理解和涉及多個圖像的推理。
- 第節(jié):圖像識別與理解。 它涉及對圖像內容的基本識別和理解,不涉及進一步的推理,包括識別地標、食物、標志、抽象圖像、自動駕駛場景、虛假信息檢測、發(fā)現(xiàn)差異和物體計數(shù)等任務。
- 第節(jié):圖像中的文本識別與理解。 它集中在圖像中的文本識別(包括OCR),如場景文本、數(shù)學公式和圖表及表格文本識別等。同樣,在這里不進行文本內容的進一步推斷。
- 第節(jié):圖像推理能力。 超越基本圖像識別,這一部分涉及更高級的推理。這包括理解幽默和科學概念,以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達等邏輯推理能力。
- 第節(jié):圖像中的文本推理。 在文本識別的基礎上,它涉及超越文本識別的進一步推理,包括數(shù)學問題解決、圖表信息推理以及紙張、報告和圖形設計等文檔理解。
- 第節(jié):圖像和文本的綜合理解。 它評估涉及圖像和文本的集體理解和推理能力。例如,任務包括從超市購物車中挑選物品,以及指導和修改圖像生成等。
三項專業(yè)任務:
第節(jié)到第節(jié) 評估了三項專業(yè)任務的性能,即對象定位、時間理解和多語言理解。
- 第節(jié):物體定位。 強調對象定位能力,要求模型提供指定對象的相對坐標。這包括關注室外物體,如停車場中的汽車和抽象圖像定位。
- 第節(jié):時間視頻理解。 通過關鍵幀評估模型對時間性的理解。這一部分包括兩項任務:一項涉及對視頻序列的理解,另一項關注關鍵幀的排序。
- 第節(jié):多語言能力。 它全面評估在識別、理解和生成多種語言內容方面的能力。這包括在圖像中識別非英語內容和以其他語言表達信息的能力。
行業(yè)應用:
第節(jié) 展示了多模態(tài)大型模型的各種應用場景。我們旨在向行業(yè)展示更多可能性,提供創(chuàng)新的思路??梢愿鶕?jù)特定領域的需求定制多模態(tài)大型模型。在這里,我們展示了七個子領域:
- 第節(jié):應用:缺陷檢測。 這項任務涉及檢測工業(yè)裝配線上產(chǎn)品的缺陷,包括紡織品、金屬零件、藥品等。
- 第節(jié):應用:雜貨結賬。 這指的是超市的自動結賬系統(tǒng),旨在識別購物車中的所有物品以進行結賬。目標是全面識別購物車內的所有物品。
- 第節(jié):應用:汽車保險。 這項任務涉及評估車禍中的損壞程度,并提供大致的維修成本,以及提供維修建議。
- 第節(jié):應用:定制字幕生成器。 目標是在場景中識別各種對象的相對位置,提前提供對象名稱作為條件和提示。
- 第節(jié):應用:評估圖像生成。 這涉及評估生成圖像與給定文本提示之間的一致性,評估生成模型的質量。
- 第節(jié):應用:具身智能代理。 這個應用涉及將模型部署在具體智能和智能家居系統(tǒng)中,為室內情景提供思考和決策。
- 第節(jié):應用:導航。 這項任務側重于指導用戶瀏覽PC/Mobile GUI界面,協(xié)助信息接收、在線搜索和購物任務。
Demos
第2節(jié):圖像識別與理解
對圖像內容的基本識別和理解,不涉及進一步的推理,包括識別地標、食物、標志、抽象圖像、自動駕駛場景、虛假信息檢測、發(fā)現(xiàn)差異和物體計數(shù)等任務。屬于第一層最為基本的任務。一共有9個小節(jié)。
2.1 基本物體的識別
這里是測試模型基礎的物體識別和描述能力。GPT-4V和Gemini都能夠準確識別基本物體并根據(jù)需要提供文本描述,并無顯著差異。
2.2 風景名勝識別
雖然這兩個模型都擅長準確識別地標,但GPT-4V生成簡潔的描述,而Gemini在旅游景點甚至室內傾向于提供更詳細的敘述。甚至給出相應的景點其他圖片和相關資料鏈接。
2.3 食品識別
這兩個模型都展現(xiàn)出識別廣泛種類的菜肴的能力,擴展了它們對菜肴圖像中細節(jié)如配料、裝飾和烹飪技巧的識別能力。結論基本和風景名勝一樣。
2.4 Logo識別
這兩個模型都成功識別了標志并提供了全面的描述,捕捉了設計、顏色、形狀和符號表示等各個方面的信息。
2.5 抽象圖片識別
盡管GPT-4V提供了合理的回答,但Gemini提供的回答似乎不太符合邏輯。在識別七巧板這種抽象圖片中,Gemini的能力相對欠缺??赡苁怯捎谑撬袌D拼接輸入的結果。
2.6 室外場景理解(自動駕駛)
這兩個模型都擅長提供場景自動駕駛和物體的詳細描述。在第一個例子中,Gemini的描述展示了一個小錯誤。
2.7 反事實示例(捏造物體)
這個意思是給定一張圖片。文字prompt中讓模型在圖片中尋找不存在的物體。我們發(fā)現(xiàn)這兩個模型都能夠提供與圖像中所呈現(xiàn)的場景和物體相關的事實性描述。
2.8 物體計數(shù)能力
任務是統(tǒng)計圖片中水果的數(shù)量。兩個模型在計數(shù)方面都有待提高。與GPT-4V相比,Gemini的計數(shù)能力相對較弱。由于Gemini的多模態(tài)記憶性能相對較弱,它無法被引導到正確的答案。
2.9 找不同的能力
這里是兩張圖片找不同的能力。GPT-4V和Gemini在找不同方面都有一定的局限。GPT-4V找不同的能力更強一些,更加準確。
第3節(jié):圖像中的文本識別與理解
它集中在圖像中的文本識別(包括OCR),如場景文本、數(shù)學公式和圖表及表格文本識別等。同樣,在這里不進行文本內容的進一步推斷。屬于第一層最為基本的任務。一共有9個小節(jié)。
3.1 場景文字識別
這里是從股市交易板,室外店鋪招牌等場景中去提取文字以及數(shù)字信息。這兩個模型都展現(xiàn)出在許多復雜情境下識別場景文本的熟練能力。
3.2 數(shù)學公式識別
這里是將圖片中的公式轉化為Latex格式,我們發(fā)現(xiàn)無論是GPT-4V還是Gemini在數(shù)學公式識別方面均較為欠缺。當公式變復雜時,都無法準確讀出公式。
3.3 圖表信息識別
這里展示的是針對表格圖片的文字識別和提取。整體來說,這里GPT-4V的能力不如Gemini Pro。
第4節(jié):圖像推理能力
超越基本圖像識別,這一部分涉及更高級的推理。這包括理解幽默和科學概念,以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達等邏輯推理能力。這里屬于第二個層次即除了基本識別需要進行進一步的推理。一共有6個小節(jié)。
4.1 幽默信息理解(梗圖)
在幽默圖片理解方面。GPT-4V和Gemini都展現(xiàn)出了令人滿意的能力,可以理解嵌入在Memes中的幽默。
4.2 科學常識理解
GPT-4V和Gemini都能夠以理解科學的常識,并收集必要的信息來回答問題。在第一個例子中,Gemini的描述中存在遺漏。
4.3 偵探識別
這里的任務是給定一個房屋的圖片,去推理屋子主人的性格。GPT-4V和Gemini都能夠根據(jù)常識很好地推斷圖像。
4.4 圖片組合能力
這里是一個人用袋子裝扮自己的頭和身子。GPT-4V和Gemini都知道如何以合理的方式組合這三個部分。當然,在這里GPT-4V提供了一個更令人滿意的答案,給出了三張子圖片組合成一張圖片的順序。
4.5 IQ測試(公務員考試:找規(guī)律)
對于Wechsler成人智力量表(WAIS)中的找規(guī)律問題,Gemini表現(xiàn)不佳。這表明它在識別和比較多個圖像方面的能力可能有限。
4.6 EQ測試(情緒理解和輸出)
在對于圖片所表達的情感上。GPT-4V和Gemini都理解不同的視覺內容如何引發(fā)人類情感。
第5節(jié):圖像中的文本推理
超越基本圖像識別,這一部分涉及更高級的推理。這包括理解幽默和科學概念,以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達等邏輯推理能力。這里屬于第二個層次即除了基本識別需要進行進一步的推理。一共有3個小節(jié)。
5.1 解決數(shù)學題目
針對簡單的數(shù)學問題,GPT-4V和Gemini都能夠給出準確的回答。
5.2 圖標理解
這里我們展示的是針對流程圖的理解。這個例子中兩個模型都能夠將流程圖轉化為Python代碼。
5.3 文檔理解
這里展示的是一個公寓房屋的平面設計圖。這里兩個模型都給出了準確的回答。但是Gemini的回答更加的完整,有條理。
第6節(jié):圖像和文本的綜合理解
超越基本圖像識別,這一部分涉及更高級的推理。這包括理解幽默和科學概念,以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達等邏輯推理能力。這里屬于第三個層次針對圖文的綜合性理解。一共有2個小節(jié)。
6.1 交錯的圖像文本輸入
這個圖像涉及輸入多張賬單并計算其中的稅款。GPT-4V可以準確提供輸出,而Gemini對于連接在一起的圖像的回答不令人滿意。然而,它在為每張圖像提供個別答案方面表現(xiàn)良好。
6.2 針對圖像生成的識別的評分
通過自我反思來改進文本到圖像模型SDXL的生成文本提示,GPT-4V反映出了初始提示中沒有提及狗的品種的錯誤,并做出了正確的修訂。而Gemini生成的文本提示更好,提到了狗的品種。
第7節(jié):物體定位
強調對象定位能力,要求模型提供指定對象的相對坐標(左上角和右下角的坐標)。這包括關注室外物體,如停車場中的汽車和抽象圖像定位。一共有2個小節(jié)。
7.1 現(xiàn)實世界中的物體定位
這里是針對識別出停車場中的一個汽車。在這之前我們給出了一個啤酒瓶定位的例子。GPT-4V和Gemini都能夠理解坐標以生成視覺指示輸出。
7.2 抽象圖像定位
這里是針對指出抽象物體七巧板中的一個部分的位置。通過提示它們輸出定位框的角點,GPT-4V可以定位到抽象鵝的頭部,而Gemini在這種情況下未能成功。
第8節(jié):時間視頻理解
通過關鍵幀評估模型對時間性的理解。這一部分包括兩項任務:一項涉及對視頻序列的理解,另一項關注關鍵幀的排序。一共有2個小節(jié)。
8.1 時序動作識別
在給定一系列連續(xù)動作的情況下,GPT-4V和Gemini都能夠生成正確的理解。
8.2 關鍵幀排序
壽司制作過程是無序的,只有GPT4-V能夠找到正確的順序,而Gemini在這種情況下失敗了。
第9節(jié):多語言能力
它全面評估在識別、理解和生成多種語言內容方面的能力。這包括在圖像中識別非英語內容和以其他語言表達信息的能力。一共有2個小節(jié)。
9.1 圖片多語言理解輸出
GPT-4V和Gemini都能夠用不同的語言描述圖像。
9.2 多語言場景文字理解
GPT-4V和Gemini都可以識別這三張圖片中的場景文本。
第10節(jié):應用
展示了多模態(tài)大型模型的各種應用場景。我們旨在向行業(yè)展示更多可能性,提供創(chuàng)新的思路??梢愿鶕?jù)特定領域的需求定制多模態(tài)大型模型。在這里,我們展示了七個子領域。
10.1 應用:缺陷檢測
這里是進行工業(yè)流水線上進行缺陷檢測。這兩個模型都能夠相當準確地檢測圖像中物體的缺陷。然而,值得注意的是,在這類任務中,Gemini提供了更多的細節(jié)。
10.2 應用:雜貨結賬
這里是超市自助收銀的應用。雖然GPT-4V提供了更全面和詳細的結果,但也存在一些錯誤。另一方面,Gemini只識別了四個對象,但是識別是正確的,甚至為每個項目都包括了相應的圖像。這表明,雖然GPT-4V在發(fā)現(xiàn)方面提供了廣度,但Gemini提供了準確性,在執(zhí)行這類任務時展示了不同的優(yōu)勢。
10.3 應用:汽車保險
這里是進行車禍現(xiàn)場的損傷程度判斷。兩者都展示了他們執(zhí)行全面、詳細和準確的損傷評估的能力。
10.4 應用:定制字幕生成器
這里是首先將單個物體的圖片和名稱輸入給模型作為prompt,之后再輸入一個完整的場景讓模型去描述其中各個物體的相對位置。GPT-4V提供了更全面、準確和有條理的描述,而Gemini則表現(xiàn)不佳,未能識別左圖中蝸牛殼的存在,并錯誤地描述了蝸牛的位置。這表明,雖然GPT-4V在提供詳細和精確的描述方面表現(xiàn)出色。
10.5 應用:評估圖像生成
針對圖像生成文字prompt和生成圖片的匹配度測試。這兩個模型都準確描述了圖像內容并提供了相應的解釋和一致的分數(shù)。值得注意的是,Gemini為其評估提供了更詳細的理由。
10.6 應用:具身智能代理
再Embodied AI的應用上。GPT-4V提供了正確的回答,并附帶清晰而簡潔的解釋。相比之下,Gemini提供的回答完全不正確。
10.7 應用:GUI導航
在這個例子中,我們給的是使用PC網(wǎng)絡搜索引擎去搜索麻婆豆腐的菜譜。這里是從剛開機的電腦界面一步步利用多模態(tài)模型進行引導。這里我們僅僅給出了第一步。
第11節(jié):將GPT-4V和Gemini進行結合
在本節(jié)中,我們探索如何將GPT-4V和Gemini進行結合,利用他們各自的優(yōu)勢,一共有2個小節(jié)。
11.1 產(chǎn)品識別和推薦
我們首先使用GPT-4V來描述圖片中的所有物體,然后將GPT-4V的答案作為輸入的一部分,使用Gemini來推薦類似產(chǎn)品的鏈接。
11.2 多圖像識別和故事生成
我們首先使用GPT-4V來描述圖片中包含的所有場景,然后使用Gemini生成一個特定風格的長篇故事。
Conclusions
我們已經(jīng)對GPT-4V和Gemini的多模態(tài)理解和推理能力進行了全面的比較,涵蓋了多個方面,并得出了以下結論:
圖像識別與理解。 在基本圖像識別任務中,兩個模型表現(xiàn)出了可比較的性能,并能夠有效地完成任務。
圖像中的文本識別與理解。 兩個模型都擅長從圖像中提取和識別文本。然而,在復雜的公式和儀表盤識別方面還需要改進。Gemini在讀取表格信息方面表現(xiàn)更好。
圖像推理能力。 在圖像推理方面,兩個模型都在常識理解方面表現(xiàn)出色。與GPT-4V相比,Gemini在尋找模式方面稍顯不足(智力測試)。在情感理解測試中,兩者都能理解情感并具有審美判斷能力。
圖像中的文本推理。 在文本推理領域,當處理復雜的基于表格的推理和數(shù)學問題解決任務時,Gemini表現(xiàn)出相對較低的性能水平。此外,Gemini傾向于提供更詳細的輸出。
綜合圖像和文本理解。 在涉及復雜文本和圖像的任務中,由于Gemini無法一次輸入多個圖像,它在某些方面落后于GPT-4V,盡管在處理單一圖像的文本推理方面與GPT-4V表現(xiàn)相似。
對象定位。 兩個模型在現(xiàn)實世界的對象定位方面表現(xiàn)相似,Gemini在抽象圖像(七巧板)的定位方面略遜一籌。
時間視頻理解。 在理解時間性方面,Gemini的單一圖像輸入模式在某些方面不及GPT-4V,特別是在理解序列方面。
多語言能力。 兩個模型都展現(xiàn)出良好的多語言識別、理解和輸出能力,能夠有效完成多語言任務。
在工業(yè)應用方面,Gemini在具體智能代理和GUI導航方面不如GPT-4V,這也歸因于Gemini的單一圖像、非記憶輸入模式。結合這兩個大型模型可以發(fā)揮它們各自的優(yōu)勢。總的來說,Gemini和GPT-4V都是強大而令人印象深刻的多模態(tài)大型模型。就整體性能而言,GPT-4V略優(yōu)于Gemini Pro。這與Gemini報告的結果一致。我們期待Gemini Ultra和GPT-4.5的發(fā)布,它們有望為視覺多模態(tài)應用領域帶來更多可能性。
Citation
如果您覺得有用,請引用:
@misc{qi2023gemini,
title={Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases},
author={Zhangyang Qi and Ye Fang and Mengchen Zhang and Zeyi Sun and Tong Wu and Ziwei Liu and Dahua Lin and Jiaqi Wang and Hengshuang Zhao},
year={2023},
eprint={2312.15011},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
原文鏈接:https://mp.weixin.qq.com/s/ueSAHlSYdPP_emTYxMa2DQ