試過(guò)GPT-4V后,微軟寫了個(gè)166頁(yè)的測(cè)評(píng)報(bào)告,業(yè)內(nèi)人士:高級(jí)用戶必讀
一周之前,ChatGPT迎來(lái)重大更新,不管是 GPT-4 還是 GPT-3.5 模型,都可以基于圖像進(jìn)行分析和對(duì)話。與之對(duì)應(yīng)的,多模態(tài)版GPT-4V模型相關(guān)文檔也一并放出。當(dāng)時(shí) OpenAI 放出的文檔只有18頁(yè),很多內(nèi)容都無(wú)從得知,對(duì)于想要更深入了解GPT-4V應(yīng)用的人來(lái)說(shuō),難度還是相當(dāng)大的。
短短幾天時(shí)間,當(dāng)大家還在死磕OpenAI 放出的18頁(yè)文檔時(shí),微軟就公布了一份長(zhǎng)達(dá)166頁(yè)的報(bào)告,定性地探討了GPT-4V的功能和使用情況。
報(bào)告地址:https://arxiv.org/pdf/2309.17421.pdf
MedARC(醫(yī)療人工智能研究中心)聯(lián)合創(chuàng)始人兼CEO Tanishq Mathew Abraham表示,「這篇報(bào)告將是GPT-4V高級(jí)用戶的必讀之作?!?/span>
該報(bào)告共分為11個(gè)章節(jié),重點(diǎn)是對(duì)最新模型 GPT-4V(ision)進(jìn)行分析,以加深大眾對(duì) LMM(大型多模態(tài)模型) 的理解。文章用很大篇幅介紹了GPT-4V可以執(zhí)行的任務(wù),包括用測(cè)試樣本來(lái)探索GPT-4V的質(zhì)量和通用性,現(xiàn)階段GPT-4V能夠支持的輸入和工作模式,以及提示模型的有效方法。
在探索 GPT-4V 的過(guò)程中,該研究還精心策劃組織了涵蓋各個(gè)領(lǐng)域和任務(wù)的一系列定性樣本。對(duì)這些樣本的觀察表明,GPT-4V 在處理任意交錯(cuò)的多模態(tài)輸入方面具有前所未有的能力,并且其功能的通用性使 GPT-4V 成為強(qiáng)大的多模態(tài)通用系統(tǒng)。
此外,GPT-4V 對(duì)圖像獨(dú)特的理解能力可以催生新的人機(jī)交互方法,例如視覺(jué)參考提示(visual referring prompting)。報(bào)告最后深入討論了基于 GPT-4V 的系統(tǒng)的新興應(yīng)用場(chǎng)景和未來(lái)研究方向。該研究希望這一初步探索能夠激發(fā)未來(lái)對(duì)下一代多模態(tài)任務(wù)制定的研究,開(kāi)發(fā)和增強(qiáng) LMM 解決現(xiàn)實(shí)問(wèn)題的新方法,并更好地理解多模態(tài)基礎(chǔ)模型。
下面我們逐一介紹每個(gè)章節(jié)的具體內(nèi)容。
論文概覽
論文第一章介紹了整個(gè)研究的基本情況。作者表示,他們對(duì)GPT-V4的探討主要在以下幾個(gè)問(wèn)題的指導(dǎo)下進(jìn)行:
1、GPT-4V 支持哪些輸入和工作模式?多模態(tài)模型的通用性必然要求系統(tǒng)能夠處理不同輸入模態(tài)的任意組合。GPT-4V 在理解和處理任意混合的輸入圖像、子圖像、文本、場(chǎng)景文本和視覺(jué)指針?lè)矫姹憩F(xiàn)出了前所未有的能力。他們還證明,GPT-4V 能夠很好地支持在 LLM 中觀察到的test-time技術(shù),包括指令跟隨、思維鏈、上下文少樣本學(xué)習(xí)等。
2、GPT-4V 在不同領(lǐng)域和任務(wù)中表現(xiàn)出的質(zhì)量和通用性如何?為了了解 GPT-4V 的能力,作者對(duì)涵蓋廣泛領(lǐng)域和任務(wù)的查詢進(jìn)行了采樣,包括開(kāi)放世界視覺(jué)理解、視覺(jué)描述、多模態(tài)知識(shí)、常識(shí)、場(chǎng)景文本理解、文檔推理、編碼、時(shí)間推理、抽象推理、情感理解等。GPT-4V 在許多實(shí)驗(yàn)領(lǐng)域都表現(xiàn)出了令人印象深刻的人類水平的能力。
3、使用和提示 GPT-4V 的有效方法是什么?GPT-4V 能夠很好地理解像素空間編輯,例如在輸入圖像上繪制的視覺(jué)指針和場(chǎng)景文本。受這種能力的啟發(fā),研究者討論了「視覺(jué)參考提示」,它可以直接編輯輸入圖像以指示感興趣的任務(wù)。視覺(jué)參考提示可與其他圖像和文本提示無(wú)縫結(jié)合使用,為教學(xué)和示例演示提供了一個(gè)細(xì)致入微的界面。
4、未來(lái)的發(fā)展方向是什么?鑒于 GPT-4V 在跨領(lǐng)域和跨任務(wù)方面的強(qiáng)大能力,我們不禁要問(wèn),多模態(tài)學(xué)習(xí)乃至更廣泛的人工智能的下一步是什么?作者將思考和探索分為兩個(gè)方面,即需要關(guān)注的新出現(xiàn)的應(yīng)用場(chǎng)景,以及基于 GPT-4V 系統(tǒng)的未來(lái)研究方向。他們介紹了他們的初步探索結(jié)果,以啟發(fā)未來(lái)的研究。
GPT-4V的輸入模式
論文第二章總結(jié)了GPT-4V支持的輸入,分為純文本、單個(gè)圖像-文本對(duì)、交錯(cuò)圖像-文本輸入(如圖1)三種情況。
GPT-4V的工作模式和提示技術(shù)
論文第三章總結(jié)了GPT-4V的工作模式和提示技術(shù),包括:
1、遵循文字說(shuō)明:
2、視覺(jué)指向和視覺(jué)參考提示:
3、視覺(jué)+文本提示:
4、上下文少樣本學(xué)習(xí):
視覺(jué)-語(yǔ)言能力
論文第四章研究了如何利用 GPT-4V 來(lái)理解和解釋視覺(jué)世界。
首先4.1節(jié)探討了GPT-4V對(duì)不同域圖像的識(shí)別能力,包括識(shí)別不同的名人,并能詳細(xì)描述名人的職業(yè)、行為、背景、事件等信息。
除了識(shí)別名人外,GPT-4V能準(zhǔn)確識(shí)別測(cè)試圖像中的地標(biāo),還能產(chǎn)生生動(dòng)而詳細(xì)的敘述,從而捕捉地標(biāo)的特性。
GPT-4V還可以識(shí)別各種菜肴,并給出菜肴中的特定成分,裝飾物或烹飪技術(shù)。
除此以外,GPT-4V還可以識(shí)別常見(jiàn)的疾病,例如其能根據(jù)肺部的CT掃描指出潛在的問(wèn)題,又或者對(duì)給定的x光片中的牙齒和頜骨,解釋下頜左下方和右側(cè)部分出現(xiàn)的智齒可能需要切除;GPT-4V能正確識(shí)別徽標(biāo),并提供詳細(xì)的描述,包括其設(shè)計(jì),顏色,形狀和符號(hào);如果提示中出現(xiàn)的問(wèn)題與照片不符,GPT-4V也能進(jìn)行反事實(shí)推理。
4.2節(jié)探討了GPT-4V對(duì)目標(biāo)的定位、計(jì)數(shù)和密集字幕生成。
下圖表明GPT-4V能夠理解圖像中人與物體之間的空間關(guān)系,例如識(shí)別飛盤和人之間的空間關(guān)系。
GPT-4V能夠確定圖像中指定物體的數(shù)量,下圖表明GPT-4V成功地計(jì)算出圖像中出現(xiàn)的物體的數(shù)量,如蘋果、橘子和人。
GPT-4V成功地定位和識(shí)別圖像中的個(gè)體,然后為每個(gè)個(gè)體提供簡(jiǎn)潔的描述。
4.3節(jié)介紹了GPT-4V能夠進(jìn)行多模態(tài)理解以及對(duì)常識(shí)的掌握能力。下圖展示了GPT-4V能夠解釋笑話和梗圖:
GPT-4V能夠回答科學(xué)問(wèn)題:
GPT-4V還能進(jìn)行多模態(tài)常識(shí)推理:
4.4節(jié)介紹了GPT-4V對(duì)場(chǎng)景文本、表格、圖表和文檔的推理能力。
GPT-4V可以進(jìn)行數(shù)學(xué)推理:
理解流程圖:
理解表格細(xì)節(jié):
GPT-4V還能閱讀一份多頁(yè)的技術(shù)報(bào)告,理解每個(gè)部分的內(nèi)容,并對(duì)該技術(shù)報(bào)告進(jìn)行總結(jié):
4.5節(jié)介紹了GPT-4V對(duì)多語(yǔ)言多模態(tài)的理解。
GPT-4V能夠生成不同語(yǔ)言的圖像描述:
GPT-4V對(duì)多語(yǔ)言文本識(shí)別、翻譯和描述的結(jié)果:
4.6節(jié)介紹了GPT-4V的編碼能力。
基于手寫數(shù)學(xué)方程生成LaTeX代碼的能力:
GPT-4V生成Markdown/LaTex代碼以重建圖像中表的能力:
GPT-4V編寫代碼以復(fù)制輸入圖形的能力:
與人類的互動(dòng):視覺(jué)參考提示
在與多模態(tài)系統(tǒng)的人機(jī)交互中,指向特定空間位置是一項(xiàng)基本能力,例如進(jìn)行基于視覺(jué)的對(duì)話。第 5.1 節(jié)顯示,GPT-4V 可以很好地理解直接畫在圖像上的視覺(jué)指針。基于這一觀察結(jié)果,研究者提出了一種名為「視覺(jué)參考提示(visual referring prompting)」的新型模型交互方法。如圖 50 所示,其核心思想是直接編輯圖像像素空間,繪制視覺(jué)指針或場(chǎng)景文本,作為人類的參照指示。作者在第 5.2 節(jié)詳細(xì)介紹了這種方法的用途和優(yōu)勢(shì)。
最后,他們?cè)诘?5.3 節(jié)探討了如何讓 GPT-4V 生成視覺(jué)指針輸出,以便與人類互動(dòng)。這些視覺(jué)指針對(duì)于人類和機(jī)器來(lái)說(shuō)都能直觀地生成和理解,是人機(jī)交互的良好渠道。
時(shí)間和視頻理解
在第六章,作者討論了GPT4V 的時(shí)間和視頻理解能力。盡管 GPT4V 主要以圖像作為輸入,但評(píng)估其對(duì)時(shí)間序列和視頻內(nèi)容的理解能力仍然是對(duì)其整體評(píng)估的一個(gè)重要方面。這是因?yàn)楝F(xiàn)實(shí)世界中的事件會(huì)隨著時(shí)間的推移而展開(kāi),而人工智能系統(tǒng)理解這些動(dòng)態(tài)過(guò)程的能力在現(xiàn)實(shí)世界的應(yīng)用中至關(guān)重要。時(shí)序預(yù)測(cè)、時(shí)序排序、時(shí)序定位、時(shí)序推理和基礎(chǔ)時(shí)序理解等能力有助于衡量模型在一系列靜態(tài)圖像中理解事件順序、預(yù)測(cè)未來(lái)事件發(fā)生和分析隨時(shí)間變化的活動(dòng)的能力。
盡管 GPT-4V 以圖像為中心,但它能夠以類似人類理解的方式理解視頻和時(shí)間序列。為了提高像 GPT-4V 這樣復(fù)雜的人工智能模型的通用性和適用性,這方面的測(cè)試對(duì)其發(fā)展和完善至關(guān)重要。
在這一章的實(shí)驗(yàn)中,研究者使用了多個(gè)選定的視頻幀作為輸入,以測(cè)試模型在理解時(shí)間序列和視頻內(nèi)容方面的能力。
多圖像序列
視頻理解
基于時(shí)間理解的視覺(jué)參考提示
視覺(jué)推理與智商測(cè)試
對(duì)抽象視覺(jué)刺激和符號(hào)的理解和推理是人類智能的一項(xiàng)基本能力。論文第七章測(cè)試了GPT-4V是否可以從視覺(jué)信號(hào)中抽象語(yǔ)義,并可以執(zhí)行不同類型的人類智商(IQ)測(cè)試。
抽象視覺(jué)刺激
部件和物體的發(fā)現(xiàn)與關(guān)聯(lián)
韋氏成人智力量表
瑞文推理測(cè)驗(yàn)
情商測(cè)驗(yàn)
在與人類互動(dòng)時(shí),GPT-4V 必須具備同理心和情商(EQ),以理解和分享人類的情感。受人類情商測(cè)試定義的啟發(fā),作者研究了 GPT-4V 在以下方面的能力:從人的面部表情中識(shí)別和解讀人的情緒;理解不同的視覺(jué)內(nèi)容如何激發(fā)情緒;根據(jù)所需的情緒和情感生成適當(dāng)?shù)奈谋据敵觥?/span>
從面部表情中讀出情感
理解視覺(jué)內(nèi)容如何激發(fā)情感
情緒條件輸出
新興應(yīng)用亮點(diǎn)
這一章展示了 GPT-4V 的卓越功能可能帶來(lái)的無(wú)數(shù)高價(jià)值應(yīng)用場(chǎng)景和新用例。誠(chéng)然,其中一些應(yīng)用場(chǎng)景可以通過(guò)精心策劃用于微調(diào)現(xiàn)有視覺(jué)和語(yǔ)言(VL)模型的訓(xùn)練數(shù)據(jù)來(lái)實(shí)現(xiàn),但作者想強(qiáng)調(diào)的是,GPT-4V 的真正威力在于它能夠毫不費(fèi)力地實(shí)現(xiàn)開(kāi)箱即用。此外,他們還介紹了 GPT-4V 如何與外部工具和插件無(wú)縫集成,從而進(jìn)一步拓展其潛力,實(shí)現(xiàn)更多創(chuàng)新和協(xié)作應(yīng)用。
找不同
工業(yè)
醫(yī)藥
汽車保險(xiǎn)
編寫照片說(shuō)明
圖像理解與生成
具身智能體
圖形用戶界面(GUI)交互
基于LLM的智能體
論文第十章討論了 GPT-4V 未來(lái)可能的研究方向,重點(diǎn)是 LLM 中的有趣用法如何擴(kuò)展到多模態(tài)場(chǎng)景。
基于ReAct的GPT-4V多模態(tài)鏈擴(kuò)展:
使用自我反思來(lái)改進(jìn)文本到圖像模型SDXL生成的文本提示的示例:
自洽性:
檢索增強(qiáng)LMM,圖74顯示了一個(gè)檢索增強(qiáng)的LMM幫助雜貨店結(jié)帳的示例。
關(guān)于GPT-4V的更多場(chǎng)景應(yīng)用細(xì)節(jié),請(qǐng)查看原論文。