偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

試過(guò)GPT-4V后,微軟寫了個(gè)166頁(yè)的測(cè)評(píng)報(bào)告,業(yè)內(nèi)人士:高級(jí)用戶必讀

人工智能 新聞
這篇由微軟撰寫的報(bào)告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潛力的人,都值得一讀。

一周之前,ChatGPT迎來(lái)重大更新,不管是 GPT-4 還是 GPT-3.5 模型,都可以基于圖像進(jìn)行分析和對(duì)話。與之對(duì)應(yīng)的,多模態(tài)版GPT-4V模型相關(guān)文檔也一并放出。當(dāng)時(shí) OpenAI 放出的文檔只有18頁(yè),很多內(nèi)容都無(wú)從得知,對(duì)于想要更深入了解GPT-4V應(yīng)用的人來(lái)說(shuō),難度還是相當(dāng)大的。

短短幾天時(shí)間,當(dāng)大家還在死磕OpenAI 放出的18頁(yè)文檔時(shí),微軟就公布了一份長(zhǎng)達(dá)166頁(yè)的報(bào)告,定性地探討了GPT-4V的功能和使用情況。

報(bào)告地址:https://arxiv.org/pdf/2309.17421.pdf

MedARC(醫(yī)療人工智能研究中心)聯(lián)合創(chuàng)始人兼CEO Tanishq Mathew Abraham表示,「這篇報(bào)告將是GPT-4V高級(jí)用戶的必讀之作?!?/span>


圖片

該報(bào)告共分為11個(gè)章節(jié),重點(diǎn)是對(duì)最新模型 GPT-4V(ision)進(jìn)行分析,以加深大眾對(duì) LMM(大型多模態(tài)模型) 的理解。文章用很大篇幅介紹了GPT-4V可以執(zhí)行的任務(wù),包括用測(cè)試樣本來(lái)探索GPT-4V的質(zhì)量和通用性,現(xiàn)階段GPT-4V能夠支持的輸入和工作模式,以及提示模型的有效方法。

在探索 GPT-4V 的過(guò)程中,該研究還精心策劃組織了涵蓋各個(gè)領(lǐng)域和任務(wù)的一系列定性樣本。對(duì)這些樣本的觀察表明,GPT-4V 在處理任意交錯(cuò)的多模態(tài)輸入方面具有前所未有的能力,并且其功能的通用性使 GPT-4V 成為強(qiáng)大的多模態(tài)通用系統(tǒng)。 

此外,GPT-4V 對(duì)圖像獨(dú)特的理解能力可以催生新的人機(jī)交互方法,例如視覺(jué)參考提示(visual referring prompting)。報(bào)告最后深入討論了基于 GPT-4V 的系統(tǒng)的新興應(yīng)用場(chǎng)景和未來(lái)研究方向。該研究希望這一初步探索能夠激發(fā)未來(lái)對(duì)下一代多模態(tài)任務(wù)制定的研究,開(kāi)發(fā)和增強(qiáng) LMM 解決現(xiàn)實(shí)問(wèn)題的新方法,并更好地理解多模態(tài)基礎(chǔ)模型。

下面我們逐一介紹每個(gè)章節(jié)的具體內(nèi)容。

論文概覽

論文第一章介紹了整個(gè)研究的基本情況。作者表示,他們對(duì)GPT-V4的探討主要在以下幾個(gè)問(wèn)題的指導(dǎo)下進(jìn)行:

1、GPT-4V 支持哪些輸入和工作模式?多模態(tài)模型的通用性必然要求系統(tǒng)能夠處理不同輸入模態(tài)的任意組合。GPT-4V 在理解和處理任意混合的輸入圖像、子圖像、文本、場(chǎng)景文本和視覺(jué)指針?lè)矫姹憩F(xiàn)出了前所未有的能力。他們還證明,GPT-4V 能夠很好地支持在 LLM 中觀察到的test-time技術(shù),包括指令跟隨、思維鏈、上下文少樣本學(xué)習(xí)等。

2、GPT-4V 在不同領(lǐng)域和任務(wù)中表現(xiàn)出的質(zhì)量和通用性如何?為了了解 GPT-4V 的能力,作者對(duì)涵蓋廣泛領(lǐng)域和任務(wù)的查詢進(jìn)行了采樣,包括開(kāi)放世界視覺(jué)理解、視覺(jué)描述、多模態(tài)知識(shí)、常識(shí)、場(chǎng)景文本理解、文檔推理、編碼、時(shí)間推理、抽象推理、情感理解等。GPT-4V 在許多實(shí)驗(yàn)領(lǐng)域都表現(xiàn)出了令人印象深刻的人類水平的能力。

3、使用和提示 GPT-4V 的有效方法是什么?GPT-4V 能夠很好地理解像素空間編輯,例如在輸入圖像上繪制的視覺(jué)指針和場(chǎng)景文本。受這種能力的啟發(fā),研究者討論了「視覺(jué)參考提示」,它可以直接編輯輸入圖像以指示感興趣的任務(wù)。視覺(jué)參考提示可與其他圖像和文本提示無(wú)縫結(jié)合使用,為教學(xué)和示例演示提供了一個(gè)細(xì)致入微的界面。

4、未來(lái)的發(fā)展方向是什么?鑒于 GPT-4V 在跨領(lǐng)域和跨任務(wù)方面的強(qiáng)大能力,我們不禁要問(wèn),多模態(tài)學(xué)習(xí)乃至更廣泛的人工智能的下一步是什么?作者將思考和探索分為兩個(gè)方面,即需要關(guān)注的新出現(xiàn)的應(yīng)用場(chǎng)景,以及基于 GPT-4V 系統(tǒng)的未來(lái)研究方向。他們介紹了他們的初步探索結(jié)果,以啟發(fā)未來(lái)的研究。

GPT-4V的輸入模式

論文第二章總結(jié)了GPT-4V支持的輸入,分為純文本、單個(gè)圖像-文本對(duì)、交錯(cuò)圖像-文本輸入(如圖1)三種情況。

圖片

GPT-4V的工作模式和提示技術(shù)

論文第三章總結(jié)了GPT-4V的工作模式和提示技術(shù),包括:

1、遵循文字說(shuō)明:

圖片

2、視覺(jué)指向和視覺(jué)參考提示:

圖片


圖片

3、視覺(jué)+文本提示:

圖片

4、上下文少樣本學(xué)習(xí):

圖片

圖片

圖片

視覺(jué)-語(yǔ)言能力

論文第四章研究了如何利用 GPT-4V 來(lái)理解和解釋視覺(jué)世界。

首先4.1節(jié)探討了GPT-4V對(duì)不同域圖像的識(shí)別能力,包括識(shí)別不同的名人,并能詳細(xì)描述名人的職業(yè)、行為、背景、事件等信息。

除了識(shí)別名人外,GPT-4V能準(zhǔn)確識(shí)別測(cè)試圖像中的地標(biāo),還能產(chǎn)生生動(dòng)而詳細(xì)的敘述,從而捕捉地標(biāo)的特性。

GPT-4V還可以識(shí)別各種菜肴,并給出菜肴中的特定成分,裝飾物或烹飪技術(shù)。

除此以外,GPT-4V還可以識(shí)別常見(jiàn)的疾病,例如其能根據(jù)肺部的CT掃描指出潛在的問(wèn)題,又或者對(duì)給定的x光片中的牙齒和頜骨,解釋下頜左下方和右側(cè)部分出現(xiàn)的智齒可能需要切除;GPT-4V能正確識(shí)別徽標(biāo),并提供詳細(xì)的描述,包括其設(shè)計(jì),顏色,形狀和符號(hào);如果提示中出現(xiàn)的問(wèn)題與照片不符,GPT-4V也能進(jìn)行反事實(shí)推理。

4.2節(jié)探討了GPT-4V對(duì)目標(biāo)的定位、計(jì)數(shù)和密集字幕生成。

下圖表明GPT-4V能夠理解圖像中人與物體之間的空間關(guān)系,例如識(shí)別飛盤和人之間的空間關(guān)系。

GPT-4V能夠確定圖像中指定物體的數(shù)量,下圖表明GPT-4V成功地計(jì)算出圖像中出現(xiàn)的物體的數(shù)量,如蘋果、橘子和人。

GPT-4V成功地定位和識(shí)別圖像中的個(gè)體,然后為每個(gè)個(gè)體提供簡(jiǎn)潔的描述。

4.3節(jié)介紹了GPT-4V能夠進(jìn)行多模態(tài)理解以及對(duì)常識(shí)的掌握能力。下圖展示了GPT-4V能夠解釋笑話和梗圖:

GPT-4V能夠回答科學(xué)問(wèn)題:

GPT-4V還能進(jìn)行多模態(tài)常識(shí)推理:

4.4節(jié)介紹了GPT-4V對(duì)場(chǎng)景文本、表格、圖表和文檔的推理能力。

GPT-4V可以進(jìn)行數(shù)學(xué)推理:

理解流程圖:

理解表格細(xì)節(jié):

GPT-4V還能閱讀一份多頁(yè)的技術(shù)報(bào)告,理解每個(gè)部分的內(nèi)容,并對(duì)該技術(shù)報(bào)告進(jìn)行總結(jié):

4.5節(jié)介紹了GPT-4V對(duì)多語(yǔ)言多模態(tài)的理解。

GPT-4V能夠生成不同語(yǔ)言的圖像描述:

GPT-4V對(duì)多語(yǔ)言文本識(shí)別、翻譯和描述的結(jié)果:

4.6節(jié)介紹了GPT-4V的編碼能力。

基于手寫數(shù)學(xué)方程生成LaTeX代碼的能力:

GPT-4V生成Markdown/LaTex代碼以重建圖像中表的能力:

圖片

GPT-4V編寫代碼以復(fù)制輸入圖形的能力:

圖片

與人類的互動(dòng):視覺(jué)參考提示

在與多模態(tài)系統(tǒng)的人機(jī)交互中,指向特定空間位置是一項(xiàng)基本能力,例如進(jìn)行基于視覺(jué)的對(duì)話。第 5.1 節(jié)顯示,GPT-4V 可以很好地理解直接畫在圖像上的視覺(jué)指針。基于這一觀察結(jié)果,研究者提出了一種名為「視覺(jué)參考提示(visual referring prompting)」的新型模型交互方法。如圖 50 所示,其核心思想是直接編輯圖像像素空間,繪制視覺(jué)指針或場(chǎng)景文本,作為人類的參照指示。作者在第 5.2 節(jié)詳細(xì)介紹了這種方法的用途和優(yōu)勢(shì)。

圖片

圖片

圖片

圖片

最后,他們?cè)诘?5.3 節(jié)探討了如何讓 GPT-4V 生成視覺(jué)指針輸出,以便與人類互動(dòng)。這些視覺(jué)指針對(duì)于人類和機(jī)器來(lái)說(shuō)都能直觀地生成和理解,是人機(jī)交互的良好渠道。

時(shí)間和視頻理解

在第六章,作者討論了GPT4V 的時(shí)間和視頻理解能力。盡管 GPT4V 主要以圖像作為輸入,但評(píng)估其對(duì)時(shí)間序列和視頻內(nèi)容的理解能力仍然是對(duì)其整體評(píng)估的一個(gè)重要方面。這是因?yàn)楝F(xiàn)實(shí)世界中的事件會(huì)隨著時(shí)間的推移而展開(kāi),而人工智能系統(tǒng)理解這些動(dòng)態(tài)過(guò)程的能力在現(xiàn)實(shí)世界的應(yīng)用中至關(guān)重要。時(shí)序預(yù)測(cè)、時(shí)序排序、時(shí)序定位、時(shí)序推理和基礎(chǔ)時(shí)序理解等能力有助于衡量模型在一系列靜態(tài)圖像中理解事件順序、預(yù)測(cè)未來(lái)事件發(fā)生和分析隨時(shí)間變化的活動(dòng)的能力。

盡管 GPT-4V 以圖像為中心,但它能夠以類似人類理解的方式理解視頻和時(shí)間序列。為了提高像 GPT-4V 這樣復(fù)雜的人工智能模型的通用性和適用性,這方面的測(cè)試對(duì)其發(fā)展和完善至關(guān)重要。

在這一章的實(shí)驗(yàn)中,研究者使用了多個(gè)選定的視頻幀作為輸入,以測(cè)試模型在理解時(shí)間序列和視頻內(nèi)容方面的能力。

多圖像序列

圖片

視頻理解

圖片

圖片

圖片

基于時(shí)間理解的視覺(jué)參考提示

圖片

視覺(jué)推理與智商測(cè)試

對(duì)抽象視覺(jué)刺激和符號(hào)的理解和推理是人類智能的一項(xiàng)基本能力。論文第七章測(cè)試了GPT-4V是否可以從視覺(jué)信號(hào)中抽象語(yǔ)義,并可以執(zhí)行不同類型的人類智商(IQ)測(cè)試。

抽象視覺(jué)刺激

圖片

部件和物體的發(fā)現(xiàn)與關(guān)聯(lián)

圖片

韋氏成人智力量表

圖片

瑞文推理測(cè)驗(yàn)

圖片

圖片

情商測(cè)驗(yàn)

在與人類互動(dòng)時(shí),GPT-4V 必須具備同理心和情商(EQ),以理解和分享人類的情感。受人類情商測(cè)試定義的啟發(fā),作者研究了 GPT-4V 在以下方面的能力:從人的面部表情中識(shí)別和解讀人的情緒;理解不同的視覺(jué)內(nèi)容如何激發(fā)情緒;根據(jù)所需的情緒和情感生成適當(dāng)?shù)奈谋据敵觥?/span>

從面部表情中讀出情感

圖片

理解視覺(jué)內(nèi)容如何激發(fā)情感

圖片

圖片

情緒條件輸出

圖片

新興應(yīng)用亮點(diǎn)

這一章展示了 GPT-4V 的卓越功能可能帶來(lái)的無(wú)數(shù)高價(jià)值應(yīng)用場(chǎng)景和新用例。誠(chéng)然,其中一些應(yīng)用場(chǎng)景可以通過(guò)精心策劃用于微調(diào)現(xiàn)有視覺(jué)和語(yǔ)言(VL)模型的訓(xùn)練數(shù)據(jù)來(lái)實(shí)現(xiàn),但作者想強(qiáng)調(diào)的是,GPT-4V 的真正威力在于它能夠毫不費(fèi)力地實(shí)現(xiàn)開(kāi)箱即用。此外,他們還介紹了 GPT-4V 如何與外部工具和插件無(wú)縫集成,從而進(jìn)一步拓展其潛力,實(shí)現(xiàn)更多創(chuàng)新和協(xié)作應(yīng)用。

找不同

圖片

圖片

工業(yè)

圖片

圖片

圖片


圖片

圖片

醫(yī)藥

圖片

圖片

圖片

圖片

汽車保險(xiǎn)

圖片

圖片

編寫照片說(shuō)明

圖片

圖片

圖像理解與生成

圖片

圖片

圖片

圖片

具身智能體

圖片

圖片

圖片

圖片

圖形用戶界面(GUI)交互

圖片

圖片

基于LLM的智能體

論文第十章討論了 GPT-4V 未來(lái)可能的研究方向,重點(diǎn)是 LLM 中的有趣用法如何擴(kuò)展到多模態(tài)場(chǎng)景。

基于ReAct的GPT-4V多模態(tài)鏈擴(kuò)展:

圖片

使用自我反思來(lái)改進(jìn)文本到圖像模型SDXL生成的文本提示的示例:

圖片

自洽性:

圖片

檢索增強(qiáng)LMM,圖74顯示了一個(gè)檢索增強(qiáng)的LMM幫助雜貨店結(jié)帳的示例。

圖片

關(guān)于GPT-4V的更多場(chǎng)景應(yīng)用細(xì)節(jié),請(qǐng)查看原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-11-15 13:15:47

AI模型

2009-12-03 15:32:05

Visual Stud

2021-05-14 13:49:01

區(qū)塊鏈穩(wěn)定幣金融

2017-02-13 21:49:52

大數(shù)據(jù)政府?dāng)?shù)據(jù)大數(shù)據(jù)產(chǎn)業(yè)

2023-11-13 18:19:35

AI訓(xùn)練

2023-10-05 12:16:37

2024-05-30 16:25:25

2012-06-04 16:20:13

社交新模式

2020-05-26 15:16:44

5G兩會(huì)全息

2021-12-13 09:47:04

芯片半導(dǎo)體技術(shù)

2009-02-04 13:43:51

10美元筆記本廉價(jià)

2022-09-26 11:23:41

AI項(xiàng)目ROI數(shù)字

2021-05-17 09:14:29

黑客組織DarkSide網(wǎng)絡(luò)安全

2022-09-19 10:42:22

?數(shù)據(jù)科學(xué)安全開(kāi)源軟件

2024-08-27 14:20:00

2023-11-05 15:13:38

AI測(cè)評(píng)

2023-12-22 12:41:01

模型訓(xùn)練

2021-01-06 16:37:17

5G網(wǎng)絡(luò)運(yùn)營(yíng)商

2024-02-06 09:00:00

GPT-4VLLaVA大型語(yǔ)言
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)