偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-4V數(shù)學(xué)推理如何?微軟發(fā)布MathVista基準(zhǔn),評(píng)測(cè)報(bào)告長(zhǎng)達(dá)112頁(yè)

人工智能 新聞
大型多模態(tài)模型會(huì)做數(shù)學(xué)題嗎?在微軟最新發(fā)布的 MathVista 基準(zhǔn)上,即使是當(dāng)前最強(qiáng)的 GPT-4V 也會(huì)有「挫敗感」。

微軟最近發(fā)布了名為 “MathVista” 的全新多模態(tài)數(shù)學(xué)推理基準(zhǔn)數(shù)據(jù)集,同時(shí)提供了一份涵蓋 112 頁(yè)的詳細(xì)評(píng)測(cè)報(bào)告,專注于大型多模態(tài)模型的數(shù)學(xué)推理表現(xiàn)。這一基準(zhǔn)測(cè)試對(duì)于目前最先進(jìn)的模型,如 GPT-4V,來說也是一項(xiàng)挑戰(zhàn),顯示了這些模型在多模態(tài)數(shù)學(xué)問題解決方面的局限性。報(bào)告還深入分析了 GPT-4V 在自我驗(yàn)證、自洽性和多輪對(duì)話能力的研究潛力。


  • 論文地址:https://arxiv.org/abs/2310.02255
  • 項(xiàng)目地址:https://mathvista.github.io/
  • HF 數(shù)據(jù)集:https://huggingface.co/datasets/AI4Math/MathVista
  • 數(shù)據(jù)可視化:https://mathvista.github.io/#visualization
  • Leaderboard:https://mathvista.github.io/#leaderboard

數(shù)學(xué)推理能力被視為實(shí)現(xiàn)通用人工智能的關(guān)鍵一步。除了傳統(tǒng)的純文字場(chǎng)景,許多數(shù)學(xué)研究和應(yīng)用還涉及到豐富的圖形內(nèi)容,這為模型的多模態(tài)處理能力提出了更高的要求。

數(shù)學(xué)問題歷史悠久,可以追溯到公元前 2000 年的美索不達(dá)米亞。那時(shí)的人們就已經(jīng)使用泥板來記錄包含梯形和三角形的數(shù)學(xué)問題。研究顯示,早在希臘哲學(xué)家畢達(dá)哥拉斯生活之前,他們就掌握了畢達(dá)哥拉斯定理 —— 也就是著名的勾股定理。

圖片

中國(guó)古代數(shù)學(xué)的杰作《周髀算經(jīng)》中不僅包含了勾股定理的優(yōu)雅證明,也展示了我們祖先在數(shù)學(xué)領(lǐng)域的深厚造詣。

從小接受的數(shù)學(xué)教育中,我們經(jīng)??吹礁鞣N生動(dòng)有趣的圖形,這些都強(qiáng)調(diào)了視覺元素在數(shù)學(xué)理解中的重要性。

在現(xiàn)代科學(xué)研究中,對(duì)大量圖像數(shù)據(jù)進(jìn)行數(shù)學(xué)分析成為了一個(gè)不可或缺的環(huán)節(jié)。尤其是隨著大型語言模型(LLMs)和大型多模態(tài)模型(LMMs)的發(fā)展,這些模型在多種任務(wù)和領(lǐng)域中展現(xiàn)出令人印象深刻的問題解決能力。

然而,這些模型在視覺場(chǎng)景下的數(shù)學(xué)推理能力尚未被系統(tǒng)地研究。為了探索這一領(lǐng)域,微軟聯(lián)合加州大學(xué)洛杉磯分校(UCLA)和華盛頓大學(xué)(UW)共同開發(fā)了全新的 MathVista 基準(zhǔn)數(shù)據(jù)集。這個(gè)數(shù)據(jù)集結(jié)合了多種數(shù)學(xué)和視覺任務(wù)的挑戰(zhàn),包含 6141 個(gè)問題,來源于 28 個(gè)現(xiàn)有的多模態(tài)數(shù)據(jù)集和 3 個(gè)新標(biāo)注的數(shù)據(jù)集,包括 IQTest、FunctionQA 和 PaperQA。MathVista 中豐富的任務(wù)類型、推理方式和圖像類型對(duì)現(xiàn)有的大型模型構(gòu)成了巨大挑戰(zhàn)。

微軟的研究報(bào)告對(duì) 12 個(gè)最新的大型模型進(jìn)行了全面評(píng)估。實(shí)驗(yàn)結(jié)果顯示,目前性能最強(qiáng)的 GPT-4V 在 MathVista 上達(dá)到了 49.9% 的準(zhǔn)確率,顯著優(yōu)于排名第二的 Bard 模型,領(lǐng)先了 15.1%。然而,與人類表現(xiàn)相比,GPT-4V 仍有 10.4% 的差距。這種差異主要是由于它在理解復(fù)雜圖形和進(jìn)行嚴(yán)密推理方面的不足。

圖片

微軟的報(bào)告還進(jìn)一步探討了 GPT-4V 的自我驗(yàn)證能力、自洽性,以及其處理多輪對(duì)話的潛力。這些分析強(qiáng)調(diào)了未來研究的多個(gè)方向,尤其是在提高模型在復(fù)雜情境下的理解和推理能力方面。

MathVista 基準(zhǔn)數(shù)據(jù)集

盡管目前已有多個(gè)文本為主的數(shù)學(xué)推理數(shù)據(jù)集和多模態(tài)問答數(shù)據(jù)集,但在全面評(píng)估大型模型在數(shù)學(xué)推理領(lǐng)域的能力方面,特別是在多模態(tài)數(shù)據(jù)集方面,仍存在顯著的空白。

為此,微軟提出了 MathVista 數(shù)據(jù)集,聚焦于視覺場(chǎng)景下的數(shù)學(xué)問答任務(wù)。MathVista 包含 6141 個(gè)數(shù)學(xué)問題,來自于 28 個(gè)現(xiàn)有數(shù)據(jù)集和 3 個(gè)新標(biāo)注數(shù)據(jù)集 ——IQTest、FunctionQA 和 PaperQA

圖片

這三個(gè)新標(biāo)注的數(shù)據(jù)集各有特色:IQTest 側(cè)重于智力測(cè)試題,F(xiàn)unctionQA 專注于函數(shù)圖形的推理,而 PaperQA 則關(guān)注于對(duì)文獻(xiàn)中的圖表進(jìn)行深入理解,有效地彌補(bǔ)了現(xiàn)有數(shù)據(jù)集的不足。

圖片

MathVista 覆蓋了兩種主要的任務(wù)類型:多選題(占比 55.2%)和數(shù)值型開放題(占比 44.8%)。它還包括五大任務(wù)類別:圖形問答(FQA)、幾何解題(GPS)、數(shù)學(xué)應(yīng)用題(MWP)、教材問答(TQA)和視覺問答(VQA),這些任務(wù)類別代表了當(dāng)前數(shù)學(xué)推理領(lǐng)域的前沿挑戰(zhàn)。

MathVista 中的數(shù)學(xué)推理能力與圖像多樣性

MathVista 細(xì)分并定義了數(shù)學(xué)推理的七大能力領(lǐng)域,包括:算術(shù)、統(tǒng)計(jì)、代數(shù)、幾何、數(shù)值常識(shí)、科學(xué)和邏輯。這些領(lǐng)域涵蓋了數(shù)學(xué)推理的核心要素,體現(xiàn)了 MathVista 在數(shù)學(xué)認(rèn)知范圍的全面覆蓋。

圖片

圖片

在圖像類型的多樣性方面,MathVista 也展現(xiàn)了其獨(dú)特的廣度和深度。該數(shù)據(jù)集包含了十余種不同的圖像類型,從自然圖像到幾何圖表,從抽象場(chǎng)景到合成場(chǎng)景,以及各種圖形、圖表和繪圖。這種豐富的圖像類型不僅增加了數(shù)據(jù)集的復(fù)雜性,也為大型多模態(tài)模型在處理不同類型的視覺信息時(shí)提供了全面的挑戰(zhàn)。

圖片

圖片

圖片

圖片

全面的量化評(píng)估

微軟的研究報(bào)告首次對(duì)當(dāng)前大模型在視覺場(chǎng)景下的數(shù)學(xué)推理能力進(jìn)行了全面的量化評(píng)估。報(bào)告中使用的 MathVista 數(shù)據(jù)集分為兩個(gè)子集:minitest 和 test。minitest 子集含有 1000 個(gè)問題,主要用于快速評(píng)估模型性能。而 test 子集則包含剩余的 5141 個(gè)問題,旨在進(jìn)行模型的標(biāo)準(zhǔn)化評(píng)估,因此為了避免測(cè)試數(shù)據(jù)污染,該子集的答案標(biāo)簽數(shù)據(jù)不對(duì)外公開。

模型評(píng)估過程分為三個(gè)關(guān)鍵階段:生成回答、抽取答案和計(jì)算分?jǐn)?shù)。在生成回答階段,根據(jù)測(cè)試問題的類型,研究團(tuán)隊(duì)使用了特定的模板來引導(dǎo)模型輸出答案。

圖片

考慮到當(dāng)前大型模型通常以對(duì)話形式輸出長(zhǎng)文本回答,報(bào)告中的實(shí)驗(yàn)設(shè)計(jì)了一個(gè)基于 GPT-4 的答案抽取器。這個(gè)抽取器通過幾個(gè)實(shí)例提示 GPT-4,從模型的長(zhǎng)文本回答中抽取出符合題目類型的短答案。這種方法有效地克服了傳統(tǒng)人工評(píng)估的高成本問題和基于規(guī)則的答案抽取可能導(dǎo)致的不準(zhǔn)確性。隨后,這些抽取出來的短文本答案被用于計(jì)算模型的總體準(zhǔn)確率以及在不同子分類別下的準(zhǔn)確率。

圖片

MathVista 上的大型模型評(píng)估實(shí)驗(yàn)

實(shí)驗(yàn)在 testmini 子集上評(píng)估了 12 種大模型:包括 ChatGPT、GPT-4 和 Claude-2 等三個(gè)大型語言模型,以及 LLaVA、LLaMA-Adapter、miniGPT-4、Bard 和 GPT-4V 等 9 種大型多模態(tài)模型。對(duì)于大型語言模型,實(shí)驗(yàn)設(shè)計(jì)了兩種形式,第一種只利用問題的文字信息,第二種是使用圖片的 Captioning 描述和 OCR 文本作為外部增強(qiáng)信息。此外,實(shí)驗(yàn)還完成了兩種隨機(jī)基準(zhǔn)和人類表現(xiàn)基準(zhǔn)。

圖片

實(shí)驗(yàn)結(jié)果顯示,當(dāng)前的大模型在 MathVista 上的整體表現(xiàn)仍有待提升。表現(xiàn)最佳的 GPT-4V 模型達(dá)到了 49.9% 的準(zhǔn)確率,但這與人類的 60.3% 表現(xiàn)相比還有顯著差距。其次是 Bard 模型,準(zhǔn)確率為 34.8%,而目前最好的開源模型 LLaVA 的準(zhǔn)確率則為 26.1%。這些數(shù)據(jù)表明,大型模型在視覺背景下的數(shù)學(xué)推理能力還有很大的提升空間。

有趣的是,當(dāng)結(jié)合圖像 OCR 和 Captioning 信息時(shí),大型語言模型 GPT-4 的表現(xiàn)(33.9%)接近于多模態(tài)模型 Bard(34.8%)。這一發(fā)現(xiàn)顯示,通過適當(dāng)?shù)墓ぞ咴鰪?qiáng),大型語言模型在多模態(tài)領(lǐng)域具有巨大的潛力。

實(shí)驗(yàn)還對(duì)主要模型在不同數(shù)學(xué)推理能力和圖像類型子類上的表現(xiàn)進(jìn)行了量化評(píng)估。結(jié)果顯示,GPT-4V 在諸如代數(shù)、幾何和科學(xué)領(lǐng)域的推理能力上,以及在處理表格、函數(shù)圖、幾何圖像、散點(diǎn)圖和科學(xué)圖形等圖像類型時(shí),其表現(xiàn)接近甚至超過了人類。

圖片

在 test 子集的評(píng)估中,實(shí)驗(yàn)比較了最佳的兩個(gè)大型語言模型(CoT/PoT GPT-4)和最好的開源大型多模態(tài)模型(LLaVA),提供了一個(gè)全面的模型性能概覽。

圖片

Bard 在 MathVista 中的表現(xiàn)

在 MathVista 上的評(píng)估顯示,Bard 模型的總體表現(xiàn)緊隨 GPT-4 之后。通過具體案例分析,報(bào)告發(fā)現(xiàn) Bard 模型經(jīng)常產(chǎn)生所謂的 “幻覺現(xiàn)象”,即在生成的答案中引入了問題文本和圖片中不存在的信息。此外,Bard 在進(jìn)行數(shù)學(xué)運(yùn)算時(shí)也容易出現(xiàn)錯(cuò)誤。

圖片

例如,在下面的例子中,Bard 在簡(jiǎn)化分式 8/10 的過程中犯了計(jì)算錯(cuò)誤。這種問題突顯了模型在處理數(shù)學(xué)問題時(shí)的局限性。

圖片

GPT-4 在 MathVista 上的表現(xiàn)

雖然 GPT-4 本質(zhì)上是一種語言模型,但通過工具增強(qiáng)(例如 OCR 文字和 captioning 描述的結(jié)合),它在 MathVista 上的性能可以達(dá)到與多模態(tài)模型 Bard 相當(dāng)?shù)乃?。具體來說,當(dāng)引入這些圖片的 OCR 文字和 Captioning 描述作為輔助輸入信息時(shí),GPT-4 能夠成功解決許多多模態(tài)數(shù)學(xué)問題。這一發(fā)現(xiàn)顯示了 GPT-4 在多模態(tài)問題處理方面的潛力。

然而,GPT-4 對(duì)這些增強(qiáng)信息的準(zhǔn)確性有著極高的依賴性。如果這些 OCR 文字或 Captioning 描述存在錯(cuò)誤或不準(zhǔn)確性,GPT-4 在推理過程中就很容易走向錯(cuò)誤的方向,從而導(dǎo)致不正確的結(jié)果。這一點(diǎn)凸顯了在使用工具增強(qiáng)大型語言模型時(shí),輸入信息質(zhì)量的重要性。

圖片

GPT-4V 在 MathVista 上的全方位分析

GPT-4V 作為目前最先進(jìn)的大型多模態(tài)模型,對(duì)其能力的深入分析對(duì)未來的研究具有重要意義。報(bào)告通過大量實(shí)例詳盡分析了 GPT-4V 在不同維度的能力,特別是在自我驗(yàn)證、自洽性和多輪對(duì)話方面的巨大潛力。

代數(shù)推理能力:在 MathVista 的代數(shù)問題中,GPT-4V 展現(xiàn)了理解圖像中函數(shù)并推斷其性質(zhì)的出色能力,甚至超過了其他大型模型和人類。但在處理低分辨率圖像和多函數(shù)圖像時(shí),GPT-4V 仍面臨挑戰(zhàn)。

圖片

圖片

數(shù)值計(jì)算能力:MathVista 中的算術(shù)問題不僅需要準(zhǔn)確的基礎(chǔ)運(yùn)算,還需理解多樣化視覺場(chǎng)景。如下圖所示,GPT-4V 在此方面相比現(xiàn)有模型表現(xiàn)出顯著的提升。

圖片

幾何推理能力:在幾何推理方面,GPT-4V 在 MathVista 上的表現(xiàn)與人類相當(dāng)。在以下兩個(gè)例子中,無論是小學(xué)難度還是高年級(jí)難度的問題,GPT-4V 均能給出正確答案,并附有詳細(xì)解釋。

圖片

圖片

圖片

邏輯推理能力:在 MathVista 的邏輯推理問題中,模型需從抽象圖形中推導(dǎo)出數(shù)字或形狀的隱含規(guī)律。GPT-4V 在這方面遇到了挑戰(zhàn),其準(zhǔn)確率僅為 21.6%,僅略高于隨機(jī)猜測(cè)的 8.1%。

圖片

圖片

數(shù)值常識(shí)推理能力:MathVista 中的數(shù)值常識(shí)推理涉及日常物品和名人知識(shí)。這類問題對(duì)大型模型是一大挑戰(zhàn)。例如,下圖所示的問題中,只有 GPT-4V 能正確理解圖像中的光學(xué)錯(cuò)覺現(xiàn)象。

圖片

然而,某些情況下,例如識(shí)別燒杯的最大容量,GPT-4V 與 Bard 模型均表現(xiàn)不佳。

圖片

科學(xué)推理能力:在 MathVista 的科學(xué)推理問題上,GPT-4V 顯著優(yōu)于其他大型模型。它經(jīng)常能準(zhǔn)確解析涉及特定科學(xué)領(lǐng)域的圖中信息,并進(jìn)行后續(xù)推理。

圖片

圖片

然而,某些基本概念的應(yīng)用,如相對(duì)運(yùn)動(dòng),仍是 GPT-4V 的弱點(diǎn)。

圖片

圖片

統(tǒng)計(jì)推理能力:GPT-4V 在理解 MathVista 中的各種圖表、繪圖和圖形方面展現(xiàn)出強(qiáng)大的統(tǒng)計(jì)推理能力。它能準(zhǔn)確解答涉及圖表分析的數(shù)學(xué)問題,超過了其他大型模型。

圖片

圖片

圖片

GPT-4V 的自我驗(yàn)證能力探究

自我驗(yàn)證(self-verification)是一種社會(huì)心理學(xué)概念,其核心觀點(diǎn)是個(gè)體希望他人按照他們自我感知的方式來理解他們。這導(dǎo)致個(gè)體主動(dòng)采取行動(dòng),確保他人能看到他們的穩(wěn)定狀態(tài)(Talaifar & Swann, 2020)。

在微軟的實(shí)驗(yàn)中,GPT-4V 顯示出了一種類似的自我驗(yàn)證能力。這種能力體現(xiàn)在 GPT-4V 能夠在推理過程中自主檢查自身的行為,并主動(dòng)糾正可能的錯(cuò)誤。值得注意的是,這種自我驗(yàn)證能力不同于僅依賴外部反饋或多輪對(duì)話來改進(jìn)模型輸出。例如,在某些情況下,GPT-4V 能夠在單次輸出中自行審核一組候選答案,從而識(shí)別出符合所有給定條件的有效答案。

圖片

在以下多步推理問題中,GPT-4V 顯示出了顯著的能力。它不僅能夠進(jìn)行連貫的推理,還能驗(yàn)證關(guān)鍵步驟的有效性。特別是在遇到無效的中間結(jié)果時(shí),如發(fā)現(xiàn)得出的長(zhǎng)度為負(fù)數(shù),GPT-4V 能夠主動(dòng)檢測(cè)并識(shí)別這些錯(cuò)誤。這種能力使得 GPT-4V 在識(shí)別問題后,能夠嘗試采用不同的方法來解決問題,從而優(yōu)化其推理過程。

圖片


圖片

GPT-4V 的自洽性應(yīng)用及其局限性

自洽性(self-consistency)是在大型語言模型中廣泛使用的一種技術(shù),目的是提升模型在處理復(fù)雜推理任務(wù)時(shí)的準(zhǔn)確性。這種方法通常包括采樣多種推理路徑,并選擇出現(xiàn)頻次最高的答案作為最終解

微軟的實(shí)驗(yàn)驗(yàn)證了自洽性技術(shù)在提高 GPT-4V 在 MathVista 上的性能方面的有效性。實(shí)驗(yàn)表明,自洽性對(duì)于糾正 GPT-4V 在視覺感知和計(jì)算中的錯(cuò)誤,以及減少幻覺現(xiàn)象方面起到了顯著作用

圖片

圖片

圖片

然而,實(shí)驗(yàn)也揭示了自洽性的局限性。特別是在 GPT-4V 難以正確理解復(fù)雜的視覺場(chǎng)景的情況下,自洽性的改善效果并不顯著。這表明,盡管自洽性是一種有效的提升方法,但它的成功在很大程度上還是依賴于模型對(duì)視覺信息的基本理解能力。

圖片

GPT-4V 在 MathVista 上的多輪對(duì)話能力

微軟的報(bào)告最后探討了 GPT-4V 在 MathVista 上進(jìn)行多輪人機(jī)互動(dòng)對(duì)話的能力。實(shí)驗(yàn)結(jié)果表明,GPT-4V 擅長(zhǎng)在多輪對(duì)話中有效地利用用戶提供的提示來優(yōu)化其推理過程。這包括根據(jù)用戶的引導(dǎo)來糾正視覺感知上的誤解,修正推理邏輯中的不一致,更正相關(guān)領(lǐng)域的知識(shí),甚至在人類的協(xié)助下理解和處理極其復(fù)雜的圖表問題。

圖片

圖片

圖片

圖片

圖片

主要華人作者

Pan Lu

圖片

Pan Lu 是加州大學(xué)洛杉磯分校(UCLA)的博士生,是 UCLA 自然語言處理實(shí)驗(yàn)室(NLP Group)和視覺、認(rèn)知、學(xué)習(xí)和自主中心(VCLA)的成員。

在此之前,他在清華大學(xué)獲得計(jì)算機(jī)科學(xué)碩士學(xué)位。他曾在微軟和艾倫人工智能研究院進(jìn)行過實(shí)習(xí)。

他是 ScienceQA 和 Chameleon 等工作的作者。他曾榮獲亞馬遜博士獎(jiǎng)學(xué)金、彭博社博士獎(jiǎng)學(xué)金和高通創(chuàng)新獎(jiǎng)學(xué)金。

Tony Xia

圖片

Tony Xia 是斯坦福大學(xué)計(jì)算機(jī)系的碩士生。此前,他在加州大學(xué)洛杉磯分校獲得計(jì)算機(jī)本科學(xué)位。

Jiacheng Liu

圖片

Jiacheng Liu 是華盛頓大學(xué)的博士生,從事常識(shí)推理、數(shù)學(xué)推理和文本生成的研究。

此前,他在伊利諾伊香檳分校取得本科學(xué)位。他曾獲高通創(chuàng)新獎(jiǎng)學(xué)金。

Chunyuan Li

圖片

Chunyuan Li 是微軟雷德蒙德研究院的首席研究員。

此前,他在杜克大學(xué)獲得了機(jī)器學(xué)習(xí)博士學(xué)位,師從 Lawrence Carin 教授。他曾擔(dān)任過 NeurIPS、ICML、ICLR、EMNLP 和 AAAI 的領(lǐng)域主席,以及 IJCV 的客座編輯。

他是 LLaVA、Visual Instruction Tuning 和 Instruction Tuning 等工作的作者。

Hao Cheng

圖片

Hao Cheng 是微軟雷德蒙德研究院的高級(jí)研究員,同時(shí)也是華盛頓大學(xué)的兼職教授。

此前,他在華盛頓大學(xué)獲得了博士學(xué)位。他是 2017 年 Alexa Prize 冠軍團(tuán)隊(duì)的主要成員。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-10-04 18:42:30

2024-02-06 09:00:00

GPT-4VLLaVA大型語言

2023-10-19 09:32:45

自動(dòng)駕駛技術(shù)

2023-12-01 12:32:04

數(shù)據(jù)訓(xùn)練

2024-04-07 13:39:55

2011-03-28 09:08:04

評(píng)測(cè)報(bào)告設(shè)計(jì)Windows Pho

2023-12-18 09:39:20

模型AI

2023-12-22 12:41:01

模型訓(xùn)練

2024-01-30 21:18:57

語言模型圖像序列機(jī)器人

2023-11-15 13:15:47

AI模型

2023-10-05 12:16:37

2010-04-28 11:31:16

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2024-02-02 21:53:58

AI訓(xùn)練

2023-12-27 18:01:51

2023-10-23 12:28:18

AI訓(xùn)練

2024-09-05 14:10:00

AI計(jì)算

2023-11-05 15:13:38

AI測(cè)評(píng)

2015-04-27 15:29:10

云智慧IaaS服務(wù)性能評(píng)測(cè)

2012-04-24 18:19:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)