偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ACL 2024 Oral|我們離真正的多模態(tài)思維鏈推理還有多遠?

人工智能 新聞
研究者們引入了一個新的基準(zhǔn),旨在推動多領(lǐng)域、多步和多模態(tài)思維鏈的研究。研究者們的實驗和分析表明,盡管現(xiàn)有的 VLLMs 在某些任務(wù)上表現(xiàn)優(yōu)異,但在更復(fù)雜的多模態(tài)推理任務(wù)上仍有很大改進空間。

該文章的第一作者陳麒光,目前就讀于哈工大賽爾實驗室。他的主要研究方向包括大模型思維鏈、跨語言大模型等。

在過去的幾年中,大型語言模型(Large Language Models, LLMs)在自然語言處理(NLP)領(lǐng)域取得了突破性的進展。這些模型不僅能夠理解復(fù)雜的語境,還能夠生成連貫且邏輯嚴謹?shù)奈谋尽?/span>

然而,隨著科技的發(fā)展和應(yīng)用場景的多樣化,單一文本模態(tài)的能力顯然已經(jīng)不能滿足現(xiàn)代需求。人們?nèi)找嫫诖軌蛱幚砗屠斫舛喾N模態(tài)信息(如圖像、視頻、音頻等)的智能系統(tǒng),以應(yīng)對更復(fù)雜的任務(wù)和場景。研究者們開始嘗試將文本 CoT 的能力擴展到多模態(tài)思維鏈推理領(lǐng)域,以應(yīng)對更加復(fù)雜和多樣化的任務(wù)需求。

最早的多模態(tài)思維鏈研究之一是由 Lu 等人 [1] 引入的 ScienceQA 基準(zhǔn),該基準(zhǔn)結(jié)合了視覺和語言信息,推動了多模態(tài)思維鏈(Multi-modal Chain of Thought, MCoT)的研究。ScienceQA 數(shù)據(jù)集的出現(xiàn),使得研究者們能夠在一個統(tǒng)一的框架下評估多模態(tài)模型的思維鏈推理能力。

進一步地,Zhang 等人 [2] 的研究更是將 MCoT 的性能推向了一個新高,使得模型在 ScienceQA 數(shù)據(jù)集上的表現(xiàn)超過了人類的水平 (93%>88%)。然而,當(dāng)前的多模態(tài)思維鏈研究是否真正解決了所有挑戰(zhàn)?隨著 ScienceQA 等基準(zhǔn)測試的成績不斷刷新,我們是否可以認為多模態(tài)推理問題已經(jīng)迎刃而解?

研究者們通過深入分析發(fā)現(xiàn),當(dāng)前的多模態(tài)思維鏈基準(zhǔn)仍然存在嚴重的問題,導(dǎo)致對模型實際能力的高估。當(dāng)前的多模態(tài)思維鏈基準(zhǔn)仍面臨以下三個嚴重的問題:視覺模態(tài)推理缺失、僅有單步視覺模態(tài)推理以及領(lǐng)域覆蓋不足

這些問題嚴重制約了多模態(tài)思維鏈領(lǐng)域的發(fā)展。因此,研究者提出了一個新的基準(zhǔn)

圖片(Multi-Domain Multi-step Multi-modal Chain-of-Thought),旨在解決上述問題,并推動多領(lǐng)域、多步和多模態(tài)思維鏈的進步。研究者們還進行了全面的評估,涉及豐富的多模態(tài)推理設(shè)置與方法。

研究者們還發(fā)現(xiàn)當(dāng)前的多模態(tài)大模型在 圖片 上的表現(xiàn)存在巨大的性能缺陷,盡管它們在以前的傳統(tǒng)多模態(tài)思維鏈基準(zhǔn)上表現(xiàn)優(yōu)異。最后,研究團隊希望 圖片 能夠成為一個有價值的資源,為多領(lǐng)域、多步和多模態(tài)思維鏈的研究提供開創(chuàng)性的基礎(chǔ)。

圖片


  • 榜單地址:https://lightchen233.github.io/M3CoT.github.io/leaderboard.html
  • 論文地址:https://arxiv.org/abs/2405.16473
  • 代碼地址:https://github.com/LightChen233/M3CoT

動機

盡管在 MCoT 研究領(lǐng)域取得了顯著進展,但現(xiàn)有基準(zhǔn)仍然存在諸多不足:

1. 視覺模態(tài)推理缺失:模型往往可以僅基于文本模態(tài)生成推理和答案,這并不能真實反映多模態(tài) CoT 模型的能力。

2. 單步視覺模態(tài)推理:比如說,只需要看到單次圖片中的 “羽毛” 便可直接獲得答案。而在實際應(yīng)用中,多步推理更為常見和必要,要求模型在推理的過程中動態(tài)的多次結(jié)合多模態(tài)信息進行綜合推理。

3. 領(lǐng)域缺失:對于思維鏈來說,常識推理和數(shù)學(xué)推理是該領(lǐng)域的重要組成部分,而現(xiàn)有基準(zhǔn)缺乏對常識和數(shù)學(xué)等重要領(lǐng)域的覆蓋,限制了多模態(tài) CoT 能力的綜合評估。

圖片

針對以上問題,研究者們開發(fā)了一個新基準(zhǔn)圖片,并希望推動多領(lǐng)域、多步和多模態(tài)思維鏈的研究與發(fā)展。

圖片

數(shù)據(jù)構(gòu)建過程

圖片

圖片 的構(gòu)建涉及如下四個關(guān)鍵階段:

  • 視覺模態(tài)推理缺失樣本移除:首先,為解決視覺模態(tài)推理缺失的問題,圖片 利用自動和手動相結(jié)合的方式移除了那些無需圖像即可得出答案的樣本。
  • 多步多模態(tài)樣本構(gòu)建:這一階段中,為了保證基準(zhǔn)滿足多步多模態(tài)的要求,圖片首先自動的去除了推理路徑過短的樣本,隨后通過手動去除和優(yōu)化樣本,確保每一個樣本確實需要跨模態(tài)的多步推理。
  • 多模態(tài) CoT 領(lǐng)域增強:此外,圖片通過引入數(shù)學(xué)和常識領(lǐng)域的數(shù)據(jù),將 LaTeX 代碼轉(zhuǎn)為圖片,并利用大模型生成更多的問題、推理路徑和答案,增強了基準(zhǔn)的多樣性和挑戰(zhàn)性。
  • 質(zhì)量檢查:為了保證數(shù)據(jù)集的質(zhì)量,圖片實施了多輪人工審核和自動檢測,確保數(shù)據(jù)的一致性和準(zhǔn)確性。

主流多模態(tài)大語言模型評測結(jié)果

研究者們在多個大型視覺語言模型(VLLMs)上進行了廣泛的實驗,包括 Kosmos-2、InstructBLIP、LLaVA-V1.5、CogVLM、Gemini 和 GPT4V 等。研究者們還探索了一些提示策略,如直接提交樣本、思維鏈提示(CoT)[3] 以及描述性提示(Desp-CoT)[4] 和場景圖思維鏈提示策略(CCoT)[5]。

實驗結(jié)果與結(jié)論如下所示:

  • 開源模型與 GPT4V 仍有差距:盡管這些模型在現(xiàn)有基準(zhǔn)測試中表現(xiàn)優(yōu)異,但在 圖片上的表現(xiàn)仍有顯著差距。尤其是當(dāng)前的開源 VLLMs 在多步多模態(tài)推理方面表現(xiàn)不佳,與 GPT4V 相比存在顯著差距。
  • GPT4V 與人類仍有差距:此外,盡管 GPT4V 在 圖片 上的表現(xiàn)優(yōu)于其他 VLLMs,但與人類表現(xiàn)相比仍存在顯著差距。這表明,當(dāng)前的 VLLMs 在處理復(fù)雜的多模態(tài)推理任務(wù)時仍需進一步改進。
  • 多模態(tài)思維鏈涌現(xiàn)現(xiàn)象:視覺大模型在參數(shù)級別超過 100 億(≥13B)時表現(xiàn)出思維鏈涌現(xiàn)現(xiàn)象。

圖片

分析

此外,為了回答如何能夠在 圖片 上獲得更好的表現(xiàn)。研究者們提供了更全面的分析,從而揭示了當(dāng)前 VLLMs 在多步多模態(tài)推理方面的顯著不足,為未來的優(yōu)化提供了方向。


  • 單步推理任務(wù)的表現(xiàn)遠優(yōu)于多步推理任務(wù)。模型在解決多步多模態(tài)推理時性能與單步多模態(tài)推理有接近 30% 的差距,且隨步驟數(shù)增加,性能遞減。這表明模型在處理復(fù)雜多步驟推理時仍存在困難。

    圖片


  • 提高模型生成的推理過程質(zhì)量對于提升 圖片 的表現(xiàn)至關(guān)重要。通過評估多維度的推理質(zhì)量,研究者們觀察到推理質(zhì)量的提升與 圖片 的性能呈現(xiàn)指數(shù)級相關(guān)關(guān)系。提升多模態(tài)推理的邏輯質(zhì)量是解決 圖片 的關(guān)鍵瓶頸之一。


  • 多模態(tài)信息交互的增加能夠顯著提升模型的推理性能。由于 圖片 要求推理時動態(tài)的包含多個跨模態(tài)推理步驟,則至少有 2 步跨模態(tài)推理,而現(xiàn)有模型推理過程中,平均的跨模態(tài)推理步驟數(shù)小于 1。這說明未來的研究應(yīng)注重提高推理過程的質(zhì)量和多模態(tài)信息的交互,以解決當(dāng)前模型在 圖片 上的表現(xiàn)不足。

圖片

探索

在此基礎(chǔ)上,研究者們進一步探究了當(dāng)前各種常用的多模態(tài)方法與設(shè)置,探究是否能夠有效的解決 圖片 中的問題。

工具使用探索

在多模態(tài)推理中,工具使用被認為是提高模型性能的一種有效策略。研究者們在實驗中評估了多種工具使用方法,包括 HuggingGPT、VisualChatGPT、IdealGPT 和 Chameleon 等模型。

文本大模型使用多模態(tài)工具在 圖片 上表現(xiàn)不佳:實驗結(jié)果表明,盡管這些工具在單模態(tài)任務(wù)中表現(xiàn)良好,但在 圖片 基準(zhǔn)上的表現(xiàn)仍存在顯著差距。例如,HuggingGPT 在處理復(fù)雜的多步推理任務(wù)時,由于缺乏對視覺信息的有效利用,表現(xiàn)較為遜色。此外,VisualChatGPT 和 IdealGPT 在處理需要多模態(tài)交互的任務(wù)時,表現(xiàn)也未能達到預(yù)期。這些結(jié)果表明,當(dāng)前的工具使用框架需要進一步改進,以更好地整合和利用多模態(tài)信息。

圖片

上下文學(xué)習(xí)探索

在上下文學(xué)習(xí)方面,研究者們探索了不同的示例策略對模型性能的影響。具體而言,研究者們評估了純文本示例以檢測模型在多模態(tài)推理時是否會進行文本形式的學(xué)習(xí),同時還評估了多模態(tài)示例以檢測模型在多模態(tài)推理時是否會利用多模態(tài)示例進行上下文學(xué)習(xí)。

純文本示例無法提高 圖片 上的性能:實驗結(jié)果顯示,對于純文本示例來說,這些樣本數(shù)量對模型性能影響幾乎可以忽略不計,這說明,純粹的文本形式的模仿并不足以解決 圖片 問題。

圖像和文本交錯的多模態(tài)示例甚至可能會損害 圖片 上的性能:對于多模態(tài)示例來說,上下文學(xué)習(xí)僅僅能夠提高較大模型的能力。然而,對于一些訓(xùn)練過多模態(tài)交互數(shù)據(jù)的模型來說,甚至?xí)S著樣本數(shù)量增加而出現(xiàn)性能下降。因此,研究者們認為,未來需要將包含邏輯的更高質(zhì)量的圖像和文本交錯示例用于上下文學(xué)習(xí)的訓(xùn)練,并增強多模態(tài)大模型的多模態(tài)交互能力,才能夠在一定程度上改善模型的表現(xiàn)。

圖片

指令微調(diào)探索

為了進一步提高模型在 圖片 上的表現(xiàn),研究者們進行了微調(diào)實驗。

指令微調(diào)能夠顯著增強傳統(tǒng)視覺語言模型(VLMs)的性能:指令微調(diào)使傳統(tǒng)視覺語言模型超越零樣本視覺大模型,這就是我們的數(shù)據(jù)集在提高 VLM 有效性方面的價值。經(jīng)過微調(diào)的 VLM(最低為 44.85%)優(yōu)于大多數(shù)具有零樣本提示的開源 VLLM(最高為 38.86%)。

指令微調(diào)能夠進一步地增強大型視覺語言模型的性能:通過在 圖片 數(shù)據(jù)集上進行微調(diào),LLaVA-V1.5-13B 模型的整體準(zhǔn)確率提高了近 20%,并接近了 GPT4V 的水平。

因此,研究者們建議未來的研究可以更多地關(guān)注指令微調(diào)技術(shù),以進一步提升多模態(tài)推理模型的表現(xiàn)。

圖片

結(jié)論及展望

研究者們引入了一個新的基準(zhǔn) 圖片,旨在推動多領(lǐng)域、多步和多模態(tài)思維鏈的研究。研究者們的實驗和分析表明,盡管現(xiàn)有的 VLLMs 在某些任務(wù)上表現(xiàn)優(yōu)異,但在更復(fù)雜的多模態(tài)推理任務(wù)上仍有很大改進空間。通過提出 圖片,研究者們希望能夠重新評估現(xiàn)有的進展,并通過指出新的挑戰(zhàn)和機會,激發(fā)未來的研究。研究者們期待 圖片 能夠成為一個有價值的資源,為多領(lǐng)域、多步和多模態(tài)思維鏈的研究提供開創(chuàng)性的基礎(chǔ)。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-10-13 22:41:24

人工智能數(shù)據(jù)信息技術(shù)

2011-07-21 08:53:42

HTML 5

2015-11-30 11:02:00

5G通信技術(shù)

2019-07-09 16:25:42

區(qū)塊鏈數(shù)字貨幣比特幣

2022-04-20 12:19:35

400G中國電信中國移動

2018-10-15 10:59:56

2024-11-11 11:05:00

大語言模型系統(tǒng)

2018-09-30 11:20:07

人工智能機器學(xué)習(xí)深度學(xué)習(xí)

2023-03-02 10:31:01

6G

2018-08-30 10:14:20

代碼開發(fā)機器

2021-03-25 20:23:09

人工智能AI肺結(jié)核

2020-10-15 08:58:38

人工智能機器學(xué)習(xí)技術(shù)

2019-10-12 13:57:29

5G

2016-08-03 15:35:14

云計算云計算發(fā)展趨勢

2011-12-30 09:22:40

2016-07-20 13:08:59

云計算

2013-08-15 11:01:22

2012-08-31 10:07:34

VMware

2018-09-27 15:42:38

人工智能看病醫(yī)生

2015-09-15 10:03:43

流量無限運營商
點贊
收藏

51CTO技術(shù)棧公眾號