阿里推出“眼睛”模型QVQ：全球第一個(gè)用于視覺推理的開放權(quán)重模型

作者：AI寒武紀(jì) 2024-12-25 09:30:00

阿里推出基于 Qwen2-VL-72B 構(gòu)建的開源多模態(tài)推理模型QVQ

這可能是全球第一個(gè)用于視覺推理的開源權(quán)重模型，名為QVQ，其中的“V”代表視覺。它只需讀取一張圖像和一條指令，就能開始思考，在需要時(shí)進(jìn)行反思，持續(xù)推理，最后得出有把握的預(yù)測(cè)！不過，該模型仍處于實(shí)驗(yàn)階段

人的語言和視覺緊密交織，塑造著我們感知和理解世界的方式，QVQ的主要目標(biāo)是模仿人的這一思維方式

QVQ 在人工智能的視覺理解和復(fù)雜問題解決能力方面實(shí)現(xiàn)了重大突破。在 MMMU 評(píng)測(cè)中，QVQ 取得了 70.3 的優(yōu)異成績，并且在各項(xiàng)數(shù)學(xué)相關(guān)基準(zhǔn)測(cè)試中相比 Qwen2-VL-72B-Instruct 都有顯著提升。通過細(xì)致的逐步推理，QVQ 在視覺推理任務(wù)中展現(xiàn)出增強(qiáng)的能力，尤其在需要復(fù)雜分析思維的領(lǐng)域表現(xiàn)出色

模型表現(xiàn)

QVQ在 4 個(gè)數(shù)據(jù)集上評(píng)估 QVQ-72B-Preview，包括：

MMMU：大學(xué)級(jí)別的多學(xué)科多模態(tài)評(píng)測(cè)集，旨在考察模型視覺相關(guān)的綜合理解和推理能力

MathVista：數(shù)學(xué)相關(guān)的視覺推理測(cè)試集，評(píng)估拼圖測(cè)試圖形的邏輯推理、函數(shù)圖的代數(shù)推理和學(xué)術(shù)論文圖形的科學(xué)推理等能力

MathVision：高質(zhì)量多模態(tài)數(shù)學(xué)推理測(cè)試集，來自于真實(shí)的數(shù)學(xué)競(jìng)賽，相比于MathVista具有更多的問題多樣性和學(xué)科廣度

OlympiadBench：奧林匹克競(jìng)賽級(jí)別的雙語多模態(tài)科學(xué)基準(zhǔn)測(cè)試集，包含來自奧林匹克數(shù)學(xué)和物理競(jìng)賽的8,476個(gè)問題，包括中國高考。每個(gè)問題都附有專家級(jí)別的注釋，詳細(xì)說明了逐步推理的過程

QVQ-72B-Preview 在 MMMU 基準(zhǔn)測(cè)試中取得了 70.3 的分?jǐn)?shù)，顯著超越了 Qwen2-VL-72B-Instruct。此外，在剩下的三個(gè)專注于數(shù)學(xué)和科學(xué)問題的基準(zhǔn)測(cè)試中，該模型表現(xiàn)出色，有效縮小了與領(lǐng)先的最先進(jìn)的 o1 模型之間的差距

阿里展示幾個(gè)QVQ解題的例子，QVQ可以展現(xiàn)實(shí)時(shí)思維過程