大模型時代,通用視覺模型將何去何從?
過去幾年,通用視覺模型(Vision Generalist Model,簡稱 VGM)曾是計算機視覺領(lǐng)域的研究熱點。它們試圖構(gòu)建統(tǒng)一的架構(gòu),能夠處理圖像、點云、視頻等多種視覺模態(tài)輸入,以及分類、檢測、分割等多樣的下游任務(wù),向著「視覺模型大一統(tǒng)」的目標邁進。
然而,隨著大語言模型 LLM 的迅猛發(fā)展,研究熱點已經(jīng)悄然發(fā)生轉(zhuǎn)移。如今,多模態(tài)大模型興起,視覺被看作是語言模型眾多輸入模態(tài)中的一種,視覺模態(tài)數(shù)據(jù)被離散化為 Token,與文本一起被統(tǒng)一建模,視覺的「獨立性」正在被重新定義。
在這種趨勢下,傳統(tǒng)意義上以視覺任務(wù)為核心、以視覺范式為驅(qū)動的通用視覺模型研究,似乎正在逐漸被邊緣化。然而,我們認為視覺領(lǐng)域仍應(yīng)保有自己的特色和研究重點。與語言數(shù)據(jù)相比,視覺數(shù)據(jù)具有結(jié)構(gòu)化強、空間信息豐富等天然優(yōu)勢,但也存在視覺模態(tài)間差異大、難替代的挑戰(zhàn)。例如:如何統(tǒng)一處理 2D 圖像、3D 點云和視頻流等異質(zhì)輸入?如何設(shè)計統(tǒng)一的輸出表示來同時支持像素級分割和目標檢測等不同任務(wù)?這些問題在當(dāng)前的多模態(tài)范式中并未被充分解決。
正因如此,在這個多模態(tài)模型席卷科研與工業(yè)的新時代,回顧并總結(jié)純視覺范式下的通用視覺模型研究仍然是一件十分有意義的事情。清華大學(xué)自動化系魯繼文團隊最近發(fā)表于 IJCV 的綜述論文系統(tǒng)梳理了該方向的研究進展,涵蓋輸入統(tǒng)一方法、任務(wù)通用策略、模型框架設(shè)計、模型評測應(yīng)用等內(nèi)容,希望能為未來視覺模型的發(fā)展提供參考與啟發(fā)。
- 論文標題:Vision Generalist Model: A Survey
- 論文鏈接:https://arxiv.org/abs/2506.09954
VGM 到底解決了什么問題?
通用視覺模型是一種能夠處理多種視覺任務(wù)和模態(tài)輸入的模型框架。類似于大語言模型在自然語言處理中的成功,VGM 旨在通過構(gòu)建一個統(tǒng)一的架構(gòu)來解決各種計算機視覺任務(wù)。傳統(tǒng)的視覺模型通常針對特定任務(wù)(如圖像分類、目標檢測、語義分割等)設(shè)計,而 VGM 通過廣泛的預(yù)訓(xùn)練和共享表示,能夠在不同的視覺任務(wù)之間實現(xiàn)零樣本(Zero-shot)遷移,從而無需為每個任務(wù)進行專門的調(diào)整。
VGM 的關(guān)鍵能力之一是其多模態(tài)輸入的統(tǒng)一處理能力。不同于傳統(tǒng)模型只處理單一類型的視覺數(shù)據(jù),VGM 能夠同時處理來自多個模態(tài)的數(shù)據(jù),如圖像、點云、視頻等,并通過統(tǒng)一的表示方法將它們映射到共享的特征空間。
此外,VGM 還具備強大的多任務(wù)學(xué)習(xí)能力,能夠在同一個模型中處理多個視覺任務(wù),從圖像識別到視頻分析,所有任務(wù)都可以在一個通用框架下并行處理。
綜述涵蓋了哪些核心內(nèi)容?
數(shù)據(jù) + 任務(wù) + 評測:為通用建模打基礎(chǔ)
VGM 通常使用大規(guī)模、多樣化的數(shù)據(jù)集進行訓(xùn)練和評估。為了支持多模態(tài)學(xué)習(xí),VGM 使用的訓(xùn)練數(shù)據(jù)集涵蓋了圖像、視頻、點云等多種類型,本綜述列舉并介紹了一些常見的多模態(tài)數(shù)據(jù)集。
任務(wù)方面,本綜述將視覺任務(wù)分為四類:圖像任務(wù)、幾何任務(wù)、時間序列任務(wù)以及其他視覺相關(guān)任務(wù)。評測方面,主要通過多個綜合基準來衡量其在多種任務(wù)和數(shù)據(jù)集上的表現(xiàn)。與傳統(tǒng)的單一任務(wù)評測不同,現(xiàn)代評測方法更注重模型的跨任務(wù)泛化和多模態(tài)處理能力。本綜述也對現(xiàn)有通用視覺模型的評測基準做了充分的調(diào)研與總結(jié)。
模型設(shè)計范式與技術(shù)補充
現(xiàn)有通用視覺模型的設(shè)計范式主要集中在如何統(tǒng)一處理不同視覺模態(tài)輸入和多樣化任務(wù)輸出,大致可以分為兩種類型:編碼式框架和序列到序列框架。
編碼式框架(Encoding-based Framework)旨在通過構(gòu)建一個共享的特征空間來統(tǒng)一不同的輸入模態(tài),并使用 Transformer 等模型進行編碼。這類框架通常包括領(lǐng)域特定的編碼器來處理不同類型的數(shù)據(jù),如圖像、文本和音頻,然后通過共享的 Transformer 結(jié)構(gòu)進行進一步處理,最終生成統(tǒng)一的輸出。
而序列到序列框架(Sequence-to-Sequence Framework)則借鑒了自然語言處理中的序列建模方法,將輸入數(shù)據(jù)轉(zhuǎn)換為固定長度的表示,然后通過解碼器生成相應(yīng)的輸出。這些框架特別適合處理具有可變長度輸入輸出的任務(wù),如圖像生成和視頻分析。
盡管有一些工作并不能被定義為通用視覺模型,但它們在聯(lián)合多模態(tài)數(shù)據(jù)輸入、模型架構(gòu)設(shè)計、協(xié)同處理多任務(wù)輸出等方面做出了卓越的技術(shù)貢獻。本綜述也對這些技術(shù)進行了詳盡的討論分析。一些相關(guān)領(lǐng)域的內(nèi)容,如多任務(wù)學(xué)習(xí)、視覺-語言學(xué)習(xí)、開放詞匯,也被用來擴充通用視覺模型領(lǐng)域的知識邊界。
此外,作為一個 case study,本綜述對比了收錄了多個主流 VGM 模型在 22 個基準數(shù)據(jù)集上的評測結(jié)果:
VGM 的未來在哪里?
最后,本綜述總結(jié)了 VGM 的當(dāng)前研究進展和面臨的挑戰(zhàn),還強調(diào)了其在實際應(yīng)用中的潛力和未來發(fā)展方向。
現(xiàn)有 VGM 在多個任務(wù)和多模態(tài)輸入的統(tǒng)一處理方面已經(jīng)取得了顯著的進展,但仍面臨著如何優(yōu)化統(tǒng)一框架設(shè)計、提高訓(xùn)練效率和應(yīng)對大規(guī)模數(shù)據(jù)等挑戰(zhàn)。數(shù)據(jù)獲取和標注仍然是 VGM 發(fā)展的瓶頸。
為了解決這一問題,自動化標注技術(shù)以及大規(guī)模無監(jiān)督學(xué)習(xí)方法的研究將成為未來的研究重點。然而,隨著模型規(guī)模的擴大,VGM 也面臨著倫理問題和偏見的挑戰(zhàn)。大量未標注的數(shù)據(jù)中可能包含潛在的偏見,如何確保模型的公平性、透明性和安全性,仍是未來研究中的重要課題。
盡管如此,現(xiàn)有的 VGM 在實際應(yīng)用中展示了廣泛的潛力。它不僅可以用于傳統(tǒng)的視覺任務(wù),如圖像分類、目標檢測和語義分割,還能擴展到更復(fù)雜的多模態(tài)任務(wù),如視覺問答、圖像-文本檢索、視頻理解等。這些應(yīng)用涵蓋了智能監(jiān)控、自動駕駛、機器人等多個領(lǐng)域,推動了 VGM 在實際場景中的廣泛部署。
希望這篇文章能給研究中的你一些啟發(fā)。