4K分辨率視覺預(yù)訓(xùn)練首次實(shí)現(xiàn)!伯克利&英偉達(dá)多模態(tài)新SOTA,更準(zhǔn)且3倍加速處理
當(dāng)前,所有主流的視覺基礎(chǔ)模型(如 SigLIP、DINOv2 等)都仍然在低分辨率(如 384 * 384 分辨率)下進(jìn)行預(yù)訓(xùn)練。對(duì)比人類視覺系統(tǒng)可以輕松達(dá)到 10K 等效分辨率,這種低分辨率預(yù)訓(xùn)練極大地限制了視覺模型對(duì)于高清細(xì)節(jié)的理解能力。
然而,當(dāng)前視覺模型預(yù)訓(xùn)練很難提升到更高的分辨率,核心原因在于計(jì)算代價(jià)過(guò)于高昂。比如 SigLIP,在預(yù)訓(xùn)練過(guò)程中需要編碼整張圖像,計(jì)算復(fù)雜度至少與圖像分辨率二次增長(zhǎng),導(dǎo)致訓(xùn)練成本暴漲,幾乎無(wú)法承受。
近日,伯克利聯(lián)合英偉達(dá)提出一項(xiàng)突破性成果:PS3 視覺編碼器,首次實(shí)現(xiàn)了在 4K超高分辨率下的高效視覺預(yù)訓(xùn)練并且沒有額外開銷,并在此基礎(chǔ)上提出多模態(tài)大模型 VILA-HD。相比于目前最先進(jìn)的多模態(tài)大模型(如 Qwen2-VL),VILA-HD 提升了高清場(chǎng)景下的表現(xiàn)和效率。
更關(guān)鍵的是,研究團(tuán)隊(duì)還發(fā)布了一個(gè)強(qiáng)挑戰(zhàn)性的高分辨率視覺基準(zhǔn)測(cè)試集:4KPro。在這個(gè)數(shù)據(jù)集上,VILA-HD 相比于 Qwen2-VL 提升了 3.2% 的準(zhǔn)確率并且實(shí)現(xiàn)了三倍的加速。
研究團(tuán)隊(duì)也開放了全部?jī)?nèi)容,該研究已被 CVPR 2025評(píng)為 Highlight 論文。
論文標(biāo)題:Scaling Vision Pre-Training to 4K Resolution
論文地址:https://arxiv.org/abs/2503.19903
項(xiàng)目主頁(yè):https://nvlabs.github.io/PS3/
代碼庫(kù)(即將開源):https://github.com/NVLabs/PS3
模型權(quán)重:即將發(fā)布
一、PS3
4K 超高清視覺預(yù)訓(xùn)練
高清預(yù)訓(xùn)練所遇到的困難
當(dāng)前主流視覺模型之所以不能在 4K 下預(yù)訓(xùn)練,是因?yàn)樵诟叻直媛氏滦枰麍D編碼,計(jì)算復(fù)雜度至少與圖像分辨率二次增長(zhǎng)。這使得目前模型很難在 1K 或以上的分辨率進(jìn)行預(yù)訓(xùn)練。
但伯克利 & 英偉達(dá)團(tuán)隊(duì)發(fā)現(xiàn),識(shí)別局部細(xì)節(jié)無(wú)需整圖理解。于是他們提出局部對(duì)比學(xué)習(xí)的訓(xùn)練范式,使得 PS3 能夠在沒有額外開銷的情況下將預(yù)訓(xùn)練分辨率提高到 4K。
局部對(duì)比學(xué)習(xí):「免費(fèi)」的高清預(yù)訓(xùn)練
傳統(tǒng)方法,例如 SigLIP,會(huì)對(duì)全局視覺表征和全局文字描述表征做對(duì)比學(xué)習(xí)。與之相比,PS3 采用局部對(duì)比學(xué)習(xí)策略:僅對(duì)圖像中的局部區(qū)域與局部區(qū)域的細(xì)節(jié)描述進(jìn)行編碼和對(duì)比。這種方式不僅保留了高分辨率的細(xì)節(jié)理解能力,由于模型不需要處理整張高清圖像而只需要處理局部區(qū)域,也極大降低了計(jì)算成本。
實(shí)驗(yàn)顯示,該方法訓(xùn)練時(shí)間可以比直接在 4K 分辨率上預(yù)訓(xùn)練節(jié)省 79 倍,與低分辨率預(yù)訓(xùn)練 SigLIP 相近,卻能處理高達(dá) 4K 分辨率圖像,實(shí)現(xiàn)前所未有的精細(xì)表示能力。
PS3 關(guān)鍵設(shè)計(jì):選擇性處理高清圖片
PS3 并非盲目處理所有像素,而是動(dòng)態(tài)選擇性地采樣圖像區(qū)域:既可以使用圖像顯著性,也可以用任何自然語(yǔ)言來(lái)控制處理的區(qū)域。
此外,PS3 設(shè)計(jì)支持靈活的計(jì)算資源控制 —— 用戶可以根據(jù)場(chǎng)景需要,調(diào)整高分辨率 patch 的數(shù)量,平衡速度與性能。
二、VILA-HD
基于 PS3 的高分辨率 MLLM
基于 PS3,團(tuán)隊(duì)構(gòu)建了多模態(tài)大模型 VILA-HD,其核心優(yōu)勢(shì)在于:
- 細(xì)節(jié)感知能力超過(guò)現(xiàn)有 MLLMs(如 Qwen2-VL)。這得益于 PS3 的高清視覺預(yù)訓(xùn)練提升了細(xì)節(jié)理解能力。
- 響應(yīng)速度也比現(xiàn)有 MLLM 更快:VILA-HD 可根據(jù)提示只處理圖像中相關(guān)區(qū)域,而不是一口吃下整張圖。這使得 VILA-HD 比當(dāng)前基于 AnyRes/S2 等處理整張高清圖的 MLLM 速度更快。
- 根據(jù)用戶需求靈活調(diào)整響應(yīng)速度:VILA-HD 可以靈活調(diào)整處理的高清區(qū)域大小,從而可以適應(yīng)不同的推理開銷要求。
更有趣的是,團(tuán)隊(duì)發(fā)現(xiàn)在 VILA-HD 上,PS3 展現(xiàn)了不同的有趣的擴(kuò)展能力。在提升下游任務(wù)分辨率時(shí),PS3 的性能比沒有高清預(yù)訓(xùn)練的模型性能提升的要更快。PS3 還可以在提升分辨率的同時(shí)選擇固定大小的高清區(qū)域,從而在訓(xùn)練與推理開銷保持不變的情況下提升性能。除此之外,PS3 還可以通過(guò)擴(kuò)展訓(xùn)練或測(cè)試時(shí)的計(jì)算量來(lái)進(jìn)一步提高性能。
三、僅有高分辨率還不夠
我們還需要高分辨率的 Benchmark
研究者們發(fā)現(xiàn),當(dāng)前絕大多數(shù)視覺問(wèn)答評(píng)測(cè)集,即使圖像是 4K 分辨率,實(shí)際任務(wù)卻不需要這么高的分辨率來(lái)解題。他們引入了一個(gè)新概念:MRR(Minimum Recognizable Resolution):完成某個(gè)任務(wù)所需的最小有效圖像分辨率。
分析顯示,大量數(shù)據(jù)集的 MRR 實(shí)際低于 1K,因此難以衡量高分辨率模型的真實(shí)優(yōu)勢(shì)。
為此,研究團(tuán)隊(duì)推出了 4KPro —— 這是一個(gè)真正需要 4K 級(jí)圖像感知能力才能完成的高分辨率基準(zhǔn)測(cè)試。4KPro 在自動(dòng)駕駛,家務(wù)家居,游戲 agent,UI 理解四個(gè)專業(yè)領(lǐng)域收集了 4K 分辨率的圖片以及需要 4K 分辨率才能回答的問(wèn)題。
在 4KPro 上,VILA-HD 顯著優(yōu)于現(xiàn)有 SOTA 多模態(tài)模型,比如相對(duì) Qwen2-VL 提升了 3.2% 的準(zhǔn)確率,同時(shí)在處理速度上可以實(shí)現(xiàn)最高 3 倍加速。
PS3 + VILA-HD 打破了長(zhǎng)久以來(lái)視覺預(yù)訓(xùn)練只能處理小圖像的桎梏,為真實(shí)世界應(yīng)用(如自動(dòng)駕駛、自動(dòng)代理、家用機(jī)器人、工業(yè)檢測(cè)、醫(yī)學(xué)圖像等)打開了新的可能。