偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI玩拼圖游戲暴漲視覺理解力,告別文本中心訓(xùn)練,無(wú)需標(biāo)注的多模態(tài)大模型后訓(xùn)練范式

人工智能 新聞
來(lái)自MMLab@南洋理工大學(xué)的最新論文《Visual Jigsaw Post-Training Improves MLLMs》提出了一種全新的針對(duì)多模態(tài)大模型后訓(xùn)練任務(wù)-Visual Jigsaw。

在多模態(tài)大模型的后訓(xùn)練浪潮中,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的范式已成為提升模型推理與通用能力的關(guān)鍵方向。

然而,大多數(shù)現(xiàn)有方法仍以文本為中心,視覺部分常被動(dòng)地作為輔助信號(hào)輸入。相比之下,我們認(rèn)為在后訓(xùn)練階段重新審視視覺自監(jiān)督學(xué)習(xí)的潛力,設(shè)計(jì)以視覺為中心的后訓(xùn)練對(duì)于增強(qiáng)多模態(tài)大模型對(duì)于視覺信息本身的細(xì)粒度深入理解也同樣至關(guān)重要。

為此,來(lái)自MMLab@南洋理工大學(xué)的最新論文《Visual Jigsaw Post-Training Improves MLLMs》提出了一種全新的針對(duì)多模態(tài)大模型后訓(xùn)練任務(wù)-Visual Jigsaw。

它將經(jīng)典的自監(jiān)督拼圖任務(wù)重新設(shè)計(jì)為多模態(tài)大模型后訓(xùn)練階段的核心目標(biāo),讓模型在不依賴額外標(biāo)注、也無(wú)需視覺生成模塊的情況下,顯式強(qiáng)化自身的視覺感知與理解能力。在圖片,視頻,和3D三種視覺模態(tài)下都驗(yàn)證了其有效性。

Visual Jigsaw 方法簡(jiǎn)介

Visual Jigsaw可以看作是一類通用的對(duì)于視覺信息的排序重建任務(wù)。給定某種視覺模態(tài)的數(shù)據(jù)(圖片,視頻,3D),對(duì)其進(jìn)行特定的劃分并隨機(jī)打亂順序,獲得一組子元素作為拼圖塊。模型的目標(biāo)是重構(gòu)視覺信息,預(yù)測(cè)出它們的正確順序,并以文字的形式輸出對(duì)應(yīng)的排列順序。整個(gè)訓(xùn)練過(guò)程采用強(qiáng)化學(xué)習(xí)算法GRPO來(lái)優(yōu)化。

Visual Jigsaw有對(duì)應(yīng)的GT可以直接驗(yàn)證,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)分級(jí)獎(jiǎng)勵(lì)機(jī)制:預(yù)測(cè)完全正確時(shí)獎(jiǎng)勵(lì)為1;若部分位置正確,則按照正確比例給獎(jiǎng)勵(lì),并乘上折扣系數(shù)來(lái)防止模型過(guò)度依賴部分匹配;若輸出不是有效的排列,則獎(jiǎng)勵(lì)為0。

對(duì)于不同視覺模態(tài),具體的Visual Jigsaw任務(wù)設(shè)計(jì)如下

Image Jigsaw:圖片在2D空間上被劃分為 個(gè)相同大小的子圖,打亂后模型需恢復(fù)正確的空間順序。

Video Jigsaw:視頻在時(shí)間維度上被分割成等長(zhǎng)的視頻片段,模型需重建原始的時(shí)間順序。 

3D Jigsaw:從RGB-D圖像中采樣多個(gè)深度點(diǎn),在圖片中標(biāo)注對(duì)應(yīng)點(diǎn)的位置和打亂后的序號(hào),要求模型恢復(fù)由近到遠(yuǎn)的深度次序。

實(shí)驗(yàn)結(jié)果

通過(guò)在多種圖像、視頻和3D模態(tài)上分別驗(yàn)證了 Visual Jigsaw的有效性:

Image Jigsaw

經(jīng)過(guò)image jigsaw 的訓(xùn)練,模型在三類vision-centric的基準(zhǔn)上都帶來(lái)了穩(wěn)定提升:

1)細(xì)粒度感知與理解,2)基于單目圖像的空間感知和理解,3) 組合式視覺理解與推理。

結(jié)果表明,在多模態(tài)大模型中引入image jigsaw的后訓(xùn)練,能顯著增強(qiáng)其感知能力和細(xì)粒度視覺理解能力,而這恰恰是現(xiàn)有以推理為主的后訓(xùn)練策略所欠缺的。

這種提升來(lái)源于拼圖任務(wù)本身的要求——模型必須關(guān)注局部 patch 的細(xì)節(jié)、推理整體空間布局,并理解不同 patch 之間的關(guān)系,這些都直接促進(jìn)了細(xì)粒度、空間和組合式的理解。

Video Jigsaw

經(jīng)過(guò)video jigsaw 的訓(xùn)練,模型在各類通用視頻理解基準(zhǔn)上均表現(xiàn)出穩(wěn)定的提升。該方法整體上增強(qiáng)了模型對(duì)視頻的感知與理解,并且在需要時(shí)間維度推理和時(shí)間方向性理解的任務(wù)(如 AoTBench)上提升尤為顯著。

同時(shí),在CVBench上的大幅度提升也驗(yàn)證了模型在跨視頻理解與推理上的增強(qiáng)。這表明,視頻拼圖任務(wù)能夠促使模型更好地捕捉時(shí)間連續(xù)性、理解視頻間的關(guān)聯(lián)、推理方向一致性,并最終提升對(duì)視頻的整體和通用理解能力。

3D Jigsaw

經(jīng)過(guò)3D Jigsaw的訓(xùn)練,模型在各類3D基準(zhǔn)任務(wù)上都取得了顯著提升。最突出的提升出現(xiàn)在與深度估計(jì)直接相關(guān)的 DA-2K 上,這是深度排序預(yù)訓(xùn)練任務(wù)的直接體現(xiàn)。但更重要的是,在廣泛的其他任務(wù)上也觀察到了一致的提升,包括單視角基準(zhǔn)(如 3DSRBench、OmniSpatial)、多視角基準(zhǔn)(如 ViewSpatial、All-Angles),以及第一人稱視頻基準(zhǔn)(如 VSI-Bench)。這些結(jié)果表明,該方法不僅讓模型掌握了深度排序這一特定技能,同時(shí)也有效增強(qiáng)了其整體的三維空間感知與推理能力。

結(jié)語(yǔ)

Visual Jigsaw提供了一種以視覺為中心的輕量、可驗(yàn)證、無(wú)需標(biāo)注的新型自監(jiān)督后訓(xùn)練范式,為 MLLMs 的視覺感知注入了全新活力。團(tuán)隊(duì)希望這一工作不僅展示了視覺拼圖任務(wù)的潛力,更能啟發(fā)學(xué)界設(shè)計(jì)更多聚焦視覺信息本身的自/弱監(jiān)督任務(wù),讓多模態(tài)大模型能夠更好地感知和理解各類視覺信息。

論文鏈接:https://arxiv.org/abs/2509.25190

項(xiàng)目主頁(yè):https://penghao-wu.github.io/visual_jigsaw/

數(shù)據(jù)和模型HF鏈接:https://huggingface.co/collections/craigwu/visual-jigsaw-68d92d6aca580f3dc7e3cf36

代碼倉(cāng)庫(kù)鏈接:https://github.com/penghao-wu/visual_jigsaw

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-07-22 10:15:44

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2023-06-09 07:29:03

模型文本document

2025-04-07 00:00:00

多模態(tài)大模型

2023-06-20 16:19:00

機(jī)器3D

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-03-13 09:47:29

2022-04-11 09:20:00

模型訓(xùn)練

2022-05-12 13:39:48

AI研究模型

2025-07-07 13:49:38

模型AI視覺

2025-04-01 09:54:09

AI算法大模型AI

2025-10-14 13:55:57

AI模型訓(xùn)練

2024-11-13 09:39:13

2025-04-15 09:22:00

AI訓(xùn)練模型

2022-03-04 19:07:03

模型視覺人工智能

2024-12-12 00:25:09

2025-08-27 09:08:00

AI視覺模型

2025-04-16 02:30:00

2023-11-29 15:00:00

數(shù)據(jù)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)