偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

歐幾里得的禮物:通過幾何代理任務(wù)增強視覺-語言模型中的空間感知和推理能力

人工智能 新聞
來自華中科技大學(xué)、北京中關(guān)村學(xué)院和華東師范大學(xué)的研究團隊將目光轉(zhuǎn)向從更廣泛且更基礎(chǔ)的空間現(xiàn)象中學(xué)習(xí),從而突破單一數(shù)據(jù)集的局限,擴展模型的能力范圍。

本文共同第一作者為華中科技大學(xué)博士生連仕杰與華東師范大學(xué)博士生鄔長倜,二者同時也是北京中關(guān)村學(xué)院2024級學(xué)生。共同通訊作者包括:鄭州大學(xué)學(xué)術(shù)副校長,鄭州大學(xué)/華中科技大學(xué)教授,加拿大工程院/歐洲科學(xué)院院士楊天若教授;北京中關(guān)村學(xué)院&中關(guān)村人工智能研究院具身方向負(fù)責(zé)人陳凱。

近年來,多模態(tài)大語言模型(MLLMs)在廣泛的視覺-語言任務(wù)中取得了顯著成功。盡管如此,最先進的 MLLMs 仍然缺乏真正的空間智能。甚至如今,最先進的視覺-語言模型(VLMs)在一些兒童輕易就能完成的任務(wù)上仍會出現(xiàn)偶爾錯誤,例如數(shù)方塊或識別給定物體左側(cè)最近的鄰近物體。

圖 1,讓 GPT5-Thinking 和 Gemini 2.5 Pro 數(shù)方塊(正確答案是白色 10 塊,橙色 13 塊)

在李飛飛提出的 VSIBench 評估基準(zhǔn)中顯示,超過 70% 的記錄錯誤源于模型對空間現(xiàn)象的推理錯誤,而非視覺識別或語言解析能力的不足。這一現(xiàn)象與著名的「莫拉維克悖論」一致,即對于 VLM 而言,有可能高層次推理任務(wù)在計算上比低層次的感知和感覺運動技能更簡單。

近期如 Spatial-MLLM、SpaceVLM、RoboBrain2.0 等關(guān)于空間感知 VLM 的研究,嘗試通過提供專門構(gòu)建的空間數(shù)據(jù)集來提升模型性能。然而,這些空間數(shù)據(jù)集中的任務(wù)通常僅涵蓋現(xiàn)實世界空間任務(wù)的一個子集,可能無法增強模型的整體空間智能。這凸顯了實現(xiàn)空間智能的一個關(guān)鍵挑戰(zhàn):

盡管在特定空間任務(wù)數(shù)據(jù)集上進行微調(diào)可以實現(xiàn)高模型域內(nèi)的性能,但可能導(dǎo)致模型過度特化,難以培養(yǎng)更基礎(chǔ)且可泛化的空間智能。

為了打破這一僵局,來自華中科技大學(xué)、北京中關(guān)村學(xué)院和華東師范大學(xué)的研究團隊將目光轉(zhuǎn)向從更廣泛且更基礎(chǔ)的空間現(xiàn)象中學(xué)習(xí),從而突破單一數(shù)據(jù)集的局限,擴展模型的能力范圍。

  • 論文標(biāo)題:Euclid’s Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks 
  • 論文地址:https://zgca-ai4edu.github.io/Euclids_Gift/

具體來說,為了培養(yǎng)模型在任何單一基準(zhǔn)之外發(fā)展泛化的空間能力,他們嘗試探索一種新穎的訓(xùn)練范式,將解決幾何問題作為在 VLMs 中提升空間智能的代理任務(wù)。

幾何將數(shù)個世紀(jì)的數(shù)學(xué)研究濃縮為對空間現(xiàn)象的形式化描述。因此,學(xué)習(xí)求解平面與立體幾何問題迫使模型內(nèi)化歐幾里得幾何公理等先驗知識,并為模型提供更強的跨領(lǐng)域泛化能力,因為這些原理具有普適性且獨立于任何單一任務(wù)。

為什么選擇「幾何問題」作為空間智能的代理任務(wù)?

實際上,解決幾何問題所需的能力,包括識別形狀與構(gòu)型、推斷空間關(guān)系(如平行、角度和相對位置)、計算或測量幾何元素,以及執(zhí)行多步邏輯推理,同樣也是空間感知任務(wù)所必需的。

此外,教育心理學(xué)領(lǐng)域有大量現(xiàn)存證據(jù)表明,幾何問題求解與空間智力密切相關(guān),可以作為空間能力的有力指標(biāo),并且可以通過有針對性的練習(xí)加以提升 [1] [2] [3]。 本文通過大量實驗進一步發(fā)現(xiàn),這種關(guān)系不僅適用于人類學(xué)習(xí)者,也可推廣至多模態(tài)大模型。

制作更豐富的、以幾何為中心的訓(xùn)練集

遺憾的是,目前尚無針對多樣化幾何問題的大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)集。此外,現(xiàn)存數(shù)據(jù)集中顯著的不平衡性:立體幾何題遠(yuǎn)少于平面幾何題。然而,立體幾何包含了更多明確的三維空間現(xiàn)象(例如視角不變性、多面體截斷特征、體積與面積關(guān)系等),這些對 VLM 學(xué)習(xí)空間知識同樣至關(guān)重要。

為此,本文從現(xiàn)有開源數(shù)據(jù)集與 K12 階段的教程/練習(xí)冊中重新收集數(shù)據(jù),標(biāo)注了一個具有 29,695 個幾何問題的幾何數(shù)據(jù)集——Euclid30K。Euclid30K 中的所有題目與答案都通過 GPT-4o 與 DeepSeek-V3.1 API 的混合清洗,以確保答案被重規(guī)范化為可以被 MathVerify 正確識別的格式。

驗證

為了讓訓(xùn)練得到的性能收益全部來自于幾何數(shù)據(jù)集,而非精心設(shè)計的算法或其他 trick。本文只使用了常規(guī)的 GRPO 對模型進行訓(xùn)練。并參考 DAPO 使用了 0.28 的 CLIP 裁剪上界、Token-level 策略梯度損失以及動態(tài)采樣。

結(jié)果顯示,經(jīng)過幾何問題訓(xùn)練后,模型在 VSI Bench、Super CLEVR、Omni3D Bench 和 MindCube 這四個基準(zhǔn)上的性能都出現(xiàn)了一定程度的增長。體現(xiàn)了使用幾何問題作為代理任務(wù)這空間智能上的 zero-shot 泛化能力。

為了進一步確保模型的性能提升來自于可以明確歸因于幾何任務(wù)作為空間智能的有效代理任務(wù),而非 GRPO 算法或數(shù)據(jù)量增加的影響。本文進行了一項因果消融研究。

具體而言,本文在非幾何的空間智能數(shù)據(jù)集 Clevr-CoGenT 上隨機采樣了一個與 Euclid30K 大小相等的樣本,并使用完全相同的 GRPO 設(shè)置來訓(xùn)練 Qwen2.5VL 和 RoboBrain2.0。結(jié)果表明,在 Euclid30K 上訓(xùn)練的模型相比在同等大小的 Clevr-CoGenT 數(shù)據(jù)集上微調(diào)的模型,整體準(zhǔn)確率顯著更高。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-27 12:03:11

2023-12-04 13:40:09

AI訓(xùn)練

2024-02-19 07:10:00

視覺模型

2024-04-11 11:35:03

大語言模型LLMs

2024-08-27 09:35:47

2023-05-05 13:29:04

模型推理

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-07-10 09:14:11

2025-05-29 02:11:00

2024-07-02 12:27:47

2023-07-09 15:09:18

機器學(xué)習(xí)能力

2025-06-10 03:30:00

2023-11-15 14:17:23

微軟語言模型AI 模型

2024-06-20 14:12:53

2024-07-01 12:54:39

2023-11-20 22:14:16

計算機視覺人工智能

2025-05-08 02:02:02

2025-02-25 09:49:12

2023-04-27 13:46:08

語言模型ChatGPT人工智能

2025-05-30 09:19:00

點贊
收藏

51CTO技術(shù)棧公眾號