偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

會“思考”的目標檢測模型來了!IDEA提出Rex-Thinker:基于思維鏈的指代物體檢測模型,準確率+可解釋性雙突破

人工智能 新聞
最近, IDEA 提出全新解決方案 Rex-Thinker ,首次將人類思維中的 “邏輯推理鏈” 引入視覺指代任務,讓 AI 像人一樣分步思考、驗證證據(jù),在權威測評中不僅準確率顯著提升,更展現(xiàn)出強大的 “知之為知之” 能力!

Caption: Rex-Thinker 的思考過程

在日常生活中,我們常通過語言描述尋找特定物體:“穿藍襯衫的人”“桌子左邊的杯子”。如何讓 AI 精準理解這類指令并定位目標,一直是計算機視覺的核心挑戰(zhàn)?,F(xiàn)有方法常被兩大問題困擾: 決策過程不透明 (“黑箱” 預測)和 拒識能力不足 (對不存在物體輸出錯誤結果)。

圖片

圖 1:指代檢測的應用場景實例

最近, IDEA 提出全新解決方案 Rex-Thinker ,首次將人類思維中的 “邏輯推理鏈” 引入視覺指代任務,讓 AI 像人一樣分步思考、驗證證據(jù),在權威測評中不僅準確率顯著提升,更展現(xiàn)出強大的 “知之為知之” 能力!

圖片

  • 項目主頁:https://rexthinker.github.io/?
  • 在線 Demo:https://huggingface.co/spaces/Mountchicken/Rex-Thinker
  • Demo?論文地址:https://arxiv.org/abs/2506.04034
  • 開源代碼:https://github.com/IDEA-Research/Rex-Thinker
  • 投稿人:Qing Jiang
  • 投稿團隊:IDEA-CVR

突破在哪?讓 AI 學會 “思考三步走”

傳統(tǒng)模型直接輸出目標檢測框,而 Rex-Thinker 創(chuàng)新性地構建了可解釋的推理框架:

1. 規(guī)劃 (Planning)拆解語言指令:“找到坐在烏龜上的人” → 分解為 “第一步找到烏龜 → 第二步判斷每個人是否坐在烏龜上”

2. 驗證 (Action)對每個候選目標(如 “Person 1”“Person 2”)逐步核對子條件, 每一步的分析都綁定圖中具體區(qū)域 (比如 Person 1 就對應圖中標號為 Person 的人) (見圖 2)

3. 決策 (Summarization)匯總驗證結果,輸出匹配目標的坐標或聲明 “未找到”

圖片

圖 2: Rex-Thinker 推理示例

模型結構:基于檢索的檢測多模態(tài)模型設計 + CoT 推理

圖片

圖 3: Rex-Thinker 模型結構

如圖 3 所示,Rex-Thinker 在模型設計上,采用了基于檢索策略,即先通過一個開集檢測模型提取出所有的候選框,然后將候選框輸入到模型中,然后模型對每個候選框進行推理,最后再輸出答案,具體而言每個步驟為:

1. 候選框生成: 使用開放詞匯檢測器(如 Grounding DINO)提前檢測出所有可能的目標區(qū)域,作為 Box Hint 輸入;

2. 鏈式推理(CoT Reasoning): 給定候選框,模型逐個對比、推理,生成結構化思考過程 <think>...</think> 和最終答案 <answer>…</answer>。整個過程的輸入 prompt 如下所示:

圖片

圖 4 . Rex-Thinker 的輸入 prompt 構成。

3. 輸出格式:最終輸出標準化 JSON 格式的目標坐標,這種設計既規(guī)避了直接回歸坐標的困難,也讓每步推理有圖像依據(jù),提升可解釋性和推理可信度。

訓練流程:SFT 冷啟動 + GRPO 后訓練,打造強大推理能力

要讓 AI 具備像人一樣的推理能力,關鍵在于教會它怎么一步步思考。為此,Rex-Thinker 采用了兩階段訓練策略,從構建高質(zhì)量推理數(shù)據(jù)集開始。

圖片

圖 5: HumanRef-CoT 數(shù)據(jù)集構造流程

1. 構建推理數(shù)據(jù)集 HumanRef-CoT

首先,團隊在已有的 HumanRef 數(shù)據(jù)集(專注多人物指代)基礎上,利用 GPT-4o 自動生成了 9 萬條鏈式推理示例,構建了 HumanRef-CoT,主要特點包括:

  • 完整推理鏈:每條樣本嚴格按照「規(guī)劃(Planning)- 驗證(Action)- 總結(Summarization)」的推理流程生成。
  • 多樣化推理場景:覆蓋單目標、多目標、屬性組合、空間關系、交互行為等復雜描述;
  • 拒答樣本:特意加入了無匹配目標的描述,引導模型學會在必要時拒絕作答,提升抗幻覺能力。

這一數(shù)據(jù)集首次系統(tǒng)性地引入了推理鏈標注,為訓練具有推理能力的視覺指代模型奠定了基礎。

2. 兩階段訓練策略

圖片

圖 6. Rex-Thinker 采用的兩階段訓練方法

(1)冷啟動訓練

首先在 HumanRef-CoT 數(shù)據(jù)集上進行監(jiān)督微調(diào)(SFT),這個階段主要幫助模型掌握基本的推理框架和輸出規(guī)范。

(2)GRPO-based 強化學習后訓練

有了基礎推理能力后,進入關鍵的 GRPO 強化學習階段,進一步提升推理質(zhì)量與可靠性。通過引入 F1 準確率獎勵 + 格式規(guī)范獎勵 ,讓模型自我優(yōu)化推理路徑。這一機制避免了單一推理路徑訓練可能帶來的過擬合問題,促進了模型在推理策略上的多樣性和泛化能力。 最終,GRPO 不僅提升了模型的推理精度,還顯著增強了面對陌生類別、復雜描述時的魯棒性和抗幻覺能力。如下圖所示,模型在未見過的類別(熱狗)也具備推理能力

圖片

圖 7. Rex-Thinker 在 GRPO 后訓練后泛化到任意物體

實驗結果: SFT 賦予模型 CoT 能力, GRPO 提升模型泛化能力

在 HumanRef Benchmark 上,Rex-Thinker 展示了顯著的性能提升。團隊測試了三種模型版本:

  • Rex-Thinker-Plain:只訓練最終檢測結果,沒有推理監(jiān)督;
  • Rex-Thinker-CoT:加入思維鏈(CoT)監(jiān)督,學會 “如何思考”;
  • Rex-Thinker-GRPO:在 CoT 基礎上,用 GRPO 強化學習進一步優(yōu)化推理質(zhì)量。

圖片

表 1 Rex-Thinker 在 HumanRef Benchmark 上的評測結果

如表 1 結果顯示,加入 CoT 監(jiān)督后,模型在各項指標上全面優(yōu)于基礎版本,平均提升 0.9 點 DF1 指標,尤其在 “拒識” 子集上的表現(xiàn)提升尤為明顯,Rejection Score 提高了 13.8 個百分點,說明推理鏈的引入顯著增強了模型對 “不存在目標” 的識別能力。進一步地,GRPO 訓練在 CoT 基礎上帶來了額外性能提升,平均 DF1 提升至 83.5。相比單一推理路徑的監(jiān)督學習,GRPO 引導模型通過獎勵機制探索更優(yōu)推理路徑,顯著改善了復雜場景下的魯棒性和判斷準確性。

圖片

表 2 Rex-Thinker 在 RefCOCOg 數(shù)據(jù)集上的泛化結果

此外,在 RefCOCOg 數(shù)據(jù)集上的跨類別評估中,Rex-Thinker 同樣表現(xiàn)出良好的遷移能力。在不進行任何針對性微調(diào)的情況下,模型仍能準確推理出目標位置,體現(xiàn)出良好的泛化能力。通過對 RefCOCOg 的少量 GRPO 微調(diào),模型性能進一步接近甚至超過現(xiàn)有主流方法,驗證了該方法在新類別和新任務中的可拓展性。

可視化結果

我們接下來展示一下 Rex-Thinker 的推理過程可視化,包括、每一步條件驗證及最終決策輸出。圖中顯著標注了模型在圖像中如何逐步定位目標、如何識別條件是否滿足,并最終輸出結果或拒絕預測。這些可視化不僅體現(xiàn)了模型良好的目標理解能力,也突出了其推理路徑的清晰性與可解釋性。特別是在存在多個干擾項或不存在目標的場景中,Rex-Thinker 能夠給出詳盡的否定推理,展示出 “知之為知之,不知為不知” 的能力。這一能力在傳統(tǒng)視覺模型中極為罕見,凸顯了思維鏈機制在實際應用中的價值。

圖片

圖片

圖片

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2019-08-29 18:07:51

機器學習人工智能

2021-11-01 10:40:15

機器學習人工智能計算機

2024-05-28 08:00:00

人工智能機器學習

2018-05-23 10:23:18

數(shù)據(jù)系統(tǒng)機器學習

2021-01-08 10:47:07

機器學習模型算法

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2025-01-13 10:00:00

2024-08-27 10:20:00

2021-08-10 16:01:18

模型人工智能深度學習

2019-03-28 09:26:26

數(shù)據(jù)科學模型機器學習

2023-03-07 16:48:54

算法可解釋性

2025-06-16 08:51:00

2025-01-13 08:13:18

2024-09-18 05:25:00

可解釋性人工智能AI

2024-07-05 09:21:37

2024-04-08 07:02:40

AI服務器人工智能

2024-11-04 14:26:14

2025-10-23 12:46:39

2020-04-26 15:35:49

神經(jīng)網(wǎng)絡決策樹ImageNet

2023-05-04 07:23:04

因果推斷貝葉斯因果網(wǎng)絡
點贊
收藏

51CTO技術棧公眾號