偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計(jì)思路

發(fā)布于 2025-10-27 08:46
瀏覽
0收藏

本文僅看Rex-Omni中關(guān)于坐標(biāo)量化的思路。

Detect Anything via Next Point Prediction,https://arxiv.org/abs/2510.12798

多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計(jì)思路-AI.x社區(qū)

檢測(cè)器在定位方面表現(xiàn)優(yōu)異,但缺乏語(yǔ)言理解能力。多模態(tài)大模型(MLLMs)語(yǔ)言理解能力較強(qiáng),但在定位方面存在困難。2)檢測(cè)器與多模態(tài)大模型(MLLMs)在最優(yōu)化難度上的差異

Rex-Omni 的核心思路是:將 “連續(xù)坐標(biāo)回歸” 轉(zhuǎn)化為 MLLM 擅長(zhǎng)的 “離散 token 預(yù)測(cè)任務(wù)”。因此,任務(wù)目標(biāo)就是讓 MLLM “能懂坐標(biāo)”。

多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計(jì)思路-AI.x社區(qū)

直接坐標(biāo)預(yù)測(cè)策略

多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計(jì)思路-AI.x社區(qū)

使用由特殊 token 表示的量化相對(duì)坐標(biāo)格式,以實(shí)現(xiàn)高效且穩(wěn)健的空間編碼

具體做法:

  1. 坐標(biāo)量化:將圖像坐標(biāo)系的連續(xù)坐標(biāo)(通常圖像尺寸歸一化后為0~1)離散化為0~999的整數(shù)范圍。例如,某目標(biāo)框左上角x坐標(biāo)為0.321,量化后為321;右下角y坐標(biāo)為0.876,量化后為876。
  • 量化粒度(1000級(jí))的選擇:平衡“精度”與“學(xué)習(xí)難度”——粒度太粗會(huì)導(dǎo)致框不準(zhǔn),太細(xì)會(huì)增加token數(shù)量(降低效率),1000級(jí)在實(shí)驗(yàn)中被驗(yàn)證為最優(yōu)。
  1. 特殊token表示坐標(biāo):為每個(gè)量化后的坐標(biāo)值(0~999)分配一個(gè)專屬的特殊token(而非用普通文本token拼接,如“3”“2”“1”表示321)。例如:
  • 量化坐標(biāo)“321”對(duì)應(yīng)特殊token<321>;
  • 目標(biāo)框的4個(gè)坐標(biāo)(x1,y1,x2,y2)=(10,20,40,100)被表示為<x1> <y1> <x2> <y2>=(<10><20><40><100>)的token序列。
  1. 任務(wù)轉(zhuǎn)化為“下一個(gè)token預(yù)測(cè)”:將目標(biāo)檢測(cè)任務(wù)融入MLLM的核心范式——“序列生成”。例如,輸入“檢測(cè)圖像中的貓”,模型需生成“貓 <123> <456> <789> <901>”的序列,其中后4個(gè)特殊token即對(duì)應(yīng)貓的目標(biāo)框。如果是定位文字輪廓(需要多邊形),就輸出更多符號(hào),比如<10><5><20><5><20><15><10><15>;如果是標(biāo)點(diǎn)(比如杯子把手),就輸出 2 個(gè)符號(hào)<80><60>。

?

本文轉(zhuǎn)載自??大模型自然語(yǔ)言處理????   作者:老余

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦