偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

相機(jī)參數(shù)秒變圖片!新模型打通理解生成壁壘,支持任意視角圖像創(chuàng)作

人工智能 新聞
來(lái)自S-Lab、新加坡南洋理工大學(xué)、商湯科技、美國(guó)密歇根大學(xué)、德國(guó)馬普所的研究員提出了Puffin統(tǒng)一多模態(tài)模型。它能整合理解相機(jī)參數(shù)(如角度、視野)與按相機(jī)參數(shù)生成對(duì)應(yīng)視角圖片的能力。

能看懂相機(jī)參數(shù),并且生成相應(yīng)視角圖片的多模態(tài)模型來(lái)了。

來(lái)自S-Lab、新加坡南洋理工大學(xué)、商湯科技、美國(guó)密歇根大學(xué)、德國(guó)馬普所的研究員提出了Puffin統(tǒng)一多模態(tài)模型。它能整合理解相機(jī)參數(shù)(如角度、視野)與按相機(jī)參數(shù)生成對(duì)應(yīng)視角圖片的能力。

通過(guò)用相機(jī)思考(將參數(shù)轉(zhuǎn)攝影術(shù)語(yǔ)、分析空間線索)和400萬(wàn)組數(shù)據(jù)訓(xùn)練,解決了此前模型兩者分離的問(wèn)題,統(tǒng)一了以相機(jī)為中心的多模態(tài)理解與生成,支持空間想象,并實(shí)現(xiàn)靈活的跨視角應(yīng)用如世界探索等

△展示模型多樣化能力的示意圖

下面具體來(lái)看。

研究動(dòng)機(jī)

人類如何觀察并理解世界?我們會(huì)根據(jù)環(huán)境線索在空間中動(dòng)態(tài)調(diào)整視覺(jué)系統(tǒng),通過(guò)改變?nèi)S朝向和焦距,保持對(duì)周圍環(huán)境的靈活感知。

這樣的能力使我們能夠從任意視角中理解場(chǎng)景、猜想視野外的環(huán)境,并在腦海中重現(xiàn)一個(gè)具備自由視點(diǎn)的真實(shí)世界。

對(duì)機(jī)器而言,相機(jī)是與物理世界交互和實(shí)現(xiàn)空間智能的重要接口。

一方面,通過(guò)圖像理解相機(jī)幾何,機(jī)器能夠從二維投影中恢復(fù)復(fù)雜的三維結(jié)構(gòu),進(jìn)而指導(dǎo)下游的自主定位和導(dǎo)航任務(wù);

另一方面,通過(guò)調(diào)節(jié)內(nèi)外參數(shù),相機(jī)還能提供靈活的物理控制,幫助空間內(nèi)容的生成,從任意視角模擬世界的樣貌。

然而,目前上述兩類任務(wù)大部分都是被獨(dú)立研究,兩者之間潛在的有效關(guān)聯(lián)尚未被充分探索。

此外,現(xiàn)有的統(tǒng)一多模態(tài)大模型往往受限于固定視角的約束,只能在簡(jiǎn)單的前視視角(front-view)條件下生成和理解場(chǎng)景,難以在視角多變的真實(shí)世界中應(yīng)用。

以相機(jī)為中心的統(tǒng)一多模態(tài)大模型

為此,團(tuán)隊(duì)首次嘗試在統(tǒng)一框架下融合以相機(jī)為中心(camera-centric)的理解與生成任務(wù),將統(tǒng)一多模態(tài)大模型這一范式拓展至專注相機(jī)幾何的空間智能領(lǐng)域。

如下圖,團(tuán)隊(duì)提出的Puffin模型結(jié)合了語(yǔ)言回歸與基于擴(kuò)散模型的生成能力,能夠從任意視角和方向理解并創(chuàng)造場(chǎng)景。通過(guò)團(tuán)隊(duì)設(shè)計(jì)的指令微調(diào)階段,Puffin還能靈活拓展至復(fù)雜的跨視角理解與生成任務(wù)。

△虛線框內(nèi)的部分表示在指令微調(diào)階段進(jìn)行的跨視角理解與生成過(guò)程,例如空間想象與世界探索等能力

在理解任務(wù)的網(wǎng)絡(luò)設(shè)計(jì)方面,一種直接的方法是對(duì)包含視覺(jué)編碼器與語(yǔ)言模型的現(xiàn)有多模態(tài)大模型進(jìn)行微調(diào),但這種樸素策略存在兩點(diǎn)局限性:

  1. 現(xiàn)有多模態(tài)大模型中的視覺(jué)編碼器主要為識(shí)別任務(wù)設(shè)計(jì),其提取的語(yǔ)義特征較為抽象、壓縮程度大,缺乏與結(jié)構(gòu)細(xì)節(jié)相關(guān)的幾何保真度;
  2. 現(xiàn)有多模態(tài)大模型中的語(yǔ)言模型部分幾乎不具備空間感知的先驗(yàn)知識(shí),難以適應(yīng)到以相機(jī)為中心的下游任務(wù)。因此,這類多模態(tài)模型微調(diào)會(huì)導(dǎo)致性能瓶頸,甚至表現(xiàn)不如純視覺(jué)方法。

為解決上述問(wèn)題,團(tuán)隊(duì)引入了一個(gè)幾何對(duì)齊的視覺(jué)編碼器,通過(guò)語(yǔ)義教師網(wǎng)絡(luò)(如 CLIP、SigLIP)與視覺(jué)教師網(wǎng)絡(luò)(如 DINO、SAM)的雙重蒸餾獲得。

該編碼器能夠在保持幾何保真度的同時(shí),兼具強(qiáng)語(yǔ)義理解能力。隨后,團(tuán)隊(duì)采用漸進(jìn)式解凍與聯(lián)合微調(diào)的方式,將該編碼器與語(yǔ)言模型逐步對(duì)齊。

這種分階段優(yōu)化策略使得模型在底/中層結(jié)構(gòu)線索與高層語(yǔ)言推理之間建立緊密聯(lián)系。

在生成任務(wù)的網(wǎng)絡(luò)設(shè)計(jì)方面,團(tuán)隊(duì)沿用MetaQueries架構(gòu)并設(shè)計(jì)了一個(gè)連接模塊,通過(guò)一組可學(xué)習(xí)的queries,將文本描述和相機(jī)參數(shù)對(duì)應(yīng)的LLM 隱式狀態(tài)映射為可被擴(kuò)散模型理解的條件信號(hào)。

為更好地利用相機(jī)幾何信息,除了由數(shù)值參數(shù)離散化得到的相機(jī)離散token外,團(tuán)隊(duì)還引入了像素級(jí)的相機(jī)透視場(chǎng)作為連續(xù)的相機(jī)潛在變量,從而在圖像生成中實(shí)現(xiàn)更精細(xì)的空間控制。

與相機(jī)共思

與語(yǔ)言或圖像不同,相機(jī)模型及其物理參數(shù)抽象且不直觀——它們以數(shù)值形式描述視場(chǎng)、方向或投影關(guān)系,而非語(yǔ)義內(nèi)容。這種差異導(dǎo)致在多模態(tài)模型中融入相機(jī)信息時(shí)會(huì)出現(xiàn)模態(tài)鴻溝(modality gap)。

△“與相機(jī)共思(thinking with camera)”概念

如圖(左)所示,以往的視覺(jué)方法主要通過(guò)提取或?qū)W習(xí)幾何結(jié)構(gòu)或語(yǔ)義信息等表征來(lái)從圖像中估計(jì)相機(jī)幾何。然而,上述表征往往側(cè)重于局部的低層或中層視覺(jué)特征,難以捕捉到整體且連貫的空間概念。

本研究并非追求更優(yōu)的表征設(shè)計(jì)或?qū)W習(xí),而是從另一角度出發(fā)——將相機(jī)理解為語(yǔ)言。如圖(右)所示,團(tuán)隊(duì)提出了通過(guò)多模態(tài)大模型“與相機(jī)共思”(thinking with camera)的概念。

該方法在幾何語(yǔ)境下對(duì)不同相機(jī)參數(shù)進(jìn)行解耦,并在空間約束的視覺(jué)線索與專業(yè)攝影術(shù)語(yǔ)之間建立關(guān)聯(lián)。隨后,模型在空間推理過(guò)程 中進(jìn)行分析和思考,并將相機(jī)理解結(jié)果輸出在 標(biāo)簽中。

“與相機(jī)共思”(thinking with camera)空間推理過(guò)程中的三大核心要素:

  • 空間約束的視覺(jué)線索:三維世界受物理規(guī)律支配,重力與人工設(shè)計(jì)共同塑造了穩(wěn)定的結(jié)構(gòu)分布,為空間感知提供了強(qiáng)有力的先驗(yàn)。例如,天空、天花板、地面、沙灘等少紋理區(qū)域雖缺乏視覺(jué)特征,卻蘊(yùn)含著垂直方向的規(guī)律性,對(duì)俯仰角(pitch)估計(jì)至關(guān)重要。同樣,視場(chǎng)角(FoV)的估計(jì)依賴于對(duì)空間構(gòu)圖的感知,包括前后景比例、物體尺度與深度分布等。雖然這些屬性難以從純視覺(jué)表征中直接推斷,但多模態(tài)大模型已將其隱式地編碼為知識(shí)先驗(yàn)。因此,團(tuán)隊(duì)將這些具備空間約束的視覺(jué)線索嵌入訓(xùn)練過(guò)程使用的“思維標(biāo)簽”(thinking captions)中,使模型能夠?qū)ο鄼C(jī)幾何進(jìn)行顯式的空間推理。
  • 專業(yè)級(jí)攝影術(shù)語(yǔ):現(xiàn)有的多模態(tài)大模型具有過(guò)度抽象的語(yǔ)義表示,而相機(jī)參數(shù)的數(shù)值又過(guò)于細(xì)粒度,難以被精確理解。作為一種更具實(shí)踐性的替代方式,專業(yè)攝影術(shù)語(yǔ)(如 close-up、tilt-up、Dutch angle 等)被廣泛用于標(biāo)注,并與多模態(tài)大模型的知識(shí)體系高度契合。因此,團(tuán)隊(duì)將這些術(shù)語(yǔ)作為中間監(jiān)督信號(hào),用以自然地橋接底/中層的相機(jī)幾何與高層的多模態(tài)推理。這些術(shù)語(yǔ)可視為相機(jī)參數(shù)的量化抽象形式,與場(chǎng)景文本描述相結(jié)合,使整體空間布局能夠以語(yǔ)言形式被感知與表達(dá)。
  • 幾何語(yǔ)境:團(tuán)隊(duì)在幾何語(yǔ)境下對(duì)不同相機(jī)參數(shù)(roll, pitch, FoV)進(jìn)行解耦,并將其與特定的空間視覺(jué)線索對(duì)齊,如天空、前景構(gòu)圖以及物體層級(jí)的深度排序等,從而對(duì)應(yīng)到各類專業(yè)攝影術(shù)語(yǔ)。通過(guò)將數(shù)值屬性錨定到具備語(yǔ)義意義的描述詞,團(tuán)隊(duì)的框架在抽象視覺(jué)特征與可解釋的幾何之間建立了橋梁。最終的相機(jī)信息即通過(guò)這種結(jié)構(gòu)化的空間推理過(guò)程進(jìn)行預(yù)測(cè)。

共享的空間思維鏈

與理解任務(wù)不同,可控圖像生成需要更復(fù)雜的跨模態(tài)對(duì)齊與精細(xì)的視覺(jué)細(xì)節(jié)合成。

如上所述,相機(jī)參數(shù)數(shù)值對(duì)于當(dāng)前多模態(tài)大模型而言過(guò)于細(xì)粒度,難以有效解析,從而無(wú)法準(zhǔn)確捕捉相機(jī)可控生成所需的真實(shí)空間分布。

為此,團(tuán)隊(duì)設(shè)計(jì)了一種結(jié)合視覺(jué)細(xì)節(jié)分析與推理的分步生成流程:模型首先根據(jù)給定的相機(jī)空間信息從原始文本描述中推斷潛在的視覺(jué)線索,然后將這一文本推理階段作為語(yǔ)義規(guī)劃,用于引導(dǎo)圖像生成。

此外,數(shù)值化相機(jī)參數(shù)被轉(zhuǎn)化為更適合模型理解的專業(yè)攝影術(shù)語(yǔ)。

團(tuán)隊(duì)發(fā)現(xiàn),上面的步驟與相機(jī)理解中的推理過(guò)程自然對(duì)齊。因此,團(tuán)隊(duì)在可控生成與理解之間引入了共享的思維鏈機(jī)制,統(tǒng)一了多模態(tài)任務(wù)之間的思考方式。

如下圖所示,當(dāng)給定較小的俯仰角和“室內(nèi)”描述時(shí),團(tuán)隊(duì)的模型會(huì)將參數(shù)角度值轉(zhuǎn)化為攝影術(shù)語(yǔ)(如small tilt-down),并推測(cè)出窗臺(tái)等潛在的視覺(jué)線索,從而輔助生成更精確的空間結(jié)構(gòu)。

△在可控圖像生成任務(wù)中引入與理解任務(wù)共享的思維鏈機(jī)制,同樣可以進(jìn)行 “與相機(jī)共思“(thinking with camera)

Puffin-4M數(shù)據(jù)集

在多模態(tài)空間智能領(lǐng)域,能夠同時(shí)覆蓋視覺(jué)、語(yǔ)言與相機(jī)模態(tài)的數(shù)據(jù)集與基準(zhǔn)仍極為稀缺。為彌補(bǔ)這一空缺,團(tuán)隊(duì)提出Puffin-4M——一個(gè)包含約400 萬(wàn)圖片-語(yǔ)言-相機(jī)三元組的大規(guī)模高質(zhì)量數(shù)據(jù)集。

數(shù)據(jù)集的示例圖如下所示,其中相機(jī)配置部分團(tuán)隊(duì)考慮了常用小孔相機(jī)模型下的標(biāo)準(zhǔn)內(nèi)外參數(shù)(roll, pitch, yaw, FoV)。

△Puffin-4M示例圖

下圖展示了Puffin-4M數(shù)據(jù)集的構(gòu)建流程,其中包括四個(gè)階段:360°全景數(shù)據(jù)的收集與預(yù)處理、2D透視圖像的渲染生成、場(chǎng)景描述與空間推理打標(biāo),以及跨視角場(chǎng)景的擴(kuò)展。

△Puffin-4M數(shù)據(jù)集構(gòu)建流程

除了上述訓(xùn)練集以外,團(tuán)隊(duì)還構(gòu)建了兩個(gè)評(píng)測(cè)基準(zhǔn)數(shù)據(jù)集:Puffin-Gen和Puffin-Und,分別為相機(jī)可控生成和相機(jī)理解提供更加具備挑戰(zhàn)性和綜合性的驗(yàn)證標(biāo)準(zhǔn),均已開源。

實(shí)驗(yàn)結(jié)果

如下所示,團(tuán)隊(duì)以相機(jī)為中心的統(tǒng)一多模態(tài)大模型Puffin與現(xiàn)有的專業(yè)級(jí)理解或生成模型相比,在多個(gè)數(shù)據(jù)集上表現(xiàn)出極具競(jìng)爭(zhēng)力的性能,并在大部分?jǐn)?shù)據(jù)集上超越現(xiàn)有模型。

△與現(xiàn)有方法的定量對(duì)比結(jié)果

團(tuán)隊(duì)的相機(jī)理解結(jié)果及其相機(jī)透視場(chǎng)可視化如下:左側(cè)為AIGC 圖像(GTP-4o),右側(cè)為真實(shí)世界的攝影圖像。其中,相機(jī)透視場(chǎng)(latitude和up vector)由預(yù)測(cè)的相機(jī)參數(shù)轉(zhuǎn)換得到??梢钥闯觯瑘F(tuán)隊(duì)的方法在各類場(chǎng)景中表現(xiàn)出不錯(cuò)的魯棒性。

△相機(jī)理解可視化結(jié)果

團(tuán)隊(duì)的相機(jī)可控生成結(jié)果如下??梢钥闯觯瑘F(tuán)隊(duì)的方法在各類相機(jī)配置和場(chǎng)景描述中均表現(xiàn)出合理的空間生成能力。

△相機(jī)可控生成可視化結(jié)果

拓展應(yīng)用

首先,Puffin能夠通過(guò)精確預(yù)測(cè)相機(jī)參數(shù),在自然場(chǎng)景圖像中輔助虛擬三維物體的插入。

此外,通過(guò)指令微調(diào)(Instruction Tuning),團(tuán)隊(duì)的模型可以靈活擴(kuò)展至多種跨視角任務(wù),如空間想象、世界探索和攝影指導(dǎo)等。

其中在世界探索任務(wù)中,團(tuán)隊(duì)對(duì)初始視角與生成視角進(jìn)行了三維重建并可視化(利用VGGT),結(jié)果顯示生成結(jié)果在空間結(jié)構(gòu)上保持了良好的一致性。更多拓展應(yīng)用結(jié)果請(qǐng)參考論文的附錄部分。

Puffin通過(guò)“將相機(jī)理解為語(yǔ)言”并引入“與相機(jī)共思(thinking with camera)”的理念,消除了視覺(jué)-語(yǔ)言-相機(jī)模態(tài)間的鴻溝。

在未來(lái),團(tuán)隊(duì)計(jì)劃進(jìn)一步提升Puffin的跨視角能力,并將其擴(kuò)展至以相機(jī)為中心的視頻生成與理解,以促進(jìn)在動(dòng)態(tài)與沉浸式場(chǎng)景中的更廣泛應(yīng)用。

感興趣的朋友可到原文查看更多細(xì)節(jié)~

論文鏈接:https://arxiv.org/abs/2510.08673

項(xiàng)目主頁(yè):https://kangliao929.github.io/projects/puffin/

代碼鏈接:https://github.com/KangLiao929/Puffin

百萬(wàn)級(jí)圖片-文本-相機(jī)三元組數(shù)據(jù)集:https://huggingface.co/datasets/KangLiao/Puffin-4M

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2012-03-12 21:37:39

iOS

2017-05-04 11:01:16

諸葛io數(shù)據(jù)分析

2025-10-03 02:00:00

視頻人體動(dòng)作EgoTwin

2025-10-20 08:49:00

2024-09-12 12:44:36

AI訓(xùn)練

2024-08-26 09:35:00

模型文生圖

2023-05-16 08:00:00

開源項(xiàng)目MONAI醫(yī)學(xué)圖像

2021-12-23 09:54:02

AI模型人工智能

2019-12-03 10:22:50

AWSAI亞馬遜

2022-12-09 10:00:23

2020-02-27 10:11:20

大數(shù)據(jù)智慧醫(yī)療技術(shù)

2023-06-06 14:09:32

模型開源

2025-09-08 08:49:00

2024-10-29 14:40:00

圖像生成模型

2023-08-01 14:14:14

2022-04-18 20:12:03

TypeScript靜態(tài)類型JavaScrip

2024-09-30 09:35:55

圖像生成AI

2019-06-10 00:45:01

谷歌開源圖像識(shí)別

2023-01-02 13:12:07

模型圖像
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)