剛剛,ICCV最佳論文出爐,朱俊彥團(tuán)隊(duì)用磚塊積木摘得桂冠
10 月 22 日凌晨,國(guó)際計(jì)算機(jī)視覺(jué)大會(huì) ICCV(IEEE International Conference on Computer Vision)揭幕了本年度最佳論文等獎(jiǎng)項(xiàng)。
來(lái)自卡耐基梅隆大學(xué)(CMU)的研究獲得了最佳論文獎(jiǎng),以色列理工學(xué)院(Technion)的研究獲得最佳學(xué)生論文獎(jiǎng)。

ICCV 是全球計(jì)算機(jī)視覺(jué)三大頂會(huì)之一,每?jī)赡昱e辦一次,今年的會(huì)議在美國(guó)夏威夷舉行。數(shù)據(jù)顯示,今年大會(huì)共收到了 11239 份有效投稿,程序委員會(huì)推薦錄用 2699 篇論文,最終錄用率為 24%,相比上一屆論文數(shù)量又有大幅增長(zhǎng)。
最佳論文
最佳論文獎(jiǎng)是來(lái)自卡耐基梅隆大學(xué),AI 領(lǐng)域知名青年學(xué)者朱俊彥帶領(lǐng)團(tuán)隊(duì)的論文《Generating Physically Stable and Buildable Brick Structures from Text》。

朱俊彥,清華大學(xué)校友,卡耐基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院助理教授,前 Adobe 研究科學(xué)家。主要研究方向是計(jì)算機(jī)視覺(jué)、圖形學(xué)、計(jì)算攝影和生成模型。

- 論文標(biāo)題:Generating Physically Stable and Buildable Brick Structures from Text
- 論文鏈接:https://arxiv.org/pdf/2505.05469
- 開(kāi)源代碼與模型:https://avalovelace1.github.io/BrickGPT/
這篇論文提出了 BrickGPT,是首個(gè)能夠根據(jù)文本提示生成物理穩(wěn)定的相互連接的積木裝配模型的方法。

為實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)構(gòu)建了一個(gè)大規(guī)模、物理穩(wěn)定的積木結(jié)構(gòu)數(shù)據(jù)集,并為每個(gè)結(jié)構(gòu)配備了對(duì)應(yīng)的文本描述。隨后,研究團(tuán)隊(duì)訓(xùn)練了一個(gè)自回歸大型語(yǔ)言模型,通過(guò)「預(yù)測(cè)下一個(gè) token」的方式來(lái)預(yù)測(cè)應(yīng)添加的下一塊積木。
為了提高生成設(shè)計(jì)的穩(wěn)定性,研究者在自回歸推理過(guò)程中引入了高效的有效性檢查(validity check)和基于物理約束的回滾機(jī)制(physics-aware rollback),利用物理定律與裝配約束來(lái)剪枝不可行的 token 預(yù)測(cè)。
實(shí)驗(yàn)結(jié)果表明,BrickGPT 能夠生成穩(wěn)定、多樣且美觀的積木結(jié)構(gòu),并且與輸入的文本提示高度契合。我們還開(kāi)發(fā)了一種基于文本的積木貼圖方法,用于生成帶有顏色和紋理的設(shè)計(jì)。
此外,這些設(shè)計(jì)既可以由人類手動(dòng)裝配,也可以由機(jī)械臂自動(dòng)組裝。同時(shí),研究者公開(kāi)了新的數(shù)據(jù)集 StableText2Brick,其中包含 47,000 多個(gè)積木結(jié)構(gòu)、超過(guò) 28,000 個(gè)獨(dú)特的三維對(duì)象及其詳細(xì)描述文本。

該論文的方法流程如圖所示。
首先,系統(tǒng)將一個(gè)積木結(jié)構(gòu)離散化為一串文本 token 序列,按自下而上、逐行掃描(raster-scan)的順序排列。
隨后,研究者們構(gòu)建了一個(gè)指令數(shù)據(jù)集,將積木序列與相應(yīng)的文本描述配對(duì),用于對(duì) LLaMA-3.2-Instruct-1B 進(jìn)行微調(diào)。
最后在推理階段,BrickGPT 根據(jù)輸入的文本提示,逐塊預(yù)測(cè)生成積木結(jié)構(gòu)。
對(duì)于每一個(gè)生成的積木,我們都會(huì)執(zhí)行一系列有效性檢查,以確保該積木:
- 格式正確;
- 存在于積木庫(kù)中;
- 不與已有積木發(fā)生碰撞。
在完成整體設(shè)計(jì)后,研究者們會(huì)對(duì)其物理穩(wěn)定性進(jìn)行驗(yàn)證。若檢測(cè)到結(jié)構(gòu)不穩(wěn)定,系統(tǒng)會(huì)回滾至最近的穩(wěn)定狀態(tài),即刪除所有不穩(wěn)定的積木及其后續(xù)部分,并從該位置繼續(xù)生成。

將該論文方法與多種基線模型進(jìn)行對(duì)比評(píng)估,評(píng)價(jià)指標(biāo)包括:有效性(validity):是否存在超出積木庫(kù)、越界或相互碰撞的積木;穩(wěn)定性(stability);基于 CLIP 的文本相似度以及基于 DINOv2 的圖像相似度。其中,穩(wěn)定性、CLIP 相似度和 DINO 相似度的計(jì)算僅針對(duì)有效結(jié)構(gòu)進(jìn)行。對(duì)于 LLaMA-Mesh ,有效性要求其生成的 OBJ 文件格式正確。
實(shí)驗(yàn)結(jié)果表明,該論文的方法在采用拒絕采樣(rejection sampling)與回滾機(jī)制(rollback)后,在有效性與穩(wěn)定性上全面優(yōu)于所有基線模型及其消融設(shè)置,同時(shí)仍保持較高的文本相似度。

結(jié)果展示與基線對(duì)比。該論文方法能夠根據(jù)給定的文本提示,生成高質(zhì)量、多樣化且具有新穎性的積木結(jié)構(gòu)。其中,黑色積木表示發(fā)生碰撞的部分。
在該研究之外,同樣來(lái)自 CMU 的論文《Spatially-Varying Autofocus》獲得了 ICCV 2025 最佳論文提名獎(jiǎng)。

- 論文地址:https://imaging.cs.cmu.edu/svaf/static/pdfs/Spatially_Varying_Autofocus.pdf
傳統(tǒng)鏡頭只能在單一平面上成像清晰;因此,位于該焦平面之外的場(chǎng)景部分會(huì)因離焦而模糊。那么,能否打破這一成像規(guī)律,構(gòu)建一種能夠任意調(diào)整景深的「鏡頭」?
本研究探討了這種具備空間選擇性聚焦能力(spatially-selective focusing)的計(jì)算鏡頭的設(shè)計(jì)與實(shí)現(xiàn)。研究者采用了一種由 Lohmann 鏡頭與僅相位空間光調(diào)制器(phase-only SLM)組成的光學(xué)結(jié)構(gòu),使得每個(gè)像素都能聚焦在不同的深度平面上。在此基礎(chǔ)上,我們將經(jīng)典的自動(dòng)對(duì)焦方法擴(kuò)展到空間可變聚焦場(chǎng)景中,通過(guò)對(duì)比度與視差線索迭代估計(jì)深度圖,從而使相機(jī)能夠逐步調(diào)整景深形狀以匹配場(chǎng)景深度分布。
通過(guò)這種方式,我們能夠在光學(xué)層面上直接獲得全清晰圖像。與以往研究相比,本方法在兩方面實(shí)現(xiàn)了突破:能夠同時(shí)使整個(gè)場(chǎng)景清晰成像;能夠保持最高的空間分辨率。
最佳學(xué)生論文
最佳論文獎(jiǎng)是來(lái)自以色列理工學(xué)院(Technion)的論文《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》。

這篇論文介紹了一種名為 FlowEdit 的新型圖像編輯方法。

- 論文地址:https://arxiv.org/abs/2412.08629
- 項(xiàng)目主頁(yè):https://matankleiner.github.io/flowedit/
- Code&Data:https://github.com/fallenshock/FlowEdit
- HuggingFace:https://huggingface.co/spaces/fallenshock/FlowEdit

研究者指出,使用預(yù)訓(xùn)練的文本到圖像(T2I)擴(kuò)散或流模型編輯真實(shí)圖像時(shí),通常需要將圖像「反演」為其對(duì)應(yīng)的噪聲圖。然而,單獨(dú)的反演往往無(wú)法很好地保留原圖的結(jié)構(gòu)與細(xì)節(jié),因此許多現(xiàn)有方法會(huì)在采樣過(guò)程中額外進(jìn)行干預(yù)。盡管這些方法提升了效果,但卻無(wú)法在不同模型架構(gòu)之間無(wú)縫遷移。
FlowEdit 創(chuàng)新地繞開(kāi)了「圖像 → 噪聲 → 編輯后圖像」的傳統(tǒng)路徑。它通過(guò)構(gòu)建一個(gè)常微分方程(ODE),直接在源圖像分布(由源提示詞定義)與目標(biāo)圖像分布(由目標(biāo)提示詞定義)之間建立了一條直接映射路徑。

這條直接路徑實(shí)現(xiàn)了更低的傳輸成本,這意味著在編輯過(guò)程中能夠最大程度地保留原始圖像的結(jié)構(gòu)和內(nèi)容,從而實(shí)現(xiàn)更高保真度的編輯。
研究團(tuán)隊(duì)在 Stable Diffusion 3 和 FLUX 這兩個(gè)先進(jìn)的 T2I 流模型上對(duì) FlowEdit 進(jìn)行了廣泛的實(shí)驗(yàn)驗(yàn)證。結(jié)果表明,該方法在各類復(fù)雜的編輯任務(wù)中均取得了 SOTA 效果,證明了其高效性和優(yōu)越性。

此外,來(lái)自德州大學(xué)奧斯丁分校的論文《RayZer: A Self-supervised Large View Synthesis Model》獲得了最佳學(xué)生論文提名獎(jiǎng)。

- 論文地址:https://arxiv.org/abs/2505.00702
研究人員提出了一個(gè)名為 RayZer 的自監(jiān)督多視圖 3D 視覺(jué)模型。該模型最核心的特點(diǎn)是,它在訓(xùn)練時(shí)無(wú)需任何 3D 監(jiān)督信息(如相機(jī)位姿或場(chǎng)景幾何),便能學(xué)習(xí)并展現(xiàn)出涌現(xiàn)的 3D 感知能力。
具體而言,RayZer 能夠處理來(lái)自未標(biāo)定相機(jī)、位姿未知的圖像集合,并從中恢復(fù)相機(jī)參數(shù)、重建場(chǎng)景的 3D 表示,以及合成全新的視角。其創(chuàng)新之處在于,模型在訓(xùn)練過(guò)程中完全依賴自我預(yù)測(cè)的相機(jī)位姿來(lái)渲染目標(biāo)視圖進(jìn)行學(xué)習(xí),從而擺脫了對(duì)真實(shí)位姿標(biāo)注的依賴,僅需 2D 圖像即可完成訓(xùn)練。
實(shí)驗(yàn)結(jié)果表明,RayZer 在新視角合成任務(wù)上的表現(xiàn),與那些在訓(xùn)練和測(cè)試中都依賴精確位姿標(biāo)注的 「神諭」 方法相比,性能相當(dāng)甚至更優(yōu),充分證明了該方法的有效性和潛力。
其他獎(jiǎng)項(xiàng)
Helmholtz Prize
測(cè)試方法獎(jiǎng),表彰在計(jì)算機(jī)視覺(jué)基準(zhǔn)測(cè)試中的貢獻(xiàn),該獎(jiǎng)項(xiàng)有兩篇獲獎(jiǎng)?wù)撐摹?/span>
一篇是 Ross Girshick 的《Fast R-CNN》,該論文提出了一種用于目標(biāo)檢測(cè)的快速區(qū)域卷積網(wǎng)絡(luò) (Fast R-CNN)。該方法在前人研究基礎(chǔ)上,利用深度卷積網(wǎng)絡(luò)高效分類候選區(qū)域,并通過(guò)多項(xiàng)創(chuàng)新顯著提升了訓(xùn)練、測(cè)試速度和檢測(cè)精度。

- 論文地址:https://arxiv.org/abs/1504.08083
另一篇是何愷明等人于 2015 年在 ICCV 發(fā)表的論文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》。這篇工作引入了后來(lái)被廣泛使用的 PReLU 激活函數(shù) 和 He 初始化方法,并首次在 ImageNet 上達(dá)到了「超越人類水平」的分類性能。

- 論文地址:https://arxiv.org/abs/1502.01852
Everingham Prize
嚴(yán)謹(jǐn)評(píng)估獎(jiǎng),表彰對(duì)社區(qū)有重大貢獻(xiàn)的研究者,該獎(jiǎng)項(xiàng)有兩個(gè)獲獎(jiǎng)團(tuán)隊(duì)。
一個(gè)是人體 3D 模型 SMPL 的團(tuán)隊(duì)。SMPL 是一種由人體掃描數(shù)據(jù)訓(xùn)練的三維可變形人體模型,它以參數(shù)化方式精準(zhǔn)表示人體姿態(tài)與形狀,被廣泛應(yīng)用于動(dòng)畫(huà)、虛擬人、動(dòng)作捕捉、AR/VR 及生成式 AI 中,對(duì)計(jì)算機(jī)視覺(jué)與數(shù)字人領(lǐng)域的進(jìn)步具有里程碑式影響。

- 項(xiàng)目主頁(yè):https://smpl.is.tue.mpg.de/
另一個(gè)是 VQA 數(shù)據(jù)集團(tuán)隊(duì)。VQA 數(shù)據(jù)集是一種將圖像理解與自然語(yǔ)言問(wèn)答結(jié)合的大規(guī)?;鶞?zhǔn)數(shù)據(jù)集,它推動(dòng)了多模態(tài) AI 在視覺(jué)理解、語(yǔ)言推理和跨模態(tài)語(yǔ)義對(duì)齊等方向的研究與突破。

Significant Researcher Award
該獎(jiǎng)項(xiàng)旨在表彰那些其研究貢獻(xiàn)「顯著地推動(dòng)了計(jì)算機(jī)視覺(jué)領(lǐng)域進(jìn)展」的研究人員,頒給了 David Forsyth 和 Michal lrani。

David Forsyth 是計(jì)算機(jī)視覺(jué)領(lǐng)域的領(lǐng)軍人物,他早期提出顏色恒常性方法、形狀變化不變測(cè)量,并推動(dòng)人體動(dòng)作識(shí)別與追蹤技術(shù)的發(fā)展,從而在物體識(shí)別、動(dòng)作分析與圖像–語(yǔ)言交叉研究方面產(chǎn)生了深遠(yuǎn)影響。
Michal Irani 是著名計(jì)算機(jī)視覺(jué)學(xué)者,她開(kāi)創(chuàng)了 「圖像內(nèi)部自相似性」 與 「空間 - 時(shí)間視頻形狀」 研究范式,通過(guò)無(wú)監(jiān)督或單樣本方法解決超分辨、盲去模糊、視頻結(jié)構(gòu)分析等核心問(wèn)題,從而豐富了視覺(jué)推斷與學(xué)習(xí)的理論基礎(chǔ)。
Azriel Rosenfeld Award
該獎(jiǎng)項(xiàng)是計(jì)算機(jī)視覺(jué)領(lǐng)域極具榮譽(yù)的「終身成就獎(jiǎng)」之一,專門用于表彰那些不僅在其研究生涯中取得重大成果,而且其成果在學(xué)術(shù)界與 / 或工業(yè)界都具有持續(xù)影響、推動(dòng)整個(gè)領(lǐng)域發(fā)展的研究者,頒給了 Rama Chellappa。

Rama Chellappa 是計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域的先驅(qū)之一,在人臉識(shí)別、運(yùn)動(dòng)分析、3D 建模和生成式視覺(jué)理解等方面作出奠基性貢獻(xiàn),其研究深刻影響了視覺(jué) AI 的發(fā)展路徑與應(yīng)用實(shí)踐。
































