ControlNet、「分割一切」等熱門論文獲獎(jiǎng),ICCV 2023論文獎(jiǎng)項(xiàng)公布
本周,國際計(jì)算機(jī)視覺大會(huì) ICCV(International Conference on Computer Vision)在法國巴黎開幕。

作為全球計(jì)算機(jī)視覺領(lǐng)域頂級(jí)的學(xué)術(shù)會(huì)議,ICCV 每兩年召開一次。
和 CVPR 一樣,ICCV 的熱度屢創(chuàng)新高。
在今天的開幕式上,ICCV 官方公布了今年的論文數(shù)據(jù):本屆 ICCV 投稿總數(shù)達(dá) 8068 篇,其中 2160 篇被接收,錄用率為 26.8%,略高于上一屆 ICCV 2021 錄用率 25.9%。

在論文主題方面,官方也公布了相關(guān)數(shù)據(jù):3D from multi-view and sensors 熱度最高。

當(dāng)然,今天開幕式最為重磅的內(nèi)容就是獲獎(jiǎng)信息。接下來讓我們一一揭曉最佳論文、最佳論文提名、最佳學(xué)生論文。
最佳論文 - 馬爾獎(jiǎng)
共有兩篇論文獲得今年的最佳論文(馬爾獎(jiǎng))。
第一篇來自多倫多大學(xué)的研究者。

- 論文地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
- 作者:Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
- 機(jī)構(gòu):多倫多大學(xué)
摘要:本文考慮在極端的時(shí)間尺度范圍內(nèi),同時(shí)(秒到皮秒)對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行成像的問題,并且是被動(dòng)地進(jìn)行成像,沒有太多的光,也沒有來自發(fā)射它的光源的任何定時(shí)信號(hào)。由于單光子相機(jī)現(xiàn)有的通量估計(jì)(flux estimation)技術(shù)在這種情況下會(huì)失效,因此本文開發(fā)了一種通量探測(cè)理論,該理論從隨機(jī)微積分中汲取見解,從而能夠從單調(diào)增加的光子檢測(cè)時(shí)間戳流中重建像素的時(shí)變通量。
本文利用這一理論來 (1) 表明無源自由運(yùn)行 SPAD 相機(jī)在低通量條件下具有可實(shí)現(xiàn)的頻率帶寬,跨越整個(gè) DC-to31 GHz 范圍,(2) 推導(dǎo)出了一種新穎的傅里葉域通量重建算法,并且 (3) 確保算法的噪聲模型即使對(duì)于非常低的光子計(jì)數(shù)或不可忽略的死區(qū)時(shí)間也保持有效。
本文通過實(shí)驗(yàn)展示了這種異步成像機(jī)制的潛力:(1)對(duì)由以截然不同的速度運(yùn)行的光源(燈泡、投影儀、多個(gè)脈沖激光器)同時(shí)照明的場(chǎng)景進(jìn)行成像,而無需同步,(2) 被動(dòng)非視距視頻采集;(3) 記錄超寬帶視頻,稍后可以以 30 Hz 的速度播放以顯示日常運(yùn)動(dòng),但也可以慢十億倍的速度播放以顯示光本身的傳播。

第二篇就是我們所熟知的 ControNet。

- 論文地址:https://arxiv.org/pdf/2302.05543.pdf
- 作者:Lvmin Zhang、Anyi Rao、Maneesh Agrawala
- 機(jī)構(gòu):斯坦福大學(xué)
摘要:本文提出了一種端到端的神經(jīng)網(wǎng)絡(luò)架構(gòu) ControlNet,該架構(gòu)可以通過添加額外條件來控制擴(kuò)散模型(如 Stable Diffusion),從而改善圖生圖效果,并能實(shí)現(xiàn)線稿生成全彩圖、生成具有同樣深度結(jié)構(gòu)的圖、通過手部關(guān)鍵點(diǎn)還能優(yōu)化手部的生成等。
ControlNet 的核心思想是在文本描述之外添加一些額外條件來控制擴(kuò)散模型(如 Stable Diffusion),從而更好地控制生成圖像的人物姿態(tài)、深度、畫面結(jié)構(gòu)等信息。
這里的額外條件以圖像的形式來輸入,模型可以基于這張輸入圖像進(jìn)行 Canny 邊緣檢測(cè)、深度檢測(cè)、語義分割、霍夫變換直線檢測(cè)、整體嵌套邊緣檢測(cè)(HED)、人體姿態(tài)識(shí)別等,然后在生成的圖像中保留這些信息。利用這一模型,我們可以直接把線稿或涂鴉轉(zhuǎn)換成全彩圖,生成具有同樣深度結(jié)構(gòu)的圖等等,通過手部關(guān)鍵點(diǎn)還能優(yōu)化人物手部的生成。

詳細(xì)介紹請(qǐng)參考機(jī)器之心報(bào)道:《AI降維打擊人類畫家,文生圖引入ControlNet,深度、邊緣信息全能復(fù)用》
最佳論文提名:SAM
今年 4 月份,Meta 發(fā)布「分割一切(SAM)」AI 模型,可以為任何圖像或視頻中的任何物體生成 mask,讓計(jì)算機(jī)視覺(CV)領(lǐng)域研究者驚呼:「CV 不存在了」。
如今,這篇備受關(guān)注的論文摘的最佳論文提名。

- 論文地址:https://arxiv.org/abs/2304.02643
- 機(jī)構(gòu):Meta AI
簡介:此前解決分割問題大致有兩種方法。第一種是交互式分割,該方法允許分割任何類別的對(duì)象,但需要一個(gè)人通過迭代細(xì)化掩碼來指導(dǎo)該方法。第二種,自動(dòng)分割,允許分割提前定義的特定對(duì)象類別(例如,貓或椅子),但需要大量的手動(dòng)注釋對(duì)象來訓(xùn)練(例如,數(shù)千甚至數(shù)萬個(gè)分割貓的例子)。這兩種方法都沒有提供通用的、全自動(dòng)的分割方法。
Meta 提出的 SAM 很好的概括了這兩種方法。它是一個(gè)單一的模型,可以輕松地執(zhí)行交互式分割和自動(dòng)分割。該模型的可提示界面允許用戶以靈活的方式使用它,只需為模型設(shè)計(jì)正確的提示(點(diǎn)擊、boxes、文本等),就可以完成范圍廣泛的分割任務(wù)。
總而言之,這些功能使 SAM 能夠泛化到新任務(wù)和新領(lǐng)域。這種靈活性在圖像分割領(lǐng)域尚屬首創(chuàng)。
詳細(xì)介紹請(qǐng)參考機(jī)器之心報(bào)道:《CV 不存在了?Meta 發(fā)布「分割一切」AI 模型,CV 或迎來 GPT-3 時(shí)刻》
最佳學(xué)生論文
該研究由來自康奈爾大學(xué)、谷歌研究院和 UC 伯克利的研究者共同完成,一作是來自 Cornell Tech 的博士生 Qianqian Wang。他們聯(lián)合提出了一種完整且全局一致的運(yùn)動(dòng)表征 OmniMotion,并提出一種新的測(cè)試時(shí)(test-time)優(yōu)化方法,對(duì)視頻中每個(gè)像素進(jìn)行準(zhǔn)確、完整的運(yùn)動(dòng)估計(jì)。

- 論文地址:https://arxiv.org/abs/2306.05422
- 項(xiàng)目主頁:https://omnimotion.github.io/
摘要:在計(jì)算機(jī)視覺領(lǐng)域,常用的運(yùn)動(dòng)估計(jì)方法有兩種:稀疏特征追蹤和密集光流。但這兩種方法各有缺點(diǎn),稀疏特征追蹤不能建模所有像素的運(yùn)動(dòng);密集光流無法長時(shí)間捕獲運(yùn)動(dòng)軌跡。
該研究提出的 OmniMotion 使用 quasi-3D 規(guī)范體積來表征視頻,并通過局部空間和規(guī)范空間之間的雙射(bijection)對(duì)每個(gè)像素進(jìn)行追蹤。這種表征能夠保證全局一致性,即使在物體被遮擋的情況下也能進(jìn)行運(yùn)動(dòng)追蹤,并對(duì)相機(jī)和物體運(yùn)動(dòng)的任何組合進(jìn)行建模。該研究通過實(shí)驗(yàn)表明所提方法大大優(yōu)于現(xiàn)有 SOTA 方法。
詳細(xì)介紹請(qǐng)參考機(jī)器之心報(bào)道:《隨時(shí)隨地,追蹤每個(gè)像素,連遮擋都不怕的「追蹤一切」視頻算法來了》
當(dāng)然,除了這些獲獎(jiǎng)?wù)撐模衲?ICCV 還有許多優(yōu)秀論文值得大家關(guān)注。最后為大家附上 17 篇獲獎(jiǎng)?wù)撐某跏记鍐巍?/span>





































