偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

用幾何學(xué)提升深度學(xué)習(xí)模型性能,是計(jì)算機(jī)視覺(jué)研究的未來(lái)

開(kāi)發(fā) 開(kāi)發(fā)工具
我們正在用盡這些唾手可得的成果,或者用簡(jiǎn)單的高級(jí)深度學(xué)習(xí) API 解決的絕大多數(shù)問(wèn)題。具體而言,我認(rèn)為應(yīng)用深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)在未來(lái)的許多發(fā)展都將源于對(duì)幾何學(xué)的洞見(jiàn)。

深度學(xué)習(xí)使計(jì)算機(jī)視覺(jué)得以蛻變。如今,絕大多數(shù)問(wèn)題的最佳解決方案是基于端到端的深度學(xué)習(xí)模型,尤其是當(dāng)卷積神經(jīng)網(wǎng)絡(luò)傾向于開(kāi)箱即用后便深受青睞。但這些模型主要為大型黑箱,其透明度很差。

盡管如此,我們?nèi)耘f在深度學(xué)習(xí)領(lǐng)域獲得了顯著成果,即研究人員能通過(guò)一些數(shù)據(jù)以及使用基本的深度學(xué)習(xí) API 所編寫(xiě)的20 余行代碼來(lái)獲得大量容易得到的成果。雖然這些成果很有突破性,但我認(rèn)為它們往往過(guò)于理想化,且缺乏原則性理解。

本篇博文中,我將提出理由證明,人們通常會(huì)生硬地應(yīng)用深度學(xué)習(xí)模型來(lái)處理計(jì)算機(jī)視覺(jué)問(wèn)題,但實(shí)際上我們能夠做得更好。我攻讀博士第一年的一些成果便是范例。PoseNet 是我為了研究拍照姿勢(shì)而使用深度學(xué)習(xí)開(kāi)發(fā)的一個(gè)算法。這個(gè)問(wèn)題在計(jì)算機(jī)視覺(jué)領(lǐng)域已被研究了幾十年,有大量?jī)?yōu)秀的相關(guān)理論。但作為博一學(xué)生,我天真地應(yīng)用了一個(gè)深度學(xué)習(xí)模型來(lái)端到端地研究這個(gè)問(wèn)題,盡管我完全忽視了該問(wèn)題的理論,卻仍然獲得了不錯(cuò)的成果。本文末尾我會(huì)介紹一些近期研究,它們以更理論化、基于幾何學(xué)的方法來(lái)看待這個(gè)問(wèn)題,從而對(duì)性能做出了極大的提升。

我們正在用盡這些唾手可得的成果,或者用簡(jiǎn)單的高級(jí)深度學(xué)習(xí) API 解決的絕大多數(shù)問(wèn)題。具體而言,我認(rèn)為應(yīng)用深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)在未來(lái)的許多發(fā)展都將源于對(duì)幾何學(xué)的洞見(jiàn)。

一、我所言的幾何學(xué)是什么?

在計(jì)算機(jī)視覺(jué)中,幾何描述了世界的結(jié)構(gòu)與形狀,具體涉及到如深度、體積、形狀、姿勢(shì)、視差、運(yùn)動(dòng)以及光流等測(cè)量單位。

我認(rèn)為幾何在視覺(jué)模型中舉足輕重,主要由于是它定義了世界的結(jié)構(gòu),并且我們能夠理解這種結(jié)構(gòu)(例如從許多著名教科書(shū)中得以理解)。因此很多復(fù)雜的關(guān)系(如深度和運(yùn)動(dòng))并不需運(yùn)用深度學(xué)習(xí)從頭開(kāi)始研究。通過(guò)構(gòu)建運(yùn)用這種知識(shí)的架構(gòu),我們能在現(xiàn)實(shí)中應(yīng)用它們并簡(jiǎn)化學(xué)習(xí)問(wèn)題。文末的一些例子將展示如何使用幾何來(lái)提高深度學(xué)習(xí)架構(gòu)的性能。

替代范式使用了語(yǔ)義表征。語(yǔ)義表征使用語(yǔ)言來(lái)描述世界中的關(guān)系,如我們會(huì)描述一個(gè)物體為「貓」或「狗」。但我認(rèn)為幾何對(duì)語(yǔ)義而言具有兩個(gè)有吸引力的特征:

1. 幾何能被直接觀察。我們可以通過(guò)視覺(jué)直接看到世界的幾何外觀。在最基本的層次上,我們可通過(guò)幀之間的對(duì)應(yīng)像素來(lái)直接觀看視頻的運(yùn)動(dòng)與深度;其他有趣的例子還有根據(jù)立體視差的陰影或深度來(lái)觀察形狀。相較之下,語(yǔ)義表征通常是人類語(yǔ)言所專有的,其標(biāo)簽對(duì)應(yīng)于一組有限的名詞,從而無(wú)法直接觀察。

2. 幾何基于連續(xù)量(continuous quantities),如我們能以米為單位測(cè)量深度或以像素為單位測(cè)量視差。相較之下,語(yǔ)義表征主要是離散量(discretised quantities)或二元標(biāo)簽。

為何這些屬性如此重要?原因之一便是它們對(duì)無(wú)監(jiān)督學(xué)習(xí)十分有效。

該結(jié)構(gòu)圖是英國(guó)劍橋中部附近的幾何運(yùn)動(dòng)重建,我用手機(jī)攝像制作了它。

該結(jié)構(gòu)圖是英國(guó)劍橋中部附近的幾何運(yùn)動(dòng)重建,我用手機(jī)攝像制作了它。

二、無(wú)監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí)是人工智能研究中很令人興奮的領(lǐng)域,它通過(guò)非標(biāo)注數(shù)據(jù)來(lái)學(xué)習(xí)表征和結(jié)構(gòu)。這很使人振奮,因?yàn)楂@取大量的標(biāo)簽訓(xùn)練數(shù)據(jù)十分困難而昂貴。無(wú)監(jiān)督學(xué)習(xí)提供了更加可擴(kuò)展的框架。

我們可以使用上述的兩個(gè)屬性通過(guò)幾何學(xué)建模無(wú)監(jiān)督學(xué)習(xí):可觀察性與連續(xù)表征。

例如,去年我最欣賞的論文之一便展示了如何運(yùn)用幾何學(xué)來(lái)使用無(wú)監(jiān)督訓(xùn)練研究深度。這個(gè)例子很成功地說(shuō)明了如何將幾何理論和上述屬性相結(jié)合,進(jìn)而形成一個(gè)無(wú)監(jiān)督學(xué)習(xí)的模型。其他研究論文也展示了類似的想法,即將幾何用于運(yùn)動(dòng)的無(wú)監(jiān)督學(xué)習(xí)。

如何運(yùn)用幾何學(xué)來(lái)使用無(wú)監(jiān)督訓(xùn)練研究深度

我最欣賞的論文之一

三、語(yǔ)義不夠嗎?

語(yǔ)義在計(jì)算機(jī)視覺(jué)中常常博得許多關(guān)注,因?yàn)榇罅扛叨纫玫耐黄菩哉撐亩紒?lái)于圖像分類或語(yǔ)義分割。

僅僅依靠語(yǔ)義來(lái)設(shè)計(jì)世界的表征存在這樣一個(gè)問(wèn)題,即語(yǔ)義是由人類定義的。人工智能系統(tǒng)必須了解語(yǔ)義,從而才能與人類進(jìn)行交互。 然而,正由于語(yǔ)義是由人類定義的,這些表征便可能不是最優(yōu)的。通過(guò)觀察世界中的幾何來(lái)直接學(xué)習(xí)可能更加自然。

不難理解,嬰兒就曾使用初級(jí)的幾何學(xué)來(lái)學(xué)習(xí)觀看這個(gè)世界。根據(jù)美國(guó)眼科協(xié)會(huì)的統(tǒng)計(jì),在生命的最初 9 個(gè)月中,人類學(xué)習(xí)協(xié)調(diào)眼睛來(lái)聚焦并感知深度、顏色與幾何;直到第 12 個(gè)月,才會(huì)明白如何識(shí)別對(duì)象和語(yǔ)義。這說(shuō)明幾何學(xué)對(duì)于人類視覺(jué)的基礎(chǔ)而言十分重要。在將這些洞見(jiàn)納入計(jì)算機(jī)視覺(jué)模型時(shí),我們一定會(huì)做得很好。

機(jī)器對(duì)世界的語(yǔ)義理解(a.k.a. SegNet)。每種顏色代表不同的語(yǔ)義分類,如道路、行人、標(biāo)志等。

機(jī)器對(duì)世界的語(yǔ)義理解(a.k.a. SegNet)。每種顏色代表不同的語(yǔ)義分類,如道路、行人、標(biāo)志等。

四、我的近期研究中的幾何示例

我想通過(guò)兩個(gè)具體示例結(jié)束本文,它們將解釋如何在深度學(xué)習(xí)中運(yùn)用幾何學(xué):

1. 學(xué)習(xí)使用 PoseNet 進(jìn)行重新定位

在本文的介紹中,我舉出的 PoseNet 示例是一個(gè)單目 6 自由度(monocular 6-DOF)重新定位算法,它解決了所謂的機(jī)器人綁架問(wèn)題。

在 ICCV 2015 的初稿中,我們通過(guò)學(xué)習(xí)由輸入圖像到 6 自由度拍照中姿勢(shì)的端對(duì)端映射來(lái)解決這個(gè)問(wèn)題,這一方法單純地將問(wèn)題看作了黑盒子。而在今年的 CVPR 中,我們通過(guò)考慮問(wèn)題的幾何學(xué)屬性從而更新了這一方法。我們并未將拍照姿勢(shì)與方向值作為單獨(dú)的回歸目標(biāo),而是使用幾何重現(xiàn)誤差(geometric reprojection error)來(lái)一同學(xué)習(xí)。它說(shuō)明了世界的幾何性,結(jié)果也得到了顯著改善。

學(xué)習(xí)使用 PoseNet 進(jìn)行重新定位

2. 用立體視覺(jué)預(yù)測(cè)深度

第二個(gè)示例是立體視覺(jué),即以雙目視覺(jué)估測(cè)深度。我曾有幸參去研究這個(gè)問(wèn)題——在世界最先進(jìn)的無(wú)人機(jī)上工作,與 Skydio 度過(guò)了一段美好的盛夏。

立體算法通常用于估測(cè)物體在一對(duì)整齊立體圖像之間的水平位置差異,即視差,其與相應(yīng)像素位置的場(chǎng)景深度成反比。因此它在本質(zhì)上能被簡(jiǎn)化為一個(gè)匹配問(wèn)題——找到左右圖像中物體之間的對(duì)應(yīng)關(guān)系,并且ni ke yi計(jì)算深度。

立體中性能最高的算法主要使用了深度學(xué)習(xí),但僅限于構(gòu)建匹配的功能。生產(chǎn)深度估測(cè)所需的匹配以及正規(guī)化步驟在很大程度上仍然是人工完成的。

我們提出了GC-Net 架構(gòu),但此次著重的是問(wèn)題的基礎(chǔ)幾何。眾所周知,在立體中我們可以在 1-D 視差線上通過(guò)成本量的形成來(lái)估測(cè)差異。本文的創(chuàng)新性在于,它展示了如何以可微分的方式將成本量的幾何闡述為回歸模型。本文還具有更多細(xì)節(jié)。

關(guān)于 GC-Net 架構(gòu)的概述

這是一篇關(guān)于 GC-Net 架構(gòu)的概述,它運(yùn)用幾何的清晰表征來(lái)預(yù)測(cè)立體深度。

五、結(jié)論

我認(rèn)為本文傳達(dá)的關(guān)鍵信息是:

  • 了解解決計(jì)算機(jī)視覺(jué)問(wèn)題的經(jīng)典方法是值得的(尤其你具有機(jī)器學(xué)習(xí)或數(shù)據(jù)科學(xué)背景)。
  • 若能將架構(gòu)結(jié)構(gòu)化以利用問(wèn)題的幾何屬性,則使用深度學(xué)習(xí)來(lái)研究復(fù)雜表征便會(huì)更加容易與有效。

【本文是51CTO專欄機(jī)構(gòu)機(jī)器之心的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專欄
相關(guān)推薦

2017-05-02 09:54:03

深度學(xué)習(xí)幾何學(xué)計(jì)算機(jī)

2021-03-29 11:52:08

人工智能深度學(xué)習(xí)

2023-03-28 15:21:54

深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)

2023-07-07 10:53:08

2019-12-11 13:24:57

深度學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)軟件

2020-10-15 14:33:07

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2023-09-04 15:15:17

計(jì)算機(jī)視覺(jué)人工智能

2017-11-30 12:53:21

深度學(xué)習(xí)原理視覺(jué)

2023-09-20 09:56:18

深度學(xué)習(xí)人工智能

2024-12-13 09:17:45

2020-04-26 17:20:53

深度學(xué)習(xí)人工智能計(jì)算機(jī)視覺(jué)

2023-11-20 22:14:16

計(jì)算機(jī)視覺(jué)人工智能

2021-08-12 05:41:23

人工智能AI深度學(xué)習(xí)

2019-08-29 11:10:34

深度學(xué)習(xí)神經(jīng)架構(gòu)人工智能

2020-12-16 19:28:07

深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)Python庫(kù)

2020-12-15 15:40:18

深度學(xué)習(xí)Python人工智能

2023-09-20 16:31:03

人工智能

2019-10-17 09:58:01

深度學(xué)習(xí)編程人工智能

2019-11-07 11:29:29

視覺(jué)技術(shù)數(shù)據(jù)網(wǎng)絡(luò)

2016-12-23 11:31:52

麻省理工學(xué)院深度學(xué)習(xí)計(jì)算機(jī)預(yù)測(cè)未來(lái)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)