150頁(yè)「幾何深度學(xué)習(xí)」上線:用對(duì)稱(chēng)性和不變性解決機(jī)器學(xué)習(xí)問(wèn)題
近十年來(lái),數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域取得了巨大的進(jìn)展。借助深度學(xué)習(xí)方法,許多高維學(xué)習(xí)任務(wù)(例如計(jì)算機(jī)視覺(jué)、蛋白質(zhì)折疊)在適當(dāng)?shù)挠?jì)算規(guī)模下也能夠完成。雖然在高維空間中,學(xué)習(xí)通用函數(shù)是一個(gè)非常困難的問(wèn)題,但大多數(shù)任務(wù)上方法不是通用的,并且物理世界的基礎(chǔ)低維和結(jié)構(gòu)存在一些必要的預(yù)定義規(guī)律。
圖神經(jīng)網(wǎng)絡(luò)和幾何深度學(xué)習(xí)近期的一系列進(jìn)展,有希望幫助機(jī)器學(xué)習(xí)解決更加深入復(fù)雜的問(wèn)題。
幾何深度學(xué)習(xí),是從對(duì)稱(chēng)性和不變性的角度對(duì)廣義機(jī)器學(xué)習(xí)問(wèn)題進(jìn)行幾何統(tǒng)一的嘗試。這些原理不僅是卷積神經(jīng)網(wǎng)絡(luò)的突破性性能和圖神經(jīng)網(wǎng)絡(luò)的近期成功的基礎(chǔ),而且還為構(gòu)建新型的、面向特定問(wèn)題的歸納偏差提供了一種有原則的方法。
近日,一本名為《幾何深度學(xué)習(xí)》的新書(shū)通過(guò)可在各種應(yīng)用程序中應(yīng)用的幾何統(tǒng)一原理來(lái)揭示其中的規(guī)律性。這種「幾何統(tǒng)一」具有兩方面的意義:一方面,它提供了一個(gè)通用的數(shù)學(xué)框架來(lái)研究一些神經(jīng)網(wǎng)絡(luò)架構(gòu),例如 CNN,RNN,GNN 和 Transformer。另一方面,它提供了一個(gè)建設(shè)性的程序,可以將先驗(yàn)物理知識(shí)整合到神經(jīng)架構(gòu)中,并提供原則性的方法來(lái)構(gòu)建一些新的架構(gòu)。
教你如何組建機(jī)器學(xué)習(xí)架構(gòu)
《幾何深度學(xué)習(xí)》(Geometric Deep Learning, Grids, Groups, Graphs, Geodesics, and Gauges)是深度學(xué)習(xí)幾何統(tǒng)一項(xiàng)目的第一版在線書(shū),作者們表示該書(shū)自 2020 年 2 月起開(kāi)始寫(xiě)起,目前版本的頁(yè)數(shù)已超過(guò)了 150 頁(yè)。
該研究的四位作者 Michael M. Bronstein、Joan Bruna、Taco Cohen、Petar Veličković來(lái)自帝國(guó)理工、紐約大學(xué)、DeepMind 等研究機(jī)構(gòu)。

鏈接:
https://geometricdeeplearning.com/
arXiv 論文:
https://arxiv.org/abs/2104.13478
在這本書(shū)中,研究者從對(duì)稱(chēng)性,不變性和群論的角度出發(fā),試圖提煉出「構(gòu)建所有常用神經(jīng)架構(gòu)所需的知識(shí)」。涵蓋了諸如 CNN、GNN、Transformer 和 LSTM 之類(lèi)的常用模型,同時(shí)還包括球面卷積神經(jīng)網(wǎng)絡(luò)(Spherical CNN)、SO(3)-Transformer 和 Gauge Equivariant Mesh CNN 等新模型。
全書(shū)包括內(nèi)容簡(jiǎn)介、高位空間中的學(xué)習(xí)、幾何先驗(yàn)知識(shí)、幾何域、幾何深度學(xué)習(xí)模型、存在的問(wèn)題與應(yīng)用、歷史觀點(diǎn)共 7 章內(nèi)容。以下是該書(shū)目錄:


預(yù)備知識(shí)
該書(shū)作者之一,DeepMind 資深研究科學(xué)家 Petar Veličković表示:「如果你此前尚未接觸過(guò)群論知識(shí),則我們構(gòu)建的一些概念看起來(lái)會(huì)有些不太真實(shí)。
為此,你可以事先觀看一些作者之間視頻分享的內(nèi)容作為前置,也許這可以使某些無(wú)法以文字準(zhǔn)確描述的內(nèi)容變得更加「生動(dòng)」。
Petar Veličković在劍橋大學(xué)的分享——圖神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ):
https://www.youtube.com/watch?v=uF53xsT7mjc
Michael Bronstein 在 ICLR 2021 上的 Keynote:
https://iclr-conf.medium.com/announcing-the-iclr-2021-invited-speakers-db4aba84038a
此外,書(shū)中內(nèi)容包括如下一些概念:
域:定義數(shù)據(jù)的所有「點(diǎn)」的集合。例如,對(duì)于圖像來(lái)說(shuō),域是所有像素的集合;對(duì)于圖來(lái)說(shuō),域是所有節(jié)點(diǎn)和邊的集合。注意,該集合可能是無(wú)限的或者連續(xù)的,但是將其想象為有限的可能會(huì)讓一些數(shù)學(xué)運(yùn)算變得容易。
對(duì)稱(chēng)群:集合Ω到Ω自身雙射的集合(g: Ω → Ω)。例如,通過(guò)將圖像上每個(gè)像素向右移動(dòng)一個(gè) slot,并不會(huì)改變圖像上的對(duì)象。
由于要求對(duì)象在進(jìn)行對(duì)稱(chēng)變換時(shí)保持不變,因此引入了如下屬性:
對(duì)稱(chēng)操作必須是可組合的。例如,如果將球體繞 x 軸旋轉(zhuǎn) 30 度,然后繞 y 軸旋轉(zhuǎn) 60 度,并假設(shè)每次旋轉(zhuǎn)不會(huì)改變球體上的對(duì)象,那么連續(xù)使用多次變換,那么球體上的對(duì)象也沒(méi)有發(fā)生改變,即繞 x 軸旋轉(zhuǎn) 30 度,然后繞 y 軸旋轉(zhuǎn) 60 度也是一種對(duì)稱(chēng)操作。通常,如果 g 和 h 是對(duì)稱(chēng)操作,那么 g o h 也是對(duì)稱(chēng)操作。
對(duì)稱(chēng)操作必須是可逆的——如果我沒(méi)有更改底層對(duì)象,那么我必須能夠返回自己的來(lái)源(否則意味著丟失信息)。因此如果將球體順時(shí)針旋轉(zhuǎn) 30 度,那么是可以通過(guò)逆時(shí)針旋轉(zhuǎn) 30 度來(lái)「撤消」原動(dòng)作的。如果 g 是對(duì)稱(chēng)的,則 g ^-1 必須存在(并且也是對(duì)稱(chēng)的),這就使得 g o g ^-1 = id (恒等)。
保持域不變的恒等函數(shù)(id)也必須是對(duì)稱(chēng)的。
所有這些屬性相加,你就會(huì)發(fā)現(xiàn)所有對(duì)稱(chēng)集與組合運(yùn)算符(o)一起組成了一個(gè) group,這是在書(shū)中廣泛使用的數(shù)學(xué)結(jié)構(gòu)。

在機(jī)器學(xué)習(xí)社區(qū)中,對(duì)稱(chēng)性的重要性早已被人們認(rèn)可,尤其是在模式識(shí)別和計(jì)算機(jī)視覺(jué)應(yīng)用中,有關(guān)等變特征檢測(cè)的早期工作可以追溯到 Shun’ichi Amari 和 Reiner Lenz 在上個(gè)世紀(jì)的研究。在神經(jīng)網(wǎng)絡(luò)的領(lǐng)域中,Marvin Minsky 和 Seymour Papert 提出的感知器的群不變性定理對(duì)(單層)感知器學(xué)習(xí)不變性的能力進(jìn)行了基本界定。這是其后多層架構(gòu)研究的起點(diǎn),最終引向了深度學(xué)習(xí)。