對比學習也會維度崩潰？LeCun和田淵棟團隊新作DirectCLR幫解決

作者：佚名 2021-10-28 15:41:07

最近LeCun和田淵棟合作發(fā)布DirectCLR，能夠極大緩解崩潰問題，在ImageNet的精度超越SimCLR 近10%。

自監(jiān)督學習在計算機視覺中的應用十分廣泛，能夠在沒有人工標注的情況下學到輸入數(shù)據(jù)的有效表示。

目前基于聯(lián)合嵌入方法（joint embedding method）的自監(jiān)督視覺表征學習研究進展表明，自監(jiān)督學習得到的表示性能和有監(jiān)督表示相比相差不大。這些方法的目標通常是通過最大限度地利用同一圖像不同失真度的嵌入向量之間的一致性來學習對數(shù)據(jù)增強保持不變的表示。

但自監(jiān)督模型存在崩潰問題，即將所有輸入映射到同一常數(shù)向量，因此研究人員提出了各種方法來解決該問題，這些方法依賴于不同的機制，雖然成功地防止了所有表示向量收縮到單個點的完全崩潰情況，但在非對比學習方法中可以觀察到，雖然嵌入向量不會完全崩潰，但它們會沿著特定的維度崩潰（dimensional collapse），這導致嵌入向量只能在較低維度的子空間中有效。

按照直覺來說，對比學習中應當不會出現(xiàn)這種崩潰問題，因為對比學習的方法中明確使用損失函數(shù)中的正例和負例，可以直觀地利用所有維度推測負例的排斥效來防止這種維度崩潰。然而，與直覺恰恰相反，對比學習方法仍然受到維度崩潰的影響。

對于這種現(xiàn)象的成因一直沒有定論，F(xiàn)acebook的LeCun和田淵棟博士最近發(fā)布了一篇文章，從理論上研究了這一現(xiàn)象背后的動因。

田淵棟博士是Facebook人工智能研究院研究員、研究經理，上海交通大學獲得計算機本科和碩士學位，2013年獲得卡耐基梅隆大學機器人系博士，致力于深度強化學習、表征學習和優(yōu)化。

論文中，研究人員發(fā)現(xiàn)有兩種不同的機制可能會導致崩潰：

1、沿著特征方向，當數(shù)據(jù)增加引起的方差大于數(shù)據(jù)分布引起的方差時，權重會崩潰。

2、即使數(shù)據(jù)增強的協(xié)方差在所有維度上都小于數(shù)據(jù)方差，由于不同層面上權重矩陣的相互作用（隱式正則化），權重仍將崩潰，這種崩潰只發(fā)生在網絡具有多個層的網絡中。

受這種理論的啟發(fā)，文章提出了一種新的對比學習方法DirectCLR，它直接優(yōu)化編碼器（即表示空間），而不依賴可訓練的投影（projector），DirectCLR在ImageNet上具有線性可訓練投影儀，其性能優(yōu)于SimCLR。

從經驗上看，增加projector可以顯著提高學習到的表現(xiàn)和下游表現(xiàn)的性能，檢查表示層的spectrum也會發(fā)現(xiàn)有無projector的差異。研究人員訓練了兩個帶projector和不帶projector的SimCLR模型，當模型在沒有projector的情況下進行訓練時，SimCLR 會發(fā)生表示空間中的維度崩潰。

對比學習中的projector對于防止表征空間中的維度崩潰至關重要，基于這個理論，研究人員提出：

梯度將會驅動projector權重矩陣與編碼器主干的最后一層對齊，因此projector 權重矩陣只需要是對角的（diagonal）即可。
projector 僅對表示的子空間應用梯度，因此權重矩陣只需是一個低秩矩陣。

作者提出在對比學習中通過直接向損失函數(shù)發(fā)送表示向量的子向量來移除projector，這個操作也稱為DirectCLR。與所有最新的自監(jiān)督學習方法相比，這種方法能夠直接優(yōu)化表示空間。

隨后研究人員在ImageNet上為DirectCLR訓練了100個epoch 的標準Sim-CLR，主干編碼網絡是一個ResNet50。DirectCLR與使用ImageNet上可訓練線性projector 的SimCLR相比表現(xiàn)出更好的性能。

DirectCLR 也能夠實現(xiàn)似于SimCLR中可訓練projector 的功能來防止表示空間中的維度崩潰。

有人可能會認為DirectCLR 中的對比損失沒有在表示向量r[d0:]的其余部分應用梯度，事實上，整個表示向量r 經過訓練并包含有用的信息。表示向量的其余部分通過殘差連接從最后一個剩余塊之前的層復制。表示的這一部分不直接經歷來自損失函數(shù)的梯度，而是通過卷積塊由梯度更新，殘差連接通過最后一個卷積塊的滿秩梯度。

研究人員還進行了三項消融實驗：

固定的低秩projector：這時DirectCLR退化為一個帶有固定線性、對角矩陣projector的SimCLR。實驗結果觀察到，當使用固定的低秩矩陣作為projector 時，它在ImageNet上的性能類似，從而達到62.3%的線性probe 精度。該低秩矩陣的奇異值設置為d0數(shù)為1，其余為0。該矩陣對應的奇異向量都是隨機生成的。因此，它們唯一的區(qū)別是，這個固定的projector 有一個額外的固定正交矩陣。這表明表示空間（或相當于前一層）在訓練期間已進化為與該正交矩陣對齊。
可訓練的對角線projector：研究人員訓練了一個SimCLR模型，該模型帶有一個可訓練的projector ，但僅限于對角線的數(shù)值。該模型在ImageNet上實現(xiàn)了60.2%的線性probe 精度，與帶有1層線性投影儀的SimCLR相當。這也可以通過projector 與主干中的前一層對齊的對齊現(xiàn)象來解釋。但研究人員懷疑初始化問題是該模型比具有1層線性可訓練投影儀的SimCLR稍差的原因：隨機矩陣的奇異值不同于均勻分布。
在子向量z上的線性probe：對于DirectCLR，研究人員僅在子向量z上執(zhí)行線性probe，并在ImageNet上獲得47.9%的精度。這表明即使r 沒有看到直接來自損失函數(shù)的梯度，但它其余部分仍然包含有用的信息。

為了保證論文可以成功復現(xiàn)，論文的附錄中還提供了每個引理和定理的詳細證明、代碼以及參數(shù)。

責任編輯：張燕妮來源：新智元

計算機 AI 技術

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

對比學習也會維度崩潰？LeCun和田淵棟團隊新作DirectCLR幫解決

對比學習也會維度崩潰？LeCun和田淵棟團隊新作DirectCLR幫解決