LeCun領(lǐng)導(dǎo)下的Meta AI,押注自監(jiān)督
自監(jiān)督學(xué)習(xí)真的是通往 AGI 的關(guān)鍵一步?
Meta 的 AI 首席科學(xué)家 Yann LeCun 在談到「此時此刻要采取的具體措施」時,也沒有忘記遠(yuǎn)期的目標(biāo)。他在一次采訪時說:「我們想要構(gòu)建像動物和人類一樣學(xué)習(xí)的智能機(jī)器?!?/p>
近幾年,Meta 發(fā)表了一系列關(guān)于 AI 系統(tǒng)自監(jiān)督學(xué)習(xí)(SSL)的論文。LeCun 堅定地認(rèn)為,SSL 是 AI 系統(tǒng)的必要前提,它可以幫助 AI 系統(tǒng)構(gòu)建世界模型,以獲得類似人類的能力,如理性、常識,以及將技能和知識從一個環(huán)境遷移到另一個環(huán)境的能力。
他們的新論文展示了一種被稱為掩蔽自編碼器(MAE)的自監(jiān)督系統(tǒng)如何學(xué)會從非常零散、不完整的數(shù)據(jù)中重建圖像、視頻甚至音頻。雖然 MAE 并不是一個新的想法,但 Meta 已經(jīng)將這項工作擴(kuò)展到了新的領(lǐng)域。?
LeCun 說,通過研究如何預(yù)測丟失的數(shù)據(jù),無論是靜態(tài)圖像還是視頻或音頻序列,MAE 系統(tǒng)都是在構(gòu)建一個世界模型。他說:「如果它能預(yù)測視頻中即將發(fā)生的事情,它必須明白世界是三維的,有些物體是無生命的,它們自己不會移動,其他物體是有生命的,很難預(yù)測,一直到預(yù)測有生命的人的復(fù)雜行為?!挂坏?AI 系統(tǒng)有了一個精確的世界模型,它就可以使用這個模型來計劃行動。
LeCun 說,「智能的本質(zhì)是學(xué)會預(yù)測。」雖然他并沒有聲稱 Meta 的 MAE 系統(tǒng)接近于通用人工智能,但他認(rèn)為這是通往通用人工智能的重要一步。?
但并非所有人都同意 Meta 的研究人員走在通往通用人工智能的正確道路上。Yoshua Bengio 有時會與 LeCun 就 AI 領(lǐng)域的重大想法進(jìn)行友好的辯論。在給 IEEE Spectrum 的一封電子郵件中,Bengio 闡述了他們在目標(biāo)上的一些不同和相似之處。
Bengio 寫道:「我真的不認(rèn)為我們目前的方法(無論是不是自監(jiān)督)足以彌合人工與人類智能水平的差距?!顾f,該領(lǐng)域需要取得「質(zhì)的進(jìn)步」,才能真正推動技術(shù)向人類規(guī)模的人工智能靠攏。
對于 LeCun 的「對世界的推理能力是智能的核心要素」這一觀點,Bengio 表示贊同,但他的團(tuán)隊并沒有把重點放在能夠預(yù)測的模型上,而是放在了能夠以自然語言的形式呈現(xiàn)知識的模型上。他指出,這樣的模型將允許我們將這些知識片段結(jié)合起來,以解決新問題,進(jìn)行反事實模擬,或研究可能的未來。Bengio 的團(tuán)隊開發(fā)了一種新的神經(jīng)網(wǎng)絡(luò)框架,它比致力于端到端學(xué)習(xí)的 LeCun 所青睞的框架更具模塊化的性質(zhì)。?
大火的 Transformer
Meta 的 MAE 建立在一種名為 Transformer 的神經(jīng)網(wǎng)絡(luò)架構(gòu)基礎(chǔ)之上。這種架構(gòu)最初在自然語言處理領(lǐng)域走紅,之后擴(kuò)展到計算機(jī)視覺等多個領(lǐng)域。?
當(dāng)然,Meta 并不是第一個成功將 Transformer 用到視覺任務(wù)中的團(tuán)隊。Meta AI 的研究者 Ross Girshick 介紹說,谷歌在視覺 Transformer(ViT)上的研究啟發(fā)了 Meta 的團(tuán)隊,「ViT 架構(gòu)的采用幫助(我們)消除了試驗過程中遇到的一些障礙」。
Girshick 是 Meta 第一篇 MAE 系統(tǒng)論文?的作者之一,這篇論文的一作是何愷明,他們論述了一種非常簡單的方法:掩蔽輸入圖像的隨機(jī)區(qū)塊并重建丟失的像素。
這種模型的訓(xùn)練類似于 BERT 以及其他一些基于 Transformer 的語言模型,研究人員會向它們展示巨大的文本數(shù)據(jù)庫,但有些詞是缺失的,或者說被「掩蔽」了。模型需要自己預(yù)測出缺失的詞,然后被掩蔽的詞會被揭開,這樣模型就能檢查自己的工作并更新自己的參數(shù)。這一過程會一直重復(fù)下去。Girshick 解釋說,為了在視覺上做類似的事情,研究小組將圖像分解成 patch,然后掩蔽一些 patch 并要求 MAE 系統(tǒng)預(yù)測圖像缺失的部分。
該團(tuán)隊的突破之一是意識到,掩蔽大部分圖像會獲得最好的結(jié)果,這與語言 transformer 有著關(guān)鍵區(qū)別,后者可能只會掩蔽 15% 的單詞?!刚Z言是一種極其密集和高效的交流系統(tǒng),每個符號都包含很多含義,」Girshick 說,「但是圖像——這些來自自然世界的信號——并不是為了消除冗余而構(gòu)建的。所以我們才能在創(chuàng)建 JPG 圖像時很好地壓縮內(nèi)容?!?/p>
?Meta AI 的研究人員試驗需要掩蔽多少圖像獲得最佳效果。
Girshick 解釋說,通過掩蔽圖像中超過 75% 的 patch,他們消除了圖像中的冗余,否則會使任務(wù)變得過于瑣碎,不適合訓(xùn)練。他們那個由兩部分組成的 MAE 系統(tǒng)首先使用一個編碼器,通過訓(xùn)練數(shù)據(jù)集學(xué)習(xí)像素之間的關(guān)系,然后一個解碼器盡最大努力從掩蔽圖像中重建原始圖像。在此訓(xùn)練方案完成后,編碼器還可以進(jìn)行微調(diào),用于分類和目標(biāo)檢測等視覺任務(wù)。
Girshick 說,「最終讓我們興奮的點在于,我們看到了這個模型在下游任務(wù)中的結(jié)果?!巩?dāng)使用編碼器完成目標(biāo)識別等任務(wù)時,「我們看到的收益非常可觀。」他指出,繼續(xù)增大模型可以獲得更好的性能,這對未來的模型來說是一個有潛力的方向,因為 SSL「具有使用大量數(shù)據(jù)而不需要手動注釋的潛力」。
全力以赴地學(xué)習(xí)海量的未經(jīng)篩選的數(shù)據(jù)集可能是 Meta 提高 SSL 結(jié)果的策略,但也是一個越來越有爭議的方法。Timnit Gebru 等人工智能倫理研究人員已經(jīng)呼吁大家注意大型語言模型學(xué)習(xí)的未經(jīng)整理的數(shù)據(jù)集固有的偏見,這些偏見有時會導(dǎo)致災(zāi)難性的結(jié)果。
視頻和音頻的自監(jiān)督學(xué)習(xí)
在視頻 MAE 系統(tǒng)中,掩蔽物遮蔽了每個視頻幀的 95%,因為幀之間的相似性意味著視頻信號比靜態(tài)圖像有更多的冗余。Meta 研究人員 Christoph Feichtenhofer 說,就視頻而言,MAE 方法的一大優(yōu)勢是視頻通常需要大量計算,而 MAE 通過屏蔽每幀高達(dá) 95% 的內(nèi)容,減少了高達(dá) 95% 的計算成本。?
這些實驗中使用的視頻片段只有幾秒鐘,但 Feichtenhofer 表示,用較長的視頻訓(xùn)練人工智能系統(tǒng)是一個非?;钴S的研究課題。想象一下,你有一個虛擬助理,他有你家的視頻,可以告訴你一個小時之前你把鑰匙放在哪里了。
更直接地說,我們可以想象圖像和視頻系統(tǒng)對 Facebook 和 Instagram 上的內(nèi)容審核所需的分類任務(wù)都很有用,F(xiàn)eichtenhofer 說,「integrity」是一種可能的應(yīng)用,「我們正在與產(chǎn)品團(tuán)隊溝通,但這是非常新的,我們還沒有任何具體的項目?!?/p>
對于音頻 MAE 工作,Meta AI 的團(tuán)隊表示他們將很快將研究成果發(fā)布在 arXiv 上。他們發(fā)現(xiàn)了一個巧妙的方法來應(yīng)用掩蔽技術(shù)。他們將聲音文件轉(zhuǎn)化為聲譜圖,即信號中頻率頻譜的視覺表征,然后將部分圖像掩蔽起來進(jìn)行訓(xùn)練。重建的音頻令人印象深刻,盡管該模型目前只能處理幾秒鐘的片段。?
該音頻系統(tǒng)的研究人員 Bernie Huang 說,這項研究的潛在應(yīng)用包括分類任務(wù),通過填充數(shù)據(jù)包被 drop 時丟失的音頻來輔助基于 IP 的語音傳輸(VoIP),或者找到更有效的壓縮音頻文件的方法。
Meta 一直在進(jìn)行開源 AI 方面的研究,如這些 MAE 模型,還為人工智能社區(qū)提供了一個預(yù)訓(xùn)練的大型語言模型?。但批評人士指出,盡管在研究方面如此開放,但 Meta 還沒有把它的核心商業(yè)算法開放出來供大家研究,即那些控制新聞推送、推薦和廣告植入的算法。?