2022年深度學(xué)習(xí)的發(fā)展趨勢與問題
我們將人工智能(AI)深度學(xué)習(xí)的又一年激動人心的發(fā)展拋在身后——這一年充滿了顯著的進步、爭議,當(dāng)然還有爭議。在我們結(jié)束 2022 年并準備迎接 2023 年的到來之際,以下是今年深度學(xué)習(xí)領(lǐng)域最顯著的總體趨勢。
1. 規(guī)模仍然是一個重要因素
過去幾年深度學(xué)習(xí)中一直保持不變的一個主題是創(chuàng)建更大的神經(jīng)網(wǎng)絡(luò)的驅(qū)動力。計算機資源的可用性使擴展神經(jīng)網(wǎng)絡(luò)以及專門的 AI 硬件、大型數(shù)據(jù)集以及變壓器模型等規(guī)模友好架構(gòu)的開發(fā)成為可能。
目前,公司正在通過將神經(jīng)網(wǎng)絡(luò)擴展到更大的規(guī)模來獲得更好的結(jié)果。過去一年,DeepMind 發(fā)布了Gopher,一個 2800 億參數(shù)的大型語言模型(LLM);谷歌發(fā)布了擁有 5400 億個參數(shù)的Pathways 語言模型 ( PaLM )和多達 1.2 萬億個參數(shù)的通用語言模型 ( GLaM );微軟和英偉達發(fā)布了Megatron-Turing NLG,一個 5300 億參數(shù)的 LLM。
規(guī)模的有趣方面之一是涌現(xiàn)能力,其中較大的模型成功地完成了較小的模型不可能完成的任務(wù)。這種現(xiàn)象在 LLM 中特別有趣,隨著規(guī)模的擴大,模型在更廣泛的任務(wù)和基準測試中顯示出有希望的結(jié)果。
然而,值得注意的是,即使在最大的模型中,深度學(xué)習(xí)的一些基本問題仍未解決(稍后會詳細介紹)。
2. 無監(jiān)督學(xué)習(xí)繼續(xù)交付
許多成功的深度學(xué)習(xí)應(yīng)用程序需要人類標記訓(xùn)練示例,也稱為監(jiān)督學(xué)習(xí)。但互聯(lián)網(wǎng)上可用的大多數(shù)數(shù)據(jù)都沒有帶有監(jiān)督學(xué)習(xí)所需的干凈標簽。數(shù)據(jù)注釋既昂貴又緩慢,造成瓶頸。這就是為什么研究人員長期以來一直在尋求無監(jiān)督學(xué)習(xí)的進步,在這種學(xué)習(xí)中,深度學(xué)習(xí)模型的訓(xùn)練不需要人工注釋的數(shù)據(jù)。
近年來,這一領(lǐng)域取得了巨大的進步,尤其是在 LLM 領(lǐng)域,它們大多接受從互聯(lián)網(wǎng)上收集的大量原始數(shù)據(jù)集的訓(xùn)練。雖然法學(xué)碩士在 2022 年繼續(xù)取得進展,但我們也看到無監(jiān)督學(xué)習(xí)技術(shù)的其他趨勢越來越受歡迎。
例如,今年文本到圖像的模型取得了驚人的進步。OpenAI 的DALL-E 2、谷歌的Imagen和 Stability AI 的Stable Diffusion等模型展示了無監(jiān)督學(xué)習(xí)的力量。與需要注釋良好的圖像和描述對的舊文本到圖像模型不同,這些模型使用互聯(lián)網(wǎng)上已經(jīng)存在的松散標題圖像的大型數(shù)據(jù)集。他們的訓(xùn)練數(shù)據(jù)集的龐大規(guī)模(這僅是可能的,因為不需要手動標記)和字幕方案的可變性使這些模型能夠找到文本和視覺信息之間的各種復(fù)雜模式。因此,它們在為各種描述生成圖像方面更加靈活。
3. 多模態(tài)取得長足進步
文本到圖像生成器還有另一個有趣的特性:它們在單個模型中組合了多種數(shù)據(jù)類型。能夠處理多種模式使深度學(xué)習(xí)模型能夠承擔(dān)更復(fù)雜的任務(wù)。
多模態(tài)對于人類和動物的智能非常重要。例如,當(dāng)你看到一棵樹并聽到風(fēng)在它的樹枝上沙沙作響時,你的大腦可以很快地將它們聯(lián)系在一起。同樣,當(dāng)你看到“樹”這個詞時,你可以很快地聯(lián)想到一棵樹的形象,記住下雨后松樹的味道,或者回憶起你以前有過的其他經(jīng)歷。
顯然,多模態(tài)在使深度學(xué)習(xí)系統(tǒng)更加靈活方面發(fā)揮了重要作用。DeepMind 的Gato可能最好地展示了這一點,這是一種針對各種數(shù)據(jù)類型(包括圖像、文本和本體感覺數(shù)據(jù))進行訓(xùn)練的深度學(xué)習(xí)模型。Gato 在多項任務(wù)中表現(xiàn)出色,包括圖像字幕、交互式對話、控制機械臂和玩游戲。這與旨在執(zhí)行單一任務(wù)的經(jīng)典深度學(xué)習(xí)模型形成對比。
一些研究人員已經(jīng)提出了這樣的概念,即我們只需要像 Gato 這樣的系統(tǒng)來實現(xiàn)人工智能(AGI)。盡管許多科學(xué)家不同意這一觀點,但可以肯定的是,多模態(tài)為深度學(xué)習(xí)帶來了重要成就。
4. 深度學(xué)習(xí)的基本問題仍然存在
盡管深度學(xué)習(xí)取得了令人矚目的成就,但該領(lǐng)域的一些問題仍未解決。其中包括因果關(guān)系、組合性、常識、推理、計劃、直覺物理學(xué)以及抽象和類比。
這些是不同領(lǐng)域的科學(xué)家仍在研究的一些智力奧秘。純粹的基于規(guī)模和數(shù)據(jù)的深度學(xué)習(xí)方法有助于在其中一些問題上取得漸進式進展,但未能提供明確的解決方案。
?例如,較大的 LLM 可以在較長的文本中保持連貫性和一致性。但他們在需要細致的逐步推理和計劃的任務(wù)上失敗了。
同樣,文本到圖像生成器創(chuàng)建令人驚嘆的圖形,但在被要求繪制需要組合性或具有復(fù)雜描述的圖像時會犯基本錯誤。
不同的科學(xué)家正在討論和探索這些挑戰(zhàn),包括一些深度學(xué)習(xí)的先驅(qū)。其中最著名的是獲得圖靈獎的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 發(fā)明者 Yann LeCun,他最近寫了一篇關(guān)于僅從文本中學(xué)習(xí)的 LLM的局限性的長文。LeCun 正在研究一種深度學(xué)習(xí)架構(gòu),該架構(gòu)可以學(xué)習(xí)世界模型,并可以解決該領(lǐng)域目前面臨的一些挑戰(zhàn)。
深度學(xué)習(xí)已經(jīng)走過了漫長的道路。但我們?nèi)〉玫倪M步越多,我們就越意識到創(chuàng)建真正智能系統(tǒng)的挑戰(zhàn)。明年肯定會和今年一樣令人興奮。