萬字長文！DeepMind科學(xué)家總結(jié)2021年的15個高能研究

作者：新智元 2022-02-14 10:58:30

2021年ML和NLP依然發(fā)展迅速，DeepMind科學(xué)家最近總結(jié)了過去一年的十五項亮點研究方向，快來看看哪個方向適合做你的新坑！

2021年，借助更強大的算力、數(shù)據(jù)和模型，機器學(xué)習(xí)和自然語言處理的技術(shù)發(fā)展依然十分迅速。

最近，DeepMind科學(xué)家Sebastian Ruder總結(jié)了15個過去一年里高能、有啟發(fā)性的研究領(lǐng)域，主要包括：

Universal Models 通用模型
Massive Multi-task Learning 大規(guī)模多任務(wù)學(xué)習(xí)
Beyond the Transformer 超越Transformer的方法
Prompting 提示
Efficient Methods 高效方法
Benchmarking 基準(zhǔn)測試
Conditional Image Generation 條件性圖像生成
ML for Science 用于科學(xué)的機器學(xué)習(xí)
Program Synthesis 程序合成
Bias 偏見
Retrieval Augmentation 檢索增強
Token-free Models 無Token模型
Temporal Adaptation 時序適應(yīng)性
The Importance of Data 數(shù)據(jù)的重要性
Meta-learning 元學(xué)習(xí)

Sebastian Ruder是倫敦DeepMind的一名研究科學(xué)家。在Insight數(shù)據(jù)分析研究中心獲得自然語言處理和深度學(xué)習(xí)的博士學(xué)位，同時在柏林的文本分析初創(chuàng)公司AYLIEN擔(dān)任研究科學(xué)家。

1 通用模型

通用人工智能一直是AI從業(yè)者的目標(biāo)，越通用的能力，代表模型更強大。

2021年，預(yù)訓(xùn)練模型的體積越來越大，越來越通用，之后微調(diào)一下就可以適配到各種不同的應(yīng)用場景。這種預(yù)訓(xùn)練-微調(diào)已經(jīng)成了機器學(xué)習(xí)研究中的新范式。

在計算機視覺領(lǐng)域，盡管有監(jiān)督的預(yù)訓(xùn)練模型如Vision Transformer的規(guī)模逐漸擴大，但只要數(shù)據(jù)量夠大，在自監(jiān)督情況下預(yù)訓(xùn)練模型效果已經(jīng)可以和有監(jiān)督相匹敵了。

在語音領(lǐng)域，一些基于wav2vec 2.0的模型，如W2v-BERT，以及更強大的多語言模型XLS-R也已經(jīng)展現(xiàn)了驚人的效果。

與此同時，研究人員也發(fā)現(xiàn)了新的大一統(tǒng)預(yù)訓(xùn)練模型，能夠針對以前研究不足的模態(tài)對（modality pair）進行改進，如視頻和語言，語音和語言。

在視覺和語言方面，通過在語言建模范式中設(shè)定不同的任務(wù)，對照研究（controlled studies）也揭示了多模態(tài)模型的重要組成部分。這類模型在其他領(lǐng)域，如強化學(xué)習(xí)和蛋白質(zhì)結(jié)構(gòu)預(yù)測也證明了其有效性。

鑒于在大量模型中觀察到的縮放行為（scaling behaviour），在不同參數(shù)量規(guī)模下報告性能已經(jīng)成為常見的做法。然而，預(yù)訓(xùn)練模型模型性能的提高并不一定能完全轉(zhuǎn)化為下游任務(wù)的性能提升。

總之，預(yù)訓(xùn)練的模型已經(jīng)被證明可以很好地推廣到特定領(lǐng)域或模式的新任務(wù)中。它們表現(xiàn)出強大的few-shot learning和robust learning的能力。因此，這項研究的進展是非常有價值的，并能實現(xiàn)新的現(xiàn)實應(yīng)用。

對于下一步的發(fā)展，研究人員認為將在未來看到更多、甚至更大的預(yù)訓(xùn)練模型的開發(fā)。同時，我們應(yīng)該期待單個模型在同一時間執(zhí)行更多的任務(wù)。在語言方面已經(jīng)是這樣了，模型可以通過將它們框定在一個共同的文本到文本的格式中來執(zhí)行許多任務(wù)。同樣地，我們將可能看到圖像和語音模型可以在一個模型中執(zhí)行許多共同的任務(wù)。

2 大規(guī)模多任務(wù)學(xué)習(xí)

大多數(shù)預(yù)訓(xùn)練模型都是自監(jiān)督的。他們一般通過一個不需要明確監(jiān)督的目標(biāo)從大量無標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)。然而，在許多領(lǐng)域中已經(jīng)有了大量的標(biāo)記數(shù)據(jù)，這些數(shù)據(jù)可以用來學(xué)習(xí)更好的表征。

到目前為止，諸如T0、FLAN和ExT5等多任務(wù)模型，已經(jīng)在大約100個主要針對語言的任務(wù)上進行了預(yù)訓(xùn)練。這種大規(guī)模的多任務(wù)學(xué)習(xí)與元學(xué)習(xí)密切相關(guān)。如果能夠接觸到不同的任務(wù)分配，模型就可以學(xué)習(xí)不同類型的行為，比如如何進行語境學(xué)習(xí)。

ExT5能夠?qū)崿F(xiàn)大規(guī)模多任務(wù)學(xué)習(xí)。在預(yù)訓(xùn)練期間，ExT5以文本到文本的形式對一組不同任務(wù)的輸入進行訓(xùn)練，以產(chǎn)生相應(yīng)的輸出。這些任務(wù)包括掩碼語言建模、摘要、語義分析、閉卷問答、風(fēng)格轉(zhuǎn)換、對話建模、自然語言推理、 Winograd-schema風(fēng)格的核心參考解析等。

最近研究的一些模型，如 T5和 GPT-3，都使用了文本到文本的格式，這也成為了大規(guī)模多任務(wù)學(xué)習(xí)的訓(xùn)練基礎(chǔ)。因此，模型不再需要手工設(shè)計特定任務(wù)的損失函數(shù)或特定任務(wù)層，從而有效地進行跨任務(wù)學(xué)習(xí)。這種最新的方法強調(diào)了將自監(jiān)督的預(yù)訓(xùn)練與有監(jiān)督的多任務(wù)學(xué)習(xí)相結(jié)合的好處，并證明了兩者的結(jié)合會得到更加通用的模型。

3 不止于Transformer

前面提到的預(yù)訓(xùn)練模型大多數(shù)都基于Transformer的模型架構(gòu)。在2021年，研究人員也一直在尋找Transformer的替代模型。

Perceiver（感知器）的模型架構(gòu)類似于Transformer的架構(gòu)，使用一個固定維度的潛在數(shù)組作為基礎(chǔ)表示，并通過交叉注意力對輸入進行調(diào)節(jié)，從而將輸入擴展到高維。Perceiver IO 進一步擴展了模型的架構(gòu)來處理結(jié)構(gòu)化的輸出空間。

還有一些模型嘗試改進Transformer中的自注意力層，一個比較成功的例子就是使用多層感知器(MLPs) ，如 MLP-Mixer和 gMLP模型。另外FNet 使用一維傅立葉變換代替自注意力來混合token層面的信息。

一般來說，把一個模型架構(gòu)和預(yù)訓(xùn)練策略脫鉤是有價值的。如果 CNN 預(yù)訓(xùn)練的方式與Transformer模型相同，那么他們在許多 NLP 任務(wù)上都能得到更有競爭力的性能。

同樣，使用其他的預(yù)訓(xùn)練目標(biāo)函數(shù)，例如ELECTRA-style的預(yù)訓(xùn)練也可能會帶來性能收益。

4 提示

受到GPT-3的啟發(fā)，prompting對于NLP模型來說是一種可行的新范式。

提示符通常包括一個要求模型做出某種預(yù)測的模式，以及一個用于將預(yù)測轉(zhuǎn)換為類標(biāo)簽的語句化程序。目前的方法有PET, iPET 和 AdaPET，利用提示進行Few-shot學(xué)習(xí)。

然而，提示并不是一種靈丹妙藥，模型的性能可能會因不同的提示不同而大不相同。并且，為了找到最好的提示，仍然需要標(biāo)注數(shù)據(jù)。

為了可靠地比較模型在few-shot setting中的表現(xiàn)，有研究人員開發(fā)了新的評價程序。通過使用公共提示池(public pool of prompts, P3)的中的大量提示，人們可以探索使用提示的最佳方式，也為一般的研究領(lǐng)域提供了一個極好的概述。

目前研究人員僅僅觸及了使用提示來改進模型學(xué)習(xí)的皮毛。之后的提示將變得更加精細，例如包括更長的指令、正面和反面的例子以及一般的啟發(fā)法。提示也可能是將自然語言解釋納入模型訓(xùn)練的一種更自然的方式。

5 高效方法

預(yù)訓(xùn)練模型通常非常大，而且在實踐中效率往往不高。

2021年，出現(xiàn)了一些更有效的架構(gòu)和更有效的微調(diào)方法。在模型方面，也有幾個新的、更有效的自注意力的版本。

目前的預(yù)訓(xùn)練模型非常強大，只需更新少量的參數(shù)就可以有效地進行調(diào)節(jié)，于是出現(xiàn)了基于連續(xù)提示和適配器等的更有效的微調(diào)方法迅速發(fā)展。這種能力還能通過學(xué)習(xí)適當(dāng)?shù)那熬Y或適當(dāng)?shù)霓D(zhuǎn)換來適應(yīng)新的模式。

另外，還有一些其他路線來提高效率，例如創(chuàng)建更有效的優(yōu)化器以及稀疏度的量化方法。

當(dāng)模型不能在標(biāo)準(zhǔn)硬件上運行，或者成本過于昂貴時，模型的可用性就會大打折扣。為了保證模型在不斷擴大的同時，模型部署也能使用這些方法并且從中獲益，模型的效率需要不斷進步。

下一步的研究中，人們應(yīng)該能夠更加容易地獲得和使用有效的模型和訓(xùn)練方法。與此同時，社區(qū)將開發(fā)更有效的方法，來與大型模型接口，并有效地適應(yīng)、組合或修改它們，而不必從頭開始預(yù)先訓(xùn)練一個新模型。

6 基準(zhǔn)測試

最近機器學(xué)習(xí)和自然語言處理模型的能力迅速提高，已經(jīng)超過了許多基準(zhǔn)的測量能力。與此同時，社區(qū)用于進行評估的基準(zhǔn)越來越少，而這些基準(zhǔn)來自少數(shù)精英機構(gòu)。每個機構(gòu)的數(shù)據(jù)集使用情況表明，超過50% 的數(shù)據(jù)集都可以認為來自12個機構(gòu)。

以基尼指數(shù)衡量的數(shù)據(jù)集使用在機構(gòu)和特定數(shù)據(jù)庫上的集中度有所增加。

因此，在2021年，可以看到很多關(guān)于最佳實踐，以及如何可靠地評估這些模型的未來發(fā)展的討論。自然語言處理社區(qū)2021年出現(xiàn)的顯著的排行榜范式有: 動態(tài)對抗性評價（dynamic adversarial evaluation）、社區(qū)驅(qū)動評價（community-driven evaluation），社區(qū)成員合作創(chuàng)建評價數(shù)據(jù)集，如 BIG-bench、跨不同錯誤類型的交互式細粒度評價，以及超越單一性能指標(biāo)評價模型的多維評價。此外，新的基準(zhǔn)提出了有影響力的設(shè)置，如few-shot評價和跨域泛化。

還可以看到新的基準(zhǔn)，其重點是評估通用的預(yù)訓(xùn)練模型，用于特定的模式，如不同的語言（印度尼西亞語和羅馬尼亞語），以及多種模態(tài)和多語言環(huán)境，也應(yīng)該更多地關(guān)注評價指標(biāo)。

機器翻譯meta-evaluation顯示，在過去十年的769篇機器翻譯論文中，盡管提出了108個可供選擇的指，通常具有更好的人類相關(guān)性，但74.3% 的論文仍僅使用 BLEU。因此，最近如 GEM 和bidimensional排行榜建議對模型和方法進行聯(lián)合評估。

基準(zhǔn)測試和評價是機器學(xué)習(xí)和自然語言處理科學(xué)進步的關(guān)鍵。如果沒有準(zhǔn)確和可靠的基準(zhǔn)，就不可能知道我們到底是在取得真正的進步，還是在過度適應(yīng)根深蒂固的數(shù)據(jù)集和指標(biāo)。

為了提高對基準(zhǔn)測試問題的認識，下一步應(yīng)該更加深思熟慮地設(shè)計新的數(shù)據(jù)集。對新模型的評估也應(yīng)該少關(guān)注單一的性能指標(biāo)，而是考慮多個維度，如模型的公平性、效率和魯棒性等。

7 條件圖像生成

條件性圖像生成，即基于文本描述生成圖像，在2021年取得了顯著的進步。

最近的方法不是像 DALL-E 模型那樣直接基于文本輸入生成圖像，而是利用像 CLIP 這樣的圖像和文本embedding聯(lián)合模型來引導(dǎo) VQ-GAN 這樣的強大生成模型的輸出。

基于似然的擴散模型，逐漸消除信號中的噪聲，已經(jīng)成為強大的新的生成模型，可以勝過 GANs 。通過基于文本輸入引導(dǎo)輸出，模型生成的圖像也逐漸接近逼真的圖像質(zhì)量。這樣的模型也特別適用于圖像修復(fù)，還可以根據(jù)描述修改圖像的區(qū)域。

與基于GAN的模型相比，最近基于擴散的模型的取樣速度要慢得多。這些模型需要提高效率，以使它們對現(xiàn)實應(yīng)用程序有用。這個領(lǐng)域還需要對人機交互進行更多的研究，以確定這些模型如何通過最佳方式和應(yīng)用幫助人類創(chuàng)作。

8 用于科學(xué)的機器學(xué)習(xí)

2021年，機器學(xué)習(xí)技術(shù)在推進自然科學(xué)方面取得了一些突破。

在氣象學(xué)方面，降水臨近預(yù)報和預(yù)報的進展導(dǎo)致了預(yù)報準(zhǔn)確性的大幅度提高。在這兩種情況下，模型都優(yōu)于最先進的基于物理的預(yù)測模型。

在生物學(xué)領(lǐng)域，AlphaFold 2.0以前所未有的精確度預(yù)測了蛋白質(zhì)的結(jié)構(gòu)，即使在沒有類似結(jié)構(gòu)的情況下也是如此。

在數(shù)學(xué)方面，機器學(xué)習(xí)被證明能夠引導(dǎo)數(shù)學(xué)家的直覺去發(fā)現(xiàn)新的聯(lián)系和算法。

Transformer模型也已被證明能夠?qū)W習(xí)數(shù)學(xué)性質(zhì)的差分系統(tǒng)，如訓(xùn)練足夠的數(shù)據(jù)就能夠局部穩(wěn)定。

使用循環(huán)中的模型（models in-the-loop）來幫助研究人員發(fā)現(xiàn)和開發(fā)新的進展是一個特別引人注目的方向。它既需要開發(fā)強大的模型，也需要研究交互式機器學(xué)習(xí)和人機交互。

9 程序合成

今年大型語言模型最引人注目的應(yīng)用之一是代碼生成，Codex 作為 GitHub Copilot 的一部分，首次整合到一個主要產(chǎn)品中。

然而，對于當(dāng)前的模型來說，生成復(fù)雜和長形式的程序仍然是一個挑戰(zhàn)。一個有趣的相關(guān)方向是學(xué)習(xí)執(zhí)行或建模程序，這可以通過執(zhí)行多步計算得到改進，其中中間的計算步驟記錄在一個暫存器（scratchpad）中。

在實踐中，代碼生成模型在多大程度上改進了軟件工程師的工作流程，但仍然是一個有待解決的問題。為了真正發(fā)揮作用，這些模型ー類似于對話模型ー需要能夠根據(jù)新的信息更新其預(yù)測，并需要考慮到局部和全局下的代碼上下文。

10 偏見

鑒于預(yù)訓(xùn)練大模型的潛在影響，至關(guān)重要的是，這些模型不應(yīng)包含有害的偏見，不應(yīng)被濫用以產(chǎn)生有害的內(nèi)容，而應(yīng)當(dāng)被可持續(xù)的使用。

一些研究人員對性別、特定種族群體和政治傾向等受保護屬性的偏見進行了調(diào)查，強調(diào)了這種模型的潛在風(fēng)險。

然而，如果單純地從毒性模型中消除偏見可能會導(dǎo)致對邊緣化群體相關(guān)文本的覆蓋率降低。

到目前為止，在英語和預(yù)先訓(xùn)練的模型以及特定的文本生成或分類應(yīng)用方面，大多探討了偏見。考慮到這些模型的預(yù)期用途和生命周期，我們還應(yīng)致力于在多語種環(huán)境中確定和減輕不同模式組合方面的偏見，以及在預(yù)訓(xùn)練模型的使用的不同階段——預(yù)訓(xùn)練后、微調(diào)后和測試時——的偏見。

11 檢索增強

檢索增強語言模型（Retrieval-augmented language models）能夠?qū)z索整合到預(yù)訓(xùn)練和下游任務(wù)中。

2021年，檢索語料庫已經(jīng)擴大到一萬億個token ，并且模型已經(jīng)能夠查詢網(wǎng)絡(luò)以回答問題。研究人員還發(fā)現(xiàn)了將檢索集成到預(yù)訓(xùn)練語言模型中的新方法。

檢索增強使模型能夠更有效地利用參數(shù)，因為它們只需要在參數(shù)中存儲更少的知識，而且可以進行檢索。它還通過簡單地更新用于檢索的數(shù)據(jù)實現(xiàn)了有效的域自適應(yīng)。

未來，我們可能會看到不同形式的檢索，以利用不同類型的信息，如常識性知識，事實關(guān)系，語言信息等。檢索擴展也可以與更加結(jié)構(gòu)化的知識檢索形式相結(jié)合，例如知識庫總體方法和開放式信息抽取檢索。

12 無Token模型

自從像 BERT 這樣的預(yù)訓(xùn)練語言模型出現(xiàn)以來，tokenize后的subword組成的文本已經(jīng)成為 NLP 的標(biāo)準(zhǔn)輸入格式。

然而，子詞標(biāo)記已經(jīng)被證明在有噪聲的輸入中表現(xiàn)不佳，比如在社交媒體和某些類型的詞法中常見的拼寫錯誤（typos）或拼寫變化（spelling variation）。

2021年出現(xiàn)了新的token-free方法，這些方法直接使用字符序列。這些模型已經(jīng)被證明比多語言模型性能更好，并且在非標(biāo)準(zhǔn)語言上表現(xiàn)得特別好。

因此，token-free可能是比subword-based Transformer更有前途的一種替代模型。

由于token-free模型具有更大的靈活性，因此能夠更好地對詞法進行建模，并且能夠更好地概括新詞和語言的變化。然而，與基于不同類型的形態(tài)學(xué)或構(gòu)詞過程的子詞方法相比，目前仍不清楚它們的表現(xiàn)如何，以及這些模型做出了什么取舍。

13 時序適應(yīng)性

模型在許多方面都是基于它們所受訓(xùn)練的數(shù)據(jù)而存在偏差的。

在2021年，這些偏差受到越來越多的關(guān)注，其中之一是模型所訓(xùn)練的數(shù)據(jù)時間框架存在偏差。鑒于語言不斷發(fā)展，新詞匯不斷進入論述，那些以過時數(shù)據(jù)為基礎(chǔ)的模型已經(jīng)被證明概括起來相對較差。

然而，時序適應(yīng)（ temporal adaptation）何時有用，可能取決于下游任務(wù)。例如，如果語言使用中的事件驅(qū)動的變化與任務(wù)性能無關(guān)，那么它對任務(wù)的幫助就可能不大。

未來，開發(fā)能夠適應(yīng)新時間框架的方法需要擺脫靜態(tài)的預(yù)訓(xùn)練微調(diào)設(shè)置，并需要有效的方法更新預(yù)訓(xùn)練模型的知識，這兩種有效的方法以及檢索增強在這方面是有用的。

14 數(shù)據(jù)的重要性

數(shù)據(jù)長期以來一直是機器學(xué)習(xí)的關(guān)鍵組成部分，但數(shù)據(jù)的作用通常被模型的進步所掩蓋。

然而，考慮到數(shù)據(jù)對于擴展模型的重要性，人們的注意力正慢慢從以模型為中心轉(zhuǎn)移到以數(shù)據(jù)為中心。這當(dāng)中關(guān)鍵的主題包括如何有效地建立和維護新的數(shù)據(jù)集，以及如何確保數(shù)據(jù)質(zhì)量。

Andrew NG在NeurIPS 2021上舉辦了一個研討會就研究了這個問題——以數(shù)據(jù)為中心的人工智能。

目前關(guān)于如何有效地為不同的任務(wù)建立數(shù)據(jù)集，確保數(shù)據(jù)質(zhì)量等缺乏最佳實踐和原則性方法。關(guān)于數(shù)據(jù)如何與模型的學(xué)習(xí)相互作用，以及數(shù)據(jù)如何影響模型的偏差，人們?nèi)匀恢跎佟?/span>

15 元學(xué)習(xí)

元學(xué)習(xí)和遷移學(xué)習(xí)，盡管都有著Few-shot learning的共同目標(biāo)，但研究的群體卻不同。在一個新的基準(zhǔn)上，大規(guī)模遷移學(xué)習(xí)方法優(yōu)于基于元學(xué)習(xí)的方法。

一個有前景的方向是擴大元學(xué)習(xí)方法，這種方法可以更高效利用內(nèi)存的訓(xùn)練方法相結(jié)合，可以提高元學(xué)習(xí)模型在現(xiàn)實世界基準(zhǔn)測試上的性能。元學(xué)習(xí)方法也可以結(jié)合有效的適應(yīng)方法，比如FiLM層[110] ，使得通用模型更有效地適應(yīng)新的數(shù)據(jù)集。

責(zé)任編輯：張燕妮來源：新智元

研究科學(xué)家 AI

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p