偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

無需大規(guī)模預訓練,清華提出高效NLP學習框架TLM

新聞 人工智能
清華提出的高效學習框架 TLM 也學會了「抱佛腳」。近期,來自清華大學的研究者們提出了一種簡單高效的 NLP 學習框架。

 [[435029]]

近期,來自清華大學的研究者們提出了一種簡單高效的 NLP 學習框架。不同于當下 NLP 社區(qū)主流的大規(guī)模預訓練 + 下游任務微調(pretraining-finetuning)的范式,這一框架無需進行大規(guī)模預訓練。相較于傳統(tǒng)的預訓練語言模型,該框架將訓練效率 (Training FLOPs) 提升了兩個數(shù)量級,并且在多個 NLP 任務上實現(xiàn)了比肩甚至超出預訓練模型的性能。這一研究結果對大規(guī)模預訓練語言模型的必要性提出了質疑:大規(guī)模預訓練對下游任務的貢獻究竟有多大?我們真的需要大規(guī)模預訓練來達到最好的效果嗎?

無需大規(guī)模預訓練,清華提出高效NLP學習框架TLM
  • 論文地址:https://arxiv.org/pdf/2111.04130.pdf
  • 項目地址:https://github.com/yaoxingcheng/TLM

預訓練語言模型因其強大的性能被廣泛關注,基于預訓練 - 微調(pretraining-finetuning)的范式也已經(jīng)成為許多 NLP 任務的標準方法。然而,當前通用語言模型的預訓練成本極其高昂,這使得只有少數(shù)資源充足的研究機構或者組織能夠對其展開探索。這種 「昂貴而集權」的研究模式限制了平民研究者們?yōu)?NLP 社區(qū)做出貢獻的邊界,甚至為該領域的長期發(fā)展帶來了障礙。

近期,為了緩解這一現(xiàn)狀,來自清華大學的研究者們提出的一種完全不需要預訓練語言模型的高效學習框架。這一框架從通用語料中篩選出與下游任務相關的子集,并將語言建模任務與下游任務進行聯(lián)合訓練。研究者們稱之為 TLM (Task-driven Language Modeling)。相較于傳統(tǒng)的預訓練模型(例如 RoBERTa),TLM 僅需要約 1% 的訓練時間與 1% 的語料,即可在眾多 NLP 任務上比肩甚至超出預訓練模型的性能(如圖 1 所示)。研究者們希望 TLM 的提出能夠引發(fā)更多對現(xiàn)有預訓練微調范式的思考,并推動 NLP 民主化的進程。

無需大規(guī)模預訓練,清華提出高效NLP學習框架TLM

語言模型會「抱佛腳」嗎? 任務驅動的語言建模

無需大規(guī)模預訓練,清華提出高效NLP學習框架TLM

TLM 提出的動機源于一個簡單的觀察:人類可以通過僅對關鍵信息的學習,以有限的時間和精力快速掌握某一任務技能。例如,在臨考抱佛腳時,焦慮的學生僅需要根據(jù)考綱復習瀏覽若干相關章節(jié)即可應對考試,而不必學習所有可能的知識點。類似地,我們也可以推測:預訓練語言模型在下游任務上的優(yōu)良表現(xiàn),絕大多數(shù)來源于語料中與下游任務相關的數(shù)據(jù);僅利用下游任務相關數(shù)據(jù),我們便可以取得與全量數(shù)據(jù)類似的結果。

為了從大規(guī)模通用語料中抽取關鍵數(shù)據(jù),TLM 首先以任務數(shù)據(jù)作為查詢,對通用語料庫進行相似數(shù)據(jù)的召回。這里作者選用基于稀疏特征的 BM25 算法[2] 作為召回算法。之后,TLM 基于任務數(shù)據(jù)和召回數(shù)據(jù),同時優(yōu)化任務目標和語言建模目標 (如下圖公式所示),從零開始進行聯(lián)合訓練。

無需大規(guī)模預訓練,清華提出高效NLP學習框架TLM

1% 的算力 + 1% 的語料即可比肩預訓練語言模型

為了測試 TLM 的性能,研究者們在 8 個 NLP 分類任務上從三個不同規(guī)模展開了對比實驗。這 8 個任務涵蓋了計算機科學、生物醫(yī)藥、新聞、評論等 4 個領域,包括了訓練樣本數(shù)量小于 5000 的低資源任務(Hyperpartisan News, ACL-ARC, SciERC, Chemprot)和訓練樣本數(shù)量大于 20000 的高資源任務(IMDB, AGNews, Helpfulness, RCT),覆蓋了話題分類,情感分類,實體關系抽取等任務類型。從實驗結果可以看出,和對應預訓練 - 微調基準相比,TLM 實現(xiàn)了相當甚至更優(yōu)的性能。平均而言,TLM 減少了兩個數(shù)量級規(guī)模的訓練計算量 (Training FLOPs) 以及訓練語料的規(guī)模。

無需大規(guī)模預訓練,清華提出高效NLP學習框架TLM

任務驅動的語言建模(TLM) vs 預訓練語言模型(PLMs)

無需大規(guī)模預訓練,清華提出高效NLP學習框架TLM

表格 1 直接對比了 TLM 和 PLM。整體來說,PLM 以極高的成本學習盡可能多的任務無關的知識,而 TLM 以非常低的成本針對每個任務學習相關知識。對比 TLM 和 PLM 有如下幾個方面特點。

1.推動 NLP 研究公平化和民主化(Democratization)

預訓練本身嚴重依賴大量的計算資源,這一限制使得大多數(shù) NLP 研究者專項對微調算法的研究。然而微調性能上限很大程度上受預訓練模型性能的約束。而 TLM 使得大多數(shù)研究人員可以以較低的代價和較高的效率,基于最先進的解決方案對模型架構、損失函數(shù)、算法等方面進一步自由探索。

2. 高效性(Efficiency)

TLM 在平均每個任務的 FLOPs 消耗方面顯著優(yōu)于 PLM。當我們有少數(shù)目標任務需要解決的時候(例如研究人員希望對少量幾個數(shù)據(jù)集進行研究),TLM 會是非常高效的;然而當需要一次性解決大量任務時(例如工業(yè)界構建一個 NLP 平臺為多方提供相似的服務),PLM 仍然具有優(yōu)勢。

3. 靈活性(Flexibility)

TLM 是任務驅動的,所以可以給研究人員更大的自由度,從而自定義策略進行標記、序列長度、數(shù)據(jù)表示、超參數(shù)的調整等等,從而達到提高性能和效率的目的。

4. 通用性(Generality)

PLM 學習與任務無關的一般性表示,可用于小樣本和零樣本學習,而 TLM 通過學習任務相關的表示一定程度犧牲通用型換取效率。從這個意義上,TLM 需要在通用型方面進一步提升。此外也可以 PLM 和 TLM 結合從而在通用性和效率之間實現(xiàn)更好的權衡。

深入觀察 TLM:讓更多參數(shù)為下游任務服務

無需大規(guī)模預訓練,清華提出高效NLP學習框架TLM

為了深入了解 TLM 的工作機制,研究人員對模型每個注意力頭所輸出的注意力分數(shù)進行了可視化??梢杂^察到,TLM 的注意力模式中包含了更多的「對角線」模式(圖 3 紅框),也即大多 token 都將注意力分數(shù)集中賦予了其鄰近 token,這種模式已在前人的工作 [1] 中被證明對模型的最終預測有著重要貢獻。而預訓練模型(BERT, RoBERTa)中則包含了大量「垂直」模式的注意力頭(圖 3 灰色區(qū)域),也即大多 token 都將注意力分數(shù)集中賦予了 [CLS],[SEP] 或者句號這種毫無語義或者句法信息的詞匯上。這一現(xiàn)象表明 TLM 中參數(shù)利用率要顯著高于預訓練語言模型,TLM 或許針對下游任務學習到了更加富有語義信息的表示。

總結

TLM 的提出讓 NLP 研究跳脫出預訓練微調范式成為了可能,這使得 NLP 研究者們可以更為自由地探索新興的模型結構與訓練框架,而不拘泥于大規(guī)模預訓練模型。在未來,更多有趣的研究可以在 TLM 的基礎上展開,例如:如何經(jīng)濟地達到更大規(guī)模預訓練模型的表現(xiàn)效果;如何提升 TLM 的通用性與可遷移性;可否利用 TLM 進行小樣本或零樣本學習等等。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-11-26 10:18:37

AI 數(shù)據(jù)機器學習

2020-11-18 10:29:07

模型人工智能開源

2023-11-27 13:51:00

模型訓練

2025-02-10 08:40:00

訓練數(shù)據(jù)模型

2024-01-30 07:56:57

2024-10-15 09:29:36

2023-03-05 15:51:54

AIGCChatGPT

2020-08-10 15:25:00

人工智能機器學習技術

2023-05-26 08:39:44

深度學習Alluxio

2017-11-06 10:15:36

機器學習框架Tensorflow

2021-09-09 09:29:03

AI 數(shù)據(jù)模型

2025-04-11 09:35:34

2021-07-22 15:25:14

開源技術 框架

2016-12-09 10:11:40

機器學習算法庫Fregata

2024-06-17 00:00:00

MiCo模態(tài)人腦

2020-11-16 08:54:05

Google 開源技術

2023-10-26 01:26:04

Vaex數(shù)據(jù)數(shù)據(jù)集

2017-09-11 15:19:05

CoCoA機器學習分布式

2025-03-27 09:47:23

訓練模型AI

2022-04-02 15:56:43

神經(jīng)網(wǎng)絡人工智能技術
點贊
收藏

51CTO技術棧公眾號