偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

能勝任統(tǒng)計學(xué)家?Transformers超強學(xué)習(xí)機制「自動算法選擇」

人工智能 新聞
Salesforce AI Research、北京大學(xué)和 UC 伯克利合作的最新論文,發(fā)現(xiàn) Transformer 模型在上下文中學(xué)習(xí)(in-context learning)的新機制:「自動算法選擇」,類似統(tǒng)計與機器學(xué)習(xí)專家能夠現(xiàn)實完成的工作。

ChatGPT 等基于 Transformer 的大語言模型具備極強的在上下文中學(xué)習(xí)(In-Context Learning,ICL)的能力:輸入少量示例樣本,即能夠正確回答同類問題。如何理解這種 ICL 能力?

本文作者實驗發(fā)現(xiàn)并證明一種 ICL 的新機制:自動算法選擇,可以允許單一 Transformer 模型在不同輸入數(shù)據(jù)上選擇執(zhí)行完全不同的,適合該數(shù)據(jù)的學(xué)習(xí)算法,類似統(tǒng)計與機器學(xué)習(xí)專家能夠現(xiàn)實完成的工作。基于量化的 Transformer 構(gòu)造,文章一并給出 Transformer 實現(xiàn) ICL 的一套全面的統(tǒng)計理論,包含近似精度,預(yù)測表現(xiàn),以及預(yù)訓(xùn)練的樣本復(fù)雜度。

圖片圖片

論文地址:https://arxiv.org/abs/2306.04637

Transformer 能在 ICL 中完成機器學(xué)習(xí)任務(wù)

ChatGPT 等基于 Transformer 的大模型可以根據(jù)輸入的文本,自上下文中學(xué)習(xí)。如何系統(tǒng)地理解這種能力?NeurIPS 2022 的一篇論文(Garg et al. 2022)考察了 Transformer 從上下文中進行機器學(xué)習(xí)任務(wù)的能力。

將 N 個訓(xùn)練樣本與 1 個測試樣本 (x_1, y_1, …, x_N, y_N, x_{N+1}) 作為一個序列輸入 Transformer,要求 Transformer 輸出 y_{N+1}。這些樣本來自簡單的統(tǒng)計模型,例如線性模型,但每個序列由不同的模型參數(shù)(w_\star)生成。Transformer 如果想總是正確地預(yù)測 y_{N+1},那么就需要從訓(xùn)練樣本中學(xué)習(xí)真正的參數(shù) w_\star,并利用其進行預(yù)測。

Garg et al. 發(fā)現(xiàn),訓(xùn)練好的 Transformer 總是能夠精準地預(yù)測 y_{N+1},并且預(yù)測表現(xiàn)能夠媲美該數(shù)據(jù)上的最優(yōu)算法。例如線性模型上,Transformer 的預(yù)測效果可以媲美最小二乘法(Least Squares),稀疏線性模型上媲美 Lasso,決策樹上能超過 Gradient Boosting。

圖片圖片

Figure 1: Transformer 能在 ICL 中完成機器學(xué)習(xí)任務(wù) (Garg et al. 2022)

Transformer 雖然在各個任務(wù)中實現(xiàn)最優(yōu)算法,然而這些算法都只是標準的機器學(xué)習(xí)算法,遠不能完全解釋 ChatGPT 等大模型強大的 ICL 能力。還存在更強的機制嗎?

自動算法選擇

現(xiàn)實生活中,統(tǒng)計學(xué)家與機器學(xué)習(xí)專家會如何分析數(shù)據(jù)?給定一個數(shù)據(jù)集,統(tǒng)計學(xué)家會先確定數(shù)據(jù)的結(jié)構(gòu),規(guī)模等,然后根據(jù)數(shù)據(jù)的特點選擇最適合的算法。如果不確定哪個算法合適,則會同時嘗試多個算法,然后利用驗證集(validation split)或交叉驗證(cross-validation)等選擇表現(xiàn)最好的算法。

本文作者發(fā)現(xiàn),Transformer 也能夠進行類似的自動算法選擇。自動算法選擇允許一個單獨的 Transformer 模型,在不同的 ICL 問題上選擇不同的算法,類似統(tǒng)計學(xué)家可以現(xiàn)實完成的工作。

作者給出兩種一般的算法選擇機制,從理論上證明 Transformer 模型可以實現(xiàn)這兩個機制,并且實驗上驗證了 Transformer 能夠近似實現(xiàn)這兩種機制,達到了比單一機器學(xué)習(xí)算法更強的效果。

機制 1:用驗證集做算法選擇

在這一機制中,Transformer 先將輸入數(shù)據(jù)分為訓(xùn)練集和驗證集。接下來在訓(xùn)練集上同時執(zhí)行 K 個算法,然后在驗證集上測試 K 個算法的表現(xiàn),最終用表現(xiàn)最好的算法 k_star 給出預(yù)測。

Figure 2: 用驗證集做算法選擇(右)及實例(左)。Figure 2: 用驗證集做算法選擇(右)及實例(左)。

應(yīng)用這一機制,Transformer 可以完成一大類算法選擇。如下圖當中,通過恰當?shù)念A(yù)訓(xùn)練,Transformer 可同時實現(xiàn)在兩個帶不同正則化的 ridge regression 算法,并對具體數(shù)據(jù)分布實現(xiàn)較優(yōu)的那個算法。進一步,對這一任務(wù),我們在理論上也能夠證明 Transformer 能夠近似整個任務(wù)的 Bayes 最優(yōu)表現(xiàn)。

圖片Figure 3: 單一 Transformer 可以在兩個帶不同噪音的線性模型中同時接近最優(yōu)。在每個模型中,Transformer 的預(yù)測都接近該模型上 Bayes 最優(yōu)算法(帶不同正則化的 ridge regression)。

機制 2:提前對數(shù)據(jù)分布進行檢驗

在這一機制中,Transformer 通過提前檢驗數(shù)據(jù)分布(如計算一些統(tǒng)計量),來決定恰當?shù)乃惴?。例如在下圖當中,單一的 Transformer 可以在回歸問題上實現(xiàn)回歸算法(如線性回歸),在分類問題上實現(xiàn)分類算法(如 Logistic Regression)。

Figure 4: 提前對數(shù)據(jù)分布進行檢驗(右)及實例(左)。Figure 4: 提前對數(shù)據(jù)分布進行檢驗(右)及實例(左)。


圖片

Figure 5: 單一 Transformer 可以同時在回歸問題和分類問題上接近最優(yōu)表現(xiàn):在回歸問題上表現(xiàn)接近最小二乘法,在分類問題上接近 Logistic Regression。

理論框架

除了自動算法選擇,本文的另一大貢獻是給出了 Transformer 進行 ICL 的一套完整的統(tǒng)計學(xué)習(xí)理論,涵蓋

  • Transformer 如何實現(xiàn)各種機器學(xué)習(xí)算法的具體構(gòu)造,如最小二乘法,Lasso,ridge regression,解廣義線性模型的凸優(yōu)化算法,神經(jīng)網(wǎng)絡(luò)上的梯度下降法等;
  • 對上述 Transformer 大?。▽訑?shù)、attention head 個數(shù)、權(quán)重矩陣的范數(shù))的精確界;
  • 上述 Transformer 在標準統(tǒng)計假設(shè)下,在 ICL 中的預(yù)測表現(xiàn);
  • Transformer 實現(xiàn)自動算法選擇時類似的保證;
  • 通過預(yù)訓(xùn)練 Transformer 達到上述效果的樣本復(fù)雜度。

這套理論給出了 Transformer 進行 ICL 的一整套分析框架。作者相信這一框架可以推廣到一大類相關(guān)問題當中,給出類似的理論保證。

結(jié)語

本文從理論和實驗上發(fā)現(xiàn) Transformer 模型在 ICL 中能夠進行自動算法選擇,并給出了一整套進行 ICL 的理論框架。

基于本文的結(jié)論還有很大的探索空間,例如其它進行 ICL 或自動算法選擇的機制;在 ICL 中逼近 Bayes 最優(yōu)表現(xiàn)的其它機制;預(yù)訓(xùn)練的 Transformer 如何實現(xiàn)算法選擇的內(nèi)部機理;對其它 ICL 任務(wù)的分析。作者相信,對這些問題的進一步探索,能對大模型有更多有趣的發(fā)現(xiàn)。

作者簡介

本文作者 Yu Bai 現(xiàn)任 Salesforce Research 資深研究科學(xué)家。Fan Chen 本科畢業(yè)于北京大學(xué),即將博士入學(xué)麻省理工大學(xué)。Huan Wang、Caiming Xiong 分別現(xiàn)任 Salesforce Research 研究主管及副總裁。Song Mei 現(xiàn)任 加州大學(xué)伯克利統(tǒng)計系助理教授。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2015-08-28 09:41:24

統(tǒng)計

2017-04-12 09:34:30

數(shù)據(jù)科學(xué)家統(tǒng)計學(xué)家好習(xí)慣

2011-06-14 17:03:03

QML Qt

2019-06-10 06:22:40

編碼數(shù)據(jù)科學(xué)代碼

2014-08-14 08:55:11

2020-08-28 13:49:13

數(shù)據(jù)統(tǒng)計學(xué)面試

2017-04-20 08:51:15

SPSST檢驗F檢驗

2019-04-09 09:00:01

數(shù)據(jù)科學(xué)代碼編寫

2019-07-03 15:21:47

數(shù)據(jù)科學(xué)統(tǒng)計數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)

2016-09-22 16:30:17

ITPythonSQL queries

2024-03-14 13:46:41

深度學(xué)習(xí)人工智能

2019-08-19 09:31:47

數(shù)據(jù)機器學(xué)習(xí)統(tǒng)計學(xué)習(xí)

2011-05-13 14:26:08

程序員

2020-04-24 12:50:50

AI算法機器學(xué)習(xí)

2019-11-26 11:19:40

統(tǒng)計數(shù)據(jù)互聯(lián)網(wǎng)

2023-08-24 17:14:05

統(tǒng)計學(xué)

2020-11-02 17:34:22

數(shù)據(jù)分析人工智能技術(shù)

2010-10-19 15:01:01

2015-08-17 09:43:08

2024-05-30 07:34:42

點贊
收藏

51CTO技術(shù)棧公眾號