偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

能勝任統(tǒng)計學(xué)家？Transformers超強學(xué)習(xí)機制「自動算法選擇」

作者：機器之心 2023-07-18 15:02:50

人工智能新聞

Salesforce AI Research、北京大學(xué)和 UC 伯克利合作的最新論文，發(fā)現(xiàn) Transformer 模型在上下文中學(xué)習(xí)（in-context learning）的新機制：「自動算法選擇」，類似統(tǒng)計與機器學(xué)習(xí)專家能夠現(xiàn)實完成的工作。

ChatGPT 等基于 Transformer 的大語言模型具備極強的在上下文中學(xué)習(xí)（In-Context Learning，ICL）的能力：輸入少量示例樣本，即能夠正確回答同類問題。如何理解這種 ICL 能力？

本文作者實驗發(fā)現(xiàn)并證明一種 ICL 的新機制：自動算法選擇，可以允許單一 Transformer 模型在不同輸入數(shù)據(jù)上選擇執(zhí)行完全不同的，適合該數(shù)據(jù)的學(xué)習(xí)算法，類似統(tǒng)計與機器學(xué)習(xí)專家能夠現(xiàn)實完成的工作。基于量化的 Transformer 構(gòu)造，文章一并給出 Transformer 實現(xiàn) ICL 的一套全面的統(tǒng)計理論，包含近似精度，預(yù)測表現(xiàn)，以及預(yù)訓(xùn)練的樣本復(fù)雜度。

圖片

論文地址：https://arxiv.org/abs/2306.04637

Transformer 能在 ICL 中完成機器學(xué)習(xí)任務(wù)

ChatGPT 等基于 Transformer 的大模型可以根據(jù)輸入的文本，自上下文中學(xué)習(xí)。如何系統(tǒng)地理解這種能力？NeurIPS 2022 的一篇論文（Garg et al. 2022）考察了 Transformer 從上下文中進行機器學(xué)習(xí)任務(wù)的能力。

將 N 個訓(xùn)練樣本與 1 個測試樣本 (x_1, y_1, …, x_N, y_N, x_{N+1}) 作為一個序列輸入 Transformer，要求 Transformer 輸出 y_{N+1}。這些樣本來自簡單的統(tǒng)計模型，例如線性模型，但每個序列由不同的模型參數(shù)（w_\star）生成。Transformer 如果想總是正確地預(yù)測 y_{N+1}，那么就需要從訓(xùn)練樣本中學(xué)習(xí)真正的參數(shù) w_\star，并利用其進行預(yù)測。

Garg et al. 發(fā)現(xiàn)，訓(xùn)練好的 Transformer 總是能夠精準地預(yù)測 y_{N+1}，并且預(yù)測表現(xiàn)能夠媲美該數(shù)據(jù)上的最優(yōu)算法。例如線性模型上，Transformer 的預(yù)測效果可以媲美最小二乘法（Least Squares），稀疏線性模型上媲美 Lasso，決策樹上能超過 Gradient Boosting。

圖片

Figure 1: Transformer 能在 ICL 中完成機器學(xué)習(xí)任務(wù) (Garg et al. 2022)

Transformer 雖然在各個任務(wù)中實現(xiàn)最優(yōu)算法，然而這些算法都只是標準的機器學(xué)習(xí)算法，遠不能完全解釋 ChatGPT 等大模型強大的 ICL 能力。還存在更強的機制嗎？

自動算法選擇

現(xiàn)實生活中，統(tǒng)計學(xué)家與機器學(xué)習(xí)專家會如何分析數(shù)據(jù)？給定一個數(shù)據(jù)集，統(tǒng)計學(xué)家會先確定數(shù)據(jù)的結(jié)構(gòu)，規(guī)模等，然后根據(jù)數(shù)據(jù)的特點選擇最適合的算法。如果不確定哪個算法合適，則會同時嘗試多個算法，然后利用驗證集（validation split）或交叉驗證（cross-validation）等選擇表現(xiàn)最好的算法。

本文作者發(fā)現(xiàn)，Transformer 也能夠進行類似的自動算法選擇。自動算法選擇允許一個單獨的 Transformer 模型，在不同的 ICL 問題上選擇不同的算法，類似統(tǒng)計學(xué)家可以現(xiàn)實完成的工作。

作者給出兩種一般的算法選擇機制，從理論上證明 Transformer 模型可以實現(xiàn)這兩個機制，并且實驗上驗證了 Transformer 能夠近似實現(xiàn)這兩種機制，達到了比單一機器學(xué)習(xí)算法更強的效果。

機制 1：用驗證集做算法選擇

在這一機制中，Transformer 先將輸入數(shù)據(jù)分為訓(xùn)練集和驗證集。接下來在訓(xùn)練集上同時執(zhí)行 K 個算法，然后在驗證集上測試 K 個算法的表現(xiàn)，最終用表現(xiàn)最好的算法 k_star 給出預(yù)測。

Figure 2: 用驗證集做算法選擇（右）及實例（左）。

應(yīng)用這一機制，Transformer 可以完成一大類算法選擇。如下圖當中，通過恰當?shù)念A(yù)訓(xùn)練，Transformer 可同時實現(xiàn)在兩個帶不同正則化的 ridge regression 算法，并對具體數(shù)據(jù)分布實現(xiàn)較優(yōu)的那個算法。進一步，對這一任務(wù)，我們在理論上也能夠證明 Transformer 能夠近似整個任務(wù)的 Bayes 最優(yōu)表現(xiàn)。

Figure 3: 單一 Transformer 可以在兩個帶不同噪音的線性模型中同時接近最優(yōu)。在每個模型中，Transformer 的預(yù)測都接近該模型上 Bayes 最優(yōu)算法（帶不同正則化的 ridge regression）。

機制 2：提前對數(shù)據(jù)分布進行檢驗

在這一機制中，Transformer 通過提前檢驗數(shù)據(jù)分布（如計算一些統(tǒng)計量），來決定恰當?shù)乃惴?。例如在下圖當中，單一的 Transformer 可以在回歸問題上實現(xiàn)回歸算法（如線性回歸），在分類問題上實現(xiàn)分類算法（如 Logistic Regression）。

Figure 4: 提前對數(shù)據(jù)分布進行檢驗（右）及實例（左）。

Figure 5: 單一 Transformer 可以同時在回歸問題和分類問題上接近最優(yōu)表現(xiàn)：在回歸問題上表現(xiàn)接近最小二乘法，在分類問題上接近 Logistic Regression。

理論框架

除了自動算法選擇，本文的另一大貢獻是給出了 Transformer 進行 ICL 的一套完整的統(tǒng)計學(xué)習(xí)理論，涵蓋

Transformer 如何實現(xiàn)各種機器學(xué)習(xí)算法的具體構(gòu)造，如最小二乘法，Lasso，ridge regression，解廣義線性模型的凸優(yōu)化算法，神經(jīng)網(wǎng)絡(luò)上的梯度下降法等；
對上述 Transformer 大?。▽訑?shù)、attention head 個數(shù)、權(quán)重矩陣的范數(shù)）的精確界；
上述 Transformer 在標準統(tǒng)計假設(shè)下，在 ICL 中的預(yù)測表現(xiàn)；
Transformer 實現(xiàn)自動算法選擇時類似的保證；
通過預(yù)訓(xùn)練 Transformer 達到上述效果的樣本復(fù)雜度。

這套理論給出了 Transformer 進行 ICL 的一整套分析框架。作者相信這一框架可以推廣到一大類相關(guān)問題當中，給出類似的理論保證。

結(jié)語

本文從理論和實驗上發(fā)現(xiàn) Transformer 模型在 ICL 中能夠進行自動算法選擇，并給出了一整套進行 ICL 的理論框架。

基于本文的結(jié)論還有很大的探索空間，例如其它進行 ICL 或自動算法選擇的機制；在 ICL 中逼近 Bayes 最優(yōu)表現(xiàn)的其它機制；預(yù)訓(xùn)練的 Transformer 如何實現(xiàn)算法選擇的內(nèi)部機理；對其它 ICL 任務(wù)的分析。作者相信，對這些問題的進一步探索，能對大模型有更多有趣的發(fā)現(xiàn)。

作者簡介

本文作者 Yu Bai 現(xiàn)任 Salesforce Research 資深研究科學(xué)家。Fan Chen 本科畢業(yè)于北京大學(xué)，即將博士入學(xué)麻省理工大學(xué)。Huan Wang、Caiming Xiong 分別現(xiàn)任 Salesforce Research 研究主管及副總裁。Song Mei 現(xiàn)任加州大學(xué)伯克利統(tǒng)計系助理教授。

責任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="2frdw"></ruby>