偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

五年時(shí)間被引用3.8萬(wàn)次,Transformer宇宙發(fā)展成了這樣

人工智能 新聞
關(guān)于 Transformer ,這是一篇很好的學(xué)習(xí)指南,可以幫助你熟悉最流行的 Transformer 模型。

自 2017 年提出至今,Transformer 模型已經(jīng)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等其他領(lǐng)域展現(xiàn)了前所未有的實(shí)力,并引發(fā)了 ChatGPT 這樣的技術(shù)突破,人們也提出了各種各樣基于原始模型的變體。

由于學(xué)界和業(yè)界不斷提出基于 Transformer 注意力機(jī)制的新模型,我們有時(shí)很難對(duì)這一方向進(jìn)行歸納總結(jié)。近日,領(lǐng)英 AI 產(chǎn)品戰(zhàn)略負(fù)責(zé)人 Xavier Amatriain 的一篇綜述性文章或許可以幫助我們解決這一問(wèn)題。

圖片

圖片

在過(guò)去的幾年里,陸續(xù)出現(xiàn)了數(shù)十個(gè)來(lái)自 Transformer 家族模型,所有這些都有有趣且易懂的名字。本文的目標(biāo)是為最流行的 Transformer 模型提供一個(gè)比較全面但簡(jiǎn)單的目錄和分類(lèi),此外本文還介紹了 Transformer 模型中最重要的方面和創(chuàng)新。

論文《Transformer models: an introduction and catalog》:

圖片

論文鏈接:

?https://arxiv.org/abs/2302.07730?

GitHub:https://github.com/xamat/TransformerCatalog

簡(jiǎn)介:什么是 Transformer

Transformer 是一類(lèi)由一些架構(gòu)特征定義的深度學(xué)習(xí)模型。首次出現(xiàn)在谷歌研究人員于 2017 年發(fā)表的著名論文《Attention is All you Need》中(這篇論文在短短 5 年就被引用了 3.8 萬(wàn)余次)以及相關(guān)的博客文章中。Transformer 架構(gòu)是編碼器 - 解碼器模型 [2] 的一個(gè)特定實(shí)例,該模型在 2 - 3 年前開(kāi)始流行起來(lái)。然而,在此之前,注意力只是這些模型使用的機(jī)制之一,這些模型主要基于 LSTM(長(zhǎng)短期記憶)[3] 和其他 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))[4] 變體。Transformers 論文的關(guān)鍵見(jiàn)解是,正如標(biāo)題所暗示的那樣,注意力可以被用作推導(dǎo)輸入和輸出之間依賴(lài)關(guān)系的唯一機(jī)制。討論 Transformer 體系結(jié)構(gòu)的所有細(xì)節(jié)超出了本博客的范圍。為此,本文建議參考上面的原論文或 Transformers 的帖子,內(nèi)容都十分精彩。話(huà)雖如此,本文將簡(jiǎn)要敘述最重要的方面,下面的目錄中也會(huì)提到它們。本文將先從原始論文中的基本架構(gòu)圖開(kāi)始,繼而展開(kāi)敘述相關(guān)內(nèi)容。

編碼器 / 解碼器架構(gòu)

通用編碼器 / 解碼器體系架構(gòu) (參見(jiàn)圖 1) 由兩個(gè)模型組成。編碼器接受輸入并將其編碼為固定長(zhǎng)度的向量。解碼器獲取該向量并將其解碼為輸出序列。編碼器和解碼器聯(lián)合訓(xùn)練以最小化條件對(duì)數(shù)似然。一旦訓(xùn)練,編碼器 / 解碼器可以生成給定輸入序列的輸出,或者可以對(duì)輸入 / 輸出序列進(jìn)行評(píng)分。在最初的 Transformer 架構(gòu)中,編碼器和解碼器都有 6 個(gè)相同的層。在這 6 層中的每一層編碼器都有兩個(gè)子層:一個(gè)多頭注意層和一個(gè)簡(jiǎn)單的前饋網(wǎng)絡(luò)。每個(gè)子層都有一個(gè)殘差連接和一個(gè)層歸一化。編碼器的輸出大小是 512。解碼器添加了第三個(gè)子層,這是編碼器輸出上的另一個(gè)多頭注意層。此外,解碼器中的另一個(gè)多頭層被掩碼。

圖片

圖 1:Transformer 體系架構(gòu)

圖片

圖 2:注意力機(jī)制

注意力

從上面的描述可以清楚地看出,模型體系架構(gòu)唯一的特別元素是多頭注意力,但是,正如上面所描述的,這正是模型的全部力量所在。那么,注意力到底是什么?注意力函數(shù)是查詢(xún)和一組鍵值對(duì)到輸出之間的映射。輸出是按值的加權(quán)和計(jì)算的,其中分配給每個(gè)值的權(quán)重是通過(guò)查詢(xún)與相應(yīng)鍵的兼容性函數(shù)計(jì)算的。Transformers 使用多頭注意力,這是一個(gè)被稱(chēng)為縮放點(diǎn)積注意力的特定注意力函數(shù)的并行計(jì)算。關(guān)于注意力機(jī)制如何工作的更多細(xì)節(jié),本文將再次參考《The Illustrated Transformer》的帖文,將在圖 2 中再現(xiàn)原始論文中的圖表,以便了解主要思想。與循環(huán)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)相比,注意力層有幾個(gè)優(yōu)勢(shì),最重要的兩個(gè)是它們較低的計(jì)算復(fù)雜性和較高的連通性,特別是對(duì)于學(xué)習(xí)序列中的長(zhǎng)期依賴(lài)關(guān)系非常有用。

Transformer 的用途是什么,為什么它們?nèi)绱耸軞g迎

最初的 Transformer 是為語(yǔ)言翻譯而設(shè)計(jì)的,特別是從英語(yǔ)到德語(yǔ)。但是,通過(guò)原先的研究論文就可以看出,該架構(gòu)可以很好地推廣到其他語(yǔ)言任務(wù)。這一特別的趨勢(shì)很快就引起了研究界的注意。在接下來(lái)的幾個(gè)月里,大多數(shù)與語(yǔ)言相關(guān)的 ML 任務(wù)排行榜完全被某個(gè)版本的 Transformer 架構(gòu)所主導(dǎo)(比方說(shuō),著名的 SQUAD 排行榜,其中所有位于頂部的模型都是 Transformer 的集合)。Transformer 能夠如此迅速地占據(jù)大多數(shù) NLP 排行榜的關(guān)鍵原因之一是它們能夠快速適應(yīng)其他任務(wù),也就是遷移學(xué)習(xí)。預(yù)訓(xùn)練的 Transformer 模型可以非常容易和快速地適應(yīng)它們沒(méi)有經(jīng)過(guò)訓(xùn)練的任務(wù),這具有巨大的優(yōu)勢(shì)。作為 ML 從業(yè)者,你不再需要在龐大的數(shù)據(jù)集上訓(xùn)練大型模型。你所需要做的就是在你的任務(wù)中重新使用預(yù)訓(xùn)練的模型,也許只是用一個(gè)小得多的數(shù)據(jù)集稍微調(diào)整它。一種用于使預(yù)訓(xùn)練的模型適應(yīng)不同任務(wù)的特定技術(shù)被稱(chēng)為微調(diào)。

事實(shí)證明,Transformer 適應(yīng)其他任務(wù)的能力是如此之強(qiáng),以至于盡管它們最初是為與語(yǔ)言相關(guān)的任務(wù)而開(kāi)發(fā)的,但它們很快就被用于其他任務(wù),從視覺(jué)或音頻和音樂(lè)應(yīng)用程序,一直到下棋或做數(shù)學(xué)。

當(dāng)然,如果不是因?yàn)橛袩o(wú)數(shù)的工具,任何人都可以輕松地編寫(xiě)幾行代碼,那么所有這些應(yīng)用程序都不可能實(shí)現(xiàn)。Transformer 不僅能被迅速整合到主要的人工智能框架(即 Pytorch8 和 TF9)中,甚至基于此創(chuàng)建起整個(gè)公司。Huggingface 是一家迄今為止已經(jīng)籌集了 6000 多萬(wàn)美元的初創(chuàng)公司,幾乎完全是圍繞著將開(kāi)源 Transformer 庫(kù)商業(yè)化的想法建立的。

最后,有必要談?wù)?Transformer 普及初期 GPT-3 對(duì)其的影響。GPT-3 是 OpenAI 在 2020 年 5 月推出的 Transformer 模型,是他們?cè)缙?GPT 和 GPT-2 的后續(xù)產(chǎn)品。該公司通過(guò)在預(yù)印本中介紹該模型而引起了很大的轟動(dòng),他們聲稱(chēng)該模型非常強(qiáng)大,以至于他們無(wú)法向世界發(fā)布它。從那以后,該模型不僅發(fā)布了,而且還通過(guò) OpenAI 和微軟之間的大規(guī)模合作實(shí)現(xiàn)了商業(yè)化。GPT-3 支持 300 多個(gè)不同的應(yīng)用程序,是 OpenAI 商業(yè)戰(zhàn)略的基礎(chǔ) (對(duì)于一家已經(jīng)獲得超過(guò) 10 億美元融資的公司來(lái)說(shuō),這是很有意義的)。

RLHF

最近,從人類(lèi)反饋(或偏好)中強(qiáng)化學(xué)習(xí)(RLHF(也稱(chēng)作 RLHP)已成為人工智能工具包的一個(gè)巨大補(bǔ)充。這個(gè)概念已經(jīng)在 2017 年的論文《Deep reinforcement learning from human preferences》中提出。最近,它被應(yīng)用于 ChatGPT 和類(lèi)似的對(duì)話(huà)智能體,如 BlenderBot 或 Sparrow。這個(gè)想法很簡(jiǎn)單:一旦語(yǔ)言模型被預(yù)先訓(xùn)練,用戶(hù)就可以對(duì)對(duì)話(huà)生成不同的響應(yīng),并讓人類(lèi)對(duì)結(jié)果進(jìn)行排序。人們可以在強(qiáng)化學(xué)習(xí)環(huán)境中使用這些排名(也就是偏好或反饋)來(lái)訓(xùn)練獎(jiǎng)勵(lì)(見(jiàn)圖 3)。

擴(kuò)散

擴(kuò)散模型已經(jīng)成為圖像生成中的新 SOTA,顯然將之前的方法如 GANs(生成對(duì)抗網(wǎng)絡(luò))推到了一邊。什么是擴(kuò)散模型?它們是一類(lèi)經(jīng)過(guò)變分推理訓(xùn)練的潛變量模型。以這種方式訓(xùn)練的網(wǎng)絡(luò)實(shí)際上是在學(xué)習(xí)這些圖像所代表的潛在空間(參見(jiàn)圖 4)。 

擴(kuò)散模型與其他生成模型有關(guān)系,如著名的 [生成對(duì)抗網(wǎng)絡(luò) (GAN)] 16,它們?cè)谠S多應(yīng)用中已經(jīng)被取代,特別是與(去噪)自動(dòng)編碼器。有些作者甚至說(shuō)擴(kuò)散模型只是自編碼器的一個(gè)具體實(shí)例。然而,他們也承認(rèn),微小的差異確實(shí)改變了他們的應(yīng)用,從 autoconder 的潛在表示到擴(kuò)散模型的純粹生成性質(zhì)。

圖片

圖 3:帶有人類(lèi)反饋的強(qiáng)化學(xué)習(xí)。

圖片

圖 4:概率擴(kuò)散模型架構(gòu)摘自《Diffusion Models: A Comprehensive Survey of Methods and Applications》

本文介紹的模型包括:

圖片

圖片

圖片 

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2017-11-07 09:27:16

程序員100萬(wàn)職業(yè)規(guī)劃

2013-05-21 10:19:22

2025-04-17 08:09:22

開(kāi)源項(xiàng)目Member

2020-05-22 13:27:49

5G網(wǎng)絡(luò)張?jiān)朴?/a>運(yùn)營(yíng)商

2012-06-28 09:32:15

Windows RTMetro

2020-09-28 17:36:12

榮聯(lián)科技集團(tuán)

2013-09-29 09:43:40

戴爾CEO私有化

2015-08-12 13:20:48

2g

2024-02-21 11:41:18

2013-08-06 09:55:22

Windows PhoWindows Pho

2016-02-29 11:35:28

阿里云消息隊(duì)列

2020-12-20 11:21:16

微軟密碼管理安全風(fēng)險(xiǎn)

2020-12-08 09:18:14

6G通信技術(shù)華為

2017-02-17 11:40:35

服務(wù)器OS

2014-07-07 11:08:37

監(jiān)聽(tīng)NSA斯諾登

2019-07-29 07:41:56

程序員技能開(kāi)發(fā)者

2013-10-17 15:47:40

社交

2025-06-13 15:59:48

AI谷歌論文

2017-10-23 09:31:10

CTOLinkedIn銷(xiāo)售額

2022-04-02 19:18:12

漏洞黑客
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)