偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型物種進化圖轉(zhuǎn)瘋了:8位華人打造,一眼看懂“界門綱目”,原來BERT后代已絕種

人工智能 新聞
與谷歌和Meta“多線布局”不同,OpenAI從GPT-1開始,就堅定其中一條技術(shù)路線,如今成功走在這條路線的最前沿……

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

這幾天,一張名為“大語言模型進化樹”的動圖在學術(shù)圈瘋轉(zhuǎn):

圖片

它清晰梳理了2018到2023五年間所有的大語言模型“代表作”,并將這些模型架構(gòu)分成三大類,進化結(jié)果一目了然:

業(yè)界頗具影響力的谷歌BERT,從一開始就走向了“岔路”,如今在生成AI領(lǐng)域已瀕臨淘汰;

與谷歌和Meta“多線布局”不同,OpenAI從GPT-1開始,就堅定其中一條技術(shù)路線,如今成功走在這條路線的最前沿……

有網(wǎng)友調(diào)侃,在大模型沒有成功之前,大家都只是在參與一場“賭局”:

圖片

還有網(wǎng)友感嘆,兩年后會進化成什么樣子簡直不敢想象。

圖片

我們扒了扒,發(fā)現(xiàn)這張圖原來來自于最近一篇爆火的綜述論文《在實踐中利用大模型的力量》:

圖片

論文不僅詳細闡述了現(xiàn)代大語言模型LLM這5年的發(fā)展歷程,還針對當下大伙兒最焦慮的“如何選用LLM”這一關(guān)鍵問題,給出了詳細解答。

比如在自然語言理解任務(wù)中,微調(diào)模型通常是比LLM更好的選擇,不過LLM可以提供強大的泛化能力;而在知識型密集任務(wù)中,LLM學到了更豐富的現(xiàn)實世界知識,所以比微調(diào)模型更適合。

所有的一切都被濃縮成了一張圖,簡直不要太清晰明了。

圖片

整體來說,論文分為三個部分,對大語言模型是如何發(fā)展的(模型實用指南)、大模型性能究竟受什么影響(數(shù)據(jù)實用指南)、以及什么場景用什么類型的模型(NLP任務(wù)實用指南)這幾個重點分別進行了詳細介紹。

我們逐個來看看。

“BERT派”和“GPT派”二分天下

首先來解讀一下上面的LLM發(fā)展進化史,也就是論文中的《模型實用指南》。

根據(jù)論文,大模型發(fā)展主要可以分為兩類,作者們將它命名為“BERT派”“GPT派”

圖片

其中,“BERT派”的特征是模型中有編碼器架構(gòu),具體分為編解碼器(Encoder-Decoder)和只有編碼器(Encoder-only)兩類架構(gòu);

“GPT派”則主張扔掉編碼器,架構(gòu)中只保留解碼器(Decoder-only)。

最初“BERT派”占據(jù)上風。但以BERT為代表的Encoder-only路線發(fā)展慘淡,相關(guān)研究到2020年就逐漸消失。

隨后,GPT-3的出現(xiàn),徹底轉(zhuǎn)變了大語言模型領(lǐng)域的風向,OpenAI為代表的“GPT派”開始發(fā)展壯大,并成為如今LLM中發(fā)展最順利的一支。

根據(jù)這一想法,作者們將它做成了一張完整的樹狀圖,記錄了這些年大模型各大路線的發(fā)展興衰。

而這張圖也成為了谷歌和OpenAI在大模型這場戰(zhàn)爭的“記錄圖”。

顯然,谷歌在只有解碼器、只有編碼器和編解碼器三個方向都有不少布局,然而如今,大模型依舊是“一條路走到頭”、只搞Decoder-Only的OpenAI占據(jù)上風:

圖片

△圖中有個bug,ALBERT是谷歌開發(fā)的

然而與此相對,我們也能發(fā)現(xiàn),大模型整體呈現(xiàn)出“越來越封閉”的狀態(tài),而這很大程度上要歸功于“Open”AI的表現(xiàn)。

不過在這些大廠里,Meta開源還是做得不錯的,只有幾十人的HuggingFace也成了重要力量:

圖片

當然,這并不意味著“BERT派”已經(jīng)整體落于下風,畢竟編解碼器這個分支發(fā)展得也還不錯,包括清華GLM和谷歌T5都是這個領(lǐng)域的代表開源模型。

未來這幾大LLM路線的發(fā)展速度是否會發(fā)生變化,還是一個未知數(shù)。

圖片

那么,影響大模型性能的關(guān)鍵因素究竟是什么呢?

如何判斷LLM性能好壞?

論文認為,影響LLM性能的關(guān)鍵因素依舊是數(shù)據(jù)

什么樣的數(shù)據(jù)?

根據(jù)LLM不同階段,數(shù)據(jù)類型也主要分為三種,包括預訓練數(shù)據(jù)、微調(diào)數(shù)據(jù)和測試/用戶數(shù)據(jù)。

數(shù)據(jù)類型不同,對模型的影響作用也并不一樣,甚至能直接決定大模型的最佳適用范圍,論文在《數(shù)據(jù)實用指南》有具體闡述。

首先是預訓練數(shù)據(jù)。它相當于大語言模型的“基底”,既決定了LLM的“語言功底”,又會極大影響LLM在下游任務(wù)的表現(xiàn)。

一方面是LLM的“語言功底”,指大語言模型對單詞的知識、語法、句法和語義的理解能力,以及上下文和生成連續(xù)文本的能力。

為了鍛煉LLM這部分能力,數(shù)據(jù)需要全面展現(xiàn)人類知識、語言和文化。

另一方面是LLM在下游任務(wù)的表現(xiàn),這部分對于如何選擇LLM應(yīng)用思路起著至關(guān)重要的作用。

為了鍛煉LLM這部分能力,需要考慮預訓練數(shù)據(jù)的多樣性,尤其是完成特定下游任務(wù)需要的“特定”數(shù)據(jù),例如用社交媒體數(shù)據(jù)訓練出的LLM問答能力、用代碼數(shù)據(jù)訓練出的LLM邏輯和代碼填充能力等。

其次是微調(diào)數(shù)據(jù)。這部分數(shù)據(jù)往往被用于“調(diào)試”特定任務(wù)性能,具體又分為零標注數(shù)據(jù)、少量標注數(shù)據(jù)和大量標注數(shù)據(jù)。

其中,零標注數(shù)據(jù)通常被用于零次學習(Zero-Shot Learning)中,即希望大模型能完成之前沒見過的任務(wù),具備更強的“推理能力”;

少量標注數(shù)據(jù)主要用于引導大模型出現(xiàn)推理能力的同時,更好地提升某些少樣本任務(wù)的性能,類似方法有元學習和遷移學習等;

大量標注數(shù)據(jù)則用于提升特定任務(wù)性能,當然這種情況下,微調(diào)模型和LLM都可以考慮使用它。

最后是測試/用戶數(shù)據(jù)。這部分數(shù)據(jù)用于縮小模型訓練效果和用戶需求之間的差距,典型方法包括RLHF,即人類反饋強化學習,能顯著增強LLM的泛化能力。

了解了三類數(shù)據(jù)對模型的不同影響,如何在實際任務(wù)中,選擇對應(yīng)的模型呢?

LLM還是微調(diào)模型?六大具體情況分析

接下來是本文重點部分:《NLP任務(wù)實用指南》。

在實際下游任務(wù)中,選擇直接用只經(jīng)過預訓練的大模型LLM,還是用在此基礎(chǔ)上經(jīng)過特定數(shù)據(jù)集微調(diào)后的較小模型?

具體情況具體分析。

首先來看傳統(tǒng)自然語言理解(NLU)任務(wù),包括文本分類、用于知識圖構(gòu)建的命名實體識別(NER),以及自然語言推理entailment prediction等。

先上結(jié)論:

在這類任務(wù)中,微調(diào)模型通常是比LLM更好的選擇,不過LLM可以提供強大的泛化能力。

具體而言,在大多數(shù)自然語言理解任務(wù)中,如果這些任務(wù)帶有豐富的、注釋良好的數(shù)據(jù),并且在測試集上包含很少的分布外示例,那么微調(diào)模型性能更好。

不過對于不同的任務(wù)和數(shù)據(jù)集,兩者的差距還不完全一樣。

比如在文本分類中,LLM大多只是略遜于微調(diào)模型;而在情緒分析上,LLM和微調(diào)模型表現(xiàn)一樣好;毒性檢測上,則所有LLM都很差。

作者認為,這種結(jié)果一是跟LLM的指令或prompt設(shè)計有關(guān),二是微調(diào)模型的能力上限確實還很高。

當然,也有LLM擅長的,一個是雜項文本分類,需要處理各種沒有明確關(guān)聯(lián)的內(nèi)容,更接近真實世界;另一個是對抗性自然語言推理(ANLI)。LLM對這種具有分布外和注釋稀疏的數(shù)據(jù)有良好的泛化能力,微調(diào)模型不行。

圖片

其次是生成任務(wù),包括兩種:

第一種側(cè)重于對輸入文本進行加工轉(zhuǎn)換,比如寫摘要和機器翻譯;第二種是開放式生成類,根據(jù)用戶需求從頭生成文本,比如寫故事、寫代碼等。

這類任務(wù)要求模型理解能力好,以及有創(chuàng)造性,LLM絕大多數(shù)情況都表現(xiàn)更好。

具體而言,對于寫摘要來說,盡管機器評估結(jié)果顯示LLM并沒有比微調(diào)更有優(yōu)勢,但在人類評估上它贏了。

在機器翻譯上,盡管LLM平均性能略低于一些商業(yè)翻譯工具,但它尤其擅長將一些預訓練可能都沒見過的小語種翻譯成英語,比如羅馬尼亞語、羅曼什語、加利西亞語等等。

而開放式生成中,目前我們見到的很多作品都是基于沒有經(jīng)過微調(diào)的LLM生成的,比如GPT-4,其實力可見一斑,不用多說。

第三是知識密集型任務(wù),這類任務(wù)強烈依賴背景知識、特定領(lǐng)域?qū)I(yè)知識或現(xiàn)實世界常識等,要解決它們早已超出簡單的模式識別或語法分析的范疇。

同樣,先說結(jié)論:

(1)LLM因具有豐富的現(xiàn)實世界知識所以更擅長知識密集型任務(wù)。
(2)當需求與其所學知識不匹配時,或者面臨只需要上下文知識的任務(wù)時,LLM會遇到困難。在這種情況下,微調(diào)模型可以頂上。

具體而言,在一般的知識密集型任務(wù)中,LLM在幾乎所有數(shù)據(jù)集上都表現(xiàn)更好,這是數(shù)十億的訓練token和參數(shù)給它帶來的。

比如在谷歌提出的大模型新基準Big bench中的大多數(shù)任務(wù)中,它的性能優(yōu)于人類的平均水平,某些情況下,甚至可以與人類的最佳性能相媲美,比如提供有關(guān)印度教神話的事實、從元素周期表中預測元素名稱等。

不過,Big bench其中一些任務(wù)比如要求模型說出ASCII藝術(shù)表示的數(shù)字,或者是重新定義了一個公共符號,要求模型在原始含義和從定義中派生的含義之間進行選擇時,LLM表現(xiàn)不如微調(diào)模型,甚至比隨機猜測還要差。

圖片

這是因為這類任務(wù)需要的知識與現(xiàn)實世界無關(guān)。

需要注意的是,如果“閉卷任務(wù)變成開卷”,給模型賦予檢索增強的能力,尺寸更小的微調(diào)模型的表現(xiàn)會比LLM更好。

在以上三類任務(wù)之外,作者還詳細分析了LLM擴展(Scaling)方面的知識,以及我們在上面提及任務(wù)之外的其他任務(wù)和現(xiàn)實世界真實任務(wù)上的選擇。

這里就不一一展開了,奉上結(jié)論。

LLM擴展:

當模型規(guī)模呈指數(shù)級增長時,LLM將變得特別擅長算術(shù)推理和常識推理;
不過在許多情況下,由于人類理解還有限,擴大規(guī)模后的LLM性能并不會隨之穩(wěn)步提升。

其他未歸類的雜項任務(wù):

在與LLM的預訓練目標和數(shù)據(jù)相去甚遠的任務(wù)中,微調(diào)模型或特定模型仍有空間;
LLM在模仿人類、數(shù)據(jù)評注和生成方面非常出色,也可以用于NLP任務(wù)中的質(zhì)量評估,并具有可解釋性的優(yōu)點。

現(xiàn)實任務(wù):

這類任務(wù)面臨的挑戰(zhàn)包括嘈雜/非結(jié)構(gòu)化的輸入、用戶的請求可能包含多個隱含意圖等。

與微調(diào)模型相比,LLM更適合處理這些場景。然而,在現(xiàn)實世界中評估模型的有效性仍然是一個懸而未決的問題。

最后,還有一些總體準則:

如果對成本敏感或有嚴格的延遲要求,考慮輕型的微調(diào)模型,而不是LLM;
LLM的零樣本方法無法從特定任務(wù)數(shù)據(jù)集進行shortcut learning,但微調(diào)模型可以;
高度重視與LLM相關(guān)的安全問題,因為LLM會產(chǎn)生潛在有害或偏見輸出。

Over。

看完上面這些,是不是覺得條條框框有些不好記?

別急,如開頭所述,作者已經(jīng)將它們?nèi)繚饪s成了一張思維導圖,照著它來分析就好了!(手動狗頭)

圖片

8位華人作者

本文作者一共8位,全部是華人,分別來自亞馬遜、得克薩斯農(nóng)工大學和萊斯大學,其中5人是共同一作。

共同一作楊靖鋒(Jingfeng Yang),目前是亞馬遜應(yīng)用研究科學家,本科畢業(yè)于北大,碩士畢業(yè)于佐治亞理工學院,研究方向是NLP和機器學習。

此前,他還寫過一篇關(guān)于GPT-3和GPT-3.5的復現(xiàn)和使用指南,詳細解讀了為什么關(guān)于GPT-3的復現(xiàn)大部分會失敗、以及使用GPT-3.5和ChatGPT的最佳方式。

共同一作靳弘業(yè)(Hongye Jin),目前是得克薩斯農(nóng)工大學在讀博士生,本科畢業(yè)于北京大學,研究方向是機器學習等。

共同一作Ruixiang Tang,萊斯大學計算機科學四年級博士生,本科畢業(yè)于清華大學自動化系,研究方向是可信任AI,包括機器學習的可解釋性、公平性和魯棒性。

共同一作Xiaotian Han,得克薩斯農(nóng)工大學四年級博士生,本科畢業(yè)于山東大學通信工程,于北郵拿到計算機科學碩士學位,研究興趣是數(shù)據(jù)挖掘和機器學習。

共同一作Qizhang Feng,得克薩斯農(nóng)工大學博士生,本科畢業(yè)于華中科技大學,碩士畢業(yè)于杜克大學,研究方向是機器學習。

此外,亞馬遜應(yīng)用研究科學家姜昊茗(Haoming Jiang)、亞馬遜應(yīng)用科學主管Bing Yin和萊斯大學助理教授Xia Hu也參與了這次研究。

論文地址:https://arxiv.org/abs/2304.13712

大模型實用指南(持續(xù)更新中):
https://github.com/Mooler0410/LLMsPracticalGuide

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2015-08-21 13:10:14

APM數(shù)據(jù)

2015-08-19 14:01:14

APM

2023-10-06 13:35:11

AI數(shù)據(jù)

2024-06-11 07:45:00

2020-05-21 12:59:51

邊緣存儲存儲物聯(lián)網(wǎng)

2024-09-18 10:40:00

AI生成

2018-04-26 10:38:34

2025-06-30 08:52:00

2023-06-07 07:21:28

USB接口版本

2020-07-08 13:26:47

Python

2018-01-11 15:15:13

2014-03-14 09:47:08

手游進化產(chǎn)品

2024-10-24 09:50:00

AI機器人

2010-07-23 10:47:52

病毒

2024-04-09 15:16:58

AI論文

2019-06-10 08:04:26

分布式鎖JVM服務(wù)器

2024-07-16 14:52:31

擴展系統(tǒng)負載均衡器

2024-04-23 14:25:16

Python備忘清單

2011-04-02 15:23:51

2010-07-21 12:01:06

點贊
收藏

51CTO技術(shù)棧公眾號