大語言模型的進化樹,這是一份超詳細ChatGPT「食用」指南
而在實際探索的過程中,實踐者可能會苦于尋找適合自己應(yīng)用的 AI 模型:是選擇 LLM 還是微調(diào)模型?如果用 LLM,又該選擇哪一種?
近日,來自亞馬遜、德州農(nóng)工大學(xué)、萊斯大學(xué)等機構(gòu)的學(xué)者對 ChatGPT 等語言模型的發(fā)展歷程進行了一番討論,其文章也得到了 Yann LeCun 的轉(zhuǎn)推。

論文:https://arxiv.org/abs/2304.13712
相關(guān)資源:https://github.com/Mooler0410/LLMsPracticalGuide

本文將從實際應(yīng)用角度出發(fā),探討適用 LLM 的任務(wù)以及在選擇模型時需要考慮的模型、數(shù)據(jù)和任務(wù)等方面實際問題。
1 引言
近年來,發(fā)展迅猛的大型語言模型(LLM)已然引發(fā)了自然語言處理(NLP)領(lǐng)域的革命。這些模型非常強大,有望解決許多不同種類的 NLP 任務(wù) —— 從自然語言理解(NLU)到生成任務(wù),甚至鋪就了通往通用人工智能(AGI)之路。但是,為了有效且高效地利用這些模型,我們需要立足實際地理解它們的能力和局限,還要理解 NLP 所涉及的數(shù)據(jù)和任務(wù)。
這篇論文重點著眼于在下游 NLP 任務(wù)中實際應(yīng)用 LLM 的各個方面,以給實踐者和最終用戶提供指引。本指南的目標是為讀者提供實際有用的建議,以助其了解是否應(yīng)該為給定任務(wù)選用 LLM 以及如何選擇最適用的 LLM—— 這其中需要考慮諸多因素,比如模型大小、計算需求、具體領(lǐng)域是否已有預(yù)訓(xùn)練模型等。本文還會從實際應(yīng)用角度介紹和解釋 LLM,這些實用知識能助力實踐者和最終用戶成功利用 LLM 的力量來解決他們自己的 NLP 任務(wù)。
本文的結(jié)構(gòu)為:本文首先會簡要介紹 LLM,其中主要會討論最重要的 GPT 式和 BERT 式架構(gòu)。然后會深入介紹數(shù)據(jù)方面影響模型性能表現(xiàn)的關(guān)鍵因素,包括預(yù)訓(xùn)練數(shù)據(jù)、訓(xùn)練數(shù)據(jù) / 調(diào)優(yōu)數(shù)據(jù)、測試數(shù)據(jù)。在最后也是最重要的部分,本文會深入各種具體的 NLP 任務(wù),介紹 LLM 是否適用于知識密集型任務(wù)、傳統(tǒng) NLU 任務(wù)和生成任務(wù),此外還會描述這些模型不斷獲得的新能力以及具有挑戰(zhàn)性的現(xiàn)實世界應(yīng)用場景。我們會提供詳細的案例,以彰顯 LLM 在實踐中有用和有局限的地方。
為了分析大型語言模型的能力,本文會將它們與微調(diào)模型(fine-tuned model)進行比較。對于 LLM 和微調(diào)模型的定義,目前而言我們還沒有一個得到廣泛認可的標準。為了實際有效地區(qū)分,本文給出的定義如下:LLM 是指在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練得到的大型語言模型并且沒有針對具體任務(wù)調(diào)整數(shù)據(jù);微調(diào)模型則通常更小一些,它們在經(jīng)過預(yù)訓(xùn)練后還會在更小的具體任務(wù)數(shù)據(jù)集上做進一步微調(diào),以優(yōu)化它們在該任務(wù)上的表現(xiàn)。
本文總結(jié)了在以下方面使用 LLM 的實用指南:
- 自然語言理解。當(dāng)實際數(shù)據(jù)不在訓(xùn)練數(shù)據(jù)的分布范圍內(nèi)或訓(xùn)練數(shù)據(jù)非常少時,可利用 LLM 那出色的泛化能力。
- 自然語言生成。使用 LLM 的能力為各種應(yīng)用創(chuàng)造連貫的、上下文相關(guān)的和高質(zhì)量的文本。
- 知識密集型任務(wù)。利用 LLM 中存儲的廣博知識來處理需要特定專業(yè)知識或一般性世界知識的任務(wù)。
- 推理能力。理解和利用 LLM 的推理能力來提升各種情形中制定決策和解決問題的能力。
2 模型方面的實用指南

圖 1:這幅現(xiàn)代 LLM 的進化樹追溯了近些年語言模型的發(fā)展歷程,其中重點凸顯了某些最知名的模型。同一分支上的模型關(guān)系更近。基于 Transformer 的模型都不用灰色表示:僅解碼器模型是藍色分支,僅編碼器模型是粉色分支,編碼器 - 解碼器模型是綠色分支。模型在時間軸的豎直位置表示其發(fā)布時間。實心方塊表示開源模型,空心方塊則是閉源模型。右下角的堆積條形圖是指各家公司和機構(gòu)的模型數(shù)量。
這一節(jié)會簡要介紹當(dāng)前表現(xiàn)最佳的 LLM。這些模型有著各不相同的訓(xùn)練策略、模型架構(gòu)和用例。為了更清晰地理解 LLM 的整體圖景,我們可將其分為兩大類:編碼器 - 解碼器或僅編碼器(encoder-only)語言模型和僅解碼器(decoder-only)語言模型。圖 1 詳細展示了語言模型的演化過程?;谶@幅進化樹,我們可以觀察到一些有趣的結(jié)論:
a)僅解碼器模型正逐漸成為 LLM 發(fā)展的主導(dǎo)模型。在 LLM 的早期發(fā)展階段,僅解碼器模型的流行程度趕不上僅編碼器和編碼器 - 解碼器模型。但在 2021 年之后,GPT-3 的出現(xiàn)改變了行業(yè)圖景,僅解碼器模型經(jīng)歷了爆發(fā)式的發(fā)展。與此同時,BERT 也為僅編碼器模型帶來了初始的爆發(fā)式增長,但在那之后,僅編碼器模型卻漸漸淡出了視野。
b)OpenAI 持續(xù)保持著其在 LLM 方向上的領(lǐng)先地位,現(xiàn)在如此,未來很可能也是如此。為了開發(fā)可與 GPT-3 和 GPT-4 媲美的模型,其它公司和機構(gòu)正在奮力追趕。OpenAI 的領(lǐng)先地位可能需要歸功于其在技術(shù)上持續(xù)不懈的投入,即便該技術(shù)在早期時并未得到廣泛認可。
c)Meta 在開源 LLM 和推動 LLM 研究方面貢獻卓越。在對開源社區(qū)(尤其是與 LLM 相關(guān)的)的貢獻方面,Meta 尤為突出,是最慷慨的商業(yè)公司之一,因為 Meta 開源了其開發(fā)的所有 LLM。
d)LLM 開發(fā)有閉源的趨勢。在 LLM 發(fā)展的早期階段(2020 年之前),絕大部分模型都是開源的。但是,隨著 GPT-3 的推出,公司越來越傾向于選擇閉源他們的模型,比如 PaLM、LaMDA 和 GPT-4。也因此,學(xué)術(shù)研究者越來越難以進行 LLM 訓(xùn)練實驗。這就導(dǎo)致了一個結(jié)果:基于 API 的研究可能會成為學(xué)術(shù)界的主導(dǎo)方法。
e)編碼器 - 解碼器模型依然有發(fā)展前景,因為公司和機構(gòu)依然在積極探索這類架構(gòu),并且大部分模型都是開源的。谷歌在開源編碼器 - 解碼器方面有重大貢獻。但是,由于僅解碼器模型的靈活性和通用性,谷歌在這個方向上堅持成功的希望似乎更小一些。
表 1 簡要總結(jié)了各種代表性 LLM 的特點。

表 1:大型語言模型的特點
2.1 BERT 式語言模型:編碼器 - 解碼器或僅編碼器
由于自然語言數(shù)據(jù)很容易獲得,并且還能使用無監(jiān)督訓(xùn)練范式來更好地利用超大規(guī)模數(shù)據(jù)集,因此最近一段時間,自然語言無監(jiān)督學(xué)習(xí)的發(fā)展獲得了長足的進步。一種常用方法是基于上下文來預(yù)測句子中被遮掩的詞。這種訓(xùn)練范式被稱為掩碼語言模型(Masked Language Model)。這種訓(xùn)練方式讓模型能更深刻地理解詞與其上下文之間的關(guān)系。這些模型是在大型文本語料上訓(xùn)練的,使用了 Transformer 架構(gòu)等技術(shù),并且在許多 NLP 任務(wù)上達到過最佳表現(xiàn),比如情感分析和命名實體識別。著名的掩碼語言模型有 BERT、RoBERTa 和 T5。由于其在多種任務(wù)上的成功表現(xiàn),掩碼語言模型已經(jīng)成為自然語言處理領(lǐng)域的一種重要工具。
2.2 GPT 式語言模型:僅解碼器
盡管語言模型的架構(gòu)通常與具體任務(wù)無關(guān),但這些方法需要基于具體下游任務(wù)的數(shù)據(jù)集進行微調(diào)。研究者發(fā)現(xiàn)擴增語言模型的規(guī)模就能顯著提升其在少樣本或零樣本時的表現(xiàn)。在提升少樣本和零樣本時的表現(xiàn)方面,最成功的模型是自回歸語言模型,它的訓(xùn)練方式是根據(jù)給定序列中前面的詞來生成下一個詞。這些模型已被廣泛用于文本生成和問答等下游任務(wù)。自回歸語言模型包括 GPT-3、OPT、PaLM 和 BLOOM。變革性的 GPT-3 首次表明通過提示和上下文學(xué)習(xí)能在少 / 零樣本時給出合理結(jié)果,并由此展現(xiàn)了自回歸語言模型的優(yōu)越性。
另外還有針對具體任務(wù)優(yōu)化的模型,比如用于代碼生成的 CodeX 以及用于金融領(lǐng)域的 BloombergGPT。近期的重大突破是 ChatGPT,該模型是針對對話任務(wù)優(yōu)化的 GPT-3,其能為多種現(xiàn)實世界應(yīng)用生成更具交互性、更連貫且更貼合上下文的對話。
3 數(shù)據(jù)方面的實用指南
本節(jié)將介紹在為下游任務(wù)選擇合適模型時數(shù)據(jù)的關(guān)鍵性作用。數(shù)據(jù)對模型有效性的影響從預(yù)訓(xùn)練階段就開始了,并會一直持續(xù)到訓(xùn)練和推理階段。
重點 1
(1)當(dāng)下游任務(wù)會用到分布之外的數(shù)據(jù)時,比如使用對抗樣本或數(shù)據(jù)域變化時,LLM 的泛化能力優(yōu)于微調(diào)模型。
(2)當(dāng)已標注數(shù)據(jù)有限時,LLM 優(yōu)于微調(diào)模型;當(dāng)有豐富的已標注數(shù)據(jù)時,兩者都是合理選擇,這取決于具體的任務(wù)需求。
(3)建議選擇預(yù)訓(xùn)練使用的數(shù)據(jù)域與下游任務(wù)數(shù)據(jù)域相似的模型。
4 NLP 任務(wù)方面的實用指南
本節(jié)將詳細討論 LLM 在多種下游 NLP 任務(wù)上是否有用以及對應(yīng)的模型能力。圖 2 是將所有討論總結(jié)成的一張決策流程圖。當(dāng)面對某個任務(wù)時,可基于該流程進行快速決策。

圖 2:用戶為 NLP 應(yīng)用選擇 LLM 或微調(diào)模型時的決策流程。這張決策流程圖可幫助用戶評估他們手頭的下游 NLP 任務(wù)是否滿足特定條件,并且還能基于評估結(jié)果確定他們的應(yīng)用最適合選擇 LLM 還是微調(diào)模型。在圖中的決策流程中,Y 表示符合條件,N 表示不符合條件。最后一個條件的 Y 旁的黃色圓圈表示目前還沒有很適合這類應(yīng)用的模型。
4.1 傳統(tǒng)的 NLU 任務(wù)
傳統(tǒng) NLU 任務(wù)是 NLP 領(lǐng)域中一些基本任務(wù),包括文本分類、命名實體識別(NER)、蘊含預(yù)測(entailment prediction)等。這些任務(wù)中的許多都可用作更大型 AI 系統(tǒng)的中間步驟,比如將 NER 用于知識圖譜構(gòu)建。
不適用 LLM:對于大多數(shù)自然語言理解任務(wù),比如 GLUE 和 SuperGLUE 中的任務(wù),如果該任務(wù)已有豐富的標注良好的數(shù)據(jù)并且測試集中僅有非常少的數(shù)據(jù)在分布之外,那么微調(diào)模型的表現(xiàn)依然更好。當(dāng)任務(wù)與數(shù)據(jù)集各不相同時,小型微調(diào)模型和 LLM 之間的差距也會不同。
適用 LLM:但是,也有些 NLU 任務(wù)更適合用 LLM 處理。其中兩項代表性任務(wù)是繁雜文本的分類問題和對抗式自然語言推理。
重點 2
對傳統(tǒng)自然語言理解任務(wù)而言,微調(diào)模型通常是比 LLM 更好的選擇,但如果該任務(wù)需要強大的泛化能力,那么 LLM 可提供幫助。
4.2 生成任務(wù)
自然語言生成的目標是創(chuàng)建連貫的、有意義的且符合上下文的符號序列,其大致上包含兩大類任務(wù)。第一類任務(wù)關(guān)注的重心是將輸入文本轉(zhuǎn)換成新的符號序列,例子包括段落摘要和機器翻譯。第二類任務(wù)則是「開放式生成」,目標是從頭開始生成文本或符號,使之準確匹配輸入的描述,比如編寫電子郵件、撰寫新文章、創(chuàng)造虛構(gòu)故事以及寫代碼。
適用 LLM:生成任務(wù)需要模型全面理解輸入的內(nèi)容或需求并且還需要一定程度的創(chuàng)造力。這正是 LLM 擅長的。
不適用 LLM:在大多數(shù)有豐富資源的翻譯任務(wù)和資源很少的翻譯任務(wù)上,微調(diào)模型的表現(xiàn)更佳,比如 DeltaLM+Zcode。對于有豐富資源的機器翻譯,微調(diào)模型稍微優(yōu)于 LLM。對于資源極少的機器翻譯,比如英語 - 哈薩克語翻譯,微調(diào)模型顯著優(yōu)于 LLM。
重點 3
得益于強大的生成能力和創(chuàng)造力,LLM 在大多數(shù)生成任務(wù)上都有優(yōu)勢。
4.3 知識密集型任務(wù)
知識密集型 NLP 任務(wù)是指非常依賴背景知識、特定領(lǐng)域?qū)I(yè)知識或一般性真實世界知識的任務(wù)類別。這些任務(wù)需要的不僅僅是模式識別或句法分析。它們高度依賴記憶和適當(dāng)利用知識,這些知識關(guān)聯(lián)著我們的真實世界的特定實體、事件和常識。
適用 LLM:一般來說,如果有數(shù)以十億計的訓(xùn)練 token 和參數(shù),LLM 所包含的真實世界知識量可遠遠超越微調(diào)模型。
不適用 LLM:某些其它任務(wù)需要的知識不同于 LLM 學(xué)習(xí)到的知識。所需的知識不是 LLM 學(xué)習(xí)到的關(guān)于真實世界的知識。在這樣的任務(wù)中,LLM 沒有明顯優(yōu)勢。
重點 4
(1)得益于龐大的真實世界知識,LLM 擅長處理知識密集型任務(wù)。(2)當(dāng)知識需求與所學(xué)知識不匹配時,LLM 會遇到困難;或者當(dāng)任務(wù)只需要上下文的知識時,微調(diào)模型可以達到與 LLM 同等的表現(xiàn)。
4.4 在擴展規(guī)模方面的能力
擴展 LLM 的規(guī)模(比如參數(shù)、訓(xùn)練計算等)可以極大助力預(yù)訓(xùn)練語言模型。通過擴大模型規(guī)模,模型處理多種任務(wù)的能力通常能得到提升。反映到某些指標上,模型的性能表現(xiàn)與模型規(guī)模呈現(xiàn)冪律關(guān)系。舉個例子,用于度量語言建模性能的交叉熵損失會隨模型規(guī)模的指數(shù)級增長而線性下降,這也被稱為「標度律(scaling-law)」。對于推理等某些關(guān)鍵能力,擴大模型規(guī)模就能逐漸將這些能力從非常低的水平提升到一個可使用的水平,甚至可接近人類水平。本小節(jié)將從規(guī)模對 LLM 的能力和行為的影響方面介紹 LLM 的使用。
推理方面的 LLM 用例:推理涉及到理解信息、進行推論和做出決定,是人類智力的一大核心能力。對 NLP 而言,推理卻極具挑戰(zhàn)性?,F(xiàn)有的許多推理任務(wù)可以分為常識推理和算術(shù)推理兩類。模型增大能極大提升 LLM 的算術(shù)推理能力。常識推理不僅需要 LLM 記住事實性知識,還需要 LLM 執(zhí)行一些有關(guān)事實的推理步驟。常識推理能力會隨模型大小的增長而逐漸提升。相比于微調(diào)模型,LLM 在大多數(shù)數(shù)據(jù)集上都表現(xiàn)更優(yōu)。
涌現(xiàn)能力方面的 LLM 用例:擴增模型規(guī)模還能賦予模型一些超越冪律規(guī)則的前所未有的奇妙能力。這些能力被稱為「涌現(xiàn)能力(emergent ability)」。正如論文《Emergent Abilities of Large Language Models》中定義的那樣:LLM 的涌現(xiàn)能力是指小規(guī)模模型不具備但出現(xiàn)在大規(guī)模模型中的能力。(有關(guān)該論文的更多解讀可參閱《Jeff Dean 等人新作:換個角度審視語言模型,規(guī)模不夠發(fā)現(xiàn)不了》)這意味著我們無法基于小規(guī)模模型的性能提升而推斷預(yù)測出這種能力;而在某些任務(wù)上,模型的規(guī)模一旦超過一定程度,就可能突然獲得優(yōu)異表現(xiàn)。涌現(xiàn)能力通常不可預(yù)測并且出人意料,這可能導(dǎo)致模型有能力處理隨機出現(xiàn)或意料之外的任務(wù)。
不適用 LLM 以及理解涌現(xiàn):盡管大多數(shù)情況下,模型更大,表現(xiàn)也更優(yōu),但也依然存在例外情況。
在某些任務(wù)上,隨著 LLM 規(guī)模的提升,模型表現(xiàn)會開始下降。這也被稱為反標度現(xiàn)象(Inverse Scaling Phenomenon)。此外研究者還觀察到另一個有關(guān)規(guī)模的有趣現(xiàn)象,即 U 形現(xiàn)象(U-shaped Phenomenon)。顧名思義,該現(xiàn)象是指隨著 LLM 模型增大,其在特定任務(wù)上的表現(xiàn)一開始會提升,然后會開始下降,之后又會再次提升。
為了推進該領(lǐng)域的研究,我們必需更深入地理解涌現(xiàn)能力、反標度現(xiàn)象和 U 形現(xiàn)象。
重點 5
(1)隨著模型規(guī)模的指數(shù)級增長,LLM 的算術(shù)推理和常識推理能力也會上升。(2)隨著 LLM 規(guī)模的擴增,涌現(xiàn)能力能機緣巧合地發(fā)現(xiàn)新用途,比如詞處理能力和邏輯能力。(3)模型的能力并不總是會隨規(guī)模提升,而且我們對大型語言模型的能力與規(guī)模的關(guān)系的理解還很有限。
4.5 雜項任務(wù)
為了更好地理解 LLM 的優(yōu)勢和短板,下面會談?wù)勆厦鏇]有涉及到的其它任務(wù)。
不適用 LLM:如果模型目標與訓(xùn)練數(shù)據(jù)有差異,那么 LLM 在這些任務(wù)上通常會遇到困難。
適用 LLM:LLM 尤其適用于某些特定任務(wù)。舉些例子,LLM 非常擅于模仿人類、LLM 還可用于評估摘要和翻譯等某些 NLG 任務(wù)的質(zhì)量、LLM 的某些能力還能帶來性能提升之外的其它好處,如可解釋性。
重點 6
(1)對于遠離 LLM 的預(yù)訓(xùn)練目標和數(shù)據(jù)的任務(wù)而言,微調(diào)模型和特定領(lǐng)域模型仍有一席之地。(2)LLM 擅于模仿人類、數(shù)據(jù)標注和生成。它們也可用于 NLP 任務(wù)的質(zhì)量評估,并且有可解釋性等好處。
4.6 真實世界「任務(wù)」
本小節(jié)最后討論一下 LLM 和微調(diào)模型在真實世界「任務(wù)」上的應(yīng)用。這里所用的「任務(wù)」一詞并不嚴謹,因為不同于學(xué)術(shù)場景,真實世界場景通常缺乏形式優(yōu)良的定義。對模型的很多需求甚至不能被視為 NLP 任務(wù)。模型面臨的真實世界挑戰(zhàn)來自以下三方面:
- 有噪聲的 / 非結(jié)構(gòu)化的輸入。真實世界的輸入來自真實世界的人,他們大都不是專家。他們并不了解如何與模型適當(dāng)交互,甚至都可能無法流暢地使用文本。因此,真實世界的輸入數(shù)據(jù)可能很混亂、帶有拼寫錯誤、口語化文本和多語言混雜,這不同于預(yù)訓(xùn)練或微調(diào)使用的定義格式良好的數(shù)據(jù)。
- 未被學(xué)術(shù)界形式化的任務(wù)。真實世界場景中的任務(wù)通常沒有得到學(xué)術(shù)界的良好定義,并且多樣性也遠遠超出學(xué)術(shù)研究場景的定義。用戶通常提出的查詢或請求并不能很好地歸入預(yù)定義的類別,并且有時單個查詢會包含多項任務(wù)。
- 遵從用戶的指令。用戶的請求可能會包含多個隱含意圖(比如對輸出格式有具體要求),或者如果沒有后續(xù)問題,不清楚用戶期望的預(yù)測結(jié)果。模型需要理解用戶的意圖并提供與這些意圖一致的輸出。
本質(zhì)上講,來自用戶請求的這些真實世界難題是因為偏離了針對特定任務(wù)設(shè)計的任何 NLP 數(shù)據(jù)集的分布。公共 NLP 數(shù)據(jù)集并不能反映這些模型的使用方式。
重點 7
相比于微調(diào)模型,LLM 更適合用于處理真實世界場景。但是,評估模型在真實世界中的有效性依然是一個懸而未決的問題。
5 其它方面
盡管 LLM 適用于多種下游任務(wù),但也有其它一些因素需要考慮,比如效率和可信度。效率方面涉及到的問題包括 LLM 的訓(xùn)練成本、推理延遲度以及高效利用參數(shù)的調(diào)優(yōu)策略。在可信度方面則需要考慮 LLM 的穩(wěn)健性和校準能力、公平和偏見、潛在的錯誤相關(guān)性以及安全性難題。重點 8(1)如果任務(wù)對成本敏感或有嚴格延遲要求,那么應(yīng)該優(yōu)先考慮輕量的本地微調(diào)模型。在部署和交付模型時,可考慮進行調(diào)優(yōu)以高效利用參數(shù)。(2)LLM 的零樣本方法能防止其從具體任務(wù)的數(shù)據(jù)集中學(xué)習(xí)捷徑,而這種情況對微調(diào)模型來說卻很常見。盡管如此,LLM 仍會表現(xiàn)出一定的捷徑學(xué)習(xí)問題。(3)由于 LLM 潛在的有害或有偏見輸出以及幻覺(hallucination)問題可能導(dǎo)致嚴重后果,因此與 LLM 相關(guān)的安全問題應(yīng)得到最大重視。人類反饋等方法有望緩解這些問題。
6 總結(jié)和未來挑戰(zhàn)
這份實用指南提供了有關(guān) LLM 的洞見以及在各種 NLP 任務(wù)上使用 LLM 的最佳實踐方法。希望這能幫助研究者和實踐者利用 LLM 的潛力并推動語言技術(shù)的創(chuàng)新。
當(dāng)然,LLM 也還有一些有待解決的挑戰(zhàn):
- 在真實世界數(shù)據(jù)集上對模型進行評估。盡管現(xiàn)有的深度學(xué)習(xí)模型主要是在 ImageNet 等標準學(xué)術(shù)數(shù)據(jù)集上進行評估,但標準學(xué)術(shù)數(shù)據(jù)集是有局限的,并不能確切反映模型在真實世界中的表現(xiàn)。隨著模型的進步,有必要在反映真實需求的更多樣化、復(fù)雜和真實的數(shù)據(jù)上評估它們。在學(xué)術(shù)數(shù)據(jù)集和真實世界數(shù)據(jù)集上評估模型,能模型得到更嚴格的測試,還能讓我們更好地理解它們在真實世界應(yīng)用中的有效性。這能確保模型有能力解決真實世界難題并交付實際可用的解決方案。
- 模型合準(Model Alignment)。確保日益強大和自動化的模型與人類價值觀和優(yōu)先項保持一致是非常重要的。我們必須想出辦法,確保模型的行為符合預(yù)期,并且不要為我們不想要的結(jié)果而優(yōu)化模型。要從模型開發(fā)過程一開始就整合合準技術(shù),這是很重要的。在評估和確保合準方面,模型透明性和可解釋性也很重要。此外,著眼未來,還有更加艱巨挑戰(zhàn)正在顯現(xiàn):對超人類的系統(tǒng)執(zhí)行合準。盡管目前這一任務(wù)超出了我們的需求,但重點是要考慮到合準這樣先進的系統(tǒng)并為此做準備,因為它們可能會帶來獨特的復(fù)雜性和道德倫理問題。
- 安全性合準(Safety Alignment)。盡管討論 AI 帶來的存在主義風(fēng)險很重要,但我們還是需要切實的研究來確保能安全地開發(fā)先進 AI。這包括用于可解釋性、可擴展監(jiān)督與治理以及模型屬性的形式驗證的技術(shù)。在模型的構(gòu)建過程中,安全不應(yīng)被視為一個附加組件,而應(yīng)是整體的組成部分。
- 在模型規(guī)模變化時預(yù)測其表現(xiàn)。當(dāng)模型大小和復(fù)雜性顯著提升時,我們很難預(yù)測模型會有何表現(xiàn)。應(yīng)當(dāng)開發(fā)技術(shù)來更好預(yù)測模型規(guī)模提升或使用新架構(gòu)時模型的表現(xiàn)情況,這能讓我們更高效地使用資源以及加快開發(fā)進程。有這樣一些可能性:訓(xùn)練一個更小的「種子」模型并通過外推方式預(yù)測其增長情況,模擬擴大規(guī)?;蛘{(diào)整模型的效果,以及對不同規(guī)模的模型的測試基準進行迭代以構(gòu)建標度律。這能讓我們在構(gòu)建模型之前就對模型的性能表現(xiàn)有所了解。
































