生成式人工智能演變:生成式人工智能簡(jiǎn)史
從 Transformers(2017 年)到 DeepSeek-R1(2025 年)
2025年初,我國(guó)推出突破性且經(jīng)濟(jì)高效的大型語(yǔ)言模型(LLM)DeepSeek-R1,引發(fā)了人工智能的巨變。本文追溯了LLM的演變歷程,始于2017年革命性的Transformer架構(gòu),該架構(gòu)通過自注意力機(jī)制重塑了自然語(yǔ)言處理(NLP)。到2018年,首批基于Transformer的兩款LLM,GPT和BERT相繼發(fā)布,顯著增強(qiáng)了語(yǔ)境理解和文本生成能力,為未來的創(chuàng)新奠定了堅(jiān)實(shí)的基礎(chǔ)。2020年,擁有1750億個(gè)參數(shù)的GPT-3展現(xiàn)了卓越的少樣本和零樣本學(xué)習(xí)能力。然而,“幻覺”問題即生成與事實(shí)不符的內(nèi)容成為了關(guān)鍵挑戰(zhàn)。2022年,OpenAI通過采用“監(jiān)督微調(diào)”(SFT)和“基于人類反饋的強(qiáng)化學(xué)習(xí)”(RLHF)技術(shù)來應(yīng)對(duì)這一挑戰(zhàn),并由此開發(fā)了對(duì)話模型ChatGPT。這一突破引發(fā)了全球?qū)θ斯ぶ悄艿膹V泛關(guān)注。到2023年和2024年,GPT-4和GPT-4o等多模態(tài)模型將不斷發(fā)展,無(wú)縫集成文本、圖像和音頻處理,使其能夠展現(xiàn)出更接近人類的能力,例如“聽”、“說”和“看”。與此同時(shí),OpenAI的o1和DeepSeek的R1推進(jìn)了復(fù)雜推理能力,使大型語(yǔ)言模型(LLM)更接近類人“系統(tǒng)2思維”。此外,DeepSeek-R1模型的超高成本效率和開源設(shè)計(jì)挑戰(zhàn)了人工智能規(guī)范,使高級(jí)大型語(yǔ)言模型(LLM)的獲取更加民主化,并推動(dòng)了各行各業(yè)的創(chuàng)新。
1.什么是語(yǔ)言模型(LM)
語(yǔ)言模型 (LM) 是人工智能 (AI) 系統(tǒng),旨在處理、理解和生成類似人類的語(yǔ)言。它們從大型數(shù)據(jù)集中學(xué)習(xí)模式和結(jié)構(gòu),從而能夠生成連貫且與上下文相關(guān)的文本,并廣泛應(yīng)用于翻譯、摘要、聊天機(jī)器人和內(nèi)容生成。
1.1 大型語(yǔ)言模型(LLM)
“語(yǔ)言模型”(LM)和“大型語(yǔ)言模型”(LLM)這兩個(gè)術(shù)語(yǔ)經(jīng)常互換使用,但 LLM 特指具有數(shù)百萬(wàn)甚至數(shù)十億個(gè)參數(shù)的語(yǔ)言模型。LLM 這一術(shù)語(yǔ)出現(xiàn)于 2018-2019 年左右,恰逢 BERT(包含 3.4 億個(gè)參數(shù))和 GPT-2(包含 15 億個(gè)參數(shù))等模型的推出。然而,這一術(shù)語(yǔ)在 2020 年 GPT-3 發(fā)布后才得到廣泛認(rèn)可,GPT-3 以其前所未有的 1750 億個(gè)參數(shù)展示了其變革性的擴(kuò)展?jié)摿Α?/span>
1.2 自回歸語(yǔ)言模型
大多數(shù) LLM 以自回歸的方式運(yùn)行,這意味著它們根據(jù)前面的標(biāo)記序列預(yù)測(cè)下一個(gè)標(biāo)記(或子詞)的概率分布。這種自回歸特性使模型能夠捕捉復(fù)雜的語(yǔ)言模式和依賴關(guān)系,從而使其在文本生成等任務(wù)中非常有效。
從數(shù)學(xué)角度來看,LLM 就像一個(gè)概率模型,給定一個(gè)前面的 token 序列(w? ,w? ,…,w?),估計(jì)下一個(gè) token w??? 的條件概率分布。這可以正式表示為:
P(w?? ? | w ?,w ?,…,w? )
在文本生成過程中,LLM 使用解碼算法確定下一個(gè)輸出標(biāo)記。這些算法可以采用不同的策略:
貪婪搜索:模型在每一步中選擇概率最高的標(biāo)記。
采樣:模型從預(yù)測(cè)的概率分布中隨機(jī)抽取一個(gè) token。這種方法為生成的文本引入了可變性,模仿了人類語(yǔ)言的多樣性和不可預(yù)測(cè)性。
1.3 生成能力
LLM 的自回歸特性使其能夠利用先前單詞所建立的上下文,按順序(一次一個(gè)標(biāo)記)生成文本。從初始標(biāo)記或提示開始,該模型迭代地預(yù)測(cè)下一個(gè)標(biāo)記,直到形成完整序列或滿足預(yù)定義的停止條件。
這種順序生成過程使 LLM 能夠生成高度連貫且與上下文相關(guān)的文本,使其成為創(chuàng)意寫作、對(duì)話生成甚至代碼補(bǔ)全的強(qiáng)大工具。能夠生成多樣化輸出的能力也使 LLM 非常適合需要靈活性和適應(yīng)性的任務(wù),例如講故事或?qū)υ捠?AI。
2.《變壓器革命》(2017)
2017 年,Vaswani 等人在其開創(chuàng)性論文《Attention is All You Need》中提出了 Transformer 架構(gòu),這標(biāo)志著 NLP 領(lǐng)域的一個(gè)分水嶺。它解決了循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 和長(zhǎng)短期記憶網(wǎng)絡(luò) (LSTM) 等早期模型的關(guān)鍵局限性,這些模型難以處理長(zhǎng)距離依賴關(guān)系和順序處理。這些挑戰(zhàn)使得使用 RNN 或 LSTM 實(shí)現(xiàn)有效的語(yǔ)言模型變得困難,因?yàn)樗鼈冇?jì)算效率低下,并且容易出現(xiàn)梯度消失等問題。而 Transformer 克服了這些障礙,徹底改變了該領(lǐng)域,并為現(xiàn)代大型語(yǔ)言模型奠定了基礎(chǔ)。
自注意力機(jī)制和 Transformer 架構(gòu)
2.1 Transformer 架構(gòu)的關(guān)鍵創(chuàng)新
1. 自注意力機(jī)制:與按順序處理 token 的傳統(tǒng) RNN 不同,Transformer 引入了自注意力機(jī)制,使模型能夠動(dòng)態(tài)地權(quán)衡每個(gè) token 相對(duì)于其他 token 的重要性。該機(jī)制使模型能夠?qū)W⒂谳斎胫信c當(dāng)前任務(wù)最相關(guān)的部分,從而更好地捕捉全局上下文信息。從數(shù)學(xué)上講,自注意力機(jī)制的計(jì)算公式如下:
這里,Q、K、V分別是查詢、鍵和值矩陣,d?是鍵維度。自注意力機(jī)制能夠?qū)崿F(xiàn)并行計(jì)算,加快訓(xùn)練速度,同時(shí)提升全局上下文理解能力。
2. 多頭注意力機(jī)制:多頭注意力機(jī)制并行操作多個(gè)獨(dú)立的注意力頭,每個(gè)注意力頭關(guān)注輸入的不同方面。這些注意力頭的輸出被連接起來,并通過一個(gè)線性變換層,從而產(chǎn)生更豐富、更全面的上下文表示。這種設(shè)計(jì)使模型能夠從多個(gè)角度捕捉復(fù)雜的語(yǔ)義關(guān)系。
3. 前饋網(wǎng)絡(luò) (FFN) 和層歸一化:每個(gè) Transformer 層都包含一個(gè)應(yīng)用于每個(gè) token 的前饋網(wǎng)絡(luò) (FFN),以及層歸一化和殘差連接。FFN 由兩個(gè)全連接層組成,通常使用 GELU(高斯誤差線性單元)激活函數(shù)。層歸一化和殘差連接的設(shè)計(jì)有效地穩(wěn)定了訓(xùn)練過程,并支持構(gòu)建更深的網(wǎng)絡(luò)架構(gòu),從而增強(qiáng)了模型的表達(dá)能力。
4. 位置編碼:由于 Transformer 本身并不編碼標(biāo)記順序,因此添加位置編碼(位置和頻率的正弦函數(shù))來表示詞序,從而在不犧牲并行化的情況下保留順序信息。
2.2 對(duì)語(yǔ)言建模的影響
可擴(kuò)展性:Transformer 支持完全并行計(jì)算,從而可以在大型數(shù)據(jù)集上訓(xùn)練大量模型。
情境理解:自我注意力捕捉局部和全局依賴關(guān)系,提高連貫性和情境意識(shí)。
Transformer 的提出不僅是 NLP 領(lǐng)域的重大突破,更是人工智能發(fā)展史上的重要里程碑。它通過自注意力機(jī)制、多頭注意力機(jī)制、位置編碼等創(chuàng)新設(shè)計(jì),解決了傳統(tǒng)模型的諸多局限性,為未來的語(yǔ)言建模和深度學(xué)習(xí)研究開辟了新的可能性。
3. 預(yù)訓(xùn)練 Transformer 模型時(shí)代(2018-2020)
2017 年 Transformer 架構(gòu)的推出,為 NLP 的新時(shí)代奠定了基礎(chǔ),其特點(diǎn)是預(yù)訓(xùn)練模型的興起以及對(duì)擴(kuò)展能力前所未有的重視。這一時(shí)期出現(xiàn)了兩個(gè)頗具影響力的模型系列:BERT 和 GPT,它們展現(xiàn)了大規(guī)模預(yù)訓(xùn)練和微調(diào)范式的威力。
3.1 BERT:雙向語(yǔ)境理解(2018)
2018 年,谷歌推出了BERT(基于 Transformer 的雙向編碼器表征),這是一個(gè)突破性的模型,它利用Transformer 的編碼器在眾多自然語(yǔ)言處理 (NLP) 任務(wù)中實(shí)現(xiàn)了卓越的性能。與之前以單向方式(從左到右或從右到左)處理文本的模型不同,BERT 采用了雙向訓(xùn)練方法,使其能夠同時(shí)從兩個(gè)方向捕捉上下文。通過生成深度、上下文豐富的文本表征,BERT 在文本分類、名稱實(shí)體識(shí)別 (NER)、情感分析等語(yǔ)言理解任務(wù)中表現(xiàn)出色。
BERT 是第一個(gè)僅使用編碼器的 Transformer 模型
BERT 的關(guān)鍵創(chuàng)新在于:
掩碼語(yǔ)言模型 (MLM):BERT 并非預(yù)測(cè)序列中的下一個(gè)單詞,而是被訓(xùn)練預(yù)測(cè)句子中隨機(jī)掩碼的詞條。這迫使模型在進(jìn)行預(yù)測(cè)時(shí)考慮句子的整體上下文——包括前后單詞。例如,給定句子“The cat sat on the [MASK] mat”,BERT 會(huì)學(xué)習(xí)根據(jù)周圍上下文預(yù)測(cè)“soft”。
下一句預(yù)測(cè) (NSP):除了 MLM 之外,BERT 還接受了名為“下一句預(yù)測(cè)”的輔助任務(wù)訓(xùn)練,該模型學(xué)習(xí)預(yù)測(cè)文檔中的兩個(gè)句子是否連續(xù)。這有助于 BERT 在需要理解句子之間關(guān)系的任務(wù)(例如問答和自然語(yǔ)言推理)中表現(xiàn)出色。
BERT 的影響: BERT 的雙向訓(xùn)練使其在 GLUE(通用語(yǔ)言理解評(píng)估)和 SQuAD(斯坦福問答數(shù)據(jù)集)等基準(zhǔn)測(cè)試中取得了突破性的表現(xiàn)。它的成功證明了上下文嵌入(根據(jù)周圍詞匯動(dòng)態(tài)變化的表示)的重要性,并為新一代預(yù)訓(xùn)練模型鋪平了道路。
3.2 GPT:生成式預(yù)訓(xùn)練 Transformer(2018-2020)
BERT 優(yōu)先考慮雙向上下文理解,而 OpenAI 的 GPT 系列則采用了獨(dú)特的策略,專注于通過自回歸預(yù)訓(xùn)練實(shí)現(xiàn)生成能力。通過利用Transformer 的解碼器,GPT 模型在文本生成任務(wù)中表現(xiàn)出色。
GPT(生成式預(yù)訓(xùn)練 Transformer)是第一個(gè)僅解碼器的 Transformer 模型。
GPT(2018):?jiǎn)蜗蚪獯a器專用 Transformer 建模
GPT 系列的首個(gè)版本于 2018 年 6 月發(fā)布,引入了僅用于解碼器的 Transformer 架構(gòu),該架構(gòu)擁有1.17 億個(gè)參數(shù),標(biāo)志著自然語(yǔ)言處理 (NLP) 領(lǐng)域的一個(gè)重要里程碑。該架構(gòu)使用單向自回歸方法對(duì)4.6GB 高質(zhì)量文本數(shù)據(jù)進(jìn)行訓(xùn)練,僅根據(jù)之前的標(biāo)記預(yù)測(cè)下一個(gè)標(biāo)記。該設(shè)計(jì)通過捕捉自然語(yǔ)言中的序列依賴關(guān)系,在文本補(bǔ)全、摘要和對(duì)話生成等生成任務(wù)中表現(xiàn)出色。然而,GPT 的設(shè)計(jì)初衷主要是為了利用監(jiān)督微調(diào) (SFT) 來適應(yīng)各種目標(biāo)任務(wù)。
總體而言,GPT 的自回歸特性通過捕捉自然語(yǔ)言中的序列依賴關(guān)系,實(shí)現(xiàn)了令人印象深刻的文本生成。該設(shè)計(jì)展現(xiàn)了僅使用解碼器的 Transformer 的潛力,為 GPT 系列奠定了基礎(chǔ),并為具有復(fù)雜生成和泛化能力的高級(jí) LLM 鋪平了道路。
GPT-2(2019):擴(kuò)展廣義零樣本學(xué)習(xí)的語(yǔ)言模型
GPT-2 于 2019 年 2 月發(fā)布,較其前身有了重大改進(jìn),擁有15 億個(gè)參數(shù),并在40GB 的多樣化互聯(lián)網(wǎng)文本上進(jìn)行了訓(xùn)練。它引入了突破性的零樣本學(xué)習(xí)能力,無(wú)需針對(duì)特定任務(wù)進(jìn)行微調(diào)即可執(zhí)行論文寫作、問答、摘要和翻譯等任務(wù)。
GPT-2 展現(xiàn)了擴(kuò)展模型規(guī)模和訓(xùn)練數(shù)據(jù)的強(qiáng)大能力,能夠生成高質(zhì)量、類人文本,同時(shí)展現(xiàn)出其新興的多任務(wù)處理能力。然而,其先進(jìn)的生成能力也引發(fā)了倫理方面的擔(dān)憂,導(dǎo)致在完整模型公開之前,GPT-2 曾分階段發(fā)布多個(gè)較小版本。GPT-2 為語(yǔ)言模型樹立了新標(biāo)準(zhǔn),凸顯了大規(guī)模預(yù)訓(xùn)練系統(tǒng)在泛化應(yīng)用方面的潛力。
GPT-3(2020):大規(guī)模大型語(yǔ)言模型的曙光
GPT-3 于 2020 年 6 月發(fā)布,其擁有1750 億個(gè)參數(shù),是當(dāng)時(shí)規(guī)模最大的語(yǔ)言模型,徹底革新了人工智能。該模型基于龐大而多樣化的文本語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,在少樣本學(xué)習(xí)和零樣本學(xué)習(xí)方面表現(xiàn)出色,能夠執(zhí)行諸如撰寫論文、生成代碼、解決推理問題,甚至在極少或沒有示例的情況下進(jìn)行創(chuàng)意寫作等任務(wù)。
GPT-3 能夠跨領(lǐng)域泛化——從編碼到對(duì)話代理——展現(xiàn)了大規(guī)模預(yù)訓(xùn)練模型的新興能力。其類人輸出雖然為生成式人工智能樹立了新的標(biāo)準(zhǔn),但也引發(fā)了關(guān)于偏見、虛假信息和濫用的倫理?yè)?dān)憂。通過突破規(guī)模和泛化的極限,GPT-3 重新定義了語(yǔ)言模型的可能性,并為高級(jí)廣義人工智能鋪平了道路。
3.3 GPT 的影響和擴(kuò)展的作用
GPT 模型(尤其是 GPT-3)的推出標(biāo)志著人工智能的變革時(shí)代,展現(xiàn)了自回歸架構(gòu)和生成能力的強(qiáng)大力量。這些模型為內(nèi)容創(chuàng)作、對(duì)話代理和自動(dòng)推理等應(yīng)用開辟了新的可能性,并在各種任務(wù)中實(shí)現(xiàn)了接近人類的性能。GPT -3 擁有 1750 億個(gè)參數(shù),展現(xiàn)了規(guī)模的深遠(yuǎn)影響,證明了在海量數(shù)據(jù)集上訓(xùn)練的大型模型可以為人工智能能力樹立新的標(biāo)桿。
隨著模型大小、數(shù)據(jù)集大小和用于訓(xùn)練的計(jì)算量的增加,語(yǔ)言建模性能會(huì)平穩(wěn)提升。
2018 年至 2020 年期間,人工智能研究的重點(diǎn)是擴(kuò)展模型規(guī)模。隨著模型參數(shù)從數(shù)百萬(wàn)個(gè)增長(zhǎng)到數(shù)十億個(gè),它們?cè)诓蹲綇?fù)雜模式和泛化到新任務(wù)方面也變得更加出色。這種“擴(kuò)展效應(yīng)”由三個(gè)關(guān)鍵因素支撐:
數(shù)據(jù)集大小:較大的模型需要海量數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。例如,GPT-3 就基于海量互聯(lián)網(wǎng)文本進(jìn)行訓(xùn)練,使其能夠?qū)W習(xí)各種語(yǔ)言模式和知識(shí)。
參數(shù)數(shù)量:增加參數(shù)數(shù)量使得模型能夠表示更復(fù)雜的關(guān)系,從而提高各種任務(wù)的性能。
計(jì)算能力:訓(xùn)練如此大的模型需要大量的計(jì)算資源,硬件和分布式計(jì)算的進(jìn)步使得大規(guī)模高效訓(xùn)練成為可能。
這個(gè)擴(kuò)展時(shí)代不僅提高了語(yǔ)言模型的性能,而且為人工智能的未來突破奠定了基礎(chǔ),強(qiáng)調(diào)了規(guī)模、數(shù)據(jù)和計(jì)算對(duì)于實(shí)現(xiàn)最先進(jìn)成果的重要性。
4.訓(xùn)練后協(xié)調(diào):彌合人工智能與人類價(jià)值觀之間的差距(2021-2022)
GPT-3 是一款擁有 1750 億個(gè)參數(shù)、使用自監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練的 LLM ,其非凡能力能夠生成與人類書寫極為相似的文本,這引發(fā)了人們對(duì)人工智能生成內(nèi)容真實(shí)性和可信度的擔(dān)憂。雖然這一成就標(biāo)志著人工智能發(fā)展的一個(gè)重要里程碑,但它也凸顯了確保這些模型符合人類價(jià)值觀、偏好和期望的關(guān)鍵挑戰(zhàn)。關(guān)鍵問題包括指令遵循不一致(例如忽略特定準(zhǔn)則或偏離用戶意圖),以及幻覺(即模型生成與事實(shí)不符或無(wú)意義的內(nèi)容)。
為了應(yīng)對(duì)這些挑戰(zhàn),我們引入了兩種關(guān)鍵的訓(xùn)練后方法:監(jiān)督微調(diào) (SFT)用于增強(qiáng)指令對(duì)齊,該方法涉及在精心挑選的數(shù)據(jù)集上訓(xùn)練模型,以提高精度并確保符合指導(dǎo)原則。此外,他們利用人類反饋強(qiáng)化學(xué)習(xí) (RLHF)進(jìn)行偏好對(duì)齊,利用人類排序的響應(yīng)來引導(dǎo)模型生成更有利的輸出。這些方法有效地減少了幻覺的發(fā)生,提高了模型遵循指令的能力,并使 GPT-3 的行為更接近人類價(jià)值觀。
4.1 監(jiān)督微調(diào)(SFT)
增強(qiáng) GPT-3 對(duì)齊能力的第一步是監(jiān)督微調(diào) (SFT),它是 RLHF 框架的基礎(chǔ)組件。SFT 與指令調(diào)優(yōu)類似,涉及在高質(zhì)量的輸入輸出對(duì)或演示上訓(xùn)練模型,以教會(huì)它如何遵循指令并生成所需的輸出。
指令遵循數(shù)據(jù)的示例。
這些演示經(jīng)過精心策劃,以反映預(yù)期的行為和結(jié)果,確保模型學(xué)會(huì)產(chǎn)生準(zhǔn)確且適合上下文的反應(yīng)。
然而,單靠 SFT 有其局限性:
可擴(kuò)展性:收集人工演示需要耗費(fèi)大量勞動(dòng)力和時(shí)間,尤其是對(duì)于復(fù)雜或小眾的任務(wù)。
性能:簡(jiǎn)單地模仿人類行為并不能保證模型會(huì)超越人類的表現(xiàn)或很好地推廣到看不見的任務(wù)。
為了克服這些挑戰(zhàn),需要一種更具可擴(kuò)展性和效率的方法,為下一步鋪平道路:從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(RLHF)。
4.2 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)
RLHF由 OpenAI 于 2022 年推出,旨在解決 SFT 的可擴(kuò)展性和性能限制。與需要人工編寫完整輸出的 SFT 不同,RLHF 會(huì)根據(jù)質(zhì)量對(duì)多個(gè)模型生成的輸出進(jìn)行排序。這種方法可以更高效地收集和標(biāo)記數(shù)據(jù),從而顯著提升可擴(kuò)展性。
RLHF 流程包括兩個(gè)關(guān)鍵階段:
訓(xùn)練獎(jiǎng)勵(lì)模型:人工注釋者對(duì)模型生成的多個(gè)輸出進(jìn)行排序,從而創(chuàng)建一個(gè)偏好數(shù)據(jù)集。這些數(shù)據(jù)用于訓(xùn)練獎(jiǎng)勵(lì)模型,該模型學(xué)習(xí)根據(jù)人工反饋評(píng)估輸出的質(zhì)量。
使用強(qiáng)化學(xué)習(xí)對(duì) LLM 進(jìn)行微調(diào):獎(jiǎng)勵(lì)模型使用強(qiáng)化學(xué)習(xí)算法近端策略優(yōu)化 (PPO)來指導(dǎo) LLM 的微調(diào)。通過迭代更新,該模型學(xué)習(xí)生成更符合人類偏好和期望的輸出。
這個(gè)兩階段流程——結(jié)合 SFT 和 RLHF——使模型不僅能夠準(zhǔn)確地遵循指令,還能適應(yīng)新任務(wù)并持續(xù)改進(jìn)。通過將人工反饋融入訓(xùn)練循環(huán),RLHF 顯著增強(qiáng)了模型生成可靠、與人類一致的輸出的能力,為 AI 的一致性和性能樹立了新的標(biāo)桿。
4.3 ChatGPT:推進(jìn)對(duì)話式人工智能(2022 年)
2022 年 3 月,OpenAI 發(fā)布了GPT-3.5,這是 GPT-3 的升級(jí)版,架構(gòu)相同,但訓(xùn)練和微調(diào)功能有所改進(jìn)。主要改進(jìn)包括:通過精煉數(shù)據(jù)實(shí)現(xiàn)更好的指令執(zhí)行,減少幻覺(但并未完全消除),以及更多樣化、更新的數(shù)據(jù)集,從而實(shí)現(xiàn)更相關(guān)、更情境感知的響應(yīng)。
ChatGPT
OpenAI 在 GPT-3.5 和 InstructGPT 的基礎(chǔ)上,于 2022 年 11 月推出了ChatGPT,這是一個(gè)突破性的對(duì)話式 AI 模型,專門針對(duì)自然的多輪對(duì)話進(jìn)行了微調(diào)。ChatGPT 的主要改進(jìn)包括:
以對(duì)話為中心的微調(diào):經(jīng)過大量對(duì)話數(shù)據(jù)集的訓(xùn)練,ChatGPT 擅長(zhǎng)在對(duì)話中保持上下文和連續(xù)性,從而實(shí)現(xiàn)更具吸引力和更人性化的互動(dòng)。
RLHF:通過整合 RLHF,ChatGPT 學(xué)會(huì)了生成不僅實(shí)用,而且誠(chéng)實(shí)無(wú)害的回復(fù)。人類訓(xùn)練員會(huì)根據(jù)回復(fù)質(zhì)量對(duì)其進(jìn)行排序,從而使模型能夠不斷改進(jìn)其性能。
ChatGPT 的推出標(biāo)志著人工智能的一個(gè)關(guān)鍵時(shí)刻,通常被稱為“ ChatGPT 時(shí)刻”,因?yàn)樗故玖藢?duì)話式人工智能改變?nèi)藱C(jī)交互的潛力。
5. 多模態(tài)模型:連接文本、圖像及其他領(lǐng)域(2023-2024)
2023 年至 2024 年間, GPT-4、GPT-4V 和 GPT-4o 等多模態(tài)大型語(yǔ)言模型 (MLLM)通過將文本、圖像、音頻和視頻集成到統(tǒng)一系統(tǒng)中,重新定義了人工智能。這些模型擴(kuò)展了傳統(tǒng)語(yǔ)言模型的功能,實(shí)現(xiàn)了更豐富的交互和更復(fù)雜的問題解決。
5.1 GPT-4V:視覺與語(yǔ)言的結(jié)合
2023 年,OpenAI 推出了 GPT-4V,將 GPT-4 的語(yǔ)言能力與先進(jìn)的計(jì)算機(jī)視覺技術(shù)相結(jié)合。它可以解讀圖像、生成字幕、回答視覺問題,并推斷視覺圖像中的上下文關(guān)系。其跨模態(tài)注意力機(jī)制實(shí)現(xiàn)了文本和圖像數(shù)據(jù)的無(wú)縫集成,使其在醫(yī)療保?。ɡ绶治鲠t(yī)學(xué)圖像)和教育(例如交互式學(xué)習(xí)工具)等領(lǐng)域具有巨大的應(yīng)用價(jià)值。
5.2 GPT-4o:全模態(tài)前沿
到 2024 年初,GPT-4o 通過整合音頻和視頻輸入,進(jìn)一步提升了多模態(tài)性。它在統(tǒng)一的表征空間中運(yùn)行,可以轉(zhuǎn)錄語(yǔ)音、描述視頻或?qū)⑽谋竞铣梢纛l。實(shí)時(shí)交互和增強(qiáng)的創(chuàng)造力(例如生成多媒體內(nèi)容)使其成為娛樂和設(shè)計(jì)等行業(yè)的多功能工具。
向 GPT-4o 問好
現(xiàn)實(shí)世界的影響
MLLM 徹底改變了醫(yī)療保健(診斷)、教育(互動(dòng)學(xué)習(xí))和創(chuàng)意產(chǎn)業(yè)(多媒體制作)等領(lǐng)域。它們處理多種模式的能力為創(chuàng)新開啟了新的可能性。
6.開源和開放權(quán)重模型(2023-2024)
2023 年至 2024 年間,開源和開放權(quán)重的人工智能模型發(fā)展勢(shì)頭強(qiáng)勁,使先進(jìn)人工智能技術(shù)的獲取變得民主化。
開放權(quán)重 LLM提供公開可訪問的模型權(quán)重,且限制極少。這使得模型能夠進(jìn)行微調(diào)和自適應(yīng)調(diào)整,同時(shí)保持訓(xùn)練架構(gòu)和訓(xùn)練數(shù)據(jù)的封閉性。它們適合快速部署。示例:Meta AI 的 LLaMA 系列以及 Mistral AI 的 Mistral 7B / Mixtral 8x7B
開源 LLM公開底層代碼和結(jié)構(gòu)。這使得模型能夠被全面理解、修改和定制,從而促進(jìn)創(chuàng)新和適應(yīng)性。例如:OPT 和 BERT。
社區(qū)驅(qū)動(dòng)的創(chuàng)新:像 Hugging Face 這樣的平臺(tái)促進(jìn)了協(xié)作,并借助 LoRA 和 PEFT 等工具實(shí)現(xiàn)了高效的微調(diào)。社區(qū)開發(fā)了針對(duì)醫(yī)療保健、法律和創(chuàng)意領(lǐng)域的專用模型,同時(shí)優(yōu)先考慮符合倫理道德的 AI 實(shí)踐。
得益于尖端比對(duì)技術(shù)的出現(xiàn),開源社區(qū)目前正處于一個(gè)激動(dòng)人心的階段。這一進(jìn)展催生了越來越多卓越的開放權(quán)重模型的發(fā)布。因此,閉源模型與開放權(quán)重模型之間的差距正在穩(wěn)步縮小。LLaMA3.1-405B 模型開創(chuàng)了歷史性的先河,它彌合了與閉源模型之間的差距。
7. 推理模型:從系統(tǒng)1到系統(tǒng)2思維的轉(zhuǎn)變(2024)
2024年,人工智能發(fā)展開始強(qiáng)調(diào)增強(qiáng)推理能力,從簡(jiǎn)單的模式識(shí)別發(fā)展到更具邏輯性和結(jié)構(gòu)化的思維過程。這種轉(zhuǎn)變受到認(rèn)知心理學(xué)雙過程理論的影響,該理論區(qū)分了系統(tǒng)1(快速、直覺)和系統(tǒng)2(慢速、分析)思維。雖然之前的模型(例如GPT-3和GPT-4)能夠熟練地完成系統(tǒng)1的任務(wù)(例如文本生成),但它們?nèi)狈Ω顚哟蔚耐评砗徒鉀Q問題的能力。
系統(tǒng) 1 與系統(tǒng) 2 思維
7.1 OpenAI-o1:推理能力的飛躍
從OpenAI 于 2024 年 9 月 12 日發(fā)布的 o1-preview開始,推理模型的發(fā)布標(biāo)志著人工智能能力的重大飛躍,尤其是在解決數(shù)學(xué)和編程等復(fù)雜推理任務(wù)方面。與傳統(tǒng)的 LLM 不同,推理模型采用長(zhǎng)鏈思維(Long CoT)——一種內(nèi)部推理軌跡,允許模型通過分解問題、批判自身解決方案和探索替代方案來“思考”問題。這些 CoT 對(duì)用戶隱藏,用戶只能看到匯總的輸出。
推理模型的主要特征包括:
- Long CoT:使模型能夠?qū)?fù)雜問題分解為更小的部分,批判其解決方案,并探索多種方法,類似于搜索算法。
- 推理時(shí)間計(jì)算控制:可以為更復(fù)雜的問題生成更長(zhǎng)的 CoT,而更短的 CoT 可以為更簡(jiǎn)單的任務(wù)節(jié)省計(jì)算。
- 增強(qiáng)的推理能力:雖然像 o1-preview 這樣的初始推理模型在某些方面能力不如標(biāo)準(zhǔn)大型語(yǔ)言模型 (LLM),但它們?cè)谕评砣蝿?wù)中的表現(xiàn)卻遠(yuǎn)超后者,甚至經(jīng)常能與人類專家相媲美。例如,o1-preview 在數(shù)學(xué) (AIME 2024)、編碼 (CodeForces) 和博士級(jí)科學(xué)問題方面均超越了 GPT-4o。
GPT-4o與o1-preview與o1與人類專家。
OpenAI-o1:
2024年12月5日,OpenAI的完整版o1模型進(jìn)一步提升性能,在2024年AIME數(shù)學(xué)考試中躋身全美前500名,并顯著超越GPT-4o(解決了74%-93%的AIME問題,而GPT-4o僅為12%)。此外,更便宜、更快速的o1-mini版本,盡管比完整版o1便宜80%,但仍保留了強(qiáng)大的推理能力,尤其是在編碼方面。
OpenAI-o3:
2025年1月,OpenAI發(fā)布了o3模型,這是其推理模型系列的最新突破,該模型基于o1模型的成功。盡管完整的o3模型尚未發(fā)布,但其在關(guān)鍵基準(zhǔn)測(cè)試中的表現(xiàn)已被譽(yù)為突破性的。
ARC-AGI:準(zhǔn)確率達(dá)到 87.5%,超越人類水平(85%),并遠(yuǎn)遠(yuǎn)超過 GPT-4o 的 5%。
編碼:在 SWE-Bench Verified 上獲得 71.7% 的得分,在 Codeforces 上獲得 2727 的 Elo 分?jǐn)?shù),躋身全球前 200 名競(jìng)爭(zhēng)性程序員之列。
數(shù)學(xué):在 EpochAI 的 FrontierMath 上實(shí)現(xiàn)了 25.2% 的準(zhǔn)確率,比之前的最先進(jìn)水平(2.0%)有了顯著的飛躍。
OpenAI-o1和OpenAI-o3推理模型的發(fā)布代表了人工智能的重大進(jìn)步,通過結(jié)構(gòu)化的內(nèi)部推理過程提供了卓越的問題解決能力,并在數(shù)學(xué)和編碼等復(fù)雜任務(wù)中樹立了新的標(biāo)桿。
8. 成本高效的推理模型:DeepSeek-R1(2025)
LLM 通常需要極其龐大的計(jì)算資源來進(jìn)行訓(xùn)練和推理。GPT-4o 和 OpenAI-o1 等最先進(jìn)的 LLM 模型的閉源特性限制了尖端 AI 技術(shù)普及的普及。
8.1 DeepSeek-V3
2024年12月下旬,DeepSeek-V3 作為一款經(jīng)濟(jì)高效的開放式大型語(yǔ)言模型 (LLM) 應(yīng)運(yùn)而生,為人工智能的可及性樹立了新的標(biāo)桿。DeepSeek-V3 可與 OpenAI 的 ChatGPT 等頂級(jí)解決方案相媲美,但開發(fā)成本卻顯著降低,估計(jì)約為 560 萬(wàn)美元,僅為西方公司投資額的一小部分。該模型擁有多達(dá) 6710 億個(gè)參數(shù),其中活躍參數(shù)達(dá) 370 億個(gè),并采用混合專家 (MoE) 架構(gòu),將模型劃分為專門用于數(shù)學(xué)和編程等任務(wù)的組件,以減輕訓(xùn)練負(fù)擔(dān)。DeepSeek-V3 融入了工程效率方面的提升,例如改進(jìn)了鍵值緩存的管理,并進(jìn)一步推進(jìn)了混合專家方法。該模型引入了三個(gè)關(guān)鍵架構(gòu):
多頭潛在注意力 (MLA):通過壓縮注意力鍵和值來減少內(nèi)存使用量,同時(shí)保持性能,并通過旋轉(zhuǎn)位置嵌入 (RoPE) 增強(qiáng)位置信息。
DeepSeek 混合專家 (DeepSeekMoE):在前饋網(wǎng)絡(luò) (FFN) 中混合使用共享和路由專家來提高效率并平衡專家利用率。
多標(biāo)記預(yù)測(cè):增強(qiáng)模型生成連貫且上下文相關(guān)的輸出的能力,特別是對(duì)于需要生成復(fù)雜序列的任務(wù)。
DeepSeek-V3 的發(fā)布引發(fā)了全球科技股的拋售,市值一度跌至 1 萬(wàn)億美元,并導(dǎo)致英偉達(dá)股價(jià)盤前下跌 13%。DeepSeek-V3 的定價(jià)為每百萬(wàn)輸出代幣 2.19 美元,約為 OpenAI 同類模型價(jià)格的三十分之一。
8.2 DeepSeek-R1-Zero 和 DeepSeek-R1
僅僅一個(gè)月后,即2025年1月下旬,DeepSeek發(fā)布了DeepSeek-R1-Zero和DeepSeek-R1,引起了轟動(dòng)。這兩款模型以極低的訓(xùn)練成本展現(xiàn)了卓越的推理能力。利用先進(jìn)的強(qiáng)化學(xué)習(xí)技術(shù),這些模型證明了高性能推理無(wú)需像尖端AI那樣產(chǎn)生高昂的計(jì)算成本。這一突破鞏固了DeepSeek在高效可擴(kuò)展AI創(chuàng)新領(lǐng)域的領(lǐng)先地位。
DeepSeek-R1-Zero:基于 DeepSeek-V3 構(gòu)建的推理模型,并通過強(qiáng)化學(xué)習(xí) (RL) 增強(qiáng)其推理能力。它完全省去了監(jiān)督微調(diào)階段,直接從名為 DeepSeek-V3-Base 的預(yù)訓(xùn)練模型開始。它采用一種名為“組相對(duì)策略優(yōu)化 (GRPO)”的基于規(guī)則的強(qiáng)化學(xué)習(xí)方法,該方法根據(jù)預(yù)定義規(guī)則計(jì)算獎(jiǎng)勵(lì),從而使訓(xùn)練過程更簡(jiǎn)單、更具可擴(kuò)展性。
DeepSeek-R1:為了解決 DeepSeek-R1-Zero 的局限性,例如可讀性低和語(yǔ)言混合,DeepSeek-R1 結(jié)合了有限的高質(zhì)量冷啟動(dòng)數(shù)據(jù)和額外的強(qiáng)化學(xué)習(xí)訓(xùn)練。該模型經(jīng)過多個(gè)階段的微調(diào)和強(qiáng)化學(xué)習(xí),包括拒絕采樣和第二輪強(qiáng)化學(xué)習(xí)訓(xùn)練,以提高其通用能力并符合人類的偏好。
精簡(jiǎn)版 DeepSeek 模型: DeepSeek 開發(fā)了精簡(jiǎn)版 DeepSeek-R1,其參數(shù)數(shù)量從 15 億到 700 億不等,旨在將先進(jìn)的推理能力引入性能較弱的硬件。這些模型使用原始 DeepSeek-R1 生成的合成數(shù)據(jù)進(jìn)行微調(diào),確保在推理任務(wù)中擁有強(qiáng)勁性能,同時(shí)保持足夠輕量級(jí)以支持本地部署。
DeepSeek-R1 在數(shù)學(xué)、編程、常識(shí)和寫作等多項(xiàng)基準(zhǔn)測(cè)試中均展現(xiàn)出優(yōu)異的性能。根據(jù)使用模式的不同,與 OpenAI 的 o1 模型等競(jìng)爭(zhēng)對(duì)手相比,它能夠顯著節(jié)省成本,使用成本可降低 20 到 50 倍。
圖片
8.3 對(duì)人工智能產(chǎn)業(yè)的影響
DeepSeek-R1 的推出挑戰(zhàn)了人工智能領(lǐng)域的既定規(guī)范,使高級(jí)大型語(yǔ)言模型 (LLM) 的獲取更加民主化,并促進(jìn)了更具競(jìng)爭(zhēng)力的生態(tài)系統(tǒng)。其經(jīng)濟(jì)實(shí)惠和便捷性預(yù)計(jì)將推動(dòng)各行各業(yè)的采用和創(chuàng)新。最近,AWS、微軟和谷歌云等領(lǐng)先的云服務(wù)提供商已在其平臺(tái)上提供 DeepSeek-R1。小型云服務(wù)提供商和 DeepSeek 的母公司也以極具競(jìng)爭(zhēng)力的價(jià)格提供 DeepSeek-R1。
結(jié)論
大型語(yǔ)言模型 (LLM) 的演進(jìn),從 2017 年 Transformer 架構(gòu)的引入,到 2025 年 DeepSeek-R1 的開發(fā),標(biāo)志著人工智能領(lǐng)域的革命性篇章。LLM 的興起伴隨著四項(xiàng)里程碑式的成就:
- Transformers(2017): Transformer 架構(gòu)的引入為構(gòu)建大規(guī)模、高效的模型奠定了基礎(chǔ),這些模型能夠以前所未有的精度和靈活性處理復(fù)雜任務(wù)。
- GPT-3(2020):該模型展示了 LLM 規(guī)?;淖兏锪α?,證明了在大量數(shù)據(jù)集上訓(xùn)練的大規(guī)模模型可以在廣泛的應(yīng)用中實(shí)現(xiàn)接近人類的性能,為 LLM 所能實(shí)現(xiàn)的目標(biāo)設(shè)定了新的基準(zhǔn)。
- ChatGPT (2022):通過將對(duì)話式大型語(yǔ)言模型 (LLM) 引入主流,ChatGPT 使高級(jí)人工智能更容易被日常用戶所接受和互動(dòng)。它也引發(fā)了關(guān)于 LLM 廣泛應(yīng)用的倫理和社會(huì)影響的批判性討論。
- DeepSeek-R1 (2025): DeepSeek-R1 利用混合專家 (MoE)、多頭潛在注意力 (MLA) 和多標(biāo)記預(yù)測(cè) (MTP),并結(jié)合使用群組相對(duì)策略優(yōu)化 (GRPO) 的高效多階段強(qiáng)化學(xué)習(xí)訓(xùn)練,提供清晰的推理能力。與許多領(lǐng)先的閉源模型相比,其運(yùn)營(yíng)成本可降低高達(dá) 50 倍。此外,其開源特性使尖端 AI 的獲取更加民主化,賦能各行各業(yè)的創(chuàng)新者,并凸顯了可擴(kuò)展性、一致性和可訪問性在塑造 AI 未來中的重要性。
LLM 正在穩(wěn)步轉(zhuǎn)型為功能多樣、具備推理能力的多模態(tài)系統(tǒng),既能滿足日常用戶的需求,也能滿足專業(yè)需求。這一演變?cè)从谕黄菩缘膭?chuàng)新,以及規(guī)模化、易用性和成本效益的提升,推動(dòng)著 AI 走向更易于觸及、更具影響力的未來。