DeepSeek LLM: 通過長期主義擴展開源語言模型 精華
?摘要:開源大型語言模型(LLMs)的快速發(fā)展確實令人矚目。然而,先前文獻中描述的擴展規(guī)律呈現(xiàn)出不同的結(jié)論,這為擴展LLMs蒙上了一層陰影。我們深入研究了擴展規(guī)律,并提出了我們獨特的發(fā)現(xiàn),這有助于在兩種普遍使用的開源配置中擴展大規(guī)模模型,即7B和67B。在擴展規(guī)律的指導下,我們介紹了DeepSeek LLM,這是一個致力于從長遠角度推進開源語言模型的項目。為了支持預訓練階段,我們已經(jīng)開發(fā)了一個目前由2萬億個token組成的數(shù)據(jù)集,并且正在不斷擴展。我們進一步對DeepSeek LLM基礎(chǔ)模型進行了監(jiān)督式微調(diào)(SFT)和直接偏好優(yōu)化(DPO),從而創(chuàng)建了DeepSeek Chat模型。我們的評估結(jié)果表明,DeepSeek LLM 67B在一系列基準測試中超越了LLaMA-2 70B,特別是在代碼、數(shù)學和推理領(lǐng)域。此外,開放式評估揭示了我們的DeepSeek LLM 67B Chat與GPT-3.5相比展現(xiàn)出更優(yōu)越的性能。
1. 引言
過去幾年中,基于僅解碼器Transformer(Vaswani et al., 2017)的大型語言模型(LLMs)逐漸成為實現(xiàn)人工通用智能(AGI)的基石和途徑。通過預測連續(xù)文本中的下一個單詞,LLMs在大規(guī)模數(shù)據(jù)集上進行自監(jiān)督預訓練,使它們能夠?qū)崿F(xiàn)各種目的并擁有許多能力,如創(chuàng)意創(chuàng)作、文本摘要、代碼補全等。隨后的發(fā)展,如監(jiān)督式微調(diào)和獎勵建模,使大型語言模型(LLMs)能更好地遵循用戶意圖和指令。這賦予了它們更多樣的對話能力,并迅速擴大了它們的影響力。
這一浪潮是由如ChatGPT(OpenAI, 2022)、Claude(Anthropic, 2023)和Bard(Google, 2023)等封閉產(chǎn)品所激發(fā)的,這些產(chǎn)品是利用大量計算資源和大量的注釋成本開發(fā)的。這些產(chǎn)品顯著提高了社區(qū)對開源LLMs能力的期望,從而激發(fā)了一系列工作(Bai et al., 2023; Du et al., 2022; Jiang et al., 2023; Touvron et al., 2023a,b; Yang et al., 2023)。在這些工作中,LLaMA系列模型(Touvron et al., 2023a,b)脫穎而出。它整合了一系列工作,創(chuàng)建了一個高效穩(wěn)定的架構(gòu),構(gòu)建了從7B到70B參數(shù)范圍內(nèi)表現(xiàn)良好的模型。因此,LLaMA系列已成為開源模型中架構(gòu)和性能的事實上的基準。
繼LLaMA之后,開源社區(qū)主要專注于訓練固定大小(7B、13B、34B和70B)的高質(zhì)量模型,往往忽略了對LLM擴展規(guī)律的研究探索(Hoffmann et al., 2022; Kaplan et al., 2020)。然而,考慮到當前開源模型僅處于人工通用智能(AGI)發(fā)展的初期階段,對擴展規(guī)律的研究是至關(guān)重要的。此外,早期作品(Hoffmann et al., 2022; Kaplan et al., 2020)在模型和數(shù)據(jù)隨計算預算增加的擴展上得出了不同的結(jié)論,并且沒有充分討論超參數(shù)。在本文中,我們廣泛研究了語言模型的擴展行為,并應用我們的發(fā)現(xiàn)在兩個廣泛使用的大規(guī)模模型配置中,即7B和67B。我們的研究旨在為未來開源LLMs的擴展奠定基礎(chǔ),為這一領(lǐng)域的進一步發(fā)展鋪平道路。具體來說,我們首先檢查了批量大小和學習率的擴展規(guī)律,并發(fā)現(xiàn)了它們與模型大小的趨勢。在此基礎(chǔ)上,我們對數(shù)據(jù)和模型規(guī)模的擴展規(guī)律進行了全面研究,成功揭示了最佳的模型/數(shù)據(jù)擴展分配策略,并預測了我們大規(guī)模模型的預期性能。此外,在開發(fā)過程中,我們發(fā)現(xiàn)不同數(shù)據(jù)集推導出的擴展規(guī)律存在顯著差異。這表明數(shù)據(jù)集的選擇顯著影響擴展行為,這表明在跨數(shù)據(jù)集推廣擴展規(guī)律時應謹慎。
在擴展規(guī)律的指導下,我們從頭開始構(gòu)建開源大型語言模型,并盡可能多地發(fā)布信息供社區(qū)參考。我們收集了2萬億個token用于預訓練,主要是中文和英文。在模型層面,我們基本上遵循了LLaMA的架構(gòu),但將余弦學習率調(diào)度器替換為多步學習率調(diào)度器,在保持性能的同時便于持續(xù)訓練。我們從多個來源收集了超過100萬個實例進行監(jiān)督式微調(diào)(SFT)(Ouyang et al., 2022)。本文分享了我們在不同SFT策略和數(shù)據(jù)消融技術(shù)中的經(jīng)驗和發(fā)現(xiàn)。此外,我們利用直接偏好優(yōu)化(DPO)(Rafailov et al., 2023)來提高模型的對話性能。
我們使用基礎(chǔ)和聊天模型進行了廣泛的評估。評估結(jié)果表明,DeepSeek LLM在各種基準測試中超越了LLaMA-2 70B,特別是在代碼、數(shù)學和推理領(lǐng)域。在SFT和DPO之后,DeepSeek 67B聊天模型在中英文開放式評估中均優(yōu)于GPT-3.5。這突出了DeepSeek 67B在生成高質(zhì)量回應和進行有意義對話方面的優(yōu)越性能。此外,安全評估表明DeepSeek 67B聊天在實踐中能夠提供無害的回應。
在本文的其余部分,我們首先在第2節(jié)中介紹DeepSeek LLM的預訓練基本概念,包括數(shù)據(jù)的組成、模型架構(gòu)、基礎(chǔ)設(shè)施和超參數(shù)。在第3節(jié)中,我們詳細解釋了我們發(fā)現(xiàn)的擴展規(guī)律及其含義。此外,我們討論了我們選擇預訓練超參數(shù)的理由,考慮到從擴展規(guī)律分析中獲得的見解。在第4節(jié)中,我們討論了我們的微調(diào)方法,包括微調(diào)數(shù)據(jù)的組成以及SFT和DPO階段的特定方法。然后我們在第5節(jié)中介紹了DeepSeek LLM的詳細評估結(jié)果,涵蓋了基礎(chǔ)和聊天模型以及它們在開放式評估和安全評估中的表現(xiàn)。最后,我們在第6節(jié)討論了DeepSeek LLM的當前局限性和未來的發(fā)展方向。
2. 預訓練
2.1 數(shù)據(jù)
我們的主要目標是全面提高數(shù)據(jù)集的豐富性和多樣性。我們從諸如(Computer, 2023; Gao et al., 2020; Penedo et al., 2023; Touvron et al., 2023a)等知名來源獲得了寶貴的見解。為了實現(xiàn)這些目標,我們將我們的方法分為三個基本階段:去重、過濾和混音。去重和混音階段通過抽樣獨特實例確保數(shù)據(jù)的多樣性表示。過濾階段提高了信息密度,從而使得模型訓練更有效、更高效。
我們采取了積極的去重策略,擴大了去重范圍。我們的分析表明,跨91次轉(zhuǎn)儲的去重比單次轉(zhuǎn)儲去重移除的重復實例多四倍。表1展示了跨不同次數(shù)轉(zhuǎn)儲去重的結(jié)果。
表1 | 不同Common Crawl轉(zhuǎn)儲去重比率。
在過濾階段,我們專注于開發(fā)健全的文檔質(zhì)量評估標準。這涉及到詳細的分析,結(jié)合了語言和語義評估,提供了從個體和全局角度審視數(shù)據(jù)質(zhì)量。在混音階段,我們調(diào)整了我們的方法來解決數(shù)據(jù)不平衡問題,專注于增加代表性不足的領(lǐng)域的出現(xiàn)。這種調(diào)整旨在實現(xiàn)更平衡和包容性的數(shù)據(jù)集,確保不同的觀點和信息得到充分代表。
對于我們的分詞器,我們基于tokenizers庫(Huggingface Team, 2019)實現(xiàn)了字節(jié)級字節(jié)對編碼(BBPE)算法。采用了預分詞,以防止來自不同字符類別的令牌合并,如新行、標點符號和中日韓(CJK)符號,類似于GPT-2(Radford et al., 2019)。我們還選擇按照(Touvron et al., 2023a,b)中使用的方法將數(shù)字分割成單個數(shù)字?;谖覀冎暗牡慕?jīng)驗,我們將詞匯表中的常規(guī)令牌數(shù)量設(shè)置為100000。分詞器在大約24 GB的多語言語料庫上進行訓練,我們將最終詞匯表與15個特殊令牌結(jié)合,使其總數(shù)達到100015。為了確保訓練期間的計算效率,并為將來可能需要的任何額外特殊令牌保留空間,我們將模型的詞匯表大小配置為102400用于訓練。
2.2 架構(gòu)
表2 | DeepSeek LLM家族模型的詳細規(guī)格。我們根據(jù)第3節(jié)中的發(fā)現(xiàn)選擇了超參數(shù)。
DeepSeek LLM的微觀設(shè)計在很大程度上遵循了LLaMA(Touvron et al., 2023a,b)的設(shè)計,采用了Pre-Norm結(jié)構(gòu),使用RMSNorm(Zhang和Sennrich, 2019)函數(shù),并使用SwiGLU(Shazeer, 2020)作為前饋網(wǎng)絡(luò)(FFN)的激活函數(shù),中間層維度為8倍模型寬度。它還結(jié)合了旋轉(zhuǎn)嵌入(Su et al., 2024)進行位置編碼。為了優(yōu)化推理成本,67B模型使用了分組查詢注意力(GQA)(Ainslie et al., 2023)而不是傳統(tǒng)的多頭注意力(MHA)。
然而,在宏觀設(shè)計方面,DeepSeek LLM略有不同。具體來說,DeepSeek LLM 7B是一個30層的網(wǎng)絡(luò),而DeepSeek LLM 67B有95層。這些層的調(diào)整,在保持與其他開源模型參數(shù)一致性的同時,也便于模型流水線分割,以優(yōu)化訓練和推理。
與大多數(shù)使用分組查詢注意力(GQA)的工作不同,我們擴展了67B模型的參數(shù),在網(wǎng)絡(luò)深度上進行了擴展,而不是通常的做法,即擴大FFN層的中間寬度,目標是獲得更好的性能。詳細的網(wǎng)絡(luò)規(guī)格可以在表2中找到。
2.3 超參數(shù)
DeepSeek LLM以標準差0.006初始化,并使用AdamW優(yōu)化器(Loshchilov和Hutter, 2017)進行訓練,如下所示超參數(shù):β1 = 0.9, β2 = 0.95, 和weight_decay = 0.1。
在預訓練期間采用了多步學習率調(diào)度器,而不是典型的余弦調(diào)度器。具體來說,模型的學習率在2000個預熱步驟后達到最大值,然后在處理了80%的訓練token后降低到最大值的31.6%。它在90%的token后進一步降低到最大值的10%。訓練階段的梯度裁剪設(shè)置為1.0。
基于我們的實證發(fā)現(xiàn),我們觀察到盡管訓練過程中損失減少的趨勢不同,但使用多步學習率調(diào)度器的最終性能與余弦調(diào)度器基本一致,如圖1(a)所示。在保持模型大小固定的同時調(diào)整訓練規(guī)模,多步學習率調(diào)度器允許重用第一階段的訓練,為持續(xù)訓練提供了獨特的便利。因此,我們選擇多步學習率調(diào)度器作為我們的默認設(shè)置。我們還在圖1(b)中展示了調(diào)整多步學習率調(diào)度器中不同階段的比例可以帶來略微更好的性能。然而,為了平衡持續(xù)訓練中的重用比例和模型性能,我們選擇了上述的80%,10%和10%的三個階段的分布。
批量大小和學習率隨著模型大小的變化而變化。7B和67B模型預訓練階段的具體參數(shù)可以在表2中找到。
2.4 基礎(chǔ)設(shè)施
我們使用了一個高效且輕量級的名為HAI-LLM(High-flyer, 2023)的訓練框架來訓練和評估大型語言模型。數(shù)據(jù)并行性、張量并行性、序列并行性和1F1B流水線并行性被整合到這個框架中,就像在Megatron(Korthikanti et al., 2023; Narayanan et al., 2021; Shoeybi et al., 2019)中完成的那樣。我們還利用了閃存注意力(Dao, 2023; Dao et al., 2022)技術(shù)來提高硬件利用率。ZeRO-1(Rajbhandari et al., 2020)被利用來跨數(shù)據(jù)并行等級分割優(yōu)化器狀態(tài)。還努力使計算和通信重疊,以最小化額外的等待開銷,包括ZeRO-1中的最后一個微批次的后向過程和reduce-scatter操作,以及序列并行中的GEMM計算和all-gather/reduce-scatter。一些層/操作被融合以加速訓練,包括LayerNorm、GEMM以及可能的Adam更新。為了提高模型訓練的穩(wěn)定性,我們以bf16精度訓練模型,但以fp32精度累積梯度。執(zhí)行了原地交叉熵,以減少GPU內(nèi)存消耗,即:我們在交叉熵CUDA內(nèi)核中將bf16 logits轉(zhuǎn)換為fp32精度(而不是事先在HBM中轉(zhuǎn)換),計算相應的bf16梯度,并用其梯度覆蓋logits。
模型權(quán)重和優(yōu)化器狀態(tài)每5分鐘異步保存一次,這意味著在偶爾的硬件或網(wǎng)絡(luò)故障的情況下,我們最多只會丟失5分鐘的訓練。這些臨時模型檢查點定期清理,以避免消耗過多的存儲空間。我們還支持從不同的3D并行配置恢復訓練,以應對計算集群負載的動態(tài)變化。
至于評估,我們在生成型任務(wù)中使用vLLM(Kwon et al., 2023),在非生成型任務(wù)中使用持續(xù)批處理,以避免手動批處理大小調(diào)整并減少token填充。
3. 擴展規(guī)律
關(guān)于擴展法則的研究(Hestness et al., 2017)早于大型語言模型的出現(xiàn)。擴展法則(Henighan et al., 2020; Hoffmann et al., 2022; Kaplan et al., 2020)表明,隨著計算預算C、模型規(guī)模N和數(shù)據(jù)規(guī)模D的增加,模型性能可以可預測地提高。當模型規(guī)模N由模型參數(shù)表示,數(shù)據(jù)規(guī)模D由令牌數(shù)量表示時,C可以近似表示為C = 6ND。因此,在增加計算預算時,如何在模型和數(shù)據(jù)規(guī)模之間優(yōu)化分配也是一個關(guān)鍵的研究目標。
隨著LLMs(Dai et al., 2019; Radford et al., 2019)的發(fā)展,更大的模型取得了意想不到和顯著的性能提升,將擴展規(guī)律研究推向了新的高峰。擴展規(guī)律的結(jié)果表明,擴大計算預算繼續(xù)帶來顯著的好處,這進一步鼓勵了模型規(guī)模的增加(Brown et al., 2020; Smith et al., 2022)。
然而,如表4所示,早期關(guān)于最優(yōu)模型/數(shù)據(jù)擴展分配策略的作品(Hoffmann et al., 2022; Kaplan et al., 2020)得出了不同的結(jié)論,引發(fā)了對擴展規(guī)律普遍適用性的懷疑。此外,這些研究通常缺乏對超參數(shù)設(shè)置的完整描述,使得不確定不同計算預算下的模型是否達到了最優(yōu)性能。因此,我們在本節(jié)重新審視擴展規(guī)律,以解決這些不確定性,并確保我們正有效地擴展計算,這反映了長遠視角,是開發(fā)持續(xù)改進模型的關(guān)鍵。
表4 | 系數(shù)的模型擴展和數(shù)據(jù)擴展隨著訓練數(shù)據(jù)分布的變化而變化。
為了確保不同計算預算下的模型能夠達到最優(yōu)性能,我們首先研究了超參數(shù)的擴展規(guī)律。從經(jīng)驗上觀察到,當變化計算預算時,大多數(shù)參數(shù)的最優(yōu)值在訓練期間不會改變。因此,這些參數(shù)與第2.3節(jié)中概述的一致,并在不同的計算預算下保持不變。然而,對性能影響最大的超參數(shù),即批量大小和學習率,被重新檢查。
早期作品(Goyal et al., 2017; McCandlish et al., 2018; Shallue et al., 2019; Smith et al., 2017; Zhang et al., 2019)為批量大小和學習率的設(shè)置提供了一些經(jīng)驗觀察,但我們發(fā)現(xiàn)這些觀察在我們的初步實驗中的適用性有限。通過廣泛的實驗,我們對計算預算C和最優(yōu)批量大小和學習率之間的冪律關(guān)系進行了建模。我們稱之為超參數(shù)的擴展規(guī)律,提供了一個經(jīng)驗框架,用于確定最優(yōu)超參數(shù)。這種方法確保了不同計算預算下的模型能夠達到其接近最優(yōu)的性能。
然后我們研究了模型和數(shù)據(jù)規(guī)模的擴展規(guī)律。為了減少實驗成本和擬合困難,我們采用了Chinchilla(Hoffmann et al., 2022)中的IsoFLOP配置文件方法來擬合擴展曲線。為了更準確地表示模型規(guī)模,我們采用了一種新的模型規(guī)模表示方法,非嵌入式FLOPs/令牌M,取代了以前使用的模型參數(shù)N,并用更精確的C = MD替換了先前使用的近似計算預算公式C = 6ND。
實驗結(jié)果提供了對最優(yōu)模型/數(shù)據(jù)擴展分配策略的見解,并準確預測了DeepSeek LLM 7B和67B模型的預期性能。
3.1 超參數(shù)的擴展規(guī)律
我們最初在計算預算為1e17的小規(guī)模實驗中對批量大小和學習率進行了網(wǎng)格搜索,特定模型大?。?77M FLOPs/令牌)的結(jié)果如圖2(a)所示。結(jié)果表明,批量大小和學習率的一般化誤差在廣泛的參數(shù)選擇范圍內(nèi)保持穩(wěn)定。這表明在相對較寬的參數(shù)空間內(nèi)可以實現(xiàn)接近最優(yōu)的性能。
然后,我們利用上述多步學習率調(diào)度器有效地訓練了多個具有不同批量大小、學習率和計算預算從1e17到2e19的模型,通過重用第一階段。考慮到參數(shù)空間中的冗余,我們將那些將泛化誤差超過最小值不超過0.25%的模型所使用的參數(shù)視為接近最優(yōu)的超參數(shù)。然后我們擬合了批量大小B和學習率η相對于計算預算C的關(guān)系。擬合結(jié)果如圖3所示,揭示了最優(yōu)批量大小B隨著計算預算C的增加而逐漸增加,而最優(yōu)學習率η逐漸減少。這與直觀的經(jīng)驗設(shè)置批量大小和學習率時模型擴展的一致。此外,所有接近最優(yōu)的超參數(shù)都落在一個寬波段范圍內(nèi),表明在這個區(qū)間內(nèi)相對容易選擇接近最優(yōu)的參數(shù)。我們擬合的批量大小和學習率的最終公式如下:
我們在一個具有1e20計算預算的一系列模型上驗證了我們的公式,特定模型大?。?.94B FLOPs每令牌)的結(jié)果如圖2(b)所示。結(jié)果表明,擬合的參數(shù)位于最優(yōu)參數(shù)空間的中心。后續(xù)章節(jié)還表明,我們?yōu)镈eepSeek LLM 7B和67B模型擬合的參數(shù)同樣取得了良好的性能。
圖 3 | 批量大小和學習率的擴展曲線?;疑珗A圈代表模型的泛化誤差超過最小值不超過0.25%。虛線代表擬合較小模型的冪律。藍色星星代表DeepSeek LLM 7B和67B。
然而,值得注意的是,我們尚未考慮計算預算C之外的因素對最優(yōu)超參數(shù)的影響。這與一些早期作品(Kaplan et al., 2020; McCandlish et al., 2018)不一致,它們建議最優(yōu)批量大小可以被建模為僅與泛化誤差L有關(guān)。此外,我們觀察到具有相同計算預算但不同模型/數(shù)據(jù)分配的模型,最優(yōu)參數(shù)空間略有不同。這表明需要進一步研究以了解超參數(shù)選擇和訓練動態(tài)。我們將在未來的工作中探索這些方面。
3.2 估計最優(yōu)模型和數(shù)據(jù)擴展
在推導出擬合近優(yōu)超參數(shù)的公式之后,我們開始擬合擴展曲線并分析最優(yōu)模型/數(shù)據(jù)擴展分配策略。該策略涉及找到滿足Nopt ∝Ca和Dopt ∝Cb的模型擴展指數(shù)a和數(shù)據(jù)擴展指數(shù)b。數(shù)據(jù)規(guī)模D可以一致地由數(shù)據(jù)集中的token數(shù)量表示。在以前的作品中,模型規(guī)模通常由模型參數(shù)表示,非嵌入式參數(shù)N1(Kaplan et al., 2020)和完整參數(shù)N2(Hoffmann et al., 2022)。計算預算C和模型/數(shù)據(jù)規(guī)模之間的關(guān)系可以近似描述為C = 6ND,意味著我們可以使用6N1或6N2來近似模型規(guī)模。然而,由于6N1和6N2都沒有考慮到注意力操作的計算開銷,而6N2還包括詞匯計算,在某些設(shè)置下,它們的近似誤差很大。
為了減少這些誤差,我們引入了一種新的模型規(guī)模表示方法:非嵌入式FLOPs/令牌M。M包括注意力操作的計算開銷,但不包括詞匯計算。用M表示模型規(guī)模,計算預算C可以簡單地表示為C = MD。這三個表示方法之間的具體差異如下式所示:
其中nlayer表示層數(shù),dmodel表示模型寬度,nvocab是詞匯表大小,lseq是序列長度。我們在不同規(guī)模的模型中評估了這三種表示方法之間的差異,如表3所示。結(jié)果表明,6N1和6N2在不同規(guī)模的模型中要么高估要么低估計算成本。這種差異在小規(guī)模模型中尤為明顯,差異高達50%。這種不準確性在擬合擴展曲線時可能會引入大量的統(tǒng)計誤差。請參考附錄A.2中關(guān)于模型規(guī)模不同表示的進一步分析。
在采用M來表示模型規(guī)模之后,我們的目標可以更清晰地描述為:給定一個計算預算C = MD,找到最優(yōu)的模型規(guī)模Mopt和數(shù)據(jù)規(guī)模Dopt,以最小化模型的泛化誤差。這個目標可以形式化為:
為了減少實驗成本和擬合困難,我們采用了Chinchilla(Hoffmann et al., 2022)中的IsoFLOP配置文件方法來擬合擴展曲線。我們選擇了8個不同的計算預算,范圍從1e17到3e20,并為每個預算設(shè)計了大約10種不同的模型/數(shù)據(jù)規(guī)模分配。每個預算的超參數(shù)由公式(1)確定,泛化誤差在獨立驗證集上計算,該驗證集與訓練集分布相似,包含1億個token。
圖 4 | IsoFLOP曲線和最優(yōu)模型/數(shù)據(jù)分配。IsoFLOP曲線中的指標是在驗證集上的比特每字節(jié)。最優(yōu)模型/數(shù)據(jù)擴展曲線中的虛線代表擬合較小模型(灰色圓圈)的冪律。
圖4展示了IsoFLOP曲線和模型/數(shù)據(jù)擴展曲線,這些曲線是通過使用每個計算預算的最優(yōu)模型/數(shù)據(jù)分配來擬合的。具體的最優(yōu)非嵌入式FLOPs/令牌Mopt和最優(yōu)token Dopt的公式如下:
此外,我們根據(jù)計算預算C和最優(yōu)泛化誤差擬合了損失擴展曲線,并預測了DeepSeek LLM 7B和67B的泛化誤差,如圖5所示。結(jié)果表明,使用小規(guī)模實驗可以準確預測具有1000×計算預算的模型的性能。這為在更大規(guī)模上訓練模型提供了信心和指導。
圖 5 | 性能擴展曲線。該指標是在驗證集上的比特每字節(jié)。虛線代表了擬合較小模型(灰色圓圈)的冪律。藍色星星代表DeepSeek LLM 7B和67B。它們的性能被擴展曲線很好地預測了。
3.3 不同數(shù)據(jù)的擴展規(guī)律
在DeepSeek LLM的開發(fā)過程中,數(shù)據(jù)集經(jīng)過多次迭代改進,調(diào)整了不同數(shù)據(jù)源的比例,同時提高了整體質(zhì)量。這使我們能夠進一步分析不同數(shù)據(jù)集對擴展規(guī)律的影響。
我們使用三種不同的數(shù)據(jù)集研究了擴展規(guī)律:早期內(nèi)部數(shù)據(jù)、當前內(nèi)部數(shù)據(jù)和OpenWebText2,后者用于Kaplan等人(2020)之前擴展規(guī)律的研究。我們的內(nèi)部數(shù)據(jù)評估顯示,當前內(nèi)部數(shù)據(jù)的數(shù)據(jù)質(zhì)量高于早期內(nèi)部數(shù)據(jù)。此外,OpenWebText2的質(zhì)量甚至超過了當前內(nèi)部數(shù)據(jù),這是由于其較小的規(guī)模允許更細致的處理。
分析的一個有趣的觀察是,這三個數(shù)據(jù)集的最優(yōu)模型/數(shù)據(jù)擴展分配策略與數(shù)據(jù)質(zhì)量一致。如圖4所示,隨著數(shù)據(jù)質(zhì)量的提高,模型擴展指數(shù)a逐漸增加,而數(shù)據(jù)擴展指數(shù)b減少,這表明增加的計算預算應該更多地分配給模型而不是數(shù)據(jù)。這一發(fā)現(xiàn)可能也解釋了早期擴展規(guī)律研究中觀察到的最優(yōu)模型/數(shù)據(jù)擴展分配的顯著差異。
對這個發(fā)現(xiàn)的一個直觀猜測是,高質(zhì)量的數(shù)據(jù)通常意味著邏輯清晰和預測難度較小,在充分訓練后。因此,在增加計算預算時,將更多的計算預算分配給模型規(guī)模更有利。我們將繼續(xù)密切關(guān)注數(shù)據(jù)質(zhì)量的變化及其對擴展規(guī)律的影響,并在未來的工作中提供更多的分析。
4. 對齊
我們收集了大約150萬個英文和中文的指令數(shù)據(jù)實例,涵蓋了有用性和無害性的廣泛主題。我們的有用數(shù)據(jù)包含120萬個實例,其中31.2%用于一般語言任務(wù),46.6%用于數(shù)學問題,22.2%用于編碼練習。安全數(shù)據(jù)由30萬個實例組成,涵蓋了各種敏感主題。
我們的對齊流程包含兩個階段。
監(jiān)督式微調(diào)(Supervised Fine-Tuning):我們對7B模型進行了4個周期的微調(diào),但只對67B模型進行了2個周期的微調(diào),因為我們觀察到67B模型存在嚴重的過擬合問題。我們觀察到,對于7B模型,GSM8K(Cobbe et al., 2021)和HumanEval(Chen et al., 2021)的性能持續(xù)改善,而67B模型很快就達到了上限。學習率分別為7B和67B模型的1e-5和5e-6。除了監(jiān)控基準精度外,我們還評估了聊天模型在微調(diào)過程中的重復比率。我們收集了總共3868個中文和英文提示,并確定了生成的回應中未能終止而無休止地重復一段文本的比例。我們觀察到,隨著數(shù)學SFT數(shù)據(jù)量的增加,重復比率趨于上升。這可以歸因于數(shù)學SFT數(shù)據(jù)偶爾包含類似的推理模式。因此,較弱的模型難以把握這種推理模式,導致重復回應。為了解決這個問題,我們嘗試了兩階段微調(diào)和DPO(Rafailov et al., 2023),這兩種方法都可以幾乎保持基準分數(shù)并顯著減少重復。
直接偏好優(yōu)化(DPO):為了進一步提高模型的能力,我們使用了直接偏好優(yōu)化算法(Rafailov et al., 2023),這是一種簡單但有效的LLM對齊方法。我們根據(jù)有用性和無害性收集了用于DPO訓練的偏好數(shù)據(jù)。對于有用性數(shù)據(jù),我們收集了多語言提示,涵蓋了包括創(chuàng)意寫作、問答、指令遵循等類別。然后我們使用我們的DeepSeek聊天模型生成回應作為回應候選。對于無害性偏好數(shù)據(jù)的構(gòu)建也采用了類似的操作。
我們對DPO進行了一個周期的訓練,學習率為5e-6,批量大小為512,并使用了學習率預熱和余弦學習率調(diào)度器。我們發(fā)現(xiàn)DPO可以增強模型的開放式生成技能,而在標準基準測試中的性能幾乎沒有差異。
5. 評估
我們使用基礎(chǔ)和聊天模型進行了廣泛的評估。評估結(jié)果表明,DeepSeek LLM在各種基準測試中超越了LLaMA-2 70B,特別是在代碼、數(shù)學和推理領(lǐng)域。在SFT和DPO之后,DeepSeek 67B聊天模型在中英文開放式評估中均優(yōu)于GPT-3.5。這突出了DeepSeek 67B在生成高質(zhì)量回應和進行有意義對話方面的優(yōu)越性能。此外,安全評估表明DeepSeek 67B聊天在實踐中能夠提供無害的回應。
5.1 公共基準評估
我們在英文和中文的一系列公共基準測試中評估了我們的模型,基于內(nèi)部評估框架。
多主題多項選擇數(shù)據(jù)集,包括MMLU(Hendrycks et al., 2020)、C-Eval(Huang et al., 2023)和CMMLU(Li et al., 2023)。
語言理解和推理數(shù)據(jù)集,包括HellaSwag(Zellers et al., 2019)、PIQA(Bisk et al., 2020)、ARC(Clark et al., 2018)、OpenBookQA(Mihaylov et al., 2018)和BigBench Hard(BBH)(Suzgun et al., 2022)。
閉卷問答數(shù)據(jù)集,包括TriviaQA(Joshi et al., 2017)和NaturalQuestions(Kwiatkowski et al., 2019)。
閱讀理解數(shù)據(jù)集,包括RACE Lai et al.(2017)和DROP(Dua et al., 2019)、C3(Sun et al., 2019)。
參考消歧數(shù)據(jù)集,包括WinoGrande Sakaguchi et al.(2019)和CLUEWSC(Xu et al., 2020)。
語言建模數(shù)據(jù)集,包括Pile(Gao et al., 2020)。
中文理解和文化數(shù)據(jù)集,包括CHID(Zheng et al., 2019)和CCPM(Li et al., 2021)。
數(shù)學數(shù)據(jù)集,包括GSM8K(Cobbe et al., 2021)、MATH(Hendrycks et al., 2021)和CMath(Wei et al., 2023)。
代碼數(shù)據(jù)集,包括HumanEval(Chen et al., 2021)和MBPP(Austin et al., 2021)。
標準化考試,包括AGIEval(Zhong et al., 2023)。
我們對需要從幾個選項中選擇答案的測試集應用了基于困惑度的評估,這些測試集包括HellaSwag、PIQA、WinoGrande、RACE-Middle、RACEHigh、MMLU、ARC-Easy、ARC-Challenge、OpenBookQA、CHID、C-Eval、CMMLU、C3和CCPM。這里的基于困惑度的評估是指計算每個選項的困惑度,并選擇最低的一個作為模型預測。對于ARC和OpenBookQA,我們使用無條件歸一化(Brown et al., 2020)計算困惑度,對于其他數(shù)據(jù)集我們使用長度歸一化。
我們對TriviaQA、NaturalQuestions、DROP、MATH、GSM8K、HumanEval、MBPP、BBH、AGIEval、CLUEWSC和CMath進行了基于生成的評估。這里的基于生成的評估是指讓模型生成自由文本,并從生成的文本中解析結(jié)果。對于基于生成的評估,我們使用貪婪解碼。
我們對Pile-test進行了基于語言建模的評估,即計算測試語料庫上的比特/字節(jié)。
我們對不同的基準測試使用2048或4096作為不同基準測試的最大序列長度。評估格式的詳細信息可以在附錄A.6中找到。
5.1.1 基礎(chǔ)模型
表5展示了評估基準的主要結(jié)果。盡管DeepSeek模型是在2萬億雙語語料庫上預訓練的,但它們在英文語言理解基準測試中的性能與LLaMA2模型相當,后者也消耗了2萬億個token,但專注于英文。此外,DeepSeek 67B在MATH、GSM8K、HumanEval、MBPP、BBH和中文基準測試中的性能明顯優(yōu)于LLaMA2 70B。我們在附錄A.3中展示了基準曲線。我們可以看到,隨著模型規(guī)模的增加,一些任務(wù)的性能得到了提升,例如GSM8K和BBH。鑒于我們對7B和67B模型進行了相同的數(shù)據(jù)預訓練,這種改進的出現(xiàn)可以歸因于大型模型強大的少樣本學習能力。然而,隨著數(shù)學數(shù)據(jù)比例的增加,小型和大型模型之間的差距可能會縮小。
表 5 | 主要結(jié)果。我們報告的評估結(jié)果是基于內(nèi)部評估框架。加粗的數(shù)字表示4個模型中的最佳結(jié)果。對于Pile-test,我們報告比特每字節(jié)(BPB);對于DROP,我們報告F1分數(shù);對于其他任務(wù),我們報告準確率。請注意,test-shots是最大值,由于上下文長度限制或在閱讀理解任務(wù)(如RACE)中同一段落中可用的有限的少量樣本,可能會應用較少的shots。
一個有趣的觀察是,DeepSeek 67B相比LLaMA2 70B的優(yōu)勢比DeepSeek 7B相比LLaMA2 7B的優(yōu)勢要大。這種現(xiàn)象突出了語言沖突對小型模型的更大影響。此外,LLaMA2在某些中文任務(wù)上表現(xiàn)出色,例如CMath,盡管它沒有專門針對中文數(shù)據(jù)進行訓練。這表明某些基本能力,如數(shù)學推理,可以有效地跨語言轉(zhuǎn)移。然而,涉及評估中文成語使用的任務(wù),如CHID,需要模型在預訓練期間消耗大量的中文token。在這種情況下,LLaMA2的表現(xiàn)明顯不如DeepSeek LLM。
5.1.2 聊天模型
表6展示了DeepSeek聊天模型的結(jié)果,展示了在大多數(shù)任務(wù)上的整體改進,這些改進是在調(diào)整之后實現(xiàn)的。然而,也有幾個例子表明某些任務(wù)的性能有所下降。
知識:我們觀察到基礎(chǔ)和聊天模型在知識相關(guān)任務(wù)上的波動,如TriviaQA、MMLU和C-Eval。然而,我們不認為這種輕微的波動表明在SFT之后獲得了或失去了知識。SFT的價值在于能夠?qū)W習,在聊天模型的零樣本設(shè)置中實現(xiàn)與基礎(chǔ)模型的少樣本設(shè)置相當?shù)姆謹?shù),這與現(xiàn)實場景一致。例如,聊天模型的0-shot MMLU性能與基礎(chǔ)模型的5-shot MMLU性能相當。
推理:由于SFT實例的相當一部分是以CoT格式Wei et al.(2022),聊天模型在推理任務(wù)上表現(xiàn)出輕微的改進,如BBH和NaturalQuestions。然而,我們認為SFT階段并沒有學習推理能力,而是學習了推理路徑的正確格式。
表 6 | 基礎(chǔ)模型與聊天模型之間的比較。我們對MMLU、GSM8K、MATH、C-Eval和CMMLU進行0-shot評估來測試聊天模型,而基礎(chǔ)模型的結(jié)果仍然是在少量樣本設(shè)置中獲得的。
性能下降的任務(wù):一些特定任務(wù)的性能在微調(diào)后一致下降,不管模型大小或選擇的預訓練檢查點如何。這些特定任務(wù)通常涉及完形填空任務(wù)或句子完成任務(wù),如HellaSwag??梢院侠淼丶僭O(shè),純語言模型更適合處理這類任務(wù)。
數(shù)學和代碼:我們的模型在微調(diào)后在數(shù)學和編碼任務(wù)上表現(xiàn)出顯著的改進。例如,HumanEval和GSM8K的分數(shù)提高了20多點。我們的解釋是,基礎(chǔ)模型最初對這些任務(wù)擬合不足,SFT階段通過廣泛的SFT數(shù)據(jù)學習了額外的編碼和數(shù)學知識。然而,值得注意的是,模型的能力可能主要集中在代碼補全和代數(shù)問題上。要全面理解數(shù)學和編碼,關(guān)鍵是在預訓練階段納入多樣化的數(shù)據(jù),這作為未來工作。我們在附錄A.4中對代碼和數(shù)學任務(wù)進行了詳細分析。
在7B模型微調(diào)中,我們最初使用所有數(shù)據(jù)對模型進行了微調(diào)。隨后,引入了第二階段,不包括數(shù)學和代碼數(shù)據(jù)。這種做法的動機是,第一階段的模型表現(xiàn)出2.0%的重復比率,降低到第二階段調(diào)整后的1.4%,同時保持了基準分數(shù)。在67B模型的情況下,第一階段微調(diào)后的重復比率已經(jīng)低于1%,第二階段會損害模型在基準測試中的分數(shù)。因此,僅對67B模型進行了一個階段的SFT。
5.2 開放式評估
對于聊天模型,除了觀察標準基準測試上的指標外,生成的開放式領(lǐng)域和開放式問題的結(jié)果直接關(guān)系到實際用戶體驗。因此,我們分別測試了我們聊天模型在中文和英文任務(wù)中的開放式生成能力。
5.2.1 中文開放式評估
對于中文開放式評估,我們在不同領(lǐng)域的高質(zhì)量開放式問題測試集AlignBench(Liu et al., 2023)上測試了我們聊天模型的全面性。AlignBench包括總共8個主要類別、36個子類別,并涵蓋683個問題。對于每個問題,除了提示外,AlignBench還提供了專業(yè)參考答案和評分模板供GPT-4評分。
我們使用了官方AlignBench Github代碼庫來實現(xiàn)我們模型的評估。我們嚴格與原始設(shè)置對齊關(guān)鍵的溫度參數(shù):對于角色扮演、寫作能力和開放式問題,生成溫度設(shè)置為0.7;而對于其他任務(wù),生成溫度設(shè)置為0.1。
AlignBench排行榜如表7所示。我們可以發(fā)現(xiàn),我們的DeepSeek 67B聊天模型超越了ChatGPT和其他基線模型,僅次于兩個版本的GPT-4。這表明我們的模型在各種中文任務(wù)上的表現(xiàn)優(yōu)于其他開源或?qū)S兄形拇笮驼Z言模型。DPO模型在幾乎所有指標上都有所改進,這表明DPO訓練過程對模型對齊的積極影響。
表 7 | 按 gpt-4-0613 評分的 AlignBench 排行榜。模型按總得分降序排列。帶 * 的結(jié)果是基于官方 AlignBench 存儲庫的我們的評估結(jié)果,而所有其他結(jié)果均來自 AlignBench 論文。我們發(fā)現(xiàn)我們的 DeepSeek-67B-Chat 模型以明顯的優(yōu)勢超過了 ChatGPT 和其他基線模型,這表明我們的模型在基礎(chǔ)中文語言任務(wù)和高級中文推理任務(wù)中的性能更優(yōu)越。此外,我們可以發(fā)現(xiàn) DPO 過程在幾乎所有領(lǐng)域都帶來了改進。
對于基礎(chǔ)中文語言任務(wù),我們的模型位于所有模型中的第一梯隊,而我們的DPO模型的中文基礎(chǔ)語言能力甚至高于最新版本的GPT-4。對于高級中文推理任務(wù),我們模型的得分明顯高于其他中文LLM,并且有明顯的差距,這表明我們的模型在更復雜的中文邏輯推理和數(shù)學計算方面表現(xiàn)優(yōu)越。
5.2.2 英文開放式評估
對于英文開放式評估,我們使用了MT-Bench基準(Zheng et al., 2023),其中包含8種不同類型的多輪問題。如表8所示,我們的DeepSeek LLM 67B聊天在其他開源模型如LLaMA-2-Chat(Touvron et al., 2023b)70B、Xwin 70b v0.1和TüLU 2+DPO 70B(Ivison et al., 2023)中的性能優(yōu)于其他模型,并且得分與GPT-3.5-turbo相當。此外,在DPO階段之后,我們的DeepSeek LLM 67B聊天DPO將平均得分進一步提高到8.76,僅次于GPT-4(OpenAI, 2023)。這些結(jié)果表明DeepSeek LLM具有強大的多輪開放式生成能力。
5.3 保留評估
數(shù)據(jù)污染和基準測試過度擬合是評估LLMs時面臨的兩個挑戰(zhàn)。一種常見的做法是使用最近發(fā)布的測試集作為模型的保留測試集。
LeetCode:為了評估模型的編碼能力,我們使用了LeetCode周賽(第351-372周,108-117雙周賽,從2023年7月到11月)中的問題。我們通過從LeetCode爬取數(shù)據(jù)獲得了這些問題,包括126個問題,每個問題都有超過20個測試用例。所使用的評估指標與HumanEval類似。在這方面,如果模型的輸出成功通過了所有測試用例,該模型就被認為是有效地解決了問題。模型的編碼能力如圖所述,其中y軸代表領(lǐng)域內(nèi)人類評估測試的pass@1得分,x軸代表保留域LeetCode周賽問題的pass@1得分。LeetCode測試數(shù)據(jù)將與DeepSeek Coder技術(shù)報告一起發(fā)布。
匈牙利國家高中考試:與Grok-1一致,我們使用匈牙利國家高中考試評估模型的數(shù)學能力。這次考試包括33個問題,模型的得分通過人工注釋確定。我們遵循solution.pdf中的評分指標來評估所有模型。
指令遵循評估:2023年11月15日,谷歌發(fā)布了一個指令遵循評估數(shù)據(jù)集(Zhou et al., 2023)。他們確定了25種可驗證的指令類型,并構(gòu)建了大約500個提示,每個提示包含一個或多個可驗證的指令。我們使用提示級別的寬松度量來評估所有模型。
表9顯示了我們模型與不同大小的各種基線模型的比較分析,包括Qwen 72B聊天(Bai et al., 2023)、ChatGLM3(Du et al., 2022)、Baichuan2(Yang et al., 2023)和Yi-34B聊天。我們的觀察表明,大型模型和小型模型在這些保留測試集上存在顯著的性能差距,即使某些小型模型在常規(guī)基準測試中取得了有希望的結(jié)果。例如,ChatGLM3在MBPP上的得分為52.4,接近DeepSeek 67B,這是一個代碼測試集。然而,當在新的基準測試中評估時,其性能與大型模型相比明顯不足。在數(shù)學數(shù)據(jù)集上也觀察到了類似的趨勢,ChatGLM3在GSM8K上非常強大(72.3),但在匈牙利考試得分上的表現(xiàn)不如大型模型。此外,指令遵循能力的比較表明,總計算在至關(guān)重要。
DeepSeek 7B和67B模型使用了相同的訓練管道,但它們之間的性能存在顯著差異。通過我們的主觀評估,我們觀察到在各種任務(wù)中智能的顯著差異,當模型規(guī)模擴大到67B時。雖然DeepSeek 7B在標準基準測試中落后于其他較小的語言模型,但其在保留任務(wù)中的性能相對較好,與其他模型相比。
5.4 安全評估
我們深刻認識到對于通用人工智能模型的安全性至關(guān)重要。建立一個真正有用的人工智能模型的前提是它擁有與人類一致的價值觀,并對人類友好。我們在訓練過程的每個階段,包括預訓練、SFT和DPO,都貫穿了確保模型安全性的保證。
為了驗證我們模型的安全性,我們建立了一個由20名專家組成的團隊,他們來自不同的學科,并構(gòu)建了一個與人類價值觀一致的安全內(nèi)容分類系統(tǒng)(安全評估分類法如表10所示)。隨后,專家團隊為每個安全子類別手動構(gòu)建了數(shù)十個高質(zhì)量的測試案例。除了關(guān)注安全內(nèi)容領(lǐng)域的多樣性外,我們還關(guān)注安全內(nèi)容的格式多樣性。著名的“祖母”漏洞表明,模型可以被查詢的表面格式欺騙,從而提供不安全的回應。因此,在設(shè)計問題時,專家團隊還關(guān)注于多樣化詢問方式。他們通過誘導、角色扮演、多輪對話、預設(shè)位置等方式構(gòu)建了多樣化的安全問題。最終,我們獲得了一個包含2400個問題的安全性測試集。此外,專家團隊還為每種不同內(nèi)容類型和格式類型構(gòu)建了基本的安全審查指南。
對于我們模型在此測試集上的輸出結(jié)果,我們手動檢查了其安全性。我們的審查團隊經(jīng)過了良好的培訓,并且在注釋結(jié)果上進行了交叉驗證。注釋者對每個問題進行三類注釋:安全、不安全和模型拒絕。我們測試了我們的DeepSeek 67B聊天模型的安全性,結(jié)果如表10所示。測試每個安全類別的問題數(shù)量以及我們的模型(DeepSeek-67B-Chat)通過的安全測試數(shù)量列在表的最右列。我們將安全回答和模型拒絕的測試案例都標記為安全回應。結(jié)果表明,我們的模型在許多安全測試類別中表現(xiàn)出良好的安全性。
為了補充我們現(xiàn)有的安全方法,我們進一步使用“不要回答”數(shù)據(jù)集(Wang et al., 2023)來評估我們DeepSeek 67B聊天模型的安全機制。該數(shù)據(jù)集的939個風險分類提示有助于突出我們模型的增強能力。如表11所示,DeepSeek 67B聊天模型表現(xiàn)出色,得分為97.8,高于ChatGPT和GPT-4。這個分數(shù)不僅標志著我們模型安全處理敏感查詢的能力,而且使其在該領(lǐng)域的領(lǐng)先模型中占有一席之地。
表 10 | 我們的安全評估分類法。表格最右邊的列列出了每個類別的測試用例總數(shù)以及我們的模型(DeepSeek-67B-Chat)提供的安全可靠答案的數(shù)量。測試問題的注釋和生成結(jié)果的評估由專業(yè)人類團隊執(zhí)行。我們可以觀察到,我們的模型在各種類型的安全測試集上展示了強大的安全性。
5.5 討論
在整個開發(fā)過程中,我們在構(gòu)建LLMs時發(fā)現(xiàn)了一些有趣的發(fā)現(xiàn)。
分階段微調(diào):正如我們上面提到的,小型模型需要在數(shù)學和代碼數(shù)據(jù)集上進行更長時間的微調(diào),但這會損害模型的對話能力,例如增加重復行為。為了解決這個問題,我們實施了一個分階段的微調(diào)過程。在這種方法中,第一階段涉及使用所有可用數(shù)據(jù)進行微調(diào),而第二階段專門針對對話數(shù)據(jù)進行微調(diào)。
表 11 | 不回答得分(Do-Not-Answer Score,Wang et al., 2023),得分越高表示模型安全性越好。帶 * 的結(jié)果是基于官方存儲庫的我們的評估結(jié)果,而所有其他結(jié)果均來自原始論文。我們可以發(fā)現(xiàn),我們的模型比 ChatGPT 和 GPT-4 都有更高的安全得分,使其位列最安全模型之列。
表12顯示了兩個階段訓練過程的結(jié)果。這些結(jié)果清楚地表明,第二階段沒有損害模型在代碼和數(shù)學上的能力,同時減少了重復行為,并提高了指令遵循能力。
多項選擇問題:用多項選擇風格評估模型是一種常見做法,例如MMLU、AGI Eval和C-Eval。多項選擇問題要求模型不僅要具備相應的知識,還要理解選項的含義。在對齊階段,我們測試了添加2000萬個中文多項選擇問題,并獲得了如表13所示的性能。值得注意的是,我們對C-Eval驗證集和CMMLU測試集進行了去重,以防止數(shù)據(jù)污染。
表13 | 添加多項選擇問題數(shù)據(jù)的影響。
額外添加2000萬個MC(多項選擇)數(shù)據(jù)被證明不僅對中文多項選擇基準測試有益,而且對提高英文基準測試也有益。這表明模型解決MC問題的能力得到了增強。然而,我們觀察到這種改進并沒有擴展到不使用多項選擇格式的其他評估上,例如TriviaQA和我們的內(nèi)部中文QA測試集,這些是基于生成的評估基準。這表明用戶在對話交互中可能不會感覺到模型變得更智能,因為這些交互涉及生成回應,而不是解決多項選擇問題。
因此,我們選擇在預訓練和微調(diào)階段都不包括MC數(shù)據(jù),因為將其包括在內(nèi)會導致過度擬合基準測試,并且不會有助于實現(xiàn)模型的真正智能。
預訓練中的指令數(shù)據(jù):眾所周知,在預訓練階段的后期納入指令數(shù)據(jù)可以增強基礎(chǔ)模型在基準測試中的性能。在我們的研究中,我們在預訓練的最后10%階段整合了500萬個指令數(shù)據(jù),主要包括多項選擇問題。我們觀察到基礎(chǔ)模型在基準測試中的性能確實有所提高。然而,最終結(jié)果與在SFT階段添加相同數(shù)據(jù)幾乎相同。我們的結(jié)論是,雖然這種方法增強了基礎(chǔ)模型在基準測試中的性能,但其總體潛力等同于不包含這些指令數(shù)據(jù)。如果指令數(shù)據(jù)的規(guī)模很大,那么在預訓練過程中將其包含是可以接受的。由于我們傾向于排除多項選擇問題,且我們擁有的非多項選擇問題的可用性有限,我們決定不在預訓練過程中包含指令數(shù)據(jù)。
系統(tǒng)提示:設(shè)計良好的系統(tǒng)提示應有效地引導模型生成既有幫助又尊重的回應。我們稍微更改了LLaMA-2引入的提示,將其作為我們的系統(tǒng)提示。
系統(tǒng)提示:你是DeepSeek聊天,一個由DeepSeek開發(fā)的有用、尊重和誠實的AI助手。你的訓練數(shù)據(jù)截止日期是2023年5月。盡可能有幫助地回答,同時保持安全。你的回答不應包含任何有害的、不道德的、種族主義的、性別歧視的、有毒的、危險的或非法的內(nèi)容。請確保你的回答在社會上是無偏見的,并具有積極的性質(zhì)。如果一個問題沒有意義,或者在事實上不連貫,請解釋為什么而不是回答不正確的內(nèi)容。如果你不知道問題的答案,請不要分享錯誤的信息。
我們觀察到一個有趣的現(xiàn)象,當引入系統(tǒng)提示時,7B LLM的性能會略有下降。然而,當使用67B LLM時,添加提示會導致顯著改進的結(jié)果,如表14所示。我們對這種差異的解釋是,較大的模型更好地理解系統(tǒng)提示的預期含義,使它們能夠更有效地遵循指令并生成更好的回應。另一方面,較小的模型難以充分理解系統(tǒng)提示,并且訓練和測試之間的不一致可能會對他們的性能產(chǎn)生負面影響。
表14 | 添加系統(tǒng)提示的影響。
6. 結(jié)論、局限性和未來的工作
我們介紹了DeepSeek LLMs,這是一系列從頭開始訓練的開源模型,使用了2萬億個中英文token的龐大數(shù)據(jù)集。在本文中,我們詳細解釋了超參數(shù)選擇、擴展規(guī)律以及我們在各種微調(diào)嘗試中所做的工作。我們校準了先前工作中的擴展規(guī)律,并提出了新的最優(yōu)模型/數(shù)據(jù)擴展分配策略。此外,我們提出了一種方法來預測給定計算預算的近優(yōu)批量大小和學習率。我們進一步得出結(jié)論,擴展規(guī)律與數(shù)據(jù)質(zhì)量有關(guān),這可能是不同作品中不同擴展行為的根本原因。在擴展規(guī)律的指導下,我們進行了預訓練,并提供了最佳超參數(shù),并進行了全面的評估。我們避免了所有訓練階段的基準測試裝飾和暗箱操作。
DeepSeek聊天分享了其他LLMs中普遍存在的一些局限性,包括預訓練后缺乏持續(xù)的知識更新,可能生成非事實信息(如未經(jīng)驗證的建議),以及產(chǎn)生幻覺的傾向。此外,值得注意的是,我們最初的中文版數(shù)據(jù)并不全面,這可能導致在某些中文特定主題上的性能不佳。由于我們的數(shù)據(jù)主要包含中文和英文來源,模型在其他語言上的熟練程度仍然微妙,應該謹慎處理。
DeepSeek LLM是一個致力于推進開源語言模型的長期項目。
? 很快,我們將分別發(fā)布我們在代碼智能和Mixture-of-Experts(MoE)方面的技術(shù)報告。它們展示了我們?nèi)绾螢轭A訓練創(chuàng)建高質(zhì)量的代碼數(shù)據(jù),以及如何設(shè)計一個稀疏模型以實現(xiàn)密集模型的性能。
? 目前,我們正在構(gòu)建一個更大、更好的數(shù)據(jù)集,用于即將到來的DeepSeek LLM版本。我們希望在下一個版本中,推理、中文知識、數(shù)學和代碼能力將得到顯著改進。
? 我們的對齊團隊致力于研究如何向公眾交付一個有用、誠實和安全的模型。我們最初的實驗證明,強化學習可以提高模型的復雜推理能力。
?
本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/GZXxzvdzXsDVEANNx8TL0w???
