偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="zmvuj"></style>

<center id="zmvuj"></center>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

給爆火的Llama 2劃重點(diǎn)，Huggingface機(jī)器學(xué)習(xí)科學(xué)家寫了篇分析文章

作者：機(jī)器之心 2023-07-22 13:24:36

人工智能新聞

Llama 2 剛剛發(fā)布沒(méi)幾天，圍繞它的分析文章就已經(jīng)出來(lái)了。

Meta 發(fā)布的免費(fèi)可商用版本 Llama 2 刷屏整個(gè)網(wǎng)絡(luò)。

此前，Llama 1 版本因?yàn)殚_源協(xié)議問(wèn)題，一直不可免費(fèi)商用?，F(xiàn)在，隨著 Llama 2 的發(fā)布，這一限制正式被打破。

Llama 2 模型系列包含 70 億、130 億和 700 億三種模型，此外 Meta 還訓(xùn)練了一個(gè) 340 億參數(shù)變體，但并沒(méi)有發(fā)布，只在技術(shù)報(bào)告中提到了。

發(fā)布之初， Llama -2-70B-Chat 迅速登頂 Hugging Face 的 Open LLM Leaderboard。

圖片

可以說(shuō)， Llama 2 是 Llama 1 模型的延續(xù)，不論是在數(shù)據(jù)質(zhì)量、訓(xùn)練技術(shù)、性能評(píng)估、安全訓(xùn)練等方面都進(jìn)行了實(shí)質(zhì)性的技術(shù)擴(kuò)展。

Meta 的這一發(fā)布，對(duì)于開源來(lái)說(shuō)是一個(gè)巨大的飛躍，但對(duì)于閉源提供商來(lái)說(shuō)卻是一個(gè)巨大的打擊，因?yàn)檫@個(gè)模型提供了更高的可定制性和更低的成本。

相信大家很想了解關(guān)于 Llama 2 的更多信息，除了官方公開的技術(shù)資料外，來(lái)自 Huggingface 的機(jī)器學(xué)習(xí)科學(xué)家 Nathan Lambert 根據(jù)論文內(nèi)容也為我們整理了一份詳細(xì)的資料，文章還融入了他自己的見(jiàn)解。

Llama 2 論文地址：https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

Nathan Lambert 從以下幾個(gè)方面展開介紹：

模型：Meta 發(fā)布了多個(gè)模型，70 億、130 億、700 億、340 億參數(shù)變體，以及 Llama 2-Chat。Meta 將預(yù)訓(xùn)練語(yǔ)料庫(kù)的大小增加了 40%，將模型的上下文長(zhǎng)度增加了一倍至 4k，并采用了分組查詢注意力機(jī)制；（注：Llama 2 是否可被定義為「開源模型」目前還存在爭(zhēng)議，作者在最新的更正版本中認(rèn)為它不是。）
性能：Llama 2 模型系列除了在大多數(shù)基準(zhǔn)測(cè)試中優(yōu)于開源模型之外，根據(jù) Meta 對(duì)有用性和安全性的人工評(píng)估，它或許也是閉源模型的合適替代品；
成本：Meta 動(dòng)用了巨大的預(yù)算，預(yù)計(jì)該項(xiàng)目的總成本將在2000萬(wàn)至4500萬(wàn)美元之間。單就數(shù)據(jù)來(lái)說(shuō)，如果按市場(chǎng)價(jià)格計(jì)算，準(zhǔn)備偏好數(shù)據(jù)花費(fèi)約為 800 萬(wàn)美元，數(shù)據(jù)團(tuán)隊(duì)非常龐大；
團(tuán)隊(duì)組織：一些關(guān)于 Meta AI 組織變化的跡象，這個(gè)團(tuán)隊(duì)和 Yann Lecun 以及原始 FAIR 成員似乎不同；
代碼、數(shù)學(xué)以及推理：文中對(duì)代碼數(shù)據(jù)和 RLHF 的討論并不多；
多回合一致性（Multi-turn consistency）：文中提出了一種新技術(shù) ——Ghost Attention (GAtt)，這種方法有助于控制多個(gè)回合的對(duì)話流；
獎(jiǎng)勵(lì)模型：研究使用兩種獎(jiǎng)勵(lì)模型來(lái)達(dá)到安全性 - 有用性的權(quán)衡；
RLHF 過(guò)程：本文采用兩階段的 RLHF 方法，首先使用拒絕抽樣（Rejection Sampling），然后結(jié)合近端策略優(yōu)化（Proximal Policy Optimization，PPO）進(jìn)行拒絕抽樣 + 近端策略優(yōu)化處理。論文還指出，RLHF 非常重要，且 LLM 出色的寫作能力，基本上是由 RLHF 驅(qū)動(dòng)的；
安全和危害性評(píng)估：論文用大量篇幅介紹了安全評(píng)估（幾乎占據(jù)論文一半）、上下文蒸餾以及 RLHF 用于安全目的；
許可：該模型可用于商業(yè)用途，除非你的產(chǎn)品月活用戶數(shù) >= 7 億，需要填寫表格以獲取訪問(wèn)權(quán)限。

Nathan Lambert 猜測(cè)，Llama 2 很可能已經(jīng)訓(xùn)練了幾個(gè)月，他預(yù)計(jì)下一個(gè)版本也正在醞釀之中。

基礎(chǔ)模型

Llama 2 在架構(gòu)和其他方面與原始 Llama 非常相似，但 Llama 2 增加了上下文長(zhǎng)度并采用了分組查詢注意力（GQA，grouped-query attention）機(jī)制。Llama 2 大多數(shù)更改都是針對(duì)數(shù)據(jù)和訓(xùn)練過(guò)程的。增加上下文長(zhǎng)度可以滿足聊天的可用性要求，分組查詢注意力機(jī)制可以提高推理速度。

Llama 2 的訓(xùn)練語(yǔ)料庫(kù)包含了來(lái)自公開可用資源的混合數(shù)據(jù)，并且不包括 Meta 產(chǎn)品或服務(wù)相關(guān)的數(shù)據(jù)。此次，Meta 努力刪除了包含大量個(gè)人隱私信息網(wǎng)站的數(shù)據(jù)。此外，Llama 2 預(yù)訓(xùn)練模型是在 2 萬(wàn)億的 token 上訓(xùn)練的，這樣可以在性能和成本之間取得良好的平衡。

Meta 公開的論文大部分內(nèi)容是關(guān)于評(píng)估和微調(diào)的，而不是重新創(chuàng)建一個(gè)強(qiáng)大的基礎(chǔ)模型。這一做法可能會(huì)強(qiáng)化 Meta 作為開源大語(yǔ)言模型領(lǐng)導(dǎo)者的地位。

下圖為 Llama 2-Chat 的訓(xùn)練 pipeline。Meta 在偏好數(shù)據(jù)上訓(xùn)練獎(jiǎng)勵(lì)模型，然后用強(qiáng)化學(xué)習(xí)對(duì)其進(jìn)行優(yōu)化，以提高模型質(zhì)量。

圖片

偏好數(shù)據(jù)

Nathan Lambert 表示，通過(guò) Meta 發(fā)布的論文，他證實(shí)了一個(gè)謠言，即 Meta 贊同獎(jiǎng)勵(lì)模型是 RLHF 的關(guān)鍵，也是模型的關(guān)鍵。為了獲得一個(gè)好的獎(jiǎng)勵(lì)模型，Meta 不得不努力收集偏好數(shù)據(jù)，這些數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過(guò)了開源社區(qū)目前使用的數(shù)據(jù)量。

關(guān)于數(shù)據(jù)的更多信息如下：

Meta 收集了大量的二元比較數(shù)據(jù)，如「顯著更好、更好、稍微更好」，而不是其他更復(fù)雜的反饋數(shù)據(jù)類型；
Meta 將數(shù)據(jù)收集的重點(diǎn)放在有用性和安全性上，在數(shù)據(jù)收集時(shí)對(duì)每個(gè)數(shù)據(jù)供應(yīng)商使用單獨(dú)的指導(dǎo)方針；
Meta 為收集的數(shù)據(jù)添加了額外的安全元數(shù)據(jù)（safety metadata），以顯示在每個(gè)回合中模型的哪些響應(yīng)是安全的；
Meta 采用了迭代式的數(shù)據(jù)收集方法：人工注釋以每周一批的方式進(jìn)行收集。隨著收集到的偏好數(shù)據(jù)增多，獎(jiǎng)勵(lì)模型也得到了改善。

Nathan Lambert 預(yù)測(cè)，假設(shè)供應(yīng)商收費(fèi)接近市場(chǎng)價(jià)格，那么 Meta 這次發(fā)布僅數(shù)據(jù)成本可能超過(guò) 800 萬(wàn)美元。下表總結(jié)了 Meta 長(zhǎng)期以來(lái)收集到的獎(jiǎng)勵(lì)建模數(shù)據(jù)，并將其與多個(gè)開源偏好數(shù)據(jù)集進(jìn)行了對(duì)比。

圖片

獎(jiǎng)勵(lì)模型

關(guān)于獎(jiǎng)勵(lì)模型有兩個(gè)重要細(xì)節(jié)：

兩個(gè)獎(jiǎng)勵(lì)模型被用來(lái)區(qū)分有用性和安全性的目標(biāo)上；
獎(jiǎng)勵(lì)模型在迭代部署時(shí)，以確定所需的偏好數(shù)據(jù)量。

首先，論文指出他們訓(xùn)練了兩個(gè)獨(dú)立的獎(jiǎng)勵(lì)模型，一個(gè)針對(duì)有用性進(jìn)行優(yōu)化（稱為 Helpfulness RM），另一個(gè)針對(duì)安全性進(jìn)行優(yōu)化（稱為 Safety RM）。這兩個(gè)模型都基于基礎(chǔ)語(yǔ)言模型構(gòu)建，用線性回歸層替代了標(biāo)準(zhǔn)語(yǔ)言模型的頭部。他們沒(méi)有指明模型來(lái)自哪個(gè) checkpoint，而是使用最新的聊天模型來(lái)最小化 RLHF 訓(xùn)練中的分布不匹配。

在這個(gè)過(guò)程中還有一些值得注意的技術(shù)細(xì)節(jié)：

在沒(méi)有詳細(xì)解釋為什么需要的情況下，Meta 仍然保留了一些 Anthropic 的無(wú)害數(shù)據(jù)；
只訓(xùn)練了一個(gè) epoch，這是為了避免獎(jiǎng)勵(lì)模型容易出現(xiàn)過(guò)擬合；
獎(jiǎng)勵(lì)模型的平均準(zhǔn)確率仍然只在 65-70%，但當(dāng)標(biāo)注者的偏好一致性較強(qiáng)時(shí)，準(zhǔn)確率可達(dá) 80-90%。

下圖展示了獎(jiǎng)勵(lì)模型的準(zhǔn)確性是如何隨著時(shí)間的推移而變化的。

圖片

RLHF 和微調(diào)

Meta 展示了他們?nèi)绾卫?RLHF 來(lái)有意義地改進(jìn)模型。他們迭代的訓(xùn)練了 5 個(gè) RLHF 版本，RLHF- V1，…, RLHF-V5。

圖片

從一開始，Meta 就指出了數(shù)據(jù)質(zhì)量對(duì)模型的重要性。

Meta 在論文中表示：「Quality Is All You Need。我們可以從不同的來(lái)源獲取第三方 SFT（ Supervised Fine-Tuning ）數(shù)據(jù)，但我們發(fā)現(xiàn)很多數(shù)據(jù)缺乏多樣性，并且質(zhì)量也不高，尤其是將 LLM 模型與對(duì)話式指令進(jìn)行對(duì)齊的數(shù)據(jù)。我們將來(lái)自第三方的數(shù)據(jù)集示例置于一旁，并使用少量的、但質(zhì)量更高的、來(lái)自我們自己供應(yīng)商的注釋示例，結(jié)果性能顯著改善?！?/span>

Meta 發(fā)現(xiàn)，注釋數(shù)達(dá)到數(shù)萬(wàn)個(gè)的 SFT 足以實(shí)現(xiàn)高質(zhì)量的結(jié)果。因而，Meta 在收集了總共 27540 個(gè)注釋后停止了 SFT 的注釋工作。

Meta 還觀察到，不同的注釋平臺(tái)和供應(yīng)商提供的數(shù)據(jù)可能會(huì)導(dǎo)致下游模型性能的不同，這表明即使是供應(yīng)商注釋的數(shù)據(jù)，后續(xù)檢查也是很重要的。Meta 為了驗(yàn)證數(shù)據(jù)質(zhì)量，他們仔細(xì)檢查了一組包含 180 個(gè)示例的數(shù)據(jù)，并將人工提供的注釋與模型通過(guò)人工審查生成的樣本進(jìn)行比較。

數(shù)據(jù)質(zhì)量建立起來(lái)后，Meta 開始專注于強(qiáng)化學(xué)習(xí)組件：

Meta 在論文中表示：「強(qiáng)化學(xué)習(xí)在我們的研究中表現(xiàn)非常高效，尤其是考慮到其成本和時(shí)間效率。我們的研究結(jié)果強(qiáng)調(diào)了 RLHF 成功的關(guān)鍵因素在于它在整個(gè)注釋過(guò)程中促進(jìn)了人類和 LLM 之間的協(xié)同作用。」

Meta 的這一表述非常有趣，因?yàn)檫@是第一篇明確指出 RLHF 在本質(zhì)上提高了模型性能上限的論文，而其他研究團(tuán)隊(duì)則認(rèn)為 RLHF 很重要，但只將其視為一種安全工具。

Nathan Lambert 認(rèn)為，高效的 RLHF 需要至少一個(gè)中等規(guī)模的團(tuán)隊(duì)。一個(gè)由 1-3 人組成的團(tuán)隊(duì)可以發(fā)布一個(gè)優(yōu)秀的指令模型，但他認(rèn)為這種 RLHF 至少需要 6-10 人的團(tuán)隊(duì)。隨著時(shí)間的推移，這個(gè)數(shù)字可能會(huì)減少。

評(píng)估

論文從很多方面評(píng)估了他們的模型。下圖將 Llama 2-Chat 模型的人類評(píng)估結(jié)果與開源和閉源模型進(jìn)行比較：結(jié)果顯示，Llama 2-Chat 模型在單回合和多回合提示上均顯著優(yōu)于開源模型。特別是，Llama 2-Chat 7B 模型在 60% 的提示上勝過(guò) MPT-7B-chat 模型。而 Llama 2-Chat 34B 模型在與容量相當(dāng)?shù)?Vicuna-33B 和 Falcon 40B 模型對(duì)戰(zhàn)中，總體勝率超過(guò) 75%。

圖片

圖 11 報(bào)告了不同的 SFT 和 RLHF 版本在安全性和有用性兩個(gè)維度上的進(jìn)展：

下圖為安全性的一些結(jié)果，包括偏見(jiàn)、紅隊(duì)測(cè)試（red-teaming）、預(yù)訓(xùn)練步驟等等。

圖片

以上就是 NATHAN LAMBERT 博客的主要內(nèi)容，后續(xù)關(guān)于 Llama 2 的分析文章他還在準(zhǔn)備中，感興趣的讀者可以關(guān)注一下。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<abbr id="vqjc9"><optgroup id="vqjc9"><cite id="vqjc9"></cite></optgroup></abbr>