偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="v2n2n"><label id="v2n2n"><video id="v2n2n"></video></label></dfn>

<blockquote id="v2n2n"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

白話EAGLE2：解鎖大模型的“打草稿”技術原創(chuàng)

發(fā)布于 2024-9-30 16:18

瀏覽

0收藏

實時了解業(yè)內動態(tài)，論文是最好的橋梁，專欄精選論文?重點解讀熱點論文，圍繞著行業(yè)實踐和工程量產。若在某個環(huán)節(jié)出現(xiàn)卡點，可以回到大模型必備腔調?或者LLM背后的基礎模型?重新閱讀。而最新科技（Mamba,xLSTM,KAN）?則提供了大模型領域最新技術跟蹤。

1.總覽EAGLE-2

EAGLE-2是一種加速大型語言模型（LLM）推理過程的技術。具體來說，它采用了基于推測性采樣（speculative sampling）的技術，它通過引入動態(tài)草稿樹和草稿模型的置信度分數(shù)來提高LLM的推理效率。EAGLE-2能確保模型生成的文本概率分布不變，也使得其成為一種無損加速算法。

推測性采樣（Speculative Sampling）是一種通過生成和驗證多個候選詞來加速LLM推理的方法。具體來說，它首先使用一個小模型快速生成一些候選詞（Draft），然后用更大的模型來驗證這些候選詞正確性。
草稿樹（Draft Tree）是一種數(shù)據(jù)組織結構，用來組織和存儲草稿模型（Draft Model）生成的候選詞。
動態(tài)草稿樹（Dynamic Draft Trees）是在EAGLE-2過引入的，它改進了傳統(tǒng)靜態(tài)草稿樹的局限性。動態(tài)草稿樹會根據(jù)草稿模型的置信度分數(shù)和生成上下文，動態(tài)調整草稿樹的結構。
置信度分數(shù)是指草稿模型對某個候選詞的信心程度，它近似表示該候選詞被最終模型接受的概率。

先來感受一下EAGLE-2技術令人震撼的效果，在各種的模型的推理上遙遙領先，基本面能夠達到3-4倍數(shù)的加速。

白話EAGLE2：解鎖大模型的“打草稿”技術-AI.x社區(qū)

上面的統(tǒng)計結果在temperature=0時候的加速比。

temperature是LLM推理的超參數(shù)。大模型在預測下一個字符的時候，會針對詞匯表的所有候選者都生產預測的概率，0代表選擇永遠選擇概率最高的。隨著temperature設置數(shù)據(jù)的增加，下一個預測字符的隨意性就會增加

上圖中，對于推測采樣，Vicuna系列使用Vicuna-68M作為草稿模型。LLaMA2-Chat 7B、13B 和 LLaMA3-Instruct 8B缺乏合適的草稿模型，標記為 N/A。LLaMA2-Chat 70B和 LLaMA3-Instruct 70B分別使用LLaMA2-Chat 7B和LLaMA3-Instruct 8B作為草稿模型。在表 1 中展示了與其他方法的比較，但該圖僅展示了一個子集，包括這些方法中最快的EAGLE。

2.Speculative Sampling

推測采樣技術

推測采樣技術是鼻祖，其核心思想是先起草（Draft）然后驗證（Verification）：快速生成一個可能正確的草案，然后檢查草案中哪些Token可以被接受。

白話EAGLE2：解鎖大模型的“打草稿”技術-AI.x社區(qū)

2023年5月份提出的一種推測技術如上圖所示，每行代表算法一次迭代。

此處的近似模型，或者稱為草稿模型的是一個6M的類GPT的解碼器。這個模型是利用8k個Token訓練出來的，目標模型是具有97M個參數(shù)的類GPT解碼器！

綠色標記是近似（草稿）模型提出的建議，而被目標模型接受，而紅色和藍色標記分別是被拒絕的建議及其更正。例如，在第一行中，目標模型僅運行了一次，生成了5個Token。

2024年2月份的Ouroboros針對打草稿的技術進行加速。它從前瞻解碼中得到啟發(fā)，使用草稿短語直接加速目標模型T。因為每輪草稿短語都需要目標模型T的前向傳遞來驗證，因此限制了前瞻解碼的整體加速效果。

白話EAGLE2：解鎖大模型的“打草稿”技術-AI.x社區(qū)

它先通過使用現(xiàn)有的較小模型（橙色部分）進行草稿，然后以低成本生成草稿短語（粉色部分），緊接這并行的方式使用目標LLM來驗證草稿。在這種草稿-驗證框架下，打草稿的效率已成為這種推測采樣技術的加速瓶頸。但是它以較低的成本生成更長的草稿可以帶來更好的解碼加速，而且它無需對草稿和目標模型進行微調。

一句話，作為幕后代筆的草稿模型而言，打草稿的效率十分重要??！

與前瞻解碼不同，它使用草稿短語通過草稿模型S間接加速目標模型T，讓目標模型的每次Forward（大白話，吐新的Token）可以同時驗證多輪短語，從而實現(xiàn)更好的加速。如圖2所示，在Ouroboros中，草稿模型的起草過程是逐個草稿短語而不是逐個Token進行，在草稿模型的每次Forward傳遞過程中，都會并行生成多個新短語。<如何生成另外講解！>

3.EAGLE

2024年1月份的EAGLE是對抽樣技術的改進。在提交這項工作時，EAGLE在Spec-Bench中排名第一，這是一個很全面的評估基準，旨在評估不同場景中的推測采樣的技術。

白話EAGLE2：解鎖大模型的“打草稿”技術-AI.x社區(qū)

EAGLE 的流水線。上半部分說明了計算過程，下半部分顯示了每個步驟對應的生成結果。在上半部分中，綠色塊表示token嵌入，橙色塊表示特征f，紅色框表示草稿模型的預測，帶有雪花圖標的藍色模塊表示目標大模型LLM的參數(shù)，這些參數(shù)是凍結的。

白話EAGLE2：解鎖大模型的“打草稿”技術-AI.x社區(qū)

上圖為起草階段。與自回歸預測 token序列的標準推測性抽樣不同，EAGLE 在更結構化的特征級別運行，即使用LLM原始的LM Head獲取草稿token。為了消除不確定性，EAGLE還帶上每個階段的特征（可以大致理解為上下文）f。

白話EAGLE2：解鎖大模型的“打草稿”技術-AI.x社區(qū)

驗證階段。在標準推測性抽樣中，草稿是鏈式結構的，如果草稿token被拒絕，則需要丟棄所有后續(xù) token。EAGLE 使用樹形結構草稿，允許在草稿 token被拒絕時嘗試替代分支。圖b說明了兩者之間的差異。

4.EAGLE Vs EAGLE-2

白話EAGLE2：解鎖大模型的“打草稿”技術-AI.x社區(qū)

EAGLE和EAGLE-2之間的差異。EAGLE始終使用固定的草稿形狀。當查詢?yōu)椤?0+2=”時，下一個標記很可能被正確預測為“1”。但是，使用靜態(tài)草稿樹，即便另一個候選“3”正確的概率非常低，EAGLE仍會添加兩個候選。而EAGLE-2根據(jù)上下文調整草稿樹的形狀。當查詢?yōu)椤?0+2”時，下一個標記很難預測，因此 EAGLE-2 添加了兩個候選。對于更簡單的查詢“10+2=”，EAGLE-2僅添加一個候選“1”。

由此可以看到EAGLE-2根據(jù)上下文動態(tài)調整草稿樹，增強推測性抽樣。其方法包括兩個主要階段：擴展和重新排名。該過程從擴展階段開始，在該階段，草稿模型從草稿樹的最新層輸入最有希望的節(jié)點以形成下一層。來自草案模型的置信度分數(shù)可以用于接受率，從而可以有效地預測和驗證Token。在重新排名階段，會選擇接受概率較高的Token作為目標LLM的輸入。

這種兩階段方法確保草稿樹適應上下文，顯著提高Token被目標大模型接受的概率。同時消除了多次Forward的推理，在不影響生成文本質量的情況下加快了推理過程。

下圖為EAGLE-2這種技術在多個模型推理上面的提升倍數(shù)。

白話EAGLE2：解鎖大模型的“打草稿”技術-AI.x社區(qū)

這一期幫助讀者解鎖了大模型的打草稿技術，其實就是通過利用小模型快速并行的吐出草稿以便加速完整的推理過程。其實也好理解，比如在現(xiàn)實生活中的文學創(chuàng)作，也是先陸續(xù)生成草稿，然后再最后精校，包括這篇文章，當然中間還有很多細節(jié)值得深究。

本文轉載自 ??魯班模錘??，作者：龐德公

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

AIGC圖像技術在淘寶人生2的探索和應用

pangguiyu ? 6620瀏覽 ? 0回復
AI大模型技術的四大核心架構演進之路

AIGC觀察者 ? 3910瀏覽 ? 0回復
學習大模型技術的方法論——從應用中學習大模型

AI探索時代 ? 3191瀏覽 ? 0回復
大模型技術學習之——大模型常用架構以及技術難點

AI探索時代 ? 4081瀏覽 ? 0回復
一篇大模型NL2SQL全棧技術最新綜述

PaperAgent ? 6985瀏覽 ? 0回復
優(yōu)雅談大模型：白話ZeRO 上

魯班模錘1 ? 2458瀏覽 ? 0回復
多模態(tài)大模型Qwen2的深入了解

一起AI技術 ? 3954瀏覽 ? 0回復
從技術的角度來看大模型產業(yè)鏈

AI探索時代 ? 2162瀏覽 ? 0回復
大模型技術全面解析，從大模型的概念，技術，應用和挑戰(zhàn)多個方面介紹大模型

AI探索時代 ? 1.7w瀏覽 ? 0回復
大模型體驗之Qwen2模型

一起AI技術 ? 3645瀏覽 ? 0回復
淺看大模型用于Text2SQL的綜述

大模型自然語言處理 ? 3618瀏覽 ? 0回復
大模型的底座技術

AI探索時代 ? 2221瀏覽 ? 0回復
人工智能技術棧：解鎖智能應用開發(fā)的底層密碼

Halo咯咯 ? 3144瀏覽 ? 0回復
NVIDIA開源新模型（Eagle 2），竟靠“透明數(shù)據(jù)”逆襲？

Halo咯咯 ? 2265瀏覽 ? 0回復
2025年2月五大優(yōu)秀大語言模型

51CTO內容精選 ? 3848瀏覽 ? 0回復
白話DeepSeek R1的GRPO強化學習算法：原理、圖解、視頻

后向傳播 ? 4027瀏覽 ? 0回復
解鎖多模態(tài)大語言模型：從原理到實戰(zhàn)，一文全掌握！

Halo咯咯 ? 3393瀏覽 ? 0回復
DeepSeek R1 & R2 技術原理

ceesoft ? 3809瀏覽 ? 0回復
你了解大模型的生態(tài)體系嗎？大模型從技術到應用的內容梳理

AI探索時代 ? 1534瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

ALPHAONE：從快到慢，還是從慢到快 7天前發(fā)布
Meta AI發(fā)布革命性V-JEPA 2 2025-06-15 23:41:42發(fā)布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數(shù)也沒問題 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復

上一篇：優(yōu)雅談大模型：白話ZeRO 上

下一篇：神經網絡與2024諾貝爾物理獎

社區(qū)精華內容

目錄

<abbr id="jqxcr"><label id="jqxcr"></label></abbr>

<meter id="jqxcr"><span id="jqxcr"></span></meter>