偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<li id="ro0dh"><option id="ro0dh"></option></li>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

從模型、數(shù)據(jù)和框架三個(gè)視角出發(fā)，這里有份54頁(yè)的高效大語(yǔ)言模型綜述

作者：機(jī)器之心 2024-01-02 09:49:19

人工智能新聞

在本綜述中，來(lái)自俄亥俄州立大學(xué)、帝國(guó)理工學(xué)院、密歇根州立大學(xué)、密西根大學(xué)、亞馬遜、谷歌、Boson AI、微軟亞研院的研究者提供了對(duì)高效 LLMs 研究的系統(tǒng)全面調(diào)查。

大規(guī)模語(yǔ)言模型（LLMs）在很多關(guān)鍵任務(wù)中展現(xiàn)出顯著的能力，比如自然語(yǔ)言理解、語(yǔ)言生成和復(fù)雜推理，并對(duì)社會(huì)產(chǎn)生深遠(yuǎn)的影響。然而，這些卓越的能力伴隨著對(duì)龐大訓(xùn)練資源的需求（如下圖左）和較長(zhǎng)推理時(shí)延（如下圖右）。因此，研究者們需要開(kāi)發(fā)出有效的技術(shù)手段去解決其效率問(wèn)題。

同時(shí)，我們從圖右還可以看出，近來(lái)較為火熱的高效 LLMs，例如 Mistral-7B，在確保和 LLaMA1-33B 相近的準(zhǔn)確度的情況下可以大大減少推理內(nèi)存和降低推理時(shí)延，可見(jiàn)已有部分可行的高效手段被成功應(yīng)用于 LLMs 的設(shè)計(jì)和部署中。

在本綜述中，來(lái)自俄亥俄州立大學(xué)、帝國(guó)理工學(xué)院、密歇根州立大學(xué)、密西根大學(xué)、亞馬遜、谷歌、Boson AI、微軟亞研院的研究者提供了對(duì)高效 LLMs 研究的系統(tǒng)全面調(diào)查。他們將現(xiàn)有優(yōu)化 LLMs 效率的技術(shù)分成了三個(gè)類別，包括以模型為中心、以數(shù)據(jù)為中心和以框架為中心，總結(jié)并討論了當(dāng)下最前沿的相關(guān)技術(shù)。

論文：https://arxiv.org/abs/2312.03863
GitHub: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

同時(shí)，研究者建立了一個(gè) GitHub 倉(cāng)庫(kù)，用于整理綜述中涉及的論文，并將積極維護(hù)這個(gè)倉(cāng)庫(kù)，隨著新的研究涌現(xiàn)而不斷更新。研究者希望這篇綜述能夠幫助研究人員和從業(yè)者系統(tǒng)地了解高效 LLMs 研究和發(fā)展，并激發(fā)他們?yōu)檫@一重要而令人興奮的領(lǐng)域做出貢獻(xiàn)。

倉(cāng)庫(kù)網(wǎng)址：https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

以模型為中心

以模型為中心的方法關(guān)注算法層面和系統(tǒng)層面的高效技術(shù)，其中模型本身是焦點(diǎn)。由于 LLMs 具有數(shù)十億甚至數(shù)萬(wàn)億的參數(shù)，與規(guī)模較小的模型相比，它們具有諸如涌現(xiàn)等獨(dú)特的特征，因此需要開(kāi)發(fā)新的技術(shù)來(lái)優(yōu)化 LLMs 的效率。本文詳細(xì)討論了五類以模型為中心的方法，包括模型壓縮、高效預(yù)訓(xùn)練、高效微調(diào)、高效推理和高效模型架構(gòu)設(shè)計(jì)。

1. 模型壓縮

模型壓縮技術(shù)主要分為了四類：量化、參數(shù)剪枝、低秩估計(jì)和知識(shí)蒸餾（參見(jiàn)下圖），其中量化會(huì)把模型的權(quán)重或者激活值從高精度壓縮到低精度，參數(shù)剪枝會(huì)搜索并刪除模型權(quán)重中較為冗余的部分，低秩估計(jì)會(huì)將模型的權(quán)重矩陣轉(zhuǎn)化為若干低秩小矩陣的乘積，知識(shí)蒸餾則是直接用大模型來(lái)訓(xùn)練小模型，從而使得小模型在做某些任務(wù)的時(shí)候具有替代大模型的能力。

2. 高效預(yù)訓(xùn)練

預(yù)訓(xùn)練 LLMs 的成本非常昂貴。高效預(yù)訓(xùn)練旨在提高效率并降低 LLMs 預(yù)訓(xùn)練過(guò)程的成本。高效預(yù)訓(xùn)練又可以分為混合精度加速、模型縮放、初始化技術(shù)、優(yōu)化策略和系統(tǒng)層級(jí)的加速。

混合精度加速通過(guò)使用低精度權(quán)重計(jì)算梯度、權(quán)重和激活值，然后在將其轉(zhuǎn)換回高精度并應(yīng)用于更新原始權(quán)重，從而提高預(yù)訓(xùn)練的效率。模型縮放通過(guò)使用小型模型的參數(shù)來(lái)擴(kuò)展到大型模型，加速預(yù)訓(xùn)練的收斂并降低訓(xùn)練成本。初始化技術(shù)通過(guò)設(shè)計(jì)模型的初始化取值來(lái)加快模型的收斂速度。優(yōu)化策略是重在設(shè)計(jì)輕量的優(yōu)化器來(lái)降低模型訓(xùn)練過(guò)程中的內(nèi)存消耗，系統(tǒng)層級(jí)的加速則是通過(guò)分布式等技術(shù)來(lái)從系統(tǒng)層面加速模型的預(yù)訓(xùn)練。

3. 高效微調(diào)

高效微調(diào)旨在提高 LLMs 微調(diào)過(guò)程的效率。常見(jiàn)的高效微調(diào)技術(shù)分為了兩類，一類是基于參數(shù)高效的微調(diào)，一類是基于內(nèi)存高效的微調(diào)。

基于參數(shù)高效微調(diào)（PEFT）的目標(biāo)是通過(guò)凍結(jié)整個(gè) LLM 主干，僅更新一小組額外的參數(shù)，將 LLM 調(diào)整到下游任務(wù)。在論文中，我們又將 PEFT 詳細(xì)分成了基于適配器的微調(diào)、低秩適配、前綴微調(diào)和提示詞微調(diào)。

基于內(nèi)存的高效微調(diào)則是重在降低整個(gè) LLM 微調(diào)過(guò)程中的內(nèi)存消耗，比如減少優(yōu)化器狀態(tài)和激活值等消耗的內(nèi)存。

4. 高效推理

高效推理旨在提高 LLMs 推理過(guò)程的效率。研究者將常見(jiàn)的高效推理技術(shù)分成了兩大類，一類是算法層級(jí)的推理加速，一類是系統(tǒng)層級(jí)的推理加速。

算法層級(jí)的推理加速又可以分成兩類：投機(jī)解碼和 KV - 緩存優(yōu)化。投機(jī)解碼通過(guò)使用較小的草稿模型并行計(jì)算令牌，為較大目標(biāo)模型創(chuàng)建猜測(cè)性前綴，從而以加速采樣過(guò)程。KV - 緩存優(yōu)化指的是優(yōu)化在 LLMs 推理過(guò)程中 Key-Value（KV）對(duì)的重復(fù)計(jì)算。

系統(tǒng)層級(jí)的推理加速則是在指定硬件上優(yōu)化內(nèi)存訪問(wèn)次數(shù)，增大算法并行量等來(lái)加速 LLM 的推理。

5. 高效模型架構(gòu)設(shè)計(jì)

對(duì) LLMs 進(jìn)行高效架構(gòu)設(shè)計(jì)是指通過(guò)策略性優(yōu)化模型結(jié)構(gòu)和計(jì)算過(guò)程，以提高性能和可擴(kuò)展性，同時(shí)最小化資源消耗。我們將高效的模型架構(gòu)設(shè)計(jì)依據(jù)模型的種類分成了四大類：高效注意力模塊、混合專家模型、長(zhǎng)文本大模型以及可替代 transformer 的架構(gòu)。

高效注意力模塊旨在優(yōu)化注意力模塊中的復(fù)雜計(jì)算及內(nèi)存占用，混合專家模型（MoE）則是通過(guò)將 LLMs 的某些模塊的推理決策使用多個(gè)小的專家模型來(lái)替代從而達(dá)到整體的稀疏化，長(zhǎng)文本大模型是專門設(shè)計(jì)來(lái)高效處理超長(zhǎng)文本的 LLMs, 可替代 transformer 的架構(gòu)則是通過(guò)重新設(shè)計(jì)模型架構(gòu)，來(lái)降低模型的復(fù)雜度并達(dá)到后 transformer 架構(gòu)相當(dāng)?shù)耐评砟芰Α?/span>

以數(shù)據(jù)為中心

以數(shù)據(jù)為中心方法側(cè)重于數(shù)據(jù)的質(zhì)量和結(jié)構(gòu)在提高 LLMs 效率方面的作用。研究者在本文中詳細(xì)討論了兩類以數(shù)據(jù)為中心的方法，包括數(shù)據(jù)選擇和提示詞工程。

1. 數(shù)據(jù)選擇

LLMs 的數(shù)據(jù)選擇旨在對(duì)預(yù)訓(xùn)練 / 微調(diào)數(shù)據(jù)進(jìn)行清洗和選擇，例如去除冗余和無(wú)效數(shù)據(jù)，達(dá)到加快訓(xùn)練過(guò)程的目的。

2. 提示詞工程

提示詞工程通過(guò)設(shè)計(jì)有效的輸入（提示詞）來(lái)引導(dǎo) LLMs 生成期望的輸出，它的高效之處在于可以通過(guò)設(shè)計(jì)提示詞，來(lái)達(dá)到和經(jīng)過(guò)將繁瑣的微調(diào)相當(dāng)?shù)哪Ｐ捅憩F(xiàn)。研究者將常見(jiàn)的的提示詞工程技術(shù)分成了三大類：少樣本的提示詞工程、提示詞壓縮和提示詞生成。

少樣本的提示詞工程通過(guò)向 LLM 提供有限的示例集以引導(dǎo)其對(duì)需要執(zhí)行的任務(wù)進(jìn)行理解。提示詞壓縮是通過(guò)壓縮冗長(zhǎng)的提示輸入或?qū)W習(xí)和使用提示表示，加速 LLMs 對(duì)輸入的處理。提示詞生成旨在自動(dòng)創(chuàng)建有效的提示，引導(dǎo)模型生成具體且相關(guān)的響應(yīng)，而不是使用手動(dòng)標(biāo)注的數(shù)據(jù)。

以框架為中心

研究者調(diào)查了近來(lái)較為流行的高效 LLMs 框架，并列舉了它們所能優(yōu)化的高效任務(wù)，包括預(yù)訓(xùn)練、微調(diào)和推理（如下圖所示）。

總結(jié)

在這份調(diào)查中，研究者為大家提供了一份關(guān)于高效 LLMs 的系統(tǒng)性回顧，這是一個(gè)致力于使 LLMs 更加民主化的重要研究領(lǐng)域。他們一開(kāi)始就解釋了為什么需要高效 LLMs。在一個(gè)有序的框架下，本文分別從以模型的中心、以數(shù)據(jù)的中心和以框架為中心的角度分別調(diào)查了 LLMs 的算法層面和系統(tǒng)層面的高效技術(shù)。

研究者相信，在 LLMs 和以 LLMs 為導(dǎo)向的系統(tǒng)中，效率將發(fā)揮越來(lái)越重要的作用。他們希望這份調(diào)查能夠幫助研究人員和實(shí)踐者迅速進(jìn)入這一領(lǐng)域，并成為激發(fā)新的高效 LLMs 研究的催化劑。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 研究調(diào)查

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<mark id="m5vnc"></mark>

<sup id="m5vnc"></sup>

<mark id="m5vnc"></mark>