偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

手機(jī)流暢運(yùn)行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機(jī)大模型推理新紀(jì)元 精華

發(fā)布于 2024-6-13 11:29
瀏覽
0收藏

引言:智能手機(jī)上的大型語(yǔ)言模型推理的挑戰(zhàn)與機(jī)遇

隨著大型語(yǔ)言模型(LLM)在理解和生成類似人類的文本方面的卓越能力,它們已經(jīng)從根本上改善了我們的日常生活并轉(zhuǎn)變了我們的工作環(huán)境。如今最先進(jìn)的LLM,例如GPT-4和Claude-3,都部署在配備了最先進(jìn)GPU的數(shù)據(jù)中心中。這些GPU提供了廣泛的高帶寬內(nèi)存,并提供達(dá)到數(shù)千teraflops的計(jì)算能力。與此同時(shí),將LLM部署在普遍的智能手機(jī)上的趨勢(shì)也在興起,這一轉(zhuǎn)變旨在充分利用豐富的個(gè)人數(shù)據(jù),同時(shí)通過(guò)避免將私人數(shù)據(jù)傳輸?shù)皆品?wù)來(lái)維護(hù)隱私。

然而,智能手機(jī)盡管使用廣泛,但由于其處理能力有限和內(nèi)存大小受限,難以滿足LLM推理的復(fù)雜需求。為了解決這些問(wèn)題,研究人員探索了兩種有前途的方法來(lái)在資源受限的條件下提供LLM推理服務(wù)。一種策略是部署縮小版的LLM,例如Google的Gemini Nano 3.25B,它使用不到2GB的內(nèi)存,通過(guò)減少智能能力來(lái)適應(yīng)內(nèi)存限制。另一些技術(shù)旨在降低推理期間LLM權(quán)重的計(jì)算和存儲(chǔ)需求。例如,PowerInfer項(xiàng)目通過(guò)將活躍神經(jīng)元分配給GPU,而非活躍神經(jīng)元分配給CPU,實(shí)現(xiàn)了在個(gè)人電腦上推理速度的11倍提升。然而,這些解決方案在智能手機(jī)上遇到了挑戰(zhàn),因?yàn)橹悄苁謾C(jī)的硬件和存儲(chǔ)設(shè)備較弱,帶寬較低,且由于單一命令隊(duì)列不支持并發(fā)訪問(wèn),使得I/O活動(dòng)成為智能手機(jī)上LLM推理的常見(jiàn)瓶頸。

本文介紹了PowerInfer-2,這是第一個(gè)在智能手機(jī)上執(zhí)行高速LLM推理的框架,能夠適應(yīng)超過(guò)設(shè)備內(nèi)存容量的高達(dá)47億參數(shù)的模型。PowerInfer-2是PowerInfer項(xiàng)目的后續(xù)工作,專門(mén)為智能手機(jī)設(shè)計(jì)。與其前身一樣,PowerInfer-2利用了LLM推理中固有的動(dòng)態(tài)稀疏激活:每次推理迭代只需要一部分神經(jīng)元,而不是整個(gè)模型權(quán)重。這種方法在推理過(guò)程中大大降低了計(jì)算需求,因?yàn)镻owerInfer-2每次迭代只需要處理選定的一組神經(jīng)元。固有的稀疏性還增強(qiáng)了局部性,使PowerInfer-2能夠構(gòu)建一個(gè)有效的內(nèi)存緩存,保持最常用的神經(jīng)元在內(nèi)存中,從而減輕了讀取權(quán)重相關(guān)的I/O開(kāi)銷。

手機(jī)流暢運(yùn)行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機(jī)大模型推理新紀(jì)元-AI.x社區(qū)

論文標(biāo)題:PowerInfer-2: Fast Large Language Model Inference on a Smartphone

機(jī)構(gòu):Institute of Parallel and Distributed Systems (IPADS), Shanghai Jiao Tong University

論文鏈接:https://arxiv.org/pdf/2406.06282.pdf

PowerInfer-2框架概述

PowerInfer-2是一種專為智能手機(jī)設(shè)計(jì)的高速大型語(yǔ)言模型(LLM)推理框架。它能夠處理高達(dá)470億參數(shù)的模型,即使這些模型的大小超過(guò)了設(shè)備的內(nèi)存容量。PowerInfer-2是PowerInfer項(xiàng)目的后續(xù)工作,它利用LLM推理中固有的動(dòng)態(tài)稀疏激活:每次推理迭代只需要一部分神經(jīng)元,而不是整個(gè)模型權(quán)重。這種方法顯著降低了推理過(guò)程中的計(jì)算需求,因?yàn)镻owerInfer-2只需要處理每次迭代中選擇的一組神經(jīng)元。此外,固有的稀疏性還增強(qiáng)了局部性,使PowerInfer-2能夠構(gòu)建一個(gè)高效的內(nèi)存緩存,保持最常用的神經(jīng)元在內(nèi)存中,從而減輕了讀取權(quán)重的I/O開(kāi)銷。

與PowerInfer不同,PowerInfer-2面臨的關(guān)鍵挑戰(zhàn)在于能夠利用現(xiàn)代智能手機(jī)中高度異構(gòu)的XPUs,如不對(duì)稱的big.LITTLE CPU核心、GPU和NPU。如果沒(méi)有充分利用硬件特性,推理過(guò)程就會(huì)導(dǎo)致生成速度不佳。此外,緩存未命中不可避免地會(huì)引起I/O開(kāi)銷。盡管PowerInfer-2利用稀疏激活來(lái)減少推理過(guò)程中所需的權(quán)重量,但它仍然會(huì)產(chǎn)生大量的I/O讀取操作,這可能會(huì)對(duì)推理性能產(chǎn)生不利影響。

手機(jī)流暢運(yùn)行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機(jī)大模型推理新紀(jì)元-AI.x社區(qū)

神經(jīng)元集群和架構(gòu)

3.1 神經(jīng)元集群和架構(gòu)

PowerInfer-2提出了一種稱為神經(jīng)元集群的計(jì)算抽象,專為L(zhǎng)LM在異構(gòu)計(jì)算場(chǎng)景中的推理設(shè)計(jì)。PowerInfer-2在神經(jīng)元集群的粒度上執(zhí)行計(jì)算和I/O操作,這些神經(jīng)元集群可以在計(jì)算過(guò)程中動(dòng)態(tài)組成多個(gè)激活神經(jīng)元,其數(shù)量由計(jì)算單元的計(jì)算能力決定。例如,在解碼階段,當(dāng)計(jì)算由CPU核心執(zhí)行時(shí),分配給每個(gè)CPU核心的神經(jīng)元集群的大小比在預(yù)填充階段NPU計(jì)算時(shí)的要小。通過(guò)使用這種抽象,PowerInfer-2可以充分利用具有不同計(jì)算能力的XPUs,有效地隱藏I/O開(kāi)銷。

圖2展示了PowerInfer-2的整體架構(gòu),該架構(gòu)分為在線部分(右側(cè))和離線部分(左側(cè))。在線部分服務(wù)于神經(jīng)元集群粒度的推理,并包括四個(gè)協(xié)作組件:多態(tài)神經(jīng)元引擎(§4.1)、內(nèi)存中神經(jīng)元緩存(§4.2)、靈活的神經(jīng)元加載(§4.3)和神經(jīng)元集群級(jí)I/O管道(§4.4)。

多態(tài)神經(jīng)元引擎為預(yù)填充和解碼階段使用完全不同的計(jì)算模式。在預(yù)填充階段,神經(jīng)元集群包含來(lái)自權(quán)重矩陣的所有神經(jīng)元,并主要依賴NPU處理大規(guī)模矩陣計(jì)算。在解碼階段,由于顯示出顯著的稀疏性,只有少部分神經(jīng)元(大約10%)在權(quán)重矩陣中被激活并參與計(jì)算,因此PowerInfer-2專門(mén)利用CPU核心進(jìn)行神經(jīng)元集群計(jì)算。

多態(tài)神經(jīng)元引擎

PowerInfer-2引入了一種多態(tài)神經(jīng)元引擎,該引擎能夠動(dòng)態(tài)地將神經(jīng)元組合成神經(jīng)元簇,以利用LLM推理階段和異構(gòu)XPUs的不同計(jì)算特性。

4.1.1 NPU-Centric Prefill

在預(yù)填充階段,所有提示令牌都同時(shí)被處理。盡管每個(gè)令牌顯示出高度的稀疏性并激活不同的神經(jīng)元,但由于這些激活的聚合,總體稀疏性顯著降低。因此,PowerInfer-2在預(yù)填充階段不通過(guò)預(yù)測(cè)器計(jì)算激活的神經(jīng)元,而是選擇直接將所有神經(jīng)元合并成一個(gè)大的神經(jīng)元簇。鑒于NPU在處理大規(guī)模矩陣運(yùn)算方面的優(yōu)勢(shì),這一策略能夠最大化NPU的計(jì)算能力。

4.1.2 CPU-Centric Decoding

與預(yù)填充階段不同,解碼階段集中處理每次迭代中的單個(gè)令牌,顯示出顯著的稀疏性,因?yàn)閮H有少部分神經(jīng)元(大約10%)在權(quán)重矩陣中被激活并參與計(jì)算。因此,從預(yù)填充階段過(guò)渡到解碼階段時(shí),多態(tài)神經(jīng)元引擎將權(quán)重矩陣計(jì)算分解為小的神經(jīng)元簇,這些小簇的元素由預(yù)測(cè)器識(shí)別為活躍的。我們觀察到,當(dāng)批處理大小為一時(shí),CPU核心上的矩陣-向量計(jì)算的延遲低于NPU。此外,由于稀疏性導(dǎo)致激活的神經(jīng)元數(shù)量減少,CPU核心非常適合這些較輕和稀疏的計(jì)算任務(wù)。

手機(jī)流暢運(yùn)行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機(jī)大模型推理新紀(jì)元-AI.x社區(qū)

高效的緩存設(shè)計(jì)與I/O優(yōu)化策略

PowerInfer-2通過(guò)引入分段緩存和細(xì)粒度的神經(jīng)元簇級(jí)流水線技術(shù),優(yōu)化了I/O讀取吞吐量并最小化了I/O操作,從而提高了整體的推理性能。

4.4 Neuron-Cluster-Level Pipeline

盡管引入了有效存儲(chǔ)活躍神經(jīng)元的神經(jīng)元緩存,推理過(guò)程仍然不可避免地會(huì)引發(fā)對(duì)未緩存神經(jīng)元的I/O操作。為了優(yōu)化I/O讀取吞吐量并最小化I/O操作,PowerInfer-2還捆綁了相關(guān)神經(jīng)元。盡管在移除熱神經(jīng)元后,單個(gè)FFN權(quán)重矩陣內(nèi)的共激活變得不頻繁,但不同矩陣中對(duì)應(yīng)位置的神經(jīng)元通常會(huì)一起激活。例如,第i個(gè)神經(jīng)元在Gate、Up和Down矩陣中的共激活概率高達(dá)80%。

PowerInfer-2還設(shè)計(jì)了隱藏I/O開(kāi)銷的策略,通過(guò)重疊計(jì)算與I/O活動(dòng)來(lái)實(shí)現(xiàn)。一個(gè)直接的方法是矩陣級(jí)重疊,它在從存儲(chǔ)中檢索矩陣神經(jīng)元的同時(shí)進(jìn)行計(jì)算。隨著存儲(chǔ)中的神經(jīng)元被加載,它們會(huì)立即被處理。盡管這種矩陣級(jí)重疊方法可以在一定程度上隱藏計(jì)算過(guò)程中的I/O成本,但系統(tǒng)仍需等待所有神經(jīng)元的處理完成才能繼續(xù)進(jìn)行下一步。為了消除I/O操作的等待時(shí)間,PowerInfer-2引入了神經(jīng)元簇級(jí)流水線機(jī)制。這種機(jī)制基于一個(gè)見(jiàn)解:通過(guò)關(guān)注神經(jīng)元簇的粒度,可以在多個(gè)矩陣的神經(jīng)元簇計(jì)算中重疊I/O操作。具體來(lái)說(shuō),PowerInfer-2打破了矩陣計(jì)算的障礙;一旦一個(gè)神經(jīng)元簇完成計(jì)算,它立即開(kāi)始計(jì)算下一個(gè)矩陣中已在內(nèi)存中的神經(jīng)元簇。這種機(jī)制有效地減少了等待泡沫,如圖4-b所示。

手機(jī)流暢運(yùn)行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機(jī)大模型推理新紀(jì)元-AI.x社區(qū)

執(zhí)行計(jì)劃的生成與優(yōu)化

在PowerInfer-2系統(tǒng)中,執(zhí)行計(jì)劃的生成是一個(gè)關(guān)鍵步驟,它涉及到對(duì)硬件、模型和用戶需求的深入分析,以制定出最優(yōu)的運(yùn)行配置。執(zhí)行計(jì)劃的生成過(guò)程包括以下幾個(gè)關(guān)鍵環(huán)節(jié):

1. 硬件和模型特性分析

執(zhí)行計(jì)劃首先需要對(duì)硬件的計(jì)算能力、I/O吞吐量和內(nèi)存帶寬進(jìn)行評(píng)估。此外,還需要分析模型的大小、稀疏性和緩存特性。這一步驟是通過(guò)離線分析器完成的,它通過(guò)一系列的微基準(zhǔn)測(cè)試來(lái)評(píng)估各個(gè)組件的性能。

2. 成本模型的構(gòu)建和求解

在獲取了硬件和模型的具體參數(shù)后,執(zhí)行計(jì)劃使用成本模型來(lái)生成最優(yōu)配置。這個(gè)模型的目標(biāo)是在滿足用戶設(shè)定的約束條件下,最大化生成速度。成本模型考慮了計(jì)算時(shí)間和I/O傳輸時(shí)間,這些時(shí)間的計(jì)算基于硬件性能和模型激活率的函數(shù)。求解成本模型通常使用成熟的SMT求解器,如Z3。

3. 執(zhí)行計(jì)劃的輸出

最終的執(zhí)行計(jì)劃將詳細(xì)描述在在線推理過(guò)程中各個(gè)組件的配置,包括CPU和NPU的使用比例、緩存大小和I/O操作的配置。這些配置確保了系統(tǒng)在實(shí)際運(yùn)行中達(dá)到預(yù)定的性能目標(biāo)。

通過(guò)這一系列的步驟,PowerInfer-2能夠?yàn)椴煌闹悄苁謾C(jī)和模型大小提供定制化的執(zhí)行計(jì)劃,從而在保證性能的同時(shí),最大限度地利用設(shè)備的計(jì)算和存儲(chǔ)資源。

實(shí)驗(yàn)設(shè)置與性能評(píng)估

為了驗(yàn)證PowerInfer-2系統(tǒng)的性能,我們?cè)诓煌闹悄苁謾C(jī)上進(jìn)行了一系列的實(shí)驗(yàn)。實(shí)驗(yàn)的設(shè)置和性能評(píng)估包括以下幾個(gè)方面:

1. 實(shí)驗(yàn)硬件

實(shí)驗(yàn)使用了兩款OnePlus智能手機(jī),分別代表高端和中端的硬件配置。這兩款手機(jī)不僅具備不同的處理器和內(nèi)存大小,而且都允許root權(quán)限,這為我們解鎖更多計(jì)算能力提供了可能。

2. 模型選擇

實(shí)驗(yàn)中選用了不同架構(gòu)和大小的語(yǔ)言模型,包括TurboSparse-Mistral和TurboSparse-Mixtral系列。這些模型的選擇旨在展示PowerInfer-2在處理不同類型和大小模型時(shí)的性能表現(xiàn)。

3. 基準(zhǔn)系統(tǒng)比較

為了全面評(píng)估PowerInfer-2的性能,我們將其與當(dāng)前最先進(jìn)的LLM推理框架進(jìn)行了比較,包括llama.cpp和LLM in a Flash。這些比較幫助我們準(zhǔn)確地定位PowerInfer-2在市場(chǎng)中的性能優(yōu)勢(shì)。

4. 性能指標(biāo)

我們主要關(guān)注的性能指標(biāo)是端到端的生成速度,包括預(yù)填充速度和解碼速度。這些指標(biāo)直接反映了系統(tǒng)在實(shí)際應(yīng)用中的響應(yīng)速度。

通過(guò)這些詳細(xì)的實(shí)驗(yàn)設(shè)置和性能評(píng)估,我們能夠全面地理解PowerInfer-2在不同條件下的性能表現(xiàn),并且驗(yàn)證了其在智能手機(jī)上運(yùn)行大型語(yǔ)言模型的能力。

手機(jī)流暢運(yùn)行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機(jī)大模型推理新紀(jì)元-AI.x社區(qū)

手機(jī)流暢運(yùn)行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機(jī)大模型推理新紀(jì)元-AI.x社區(qū)

討論與未來(lái)展望

隨著智能手機(jī)硬件的日益強(qiáng)大和多樣化,未來(lái)的大型語(yǔ)言模型(LLM)推理框架需要更加靈活和高效地利用這些資源。PowerInfer-2的出現(xiàn)標(biāo)志著在這一領(lǐng)域的一個(gè)重要進(jìn)步,它不僅顯著提高了在資源受限的智能手機(jī)上進(jìn)行LLM推理的速度,而且還優(yōu)化了內(nèi)存和I/O資源的使用。然而,盡管取得了顯著的進(jìn)步,但在將來(lái)的發(fā)展中,仍有許多挑戰(zhàn)和機(jī)遇。

1. 硬件利用的優(yōu)化

盡管PowerInfer-2已經(jīng)在利用異構(gòu)硬件方面取得了顯著成效,但未來(lái)的工作可以進(jìn)一步探索如何更有效地協(xié)調(diào)CPU、GPU、NPU等不同硬件的工作,以最大化計(jì)算資源的使用效率。例如,通過(guò)更智能的調(diào)度算法,動(dòng)態(tài)地根據(jù)當(dāng)前的工作負(fù)載和硬件狀態(tài)調(diào)整資源分配。

2. 模型和存儲(chǔ)優(yōu)化

隨著模型規(guī)模的不斷擴(kuò)大,如何在有限的存儲(chǔ)和內(nèi)存中高效地管理和調(diào)度模型權(quán)重將成為一個(gè)重要問(wèn)題。PowerInfer-2中已經(jīng)采用了分段緩存和精細(xì)的I/O策略,未來(lái)可以進(jìn)一步探索更高效的數(shù)據(jù)壓縮技術(shù)和智能預(yù)取策略,以減少I/O操作的需要并加速推理過(guò)程。

3. 能源效率

智能手機(jī)的能源限制也是未來(lái)研究的一個(gè)重要方向。開(kāi)發(fā)更加節(jié)能的算法和框架,不僅可以延長(zhǎng)設(shè)備的電池壽命,還可以減少環(huán)境影響。例如,通過(guò)優(yōu)化算法的能效比(即每瓦特計(jì)算速度),使得在保證性能的同時(shí),盡可能減少能耗。

4. 用戶體驗(yàn)與隱私保護(hù)

提升用戶體驗(yàn)和保護(hù)用戶隱私將是LLM應(yīng)用普及的關(guān)鍵。未來(lái)的推理框架需要在保證響應(yīng)速度和準(zhǔn)確性的同時(shí),更好地處理用戶數(shù)據(jù),確保數(shù)據(jù)的安全和隱私。例如,通過(guò)在本地設(shè)備上進(jìn)行更多的數(shù)據(jù)處理來(lái)減少對(duì)云服務(wù)的依賴,從而保護(hù)用戶的隱私。

5. 跨平臺(tái)兼容性

隨著各種類型設(shè)備的普及,跨平臺(tái)的LLM推理框架將具有更廣泛的應(yīng)用前景。PowerInfer-2雖然主要針對(duì)Android系統(tǒng),但其設(shè)計(jì)理念和技術(shù)可以擴(kuò)展到其他操作系統(tǒng)如iOS。未來(lái)的研究可以探索如何使這些技術(shù)更容易地遷移到不同的平臺(tái)和設(shè)備上。

通過(guò)持續(xù)的研究和創(chuàng)新,未來(lái)的LLM推理技術(shù)有望在智能手機(jī)及其他移動(dòng)設(shè)備上提供更加智能、高效和安全的服務(wù),極大地豐富用戶的數(shù)字體驗(yàn)。

本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦