
譯者 | 布加迪
審校 | 重樓
在當(dāng)今快節(jié)奏的數(shù)字環(huán)境中,依賴人工智能的企業(yè)面臨著新的挑戰(zhàn):運(yùn)行人工智能模型的延遲、內(nèi)存使用和計(jì)算能力成本。隨著人工智能快速發(fā)展,幕后推動(dòng)這些創(chuàng)新的模型變得越來越復(fù)雜、資源密集。雖然這些大模型在處理各種任務(wù)中取得了出色的性能,但它們通常伴隨著很高的計(jì)算和內(nèi)存需求。
對(duì)于威脅檢測(cè)、欺詐檢測(cè)、生物識(shí)別登機(jī)等實(shí)時(shí)人工智能應(yīng)用,提供快速、準(zhǔn)確的結(jié)果變得至關(guān)重要。企業(yè)加快實(shí)施人工智能的真正動(dòng)機(jī)不僅在于節(jié)省基礎(chǔ)設(shè)施和計(jì)算成本,還在于實(shí)現(xiàn)更高的運(yùn)營(yíng)效率、縮短響應(yīng)時(shí)間以及提供無縫的用戶體驗(yàn),而這一切可以轉(zhuǎn)換為實(shí)實(shí)在在的業(yè)務(wù)成果,比如提高客戶滿意度和減少等待時(shí)間。
面對(duì)這些挑戰(zhàn),我們想到了兩種解決方案,但它們并非沒有缺點(diǎn)。一種解決方案是訓(xùn)練較小的模型,犧牲準(zhǔn)確性和高性能,以換取速度。另一種解決方案是購(gòu)置更好的硬件(比如GPU),可以以低延遲運(yùn)行復(fù)雜的高性能人工智能模型。然而,由于GPU遠(yuǎn)遠(yuǎn)供不應(yīng)求,第二種解決方案會(huì)迅速抬高成本。它也無法滿足人工智能模型需要在智能手機(jī)等邊緣設(shè)備上運(yùn)行的使用場(chǎng)景。
這時(shí)候模型壓縮技術(shù)閃亮登場(chǎng):這種方法旨在減少人工智能模型的大小以及對(duì)計(jì)算的需求,同時(shí)保持模型性能。我們?cè)诒疚闹袑⑻接懸恍┠P蛪嚎s策略,幫助開發(fā)人員在資源極其受限的環(huán)境中部署人工智能模型。
模型壓縮起到怎樣的幫助?
機(jī)器學(xué)習(xí)模型應(yīng)該加以壓縮有幾個(gè)原因。首先,較大的模型通常提供更好的準(zhǔn)確性,但需要大量的計(jì)算資源來運(yùn)行預(yù)測(cè)。許多最先進(jìn)的模型既計(jì)算開銷大又內(nèi)存密集,比如大語(yǔ)言模型和深度神經(jīng)網(wǎng)絡(luò)。由于這些模型部署在實(shí)時(shí)應(yīng)用領(lǐng)域中,比如推薦引擎或威脅檢測(cè)系統(tǒng),它們對(duì)高性能GPU或云基礎(chǔ)設(shè)施的需求抬高了成本。
其次,某些應(yīng)用環(huán)境的延遲需求增加了費(fèi)用。許多人工智能應(yīng)用依賴實(shí)時(shí)或低延遲的預(yù)測(cè),這勢(shì)必需要功能強(qiáng)大的硬件來保持較低的響應(yīng)時(shí)間。預(yù)測(cè)工作量越大,持續(xù)運(yùn)行這些模型的成本就越高。
此外,在面向消費(fèi)者的服務(wù)中,大量的推理請(qǐng)求可能會(huì)使成本飆升。比如說,部署在機(jī)場(chǎng)、銀行或零售等場(chǎng)所的解決方案將涉及每天大量的推理請(qǐng)求,每個(gè)請(qǐng)求都消耗計(jì)算資源。這種操作負(fù)載需要認(rèn)真細(xì)致的延遲和成本管理,以確保擴(kuò)展人工智能不會(huì)耗盡資源。
然而,模型壓縮不僅僅是成本問題。較小的模型消耗較少的能量,這意味著移動(dòng)設(shè)備的電池壽命更長(zhǎng),數(shù)據(jù)中心的功耗也更低。這不僅降低了運(yùn)營(yíng)成本,而且通過降低碳排放量,使人工智能發(fā)展與環(huán)境可持續(xù)發(fā)展目標(biāo)保持一致。通過克服這些挑戰(zhàn),模型壓縮技術(shù)為更加實(shí)用、具有成本效益、可廣泛部署的人工智能解決方案鋪平了道路。
主流的模型壓縮技術(shù)
經(jīng)過壓縮的模型可以更快速、更高效地執(zhí)行預(yù)測(cè),從而支持各種實(shí)時(shí)應(yīng)用,增強(qiáng)各個(gè)領(lǐng)域(從機(jī)場(chǎng)加快安檢過程到實(shí)時(shí)身份驗(yàn)證)的用戶體驗(yàn)。以下是一些常用的壓縮人工智能模型的技術(shù)。
?模型修剪
模型修剪是一種通過去除對(duì)模型輸出影響不大的參數(shù)來減小神經(jīng)網(wǎng)絡(luò)大小的技術(shù)。通過消除冗余或不重要的權(quán)重,模型的計(jì)算復(fù)雜性有所降低,從而縮短了推理時(shí)間,并降低了內(nèi)存使用量。結(jié)果是模型更精簡(jiǎn)了,但依然性能良好,僅需更少的資源來運(yùn)行。對(duì)于企業(yè)來說,模型修剪尤其大有助益,因?yàn)樗梢栽诓粐?yán)重犧牲準(zhǔn)確性的情況下減少進(jìn)行預(yù)測(cè)的時(shí)間和成本。經(jīng)過修剪的模型可以重新訓(xùn)練,以恢復(fù)任何丟失的準(zhǔn)確性。模型修剪可以以迭代方式進(jìn)行,直至達(dá)到所需的模型性能、大小和速度。迭代式修剪之類的技術(shù)有助于在保持性能的同時(shí)有效地減小模型大小。
?模型量化
量化是優(yōu)化機(jī)器學(xué)習(xí)模型的另一種有效方法。它降低了用于表示模型參數(shù)和計(jì)算的數(shù)字的精度,通常是從32位浮點(diǎn)數(shù)降低到8位整數(shù)。這大大減少了模型的內(nèi)存占用量,并通過使其能夠在功能較弱的硬件上運(yùn)行來加快推理速度。內(nèi)存和速度的提升可以高達(dá)4倍。在計(jì)算資源受限的環(huán)境中,比如邊緣設(shè)備或移動(dòng)電話,模型量化讓企業(yè)可以更高效地部署模型。量化還削減了運(yùn)行人工智能服務(wù)的能耗,從而降低了云計(jì)算或硬件成本。
通常,量化是在經(jīng)過訓(xùn)練的人工智能模型上完成的,并使用校準(zhǔn)數(shù)據(jù)集來最大限度地減少性能損失。在性能損失仍然超出可接受范圍的情況下,量化感知訓(xùn)練之類的技術(shù)可以允許模型在學(xué)習(xí)過程中適應(yīng)這種壓縮,從而幫助保持準(zhǔn)確性。此外,可以在模型修剪后運(yùn)用模型量化,在保持性能的同時(shí)進(jìn)一步改善延遲。
?知識(shí)精煉
這種技術(shù)是指訓(xùn)練一個(gè)較小的模型(學(xué)生)來模仿一個(gè)更大、更復(fù)雜的模型(教師)的行為。這個(gè)過程通常包括使用原始訓(xùn)練數(shù)據(jù)和教師的軟輸出(概率分布)來訓(xùn)練學(xué)生模型。這不僅有助于將最終決策轉(zhuǎn)型小模型,還有助于將大模型的細(xì)微“推理”轉(zhuǎn)移到小模型。
學(xué)生模型通過專注于數(shù)據(jù)的關(guān)鍵方面來學(xué)習(xí)接近教師模型的性能,從而產(chǎn)生一個(gè)輕量級(jí)模型,它保留了原始模型的大部分準(zhǔn)確性,但計(jì)算需求低得多。對(duì)于企業(yè)來說,知識(shí)精煉或蒸餾便于部署更小巧、更快速的模型,以極低的推理成本提供類似的結(jié)果。它在速度和效率至關(guān)重要的實(shí)時(shí)應(yīng)用環(huán)境中尤其具有價(jià)值。
學(xué)生模型可以通過運(yùn)用修剪和量化技術(shù)進(jìn)一步加以壓縮,從而得到一個(gè)極其輕盈又快速的模型,其性能與更大的復(fù)雜模型相仿。
結(jié)語(yǔ)
隨著企業(yè)力求擴(kuò)大其人工智能業(yè)務(wù)運(yùn)營(yíng),實(shí)施實(shí)時(shí)人工智能解決方案成為一個(gè)關(guān)鍵問題。像模型修剪、量化和知識(shí)精煉這樣的技術(shù)通過優(yōu)化模型以進(jìn)行更快速、更便宜的預(yù)測(cè),又不對(duì)性能造成重大損失,為克服這一挑戰(zhàn)提供了實(shí)用的解決方案。如果采用這些策略,企業(yè)就可以減少對(duì)昂貴硬件的依賴,針對(duì)眾多服務(wù)更廣泛地部署模型,并確保人工智能仍然是企業(yè)運(yùn)營(yíng)中經(jīng)濟(jì)上可行的一部分。在運(yùn)營(yíng)效率事關(guān)企業(yè)創(chuàng)新能力的情況下,優(yōu)化機(jī)器學(xué)習(xí)推理不僅僅是一種選項(xiàng),更是一種必要。
原文標(biāo)題:Here are 3 critical LLM compression strategies to supercharge AI performance,作者:Chinmay Jog































