LoRAShear:微軟在LLM修剪和知識恢復(fù)方面的最新研究
LoRAShear是微軟為優(yōu)化語言模型模型(llm)和保存知識而開發(fā)的一種新方法。它可以進行結(jié)構(gòu)性修剪,減少計算需求并提高效率。
LHSPG技術(shù)( Lora Half-Space Projected Gradient)支持漸進式結(jié)構(gòu)化剪枝和動態(tài)知識恢復(fù)。可以通過依賴圖分析和稀疏度優(yōu)化應(yīng)用于各種llm。
LoRAPrune將LoRA與迭代結(jié)構(gòu)化修剪相結(jié)合,實現(xiàn)參數(shù)高效微調(diào)。在LLAMA v1上的實現(xiàn)即使進行了大量的修剪也能保持相當?shù)男阅堋?/span>
在不斷發(fā)展的人工智能領(lǐng)域,語言模型模型(llm)已經(jīng)成為處理大量文本數(shù)據(jù)、快速檢索相關(guān)信息和增強知識可訪問性的關(guān)鍵工具。它們的深遠影響跨越了各個領(lǐng)域,從增強搜索引擎和問答系統(tǒng)到啟用數(shù)據(jù)分析,研究人員、專業(yè)人員和知識尋求者都從中獲益。
而目前最大的問題是,信息的動態(tài)性要求LLM不斷更新知識。一般情況下微調(diào)一直被用來向這些模型灌輸最新的見解的方式,開發(fā)人員使用特定于領(lǐng)域的數(shù)據(jù)對預(yù)訓(xùn)練模型進行微調(diào)使其保持最新狀態(tài)。因為組織和研究人員的定期更新對于保持llm與不斷變化的信息景觀保持同步至關(guān)重要。但微調(diào)的成本大且周期長。
為了應(yīng)對這一迫切需要,微軟的研究人員推出了一種開創(chuàng)性的方法——LoRAShear。這種創(chuàng)新的方法不僅簡化了llm,而且促進了結(jié)構(gòu)知識的恢復(fù)。結(jié)構(gòu)修剪的核心是去除或減少神經(jīng)網(wǎng)絡(luò)架構(gòu)中的特定組件,優(yōu)化效率、緊湊性和計算需求。
微軟的LoRAShear引入了LHSPG技術(shù),支持漸進式結(jié)構(gòu)化修剪。這種方法在LoRA模塊之間無縫地傳遞知識,并集成了動態(tài)知識恢復(fù)階段。微調(diào)過程類似于預(yù)訓(xùn)練和指示微調(diào),確保llm保持更新和相關(guān)性。
LoRAShear通過依賴圖分析可以擴展到一般llm,特別是在LoRA模塊的支持范圍內(nèi)。所采用的算法為原始LLM和LoRA模塊創(chuàng)建依賴關(guān)系圖。除此以外還引入了一種結(jié)構(gòu)化稀疏性優(yōu)化算法,該算法利用LoRA模塊信息來增強權(quán)重更新過程中的知識保存。
論文中還有一個稱為LoRAPrune的集成技術(shù),將LoRA與迭代結(jié)構(gòu)化修剪相結(jié)合,實現(xiàn)了參數(shù)高效的微調(diào)和直接硬件加速。這種節(jié)省內(nèi)存的方法完全依賴于LoRA的權(quán)重和梯度來進行修剪標準。這個過程包括構(gòu)造一個跟蹤圖,確定要壓縮的節(jié)點組,劃分可訓(xùn)練的變量,并最終將它們返回給LLM。
論文通過在開源LLAMAv1上的實現(xiàn),證明了LoRAShear的有效性。值得注意的是,修剪了20%的LLAMAv1只有1%的性能損失,而修剪了50%的模型在評估基準上保留了82%的性能。
LoRAShear代表了人工智能領(lǐng)域的重大進步。它不僅簡化了LLM的使用方式,使其更有效率,而且確保了關(guān)鍵知識的保存。它可以使人工智能驅(qū)動的應(yīng)用程序能夠在優(yōu)化計算資源的同時,與不斷發(fā)展的信息環(huán)境保持同步。隨著組織越來越依賴人工智能進行數(shù)據(jù)處理和知識檢索,像LoRAShear這樣的解決方案將在市場上發(fā)揮關(guān)鍵作用,提供效率和知識彈性。
論文地址:https://arxiv.org/abs/2310.18356