偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICML 2024 | 脫離LoRA架構(gòu),訓(xùn)練參數(shù)大幅減少,新型傅立葉微調(diào)來了

發(fā)布于 2024-5-27 09:06
瀏覽
0收藏

本文介紹了香港科技大學(xué)(廣州)的一篇關(guān)于大模型高效微調(diào)(LLM PEFT Fine-tuning)的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」,本文被 ICML 2024 接收,代碼已開源。


ICML 2024 | 脫離LoRA架構(gòu),訓(xùn)練參數(shù)大幅減少,新型傅立葉微調(diào)來了-AI.x社區(qū)


  • 論文地址:https://arxiv.org/abs/2405.03003
  • 項(xiàng)目地址:https://github.com/Chaos96/fourierft


背景


大型基座模型在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(CV)領(lǐng)域都獲得了矚目的成就。微調(diào)(Finetuning)大型基座模型,使其更加適應(yīng)特殊的下游任務(wù),成為了一項(xiàng)熱門研究課題。然而,在模型越來越大,下游任務(wù)越來越多樣的今天,微調(diào)整個(gè)模型帶來的計(jì)算、存儲(chǔ)消耗已大到不再能被接受。LoRA 采用低秩擬合微調(diào)增量的方案,成功降低了大量的此類消耗,但每個(gè)適應(yīng)器(adapter)的大小仍然是不可忽視的。這激發(fā)了本文的核心問題:相比 LoRA,如何進(jìn)一步大幅減少可訓(xùn)練參數(shù)?此外,一個(gè)有趣的附加問題是能否采用更少的參數(shù)量得到高秩增量矩陣。


方法


傅立葉基底在各類數(shù)據(jù)壓縮應(yīng)用中廣泛使用,例如一維向量信號(hào)和二維圖像的壓縮。在這些應(yīng)用中,稠密的空域信號(hào)通過傅立葉變換被轉(zhuǎn)化為稀疏的頻域信號(hào)。基于這一原理,作者推測(cè)模型權(quán)重的增量也可以被視為一種空域信號(hào),其對(duì)應(yīng)的頻域信號(hào)可以通過稀疏表示來實(shí)現(xiàn)。


在這一假設(shè)的基礎(chǔ)上,作者提出了一種新的方法,用于在頻域中學(xué)習(xí)增量權(quán)重信號(hào)。具體來說,該方法通過隨機(jī)位置的稀疏頻域信號(hào)來表示空域權(quán)重增量。在加載預(yù)訓(xùn)練模型時(shí),首先隨機(jī)選擇 n 個(gè)點(diǎn)作為有效的頻域信號(hào),然后將這些信號(hào)拼接成一個(gè)一維向量。在前向傳播過程中,這個(gè)一維向量被用來通過傅立葉變換恢復(fù)空域矩陣;在反向傳播過程中,由于傅里葉變換的可導(dǎo)性,可以直接對(duì)此可學(xué)習(xí)的向量進(jìn)行更新。這種方法不僅有效減少了模型微調(diào)時(shí)所需的參數(shù)數(shù)量,同時(shí)保證了微調(diào)性能。通過這種方式,作者不僅實(shí)現(xiàn)了對(duì)大規(guī)模基礎(chǔ)模型的高效微調(diào),還展示了傅立葉變換在機(jī)器學(xué)習(xí)領(lǐng)域中的潛在應(yīng)用價(jià)值。


ICML 2024 | 脫離LoRA架構(gòu),訓(xùn)練參數(shù)大幅減少,新型傅立葉微調(diào)來了-AI.x社區(qū)


得益于傅立葉變換基底的高信息量,僅需很小的 n 值即可達(dá)到與 LoRA 相當(dāng)甚至超過 LoRA 的表現(xiàn)。一般來說,傅立葉微調(diào)的可訓(xùn)練參數(shù)僅為 LoRA 的千分之一到十分之一。


實(shí)驗(yàn)


1. 自然語(yǔ)言理解


作者在自然語(yǔ)言理解的 GLUE 基準(zhǔn)測(cè)試上對(duì)傅立葉微調(diào)方法進(jìn)行了評(píng)估?;€對(duì)比方法包括全量微調(diào)(FF,F(xiàn)ull Finetuning)、Bitfit、適應(yīng)器微調(diào)(Adapter Tuning)、LoRA、DyLoRA 和 AdaLoRA。下表展示了各種方法在 GLUE 各個(gè)任務(wù)上的表現(xiàn)及其所需的訓(xùn)練參數(shù)量。結(jié)果表明,傅立葉微調(diào)以最少的參數(shù)量達(dá)到了甚至超越了其他微調(diào)方法的性能。


ICML 2024 | 脫離LoRA架構(gòu),訓(xùn)練參數(shù)大幅減少,新型傅立葉微調(diào)來了-AI.x社區(qū)


2. 自然語(yǔ)言指令微調(diào)


大模型的自然語(yǔ)言生成是目前模型微調(diào)的重要應(yīng)用領(lǐng)域。作者在 LLaMA 系列模型、MT-Bench 任務(wù)和 Vicuna 任務(wù)上評(píng)估了傅立葉微調(diào)的性能。結(jié)果顯示,傅立葉微調(diào)以極低的訓(xùn)練參數(shù)量達(dá)到了與 LoRA 相似的效果,進(jìn)一步驗(yàn)證了傅里葉微調(diào)方法的通用性和有效性。


ICML 2024 | 脫離LoRA架構(gòu),訓(xùn)練參數(shù)大幅減少,新型傅立葉微調(diào)來了-AI.x社區(qū)


3. 圖像分類


作者在 Vision Transformer 上測(cè)試了傅里葉微調(diào)的性能,涵蓋了 8 個(gè)常見的圖像分類數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,雖然在圖像分類任務(wù)中傅立葉微調(diào)相較LoRA的壓縮率提升并不比自然語(yǔ)言任務(wù)中顯著,但其仍然以遠(yuǎn)小于 LoRA 的參數(shù)量超越了 LoRA 的效果。這進(jìn)一步展示了傅立葉微調(diào)在不同應(yīng)用領(lǐng)域中的有效性和優(yōu)勢(shì)。


ICML 2024 | 脫離LoRA架構(gòu),訓(xùn)練參數(shù)大幅減少,新型傅立葉微調(diào)來了-AI.x社區(qū)


4. 突破低秩


在 GLUE 基準(zhǔn)的 RTE 數(shù)據(jù)集上,F(xiàn)ourierFT 可以實(shí)現(xiàn)明顯高于 LoRA (通常為 4 或 8) 的增量的秩。

ICML 2024 | 脫離LoRA架構(gòu),訓(xùn)練參數(shù)大幅減少,新型傅立葉微調(diào)來了-AI.x社區(qū)

5.GPU 資源消耗


微調(diào)過程中,F(xiàn)ourierFT 可以實(shí)現(xiàn)比 LoRA 更少的 GPU 消耗。下圖為采用單張 4090 顯卡在 RoBERTa-Large 模型上的巔峰內(nèi)存消耗。


ICML 2024 | 脫離LoRA架構(gòu),訓(xùn)練參數(shù)大幅減少,新型傅立葉微調(diào)來了-AI.x社區(qū)


結(jié)論


作者介紹了一種名為傅立葉微調(diào)的高效微調(diào)方法,通過利用傅里葉變換來減少大基礎(chǔ)模型微調(diào)時(shí)的可訓(xùn)練參數(shù)數(shù)量。該方法通過學(xué)習(xí)少量的傅里葉譜系數(shù)來表示權(quán)重變化,顯著降低了存儲(chǔ)和計(jì)算需求。實(shí)驗(yàn)結(jié)果顯示,傅立葉微調(diào)在自然語(yǔ)言理解、自然語(yǔ)言生成、指令調(diào)優(yōu)和圖像分類等任務(wù)上表現(xiàn)優(yōu)異,與現(xiàn)有的低秩適應(yīng)方法(如 LoRA)相比,傅立葉微調(diào)在保持或超過 LoRA 性能的同時(shí),所需的可訓(xùn)練參數(shù)大幅減少。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/jaYeIfByJaWU5-4jBmnrzQ??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦