偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="hpjn0"></ruby>

<blockquote id="hpjn0"></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？

發(fā)布于 2024-3-27 20:37

瀏覽

0收藏

LoRA(Low-Rank Adaptation)是當(dāng)前 LLM 的參數(shù)高效微調(diào)手段之一，此前我們在《梯度視角下的LoRA：簡介、分析、猜測及推廣》也有過簡單討論。這篇文章我們來學(xué)習(xí) LoRA 的一個(gè)新結(jié)論：

給 LoRA 的兩個(gè)矩陣分配不同的學(xué)習(xí)率，LoRA 的效果還能進(jìn)一步提升。

該結(jié)論出自最近的論文《LoRA+: Efficient Low Rank Adaptation of Large Models》[1](下稱“LoRA+”)。咋看之下，該結(jié)論似乎沒有什么特別的，因?yàn)榕渲貌煌膶W(xué)習(xí)率相當(dāng)于引入了新的超參數(shù)，通常來說只要引入并精調(diào)超參數(shù)都會有提升。

“LoRA+”的特別之處在于，它從理論角度肯定了這個(gè)必要性，并且斷定最優(yōu)解必然是右矩陣的學(xué)習(xí)率大于左矩陣的學(xué)習(xí)率。簡而言之，“LoRA+”稱得上是理論指導(dǎo)訓(xùn)練并且在實(shí)踐中確實(shí)有效的經(jīng)典例子，值得仔細(xì)學(xué)習(xí)一番。

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

結(jié)論簡析

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

“LoRA+”的結(jié)論是：為了使 LoRA 的效果盡可能接近最優(yōu)，權(quán)重 B 的學(xué)習(xí)率應(yīng)該要大于權(quán)重A的學(xué)習(xí)率。

注意，為了使初始模型等價(jià)于原始預(yù)訓(xùn)練模型，LoRA 通常會將 A,B 之一全零初始化。筆者一開始以為，該結(jié)論是由于全零初始化導(dǎo)致的，所以應(yīng)該依賴于全零初始化的位置，但仔細(xì)閱讀后發(fā)現(xiàn)，“LoRA+”所聲稱的結(jié)論跟全零初始化無關(guān)，也就是說，表面上 A,B 是對稱的，但實(shí)際上它們有著固有的不對稱性，以至于不管選擇 A 還是 B 來全零初始化，結(jié)論都是 B 的學(xué)習(xí)率要大于 A。這就有意思起來了。

不得不說?！癓oRA+”原文的推導(dǎo)寫得相當(dāng)讓人費(fèi)解，下面筆者盡量用自己的思路來完成推導(dǎo)。大體上，它基于兩點(diǎn)假設(shè)：1. 數(shù)值穩(wěn)定：模型每一層的輸出值都應(yīng)該是數(shù)值穩(wěn)定的，跟網(wǎng)絡(luò)寬度無關(guān);2. 貢獻(xiàn)相當(dāng)：為了使 LoRA 最優(yōu)，A,B 兩個(gè)矩陣對效果應(yīng)該有同等程度的貢獻(xiàn)。接下來我們逐一分析并量化這兩點(diǎn)假設(shè)。

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

數(shù)值穩(wěn)定

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

單看前向傳播來說，XA 的數(shù)值穩(wěn)定性確實(shí)不是必要的。但如果 XA 數(shù)值不穩(wěn)定同時(shí) XAB 數(shù)值穩(wěn)定的話，那么有兩種情況：XA 數(shù)值偏大、B 數(shù)值偏小，根據(jù)求導(dǎo)公式，這將導(dǎo)致 A 的梯度偏小、B 的梯度偏大;反過來，XA 數(shù)值偏小、B 數(shù)值偏大，這將導(dǎo)致 A 的梯度偏大、B 的梯度偏小。

總而言之，XA 的數(shù)值不穩(wěn)定會導(dǎo)致 A,B 的梯度不穩(wěn)定，從而增加優(yōu)化難度，所以還是加上 XA 的數(shù)值穩(wěn)定性為條件比較好。

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

貢獻(xiàn)相當(dāng)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

這里使用了一階線性近似，其中是 A,B 的梯度，是(Frobenius)內(nèi)積運(yùn)算，右端兩項(xiàng)就可以理解為 A,B 對效果的分別貢獻(xiàn)。但注意線性近似的有效性取決于增量是小量，但對于訓(xùn)練好的權(quán)重，它對于原始權(quán)重的增量還真未必是小量。

所以退而求其次，我們將“貢獻(xiàn)相當(dāng)”假設(shè)改為“A,B 在每一步更新中應(yīng)該對效果有同等程度上的貢獻(xiàn)”，由于單步更新的量通常很小，因此線性近似能比較好地滿足。

既然要考慮每一步的更新量，那么就引導(dǎo)我們到了優(yōu)化器的方向上。當(dāng)前預(yù)訓(xùn)練和微調(diào)的主流優(yōu)化器都是 Adam，那么我們就以 Adam 為主要分析對象。

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

其中是各自的學(xué)習(xí)率，“LoRA+”的結(jié)論就是。

將 SignSGD 的增量(2)代回式(1)，那么就得到

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

快速推導(dǎo)

進(jìn)一步的分析需要求出梯度的具體形式。再次設(shè) Y=XAB，那么可以求出：

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

但是還沒完，我們要檢查一下結(jié)果是否自洽，因?yàn)槲覀冇玫降臈l件之一是“前向的數(shù)值穩(wěn)定性”，至今為止還只是一個(gè)理想的假設(shè)。如何讓假設(shè)盡可能成立呢?戰(zhàn)勝一個(gè)假設(shè)的方法是引入另一個(gè)假設(shè)：

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

根據(jù) Adam 的近似式(2)，每步增量的數(shù)量級確實(shí)正比于學(xué)習(xí)率，但總的更新結(jié)果又不完全是每一步簡單疊加，所以這個(gè)假設(shè)給人的感覺就是“看上去有點(diǎn)道理，但又不完全有道理”。但不要緊，假設(shè)通常都是這樣子的，有點(diǎn)道理就行，剩下的就只能靠信仰了。

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

配置不同的學(xué)習(xí)率，LoRA還能再漲一點(diǎn)？-AI.x社區(qū)

文章小結(jié)

這篇文章中，我們介紹并推導(dǎo)了一個(gè)名為“LoRA+”的結(jié)果，它支持 LoRA 的兩個(gè)低秩矩陣 A,B 存在固有的不對稱性，不管將哪個(gè)矩陣全零初始化，都應(yīng)該將 B 的學(xué)習(xí)率設(shè)置得大于 A，以達(dá)到更優(yōu)的效果。

本文轉(zhuǎn)載自 ??PaperWeekly??，作者：蘇劍林

原文鏈接：??https://mp.weixin.qq.com/s/OsyG71leU9OdJu7y0lppVA??

標(biāo)簽

已于2024-3-27 20:51:53修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

不同數(shù)據(jù)集有不同的Scaling law？而你可用一個(gè)壓縮算法來預(yù)測它

輕薄滴假象 ? 2538瀏覽 ? 0回復(fù)
LLM微調(diào)技術(shù)LoRA圖解

51CTO內(nèi)容精選 ? 3443瀏覽 ? 0回復(fù)
【創(chuàng)新一夏學(xué)習(xí)季】熱浪升溫，創(chuàng)新一夏，釋放開發(fā)潛能

AI.x社區(qū)官方賬號 ? 52.9w瀏覽 ? 39回復(fù)
無限生成視頻，還能規(guī)劃決策，擴(kuò)散強(qiáng)制整合下一token預(yù)測與全序列擴(kuò)散

輕薄滴假象 ? 2450瀏覽 ? 0回復(fù)
相同的 LLM 在「不同 GPU 上」會產(chǎn)生不同輸出？為什么？

Baihai_IDP ? 4575瀏覽 ? 3回復(fù)
三個(gè)臭皮匠與一個(gè)諸葛亮：覆蓋率與正確率的博弈

魯班模錘1 ? 2298瀏覽 ? 0回復(fù)
一文匯總：長周期時(shí)序預(yù)測有哪些優(yōu)化點(diǎn)？

海因斯DK ? 4659瀏覽 ? 0回復(fù)
大模型榜單還能信嗎？一個(gè)假模型就能登頂排行榜

大語言模型論文跟蹤 ? 2936瀏覽 ? 0回復(fù)
你的LoRA需要更新了！科大訊飛等提出MiLoRA：新穎且高效的LoRA變體

angel ? 3104瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：一文讀懂LoRA/DoRA/MoRA

魯班模錘1 ? 4094瀏覽 ? 0回復(fù)
ChunkRAG：比CRAG提升10個(gè)點(diǎn)準(zhǔn)確率

大語言模型論文跟蹤 ? 2498瀏覽 ? 0回復(fù)
LazyGrapgRAG：與GraphRAG完全不同的方法

PyTorch研習(xí)社 ? 3039瀏覽 ? 0回復(fù)
我們一起聊聊快速傅里葉變換暴力漲點(diǎn)！基于時(shí)頻特征融合的高創(chuàng)新時(shí)間序列分類模型

Tang_Lan ? 2736瀏覽 ? 0回復(fù)
基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動態(tài)優(yōu)化

靈度智能 ? 3983瀏覽 ? 0回復(fù)
不同神經(jīng)網(wǎng)絡(luò)之間的區(qū)別，僅僅只是網(wǎng)絡(luò)結(jié)構(gòu)的不同，明白了這個(gè)你才能知道應(yīng)該怎么學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

AI探索時(shí)代 ? 2189瀏覽 ? 0回復(fù)
高效學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù)——以具體的任務(wù)類型為切入點(diǎn)

AI探索時(shí)代 ? 1608瀏覽 ? 0回復(fù)
【AIGC】AI、大數(shù)據(jù)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)之間的關(guān)系詳解：你必須知道的五個(gè)關(guān)鍵點(diǎn)！

唐克 ? 1681瀏覽 ? 0回復(fù)
超詳細(xì)的Dify知識庫配置全攻略

AI博物院 ? 1.6w瀏覽 ? 0回復(fù)
一文讀遍 LoRA 家族：大語言模型高效訓(xùn)練的"秘密武器"

鴻煊的學(xué)習(xí)筆記 ? 2577瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ICLR 2024 | 脈沖神經(jīng)網(wǎng)絡(luò)的meta架構(gòu)設(shè)計(jì)：啟發(fā)下一代神經(jīng)形態(tài)芯片設(shè)計(jì) 2024-03-27 21:07:42發(fā)布
調(diào)研120+模型！騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述 2024-03-27 20:58:09發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好

下一篇： ?ICLR 2024 | UTS提出全新聯(lián)邦推薦算法：從全面?zhèn)€性化過渡到加性個(gè)性化

社區(qū)精華內(nèi)容

目錄

<sub id="seggp"></sub><sub id="seggp"><p id="seggp"></p></sub>