偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

哈佛大學(xué):高維回歸中的Scaling Law是重整化的自然結(jié)果

發(fā)布于 2025-4-8 00:44
瀏覽
0收藏

《高維回歸中的縮放和重整化》【文獻(xiàn)1】由哈佛大學(xué)物理系、腦科學(xué)中心、工程與應(yīng)用科學(xué)學(xué)院、自然與人工智能研究所多位學(xué)者共同撰寫,將隨機(jī)矩陣?yán)碚摵妥杂筛怕视糜诶斫飧呔S嶺回歸模型的縮放與重整化行為。

哈佛大學(xué):高維回歸中的Scaling Law是重整化的自然結(jié)果-AI.x社區(qū)

一、背景知識(shí)

1. 嶺回歸(Ridge Regression)

一種線性回歸技術(shù),損失函數(shù)中加入 L2 正則化 項(xiàng),防止過擬合并提高泛化能力,特別適用于自變量高度相關(guān)的情況。

2. 隨機(jī)特征模型(Random Feature Model)

一種用于高維數(shù)據(jù)建模和機(jī)器學(xué)習(xí)的理論工具,在理解核方法(Kernel Methods)和神經(jīng)網(wǎng)絡(luò)的泛化能力方面起到了重要作用。

核心思想是用隨機(jī)映射將輸入數(shù)據(jù)投影到一個(gè)高維(通常是無限維)特征空間,在該特征空間中,使用線性方法(如線性回歸或感知機(jī))進(jìn)行學(xué)習(xí),而不是直接在原始空間中使用復(fù)雜的非線性方法。

隨機(jī)特征模型幫助理解機(jī)器學(xué)習(xí)模型如何在過參數(shù)化(overparameterization)條件下仍然保持良好的泛化能力:雙下降現(xiàn)象,等效理論等。

隨機(jī)特征模型在統(tǒng)計(jì)物理和隨機(jī)矩陣?yán)碚摚?strong>Random Matrix Theory, RMT)應(yīng)用廣泛,如特征值分布和物理中玻璃態(tài)復(fù)雜能量景觀。

3. 自由概率(Free Probability)

一種非交換概率論,最初是為了研究自由群上的算子代數(shù)(如馮·諾依曼代數(shù)),后來在隨機(jī)矩陣?yán)碚摰阮I(lǐng)域廣泛應(yīng)用。

傳統(tǒng)概率論研究的是可交換的隨機(jī)變量(如標(biāo)量或向量),而自由概率研究的是算子和矩陣(如隨機(jī)矩陣),乘法一般不滿足交換律。

在經(jīng)典概率中,獨(dú)立性意味著聯(lián)合期望可以分解為各自期望的乘積。而在自由概率中,自由性是一種用矩定義的非交換版本的獨(dú)立性。

4.R-變換與S-變換

R變換(R-transform)類似于經(jīng)典概率中的累積量生成函數(shù),用于計(jì)算自由概率卷積(類似于經(jīng)典概率中的獨(dú)立隨機(jī)變量求和)。

哈佛大學(xué):高維回歸中的Scaling Law是重整化的自然結(jié)果-AI.x社區(qū)

哈佛大學(xué):高維回歸中的Scaling Law是重整化的自然結(jié)果-AI.x社區(qū)

S變換(S-transform)用于計(jì)算自由概率乘法(類似于獨(dú)立隨機(jī)變量的乘積)。

二、研究綜述

1. 神經(jīng)縮放律(Scaling Law)

隨著數(shù)據(jù)集規(guī)模與算力的提升,大型語言、視覺及多模態(tài)模型的性能表現(xiàn)出顯著的冪律趨勢(shì)。

冪律指數(shù)決定了在給定計(jì)算資源下,如何聯(lián)調(diào)數(shù)據(jù)集與模型規(guī)模以獲得最優(yōu)性能。理解這些指數(shù)的決定因素,是其理論認(rèn)知的核心。

哈佛大學(xué):高維回歸中的Scaling Law是重整化的自然結(jié)果-AI.x社區(qū)

2. 三個(gè)基本原理

a.高斯普適性,當(dāng)線性回歸問題的維度與數(shù)據(jù)量線性增長(zhǎng)時(shí),訓(xùn)練集與測(cè)試集的協(xié)方差矩陣與高維高斯分布無異,也稱高斯等價(jià)性。

b.確定性等價(jià),計(jì)算平均訓(xùn)練與泛化誤差時(shí),需對(duì)有限訓(xùn)練集的隨機(jī)選擇取平均,尤其涉及樣本經(jīng)驗(yàn)協(xié)方差矩陣的均值。

近年研究表明,在相關(guān)代數(shù)表達(dá)式中,可將(依賴數(shù)據(jù)且隨機(jī)的)樣本協(xié)方差替換為(確定性的)總體協(xié)方差,此替換稱為確定性等價(jià)。

c.協(xié)方差S變換,經(jīng)驗(yàn)協(xié)方差可視作對(duì)“真實(shí)”總體協(xié)方差的乘性噪聲(通常源于有限訓(xùn)練集或隨機(jī)特征集),S變換能將含經(jīng)驗(yàn)協(xié)方差的表達(dá)式替換為僅含總體協(xié)方差的確定性等價(jià)形式。

替換時(shí),嶺參數(shù)被重新縮放(更準(zhǔn)確說是重整化)為新值——原嶺參數(shù)乘以噪聲的S變換即可得重整化嶺參數(shù)。

協(xié)方差上的乘性噪聲是線性模型中所有過擬合與縮放現(xiàn)象的本質(zhì)根源。

3. 縮放律的可解析研究

是否存在一個(gè)信息處理系統(tǒng)的簡(jiǎn)化場(chǎng)景,可解析研究性能隨數(shù)據(jù)集與模型規(guī)模變化的冪律行為?

哈佛大學(xué):高維回歸中的Scaling Law是重整化的自然結(jié)果-AI.x社區(qū)

近期研究顯示,高維最小二乘回歸在不同特征空間中的表現(xiàn)屬于此類,包括線性回歸、核回歸以及隨機(jī)特征模型。

當(dāng)特征空間維度與訓(xùn)練數(shù)據(jù)量共同趨近無窮時(shí),這些模型可推導(dǎo)出訓(xùn)練與泛化性能的精確漸近特征。

論文采用基于隨機(jī)矩陣?yán)碚摰男路椒ā貏e是自由概率論中的S變換來推導(dǎo)這些漸近結(jié)果。

該方法明確了樣本協(xié)方差矩陣隨機(jī)性的核心作用。

由此視角,樣本與模型的雙重下降現(xiàn)象、縮放與瓶頸行為、以及訓(xùn)練網(wǎng)絡(luò)方差來源分析等,均可視為基礎(chǔ)重整化的自然結(jié)果。

4. 線性模型的神經(jīng)縮放律

大多數(shù)可解的神經(jīng)網(wǎng)絡(luò)訓(xùn)練與泛化模型聚焦于權(quán)重線性的函數(shù)形式:f(x)=w·?(x),其中?(x)為N維特征向量(N可能無限),特征本身可隨機(jī)。

此類線性模型包括核方法與隨機(jī)特征模型。當(dāng)通過嶺回歸在P個(gè)樣本上學(xué)習(xí)權(quán)重時(shí),可精確計(jì)算模型泛化性能的漸近行為。

哈佛大學(xué):高維回歸中的Scaling Law是重整化的自然結(jié)果-AI.x社區(qū)

高斯普適性使此類線性模型的精確漸近研究成為可能——該性質(zhì)在確定性核的核方法與隨機(jī)特征模型中均有研究。此類方法可適配于研究隨機(jī)梯度下降(SGD)訓(xùn)練的高維線性模型動(dòng)態(tài)。

研究此類線性模型的動(dòng)機(jī)之一在于:神經(jīng)正切核(NTK)參數(shù)化的神經(jīng)網(wǎng)絡(luò)在無限寬度極限下收斂于核方法。核方法因其凸目標(biāo)函數(shù)已有成熟理論。

有限寬度網(wǎng)絡(luò)通過輸出重縮放仍可保持線性行為(稱為"惰性訓(xùn)練"或"線性化網(wǎng)絡(luò)"),其表現(xiàn)類似于無限寬度NTK的隨機(jī)特征近似。理解核機(jī)制有助于分析特征學(xué)習(xí)型網(wǎng)絡(luò)。

統(tǒng)計(jì)力學(xué)的視角看,深度學(xué)習(xí)中縮放律的觀測(cè)尤為有趣——該領(lǐng)域曾因?qū)⒖s放指數(shù)作為主要研究對(duì)象而取得重大突破,重整化成為研究復(fù)雜系統(tǒng)縮放特性的核心工具。

三、論文貢獻(xiàn)

1. 核心技術(shù)框架

通過分析經(jīng)驗(yàn)協(xié)方差矩陣,論文提出可將其實(shí)視為"真實(shí)"總體協(xié)方差的乘性噪聲擾動(dòng)版本,并引入自由概率論中的R變換與S變換及其關(guān)鍵性質(zhì)。

論文的技術(shù)核心貢獻(xiàn)是,通過圖解法推導(dǎo)R/S變換的性質(zhì),賦予其"本征能量"物理解釋,并闡明其作為累積量生成函數(shù)的作用。

文中顯式計(jì)算了多種隨機(jī)矩陣系的R/S變換,僅利用變換的基本性質(zhì)即可推導(dǎo)代數(shù)形式,無需直接求解解析函數(shù)。

哈佛大學(xué):高維回歸中的Scaling Law是重整化的自然結(jié)果-AI.x社區(qū)

2. 關(guān)鍵應(yīng)用突破

通過將上述工具應(yīng)用于線性/核嶺回歸的學(xué)習(xí)曲線分析:

統(tǒng)一再現(xiàn)前人關(guān)于訓(xùn)練/泛化誤差漸近行為的結(jié)果,揭示關(guān)鍵參數(shù)κ實(shí)為嶺參數(shù)λ的重整化形式(重整化系數(shù)即噪聲的S變換)

提出S變換平方等于樣本外與樣本內(nèi)誤差比,據(jù)此僅用訓(xùn)練數(shù)據(jù)估計(jì)S變換,可導(dǎo)出廣義交叉驗(yàn)證理論,給出偏差-方差分解的精確表達(dá)式。

從數(shù)據(jù)集的源-容量指數(shù)推導(dǎo)分辨率受限縮放指數(shù),闡明標(biāo)簽噪聲和非零嶺參數(shù)如何導(dǎo)致不同縮放機(jī)制。

3. 創(chuàng)新成果

論文用隨機(jī)矩陣?yán)碚摵妥杂筛怕收摰幕竟ぞ?,?duì)多種高維嶺回歸模型的訓(xùn)練及泛化性能進(jìn)行了簡(jiǎn)明推導(dǎo)。

通過直接運(yùn)用自由概率論中S變換的性質(zhì),僅用少量代數(shù)運(yùn)算便得到了訓(xùn)練誤差與泛化誤差的解析表達(dá)式,可直觀識(shí)別模型性能中冪律縮放現(xiàn)象的來源。

計(jì)算了一類廣泛隨機(jī)特征模型的泛化誤差,發(fā)現(xiàn)所有模型中,S變換均對(duì)應(yīng)訓(xùn)練-測(cè)試泛化差距,并產(chǎn)生一種廣義交叉驗(yàn)證估計(jì)量的類比結(jié)果。

對(duì)具有結(jié)構(gòu)化協(xié)變量的廣義隨機(jī)特征模型進(jìn)行了細(xì)粒度偏差-方差分解。新結(jié)果揭示了隨機(jī)特征模型在過參數(shù)化場(chǎng)景下因特征方差導(dǎo)致性能受限的縮放機(jī)制。

證明了隨機(jī)特征模型中各向異性權(quán)重結(jié)構(gòu)如何限制性能,并導(dǎo)致過參數(shù)化場(chǎng)景中有限寬度修正的非平凡指數(shù)。

本研究拓展了早期神經(jīng)縮放律模型,并為其提供了統(tǒng)一的理論視角。

4.代碼可用性

論文所有圖表可通過以下開源倉(cāng)庫(kù)復(fù)現(xiàn):???https://github.com/Pehlevan-Group/S_transform,???提供交互式Python筆記本,便于讀者驗(yàn)證數(shù)值結(jié)果。

四、論文啟示

筆者在???大模型的數(shù)理認(rèn)知框架??整理了大模型智能產(chǎn)生的本質(zhì)的數(shù)學(xué)物理機(jī)理:

1、重整化從海量語料中提取出范疇

2、持續(xù)重整化驅(qū)動(dòng)范疇解構(gòu)重組以至相變

3、生成過程是于范疇中采樣做變分推理。    

哈佛大學(xué):高維回歸中的Scaling Law是重整化的自然結(jié)果-AI.x社區(qū)

結(jié)合哈佛大學(xué)這篇論文的研究,給了筆者如下幾點(diǎn)啟示:

1. Scaling Law的物理本質(zhì)

大模型的冪律縮放行為可能源于預(yù)訓(xùn)練過程中重整化群流(RG Flow)的固有特性。

論文的S變換(自由概率論)與RG中的β函數(shù)均通過“尺度變換”描述系統(tǒng)演化,暗示兩者數(shù)學(xué)可能同構(gòu)。

預(yù)訓(xùn)練時(shí),模型參數(shù)在高維概率空間中的粗?;^程(RG流)自動(dòng)篩選出普適性縮放指數(shù),與數(shù)據(jù)細(xì)節(jié)無關(guān)。

Scaling Law的物理本質(zhì)是高維概率空間內(nèi)尺度重整化下的涌現(xiàn)。

2. 隨機(jī)特征模型與對(duì)稱性破缺

論文發(fā)現(xiàn)隨機(jī)特征模型的性能瓶頸由特征方差(乘性噪聲)主導(dǎo),這與筆者提出的對(duì)稱性破缺導(dǎo)致相變機(jī)制高度契合:

訓(xùn)練初期,隨機(jī)特征(無序相)對(duì)應(yīng)高方差,性能受限于1/N縮放(平凡指數(shù))。訓(xùn)練后期,特征學(xué)習(xí)(有序相)引發(fā)對(duì)稱性破缺,進(jìn)入非平凡縮放區(qū)。

3. 自由能最小化與S變換的廣義交叉驗(yàn)證

論文指出S變換平方等價(jià)于樣本外/樣本內(nèi)誤差比,與筆者所說變分推斷最小化自由能本質(zhì)是優(yōu)化同一量:

S變換量化乘性噪聲對(duì)泛化gap的影響S2=Etest/Etrain;自由能F=Energy?T?Entropy 中,熵項(xiàng)對(duì)應(yīng)S變換的噪聲熵懲罰。

提示工程(Prompting)可視為對(duì)模型施加外場(chǎng),擾動(dòng)S變換的噪聲結(jié)構(gòu),從而調(diào)控F的極小值位置。

文獻(xiàn)1,Scaling and renormalization in high-dimensional regression,???https://arxiv.org/html/2405.00592v3??

本文轉(zhuǎn)載自????清熙????,作者:王慶法

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦