偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

參數(shù)空間對稱性:深度學(xué)習(xí)理論的統(tǒng)一幾何框架

人工智能 新聞
近日,加州大學(xué)圣地亞哥分校與美國東北大學(xué)的研究人員發(fā)布了一篇綜述,系統(tǒng)梳理了這一現(xiàn)象背后的數(shù)學(xué)結(jié)構(gòu):神經(jīng)網(wǎng)絡(luò)參數(shù)空間中的對稱性(parameter space symmetry)。

過去十年,深度學(xué)習(xí)模型的規(guī)模從上百萬參數(shù)的卷積網(wǎng)絡(luò)擴展到上千億參數(shù)的大語言模型,性能突飛猛進。然而,我們對這些模型為何有效仍缺乏系統(tǒng)性的理解。一個關(guān)鍵但常被忽視的原因在于:在神經(jīng)網(wǎng)絡(luò)中,存在大量 “不同卻等價” 的參數(shù)配置 —— 它們實現(xiàn)相同的模型函數(shù),卻讓優(yōu)化與泛化的分析變得格外復(fù)雜。

近日,加州大學(xué)圣地亞哥分校與美國東北大學(xué)的研究人員發(fā)布了一篇綜述,系統(tǒng)梳理了這一現(xiàn)象背后的數(shù)學(xué)結(jié)構(gòu):神經(jīng)網(wǎng)絡(luò)參數(shù)空間中的對稱性(parameter space symmetry)。這篇長達三十頁的論文揭示了對稱性如何塑造損失地形、影響優(yōu)化與訓(xùn)練動力學(xué),并為理解深度學(xué)習(xí)提供了一個統(tǒng)一的幾何視角。

  • 論文鏈接:https://arxiv.org/abs/2506.13018 
  • 作者主頁:https://b-zhao.github.io/ 

什么是參數(shù)空間對稱性?

在一個神經(jīng)網(wǎng)絡(luò)中,不同的參數(shù)組合可能產(chǎn)生完全相同的輸出。最直觀的例子是神經(jīng)元置換:交換隱藏層中兩個神經(jīng)元及其對應(yīng)的輸入 / 輸出權(quán)重,網(wǎng)絡(luò)實現(xiàn)的函數(shù)不變。

置換對稱:交換隱藏層兩個單元及其關(guān)聯(lián)權(quán)重,函數(shù)保持不變

這類保持函數(shù)不變的參數(shù)變換,被稱為參數(shù)空間對稱性 (parameter space symmetry)。

數(shù)學(xué)上,它是一組使損失函數(shù) L (θ) 保持不變的變換 g,即 L (g ? θ) = L (θ)。這些變換構(gòu)成一個群 (group),并在參數(shù)空間中定義了等價軌道 (orbit):同一軌道上的參數(shù)都表示同一個模型函數(shù)。這個視角為理解極小值的連通性、平坦性與優(yōu)化動態(tài)提供了統(tǒng)一語言。

除了離散的置換對稱外,幾乎所有常見的神經(jīng)網(wǎng)絡(luò)架構(gòu)都還具有連續(xù)對稱性:

  • ReLU 網(wǎng)絡(luò)與 BatchNorm / LayerNorm 等歸一層具有正縮放對稱;
  • 線性層和注意力機制具有一般線性(GL)對稱;
  • Softmax 函數(shù)具有平移對稱;
  • 其他結(jié)構(gòu)(如徑向激活函數(shù)、RBF 網(wǎng)絡(luò))也呈現(xiàn)出旋轉(zhuǎn)或尺度類對稱。

圖 2 (左)ReLU 的縮放對稱:對輸入權(quán)重與偏置按對角矩陣 g 縮放,同時將輸出權(quán)重乘以 g 的逆矩陣,函數(shù)保持不變。(右)自注意力的一般線性對稱:鍵 (WK) 與查詢 (WQ) 的線性變換 g 可以互相抵消,輸出結(jié)果不變。

更重要的是,復(fù)雜的現(xiàn)代架構(gòu),如 Transformer,其對稱性是其各組件對稱性的組合。例如,多頭注意力機制同時具有每個頭內(nèi)部的廣義線性對稱性、頭之間的排列對稱性,以及與輸出投影層相關(guān)的另一組線性對稱性。

從平坦極小值到模式連通性:對稱性如何塑造損失地形

對稱性讓優(yōu)化空間既復(fù)雜又有規(guī)律。

連續(xù)對稱性(如縮放)會將一個孤立的極小值點 “拉伸” 成一個連續(xù)、平坦的極小值流形。沿著這個流形移動,損失值保持不變。這意味著網(wǎng)絡(luò)的許多平坦方向并非來自更好的泛化,而是由結(jié)構(gòu)對稱性決定的。因此,傳統(tǒng)用平坦度衡量泛化能力的指標需要謹慎解讀。

另外,實踐中觀察到的 “模式連通性”—— 即獨立訓(xùn)練得到的模型往往能通過低損耗路徑連接 —— 其背后也部分源于連續(xù)對稱性。對稱性天然地在參數(shù)空間中創(chuàng)造出連接功能等價參數(shù)的連續(xù)路徑,從而解釋了模型融合(model fusion)為何能有效。

圖 3  連續(xù)對稱性與平坦極小值:不同的參數(shù) θ,g1 ? θ,g2 ? θ 具有相同的損失值,構(gòu)成一條由對稱變換生成的平坦軌跡。

離散對稱性(如神經(jīng)元置換)則會在參數(shù)空間的不同位置復(fù)制出大量功能完全相同的極小值 “副本”。這使損失地形更加復(fù)雜,其極小值的數(shù)量隨網(wǎng)絡(luò)寬度呈階乘級增長。

從幾何到算法:利用對稱性的優(yōu)化方法

在對稱群的作用下,即使兩組參數(shù)具有相同的損失值,它們的梯度方向和大小也可能不同(圖 4 左)。這意味著,即使兩組參數(shù)在函數(shù)意義上等價,它們的訓(xùn)練軌跡仍可能完全不同(圖 4 右)。

圖 4  相同的損失值可能對應(yīng)著不同的梯度和訓(xùn)練軌跡

這種 “等損失、不同梯度” 的現(xiàn)象為算法設(shè)計帶來了新的可能。部分優(yōu)化方法嘗試在等價軌道中主動尋找梯度更優(yōu)的點,以加快收斂或改善最終解的性質(zhì)(圖 5 左);另一些方法則追求對稱不變性,讓優(yōu)化結(jié)果對初始點的等價變換不敏感(圖 5 右)。

圖 5  兩類應(yīng)用對稱性的優(yōu)化算法

前者將對稱性視為可用的自由度,后者將其作為應(yīng)被約簡的冗余。無論哪種思路,都表明對稱性是理解和改進優(yōu)化算法的重要線索。

從對稱到守恒:學(xué)習(xí)動力學(xué)的新理解

連續(xù)對稱性往往對應(yīng)著守恒量(conserved quantities)—— 類似物理中的諾特定理。

在梯度流(gradient flow)中,對稱性使得某些量在訓(xùn)練過程中保持恒定。例如,線性網(wǎng)絡(luò)中相鄰層的 Gram 矩陣差、ReLU 網(wǎng)絡(luò)中輸入輸出權(quán)重的范數(shù)差。

這些守恒量揭示了訓(xùn)練過程的穩(wěn)定性,也幫助解釋優(yōu)化的隱式偏置(implicit bias):

不同的初始化對應(yīng)不同的守恒量值,進而影響最終的收斂點和泛化性能。也就是說,參數(shù)空間的對稱結(jié)構(gòu)決定了學(xué)習(xí)軌跡與結(jié)果的統(tǒng)計分布。

圖 6  對稱性與守恒量的關(guān)系。(左)對稱方向與守恒量的梯度 ?Q 都與 ?L 正交,位于損失水平集的切平面上。(右)守恒量在訓(xùn)練中保持不變,從而為梯度流軌跡與最終極小值提供了參數(shù)化坐標。

跨空間的聯(lián)系:參數(shù)、表征與數(shù)據(jù)中的對稱

參數(shù)空間中的對稱性并非孤立存在,而是與數(shù)據(jù)空間和內(nèi)部表征空間的對稱緊密相連。

當數(shù)據(jù)分布本身具有某種對稱性(如旋轉(zhuǎn)、平移或翻轉(zhuǎn))時,訓(xùn)練得到的模型參數(shù)往往會繼承并反映這些結(jié)構(gòu)。

此外,在 “權(quán)重空間學(xué)習(xí)”(Weight Space Learning)等新興方向中,神經(jīng)網(wǎng)絡(luò)參數(shù)本身被作為輸入數(shù)據(jù)。此時,對稱性成為新的 “數(shù)據(jù)結(jié)構(gòu)”,支持了等變元網(wǎng)絡(luò)(equivariant meta-network)在模型性質(zhì)分析和生成中的廣泛應(yīng)用。

圖 7  對稱不變與對稱等變的元網(wǎng)絡(luò):等變元網(wǎng)絡(luò)可直接在模型權(quán)重上進行學(xué)習(xí),被用于在預(yù)測模型的泛化能力,學(xué)習(xí)優(yōu)化中的權(quán)重更新,以及生成滿足特定特征的新模型等任務(wù)。

展望:一個正在形成的研究領(lǐng)域

參數(shù)空間中的對稱性廣泛存在,為深度學(xué)習(xí)提供了一種新的數(shù)學(xué)語言,將模型的復(fù)雜行為與群論和幾何中的成熟工具聯(lián)系起來。

這一視角正在影響多個領(lǐng)域的實踐:從加速優(yōu)化與改善泛化,到模型融合、量化和采樣,再到新興的權(quán)重空間學(xué)習(xí)與生成模型設(shè)計。對稱性正在從理論概念轉(zhuǎn)化為可操作的算法原則。

當然,對稱性并非理解神經(jīng)網(wǎng)絡(luò)的唯一路徑。但正如物理、神經(jīng)科學(xué)等學(xué)科為機器學(xué)習(xí)帶來了新方法一樣,數(shù)學(xué)化的視角讓我們得以在這個完全人工的系統(tǒng)中尋找結(jié)構(gòu)與規(guī)律,并由此開拓新的學(xué)習(xí)理論與算法思路。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-04-30 15:16:59

機器學(xué)習(xí)人工智能計算機

2021-05-06 09:05:11

深度學(xué)習(xí)

2022-05-06 12:13:55

模型AI

2023-09-20 09:56:18

深度學(xué)習(xí)人工智能

2018-12-17 17:14:06

AI數(shù)據(jù)科技

2022-07-10 14:59:57

機器學(xué)習(xí)人工智能預(yù)測模型

2020-06-19 07:42:04

人工智能

2025-08-11 08:54:00

AI模型數(shù)據(jù)

2023-07-30 16:05:44

多模態(tài)學(xué)習(xí)框架自然語言

2025-08-15 07:10:00

2025-05-15 09:04:00

2023-02-07 13:57:18

量子數(shù)據(jù)

2023-02-07 13:24:42

應(yīng)用學(xué)習(xí)

2022-03-08 09:15:29

人工智能語音識別模型

2019-03-06 09:55:54

Python 開發(fā)編程語言

2017-06-19 17:52:36

深度學(xué)習(xí)人工智能

2020-10-06 14:23:13

人工智能

2017-06-05 16:17:50

深度學(xué)習(xí)算法神經(jīng)網(wǎng)絡(luò)

2023-06-27 16:42:18

Tinygrad深度學(xué)習(xí)工具

2017-04-19 09:15:57

深度學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號