偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

零障礙合并兩個(gè)模型,大型ResNet模型線性連接只需幾秒,神經(jīng)網(wǎng)絡(luò)啟發(fā)性新研究

人工智能 新聞
這篇論文探討了排列對(duì)稱性(permutation symmetry)如何在 SGD 解決方案的線性模式連接中發(fā)揮重要作用。

深度學(xué)習(xí)能夠取得如此成就,得益于其能夠相對(duì)輕松地解決大規(guī)模非凸優(yōu)化問題。盡管非凸優(yōu)化是 NP 困難的,但一些簡(jiǎn)單的算法,通常是隨機(jī)梯度下降(SGD)的變體,它們?cè)趯?shí)際擬合大型神經(jīng)網(wǎng)絡(luò)時(shí)表現(xiàn)出驚人的有效性。

本文中,來自華盛頓大學(xué)的多位學(xué)者撰文《 Git Re-Basin: Merging Models modulo Permutation Symmetries 》,他們研究了在深度學(xué)習(xí)中,SGD 算法在高維非凸優(yōu)化問題上的不合理有效性。他們受到三個(gè)問題的啟發(fā):

1. 為什么 SGD 在高維非凸深度學(xué)習(xí)損失 landscapes 的優(yōu)化中表現(xiàn)良好,而在其他非凸優(yōu)化設(shè)置中,如 policy 學(xué)習(xí)、軌跡優(yōu)化和推薦系統(tǒng)的穩(wěn)健性明顯下降 ?

2. 局部極小值在哪里?在初始化權(quán)值和最終訓(xùn)練權(quán)值之間進(jìn)行線性插值時(shí),為什么損失會(huì)平滑、單調(diào)地減小?

3. 兩個(gè)獨(dú)立訓(xùn)練的模型,它們具有不同的隨機(jī)初始化和數(shù)據(jù)批處理順序,為何會(huì)實(shí)現(xiàn)幾乎相同的性能?此外,為什么它們的訓(xùn)練損失曲線看起來一樣

圖片

論文地址:https://arxiv.org/pdf/2209.04836.pdf

本文認(rèn)為:在模型訓(xùn)練中存在一些不變性,這樣一來才會(huì)有不同的訓(xùn)練表現(xiàn)出幾乎相同的性能。

為什么會(huì)這樣呢?2019 年,Brea 等人注意到神經(jīng)網(wǎng)絡(luò)中的隱藏單元具有排列對(duì)稱性。簡(jiǎn)單的說就是:我們可以交換網(wǎng)絡(luò)中隱藏層的任意兩個(gè)單元,而網(wǎng)絡(luò)功能將保持不變。2021 年 Entezari 等人推測(cè),這些排列對(duì)稱可能允許我們?cè)跈?quán)值空間中線性連接點(diǎn),而不損害損失。

下面我們以論文作者之一的舉例來說明文章主旨,這樣大家會(huì)更清楚。

假如說你訓(xùn)練了一個(gè) A 模型,你的朋友訓(xùn)練了一個(gè) B 模型,這兩個(gè)模型訓(xùn)練數(shù)據(jù)可能不同。沒關(guān)系,使用本文提出的 Git Re-Basin,你能在權(quán)值空間合并這兩個(gè)模型 A+B,而不會(huì)損害損失。

圖片?

論文作者表示,Git Re-Basin 可適用于任何神經(jīng)網(wǎng)絡(luò)(NN),他們首次演示了在兩個(gè)獨(dú)立訓(xùn)練(沒有預(yù)先訓(xùn)練)的模型(ResNets)之間,可以零障礙的線性連通。

他們發(fā)現(xiàn),合并能力是 SGD 訓(xùn)練的一個(gè)屬性,在初始化時(shí)合并是不能工作的,但是會(huì)發(fā)生相變,因此隨著時(shí)間的推移合并將成為可能。

圖片

他們還發(fā)現(xiàn),模型寬度與可合并性密切相關(guān),即越寬越好。

圖片?

此外,并非所有架構(gòu)都能合并:VGG 似乎比 ResNets 更難合并。

這種合并方法還有其他優(yōu)點(diǎn),你可以在不相交和有偏差的數(shù)據(jù)集上訓(xùn)練模型,然后在權(quán)值空間中將它們合并在一起。例如,你有一些數(shù)據(jù)在美國,一些在歐盟。由于某些原因,不能混合數(shù)據(jù)。你可以先訓(xùn)練單獨(dú)的模型,然后合并權(quán)重,最后泛化到合并的數(shù)據(jù)集。

圖片?

因此,在不需要預(yù)訓(xùn)練或微調(diào)的情況下可以混合訓(xùn)練過的模型。作者表示自己很想知道線性模式連接和模型修補(bǔ)的未來發(fā)展方向,可能會(huì)應(yīng)用到聯(lián)邦學(xué)習(xí)、分布式訓(xùn)練以及深度學(xué)習(xí)優(yōu)化等領(lǐng)域。

最后還提到,章節(jié) 3.2 中的權(quán)重匹配算法只需 10 秒左右即可運(yùn)行,所以節(jié)省了大量時(shí)間。論文第 3 章也介紹了 A 模型與 B 模型單元匹配的三種方法,對(duì)匹配算法還不清楚的小伙伴,可以查看原論文。

網(wǎng)友評(píng)論及作者解疑

這篇論文在推特上引發(fā)了熱議,PyTorch 聯(lián)合創(chuàng)始人 Soumith Chintala 表示如果這項(xiàng)研究可以遷移到更大的設(shè)置,則它可以實(shí)現(xiàn)的方向會(huì)更棒。合并兩個(gè)模型(包括權(quán)重)可以擴(kuò)展 ML 模型開發(fā),并可能在開源的共同開發(fā)模型中發(fā)揮巨大作用。

圖片

另有人認(rèn)為如果排列不變性能夠這樣高效地捕捉大部分等價(jià)性,它將為神經(jīng)網(wǎng)絡(luò)的理論研究提供啟發(fā)。

圖片

論文一作、華盛頓大學(xué)博士 Samuel Ainsworth 也解答了網(wǎng)友提出的一些問題。

首先有人問,「論文中是否有關(guān)于在訓(xùn)練中針對(duì)獨(dú)特 basin 的任何提示?如果有一種方法可以做到對(duì)排列進(jìn)行抽象,那么訓(xùn)練速度可能會(huì)更快?!?/span>

Ainsworth 回復(fù)稱,這點(diǎn)自己沒有想到。他真的希望能夠以某種方式實(shí)現(xiàn)更快地訓(xùn)練,但目前為止已被證明非常困難。問題在于 SGD 本質(zhì)上是一種局部搜索,因此利用高階幾何并不是那么容易。也許分布式訓(xùn)練是一種可行的方法。

圖片?

還有人問是否適用于 RNN 和 Transformers?Ainsworth 表示原則上適用,但他還沒有對(duì)此進(jìn)行實(shí)驗(yàn)。時(shí)間會(huì)證明一切。

圖片?

最后有人提出,「這看起來對(duì)分布式訓(xùn)練『成真』非常重要?難道 DDPM(去噪擴(kuò)散概率模型)不使用 ResNet 殘差塊嗎?」

Ainsworth 回復(fù)稱,雖然他自己對(duì) DDPM 不是很熟悉,但直言不諱表示將它用于分布式訓(xùn)練將非常令人興奮。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-18 07:10:00

人工智能模型神經(jīng)網(wǎng)絡(luò)

2017-03-10 12:16:46

機(jī)器學(xué)習(xí)

2019-01-05 08:40:17

VGG神經(jīng)網(wǎng)絡(luò)

2025-02-19 18:00:00

神經(jīng)網(wǎng)絡(luò)模型AI

2017-08-28 21:31:37

TensorFlow深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2025-03-31 08:50:00

模型量化神經(jīng)網(wǎng)絡(luò)AI

2025-02-24 08:00:00

機(jī)器學(xué)習(xí)ML架構(gòu)

2023-09-17 23:09:24

Transforme深度學(xué)習(xí)

2024-07-10 11:09:35

2018-02-27 09:32:13

神經(jīng)網(wǎng)絡(luò)自然語言初探

2023-08-21 10:48:25

2020-04-20 13:45:32

神經(jīng)網(wǎng)絡(luò)模型代碼

2022-12-05 10:08:59

2021-06-21 10:43:25

Python神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2025-06-24 03:00:00

2025-06-19 10:09:55

2021-03-30 17:16:44

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2017-05-10 14:32:31

神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)架構(gòu)模型

2020-09-16 10:02:08

神經(jīng)網(wǎng)絡(luò)模型

2017-03-22 12:13:36

AI神經(jīng)網(wǎng)絡(luò)模型算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)