偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

近萬人圍觀Hinton最新演講：前向-前向神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法，論文已公開

作者：機(jī)器之心 2022-12-02 15:19:16

人工智能新聞

在 NeurIPS 2022 會(huì)議的一場特邀演講中，圖靈獎(jiǎng)得主、深度學(xué)習(xí)先驅(qū) Hinton 在關(guān)于深度學(xué)習(xí)影響計(jì)算機(jī)構(gòu)建方式、神經(jīng)網(wǎng)絡(luò)算法等方面分享了他的最新觀點(diǎn)。

NeurIPS 2022 會(huì)議正在如火如荼地進(jìn)行之中，各路專家學(xué)者圍繞著深度學(xué)習(xí)、計(jì)算機(jī)視覺、大規(guī)模機(jī)器學(xué)習(xí)、學(xué)習(xí)理論、優(yōu)化、稀疏理論等眾多細(xì)分領(lǐng)域展開交流與探討。

會(huì)上，圖靈獎(jiǎng)得主、深度學(xué)習(xí)先驅(qū) Geoffrey Hinton 被邀請發(fā)表演講，以表彰他十年前與其研究生 Alex Krizhevsky 和 Ilya Sutskever 共同撰寫的論文《ImageNet Classification with Deep Convolutional Neural Networks》，該論文因?qū)υ擃I(lǐng)域的「巨大影響」而被授予時(shí)間檢驗(yàn)獎(jiǎng)。這項(xiàng)工作發(fā)表于 2012 年，是卷積神經(jīng)網(wǎng)絡(luò)首次在 ImageNet 圖像識(shí)別競賽中表現(xiàn)人類水平的能力，它是啟動(dòng)第三次人工智能浪潮的關(guān)鍵事件。

Hinton 此次演講的主題為《The Forward-Forward Algorithm for Training Deep Neural Networks》。在演講中，Geoffrey Hinton 表示，「機(jī)器學(xué)習(xí)研究社區(qū)在意識(shí)到深度學(xué)習(xí)對計(jì)算機(jī)構(gòu)建方式的影響上一直表現(xiàn)緩慢?！顾J(rèn)為，人工智能的機(jī)器學(xué)習(xí)形式將引發(fā)計(jì)算機(jī)系統(tǒng)的變革，這是一種將 AI「放入你的烤面包機(jī)」的新型軟硬結(jié)合。

他繼續(xù)說到，「我認(rèn)為我們將看到一種完全不同的計(jì)算機(jī)，雖然幾年內(nèi)無法實(shí)現(xiàn)。但我們有充分的理由來研究這種完全不同的計(jì)算機(jī)?！?/span>

構(gòu)建完全不同的新型計(jì)算機(jī)

迄今為止，所有的數(shù)字計(jì)算機(jī)都被構(gòu)建為「不朽」（immortal），其中硬件設(shè)計(jì)非常可靠，以便相同的軟件可以在任何地方運(yùn)行?！肝覀兛梢栽诓煌奈锢碛布线\(yùn)行相同的程序，知識(shí)是不朽的。」

Hinton 表示，這種設(shè)計(jì)要求意味著數(shù)字計(jì)算機(jī)已經(jīng)錯(cuò)過了「硬件的各種可變、隨機(jī)、不穩(wěn)定、模擬和不可靠特性」，而這些特性可能對我們非常有用。

在 Hinton 看來，未來的計(jì)算機(jī)系統(tǒng)將采取不同的方式：它們將是「神經(jīng)形態(tài)的」，并且是普通的（mortal）。這意味著每臺(tái)計(jì)算機(jī)都將是神經(jīng)網(wǎng)絡(luò)軟件與雜亂無章硬件的緊密結(jié)合，在具有模擬而非數(shù)字元件的意義上，它可以包含不確定性因素并隨時(shí)間推移而發(fā)展。

Hinton 解釋到，「現(xiàn)在的替代方案是我們將放棄硬件與軟件的分離，但計(jì)算機(jī)科學(xué)家真的不喜歡這種做法?！?/span>

所謂的普通計(jì)算（mortal computation），就是系統(tǒng)學(xué)習(xí)到的知識(shí)和硬件是密不可分的。這些普通計(jì)算機(jī)可以「成長」，擺脫造價(jià)高昂的芯片制造廠。

Hinton 指出，如果我們這樣做了，就可以使用功耗極低的模擬計(jì)算，還能使用憶阻器權(quán)重來進(jìn)行萬億次并行處理。這里指的是一種基于非線性電路元件、擁有數(shù)十年歷史的實(shí)驗(yàn)芯片。此外我們還可以在不了解不同位硬件的精確行為的精準(zhǔn)質(zhì)量時(shí)發(fā)展硬件。

但是，Hinton 也表示，新的普通計(jì)算機(jī)并不會(huì)取代傳統(tǒng)的數(shù)字計(jì)算機(jī)，「它不是掌控你的銀行賬戶的計(jì)算機(jī)，也不會(huì)確切知道你有多少錢。」

這種計(jì)算機(jī)用于放置（即處理）其他東西，比如它可以使用一美元將 GPT-3 之類的東西「放入你的烤面包機(jī)中」，這樣只需幾瓦的功率，就可以與自己的烤面包機(jī)對話。

適合普通計(jì)算硬件的 FF 網(wǎng)絡(luò)

在這次演講中，Hinton 花了大部分時(shí)間談?wù)撘环N新的神經(jīng)網(wǎng)絡(luò)方法，他稱之為 Forward-Forward（FF）網(wǎng)絡(luò)，它取代了幾乎所有神經(jīng)網(wǎng)絡(luò)中使用的反向傳播技術(shù)。Hinton 提出，通過去除反向傳播，前向網(wǎng)絡(luò)可能更合理地接近現(xiàn)實(shí)生活中在大腦中發(fā)生的情況。

這篇論文草稿被張貼在多倫多大學(xué)的 Hinton 主頁上：

論文鏈接：https://www.cs.toronto.edu/~hinton/FFA13.pdf

Hinton 表示，F(xiàn)F 方法可能更適合普通的計(jì)算硬件?！府?dāng)前如果要實(shí)現(xiàn)這樣的事情，我們必須有一個(gè)將在專屬硬件中運(yùn)行的學(xué)習(xí)程序，必須要學(xué)習(xí)利用該專屬硬件的具體屬性，而不知道所有這些屬性是什么。但我認(rèn)為前向算法是一個(gè)有潛力的選項(xiàng)?！?/span>

他說，建造新的模擬計(jì)算機(jī)的一個(gè)障礙是，人們對在數(shù)百萬臺(tái)設(shè)備上運(yùn)行一個(gè)軟件的可靠性很重視?！高@些手機(jī)中的每一部都必須從一個(gè)嬰兒手機(jī)開始取代，而且它必須學(xué)習(xí)如何成為一部手機(jī)，」Hinton 說?！付@是非常痛苦的?！?/span>

即使是最擅長相關(guān)技術(shù)的工程師，也會(huì)因?yàn)閾?dān)心不確定性，而遲遲不能放棄完美的、相同的不朽計(jì)算機(jī)的范式。

Hinton 說：「在對模擬計(jì)算感興趣的人中，仍有極少數(shù)人愿意放棄不朽。這是因?yàn)閷σ恢滦?、可預(yù)測性的依戀。但如果你希望模擬硬件每次都做同樣的事情，你遲早因?yàn)檫@些雜亂的東西遇到真正的問題。」

論文內(nèi)容

在論文中，Hinton 介紹了一種新的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)程序，并通過實(shí)驗(yàn)證明它在一些小問題上的效果足夠好。具體內(nèi)容如下：

反向傳播有什么問題？

過去十年，深度學(xué)習(xí)的成功確立了在大量參數(shù)和大量數(shù)據(jù)的情況下執(zhí)行隨機(jī)梯度下降的有效性。梯度通常是通過反向傳播來計(jì)算的，這導(dǎo)致人們對大腦是否實(shí)現(xiàn)了反向傳播或是否有其他方式來獲得調(diào)整連接權(quán)重所需的梯度產(chǎn)生了興趣。

作為大腦皮層如何學(xué)習(xí)的模型，反向傳播仍然是不可信的，盡管人們做出了相當(dāng)大的努力來讓它像真實(shí)的神經(jīng)元一樣實(shí)施。目前沒有令人信服的證據(jù)表明大腦皮層明確地傳播誤差導(dǎo)數(shù)或儲(chǔ)存神經(jīng)活動(dòng)，以便在隨后的反向傳播中使用。從一個(gè)皮層區(qū)域到視覺通路中較早的區(qū)域的自上而下的連接并不像預(yù)期的那樣，即如果在視覺系統(tǒng)中使用反向傳播，就會(huì)出現(xiàn)自下而上的連接。相反，它們形成了循環(huán)，其中神經(jīng)活動(dòng)經(jīng)過兩個(gè)區(qū)域的大約半打皮質(zhì)層，然后回到它開始的地方。

通過時(shí)間的反向傳播作為學(xué)習(xí)序列的一種方式是特別不靠譜的。為了處理感官輸入流而不頻繁超時(shí)，大腦需要通過感官處理的不同階段對感官數(shù)據(jù)進(jìn)行 pipeline 處理，它需要一個(gè)能「在飛行中」學(xué)習(xí)的學(xué)習(xí)程序。Pipeline 后期階段的表征可能提供自上而下的信息，在后續(xù)的時(shí)間步中影響 pipeline 早期階段的表征，但感知系統(tǒng)需要實(shí)時(shí)地進(jìn)行推理和學(xué)習(xí)，而不需要停止執(zhí)行反向傳播。

反向傳播的另一個(gè)嚴(yán)重限制是，它需要完全了解在前向傳遞中進(jìn)行的計(jì)算，以便計(jì)算出正確的導(dǎo)數(shù)。如果我們在前向傳遞中插入一個(gè)黑匣子，那么就不可能再進(jìn)行反向傳播，除非我們學(xué)習(xí)了黑匣子的可微分模型。正如我們將看到的，黑匣子根本不會(huì)改變 FF 算法的學(xué)習(xí)程序，因?yàn)椴恍枰ㄟ^它進(jìn)行反向傳播。

在沒有完美的前向傳遞模型的情況下，或許能求助于許多形式的強(qiáng)化學(xué)習(xí)之一。這個(gè)想法是對權(quán)重或神經(jīng)活動(dòng)進(jìn)行隨機(jī)擾動(dòng)，并將這些擾動(dòng)與收益函數(shù)的變化聯(lián)系起來。但強(qiáng)化學(xué)習(xí)程序存在高變異性：當(dāng)許多其他變量同時(shí)被擾動(dòng)時(shí)，很難看到擾動(dòng)一個(gè)變量的效果。為了平均化所有其他擾動(dòng)造成的噪音，學(xué)習(xí)率需要與被擾動(dòng)的變量數(shù)量成反比，這意味著強(qiáng)化學(xué)習(xí)的規(guī)模很差，對于包含數(shù)百萬或數(shù)十億參數(shù)的大型網(wǎng)絡(luò)，無法與反向傳播競爭。

這篇論文的主要觀點(diǎn)是，含有未知非線性的神經(jīng)網(wǎng)絡(luò)不需要借助于強(qiáng)化學(xué)習(xí)。FF 算法的速度與反向傳播相當(dāng)，但它的優(yōu)點(diǎn)是可以在正向計(jì)算的精確細(xì)節(jié)未知時(shí)使用。它的優(yōu)勢還在于可以在通過神經(jīng)網(wǎng)絡(luò)對順序數(shù)據(jù)進(jìn)行流水作業(yè)時(shí)進(jìn)行學(xué)習(xí)，而不需要儲(chǔ)存神經(jīng)活動(dòng)或停止傳播誤差導(dǎo)數(shù)。

總體來說，F(xiàn)F 算法比反向傳播要慢一些，而且在本文研究的幾個(gè) toy problem 上，它的歸納性也不太理想，所以在功率不太受限的應(yīng)用中，它不太可能取代反向傳播。對于在非常大的數(shù)據(jù)集上訓(xùn)練的非常大的模型，這類探索將繼續(xù)使用反向傳播。FF 算法在兩個(gè)方面可能優(yōu)于反向傳播，一是作為大腦皮層的學(xué)習(xí)模型，二是作為使用非常低功率的模擬硬件而不需要借助于強(qiáng)化學(xué)習(xí)。

FF 算法

Forward-Forward 算法是一種貪婪的多層學(xué)習(xí)程序，其靈感來自玻爾茲曼機(jī)和噪聲對比估計(jì)。思路是用兩個(gè)前向傳遞代替反向傳播的前向和后向傳遞，這兩個(gè)前向傳遞又以完全相同的方式彼此運(yùn)算，但在不同的數(shù)據(jù)上，目標(biāo)也相反。其中，positive 傳遞在真實(shí)數(shù)據(jù)上運(yùn)算，并調(diào)整權(quán)重以增加每個(gè)隱藏層的優(yōu)點(diǎn)（goodness）；negative 傳遞在 negative 數(shù)據(jù)上運(yùn)算，并調(diào)整權(quán)重以減少每個(gè)隱藏層中的優(yōu)點(diǎn)。

在論文中，Hinton 通過在 CIFAR-10 上的實(shí)驗(yàn)展示了 FF 算法的性能。

CIFAR-10 有 50000 幅訓(xùn)練圖像，這些圖像為 32 x 32 像素大小，每個(gè)像素有三個(gè)顏色通道。因此，每幅圖像有 3072 個(gè)維度。這些圖像的背景很復(fù)雜，變化很大，在如此有限的訓(xùn)練數(shù)據(jù)下無法很好地建模。一般來說，有兩到三個(gè)隱藏層的全連接網(wǎng)絡(luò)在用反向傳播法訓(xùn)練時(shí)，除非隱藏層非常小，否則過擬合效果很差，所以幾乎所有的報(bào)告結(jié)果都是卷積網(wǎng)絡(luò)。

由于 FF 的目的是用于權(quán)重共享不可行的網(wǎng)絡(luò)，所以將它與反向傳播網(wǎng)絡(luò)進(jìn)行了比較，后者使用局部感受野來限制權(quán)重的數(shù)量，而不過于限制隱藏單元的數(shù)量。其目的只是為了表明，在有大量隱藏單元的情況下，對于包含高度可變背景的圖像，F(xiàn)F 的性能與反向傳播相當(dāng)。

表 1 顯示了用反向傳播和 FF 訓(xùn)練網(wǎng)絡(luò)的測試性能，這兩種方法都使用了權(quán)重衰減來減少過擬合。

更多研究細(xì)節(jié)，可參考原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

深度學(xué)習(xí)算法

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="wqgce"><p id="wqgce"></p></blockquote>

<legend id="wqgce"><track id="wqgce"></track></legend>