偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

深度學(xué)習(xí)應(yīng)該使用復(fù)數(shù)嗎？

作者：佚名 2017-10-20 14:46:26

移動(dòng)開發(fā) 機(jī)器學(xué)習(xí)

深度學(xué)習(xí)只能使用實(shí)數(shù)嗎？本文簡(jiǎn)要介紹了近期一些將復(fù)數(shù)應(yīng)用于深度學(xué)習(xí)的若干研究，并指出使用復(fù)數(shù)可以實(shí)現(xiàn)更魯棒的層間梯度信息傳播、更高的記憶容量、更準(zhǔn)確的遺忘行為、大幅降低的網(wǎng)絡(luò)規(guī)模，以及 GAN 訓(xùn)練中更好的穩(wěn)定性。

曼德布洛特復(fù)數(shù)集合：https://en.wikipedia.org/wiki/Mandelbrot_set

深度學(xué)習(xí)只能使用實(shí)數(shù)，大家不覺(jué)得奇怪嗎？或許，深度學(xué)習(xí)使用復(fù)數(shù)才是更加奇怪的事情吧（注意：復(fù)數(shù)是有虛部的）。一個(gè)有價(jià)值的論點(diǎn)是：大腦在計(jì)算的時(shí)候不太可能使用復(fù)數(shù)。當(dāng)然你也可以提出這樣的論點(diǎn)：大腦也不用矩陣運(yùn)算或者鏈?zhǔn)椒▌t微分啊。此外，人工神經(jīng)網(wǎng)絡(luò)（ANN）具有實(shí)際神經(jīng)元的模型。長(zhǎng)期以來(lái)，我們用實(shí)分析代替了生物合理性（biological plausibility）。

然而，為什么我們要止步于實(shí)分析呢？我們已經(jīng)用了這么久線性代數(shù)和微分方程，那我們也可以將這一切都推倒，用復(fù)分析建立新的一套?；蛟S更加奇妙的復(fù)分析會(huì)賦予我們更強(qiáng)大的方法。畢竟它對(duì)量子力學(xué)奏效，那么它也有可能在深度學(xué)習(xí)領(lǐng)域發(fā)揮作用。此外，深度學(xué)習(xí)和量子力學(xué)都與信息處理有關(guān)，二者可能是同一件事情。

由于論據(jù)的原因，我們暫且不考慮生物合理性。這是一個(gè)很古老的觀點(diǎn)，可以追溯到 1957 年 Frank Rosenblatt 第一次提出人工神經(jīng)網(wǎng)絡(luò)的時(shí)候。那么問(wèn)題來(lái)了，復(fù)數(shù)可以提供哪些實(shí)數(shù)不能提供的東西呢？

在過(guò)去幾年里，曾經(jīng)出現(xiàn)過(guò)一些探索在深度學(xué)習(xí)中使用復(fù)數(shù)的文章。奇怪的是，它們中的大部分都沒(méi)有被同行評(píng)議的期刊接受。因?yàn)樯疃葘W(xué)習(xí)的正統(tǒng)觀念在該領(lǐng)域已經(jīng)很流行了。但是，我們還是要評(píng)述一些有趣的論文。

DeepMind 的論文《Associative Long Short-Term Memory》（Ivo Danihelka, Greg Wayne, Benigno Uria, Nal Kalchbrenner, Alex Graves）探討了使用復(fù)數(shù)值形成聯(lián)想記憶神經(jīng)網(wǎng)絡(luò)。該系統(tǒng)被用來(lái)增強(qiáng) LSTM 的記憶。論文的結(jié)論是使用復(fù)數(shù)的網(wǎng)絡(luò)可獲取更大的記憶容量。根據(jù)數(shù)學(xué)原理，與僅僅使用實(shí)數(shù)的情況相比，使用復(fù)數(shù)需要的矩陣更小。如下圖所示，使用復(fù)數(shù)的神經(jīng)網(wǎng)絡(luò)在內(nèi)存開銷上與傳統(tǒng) LSTM 有顯著區(qū)別。

Yoshua Bengio 及其在蒙特利爾的團(tuán)隊(duì)探索了另一種使用復(fù)數(shù)的方式。研究者在《Unitary Evolution Recurrent Neural Networks》（Martin Arjovsky, Amar Shah, Yoshua Bengio）一文中探討了酉矩陣。他們認(rèn)為，如果矩陣的特征值接近 1 的話，消失的梯度或許會(huì)帶來(lái)實(shí)際的好處。該研究使用復(fù)數(shù)作為 RNN 網(wǎng)絡(luò)的權(quán)重。結(jié)論如下：

實(shí)證表明我們的 uRNN 能夠更好地通過(guò)長(zhǎng)序列傳遞梯度信息，并且不會(huì)遇到像 LSTM 一樣多的飽和隱藏狀態(tài)（saturating hidden states）。

他們做了多次實(shí)驗(yàn)對(duì)使用復(fù)數(shù)的網(wǎng)絡(luò)與傳統(tǒng) RNN 的性能進(jìn)行了量化比較：

使用復(fù)數(shù)的系統(tǒng)明顯擁有更魯棒、更穩(wěn)定的性能。

Bengio 團(tuán)隊(duì)和 MIT 合作的一篇論文《Gated Orthogonal Recurrent Units: On Learning to Forget》（Li Jing, Caglar Gulcehre, John Peurifoy, Yichen Shen, Max Tegmark, Marin Soljačić, Yoshua Bengio）提出了使用門控機(jī)制的方法。這篇論文探討了長(zhǎng)期依賴能夠更好地被捕獲以及形成一個(gè)更加魯棒的遺忘機(jī)制的可能性。下圖展示了其他基于 RNN 的系統(tǒng)在復(fù)制任務(wù)中的失敗；

FAIR 和 EPFL 的一個(gè)團(tuán)隊(duì)出了一篇類似的論文《Kronecker Recurrent Units》（Cijo Jose, Moustpaha Cisse, Francois Fleuret），他們?cè)谡撐睦镆舱宫F(xiàn)了在復(fù)制任務(wù)中使用酉矩陣的可行性。他們展示了一種能夠大幅減少所需參數(shù)的矩陣分解方法。文中描述了他們使用復(fù)數(shù)的動(dòng)機(jī)。

由于實(shí)空間的行列式是連續(xù)函數(shù)，所以實(shí)空間的酉集是不連貫的。因而，使用標(biāo)準(zhǔn)的連續(xù)優(yōu)化程序不能在實(shí)值網(wǎng)絡(luò)上跨越全酉集。相反，酉集在復(fù)空間中是連接在一起的，因?yàn)樗男辛惺绞菑?fù)空間中單位圓上的點(diǎn)，所以使用復(fù)數(shù)就不會(huì)出現(xiàn)這個(gè)問(wèn)題。

這篇論文的精華之一就是下面這則富有建設(shè)性的思想：

狀態(tài)應(yīng)當(dāng)保持高維度，以使用高容量的網(wǎng)絡(luò)將輸入編碼成內(nèi)部狀態(tài)、提取預(yù)測(cè)值。但 recurrent dynamic 可使用低容量模型實(shí)現(xiàn)。

目前，這些方法已經(jīng)探索了在 RNN 上對(duì)復(fù)數(shù)值的使用。MILA（蒙特利爾學(xué)習(xí)算法研究所）最近的一篇論文《Deep Complex Networks》（Chiheb Trabelsi 等人）進(jìn)一步探索了這些方法在卷積神經(jīng)網(wǎng)絡(luò)上的使用。論文作者在計(jì)算機(jī)視覺(jué)任務(wù)上測(cè)試了他們的網(wǎng)絡(luò)，結(jié)果很有競(jìng)爭(zhēng)力。

最后，我們必須說(shuō)一下復(fù)數(shù)在 GAN 中的使用。畢竟 GAN 可以說(shuō)是最熱的話題了。論文《Numerics of GANs》（Lars Mescheder, Sebastian Nowozin, Andreas Geiger）探討了 GAN 中棘手的收斂性能。他們研究了帶有復(fù)數(shù)值的雅克比矩陣的特點(diǎn)，并使用它創(chuàng)建解決 GAN 均衡問(wèn)題的最先進(jìn)方法。

在去年的一篇博文中，我介紹了全息原理和深度學(xué)習(xí)的關(guān)系。博文中的方法探索了張量網(wǎng)絡(luò)和深度學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)之間的相似性。量子力學(xué)可以被認(rèn)為是使用了一種更加通用的概率形式。對(duì)復(fù)數(shù)的使用則提供了常規(guī)概率無(wú)法提供的額外能力。具體來(lái)說(shuō)就是疊加和干擾的能力。為了實(shí)現(xiàn)全息術(shù)，在處理過(guò)程中使用復(fù)數(shù)會(huì)比較好。

在機(jī)器和深度學(xué)習(xí)空間中進(jìn)行的大多數(shù)數(shù)學(xué)分析傾向于使用貝葉斯思想作為參數(shù)。事實(shí)上，大多數(shù)從業(yè)者都認(rèn)為它是貝葉斯的，但實(shí)際上來(lái)自與統(tǒng)計(jì)學(xué)機(jī)制（除去名字，這里沒(méi)有統(tǒng)計(jì)學(xué)的那些繁文縟節(jié)）。

但如果量子力學(xué)是廣義的概率，那如果我們使用 QM 啟發(fā)的方法作為替代會(huì)如何呢？一些論文試圖研究這一方向，結(jié)果值得一看。在去年的一篇論文《Quantum Clustering and Gaussian Mixtures》中，作者探索了無(wú)監(jiān)督均值聚類的使用情況。報(bào)告是這樣說(shuō)的：

因此，我們觀察到了量子類干擾現(xiàn)象并不在高斯混合模型中出現(xiàn)。我們展示了量子方法在所有方面上都優(yōu)于高斯混合方法。

兩者的對(duì)比如圖：

噪聲發(fā)生了什么？

為什么在有了 20 實(shí)際的量子概率理論后還要拘泥于 18 世紀(jì)的貝葉斯理論呢？

本文提及的研究論文證明了：在深度學(xué)習(xí)架構(gòu)中使用復(fù)數(shù)確實(shí)會(huì)帶來(lái)「實(shí)實(shí)在在」的優(yōu)勢(shì)。研究表明：使用復(fù)數(shù)能夠帶來(lái)更魯棒的層間梯度信息傳播、更高的記憶容量、更準(zhǔn)確的遺忘行為、大幅降低的網(wǎng)絡(luò)規(guī)模，以及訓(xùn)練 GAN 時(shí)更好的穩(wěn)定性。這些優(yōu)點(diǎn)可不能被簡(jiǎn)單地忽略。如果我們接受了目前深度學(xué)習(xí)的主流觀點(diǎn)--任何一層的微分都是公平的，那么或許我們應(yīng)該在存儲(chǔ)很多變體的網(wǎng)絡(luò)中使用復(fù)分析。

或許復(fù)數(shù)沒(méi)有被經(jīng)常使用的原因是研究者對(duì)它不夠熟悉。在優(yōu)化研究社區(qū)中，數(shù)學(xué)傳統(tǒng)并沒(méi)有涉及到復(fù)數(shù)。然而物理學(xué)家卻一直在使用復(fù)數(shù)。那些虛部在量子力學(xué)中始終是存在的。這并不奇怪，這就是現(xiàn)實(shí)。我們?nèi)匀徊惶斫鉃楹芜@些深度學(xué)習(xí)系統(tǒng)會(huì)如此有用。所以探索其他的表示可能會(huì)帶來(lái)出乎意料的突破。

在不久的將來(lái)，這個(gè)局面可能會(huì)變化。最先進(jìn)的結(jié)構(gòu)可能會(huì)普遍使用復(fù)數(shù)，那時(shí)候不使用復(fù)數(shù)反倒變得奇怪了。

原文鏈接：https://medium.com/intuitionmachine/should-deep-learning-use-complex-numbers-edbd3aac3fb8

責(zé)任編輯：張子龍來(lái)源：機(jī)器之心

深度學(xué)習(xí)復(fù)數(shù)噪聲

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)