從方向?qū)?shù)到梯度:深度學(xué)習(xí)中的關(guān)鍵數(shù)學(xué)概念詳解
- 方向?qū)?shù)作為標(biāo)量量,表征了函數(shù)在特定方向上的變化率。其數(shù)學(xué)表示為 ??f(x) 或 D?f(x)。
- 對(duì)于標(biāo)量函數(shù) f(x): R? → R,其梯度由函數(shù)的偏導(dǎo)數(shù)構(gòu)成向量場。梯度向量指向函數(shù)值增長最快的方向,其模長等于該方向的方向?qū)?shù)。
- 方向?qū)?shù)的計(jì)算可通過兩種方法實(shí)現(xiàn):其一是引入函數(shù) g(s) = f(x + su),方向?qū)?shù)即為 g′(0);其二是利用方向?qū)?shù)等于梯度與方向向量點(diǎn)積的性質(zhì):??f(x) = ?f(x)u。
引論
函數(shù)在不同方向上的變化特性分析在諸多領(lǐng)域具有重要意義,典型應(yīng)用如神經(jīng)網(wǎng)絡(luò)中利用梯度更新權(quán)重的訓(xùn)練過程。本文將系統(tǒng)探討方向?qū)?shù)與梯度的理論基礎(chǔ),并通過如下等式闡述二者的內(nèi)在聯(lián)系:
本文的理解需要讀者具備點(diǎn)積、導(dǎo)數(shù)、萊布尼茨與拉格朗日記號(hào)、偏導(dǎo)數(shù)以及鏈?zhǔn)椒▌t等基礎(chǔ)數(shù)學(xué)知識(shí)。
方向?qū)?shù)與梯度的基本定義
首先考察單變量函數(shù)的導(dǎo)數(shù)定義:
(此處采用萊布尼茨記號(hào) df/dx 表示導(dǎo)數(shù),這是拉格朗日記號(hào) f′(x) 的等價(jià)表示。)單變量函數(shù) f(x) 的導(dǎo)數(shù)表征了函數(shù)的斜率,定義為函數(shù)值的增量與自變量無窮小增量的比值。它描述了在給定點(diǎn)處當(dāng)參數(shù)發(fā)生無窮小變化時(shí)函數(shù)值的變化率,從而反映了函數(shù)在該點(diǎn)的增減性質(zhì)和變化劇烈程度。
梯度的數(shù)學(xué)表述
梯度是導(dǎo)數(shù)概念在標(biāo)量值函數(shù) f(x): R? → R(多輸入單輸出映射)上的推廣,其定義為:
梯度作為標(biāo)量值函數(shù)的重要特征量,是由所有偏導(dǎo)數(shù)組成的向量(通常表示為列向量)。
從本質(zhì)上看,梯度是所有偏導(dǎo)數(shù)的有序集合。(向量在此作為空間點(diǎn)坐標(biāo)的有序數(shù)組,具有大小和方向兩個(gè)基本特征。)算子符號(hào) ?(希臘字母 nabla,讀作"del")可視為作用于函數(shù)的微分算子。梯度向量的每個(gè)分量表示函數(shù)對(duì)應(yīng)變量的偏導(dǎo)數(shù):δf/δx? 表征了函數(shù)關(guān)于 x? 的變化率,此時(shí)將其他變量(x?, ...x?)視為常數(shù)。梯度的一個(gè)核心性質(zhì)是其指向函數(shù)值增長最快的方向,這一性質(zhì)的嚴(yán)格證明將在第6節(jié)中給出。
方向?qū)?shù)的理論基礎(chǔ)
方向?qū)?shù)通常表示為 ??f(x) 或 D?f(x),本文采用前者。其嚴(yán)格數(shù)學(xué)定義如下:
在此定義中,u 表示單位向量,其模長恒為1。向量的模長定義為各分量平方和的平方根,數(shù)學(xué)上用雙豎線表示(某些文獻(xiàn)中采用單豎線):
其中 a ∈ R?。方向?qū)?shù)的定義形式與單變量導(dǎo)數(shù)具有顯著的相似性。(本文使用變量 s 而非 h,以突出其與單變量情況的區(qū)別。)方向?qū)?shù)的關(guān)鍵特征在于其輸入形式 x + su 構(gòu)成了一個(gè)直線方程。這表示從向量 x 出發(fā),沿 u 方向移動(dòng) s 個(gè)單位長度。該表達(dá)式實(shí)質(zhì)上研究了函數(shù)在 u 方向上的無窮小變化特性。方向?qū)?shù)量化了函數(shù)在給定點(diǎn)沿特定方向發(fā)生無窮小位移時(shí)的變化率。這一概念通過記號(hào) ??f(x) 得到精確表達(dá),其中 u 作為下標(biāo)標(biāo)識(shí)方向特征。
圖1:二維空間中的函數(shù)輸入點(diǎn)(紅點(diǎn))與其沿方向向量(綠線su)的變化示意。方向?qū)?shù)表征了當(dāng)沿 u 方向發(fā)生無窮小位移(s → 0)時(shí)函數(shù)值的瞬時(shí)變化率。
為深入理解這一概念,上圖所示的幾何展示了一個(gè)二維函數(shù),平面上的紅點(diǎn)代表特定輸入點(diǎn),其函數(shù)值由藍(lán)點(diǎn)標(biāo)識(shí)。對(duì)比單變量函數(shù)僅能沿自變量方向變化的情況,多變量函數(shù)的輸入可在各個(gè)方向發(fā)生變化。例如可以在 x? 方向移動(dòng)一個(gè)單位,同時(shí)在 x? 方向移動(dòng)兩個(gè)單位。要準(zhǔn)確描述函數(shù)值的變化特性,首先需要明確運(yùn)動(dòng)方向。圖中綠色向量即表示這一方向。該向量實(shí)質(zhì)上是 su,其中標(biāo)量 s 確定了移動(dòng)距離,可理解為對(duì)方向向量 u 的尺度調(diào)節(jié)。
這種構(gòu)造使得方向?qū)?shù)的概念自然地?cái)U(kuò)展了單變量導(dǎo)數(shù)的思想。它描述了函數(shù)在指定方向上的瞬時(shí)變化率。當(dāng)綠色向量趨于無窮小時(shí)(s → 0),其對(duì)應(yīng)了函數(shù)在該點(diǎn)處沿特定方向的切線。這條切線的斜率即為方向?qū)?shù)的幾何意義。
這一數(shù)學(xué)概念可通過一個(gè)實(shí)際的類比來理解:設(shè)想在起伏不平的山地地形(函數(shù))上進(jìn)行導(dǎo)航。方向?qū)?shù)相當(dāng)于在特定位置沿給定方向探測地形的變化程度,這對(duì)于確定安全的運(yùn)動(dòng)路徑具有重要意義。
梯度與方向?qū)?shù)的關(guān)聯(lián)性
梯度與方向?qū)?shù)雖然表征了函數(shù)的不同性質(zhì),但二者存在密切的內(nèi)在聯(lián)系。梯度作為向量量,指示了函數(shù)值增長最快的方向;而方向?qū)?shù)作為標(biāo)量量,量化了函數(shù)在特定方向上的變化率。當(dāng)所選方向與最速上升方向重合時(shí),方向?qū)?shù)的值等于梯度的模長,方向?qū)?shù)可表示為梯度與方向向量的內(nèi)積。下表系統(tǒng)總結(jié)了二者的主要特征及關(guān)聯(lián)。
梯度與方向?qū)?shù)的特征對(duì)比
方向?qū)?shù)的計(jì)算理論
下面我們將嚴(yán)格證明如下核心等式:
為確保論證的嚴(yán)密性,我們將分步進(jìn)行推導(dǎo)。
極限定義與導(dǎo)數(shù)的基本原理
方向?qū)?shù)的本質(zhì)是函數(shù)在特定點(diǎn)沿給定方向的無窮小變化率。這一概念已在等式2中通過極限形式得到嚴(yán)格定義。從幾何觀點(diǎn)看,這一極限過程可理解為在函數(shù)曲面上選取兩個(gè)點(diǎn)(如圖1所示),通過使其中一點(diǎn)逐漸接近感興趣點(diǎn)來確定變化率。對(duì)于多變量函數(shù),這種極限過程僅在點(diǎn)的運(yùn)動(dòng)嚴(yán)格限制在由 su 確定的直線上時(shí)才具有明確意義。
這一概念可以通過另一個(gè)數(shù)學(xué)視角來理解:由于 x 和 u 為固定向量,參數(shù) s 成為唯一的自由變量。表達(dá)式 x + su 實(shí)質(zhì)上定義了一條參數(shù)化直線,而函數(shù) f 則將該直線上的每一點(diǎn)映射到對(duì)應(yīng)的函數(shù)值。下圖提供了這一概念的直觀展示,其中展示了原圖的局部放大區(qū)域。圖中標(biāo)注了直線 su 上的若干離散點(diǎn)及其對(duì)應(yīng)的函數(shù)值。這種構(gòu)造實(shí)質(zhì)上定義了一個(gè)關(guān)于參數(shù) s 的單變量函數(shù)。根據(jù)導(dǎo)數(shù)的基本定義,該函數(shù)在各點(diǎn)的導(dǎo)數(shù)表征了相應(yīng)位置的變化率。在 s = 0 處的導(dǎo)數(shù)恰好對(duì)應(yīng)于原函數(shù)在給定方向上的方向?qū)?shù)。
圖2:參數(shù)化直線 x + su 上的點(diǎn)(綠點(diǎn))與其函數(shù)值 f(x + su) (橙點(diǎn))之間的映射關(guān)系。這一構(gòu)造定義了參數(shù) s 的函數(shù) g(s)=f(x + su)。帶有黑色邊框的橙色點(diǎn)表示 g(s) 在 s=0 處的導(dǎo)數(shù),即函數(shù) f 在點(diǎn) x 沿方向向量 u 的方向?qū)?shù)。
第一部分:g′(0) = ??f(x) 的證明
基于上述分析,我們引入輔助函數(shù) g(s) 將方向?qū)?shù)的計(jì)算轉(zhuǎn)化為單變量函數(shù)的導(dǎo)數(shù)問題:
我們的目標(biāo)是證明該輔助函數(shù)在 s=0 處的導(dǎo)數(shù)等于方向?qū)?shù),即:
按照單變量函數(shù)導(dǎo)數(shù)的定義,對(duì)函數(shù) g 關(guān)于參數(shù) s 求導(dǎo):
在 s=0 處取值:
將 g 的定義式 g(s) = f(x + su) 代入。這里需要注意符號(hào)的精確含義:g 是關(guān)于參數(shù) s 的函數(shù)。表達(dá)式 g(h) 表示將參數(shù)值取為 h,即 g(s = h)。因此可以在函數(shù)定義中用 h 替換 s,得到:g(s=h) = f(x + hu)。g(0) = f(x + 0u) = f(x)也是類似的,將其代入得到:
這一表達(dá)式與方向?qū)?shù)的定義形式完全一致,僅變量符號(hào)由 s 改為 h。由于極限運(yùn)算與變量符號(hào)的選擇無關(guān),我們可以將變量重命名為 s:
這樣完成了預(yù)期結(jié)論的證明:
第二部分:??f(x) = ?f(x)u 的證明
在完成了第一部分的證明后,現(xiàn)在轉(zhuǎn)向第二個(gè)關(guān)鍵等式的證明,即方向?qū)?shù)等于梯度與方向向量的內(nèi)積:??f(x) = ?f(x)u。這一等式揭示了方向?qū)?shù)與梯度之間的本質(zhì)聯(lián)系。我們將繼續(xù)利用前面引入的輔助函數(shù) g(s),目標(biāo)是證明:
證明過程如下:
這個(gè)證明過程中的每個(gè)步驟都具有深刻的數(shù)學(xué)意義:
- 第1行應(yīng)用了鏈?zhǔn)椒▌t,這是復(fù)合函數(shù)求導(dǎo)的基本工具。
- 第2行利用了一個(gè)關(guān)鍵觀察:x + su 關(guān)于 s 的導(dǎo)數(shù)恒等于方向向量 u。但外部導(dǎo)數(shù)必須保持符號(hào)形式,因?yàn)楹瘮?shù) f 的具體形式未知。
- 第4行將參數(shù) s 取值為0,這對(duì)應(yīng)于我們感興趣的特定點(diǎn)。
- 第5行計(jì)算了 s = 0 時(shí)的表達(dá)式值。這里需要特別注意一個(gè)常見的符號(hào)錯(cuò)誤:d(x)/f(x) 的寫法不準(zhǔn)確。
- 第6行進(jìn)行了關(guān)鍵的修正:由于 f 的輸入是向量,其導(dǎo)數(shù)應(yīng)當(dāng)用梯度符號(hào)表示。
- 最后在第7行,應(yīng)用了上節(jié)中證明的結(jié)論 g′(0) = ??f(x),完成了證明。
梯度的最速上升性質(zhì)
前文中提到了兩個(gè)重要結(jié)論:
- 梯度指向函數(shù)值增長最快的方向
- 當(dāng)方向與最速上升方向重合時(shí),方向?qū)?shù)等于梯度的模長
下面我們將從數(shù)學(xué)角度嚴(yán)格證明這兩個(gè)性質(zhì)。
方向?qū)?shù)表征了函數(shù)在給定方向上的變化率。這個(gè)變化率在最陡峭的方向上達(dá)到最大值。使方向?qū)?shù)取得最大值的方向向量 u 即為最速上升方向。下面我們將證明這個(gè)方向恰好與梯度方向重合。
根據(jù)前面的證明,我們知道 ??f(x) = ?f(x)u。此式表明方向?qū)?shù)等于梯度與方向向量的內(nèi)積。根據(jù)內(nèi)積的基本定義:
其中 a, b ∈ R?,θ 表示向量 a 與 b 之間的夾角,雙豎線表示向量的模長。由于 u 是單位向量,其模長為1,因此:
現(xiàn)在的問題轉(zhuǎn)化為:何時(shí)這個(gè)表達(dá)式取得最大值?由于余弦函數(shù)的值域?yàn)閇-1,1],該表達(dá)式在余弦值等于1時(shí)達(dá)到最大:
這一條件僅在 ?f(x) 與 u 的夾角為0時(shí)成立,即兩個(gè)向量指向相同方向。這證明了最速上升方向與梯度方向的一致性。同時(shí)在這種情況下方向?qū)?shù)確實(shí)等于梯度的模長,這是由于夾角余弦達(dá)到最大值1所致。
因此梯度指向最速上升方向這一性質(zhì)是內(nèi)積性質(zhì)與優(yōu)化理論的自然結(jié)果:當(dāng)且僅當(dāng)兩個(gè)向量方向一致時(shí),它們的內(nèi)積(標(biāo)準(zhǔn)化后)達(dá)到最大值。
理論應(yīng)用實(shí)例
為加深對(duì)前述理論的理解,下面通過兩個(gè)具體算例進(jìn)行說明。
實(shí)例分析:??f(x) = ?f(x)u
考慮函數(shù) f(x) = x?2 + x?2 在點(diǎn)(4,5)處的特性。我們需要解決兩個(gè)問題:
- 確定在該點(diǎn)處最速上升的方向
- 計(jì)算該方向上的變化率
解析過程: 根據(jù)前述理論,最速上升方向由梯度確定。首先計(jì)算函數(shù)的梯度:
在點(diǎn)(4,5)處,最速上升方向由向量[8, 10]?給出(此處上標(biāo)t表示轉(zhuǎn)置,由于排版原因?qū)⒘邢蛄繉懽餍邢蛄浚?。該方向上的變化率等于梯度的模長:
該實(shí)例直觀地展示了梯度的方向特性和大小意義。
實(shí)例分析:g′(0) = ??f(x)
這個(gè)實(shí)例源自參考文獻(xiàn)[1]第24頁的示例2.3??紤]函數(shù):
要求在點(diǎn) x = [1, 0] 處沿方向 u = [?1, ?1] 的方向?qū)?shù)。(原文中使用符號(hào)s表示方向向量,這里統(tǒng)一記為 u)。
解析過程: 這個(gè)問題可以通過計(jì)算梯度后與方向向量做內(nèi)積來解決。但為了展示輔助函數(shù)方法的應(yīng)用,構(gòu)造函數(shù):
由于原函數(shù)形式為 f(x = x?x?),可得:
將點(diǎn) x 和方向 u 的坐標(biāo)代入:
接下來計(jì)算 g 在 s=0 處的導(dǎo)數(shù):
因此函數(shù) f(x) = x?x? 在點(diǎn) x = [1, 0] 處沿方向 u = [?1, ?1] 的方向?qū)?shù)為-1。
此例展示了如何通過構(gòu)造輔助函數(shù)來計(jì)算方向?qū)?shù),驗(yàn)證了理論分析的實(shí)用性。
理論要點(diǎn)總結(jié)
通過對(duì)方向?qū)?shù)與梯度的系統(tǒng)分析,可以得到以下核心結(jié)論:
- 方向?qū)?shù)作為標(biāo)量量,度量了函數(shù)在特定方向上的變化率,其數(shù)學(xué)表示為 ??f(x)。這一概念將單變量導(dǎo)數(shù)推廣到了多維空間。
- 梯度作為向量量,是由函數(shù)各個(gè)偏導(dǎo)數(shù)構(gòu)成的向量場。其兩個(gè)基本性質(zhì)是:
- 指向函數(shù)值增長最快的方向
- 其模長等于最速上升方向上的方向?qū)?shù)
- 方向?qū)?shù)的計(jì)算可通過兩種等價(jià)途徑實(shí)現(xiàn):
- 構(gòu)造輔助函數(shù) g(s) = f(x + su),方向?qū)?shù)等于 g′(0)
- 計(jì)算梯度與方向向量的內(nèi)積:??f(x) = ?f(x)u
這些理論成果在實(shí)際應(yīng)用中具有重要意義,為函數(shù)局部性質(zhì)的分析提供了有力工具。