RMSprop(RootMeanSquarePropagation)算法是一種自適應(yīng)學(xué)習(xí)率的優(yōu)化算法,它由Adagrad算法改進(jìn)而來,引入指數(shù)加權(quán)移動(dòng)平均方法替代梯度平方累加,動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,解決了傳統(tǒng)梯度下降法中的震蕩和收斂慢問題。本文將從Adagrad算法的局限性出發(fā),解析RMSprop算法的原理與推導(dǎo)過程,揭示其是如何突破優(yōu)化后期學(xué)習(xí)率衰減過大的問題。1.算法背景與發(fā)展動(dòng)機(jī)(1)Adagrad算法的局限性:在AdaGrad算法中,由于梯度分量的直接...
  2025-09-05 00:17:00 977瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
    動(dòng)量法通過引入歷史梯度信息顯著提升了收斂效率,卻難以擺脫路徑震蕩與局部最優(yōu)的桎梏。當(dāng)梯度方向突變時(shí),傳統(tǒng)動(dòng)量法如同盲目前行的旅人,只能依賴當(dāng)前腳步調(diào)整方向,卻常因慣性陷入反復(fù)震蕩的困局。而Nesterov動(dòng)量法的“前瞻機(jī)制”,猶如為優(yōu)化過程裝上預(yù)判未來的羅盤——它先沿歷史動(dòng)量方向跨出試探性一步,在預(yù)估位置重新校準(zhǔn)梯度,實(shí)現(xiàn)對(duì)路徑的動(dòng)態(tài)修正。本文將深入解析動(dòng)量法的局限性與Nesterov的破局之道,揭示其如何通...
  2025-07-27 23:42:36 1150瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
    梯度下降法是僅使用梯度信息的一階優(yōu)化算法,忽略了曲率信息,計(jì)算簡(jiǎn)單且可能收斂慢。因此,牛頓法使用Hessian矩陣結(jié)合了局部曲率信息,自適應(yīng)地調(diào)整更新步長(zhǎng),進(jìn)一步加速收斂。本文將從梯度下降法的局限性出發(fā),詳細(xì)介紹牛頓法的數(shù)學(xué)推導(dǎo)過程。(全文1300余字,感興趣可點(diǎn)贊、推薦、轉(zhuǎn)發(fā)、關(guān)注,將持續(xù)更新?。。。?、梯度下降法的局限性(1)梯度下降法沿參數(shù)空間中某一點(diǎn)處的???負(fù)梯度方向???進(jìn)行參數(shù)更新。同時(shí),???...
  2025-07-07 06:44:07 2153瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
    批歸一化(BatchNormalization)和層歸一化(LayerNormalization)是深度學(xué)習(xí)中廣泛應(yīng)用的兩種數(shù)據(jù)歸一化方法,用于改善神經(jīng)網(wǎng)絡(luò)的訓(xùn)練性能。本文將從提出這兩種技術(shù)的原論文出發(fā),詳細(xì)闡述技術(shù)背景、原理及基于Pytorch的實(shí)現(xiàn)方式。1.批歸一化(BatchNormalization)批歸一化由谷歌的SergeyIoffe和ChristianSzegedy于2015年在論文“BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift”中提...
  2025-06-23 06:40:25 3567瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
    對(duì)模型的泛化性能進(jìn)行評(píng)估,不僅需要有效可行的試驗(yàn)估計(jì)方法,還需要具有衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn),即性能度量。且在不同的任務(wù)中對(duì)比模型的性能時(shí),使用不同的性能度量往往會(huì)導(dǎo)致不同的評(píng)判結(jié)果。在分類任務(wù)中,最常用的性能度量有錯(cuò)誤率、精度、查準(zhǔn)率、查全率、F1分?jǐn)?shù)及AUCROC曲線。01錯(cuò)誤率與精度(1)錯(cuò)誤率(errorrate)是分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)(m)的比例。計(jì)算公式可表示為:(2)精度(accuracy)是分類正確的樣本數(shù)...
  2025-06-10 06:37:51 2232瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
    對(duì)模型的泛化性能進(jìn)行評(píng)估,不僅需要有效可行的試驗(yàn)估計(jì)方法,還需要具有衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn),即性能度量。且在不同的任務(wù)中對(duì)比模型的性能時(shí),使用不同的性能度量往往會(huì)導(dǎo)致不同的評(píng)判結(jié)果。在分類任務(wù)中,最常用的性能度量有錯(cuò)誤率、精度、查準(zhǔn)率、查全率、F1分?jǐn)?shù)及AUCROC曲線。本文將首先介紹錯(cuò)誤率、精度、查準(zhǔn)率、查全率、PR曲線與平衡點(diǎn)及F1分?jǐn)?shù)的詳細(xì)原理。1.錯(cuò)誤率與精度(1)錯(cuò)誤率(errorrate)是分類錯(cuò)誤的樣本...
  2025-05-14 00:05:30 2694瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
    阿里的Ma等人于2018年在論文《EntireSpaceMultiTaskModel:AnEffectiveApproachforEstimatingPostClickConversionRate》中提出了ESMM模型,用于建模電商推薦系統(tǒng)中點(diǎn)擊后轉(zhuǎn)化率的預(yù)估問題,同時(shí)有效緩解了樣本選擇偏差和數(shù)據(jù)稀疏問題。本文將從ESMM模型提出的背景、問題建模、模型原理及損失函數(shù)涉及方面進(jìn)行詳細(xì)的闡述。1.ESMM模型背景(1)在電商推薦系統(tǒng)中,用戶的行為一般遵循“曝光點(diǎn)擊轉(zhuǎn)化”的順序,ESSM主要用于建模點(diǎn)擊...
  2025-04-16 07:25:40 4090瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
    Transformer模型的時(shí)間復(fù)雜度主要由其核心模塊自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)決定,其中自注意力機(jī)制的計(jì)算復(fù)雜度占主導(dǎo)地位。本文將從單個(gè)矩陣乘法的時(shí)間復(fù)雜度計(jì)算出發(fā),分析自注意力機(jī)制、多頭注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)的時(shí)間復(fù)雜度,從而得到整個(gè)Transformer模型的時(shí)間復(fù)雜度,并說明優(yōu)化方法。1.單個(gè)矩陣乘法的時(shí)間復(fù)雜度2.自注意力機(jī)制的時(shí)間復(fù)雜度3.多頭自注意力機(jī)制的時(shí)間復(fù)雜度4.前饋神經(jīng)網(wǎng)絡(luò)的時(shí)間復(fù)雜度5.Transformer模...
  2025-04-03 07:17:10 5042瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
    位置編碼(PostitionalEncoding)是Transformer架構(gòu)中的關(guān)鍵技術(shù)之一。不同于卷積神經(jīng)網(wǎng)絡(luò)利用局部感受野、共享權(quán)重和池化操作等機(jī)制,可以自然地感受輸入數(shù)據(jù)的空間位置信息,也不同于循環(huán)神經(jīng)網(wǎng)絡(luò)憑借循環(huán)結(jié)構(gòu)和隱藏狀態(tài)的記憶與更新機(jī)制,能夠隱式地捕捉輸入序列中的時(shí)間順序信息,Tranformer架構(gòu)并未顯式地建模輸入序列中的絕對(duì)或相對(duì)位置信息,故需通過位置編碼技術(shù)顯式地注入位置信息,以使模型能更好地理解序列中不同位...
  2025-03-24 01:12:19 3975瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
    快手的Chang等人于2023年在論文《PEPNet:ParameterandEmbeddingPersonalizedNetworkforInfusingwithPersonalizedPriorInformation》中正式提出了PEPNet模型,用于建模推薦系統(tǒng)中的多任務(wù)多領(lǐng)域問題。本文將從PEPNet模型提出的動(dòng)機(jī)、問題建模、模型結(jié)構(gòu)及工程優(yōu)化策略方面進(jìn)行詳細(xì)的闡述。1.PEPNet模型的提出動(dòng)機(jī)(1)多任務(wù)學(xué)習(xí):出發(fā)點(diǎn)是不同的任務(wù)之間存在稀疏性和依賴性。但由于不同任務(wù)具有獨(dú)特的稀疏性和相互影響,很難在...
  2025-03-12 00:11:20 5644瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
    MMOE模型由谷歌研究團(tuán)隊(duì)于2018年在論文《ModelingTaskRelationshipsinMultitaskLearningwithMultigateMixtureofExperts》中提出,是一種新穎的多任務(wù)學(xué)習(xí)框架,廣泛應(yīng)用于推薦系統(tǒng)中。本文從技術(shù)背景、演化過程、計(jì)算原理、關(guān)鍵問題解析以及基于PyTorch的代碼實(shí)現(xiàn)方面對(duì)MMoE架構(gòu)進(jìn)行深入探究。1.技術(shù)背景(1)多任務(wù)學(xué)習(xí)的本質(zhì)是共享表示以及相關(guān)任務(wù)的相互影響,多任務(wù)學(xué)習(xí)模型并不總是在所有任務(wù)上都優(yōu)于相應(yīng)的單任務(wù)模型。(...
  2025-02-27 12:18:03 8164瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
    圖1DeepSeekV2&DeepSeekV3基本架構(gòu)。DeepSeekMoE架構(gòu)的提出源于DeepSeek發(fā)表的論文《DeepSeekMoE:TowardsUltimateExpertSpecializationinMixtureofExpertsLanguageModels》,在DeepSeekV2、V3及R1中得到了更好的應(yīng)用。1.DeepSeekMoE關(guān)鍵技術(shù)(1)DeepSeekMoE架構(gòu)有兩個(gè)關(guān)鍵思想:細(xì)粒度專家劃分和共享專家隔離。細(xì)粒度專家細(xì)分以實(shí)現(xiàn)更高的專家專業(yè)化程度和更準(zhǔn)確的知識(shí)獲取,共享專家隔離以減少專家之間的知識(shí)冗余。圖2DeepSee...
  2025-02-20 11:07:38 4220瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
    ?DeepSeek的基本架構(gòu)仍然在Transformer框架內(nèi),每個(gè)Transformer模塊由一個(gè)注意力模塊和一個(gè)前饋網(wǎng)絡(luò)組成。為實(shí)現(xiàn)更高效的推理和更經(jīng)濟(jì)的訓(xùn)練,在注意力和前饋網(wǎng)絡(luò)部分,設(shè)計(jì)并使用了創(chuàng)新的MLA(MultiHeadLatentAttention)和DeepSeekMoE架構(gòu)。本文將從MLA的提出背景、技術(shù)原理、解耦RoPE策略及MHA與MLA的緩存對(duì)比方面進(jìn)行詳細(xì)闡述。MLA是對(duì)多頭自注意力機(jī)制(MHA)的改進(jìn),其核心是對(duì)鍵(Keys)和值(Values)進(jìn)行低秩聯(lián)合壓縮...
  2025-02-13 12:01:11 7179瀏覽 0點(diǎn)贊 0回復(fù) 0收藏