偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="rs0eb"></ruby>

<acronym id="rs0eb"></acronym>

<rt id="rs0eb"><var id="rs0eb"></var></rt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

機(jī)器學(xué)習(xí)中的標(biāo)簽泄漏介紹及其如何影響模型性能

作者：deephub 2020-09-25 09:59:52

人工智能機(jī)器學(xué)習(xí)

您是否對(duì)優(yōu)秀或接近優(yōu)秀的模型表現(xiàn)不知所措？你的快樂被出賣了嗎?簡(jiǎn)而言之，當(dāng)您要預(yù)測(cè)的信息直接或間接出現(xiàn)在訓(xùn)練數(shù)據(jù)集中時(shí)，就會(huì)發(fā)生標(biāo)簽泄漏或目標(biāo)泄漏。

您是否對(duì)優(yōu)秀或接近優(yōu)秀的模型表現(xiàn)不知所措? 你的快樂被出賣了嗎?

簡(jiǎn)而言之，當(dāng)您要預(yù)測(cè)的信息直接或間接出現(xiàn)在訓(xùn)練數(shù)據(jù)集中時(shí)，就會(huì)發(fā)生標(biāo)簽泄漏或目標(biāo)泄漏。它會(huì)導(dǎo)致模型夸大其泛化誤差，并極大地提高了模型的性能，但模型對(duì)于任何實(shí)際應(yīng)用都毫無用處。

數(shù)據(jù)泄漏如何發(fā)生

最簡(jiǎn)單的示例是使用標(biāo)簽本身訓(xùn)練模型。在實(shí)踐中，在數(shù)據(jù)收集和準(zhǔn)備過程中無意中引入了目標(biāo)變量的間接表示。觸發(fā)結(jié)果的特征和目標(biāo)變量的直接結(jié)果是在數(shù)據(jù)挖掘過程中收集的，因此在進(jìn)行探索性數(shù)據(jù)分析時(shí)應(yīng)手動(dòng)識(shí)別它們。

數(shù)據(jù)泄漏的主要指標(biāo)是"太好了，不能成為現(xiàn)實(shí)"模型。由于該模型不是優(yōu)秀模型，因此在預(yù)測(cè)期間最有可能表現(xiàn)不佳。

數(shù)據(jù)泄漏不僅可以通過訓(xùn)練特征作為標(biāo)簽的間接表示來實(shí)現(xiàn)。也可能是因?yàn)閬碜则?yàn)證或測(cè)試數(shù)據(jù)的某些信息保留在訓(xùn)練數(shù)據(jù)中，或者使用了來自將來的歷史記錄。

標(biāo)簽泄漏問題的示例

通過此人關(guān)聯(lián)銀行賬號(hào)的特征來預(yù)測(cè)是否會(huì)開設(shè)銀行帳戶

在客戶流失預(yù)測(cè)問題中，事實(shí)證明，無論客戶是否流失，稱為"采訪者"的功能都是最好的指示。模型表現(xiàn)不佳的原因是此"采訪者"是僅在客戶確認(rèn)他們打算流失之后才分配調(diào)查人員。

如何應(yīng)對(duì)標(biāo)簽泄漏

1、刪除它們或添加噪音以引入可以平滑的隨機(jī)性

2、使用交叉驗(yàn)證或確保使用驗(yàn)證集在看不見的實(shí)例上測(cè)試模型。

3、使用管道處理而不是縮放或變換整個(gè)數(shù)據(jù)集。當(dāng)基于提供的整個(gè)數(shù)據(jù)集按比例縮小特征時(shí)，例如使用最小-最大縮放器，然后應(yīng)用訓(xùn)練和測(cè)試分割，縮放的測(cè)試集還包含來自縮放的訓(xùn)練特征的信息，因?yàn)樽钚≈岛妥钚≈? 使用了整個(gè)數(shù)據(jù)集的最大值。因此，始終建議使用管道來防止標(biāo)簽泄漏。

4、根據(jù)保留數(shù)據(jù)測(cè)試模型并評(píng)估性能。就基礎(chǔ)架構(gòu)，時(shí)間和資源而言，這是最昂貴的方式，因?yàn)楸仨毷褂谜_的方法再次執(zhí)行整個(gè)過程。

總結(jié)

數(shù)據(jù)泄漏是最常見的一種錯(cuò)誤和可能發(fā)生的特性工程,使用時(shí)間序列,數(shù)據(jù)集標(biāo)簽,并巧妙地通過驗(yàn)證信息訓(xùn)練集。重要的是機(jī)器學(xué)習(xí)模型僅僅是接觸信息可用時(shí)的預(yù)測(cè)。因此，明智的做法是仔細(xì)挑選特性，在應(yīng)用轉(zhuǎn)換之前分割數(shù)據(jù)，避免在驗(yàn)證集上擬合轉(zhuǎn)換，并使用管道處理。

責(zé)任編輯：華軒來源：今日頭條

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="ftkqx"><li id="ftkqx"></li></p>