偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

機(jī)器學(xué)習(xí)項目中特征工程的5個優(yōu)秀實踐

人工智能 機(jī)器學(xué)習(xí)
當(dāng)處理一個新的機(jī)器學(xué)習(xí)問題時,沒有辦法從一開始就知道解決方案是什么,除非各種不同的實驗被嘗試和測試。

 隨著時間的推移,我們通過各種不同的技術(shù)和方法,確認(rèn)在機(jī)器學(xué)習(xí)項目中什么是有效的,什么是無效的。以下總結(jié)了5個步驟希望對你有幫助。

[[398566]]

生成簡單的特征

當(dāng)?shù)谝淮伍_始建模過程時,嘗試生成盡可能多的簡單特征,嘗試生成不需要花很長時間編碼的特征。例如,與其訓(xùn)練Word2vec模型,不如先實現(xiàn)一個簡單的詞袋,它用最少的代碼生成數(shù)千個特性。一開始就想使用任何可測量為特征的東西,因為沒有明確的方法可以提前知道一個或多個特征組合是否對預(yù)測有用。

id也可以是特征(如果需要的話)

將ID添加為特性集的一部分可能聽起來很愚蠢,因為唯一的ID可能不會對模型的泛化做出太多貢獻(xiàn)。然而,包含id使從業(yè)者能夠創(chuàng)建一個在一般情況下具有一種行為而在其他情況下具有不同行為的模型。

例如,假設(shè)我們想根據(jù)描述某個位置的一些特征對某個位置進(jìn)行預(yù)測。通過將位置的id作為特征集的一部分,我們將能夠為一個一般位置添加更多的訓(xùn)練示例,并訓(xùn)練模型在其他特定位置表現(xiàn)不同。

減少基數(shù)(如果可能的話)

作為一般經(jīng)驗法則,如果我們有一些具有許多不同獨(dú)特值的分類特征(比如超過12個),我們應(yīng)該只在希望模型根據(jù)該功能做出不同行為時才使用該功能。例如,在美國有50個州,因此你可以考慮使用一個稱為“州”的特征,如果你希望模型的期望行為在加利福尼亞是一種方式,在佛羅里達(dá)是另一種方式。

另一方面,如果我們不需要一個依賴于“州”特性的行為不同的模型,那么我們最好減少“州”特性的基數(shù)。

注意計數(shù)的問題

在某些情況下,隨著時間的推移,總數(shù)大致保持在相同的范圍內(nèi)——如果文檔長度沒有隨著時間的推移而增加或減少,例如詞袋(BoW)就是這種情況。

計數(shù)可能導(dǎo)致問題的實例。 例如,在一個場景中,我們具有一個特哼,可以統(tǒng)計用戶自訂閱服務(wù)以來進(jìn)行的呼叫次數(shù)。 如果提供訂閱服務(wù)的公司已經(jīng)存在很長時間了,那么單純的統(tǒng)計會看到他們撥打了很多電話。

隨著數(shù)據(jù)的增長,今天不那么頻繁的值在將來可能會變得越來越頻繁。所以處理這類的問題需要增加時間窗口

進(jìn)行特征選擇

以下是只在絕對必要時才執(zhí)行特性選擇的一些理由;

模型必須是可解釋的,所以最好保留最重要的特性

有嚴(yán)格的硬件要求

沒有太多的時間來執(zhí)行大量的實驗和/或為生產(chǎn)環(huán)境重建模式

在多個模型訓(xùn)練之間會有預(yù)期的分布變化

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2021-03-01 19:24:13

Kubernetes備份容器

2022-10-09 08:08:02

人工智能機(jī)器學(xué)習(xí)平臺

2022-06-28 05:54:10

機(jī)器身份網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)安全

2021-04-01 22:19:54

機(jī)器學(xué)習(xí)模型數(shù)據(jù)

2024-06-13 09:12:38

2020-09-27 18:29:03

代碼機(jī)器學(xué)習(xí)數(shù)據(jù)科學(xué)

2020-09-27 17:17:26

機(jī)器學(xué)習(xí)技術(shù)人工智能

2024-11-21 17:22:40

2024-10-08 15:09:17

2024-10-08 10:16:22

2024-10-28 00:00:10

機(jī)器學(xué)習(xí)模型程度

2024-10-28 15:52:38

機(jī)器學(xué)習(xí)特征工程數(shù)據(jù)集

2020-07-24 00:41:18

物聯(lián)網(wǎng)項目物聯(lián)網(wǎng)IOT

2020-04-23 10:35:10

Docker鏡像實踐

2018-10-05 23:26:00

機(jī)器學(xué)習(xí)算法數(shù)據(jù)

2020-09-29 07:19:54

InnoDBMySQL存儲引擎

2023-04-10 11:25:29

工程交流DX

2020-08-06 10:29:39

機(jī)器學(xué)習(xí)人工智能AI

2020-11-27 11:07:29

人工智能

2018-07-23 15:35:17

機(jī)器學(xué)習(xí)特征工程技能數(shù)據(jù)科學(xué)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號