機(jī)器學(xué)習(xí)團(tuán)隊(duì)需要更好的特征工程技術(shù)
特征工程技能是為機(jī)器學(xué)習(xí)優(yōu)化的數(shù)據(jù)特征,它與數(shù)據(jù)科學(xué)本身一樣歷史悠久。但我注意到,這一技能正變得越來越被忽視。對機(jī)器學(xué)習(xí)的高需求產(chǎn)生了大量的數(shù)據(jù)科學(xué)家,他們在工具和算法方面擁有專業(yè)知識,但缺乏特性工程所需的經(jīng)驗(yàn)和特定行業(yè)的領(lǐng)域知識。他們試圖用更好的工具和算法來彌補(bǔ)這一點(diǎn)。然而,算法現(xiàn)在是一種商品,不產(chǎn)生企業(yè)知識產(chǎn)權(quán)。
像Amazon ML和谷歌AutoML這樣的通用數(shù)據(jù)正在變得商品化,基于云計(jì)算的機(jī)器學(xué)習(xí)服務(wù)(MLaaS),如Amazon ML和Google AutoML,現(xiàn)在可以讓毫無經(jīng)驗(yàn)的團(tuán)隊(duì)在幾分鐘內(nèi)運(yùn)行數(shù)據(jù)模型并獲得預(yù)測。因此,主導(dǎo)權(quán)正在轉(zhuǎn)向那些在收集或制造專有數(shù)據(jù)方面發(fā)展組織能力的公司,通過特征工程實(shí)現(xiàn)。簡單的數(shù)據(jù)采集和模型構(gòu)建已不再適用。
企業(yè)團(tuán)隊(duì)可以從建模競賽的獲獎(jiǎng)?wù)吣抢飳W(xué)到很多東西,例如KDD杯和遺產(chǎn)提供者網(wǎng)絡(luò)健康獎(jiǎng),他們認(rèn)為特色工程是他們成功的關(guān)鍵因素。
一、特征工程技術(shù)
為了支持特征工程,數(shù)據(jù)科學(xué)家開發(fā)了一系列技術(shù)。它們可以被廣泛地視為:
1、語境轉(zhuǎn)換
一組方法涉及將各個(gè)特征從原始集轉(zhuǎn)換為針對每個(gè)特定模型的更多上下文有意義的信息。
例如,在處理分類特征時(shí),“未知”可能會在特定情況的上下文中傳達(dá)特殊信息。但是,在模型中,它看起來只是另一個(gè)類別值。在這種情況下,團(tuán)隊(duì)可能希望引入“has_value”的新二進(jìn)制功能,以將“未知”與所有其他選項(xiàng)分開。例如,“顏色”功能允許輸入“has_color”用于未知顏色的內(nèi)容。
另一種方法是使用單熱編碼將分類特征轉(zhuǎn)換為一組變量。在上面的示例中,將“顏色”類別轉(zhuǎn)換為三個(gè)特征(“紅色”,“綠色”和“藍(lán)色”各一個(gè))可以根據(jù)模型的目標(biāo)實(shí)現(xiàn)更好的學(xué)習(xí)過程。
機(jī)器學(xué)習(xí)團(tuán)隊(duì)還經(jīng)常使用分級作為將單個(gè)特征轉(zhuǎn)換為多個(gè)特征的方法,以獲得更好的洞察力。例如,將'age'特征分為'young'為<40,'middle_age'為40-60,'old'為> 60。
其他一些轉(zhuǎn)換的例子是:
將變量的最小值 - 最大值(例如年齡)之間的值縮放到[0,1]的范圍內(nèi)
將每種類型的餐廳的訪問次數(shù)除以美食的“興趣”指標(biāo)
2、多特征算術(shù)
特征工程的另一種方法是將算術(shù)公式應(yīng)用于一組現(xiàn)有數(shù)據(jù)點(diǎn)。公式可以基于特征,比率和其他關(guān)系之間的相互作用來創(chuàng)建衍生物。
這種類型的特征工程可以提供高價(jià)值,但需要對模型的主題和目標(biāo)有充分的了解。
示例包括使用公式:
從“學(xué)校評級”和“犯罪率”的組合計(jì)算“鄰里質(zhì)量”
通過比較訪客的“實(shí)際支出”和“預(yù)期支出”來確定“賭場運(yùn)氣因素”
通過將信用卡“余額”除以“限制”來產(chǎn)生“利用率”
從特定時(shí)間范圍內(nèi)的“最近交易”,“交易頻率”和“花費(fèi)的金額”的組合中獲取RFM分?jǐn)?shù)(新近度,頻率,貨幣)以對客戶進(jìn)行分段。
3、先進(jìn)的技術(shù)
團(tuán)隊(duì)還可以選擇更高級的算法方法來分析現(xiàn)有數(shù)據(jù),以尋找創(chuàng)建新功能的機(jī)會。
主成分分析(PCA)和獨(dú)立成分分析(ICA)將現(xiàn)有數(shù)據(jù)映射到另一個(gè)特征空間
深度特征合成(DFS)允許從神經(jīng)網(wǎng)絡(luò)中的中間層轉(zhuǎn)移中間學(xué)習(xí)
二、設(shè)置成功的框架
團(tuán)隊(duì)必須不斷尋找更有效的功能和模型。但是,為了取得成功,這項(xiàng)工作必須在有條不紊和可重復(fù)的框架內(nèi)完成。以下是任何功能工程工作的六個(gè)關(guān)鍵步驟:
1.明確模型用法。首先澄清模型的主要目標(biāo)和用例。整個(gè)團(tuán)隊(duì)必須保持同步并以單一目的工作。否則,你會減少努力并浪費(fèi)資源。
2.設(shè)置標(biāo)準(zhǔn)。構(gòu)建高性能模型的過程需要仔細(xì)探索和分析可用數(shù)據(jù)。但是工作計(jì)劃也需要適應(yīng)現(xiàn)實(shí)世界的障礙。在特征化過程中考慮諸如成本,可訪問性,計(jì)算限制,存儲約束和其他要求等因素。團(tuán)隊(duì)必須盡早調(diào)整這些偏好或限制。
3.構(gòu)思新功能。廣泛思考如何創(chuàng)建新數(shù)據(jù)以更好地描述和解決問題。此時(shí),領(lǐng)域知識和主題專家的參與將確保您的特征工程的結(jié)果增加價(jià)值。
4.構(gòu)造要素作為輸入。一旦確定了新的特征概念,請從可用數(shù)據(jù)中選擇最有效的技術(shù)來構(gòu)建它們。選擇正確的技術(shù)是確保新功能有用性的關(guān)鍵。
5.研究影響。評估新功能對模型性能的影響。關(guān)于新特征增加值的結(jié)論直接取決于如何測量模型的功效。
模型性能度量必須與業(yè)務(wù)度量相關(guān)才能有意義。如今,團(tuán)隊(duì)擁有大量的測量選項(xiàng),遠(yuǎn)遠(yuǎn)超出準(zhǔn)確性,例如精度,召回率,F(xiàn)1分?jǐn)?shù)和接收器操作特性(ROC)曲線。
6.優(yōu)化功能。特征工程是一個(gè)涉及測試,調(diào)整和改進(jìn)新特征的迭代過程。此過程中的優(yōu)化循環(huán)有時(shí)會導(dǎo)致刪除低性能特征或使用緊密變體替換,直到識別出最高影響特征。
總結(jié)
特征工程是我們現(xiàn)代世界的新煉金術(shù),成功的團(tuán)隊(duì)將通用數(shù)據(jù)轉(zhuǎn)化為其組織的增值知識產(chǎn)權(quán)。
幾項(xiàng)重要原則有助于推動(dòng)這項(xiàng)工作取得成功:
- 包括主題專業(yè)知識,以確保計(jì)劃從明確了解業(yè)務(wù)目標(biāo)和模型有效性的相關(guān)措施開始
- 通過迭代和系統(tǒng)的過程
- 考慮可用的許多可能的特征選項(xiàng)
- 了解并監(jiān)控功能選擇如何影響模型性能
- 將數(shù)據(jù)轉(zhuǎn)換為驅(qū)動(dòng)有意義模型的專有功能的這種能力可以創(chuàng)造重要價(jià)值并確保組織的競爭優(yōu)勢。