特征工程是啥東東?為何需要實(shí)現(xiàn)自動(dòng)化?
譯文【51CTO.com快譯】如今人工智能(AI)變得越來(lái)越普遍和必要。從防止欺詐、實(shí)時(shí)異常檢測(cè)到預(yù)測(cè)客戶流失,企業(yè)客戶每天都在尋找機(jī)器學(xué)習(xí)(ML)的新應(yīng)用。ML的底層是什么?這項(xiàng)技術(shù)如何進(jìn)行預(yù)測(cè)?使AI發(fā)揮神奇功效的秘訣又是什么?
在數(shù)據(jù)科學(xué)界,重點(diǎn)通常放在算法選擇和模型訓(xùn)練上,這些確實(shí)很重要,但是AI/ML工作流程中最關(guān)鍵的部分不是我們?nèi)绾芜x擇或調(diào)整算法,而是把什么輸入到AI/ML,即特征工程(Feature Engineering)。
特征工程是數(shù)據(jù)科學(xué)界的圣杯,也是決定AI/ML結(jié)果質(zhì)量的最關(guān)鍵步驟。無(wú)論使用哪種算法,特征工程都決定模型性能,并影響機(jī)器學(xué)習(xí)生成有意義的見解并最終解決業(yè)務(wù)問(wèn)題的能力。
特征工程簡(jiǎn)介
特征工程是運(yùn)用領(lǐng)域知識(shí)從原始數(shù)據(jù)中提取分析表示,使其準(zhǔn)備用于機(jī)器學(xué)習(xí)的過(guò)程。這是開發(fā)用于預(yù)測(cè)的機(jī)器學(xué)習(xí)模型的第一步。
特征工程需要運(yùn)用業(yè)務(wù)知識(shí)、數(shù)學(xué)和統(tǒng)計(jì)學(xué),將數(shù)據(jù)轉(zhuǎn)換成機(jī)器學(xué)習(xí)模型可以直接使用的格式。它從散布在不同數(shù)據(jù)庫(kù)中的許多表開始,然后使用統(tǒng)計(jì)轉(zhuǎn)換及/或關(guān)系操作將這些表連接、聚合并合并為一個(gè)扁平表。
比如說(shuō),預(yù)測(cè)在任何一個(gè)季度可能流失的客戶意味著要確定最有可能不再與公司有業(yè)務(wù)往來(lái)的潛在客戶。你如何做出這樣的預(yù)測(cè)?我們通過(guò)查看根本原因來(lái)預(yù)測(cè)流失率。這個(gè)過(guò)程基于分析客戶行為,然后創(chuàng)建假設(shè)。比如說(shuō),客戶A在上個(gè)月與客戶支持部門聯(lián)系了五次——暗示客戶A在投訴,很可能流失。在另一種場(chǎng)景下,客戶A的產(chǎn)品使用量在過(guò)去兩個(gè)月可能下降了30%,這表明客戶A流失的可能性很大。特征工作的任務(wù)就是查看歷史行為,提取一些假設(shè)模式,并測(cè)試這些假設(shè)。
揭密特征工程
特征工程旨在從歷史數(shù)據(jù)中提取業(yè)務(wù)假設(shè)。涉及客戶流失等預(yù)測(cè)的業(yè)務(wù)問(wèn)題是分類問(wèn)題。
可以使用多種ML算法,比如經(jīng)典邏輯回歸、決策樹、支持向量機(jī)、提升(boosting)和神經(jīng)網(wǎng)絡(luò)。雖然所有這些算法都需要單個(gè)扁平矩陣作為輸入,但原始業(yè)務(wù)數(shù)據(jù)存儲(chǔ)在關(guān)系復(fù)雜的不同表中(比如事務(wù)、時(shí)間和地理位置等表)。
我們可以先連接兩個(gè)表,對(duì)連接表執(zhí)行時(shí)間聚合,以提取時(shí)間用戶行為模式。實(shí)際的特征工程比簡(jiǎn)單的轉(zhuǎn)換操作(比如獨(dú)熱編碼,將分類值轉(zhuǎn)換成二進(jìn)制指示符以便ML算法可以利用)復(fù)雜得多。為了實(shí)現(xiàn)特征工程,我們編寫成百上千個(gè)類似SQL的查詢,執(zhí)行大量的數(shù)據(jù)操作以及大量的統(tǒng)計(jì)轉(zhuǎn)換。
在機(jī)器學(xué)習(xí)環(huán)境下,如果我們知道歷史模式,可以創(chuàng)建假設(shè)。基于該假設(shè),我們就可以預(yù)測(cè)可能的結(jié)果——比如在特定時(shí)間段內(nèi)哪些客戶可能流失。而特征工作的關(guān)鍵是找到假設(shè)的最佳組合。
特征工程至關(guān)重要,因?yàn)槿绻覀兲峁╁e(cuò)誤的假設(shè)作為輸入,ML無(wú)法做出準(zhǔn)確的預(yù)測(cè)。任何提供的假設(shè)的質(zhì)量對(duì)于ML模型的成功而言至關(guān)重要。從準(zhǔn)確性和可解釋性的角度出發(fā),特征質(zhì)量至關(guān)重要。
為何特征工程需要實(shí)現(xiàn)自動(dòng)化?
特征工程是迭代性最強(qiáng)、最耗時(shí)、最耗資源的過(guò)程,涉及跨學(xué)科專業(yè)知識(shí)。它需要技術(shù)知識(shí),但更重要的是需要領(lǐng)域知識(shí)。
數(shù)據(jù)科學(xué)團(tuán)隊(duì)構(gòu)建特征的辦法是,與領(lǐng)域?qū)<液献?,測(cè)試假設(shè),構(gòu)建和評(píng)估ML模型,重復(fù)該過(guò)程直到結(jié)果被公司接受。由于需要深入的領(lǐng)域知識(shí)來(lái)生成高質(zhì)量的特征,因此特征工程被廣泛認(rèn)為是專家的“魔法”;即使團(tuán)隊(duì)常常花80%的精力,從原始業(yè)務(wù)數(shù)據(jù)來(lái)開發(fā)高質(zhì)量的特征表,也不可能實(shí)現(xiàn)自動(dòng)化。
特征工程自動(dòng)化大有潛力改變傳統(tǒng)的數(shù)據(jù)科學(xué)過(guò)程。它大大降低了技術(shù)壁壘,消除了成百上千個(gè)手動(dòng)的SQL查詢,即使沒(méi)有全面了解領(lǐng)域知識(shí),也可以提高數(shù)據(jù)科學(xué)項(xiàng)目的速度。它還基于在數(shù)小時(shí)內(nèi)探索數(shù)百萬(wàn)個(gè)特征假設(shè)的功能,加強(qiáng)了我們對(duì)數(shù)據(jù)的了解,并帶來(lái)了“未知的不確定因素”。
實(shí)現(xiàn)特征工程自動(dòng)化的AutoML 2.0
最近,ML自動(dòng)化(又叫AutoML)備受關(guān)注。AutoML克服企業(yè)面臨的重大挑戰(zhàn)之一:AI和ML項(xiàng)目所花的時(shí)間很長(zhǎng),通常要數(shù)月才能完成,還缺少處理該問(wèn)題的專業(yè)人才。
雖然目前的AutoML產(chǎn)品無(wú)疑在加快AI和機(jī)器學(xué)習(xí)過(guò)程中取得了重大進(jìn)展,但它們未能解決最重要的步驟:從原始業(yè)務(wù)數(shù)據(jù)準(zhǔn)備機(jī)器學(xué)習(xí)輸入的過(guò)程,即特征工程。
為了真正改變現(xiàn)代企業(yè)利用AI和機(jī)器學(xué)習(xí)的方式,數(shù)據(jù)科學(xué)開發(fā)的整個(gè)周期勢(shì)必需要自動(dòng)化。如果數(shù)據(jù)科學(xué)自動(dòng)化的核心問(wèn)題是由于缺少數(shù)據(jù)科學(xué)家、業(yè)務(wù)用戶對(duì)ML了解不夠以及難以遷移到生產(chǎn)環(huán)境,那么AutoML也必須克服這些挑戰(zhàn)。
使數(shù)據(jù)和特征工程實(shí)現(xiàn)自動(dòng)化的AutoML 2.0浮出水面,簡(jiǎn)化特征工程自動(dòng)化和ML自動(dòng)化,作為單單一條流水線和一站式系統(tǒng)。有了AutoML 2.0,從原始數(shù)據(jù)、數(shù)據(jù)和特征工程到ML模型開發(fā)的整個(gè)周期只需要幾天而不是幾個(gè)月,團(tuán)隊(duì)交付的項(xiàng)目會(huì)多10倍。
特征工程有助于揭示數(shù)據(jù)中的隱藏模式,基于機(jī)器學(xué)習(xí)助力預(yù)測(cè)分析。算法需要含有相關(guān)業(yè)務(wù)假設(shè)和歷史模式的高質(zhì)量輸入數(shù)據(jù),特征工程提供了這種數(shù)據(jù)。然而,它是AI/ ML工作流程中最依賴人且最耗時(shí)的部分。
AutoML 2.0簡(jiǎn)化了特征工程自動(dòng)化和ML自動(dòng)化,這項(xiàng)新的技術(shù)突破可為企業(yè)加速和簡(jiǎn)化AI/ML。它使BI工程師或數(shù)據(jù)工程師等更多的人能夠執(zhí)行AI/ML項(xiàng)目,并使企業(yè)AI/ML擁有更高的擴(kuò)展性和敏捷性。
原文標(biāo)題:What is Feature Engineering and Why Does It Need To Be Automated?,作者:Ryohei Fujimaki
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】