數(shù)據(jù)質(zhì)量在機器學(xué)習中有多重要?
如今,機器學(xué)習正成為組織多個商業(yè)部門的一項重要功能。機器學(xué)習程序運行在數(shù)據(jù)上,需要大量的數(shù)據(jù)來訓(xùn)練機器,就像一臺潤滑良好的發(fā)動機。但是,與大量數(shù)據(jù)相比,良好的數(shù)據(jù)質(zhì)量對于獲得預(yù)期的最終結(jié)果至關(guān)重要。
數(shù)據(jù)管理處理的是數(shù)據(jù)質(zhì)量,這使得分析應(yīng)用程序給出的輸出可信。分析應(yīng)用程序讓企業(yè)了解自己在行業(yè)中的地位。目前在技術(shù)行業(yè)取得的分析進步是顯著的,但就數(shù)據(jù)質(zhì)量而言,它還沒有達到標準,這對依賴機器學(xué)習程序的企業(yè)來說可能是有害的。
更多的干凈數(shù)據(jù)
機器學(xué)習系統(tǒng)需要更多的數(shù)據(jù),但是數(shù)據(jù)在哪里呢?如果我們以零售業(yè)為例,數(shù)據(jù)可以收集多年。一旦數(shù)據(jù)被提取和收集,就應(yīng)該確定其質(zhì)量。機器學(xué)習工程師的工作就是這樣做,從業(yè)務(wù)的角度把數(shù)據(jù)放在一個可理解的場景中。
機器學(xué)習工程師的職責
工程師的首要責任應(yīng)該是了解客戶和客戶群的需求。這意味著企業(yè)應(yīng)該首先與一位機器學(xué)習顧問合作,他將指導(dǎo)如何使用機器學(xué)習來適應(yīng)特定的商業(yè)模式。接下來,機器學(xué)習工程師將在領(lǐng)域?qū)<业膸椭麻_始處理來自系統(tǒng)的數(shù)據(jù),對數(shù)據(jù)進行標記和分類。這就是問題所在。大多數(shù)機器學(xué)習項目都是在沒有領(lǐng)域?qū)<业那闆r下進行的。這會導(dǎo)致錯誤的數(shù)據(jù)分類、操作員錯誤或機器學(xué)習系統(tǒng)對輸出的錯誤假設(shè)。
機器學(xué)習工程師從一開始就把大部分時間花在對數(shù)據(jù)進行分類上,因此如果機器學(xué)習產(chǎn)品在一開始就給出了錯誤的數(shù)據(jù),那么從那以后,錯誤就會變得更加復(fù)雜。這導(dǎo)致了無監(jiān)督機器學(xué)習。
有監(jiān)督和無監(jiān)督機器學(xué)習
有監(jiān)督機器學(xué)習是指利用輸入/輸出對的例子將一個函數(shù)映射到其相應(yīng)項的過程。有了這樣的模型,就可以在保證零數(shù)據(jù)誤差的前提下,從一開始就可以測量性能。
無監(jiān)督機器學(xué)習與此相矛盾。它沒有數(shù)據(jù)標簽,也沒有實際的方法來衡量算法的性能。使用這樣的程序,目標是找出數(shù)據(jù)的底層結(jié)構(gòu),并將其分成不同的類別。但是無監(jiān)督機器學(xué)習有一個好處。這些算法能夠看到人類可能不熟悉的數(shù)據(jù)模式。因此,在選擇機器學(xué)習方法時,了解它在業(yè)務(wù)中的用途是很重要的。
數(shù)據(jù)質(zhì)量對機器學(xué)習很重要。當所需的數(shù)據(jù)質(zhì)量無法達到業(yè)務(wù)要求時,無監(jiān)督機器學(xué)習是一種救星。它能夠通過評估基于人工智能的程序的數(shù)據(jù)來提供精確的業(yè)務(wù)見解。但對于一個企業(yè)來說,沒有一個適合所有人的解決方案。