訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí)要避免的六個(gè)錯(cuò)誤
譯文【51CTO.com快譯】開發(fā)AI或機(jī)器學(xué)習(xí)模型不是兒戲,它需要大量的知識和技能以及豐富的經(jīng)驗(yàn),才能使模型在多種場景下發(fā)揮功效。
您尤其需要高質(zhì)量的計(jì)算機(jī)視覺訓(xùn)練數(shù)據(jù),以訓(xùn)練基于視覺感知的AI模型。AI開發(fā)中關(guān)鍵的階段是獲取和收集訓(xùn)練數(shù)據(jù),并在訓(xùn)練模型時(shí)使用這些數(shù)據(jù)。
訓(xùn)練模型時(shí)出現(xiàn)任何錯(cuò)誤,不僅使模型執(zhí)行起來不正確,做出關(guān)鍵的業(yè)務(wù)決策時(shí)還可能造成災(zāi)難性后果,尤其是在醫(yī)療保健或自動(dòng)駕駛汽車等某些領(lǐng)域。
訓(xùn)練AI模型時(shí),執(zhí)行多階段活動(dòng)以便以最優(yōu)方式使用訓(xùn)練數(shù)據(jù),從而使結(jié)果令人滿意。以下是您需要了解的六個(gè)常見錯(cuò)誤,以確保AI模型成功。
1. 使用未驗(yàn)證的非結(jié)構(gòu)化數(shù)據(jù)
使用未驗(yàn)證的非結(jié)構(gòu)化數(shù)據(jù)是機(jī)器學(xué)習(xí)工程師在AI開發(fā)中最常見的錯(cuò)誤之一。未驗(yàn)證的數(shù)據(jù)可能存在錯(cuò)誤,比如重復(fù)、數(shù)據(jù)沖突、缺少分類、錯(cuò)誤以及訓(xùn)練過程中可能導(dǎo)致異常的其他數(shù)據(jù)問題。
因此,將數(shù)據(jù)用于機(jī)器學(xué)習(xí)訓(xùn)練之前,仔細(xì)檢查原始數(shù)據(jù)集,并消除不需要或不相關(guān)的數(shù)據(jù),幫助AI模型以更高的準(zhǔn)確性發(fā)揮功效。
2. 使用已經(jīng)在使用的數(shù)據(jù)來測試模型
應(yīng)避免重復(fù)使用已經(jīng)用于測試模型的數(shù)據(jù)。因此,應(yīng)避免這類錯(cuò)誤。比如說,如果有人已經(jīng)學(xué)到了知識,并將該知識運(yùn)用到他從事的工作領(lǐng)域,將學(xué)到的同樣知識用到另一個(gè)工作領(lǐng)域可能導(dǎo)致推理時(shí)出現(xiàn)偏見和重復(fù)。
在機(jī)器學(xué)習(xí)中,同樣也是如此,AI可以用大量數(shù)據(jù)集來學(xué)習(xí),以正確預(yù)測答案。將一樣的訓(xùn)練數(shù)據(jù)用于模型或基于AI的應(yīng)用,會(huì)導(dǎo)致模型有偏見,得出的結(jié)果是先前學(xué)習(xí)的結(jié)果。因此測試AI模型的功能時(shí),使用之前沒有用于機(jī)器學(xué)習(xí)訓(xùn)練的新數(shù)據(jù)集進(jìn)行測試非常重要。
3. 使用不足的訓(xùn)練數(shù)據(jù)集
為了使AI模型成功,您需要使用正確的訓(xùn)練數(shù)據(jù),以便可以以最高的準(zhǔn)確性進(jìn)行預(yù)測。缺少足夠的訓(xùn)練數(shù)據(jù)是模型失敗的主要原因之一。
然而,訓(xùn)練數(shù)據(jù)要求的領(lǐng)域有所不同,這取決于AI模型或行業(yè)的類型。對于深度學(xué)習(xí),您既需要定性數(shù)據(jù)集,還需要更多的定量數(shù)據(jù)集,以確保模型可以高精度運(yùn)行。
4. 確保您的AI模型無偏見
不可能開發(fā)出在各種場景下都能給出100%準(zhǔn)確結(jié)果的AI模型。就像人類一樣,機(jī)器也會(huì)因年齡、性別、取向和收入水平等各種因素而有偏見,這些因素會(huì)以某種方式影響結(jié)果。因此,您需要通過使用統(tǒng)計(jì)分析找出每個(gè)個(gè)人因素在如何影響所處理的數(shù)據(jù)和AI訓(xùn)練數(shù)據(jù),盡量減少這種現(xiàn)象。
5. 單獨(dú)依靠AI模型學(xué)習(xí)
不過,您需要專家使用大量的訓(xùn)練數(shù)據(jù)集來訓(xùn)練AI模型。但是如果AI使用重復(fù)性的機(jī)器學(xué)習(xí)過程,訓(xùn)練這類模型時(shí)就需要考慮這一點(diǎn)。
在這里,作為一名機(jī)器學(xué)習(xí)工程師,您需要確保AI模型以正確的策略進(jìn)行學(xué)習(xí)。為確保這一點(diǎn),您必須定期檢查AI訓(xùn)練過程及其結(jié)果,以獲得最佳結(jié)果。
然而在開發(fā)機(jī)器學(xué)習(xí)AI時(shí),您需要不斷問自己一些重要的問題,比如您的數(shù)據(jù)是否來自可靠的來源?您的AI是否涵蓋廣泛的人群,是否有影響結(jié)果的其他因素?
6. 未使用正確標(biāo)記的數(shù)據(jù)集
為了在通過機(jī)器學(xué)習(xí)開發(fā)AI模型的同時(shí)取得成功,您需要一項(xiàng)明確定義的策略。這不僅可以幫助您獲得最佳結(jié)果,還可以使機(jī)器學(xué)習(xí)模型在最終用戶當(dāng)中顯得更可靠。
不過,上面提到的是訓(xùn)練模型時(shí)要牢記的幾個(gè)關(guān)鍵點(diǎn)。但是以最高的精確度準(zhǔn)確地訓(xùn)練數(shù)據(jù)對于使AI成功,并在各種場景下以最高的精確度發(fā)揮功效而言至關(guān)重要。如果您的數(shù)據(jù)未正確標(biāo)記,它會(huì)影響模型的表現(xiàn)。
如果您的機(jī)器學(xué)習(xí)模型面向計(jì)算機(jī)視覺,那么為了獲得正確的訓(xùn)練數(shù)據(jù),圖像標(biāo)注是創(chuàng)建此類數(shù)據(jù)集的合適技術(shù)。訓(xùn)練模型時(shí),獲得正確的標(biāo)記數(shù)據(jù)是AI公司面臨的另一項(xiàng)挑戰(zhàn)。但是有許多公司為機(jī)器學(xué)習(xí)和AI提供數(shù)據(jù)標(biāo)記服務(wù)。
原文標(biāo)題:6 Mistakes To Avoid While Training Your Machine Learning Model
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】





























