如何培訓(xùn)、測(cè)試和維護(hù)人工智能和機(jī)器學(xué)習(xí)模型
為了深入了解創(chuàng)建人工智能和機(jī)器學(xué)習(xí)模型所需的技能集,需要了解模型創(chuàng)建過(guò)程,這是由機(jī)器學(xué)習(xí)軟件逐步學(xué)習(xí)完成的,以及生成符合預(yù)定義成功標(biāo)準(zhǔn)的模型所面臨的挑戰(zhàn)。
機(jī)器學(xué)習(xí)軟件使用數(shù)據(jù)來(lái)訓(xùn)練一個(gè)模型,這個(gè)模型構(gòu)成了人工智能產(chǎn)品,可以通過(guò)定期更新人工智能輸入數(shù)據(jù)在一段時(shí)間內(nèi)重復(fù)使用。機(jī)器學(xué)習(xí)軟件有四種基本的學(xué)習(xí)類型:
- 監(jiān)督:包括讓算法學(xué)習(xí)數(shù)據(jù),同時(shí)使用數(shù)據(jù)上的標(biāo)簽提供正確答案。這本質(zhì)上意味著要預(yù)測(cè)的類或值從一開(kāi)始就是已知的,并且對(duì)算法進(jìn)行了很好的定義。
- 無(wú)監(jiān)督:與有監(jiān)督的方法不同,算法并不提供正確答案或任何答案,由算法自行決定是否收集相似的數(shù)據(jù)并加以理解。
- 半監(jiān)督學(xué)習(xí):監(jiān)督和非監(jiān)督學(xué)習(xí)的混合。
- 強(qiáng)化:在強(qiáng)化學(xué)習(xí)中,每一次正確的預(yù)測(cè)都會(huì)給予算法獎(jiǎng)勵(lì),從而提高準(zhǔn)確率。
需要數(shù)據(jù)科學(xué)專業(yè)知識(shí)來(lái)確定機(jī)器學(xué)習(xí)軟件中用于擬合特定數(shù)據(jù)集的最佳統(tǒng)計(jì)算法。
在眾多的統(tǒng)計(jì)算法中,比較流行的有:用于情感分析、垃圾郵件檢測(cè)和推薦的樸素貝葉斯算法;用于結(jié)果預(yù)測(cè)的決策樹(shù);可以合并多個(gè)決策樹(shù)來(lái)改進(jìn)預(yù)測(cè)的隨機(jī)森林;用于二元分類(A或B)邏輯回歸;AdaBoost、Gaussian Mixed、Recommender和K-Means聚類將數(shù)據(jù)重新組織,如市場(chǎng)細(xì)分。
訓(xùn)練人工智能和機(jī)器學(xué)習(xí)模型
機(jī)器學(xué)習(xí)有三個(gè)不同的學(xué)習(xí)(也稱為訓(xùn)練)階段:訓(xùn)練、驗(yàn)證和測(cè)試。在開(kāi)始之前,必須確保數(shù)據(jù)組織良好且無(wú)誤。盡管這一概念很簡(jiǎn)單,但將數(shù)據(jù)轉(zhuǎn)換為有序性可能是一個(gè)耗時(shí)且面向細(xì)節(jié)的過(guò)程,可能需要人工處理。
其目標(biāo)是數(shù)據(jù)不存在重復(fù)、拼寫錯(cuò)誤和斷開(kāi)連接。在清理之后,數(shù)據(jù)被隨機(jī)分成三組,分別用于三個(gè)訓(xùn)練階段。隨機(jī)數(shù)據(jù)劃分的目的是阻止選擇數(shù)據(jù)偏差。
以下是一些與模型創(chuàng)建相關(guān)的定義:
- 參數(shù)。模型參數(shù)是機(jī)器學(xué)習(xí)軟件在訓(xùn)練過(guò)程中從人工智能輸入數(shù)據(jù)自動(dòng)學(xué)習(xí)的值,盡管用戶可以在訓(xùn)練過(guò)程中人工更改參數(shù)值。例如,會(huì)話期間要進(jìn)行的最大通過(guò)次數(shù)和訓(xùn)練數(shù)據(jù)的最大模型大小(以字節(jié)為單位)。
- 超參數(shù)。超參數(shù)位于機(jī)器學(xué)習(xí)外部,由數(shù)據(jù)科學(xué)家用戶預(yù)先輸入,因此超參數(shù)不是從人工智能數(shù)據(jù)中派生出來(lái)的,可以在訓(xùn)練過(guò)程中更改。超參數(shù)的例子包括使用聚類算法時(shí)返回的簇?cái)?shù)和神經(jīng)網(wǎng)絡(luò)中的層數(shù)。
- 變量。機(jī)器學(xué)習(xí)軟件會(huì)選擇特定的人工智能數(shù)據(jù)輸入字段,并在訓(xùn)練過(guò)程中使用額外的變量。其變量可以是年齡、身高和體重。
在開(kāi)始訓(xùn)練(第一階段)之前,給數(shù)據(jù)添加標(biāo)簽是很重要的,這樣機(jī)器學(xué)習(xí)軟件就可以繼續(xù)從數(shù)據(jù)中獲取重要的線索,以幫助它學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)不需要添加標(biāo)簽。機(jī)器學(xué)習(xí)軟件的默認(rèn)參數(shù)值也可以用來(lái)啟動(dòng)或參數(shù)可以單獨(dú)更改。
準(zhǔn)確性測(cè)試模型
當(dāng)訓(xùn)練階段滿足成功標(biāo)準(zhǔn)時(shí),就進(jìn)入了驗(yàn)證階段。第一遍使用一組新的數(shù)據(jù)。如果結(jié)果良好,就進(jìn)入最后的測(cè)試階段。
如果沒(méi)有得到理想的結(jié)果,則可以讓機(jī)器學(xué)習(xí)軟件對(duì)數(shù)據(jù)進(jìn)行額外的傳遞,直到機(jī)器學(xué)習(xí)軟件沒(méi)有顯示新的模式或達(dá)到最大的傳遞次數(shù)。隨著訓(xùn)練的推進(jìn),這些參數(shù)由機(jī)器學(xué)習(xí)軟件或管理它的人員自動(dòng)修改。
測(cè)試階段是針對(duì)一組新數(shù)據(jù)的“期末考試”——但這一次缺少“輔助”數(shù)據(jù)標(biāo)簽(僅用于監(jiān)督學(xué)習(xí))。如果軟件通過(guò)了成功的標(biāo)準(zhǔn)測(cè)試,它就是一個(gè)工作模型。如果沒(méi)有,那就繼續(xù)訓(xùn)練。和以前一樣,測(cè)試團(tuán)隊(duì)可以人工修改參數(shù),或者讓機(jī)器學(xué)習(xí)軟件在訓(xùn)練過(guò)程中自動(dòng)修改參數(shù)。
人工智能的機(jī)器學(xué)習(xí)是機(jī)器學(xué)習(xí)軟件暴露數(shù)據(jù)的重復(fù)回放,參數(shù)由機(jī)器學(xué)習(xí)軟件自動(dòng)迭代改變(可能由人工修改),以使模型在每次經(jīng)過(guò)測(cè)試之后更智能。機(jī)器學(xué)習(xí)軟件繼續(xù)對(duì)數(shù)據(jù)進(jìn)行多次遍歷,直到意識(shí)到?jīng)]有檢測(cè)到新的模式,或者直到它達(dá)到最大遍歷次數(shù),從而使其停止。
人工智能模型的持續(xù)維護(hù)
保持警惕(監(jiān)控)是享受人工智能自由的代價(jià)。要確定人工智能模型的表現(xiàn)如何,一個(gè)典型的方法是監(jiān)測(cè)實(shí)際表現(xiàn)與人工智能預(yù)測(cè)的匹配程度。如果人工智能預(yù)測(cè)表現(xiàn)不佳,就應(yīng)該重新進(jìn)入機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程,使用最新的數(shù)據(jù)修正模型。
需要記住的是,輸入的數(shù)據(jù)很容易隨時(shí)間而改變,這就是交易中的數(shù)據(jù)漂移。數(shù)據(jù)漂移可能會(huì)導(dǎo)致人工智能模型的準(zhǔn)確性下降,因此早期數(shù)據(jù)漂移預(yù)警對(duì)于保持問(wèn)題的領(lǐng)先至關(guān)重要。人工智能工具可以跟蹤數(shù)據(jù)漂移并找到離群數(shù)據(jù),如Fiddler、Neptune和Azure ML,這些工具可以提供早期預(yù)警,因此數(shù)據(jù)問(wèn)題可以通過(guò)機(jī)器學(xué)習(xí)的更新盡早解決。