可以采用哪些KPI來(lái)衡量人工智能項(xiàng)目的成功?
調(diào)研機(jī)構(gòu)IDC公司在2020年6月發(fā)布的一項(xiàng)研究報(bào)告表明,大約28%的人工智能計(jì)劃遭遇失敗。報(bào)告給出的理由是缺乏專(zhuān)業(yè)知識(shí)、缺乏相關(guān)數(shù)據(jù)以及缺乏足夠集成的開(kāi)發(fā)環(huán)境。為了建立一個(gè)持續(xù)改進(jìn)機(jī)器學(xué)習(xí)的過(guò)程并避免陷入困境,確定關(guān)鍵績(jī)效指標(biāo)(KPI)現(xiàn)在是當(dāng)務(wù)之急。
而在行業(yè)上游,可以由數(shù)據(jù)科學(xué)家來(lái)定義模型的技術(shù)性能指標(biāo)。它們將根據(jù)所使用的算法類(lèi)型而有所不同。在旨在預(yù)測(cè)某人的身高作為其年齡函數(shù)的回歸的情況下,例如,可以求助于線性確定系數(shù)。
可以采用一個(gè)衡量預(yù)測(cè)質(zhì)量的方程:如果相關(guān)系數(shù)的平方為零,回歸線確定0%的點(diǎn)分布。反之,如果該系數(shù)為100%,則該數(shù)字等于1。因此,這表明預(yù)測(cè)的質(zhì)量非常好。
預(yù)測(cè)與現(xiàn)實(shí)的偏差
評(píng)估回歸的另一個(gè)指標(biāo)是最小二乘法,它指的是損失函數(shù)。它包括通過(guò)計(jì)算實(shí)際值與預(yù)測(cè)線之間偏差的平方和來(lái)量化誤差,然后通過(guò)最小化平方誤差來(lái)擬合模型。在相同的邏輯中,可以利用平均絕對(duì)誤差方法,該方法包括計(jì)算偏差的基本值的平均值。
法國(guó)咨詢(xún)機(jī)構(gòu)凱捷公司負(fù)責(zé)戰(zhàn)略、數(shù)據(jù)和人工智能服務(wù)的CharlottePierron-Perlès總結(jié)說(shuō):“無(wú)論如何,這相當(dāng)于衡量與我們?cè)噲D預(yù)測(cè)的差距?!?/p>
例如,在用于垃圾郵件檢測(cè)的分類(lèi)算法中,有必要查找誤報(bào)和漏報(bào)的垃圾郵件。PierronPerlès解釋說(shuō):“例如,我們?yōu)橐患一瘖y品集團(tuán)開(kāi)發(fā)了一種機(jī)器學(xué)習(xí)解決方案,可以?xún)?yōu)化生產(chǎn)線的效率。目的是在生產(chǎn)線開(kāi)始時(shí)識(shí)別可能導(dǎo)致生產(chǎn)中斷的有缺陷的化妝品。我們?cè)谂c工廠經(jīng)營(yíng)者討論之后與他們一起尋求一個(gè)模型來(lái)完成檢測(cè),即使這意味著檢測(cè)到誤報(bào),也就是說(shuō),合格的化妝品可能被誤認(rèn)為是有缺陷的?!?/p>
基于誤報(bào)和漏報(bào)的概念,其他三個(gè)指標(biāo)允許評(píng)估分類(lèi)模型:
(1)召回率(R)是指模型敏感度的測(cè)量值。它是正確識(shí)別的真實(shí)陽(yáng)性(以新冠病毒檢測(cè)呈陽(yáng)性為例)與所有應(yīng)檢測(cè)的真實(shí)陽(yáng)性(冠狀病毒檢測(cè)呈陽(yáng)性+冠狀病毒檢測(cè)呈陰性實(shí)際是陽(yáng)性)的比例:R=真陽(yáng)性/真陽(yáng)性+假陰性。
(2)精度(P)是指準(zhǔn)確度的度量。它是正確的真陽(yáng)性(新冠病毒檢測(cè)呈陽(yáng)性)與所有確定為陽(yáng)性的結(jié)果(新冠病毒檢測(cè)呈陽(yáng)性+新冠病毒檢測(cè)呈陰性)的比例:P=真陽(yáng)性/真陽(yáng)性+假陽(yáng)性。
(3)調(diào)和平均值(F-score)衡量模型給出正確預(yù)測(cè)和拒絕其他預(yù)測(cè)的能力:F=2×精度×召回率/精度+召回率
模型的推廣
法國(guó)ESNKeyrus公司首席高級(jí)數(shù)據(jù)科學(xué)家DavidTsangHinSun強(qiáng)調(diào)說(shuō):“一旦構(gòu)建成模型,其泛化能力將成為關(guān)鍵指標(biāo)?!?/p>
那么如何估計(jì)它?通過(guò)測(cè)量預(yù)測(cè)和預(yù)期結(jié)果之間的差異,然后了解這種差異隨時(shí)間的演變。他解釋說(shuō),“在一段時(shí)間之后,我們可能會(huì)遇到分歧。這可能是由于數(shù)據(jù)集在質(zhì)量和數(shù)量方面的訓(xùn)練不足而導(dǎo)致的學(xué)習(xí)不足(或過(guò)度擬合)。”
那么其解決方案是什么?例如,在圖像識(shí)別模型的情況下,可以使用對(duì)抗性生成網(wǎng)絡(luò)通過(guò)旋轉(zhuǎn)或扭曲來(lái)增加圖片學(xué)習(xí)的數(shù)量。另一種技術(shù)(適用于分類(lèi)算法):合成少數(shù)過(guò)采樣,它包括通過(guò)過(guò)采樣增加數(shù)據(jù)集中低發(fā)生率示例的數(shù)量。
在過(guò)度學(xué)習(xí)的情況下也會(huì)出現(xiàn)分歧。在這種配置中,模型在訓(xùn)練后將不會(huì)局限于預(yù)期的相關(guān)性,但是由于過(guò)于專(zhuān)業(yè)化,它會(huì)捕獲現(xiàn)場(chǎng)數(shù)據(jù)產(chǎn)生的噪聲并產(chǎn)生不一致的結(jié)果。DavidTsangHinSun指出,“然后有必要檢查訓(xùn)練數(shù)據(jù)集的質(zhì)量,并可能調(diào)整變量的權(quán)重?!?/p>
而經(jīng)濟(jì)的關(guān)鍵績(jī)效指標(biāo)(KPI)依然存在。法國(guó)咨詢(xún)機(jī)構(gòu)AIBuilders公司首席執(zhí)行官StéphaneRoder認(rèn)為:“我們必須捫心自問(wèn),錯(cuò)誤率是否與業(yè)務(wù)挑戰(zhàn)相符。例如,保險(xiǎn)商Lemonade公司開(kāi)發(fā)了一種機(jī)器學(xué)習(xí)模塊,可以在客戶提出索賠后3分鐘內(nèi)根據(jù)所傳達(dá)的信息(包括照片)向客戶賠付保險(xiǎn)金。考慮到節(jié)省的費(fèi)用,一定的錯(cuò)誤率會(huì)產(chǎn)生成本。在模型的整個(gè)生命周期中,特別是與總體擁有成本(TCO)相比,從開(kāi)發(fā)到維護(hù),檢查這一測(cè)量值是非常重要?!?/p>
采用水平
即使在同一家公司內(nèi),預(yù)期的關(guān)鍵績(jī)效指標(biāo)(KPI)也可能有所不同。凱捷公司的CharlottePierronPerlès指出:“我們?yōu)橐患揖哂袊?guó)際地位的法國(guó)零售商開(kāi)發(fā)了一個(gè)消費(fèi)預(yù)測(cè)引擎。結(jié)果證明該模型的精確目標(biāo)在百貨商店銷(xiāo)售的產(chǎn)品和新產(chǎn)品之間是不同的。后者的銷(xiāo)售動(dòng)態(tài)取決于因素,尤其是與市場(chǎng)反應(yīng)相關(guān)的因素,從定義上來(lái)說(shuō),這些因素不太可控?!?/p>
最后一個(gè)關(guān)鍵績(jī)效指標(biāo)是采用水平。CharlottePierron-Perlès說(shuō):“即使一個(gè)模型質(zhì)量很好,僅靠它自己是不夠的。這需要開(kāi)發(fā)具有面向用戶體驗(yàn)的人工智能產(chǎn)品,既可用于業(yè)務(wù),又可實(shí)現(xiàn)機(jī)器的承諾學(xué)習(xí)?!?/p>
StéphaneRoder總結(jié)說(shuō):“這個(gè)用戶體驗(yàn)還將允許用戶提供反饋,這將有助于在日常生產(chǎn)數(shù)據(jù)流之外提供人工智能知識(shí)?!?