面對(duì)到處兜售的“AI”和“機(jī)器學(xué)習(xí)”,7條原則幫你識(shí)破騙局
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。
作為新晉風(fēng)口“AI”和“機(jī)器學(xué)習(xí)”,無(wú)論是商業(yè)領(lǐng)導(dǎo)人、創(chuàng)業(yè)者、天使投資人、企業(yè)中層管理人員、黑客馬拉松的裁判還是“技術(shù)”相關(guān)人員,都有可能面對(duì)這種情況:有人試圖“推銷”他們的“AI產(chǎn)品”、“機(jī)器學(xué)習(xí)軟件”或者其他時(shí)髦詞匯的花哨組合。
如果陷入這樣的境地,有時(shí)你會(huì)感到專業(yè)知識(shí)不足,無(wú)法妥善決策。
堅(jiān)守陣地,不要被嚇倒了!以下七條常識(shí)可以幫你從捕捉信號(hào),看穿夸夸其談的說(shuō)辭,識(shí)破騙局和謊言。
1. “我們用AI來(lái)…”
愛(ài)因斯坦說(shuō)“不能簡(jiǎn)明地解釋一件事,說(shuō)明你對(duì)它懂得不夠多。”
如果有人說(shuō)到“AI”這一包羅萬(wàn)象的概念,請(qǐng)小心,這有可能是花哨的推銷。當(dāng)然啦,也有可能是真的為了避免顧客煩心,因此省略了令人痛苦的復(fù)雜細(xì)節(jié)。
可以先假定他們無(wú)罪,但是要深挖細(xì)節(jié),多了解一下具體使用了哪個(gè)機(jī)器學(xué)習(xí)模型,并讓他們通過(guò)類比解釋。
你可以問(wèn)問(wèn)他們這些問(wèn)題:
- 為什么選擇這一方案,不選其他方案?
- 為什么對(duì)于這些數(shù)據(jù),這個(gè)方案勝過(guò)其他方案?
- 是否有人解決過(guò)類似的問(wèn)題?如果有,他們采用了什么方法?
- 有試過(guò)別的方法(模型/算法/技術(shù))嗎?結(jié)果與現(xiàn)在的方案有什么不同?(如果可以的話,要求提供圖表作為證據(jù))
盡管沒(méi)必要一開(kāi)始就明白所有問(wèn)題的答案,但是我們應(yīng)該問(wèn)問(wèn)題,盡可能地弄清楚、搞明白。筆者還沒(méi)有遇到過(guò)哪個(gè)機(jī)器學(xué)習(xí)概念是無(wú)法用類比解釋的。因此,如果覺(jué)得談?wù)撎嗉夹g(shù)細(xì)節(jié)太過(guò)困難,就要求進(jìn)一步的解釋。這樣仔細(xì)的審查不僅能加深理解,也能展示該方案的思路。
2. 無(wú)用輸入,無(wú)用輸出
圖源:https://media.tenor.com
“除了上帝,我只相信(優(yōu)質(zhì))數(shù)據(jù)。”——愛(ài)德華茲·戴明
只有優(yōu)質(zhì)的數(shù)據(jù),才能得到優(yōu)秀的模型。因此,你應(yīng)確認(rèn)用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)質(zhì)量。雖然“質(zhì)量”難以定義,但有一個(gè)簡(jiǎn)單的方法可以了解訓(xùn)練數(shù)據(jù)的質(zhì)量,問(wèn)問(wèn)他:與模型在“現(xiàn)實(shí)世界”處理的數(shù)據(jù)相比,訓(xùn)練數(shù)據(jù)的相似度和代表性如何?
無(wú)論一個(gè)機(jī)器學(xué)習(xí)模型有多花哨、多前沿,如果用于訓(xùn)練的數(shù)據(jù)質(zhì)量堪憂,結(jié)果必然極其糟糕。
3. 適者生存
上世紀(jì)90年代到本世紀(jì)初,電子收件箱的垃圾郵件過(guò)濾器會(huì)尋找拼寫(xiě)錯(cuò)誤和其他明顯的跡象,自動(dòng)將垃圾郵件放入垃圾郵件文件夾。
現(xiàn)在,垃圾郵件制造者變得更聰明了,垃圾郵件也越來(lái)越難檢測(cè)了?,F(xiàn)在的電子郵件服務(wù)商必須適應(yīng)這一趨勢(shì),采用更精密的機(jī)器學(xué)習(xí)模型,準(zhǔn)確識(shí)別垃圾郵件。
圖源:unsplash
有一點(diǎn)我們必須明白:隨著時(shí)代變化以及輸入數(shù)據(jù)迭代,機(jī)器學(xué)習(xí)模型是否能夠無(wú)障礙地用新數(shù)據(jù)重新訓(xùn)練,或者用更出色的模型替代。這很重要,顧客應(yīng)該知道他們購(gòu)買的方案是否有“有效期”。
4. 用正確的標(biāo)準(zhǔn)衡量正確的東西
圖源:unsplash
衡量機(jī)器學(xué)習(xí)模型的分類性能標(biāo)準(zhǔn)當(dāng)中,準(zhǔn)確性是非常常見(jiàn)的標(biāo)準(zhǔn)。例如,對(duì)于分類貓和狗圖片的機(jī)器學(xué)習(xí)模型來(lái)說(shuō),96%的準(zhǔn)確率可以說(shuō)非常出色。這意味著在100張貓和狗的圖片中,模型能夠準(zhǔn)確地猜出其中96張。
現(xiàn)在,假設(shè)某銀行將同樣的標(biāo)準(zhǔn)應(yīng)用于對(duì)欺詐交易的識(shí)別。欺詐識(shí)別器可以輕松達(dá)到96%的準(zhǔn)確率,因?yàn)槠墼p交易十分罕見(jiàn)。然而識(shí)別欺詐交易并不是96%的正確識(shí)別就足夠了,而是要降低出錯(cuò)率,錯(cuò)誤識(shí)別4%的欺詐交易會(huì)帶來(lái)很大的危害。
對(duì)于銀行欺詐的例子來(lái)說(shuō),假負(fù)率比準(zhǔn)確率更能反映模型的性能。根據(jù)不同問(wèn)題的要求,可以用其他的標(biāo)準(zhǔn)替代準(zhǔn)確率,比如精確率、召回率、特異性和F1值等。你必須留心他是否運(yùn)用正確的指標(biāo),如果可能的話,可以使用多種指標(biāo)。
5. 更多,更多,更多!
一般來(lái)說(shuō),在其他條件不變的情況下,用于訓(xùn)練的數(shù)據(jù)越多,模型的表現(xiàn)就越好,深度學(xué)習(xí)模型尤其如此。它就好比備考SAT的高中生,如果做了大量的練習(xí),練習(xí)了各種各樣的問(wèn)題,就更有可能在SAT考試中取得好成績(jī)。
圖源:unsplash
獲得(足夠)數(shù)據(jù)之前就形成理論是一個(gè)重大的錯(cuò)誤。重要的是,確保任何機(jī)器學(xué)習(xí)模型都有足夠的數(shù)據(jù)用于訓(xùn)練。多少數(shù)據(jù)才算夠呢?多多益善!理想情況下,數(shù)據(jù)應(yīng)該來(lái)源可靠,而且必須物盡其用。
6. 可解釋性
在機(jī)器學(xué)習(xí)中,往往需要在追求卓越模型性能和簡(jiǎn)要解釋模型運(yùn)行之間保持平衡,低性能模型尤其如此。一般來(lái)說(shuō),對(duì)于復(fù)雜的數(shù)據(jù),模型越精密、越復(fù)雜就越好。然而,因?yàn)檫@些模型更加復(fù)雜,解釋輸入數(shù)據(jù)對(duì)輸出結(jié)果的影響也就更加困難。
舉個(gè)例子,假設(shè)要用非常復(fù)雜的機(jī)器學(xué)習(xí)模型預(yù)測(cè)某產(chǎn)品的銷量。輸入模型的數(shù)據(jù)是電視、報(bào)紙和廣播的廣告開(kāi)支。這個(gè)復(fù)雜模型能夠給出非常準(zhǔn)確的銷量預(yù)測(cè),但是無(wú)法解釋這3種推廣渠道,即電視、廣播和報(bào)紙,哪個(gè)對(duì)銷量的影響最大、哪個(gè)更值得投入。
另一方面,更簡(jiǎn)單的模型可能結(jié)果沒(méi)有那么準(zhǔn)確,但是能夠解釋哪個(gè)渠道更值得投入。顧客必須有平衡模型性能和可解釋性的意識(shí)。這很重要,因?yàn)槿绾卧诳山忉屝院托阅苤g取得平衡取決于目的,因此使用模型的人必須做出決定。
7. 那么…你有什么優(yōu)點(diǎn)和缺點(diǎn)?
圖源:https://i2.wp.com
這是企業(yè)面試時(shí)常問(wèn)的問(wèn)題。在評(píng)估機(jī)器學(xué)習(xí)方案時(shí),優(yōu)缺點(diǎn)問(wèn)題非常有用。如果有人推薦某個(gè)機(jī)器學(xué)習(xí)方案,一定要問(wèn)問(wèn)他們這個(gè)方案的局限性:
- 采用這一方案是否利大于弊?
- 該方案的局限性將來(lái)是否會(huì)影響其性能?
成功的關(guān)鍵在于了解自身弱點(diǎn)并成功地彌補(bǔ)弱點(diǎn)。缺乏這一能力的人總是失敗。站在采用高效、可持續(xù)的機(jī)器學(xué)習(xí)方案的角度來(lái)說(shuō),了解其局限性對(duì)于其成功至關(guān)重要。
不僅如此,要求推薦者說(shuō)明方案的局限性也能反映透明度的問(wèn)題。這反映出推薦這一方案的人考慮有多細(xì)致、是否值得信任。
如你所見(jiàn),識(shí)破謊言的關(guān)鍵之處就是不要慌張,大膽提問(wèn)吧!詢問(wèn)、澄清、仔細(xì)審查所有不確定的東西。依靠這7條建議,你可以強(qiáng)化理解并全面評(píng)估機(jī)器學(xué)習(xí)方案。答不上來(lái)這些問(wèn)題的推銷者們,還不快快現(xiàn)身!