AI項(xiàng)目這些致命錯(cuò)誤,你都犯過(guò)嗎?
譯文?譯者 | 布加迪
審校 | 孫淑娟
由于數(shù)據(jù)是人工智能(AI)的核心,因此AI和機(jī)器學(xué)習(xí)(ML)系統(tǒng)需要足夠多的優(yōu)質(zhì)數(shù)據(jù)來(lái)學(xué)習(xí)也就不足為奇了。一般需要大量?jī)?yōu)質(zhì)數(shù)據(jù),對(duì)于監(jiān)督學(xué)習(xí)方法尤為如此,才能正確訓(xùn)練AI或ML系統(tǒng)。具體需要多少數(shù)據(jù),取決于所實(shí)施的AI的模式、所使用的算法以及內(nèi)部數(shù)據(jù)與第三方數(shù)據(jù)等其他因素。比如說(shuō),神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)來(lái)訓(xùn)練,而決策樹(shù)或貝葉斯分類器不需要那么多數(shù)據(jù)就能獲得高質(zhì)量結(jié)果。
于是,你可能認(rèn)為數(shù)據(jù)越多越好,對(duì)吧?請(qǐng)?jiān)傧胂?。擁有大量?shù)據(jù)(甚至EB級(jí)數(shù)據(jù))的組織意識(shí)到,擁有更多數(shù)據(jù)并不代表如期望的那樣可以解決問(wèn)題。確實(shí),數(shù)據(jù)越多,問(wèn)題越多。擁有的數(shù)據(jù)越多,需要清理和準(zhǔn)備的數(shù)據(jù)就越多,需要標(biāo)記和管理的數(shù)據(jù)就越多,需要加強(qiáng)安全、做好保護(hù)、減少偏誤及其他措施的數(shù)據(jù)就越多。當(dāng)開(kāi)始增加數(shù)據(jù)量時(shí),小項(xiàng)目會(huì)迅速變成大項(xiàng)目。事實(shí)上,大量數(shù)據(jù)往往會(huì)扼殺項(xiàng)目。
很顯然,識(shí)別業(yè)務(wù)問(wèn)題與整理數(shù)據(jù)以解決該問(wèn)題之間缺少的步驟是,確定需要哪些數(shù)據(jù)、實(shí)際需要其中的多少數(shù)據(jù)。需要足夠多的數(shù)據(jù),但切忌過(guò)多:不多不少剛剛好。遺憾的是,組織常常還沒(méi)有了解數(shù)據(jù),就貿(mào)然上手AI項(xiàng)目。組織要回答諸多問(wèn)題,包括弄清楚數(shù)據(jù)在哪里、已經(jīng)有多少數(shù)據(jù)、處于什么狀態(tài)、數(shù)據(jù)的哪些特征最重要、內(nèi)外數(shù)據(jù)的使用、數(shù)據(jù)訪問(wèn)難題、增強(qiáng)現(xiàn)有數(shù)據(jù)方面的要求,以及其他關(guān)鍵因素和問(wèn)題。如果不回答這些問(wèn)題,AI項(xiàng)目可能會(huì)失敗,甚至淹沒(méi)在數(shù)據(jù)汪洋中。
1.更好地了解數(shù)據(jù)
為了了解自己需要多少數(shù)據(jù),先要了解數(shù)據(jù)在AI項(xiàng)目的結(jié)構(gòu)中所處的位置。有一種直觀的方式可幫助我們了解從數(shù)據(jù)中獲得的不斷增加的價(jià)值,那就是“DIKUW金字塔”(有時(shí)也叫“DIKW 金字塔”),它顯示了數(shù)據(jù)基礎(chǔ)如何通過(guò)信息、知識(shí)、理解和智慧,幫助獲取更大的價(jià)值。
憑借堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),你可以在下一個(gè)信息層獲得更深的洞察力,這可以幫助你回答有關(guān)該數(shù)據(jù)的基本問(wèn)題。一旦在數(shù)據(jù)之間建立了基本的聯(lián)系以獲得信息洞察力,就可以在該信息中找到模式,了解各部分信息如何連接在一起,從而獲得更深入的洞察力。組織可以在知識(shí)層的基礎(chǔ)上,進(jìn)一步了解這些模式為什么會(huì)出現(xiàn),從而獲得更多價(jià)值,幫助了解底層模式。最后,你可以在智慧層通過(guò)深入了解信息決策的因果關(guān)系,從信息中獲得最大的價(jià)值。
最近的這股AI浪潮最關(guān)注的是知識(shí)層,因?yàn)闄C(jī)器學(xué)習(xí)在信息層之上提供了識(shí)別模式的洞察力。遺憾的是,機(jī)器學(xué)習(xí)在理解層遇到了瓶頸,因?yàn)檎页瞿J讲蛔阋赃M(jìn)行推理。我們有機(jī)器學(xué)習(xí),卻沒(méi)有了解模式為什么會(huì)出現(xiàn)的機(jī)器推理。每當(dāng)你與聊天機(jī)器人交互時(shí),都能看到這一局限性。雖然基于機(jī)器學(xué)習(xí)的自然語(yǔ)言處理(NLP)非常擅長(zhǎng)理解人的語(yǔ)音、推測(cè)意圖,但它在試圖理解和推理時(shí)遇到了限制。比如說(shuō),如果你問(wèn)語(yǔ)音助手明天要不要穿雨衣,它不明白你在問(wèn)天氣。人類要向機(jī)器提供這種洞察力,因?yàn)檎Z(yǔ)音助手不知道雨實(shí)際上是什么。
2.保持?jǐn)?shù)據(jù)意識(shí),以避免失敗
大數(shù)據(jù)已教會(huì)我們?nèi)绾翁幚泶罅繑?shù)據(jù)。不僅僅涉及數(shù)據(jù)如何存儲(chǔ),還涉及如何處理、操作和分析所有這些數(shù)據(jù)。機(jī)器學(xué)習(xí)能夠處理組織收集的種種不同類型的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或結(jié)構(gòu)化數(shù)據(jù),從而增添了更多的價(jià)值。的確,最近的這股AI浪潮實(shí)際上是大數(shù)據(jù)驅(qū)動(dòng)的分析浪潮。
但正是由于這個(gè)原因,一些組織在AI方面遭遇重創(chuàng)。它們不是從以數(shù)據(jù)為中心的角度運(yùn)行AI項(xiàng)目,而是專注于功能方面。為了駕馭AI項(xiàng)目并避免致命錯(cuò)誤,組織不僅要更好地理解AI和機(jī)器學(xué)習(xí),還要更好地理解大數(shù)據(jù)的幾個(gè)“V”。這不僅關(guān)乎有多少數(shù)據(jù),還關(guān)乎數(shù)據(jù)的性質(zhì)。大數(shù)據(jù)的其中幾個(gè)V包括:
- 數(shù)量:擁有的大數(shù)據(jù)的絕對(duì)數(shù)量。
- 速度:大數(shù)據(jù)變化的速度。成功運(yùn)用AI意味著將AI運(yùn)用于高速數(shù)據(jù)。
- 多樣性:數(shù)據(jù)可以有多種不同的格式,包括數(shù)據(jù)庫(kù)等結(jié)構(gòu)化數(shù)據(jù)、發(fā)票等半結(jié)構(gòu)化數(shù)據(jù)以及電子郵件、圖像和視頻文件等非結(jié)構(gòu)化數(shù)據(jù)。成功的AI系統(tǒng)可以處理這種多樣性。
- 真實(shí)性:這是指數(shù)據(jù)的質(zhì)量和準(zhǔn)確性以及你對(duì)該數(shù)據(jù)的信任程度。垃圾進(jìn)垃圾出,在數(shù)據(jù)驅(qū)動(dòng)的AI系統(tǒng)中尤為如此。因此,成功的AI系統(tǒng)需要能夠處理變化很大的數(shù)據(jù)質(zhì)量。
憑借數(shù)十年來(lái)管理大數(shù)據(jù)項(xiàng)目的經(jīng)驗(yàn),AI方面取得成功的組織主要在大數(shù)據(jù)方面取得了成功。那些目睹AI項(xiàng)目失敗的組織常常以應(yīng)用程序開(kāi)發(fā)的思維來(lái)解決AI問(wèn)題。
3.錯(cuò)誤數(shù)據(jù)過(guò)多、正確數(shù)據(jù)不足在扼殺AI項(xiàng)目
雖然AI項(xiàng)目起步是正確的,但缺乏必要的數(shù)據(jù)以及缺乏了解、未解決實(shí)際問(wèn)題在扼殺AI項(xiàng)目。組織在沒(méi)有真正了解需要的數(shù)據(jù)和數(shù)據(jù)質(zhì)量的情況下繼續(xù)前進(jìn),這帶來(lái)了真正的挑戰(zhàn)。
組織犯這個(gè)數(shù)據(jù)錯(cuò)誤的原因之一是,除了使用敏捷或應(yīng)用程序開(kāi)發(fā)方法外,它們?cè)陂_(kāi)展AI項(xiàng)目時(shí)沒(méi)有任何真正的方法。然而成功的組織已意識(shí)到,使用以數(shù)據(jù)為中心的方法將數(shù)據(jù)理解作為項(xiàng)目方法的第一個(gè)階段。CRISP-DM方法已存在了20多年,它將數(shù)據(jù)理解指定為確定業(yè)務(wù)需求后接下來(lái)要做的事情?;贑RISP-DM,并結(jié)合敏捷方法,AI認(rèn)知項(xiàng)目管理(CPMAI)方法在第二個(gè)階段需要數(shù)據(jù)理解。其他成功的方法同樣需要在項(xiàng)目早期理解數(shù)據(jù),因?yàn)锳I項(xiàng)目畢竟是數(shù)據(jù)項(xiàng)目。如果在不了解數(shù)據(jù)的情況下開(kāi)展項(xiàng)目,如何在數(shù)據(jù)基礎(chǔ)上構(gòu)建成功的項(xiàng)目?這肯定是你要避免的致命錯(cuò)誤。
原文鏈接:https://www.forbes.com/sites/cognitiveworld/2022/08/20/are-you-making-these-deadly-mistakes-with-your-ai-projects/?sh=352955946b54


























