機(jī)器學(xué)習(xí)中的五個(gè)實(shí)際問題及其對(duì)業(yè)務(wù)的影響
如今,很多企業(yè)需要快速處理大量數(shù)據(jù)。與此同時(shí),市場競爭格局正在迅速發(fā)展變化,因此企業(yè)能夠快速做出決定至關(guān)重要。
就像商業(yè)管理暢銷書《快魚吃慢魚》的作者Jason Jennings和Laurence Haughton所說的那樣:“如今的市場競爭不是大魚吃小魚,而是快魚吃慢魚。”
企業(yè)的業(yè)務(wù)成功在于采用更好的信息快速做出決策,機(jī)器學(xué)習(xí)在其中起著重要作用。無論企業(yè)是試圖向客戶提出建議改進(jìn)其制造流程,還是預(yù)測(cè)市場變化,機(jī)器學(xué)習(xí)都可以通過處理大量數(shù)據(jù)來提供幫助,從而在企業(yè)尋求競爭優(yōu)勢(shì)時(shí)更好地為其提供支持。
然而,盡管機(jī)器學(xué)習(xí)提供了巨大的機(jī)會(huì),但仍然存在一些挑戰(zhàn)。機(jī)器學(xué)習(xí)系統(tǒng)依賴大量數(shù)據(jù)以及執(zhí)行復(fù)雜計(jì)算的能力,由于客戶期望值發(fā)生變化或意外的市場波動(dòng)等外部因素,這意味著企業(yè)需要監(jiān)控和維護(hù)機(jī)器學(xué)習(xí)模型。
此外,在機(jī)器學(xué)習(xí)中還有一些實(shí)際問題需要解決。以下將探討和研究五個(gè)關(guān)鍵的實(shí)際問題及其對(duì)業(yè)務(wù)的影響。
1. 數(shù)據(jù)質(zhì)量
機(jī)器學(xué)習(xí)系統(tǒng)的應(yīng)用需要大量數(shù)據(jù)。這些數(shù)據(jù)可大致分為兩類:特征和標(biāo)簽。
特征是機(jī)器學(xué)習(xí)模型的數(shù)據(jù)輸入。這些數(shù)據(jù)可以是來自傳感器、客戶調(diào)查表、網(wǎng)站cookie或歷史信息的數(shù)據(jù)。
這些屬性的結(jié)果是可變的。例如,客戶可能沒有正確填寫或者不填寫調(diào)查問卷;傳感器可能會(huì)出現(xiàn)故障并傳遞錯(cuò)誤的數(shù)據(jù);網(wǎng)站cookie可能會(huì)提供關(guān)于用戶在網(wǎng)站上具體操作的不完整信息。因此數(shù)據(jù)集的質(zhì)量是很重要的,這樣才能正確地訓(xùn)練模型。
數(shù)據(jù)也可能充滿無用信息,這可能會(huì)誤導(dǎo)機(jī)器學(xué)習(xí)模型做出錯(cuò)誤的預(yù)測(cè)。
機(jī)器學(xué)習(xí)模型的輸出是標(biāo)簽。標(biāo)簽的稀疏性也是一個(gè)問題,在稀疏的標(biāo)簽中,用戶可能知道系統(tǒng)的輸入,但不確定輸出是什么。在這種情況下,檢測(cè)模型的特征和標(biāo)簽之間的關(guān)系可能極具挑戰(zhàn)性。這可能是勞動(dòng)密集型的工作,因?yàn)檫@需要人為干預(yù)來將標(biāo)簽與輸入關(guān)聯(lián)起來。
如果沒有輸入到輸出的準(zhǔn)確映射,那么模型可能無法學(xué)習(xí)輸入和輸出之間的正確關(guān)系。機(jī)器學(xué)習(xí)依賴于輸入和輸出數(shù)據(jù)之間的關(guān)系來創(chuàng)建可用于做出預(yù)測(cè),并為未來行動(dòng)提供建議的概括。當(dāng)輸入的數(shù)據(jù)混亂、不完整或發(fā)生錯(cuò)誤時(shí),很難理解出現(xiàn)特定的輸出或標(biāo)簽的原因。
2. 復(fù)雜性和質(zhì)量之間的權(quán)衡
建立強(qiáng)大的機(jī)器學(xué)習(xí)模型需要大量的計(jì)算資源來處理特征和標(biāo)簽。編碼復(fù)雜的模型需要數(shù)據(jù)科學(xué)家和軟件工程師付出巨大的努力。復(fù)雜的模型可能需要大量的計(jì)算能力才能執(zhí)行,并且可能需要更長的時(shí)間才能得出可用的結(jié)果。
這對(duì)企業(yè)來說是一種權(quán)衡。他們可以選擇做出更快的反應(yīng),但準(zhǔn)確性可能較低?;蛘咚麄兛梢越邮茌^慢的響應(yīng),但可以從模型中獲得更準(zhǔn)確的結(jié)果。然而進(jìn)行妥協(xié)并不是什么壞事,因?yàn)槭欠褚愿斓捻憫?yīng)獲得更高的成本和更準(zhǔn)確的模型的決定取決于用例。
例如,向零售購物網(wǎng)站上的購物者提出建議需要實(shí)時(shí)響應(yīng),但其結(jié)果可能會(huì)難以預(yù)測(cè)。另一方面,股票交易系統(tǒng)需要更可靠的結(jié)果。因此,當(dāng)不需要實(shí)時(shí)獲得結(jié)果時(shí),使用更多數(shù)據(jù)并執(zhí)行更多計(jì)算的模型可能會(huì)提供更好的結(jié)果。
隨著機(jī)器學(xué)習(xí)即服務(wù)(MLaaS)產(chǎn)品進(jìn)入市場,權(quán)衡的復(fù)雜性和質(zhì)量將得到更多關(guān)注。芝加哥大學(xué)的研究人員研究了機(jī)器學(xué)習(xí)即服務(wù)(MLaaS)的有效性,發(fā)現(xiàn)如果他們對(duì)分類器和特征選擇等關(guān)鍵決策有足夠的了解,他們可以取得與獨(dú)立分類器相當(dāng)?shù)慕Y(jié)果。
3. 數(shù)據(jù)中的抽樣偏差
許多企業(yè)采用機(jī)器學(xué)習(xí)算法為招聘員工提供幫助。例如,亞馬遜公司發(fā)現(xiàn)他們用來幫助企業(yè)挑選求職者的算法是有偏見的。此外,普林斯頓大學(xué)的研究人員發(fā)現(xiàn),來自歐洲的應(yīng)聘者將受到一些人工智能系統(tǒng)的青睞,說明其算法引入了一些人類的偏見。
這里的問題不是具體的模型問題,而是用于訓(xùn)練模型的數(shù)據(jù)有其自身的偏差。然而,當(dāng)人們知道數(shù)據(jù)是有偏差的,可以采用一些方法來消除偏差或減少該數(shù)據(jù)的權(quán)重。
第一個(gè)挑戰(zhàn)是確定數(shù)據(jù)中是否存在固有偏差。這意味著要進(jìn)行一些預(yù)處理。盡管可能無法消除數(shù)據(jù)中的所有偏差,但可以通過人工干預(yù)使其影響最小化。
在某些情況下,可能有必要限制數(shù)據(jù)中的特征數(shù)量。例如,忽略種族或性別等特征可以幫助限制有偏見的數(shù)據(jù)對(duì)模型結(jié)果的影響。
4. 不斷變化的期望和概念漂移
機(jī)器學(xué)習(xí)模型在特定的場景中運(yùn)行。例如,為零售商的推薦引擎提供支持的機(jī)器學(xué)習(xí)模型在客戶查看特定產(chǎn)品時(shí)的特定時(shí)間運(yùn)行。但是,客戶需求會(huì)隨著時(shí)間而變化,這意味著機(jī)器學(xué)習(xí)模型可能會(huì)偏離其設(shè)計(jì)要交付的內(nèi)容。
模型可能會(huì)由于多種原因而衰減。將新數(shù)據(jù)引入模型時(shí),可能會(huì)發(fā)生漂移。這就是所謂的數(shù)據(jù)漂移。當(dāng)人們對(duì)數(shù)據(jù)的解釋發(fā)生變化時(shí),也會(huì)發(fā)生這種情況。這是概念上的漂移。
為了適應(yīng)這種漂移,企業(yè)需要一個(gè)模型,該模型可以使用傳入的數(shù)據(jù)不斷更新,改進(jìn)自身。這意味著企業(yè)需要不斷檢查模型。
這需要收集大量特征和標(biāo)簽,并對(duì)更改做出反應(yīng),以便可以更新和重新訓(xùn)練模型。雖然再培訓(xùn)的某些方面可以自動(dòng)進(jìn)行,但需要一些人為干預(yù)。人們必須認(rèn)識(shí)到,機(jī)器學(xué)習(xí)工具的部署不是一次性的活動(dòng)。
此外,企業(yè)采用機(jī)器學(xué)習(xí)工具需要定期檢查和更新,以保持相關(guān)性并繼續(xù)提供價(jià)值。
5. 監(jiān)控與維護(hù)
創(chuàng)建模型很容易并且可以實(shí)現(xiàn)自動(dòng)化。但是,維護(hù)和更新模型需要計(jì)劃和資源。
機(jī)器學(xué)習(xí)模型是從用于訓(xùn)練模型的特性開始的管道的一部分。然后是模型本身,它是一個(gè)需要不斷修改和更新的軟件。該模型需要標(biāo)簽,以便輸入的結(jié)果可以被模型識(shí)別和使用。模型和系統(tǒng)中的最終信號(hào)之間可能存在脫節(jié)。
在許多情況下,如果交付的結(jié)果出乎意料,如果不是機(jī)器學(xué)習(xí)出現(xiàn)問題,那么可能是供應(yīng)鏈中的其他部分出現(xiàn)了問題。例如,推薦引擎可能已經(jīng)向客戶提供了產(chǎn)品,但是有時(shí)銷售系統(tǒng)和推薦之間的連接可能會(huì)斷開,并且需要花費(fèi)一定時(shí)間查找錯(cuò)誤。在這種情況下,很難告訴模型推薦是否成功。對(duì)此類問題進(jìn)行故障排除可能相當(dāng)耗費(fèi)人力。
機(jī)器學(xué)習(xí)技術(shù)為企業(yè)帶來了巨大的好處。預(yù)測(cè)未來結(jié)果以影響客戶行為并支持業(yè)務(wù)運(yùn)營的能力非常強(qiáng)大。但是,采用機(jī)器學(xué)習(xí)也給企業(yè)帶來了挑戰(zhàn)。企業(yè)通過認(rèn)識(shí)到這些挑戰(zhàn)并制定解決方案,可以確保他們準(zhǔn)備好并有能力應(yīng)對(duì)這些挑戰(zhàn),并充分利用機(jī)器學(xué)習(xí)技術(shù)。






















