偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

探索性數(shù)據(jù)分析:決定人工智能與機器學(xué)習(xí)效果的第一步

人工智能 機器學(xué)習(xí) 數(shù)據(jù)分析
如今,企業(yè)手中掌握的數(shù)據(jù)總量遠(yuǎn)超以往任何時候,但將這些數(shù)據(jù)轉(zhuǎn)化為實際價值卻仍然困難重重。

 數(shù)據(jù)質(zhì)量低下正嚴(yán)重?fù)p害人工智能(AI)與機器學(xué)習(xí)(ML)技術(shù)的實際表現(xiàn)。這個問題困擾著不同規(guī)模的企業(yè),從小型初創(chuàng)公司到谷歌這類科技巨頭都無法幸免于難。但數(shù)據(jù)質(zhì)量為什么總不可靠?人為因素可能才是關(guān)鍵所在。

如今,企業(yè)手中掌握的數(shù)據(jù)總量遠(yuǎn)超以往任何時候,但將這些數(shù)據(jù)轉(zhuǎn)化為實際價值卻仍然困難重重。AI與ML帶來的自動化功能,已被廣泛視為解決現(xiàn)實數(shù)據(jù)復(fù)雜難題的有效手段;眾多公司也迫切希望利用它們增強自身業(yè)務(wù)。但是,這種熱潮本身,也引起大量上游數(shù)據(jù)分析項目的匆忙上馬。

[[396612]]

在自動化管道構(gòu)建完成之后,其中的算法已經(jīng)能夠完成大部分工作,而且?guī)缀醪恍枰聰?shù)據(jù)收集過程。但請注意,管道建成并不代表它可以一勞永逸地永遠(yuǎn)運作。我們需要隨時間推移不斷探索并分析底層數(shù)據(jù),關(guān)注哪些漂移模式正不斷侵蝕管道性能。

好消息是,數(shù)據(jù)團隊完全有能力降低這種侵蝕風(fēng)險,但成本就是付出必要的時間與精力。為了維持自動化管道的執(zhí)行效率,我們必須定期進行探索性數(shù)據(jù)分析(EDA),保證整個體系始終精準(zhǔn)運行。

探索性數(shù)據(jù)分析是什么?

EDA是成功實現(xiàn)AI與ML的第一步。在分析算法本體之前,我們首先需要理解數(shù)據(jù)內(nèi)容。數(shù)據(jù)質(zhì)量,終將決定下游分析管道的實際效果。在正確起效之后,EDA將幫助用戶識別出數(shù)據(jù)中不必要的模式與噪聲,同時指導(dǎo)企業(yè)更準(zhǔn)確地選取適當(dāng)算法。

在EDA階段,我們需要積極查詢數(shù)據(jù)以確保其中的行為模式合乎預(yù)期。首先,先從以下十個需要全面分析的重要問題起步:

1、是否擁有充足的數(shù)據(jù)點?

2、數(shù)據(jù)中心與離散的量度,是否與預(yù)期相符?

3、有多少個數(shù)據(jù)點質(zhì)量良好、可用于實際分析?

4、是否存在缺失值?這些壞值是否構(gòu)成數(shù)據(jù)中的重要部分?

5、數(shù)據(jù)的經(jīng)驗分布如何?數(shù)據(jù)是否符合正態(tài)分布?

6、數(shù)值中是否存在特殊聚類或分組?

7、是否存在離群值?應(yīng)如何處理這些離群值?

8、不同維度間是否具有相關(guān)性?

9、是否需要通過重新格式化等手段進行數(shù)據(jù)轉(zhuǎn)換,以供下游分析及解釋?

10、如果數(shù)據(jù)為高維形式,是否能夠在不損失過多信息的前提下降低維數(shù)?其中某些維度是否屬于噪聲?

這些問題又會衍生出更多問題。這不是完整的問題清單,而僅僅只是思考的開始。最終,希望大家能對現(xiàn)有數(shù)據(jù)模式建立起更好的理解,而后正確處理數(shù)據(jù)并選擇最適合的處理算法。

底層數(shù)據(jù)一直在不斷變化,這就要求我們在EDA上引入更多時間,確保算法接收到的輸入特征始終保持穩(wěn)定。例如,Airbnb發(fā)現(xiàn),數(shù)據(jù)科學(xué)家在模型開發(fā)周期中近七成的時間被用于數(shù)據(jù)收集與特征工程,通過大量分析工作確定數(shù)據(jù)結(jié)構(gòu)與模式。簡而言之,如果不花時間理解這些數(shù)據(jù),那么AI與ML計劃將極易失控。

唯一不變的,只有變化

目前,數(shù)字服務(wù)中最重要的應(yīng)用集中在網(wǎng)絡(luò)安全與欺詐檢測層面,這部分市場的總價值已經(jīng)超過300億美元。預(yù)計到2030年左右,市場總值有望超過1000億美元。雖然Amazon Fraud Detector及PayPal Fraud Management Filters等工具已經(jīng)在抗擊網(wǎng)絡(luò)欺詐方面發(fā)揮作用,但欺詐檢測中唯一不變的只有變化本身。企業(yè)需要不斷為新的欺詐行為做好準(zhǔn)備,而欺詐一方也在努力“創(chuàng)新”保證自己的攻擊能力。

每種新型欺詐往往都包含前所未有的數(shù)據(jù)模式。例如,新用戶在注冊與交易時往往對應(yīng)AI系統(tǒng)未曾見過的郵政編碼。雖然新用戶可能來自四面八方,但如果注冊地真的特別生僻,我們最好提高警惕。

這類計算中最困難的部分,是讓AI模型準(zhǔn)確辨別欺詐交易與正常交易。作為數(shù)據(jù)科學(xué)家,我們需要先引導(dǎo)底層算法初步理解正常交易與欺詐交易的特征,之后再由它慢慢探索更多欺詐檢測途徑。后續(xù)學(xué)習(xí),離不開由統(tǒng)計技術(shù)搜索到的大量數(shù)據(jù)。用戶可以剖析客戶群體,確定普通客戶與欺詐者之間的區(qū)別;之后提取出有助于進行準(zhǔn)確分類的信息,具體涵蓋注冊信息、交易內(nèi)容、客戶年齡、收入水平、姓名等等。需要注意的是,將正常交易標(biāo)記為欺詐行為,對客戶體驗及產(chǎn)品聲譽造成的損害往往比欺詐本身更大。

更“有趣”的一點在于,EDA是個需要在整個產(chǎn)品生命周期內(nèi)不斷重復(fù)的過程。新的欺詐活動,必然對應(yīng)著新的數(shù)據(jù)模式。最終,企業(yè)需要投入大量時間與精力推進EDA,借此保持最佳欺詐檢測能力以維持AI與ML管道的正常運作。

總之,AI與ML的成功源自對數(shù)據(jù)的深刻理解,而非大量算法的盲目堆疊。

AI與ML管道應(yīng)該適應(yīng)數(shù)據(jù),而不要指望數(shù)據(jù)能適應(yīng)用戶的現(xiàn)有管道。只有滿足這些條件,AI與ML支撐起的新業(yè)務(wù)才有望勇猛精進、一路向前。

 

責(zé)任編輯:姜華 來源: 科技行者
相關(guān)推薦

2020-05-13 11:32:28

數(shù)據(jù)分析數(shù)值分析

2020-10-28 18:28:12

Pandas數(shù)據(jù)分析GUI

2022-11-11 11:35:14

2024-06-12 11:57:51

2024-07-30 12:10:22

2022-05-26 21:30:37

人工智能AI

2017-07-21 12:52:32

人工智能機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2017-07-19 13:08:27

人工智能機器學(xué)習(xí)深度學(xué)習(xí)

2009-01-18 08:49:04

Java入門JDK

2023-10-20 09:42:43

人工智能元宇宙

2021-01-15 18:17:06

網(wǎng)絡(luò)協(xié)議分層

2012-09-04 09:20:26

測試軟件測試探索測試

2021-06-15 08:00:00

人工智能機器學(xué)習(xí)應(yīng)用

2018-06-14 16:01:10

2018-02-10 11:24:39

Python數(shù)據(jù)程序

2024-05-21 13:33:49

2023-12-22 09:14:48

EDA數(shù)據(jù)分析探索性數(shù)據(jù)分析

2018-06-25 11:35:01

2010-01-21 10:29:54

java認(rèn)證

2019-12-16 13:52:17

人工智能機器學(xué)習(xí)數(shù)據(jù)分析
點贊
收藏

51CTO技術(shù)棧公眾號