偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

設(shè)置機(jī)器學(xué)習(xí)管道的初學(xué)者指南

譯文 精選
人工智能 機(jī)器學(xué)習(xí)
本文將向你介紹什么是機(jī)器學(xué)習(xí)管道,以及如何根據(jù)開發(fā)者的需求,創(chuàng)建出ML管道。

譯者 | 陳峻

審校 | 重樓

不知是否知曉,構(gòu)建和運(yùn)行機(jī)器學(xué)習(xí)Machine Learning,ML)模型通常是一個(gè)有益但耗時(shí)且復(fù)雜的過程。其中包括數(shù)據(jù)準(zhǔn)備、特征生成、模型擬合、以及驗(yàn)證和部署階段。更重要的是,隨著數(shù)據(jù)趨勢(shì)的變化,這些模型需要保持更新。否則,它們很快會(huì)變得過時(shí),進(jìn)而做出低質(zhì)量的預(yù)測(cè)。

而端到端的ML管道通過自動(dòng)化工作流程,來提高可擴(kuò)展性和效率的必要條件。通過管道,開發(fā)者可以更輕松、一致地開發(fā)、測(cè)試和部署新模型。下面,介紹什么是機(jī)器學(xué)習(xí)管道,以及如何根據(jù)開發(fā)者的需求,創(chuàng)建出ML管道。

什么是機(jī)器學(xué)習(xí)管道?

從定義上說,機(jī)器學(xué)習(xí)管道是對(duì)ML工作流程多個(gè)階段進(jìn)行系統(tǒng)自動(dòng)化的過程。雖然其管道中的每個(gè)階段相對(duì)于其他階段而言,都是一個(gè)獨(dú)立運(yùn)作的單元,但是它們能夠通過協(xié)同,獲得累積的結(jié)果。也就是說,機(jī)器學(xué)習(xí)管道采用模塊化的方法,通過對(duì)原始數(shù)據(jù)提取和預(yù)處理,在模型訓(xùn)練和部署多個(gè)連續(xù)階段,實(shí)現(xiàn)高質(zhì)量結(jié)果預(yù)測(cè)。

作為自動(dòng)化通道,ML管道無需人工進(jìn)行數(shù)據(jù)收集和處理、模型訓(xùn)練、質(zhì)量驗(yàn)證、以及最終部署,而能夠自動(dòng)執(zhí)行各種重復(fù)的過程。據(jù)此,管道可以提高模型的管理和維護(hù)效率,降低錯(cuò)誤率,進(jìn)而最終提高各種模型的準(zhǔn)確性和可靠性。

同時(shí),用于單個(gè)或多個(gè)模型ML管道,通過為數(shù)據(jù)科學(xué)家和人工智能(AI)工程師提供可擴(kuò)展且持久的解決方案來開發(fā)、產(chǎn)生和更新AI系統(tǒng),幫助他們有效地管理ML流程的復(fù)雜性。

此外,合理的管道執(zhí)行會(huì)使得ML工作流的實(shí)施更加靈活。可以自行定義所需的功能、模型參數(shù)和監(jiān)控指標(biāo),以生成和更新管道中最關(guān)鍵的組件:模型。當(dāng)然,此處的“管道”一并不代表著單向流動(dòng)。ML管道可以通過循環(huán)支持迭代。而且,ML管道不同于數(shù)據(jù)管道。數(shù)據(jù)管道的目標(biāo)是在轉(zhuǎn)換系統(tǒng)的同時(shí)在系統(tǒng)之間移動(dòng)數(shù)據(jù)。ML管道專注于簡化和加速復(fù)雜的ML流程,以提高效率。

創(chuàng)建機(jī)器管道的分步指南

無論面對(duì)何種應(yīng)用場(chǎng)景,大多數(shù)ML管道的典型階段是相似的,基本上會(huì)遵循如上圖所示的工作流程。其中的每個(gè)階段都建立在前一個(gè)階段的基礎(chǔ)上。也就是說,在獲得最終結(jié)果之前,前一階段的輸出將成為后一階段的輸入。下面,我們來具體討論典型ML管道中的各個(gè)階段:

1. 數(shù)據(jù)收集

作為第一階段,ML管道會(huì)將從應(yīng)用程序編程接口(API)、調(diào)查和問卷、在線數(shù)據(jù)庫、機(jī)構(gòu)記錄、以及政府機(jī)構(gòu)文件等來源,收集和記錄原始數(shù)據(jù)。數(shù)據(jù)第一手研究,還是現(xiàn)有資源,取決于ML使用案例的具體情況。

在此階段,可以使用諸如:Request、Beautiful Soup、Scrapy 和 Selenium一款強(qiáng)大的Python數(shù)據(jù)收集庫。同時(shí),由于這些數(shù)據(jù)是原始的、非結(jié)構(gòu)化的混亂的,因此它們并不適合直接開展ML分析,需要進(jìn)入下一階段。

2. 數(shù)據(jù)預(yù)處理

在此階段,數(shù)據(jù)將被清理,并以可用的格式進(jìn)行組織,以實(shí)現(xiàn)高效的分析,以及針對(duì)模型的訓(xùn)練和測(cè)試。如果此階段被跳過,收集到的數(shù)據(jù)則將不適合模型。也就是說,模型將無法使用數(shù)據(jù)集來產(chǎn)生任何有意義的結(jié)果。

ML中,典型的數(shù)據(jù)預(yù)處理步驟包括整理缺失數(shù)據(jù)、處理重復(fù)數(shù)據(jù)、減少干擾數(shù)據(jù)、以及特征工程(下一階段會(huì)討論)。數(shù)據(jù)預(yù)處理的實(shí)用Python庫包括:Pandas、NumPy、Scikit-Learn和Scipy。數(shù)據(jù)預(yù)處理的最終目標(biāo)是為特征工程準(zhǔn)備數(shù)據(jù)。

3. 特征工程

特征工程是創(chuàng)建新特征的過程,同時(shí)也可以識(shí)別出那些對(duì)于提高模型預(yù)測(cè)能力具有重要意義的、相關(guān)預(yù)先存在的特征。此階段也是數(shù)據(jù)預(yù)處理的一部分,畢竟該階段需要將數(shù)據(jù)轉(zhuǎn)換為適合特定類型算法、且能夠有效訓(xùn)練ML模型的形式。

特征工程的全過程通常會(huì)涉及以下技術(shù):

  • 特征提取:這是從原始數(shù)據(jù)中識(shí)別和轉(zhuǎn)換最重要特征的過程,它調(diào)用算法專注于數(shù)據(jù)集中的重要內(nèi)容。例如,如果想通過構(gòu)建一個(gè)模型,來預(yù)測(cè)哪個(gè)學(xué)生會(huì)獲得獎(jiǎng)學(xué)金,那么哪些數(shù)據(jù)集會(huì)對(duì)此有用呢?在通常情況下,學(xué)習(xí)成績、財(cái)務(wù)狀況背景、個(gè)人特質(zhì)等特征都將是相關(guān)的。典型的特征提取技術(shù)包括:降維和主成分分析(PCA)。這兩者都可以使用Python的 Scikit-Learn庫實(shí)現(xiàn)。當(dāng)然,具體選擇哪種技術(shù),則取決于數(shù)據(jù)類型和的目標(biāo)。
  • 特征縮放、歸一化、標(biāo)準(zhǔn)化:這是對(duì)數(shù)據(jù)集中的特征進(jìn)行歸一化(即:將特征調(diào)整通用維度)的過程,確保學(xué)習(xí)算法更容易找到它們之間有意義的關(guān)系。當(dāng)數(shù)據(jù)集中的所有特征具有相似的維度時(shí),它會(huì)消除由于數(shù)據(jù)量級(jí)而導(dǎo)致的偏差。請(qǐng)注意,并非所有的ML算法都需要特征縮放。那些能夠處理多特征(如決策樹和隨機(jī)森林)的基于樹的算法,就不需要特征擴(kuò)展。
  • 特征編碼:這是將相關(guān)分類特征轉(zhuǎn)換為數(shù)字特征以確保算法發(fā)揮最佳性能的過程。例如,如果獎(jiǎng)學(xué)金預(yù)測(cè)數(shù)據(jù)集的 “財(cái)務(wù)狀況背景” 列中的觀察結(jié)果是可以被分類的,那么特征編碼會(huì)將它們轉(zhuǎn)換為 0 和 1 的數(shù)值。特征編碼的典型示例包括:One-hotdummy編碼、標(biāo)簽編碼和序號(hào)編碼等。對(duì)于此過程,可以使用Python的Scikit-Learn庫。
    值得注意的是,特征工程是管道中最重要的階段之一,畢竟它可以幫助ML模型學(xué)習(xí)數(shù)據(jù)模式,提升其性能。當(dāng)然,特征工程是一個(gè)復(fù)雜的過程,需要通過實(shí)驗(yàn)來確定與訓(xùn)練模型相關(guān)的特征,具體情況則取決于使用的特定案例。

4. 模型訓(xùn)練和測(cè)試

根據(jù)的需求(如:分類、聚類、回歸)和性能指標(biāo)選擇了合適的ML算法后,就可以開始訓(xùn)練生成的模型了。數(shù)據(jù)集通常會(huì)被分為兩類,分別用于訓(xùn)練和測(cè)試。其中的訓(xùn)練數(shù)據(jù)集將幫助模型了解特征和目標(biāo)變量(或標(biāo)簽)中的任何潛在模式和關(guān)系。訓(xùn)練過程將教會(huì)模型以盡可能高的準(zhǔn)確性,獲取輸入,并預(yù)測(cè)輸出。注意:此處的特征是向模型提供信息的輸入,而目標(biāo)變量(標(biāo)簽)則是模型嘗試預(yù)測(cè)的輸出。

當(dāng)模型達(dá)到目標(biāo)預(yù)測(cè)的精度時(shí),訓(xùn)練即可結(jié)束。如果模型的性能低于預(yù)期,可以通過重新訓(xùn)練模型的方式更改算法,或是添加更準(zhǔn)確的數(shù)據(jù),甚至可以設(shè)計(jì)新的功能來處理性能不佳的情況。

5. 模型評(píng)估或分析

訓(xùn)練結(jié)束后,我們可以使用準(zhǔn)確率、精度、召回率和 F1 分?jǐn)?shù)等性能指標(biāo),來評(píng)估模型的性能。其中:

準(zhǔn)確性表示正確分類的實(shí)例,占所有實(shí)例的比例。

精度表示那些被分類為“真”的模型,占比所有實(shí)際“真”的數(shù)。

召回率:衡量模型設(shè)法識(shí)別出的實(shí)際為“真”的實(shí)例數(shù)量。

F1 分?jǐn)?shù):將精確率和召回率采取平衡(加權(quán)調(diào)和平均)的數(shù)值。隨著精度的提高,召回率會(huì)下降,反之亦然。當(dāng)在精確率和召回率之間找到最佳平衡時(shí),便獲得了最有價(jià)值的指標(biāo)。

總的說來,此階段的目標(biāo)是確保模型在處理新的、未曾見過的數(shù)據(jù)時(shí)的表現(xiàn)。

6. 模型部署

ML管道的這個(gè)階段意味著,已成功開發(fā)并評(píng)估了符合預(yù)測(cè)準(zhǔn)確性水平的模型。至此,我們可以將模型部署到生產(chǎn)環(huán)境,以確保它可以在實(shí)際環(huán)境中運(yùn)行了。例如,獎(jiǎng)學(xué)金預(yù)測(cè)模型可以在學(xué)?,F(xiàn)有的學(xué)生檔案記錄系統(tǒng)中被部署實(shí)施,以便投產(chǎn)使用。

在此,可以使用一款由Google發(fā)布的開源工具--TensorFlow Extended(TFX) 。它使Python中的模型部署過程更加高效。同時(shí),該工具提供了許多框架、庫和組件,用于模型訓(xùn)練、服務(wù)、部署和監(jiān)控。

7. 模型的監(jiān)控

這是ML管道的最后階段。隨時(shí)間的推移,數(shù)據(jù)會(huì)逐漸過期,模型的預(yù)測(cè)精度會(huì)隨之降低。這種準(zhǔn)確度的下降被稱為模型漂移。這就是為什么我們需要持續(xù)監(jiān)控在生產(chǎn)環(huán)境中模型的性能,并在必要時(shí)對(duì)其進(jìn)行再訓(xùn)練,以確保其仍然準(zhǔn)確可靠的原因。

通常,有如下兩種類型的模型漂移:

  • 數(shù)據(jù)漂移:當(dāng)特征的統(tǒng)計(jì)屬性發(fā)生了變化,但特征和目標(biāo)變量之間的關(guān)系仍保持不變時(shí),就會(huì)發(fā)生此類漂移。這意味著生產(chǎn)環(huán)境中的特征與訓(xùn)練階段的特征出現(xiàn)了差異。讓我們?nèi)砸元?jiǎng)學(xué)金預(yù)測(cè)模型為例,如果該模型在2020年之前已投產(chǎn),學(xué)校后續(xù)引入新的錄取標(biāo)準(zhǔn),并改變他們?cè)u(píng)估課外活動(dòng)的方式,那么就會(huì)影響到該模型的預(yù)測(cè)能力。其根本原因在于模型沒有通過更新,以反映上述變化,自然也就表現(xiàn)不佳。
  • 概念漂移:當(dāng)特征和目標(biāo)變量之間的關(guān)系隨著時(shí)間的推移而發(fā)生變化時(shí),就會(huì)出現(xiàn)此類漂移。例如,在使用獎(jiǎng)學(xué)金預(yù)測(cè)模型時(shí),如果最初的模型是根據(jù)GPA和考試成績來預(yù)測(cè)獎(jiǎng)學(xué)金的可能性,但學(xué)?,F(xiàn)在關(guān)注的是社區(qū)服務(wù)或領(lǐng)導(dǎo)潛力等社會(huì)價(jià)值,那么模型的準(zhǔn)確性就會(huì)下降。這是因?yàn)樘卣髋c目標(biāo)變量(即:獎(jiǎng)學(xué)金)之間的關(guān)系發(fā)生了變化。因此,我們需要用新的標(biāo)準(zhǔn)對(duì)模型進(jìn)行重新訓(xùn)練。

當(dāng)然,模型監(jiān)控也可以跟蹤準(zhǔn)確度的變化、各種偏差、公平性、以及操作指標(biāo)。TensforFlow庫里的TensorBoard便是一個(gè)很好的模型監(jiān)控工具。同時(shí),ML可觀察性平臺(tái)(如obvious AI和Valohai)在階段也非常實(shí)用。

創(chuàng)建機(jī)器學(xué)習(xí)管道的好處

創(chuàng)建機(jī)器學(xué)習(xí)管道的主要優(yōu)勢(shì)包括:

  • 更高的生產(chǎn)力:機(jī)器學(xué)習(xí)管道減少了對(duì)于持續(xù)人工干預(yù)和手動(dòng)方法的依賴。通過減少重復(fù)性流程和優(yōu)先考慮自動(dòng)化,數(shù)據(jù)科學(xué)家可以有更多的時(shí)間,來完成真正需要人工干預(yù)的工作,例如:決策的制定、數(shù)據(jù)的標(biāo)注(即:正確地標(biāo)記數(shù)據(jù))、以及在訓(xùn)練期間模型的微調(diào)。
  • 高質(zhì)量的預(yù)測(cè):構(gòu)造良好的機(jī)器學(xué)習(xí)管道可以減少誤判,讓模型返回更接近真實(shí)情況的預(yù)測(cè)。
  • 可擴(kuò)展性:高效的ML管道不但可以處理大量復(fù)雜數(shù)據(jù),而且可以確保模型能夠被繼續(xù)有效地執(zhí)行。由于企業(yè)的數(shù)據(jù)量會(huì)隨著業(yè)務(wù)不斷增長,因此這一點(diǎn)顯得非常重要。
  • 易于故障排查:由于管道中的每個(gè)階段都是相互獨(dú)立的,因此更易于在特定的階段跟蹤問題,并隨后開展調(diào)試。

綜上所述,機(jī)器學(xué)習(xí)管道是數(shù)據(jù)科學(xué)家的強(qiáng)大工具。它們能夠在將原始數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的見解的過程中,提供一致且有效的流程保證。

譯者介紹

陳峻(Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項(xiàng)目實(shí)施經(jīng)驗(yàn),善于對(duì)內(nèi)外部資源與風(fēng)險(xiǎn)實(shí)施管控,專注傳播網(wǎng)絡(luò)與信息安全知識(shí)與經(jīng)驗(yàn)。

原文標(biāo)題:Set Up Your First Machine Learning Pipeline With This Beginner’s Guide,作者:Praise James

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2022-01-21 09:05:34

機(jī)器學(xué)習(xí)工具安全

2022-04-24 15:21:01

MarkdownHTML

2022-07-22 13:14:57

TypeScript指南

2010-06-13 11:13:38

UML初學(xué)者指南

2021-05-10 08:50:32

網(wǎng)絡(luò)管理網(wǎng)絡(luò)網(wǎng)絡(luò)性能

2023-07-28 07:31:52

JavaScriptasyncawait

2022-03-28 09:52:42

JavaScript語言

2023-07-03 15:05:07

預(yù)測(cè)分析大數(shù)據(jù)

2022-10-10 15:28:45

負(fù)載均衡

2017-05-25 11:14:21

機(jī)器學(xué)習(xí)算法神經(jīng)網(wǎng)絡(luò)

2017-05-25 13:37:46

機(jī)器學(xué)習(xí)算法神經(jīng)網(wǎng)絡(luò)

2018-10-28 16:14:55

Reactreact.js前端

2010-08-26 15:47:09

vsftpd安裝

2022-09-05 15:36:39

Linux日志記錄syslogd

2023-02-10 08:37:28

2012-03-14 10:56:23

web app

2015-07-20 13:56:59

SDN

2009-09-28 09:45:00

CCNA學(xué)習(xí)經(jīng)驗(yàn)CCNA

2020-09-08 19:03:41

Java代碼初學(xué)者

2021-05-06 09:00:00

JavaScript靜態(tài)代碼開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)