你只需要這三個(gè)機(jī)器學(xué)習(xí)工具
以快速的步伐,許多機(jī)器學(xué)習(xí)技術(shù)已經(jīng)從概念證明中遷移到為人們依靠每日依賴的重要技術(shù)供電。在嘗試捕捉這種新解鎖的價(jià)值時(shí),許多團(tuán)隊(duì)已經(jīng)發(fā)現(xiàn)自己在生產(chǎn)機(jī)器的熱情中陷入了他們的產(chǎn)品,而無(wú)需正確的工具。
事實(shí)是,我們正在定義正確的工具套件的早期,用于構(gòu)建,部署和迭代機(jī)器學(xué)習(xí)模型。在這件作品中,我們將討論唯一需要的3個(gè)機(jī)器學(xué)習(xí)工具,使您的團(tuán)隊(duì)在產(chǎn)品中應(yīng)用機(jī)器學(xué)習(xí)方面取得成功。
讓我們從過(guò)去中學(xué)習(xí)
在我們跳入我們的ML棧建議之前,讓我們快速地關(guān)注軟件工程行業(yè)已經(jīng)解決的工具。一個(gè)關(guān)鍵觀察是沒(méi)有一個(gè)解決方案,用于構(gòu)建,部署和監(jiān)視生產(chǎn)中的代碼。
換句話說(shuō),端到端的工具平臺(tái)不存在。相反,有一組工具,專注于軟件工程生命周期的特定部分。
> Image by Author
為了簡(jiǎn)化軟件的創(chuàng)建,必須創(chuàng)建工具以跟蹤問(wèn)題,管理版本歷史記錄,監(jiān)督構(gòu)建,并在生產(chǎn)中出現(xiàn)問(wèn)題時(shí)提供監(jiān)控和警報(bào)。
雖然不是每個(gè)工具都清晰適合其中一個(gè)桶,但這些工具類別中的每一個(gè)都代表了創(chuàng)建軟件過(guò)程中的不同摩擦點(diǎn),這需要?jiǎng)?chuàng)建工具。
我以為這是關(guān)于機(jī)器學(xué)習(xí)?
正如開(kāi)發(fā)軟件的過(guò)程一樣,開(kāi)發(fā)機(jī)器學(xué)習(xí)模型的過(guò)程具有廣泛的類別,如研究,構(gòu)建,部署和監(jiān)視模型所需的內(nèi)容。
在這件作品中,我們將重點(diǎn)關(guān)注在解決實(shí)驗(yàn)室外應(yīng)用機(jī)器學(xué)習(xí)中的一些最大障礙過(guò)程中出現(xiàn)的基本ML工具類別。
要?jiǎng)?chuàng)建有效的機(jī)器學(xué)習(xí)工具箱,您真的只需要這3個(gè)基本工具:
- 特征存儲(chǔ):處理離線和在線特征轉(zhuǎn)換
- 模型存儲(chǔ):作為中心模型注冊(cè)表和跟蹤實(shí)驗(yàn)
- 性能評(píng)估存儲(chǔ):監(jiān)控和改善模型性能
> Image by Author
特征存儲(chǔ)
要開(kāi)始,讓我們潛入潛水。要定義特征存儲(chǔ)的內(nèi)容,讓我們從一個(gè)特征存儲(chǔ)開(kāi)始為您的團(tuán)隊(duì)啟用的東西。
特征存儲(chǔ)啟用應(yīng)該是什么:
- 作為特征轉(zhuǎn)換的中心源
- 允許在離線訓(xùn)練和在線服務(wù)中使用相同的特征轉(zhuǎn)換
- 使團(tuán)隊(duì)成員能夠分享他們的實(shí)驗(yàn)轉(zhuǎn)變
- 提供強(qiáng)大的版本控制特征轉(zhuǎn)換代碼
在一個(gè)特征存儲(chǔ)應(yīng)該如何授權(quán)您的團(tuán)隊(duì),這是必須幫助您決定哪種功能存儲(chǔ)最適合您和您的團(tuán)隊(duì)的功能。
您的功能存儲(chǔ)應(yīng)該具有:
- 與您的數(shù)據(jù)存儲(chǔ)/湖集成
- 一種快速的方法,可以提供在線部署模型的特征轉(zhuǎn)換
- 快速輕松地部署到生產(chǎn)中的特征轉(zhuǎn)換代碼
- 與您的性能評(píng)估存儲(chǔ)集成以啟用數(shù)據(jù)和功能質(zhì)量檢查
推薦:Tecton
模型存儲(chǔ)
既然您有一個(gè)存儲(chǔ)您的特征轉(zhuǎn)換的特征存儲(chǔ),您需要一個(gè)目錄并跟蹤團(tuán)隊(duì)模型創(chuàng)建歷史記錄的工具。這是模型存儲(chǔ)發(fā)揮的地方。
模型存儲(chǔ)啟用是什么:
- 作為所有模型和模型版本的中央存儲(chǔ)庫(kù)
- 允許每個(gè)型號(hào)版本的再現(xiàn)性
- 軌道模型歷史歷史
在這些核心功能之外,有許多模型存儲(chǔ)功能,您可能會(huì)發(fā)現(xiàn)真正有助于建設(shè)和部署模型。
您的模型商店應(yīng)該有:
- 應(yīng)該能夠?yàn)槟P偷拿總€(gè)版本,git提交,模型的工件(泡沫文件)的每個(gè)版本都能跟蹤引用的數(shù)據(jù)集(泡沫文件)
- 應(yīng)該提供最新版本的任何型號(hào)才能提供E.G(v2.1)
- 如果需要,保持一致的譜系以回滾版本
- 與您的評(píng)估存儲(chǔ)集成,以跟蹤每個(gè)版本的模型的評(píng)估,以便針對(duì)模型回歸
- 與您的服務(wù)基礎(chǔ)架構(gòu)集成,以促進(jìn)模型部署和回滾
推薦:Weights & Biases / MLFlow
性能評(píng)估存儲(chǔ)
既然您的模型跟蹤并存儲(chǔ)在模型存儲(chǔ)中,您需要能夠選擇一個(gè)模型來(lái)運(yùn)送和監(jiān)視它在生產(chǎn)中的性能表現(xiàn)方式。這是評(píng)估存儲(chǔ)可以提供幫助的地方。
評(píng)估存儲(chǔ)應(yīng)該啟用什么:
- 在任何環(huán)境中的任何型號(hào)的聚合(或切片)中的性能度量,在任何環(huán)境中,生產(chǎn),驗(yàn)證,培訓(xùn)
- 使用基線監(jiān)控和識(shí)別漂移,數(shù)據(jù)質(zhì)量問(wèn)題或異常性能降級(jí)
- 使團(tuán)隊(duì)能夠?qū)⑿阅艿淖兓B接到它們發(fā)生的原因
- 提供一個(gè)平臺(tái),以幫助使用高質(zhì)量和反饋循環(huán)連續(xù)提供型號(hào),以進(jìn)行改進(jìn) - 比較生產(chǎn)到培訓(xùn)
- 為A / B測(cè)試模型版本提供實(shí)驗(yàn)平臺(tái)
現(xiàn)在轉(zhuǎn)向我們對(duì)評(píng)估存儲(chǔ)的必備功能的關(guān)注,這里有幾件事讓特定的評(píng)估存儲(chǔ)值得考慮。
您的評(píng)估存儲(chǔ)應(yīng)該有:
- 存儲(chǔ)模型評(píng)估:在環(huán)境中輸入,Shap值和輸出,適用于環(huán)境的每個(gè)型號(hào)版本:生產(chǎn),驗(yàn)證和訓(xùn)練
- 自動(dòng)化監(jiān)控以輕松地表面問(wèn)題 - 基于來(lái)自評(píng)估存儲(chǔ)的基線
- 為任何類型的性能分析創(chuàng)建靈活的儀表板 - ML的DATADOG
- 與您的功能存儲(chǔ)集成以跟蹤功能漂移
- 與您的模型存儲(chǔ)集成,為每個(gè)型號(hào)版本具有模型性能的歷史記錄
推薦:Arize
可能適合您的其他工具
數(shù)據(jù)注釋平臺(tái):
讓我們退后一步,并說(shuō)你剛剛收集了你的數(shù)據(jù),這可能是或可能沒(méi)有地面真理標(biāo)簽?,F(xiàn)代統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型通常需要大量的培訓(xùn)數(shù)據(jù)表現(xiàn)良好,并能夠用地面真理標(biāo)簽注釋足夠的數(shù)據(jù),使您的模型有效可以是挑戰(zhàn)。
不要擔(dān)心,數(shù)據(jù)注釋平臺(tái)將數(shù)據(jù)的批量分發(fā)到分布式的分布式年級(jí)集,每個(gè)分布式集會(huì)器都將根據(jù)您提供的指令標(biāo)記您的數(shù)據(jù)。
推薦:
- Appen
- Scale 用于全自動(dòng)數(shù)據(jù)注釋服務(wù)
模型服務(wù)平臺(tái):
- 在應(yīng)用機(jī)器學(xué)習(xí)的許多情況下,您需要某種形式的服務(wù)平臺(tái)可以將您的模型部署到您的用戶。簡(jiǎn)而言之,服務(wù)平臺(tái)應(yīng)提供您的團(tuán)隊(duì)的一些核心功能。
適用于服務(wù)平臺(tái)的模型啟用是什么:
- 訪問(wèn)控制圍繞模型服務(wù),只有選擇一組人員應(yīng)該有權(quán)更改部署哪些模型。
- 如果需要,將快速回滾機(jī)制到先前部署的模型版本
- 與模型服務(wù)集成,便于模型促銷
- 與評(píng)估存儲(chǔ)相結(jié)合,以實(shí)現(xiàn)生產(chǎn)的模型可觀察性。
推薦:Kubeflow & almorithmia
AI Orchestration平臺(tái)
在許多情況下,必須在端到端生命周期上工作的平臺(tái)并使團(tuán)隊(duì)能夠協(xié)調(diào)整個(gè)工作流程。這些平臺(tái)可幫助團(tuán)隊(duì)帶來(lái)各種來(lái)源,管理培訓(xùn)工作流程,商店型號(hào),服務(wù),并連接到監(jiān)控平臺(tái)。在所有這些不同的工具中管理基礎(chǔ)架構(gòu)都可以復(fù)雜,并且AI Orchestration層可幫助數(shù)據(jù)科學(xué)家和ML工程師專注于提供模型。
推薦:Spell
結(jié)論
尋找工作的正確工具有時(shí)會(huì)感到壓倒性,特別是對(duì)于新興領(lǐng)域。就像是軟件工程師今天的工具一樣,在生產(chǎn),部署和監(jiān)控生產(chǎn)中的機(jī)器學(xué)習(xí)模型將不會(huì)結(jié)束終端平臺(tái);但是只有這幾個(gè)工具,您應(yīng)該能夠?qū)⒛男吞?hào)從實(shí)驗(yàn)室中趕出,并快速有效地進(jìn)入客戶手中。
原文鏈接:https://towardsdatascience.com/the-only-3-ml-tools-you-need-1aa750778d33




























