用Azure Machine Learning服務(wù)構(gòu)建推薦系統(tǒng)
譯文【51CTO.com快譯】推薦系統(tǒng)用于從零售、新聞到媒體的各行各業(yè)。如果你之前用過(guò)根據(jù)你之前看過(guò)或買過(guò)的內(nèi)容提供建議的流媒體服務(wù)或電子商務(wù)網(wǎng)站,就與推薦系統(tǒng)打過(guò)交道。由于大量數(shù)據(jù)可供使用,許多公司將推薦系統(tǒng)作為關(guān)鍵的收入驅(qū)動(dòng)因素。然而找到合適的推薦算法對(duì)數(shù)據(jù)科學(xué)家來(lái)說(shuō)可能很耗時(shí)。這就是為什么微軟提供了附帶Python***實(shí)踐示例的GitHub存儲(chǔ)庫(kù),便于用Azure Machine Learning服務(wù)構(gòu)建和評(píng)估推薦系統(tǒng)。
什么是推薦系統(tǒng)?
推薦系統(tǒng)主要有兩種:協(xié)作過(guò)濾和基于內(nèi)容的過(guò)濾。協(xié)作過(guò)濾(常用于電子商務(wù)場(chǎng)景)識(shí)別用戶與他們?cè)u(píng)價(jià)的品類之間的交互,從而推薦他們之前并未見(jiàn)過(guò)的新品類。基于內(nèi)容的過(guò)濾(常被流媒體服務(wù)使用)識(shí)別有關(guān)用戶概況或品類描述的特點(diǎn),以便推薦新內(nèi)容。這兩種方法還可以組合成一種混合方法。
推薦系統(tǒng)使客戶在商家網(wǎng)站上停留的時(shí)間更長(zhǎng),他們與更多的產(chǎn)品/內(nèi)容進(jìn)行交互,并推薦客戶可能購(gòu)買的產(chǎn)品或內(nèi)容。下面,我們將介紹這個(gè)存儲(chǔ)庫(kù)是什么、如何為構(gòu)建和實(shí)施推薦系統(tǒng)的數(shù)據(jù)科學(xué)家減少麻煩。
為數(shù)據(jù)科學(xué)家簡(jiǎn)化流程
推薦算法GitHub存儲(chǔ)庫(kù)提供了用于構(gòu)建推薦系統(tǒng)的示例和***實(shí)踐,以Jupyter筆記本的形式來(lái)提供。這些示例詳細(xì)介紹了我們對(duì)五項(xiàng)關(guān)鍵任務(wù)的了解:
- 數(shù)據(jù)準(zhǔn)備:為每種推薦算法準(zhǔn)備和加載數(shù)據(jù)。
- 建模:使用各種經(jīng)典和深度學(xué)習(xí)推薦算法來(lái)構(gòu)建模型,比如交替最小二乘(ALS)或極深因子分解機(jī)(xDeepFM)。
- 評(píng)估:用離線度量指標(biāo)評(píng)估算法。
- 模型選擇和優(yōu)化:為推薦模型調(diào)整和優(yōu)化超參數(shù)。
- 運(yùn)作:在Azure上的生產(chǎn)環(huán)境中運(yùn)作模型。
reco utils中提供了幾個(gè)實(shí)用程序以支持常見(jiàn)任務(wù),比如加載采用不同算法支持的格式的數(shù)據(jù)集,評(píng)估模型輸出,以及分割訓(xùn)練/測(cè)試數(shù)據(jù)。實(shí)施了幾種***進(jìn)的算法,用于自學(xué)或者在企業(yè)組織或數(shù)據(jù)科學(xué)家自己的應(yīng)用環(huán)境中定制。
下圖顯示了存儲(chǔ)庫(kù)中可用的幾種推薦算法。我們總是在添加更多的推薦算法,請(qǐng)進(jìn)入到GitHub存儲(chǔ)庫(kù),查看***列表。
下面較詳細(xì)地介紹推薦算法存儲(chǔ)庫(kù)如何解決數(shù)據(jù)科學(xué)家的痛點(diǎn)。
1. 評(píng)估推薦算法的不同選項(xiàng)很耗時(shí)。
推薦算法GitHub存儲(chǔ)庫(kù)的一大優(yōu)點(diǎn)是它提供了一組選項(xiàng),顯示哪些算法最適合解決某些類型的問(wèn)題。它還提供了如何在不同算法之間切換的粗略框架。如果模型性能準(zhǔn)確度不夠,則需要一種更適合實(shí)時(shí)結(jié)果的算法,或者起初選擇的算法并非最適合使用的數(shù)據(jù)類型,數(shù)據(jù)科學(xué)家應(yīng)換成不同的算法。
2. 選擇、理解和實(shí)施推薦算法系統(tǒng)的新模型可能成本很高。
從頭開(kāi)始選擇合適的推薦算法并為推薦系統(tǒng)實(shí)施新模型可能成本很高,因?yàn)槌舜罅康挠?jì)算能力外,還需要足夠的時(shí)間來(lái)訓(xùn)練和測(cè)試。推薦算法GitHub存儲(chǔ)庫(kù)簡(jiǎn)化了選擇過(guò)程,通過(guò)節(jié)省數(shù)據(jù)科學(xué)家測(cè)試許多不適合其項(xiàng)目/場(chǎng)景的算法方面的時(shí)間來(lái)節(jié)省成本。再結(jié)合Azure的各種定價(jià)選項(xiàng),可降低數(shù)據(jù)科學(xué)家的測(cè)試成本和企業(yè)的部署成本。
3. 實(shí)施更先進(jìn)的算法難度很大。
被要求構(gòu)建推薦算法系統(tǒng)時(shí),數(shù)據(jù)科學(xué)家常常將目光投向更常用的算法,以減少選擇和測(cè)試更先進(jìn)算法所需要的時(shí)間和成本,即使這些更先進(jìn)的算法可能更適合項(xiàng)目/數(shù)據(jù)集。推薦GitHub存儲(chǔ)庫(kù)提供了一套知名且***進(jìn)的最適合某些場(chǎng)景的推薦算法。它還提供了***實(shí)踐;若遵循這些***實(shí)踐,可以更輕松地實(shí)施更先進(jìn)的算法。
4. 數(shù)據(jù)科學(xué)家不熟悉如何使用Azure Machine Learning服務(wù)來(lái)訓(xùn)練、測(cè)試、優(yōu)化和部署推薦算法。
***,推薦算法GitHub存儲(chǔ)庫(kù)提供了有關(guān)如何在Azure和Azure Machine Learning(Azure ML)服務(wù)上訓(xùn)練、測(cè)試、優(yōu)化和部署推薦模型的***實(shí)踐。實(shí)際上,有幾個(gè)筆記本介紹了如何在Azure ML服務(wù)上的存儲(chǔ)庫(kù)中運(yùn)行推薦算法。數(shù)據(jù)科學(xué)家還可以使用已創(chuàng)建的任何筆記本,將其提交給Azure,幾乎不需要更改。
Azure ML可廣泛用于與AI模型開(kāi)發(fā)有關(guān)的任務(wù),比如說(shuō):
- 超參數(shù)調(diào)整
- 跟蹤和監(jiān)控度量指標(biāo),以改進(jìn)模型創(chuàng)建過(guò)程
- 縱向擴(kuò)展和橫向擴(kuò)展DSVM和Azure ML Compute等計(jì)算
- 將Web服務(wù)部署到Azure Kubernetes服務(wù)
- 提交管道
原文標(biāo)題:Building Recommender systems with Azure Machine Learning service,作者:Heather Spetalnick
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】