大數(shù)據分析本身的工業(yè)化

如何實現(xiàn)數(shù)據分析的工業(yè)化?
為了更好地利用大數(shù)據的體量、速度和多樣性,讓大數(shù)據為自己服務,企業(yè)需要流程、結構和透明度,而工業(yè)化提供了這三樣東西。如果你真的想從數(shù)據中提取價值,并使你的公司像一臺潤滑效果良好的機器那樣順暢運轉,你必須具備規(guī)?;哪芰?,但規(guī)模化的能力是大數(shù)據***的難題之一。
只要那些流程的設計和實施做到了著眼全局而非各自為政,當分析得到了帶動和長期持續(xù)下去的保證時,所謂的“工業(yè)化”便已成形。而這就是所謂的分析運維(Analytics Ops),在數(shù)據科學領域又被稱作為開發(fā)運維(Dev Ops)。
顧名思義,工業(yè)化意味著自動化,能夠實現(xiàn)事半功倍的效果。以前,農民用牛犁一塊地需要花費幾天時間,但現(xiàn)在用拖拉機只需要幾個小時。同樣,現(xiàn)在企業(yè)可以也用先進的算法“耕耘”大片的“數(shù)據田地”。把見解作為可交付產品的工廠也許是對此更恰當?shù)谋扔?。例如,設想有一條流水線,使你可以進行數(shù)據的收集、整理、分類,準備好供建模、分析和產生見解所用。這就是我們正在邁進的方向嗎?是的。這是必要的嗎?沒錯。
原因在于,為了更好地利用大數(shù)據的體量、速度和多樣性,讓大數(shù)據為自己服務,企業(yè)需要流程、結構和透明度,而工業(yè)化提供了這三樣東西。如果你真的想從數(shù)據中提取價值,并使你的公司像一臺潤滑效果良好的機器那樣順暢運轉,你必須具備規(guī)?;哪芰?,但規(guī)模化的能力是大數(shù)據***的難題之一。工業(yè)化是解決之道。工業(yè)化的基本定義就是堪稱革命性的規(guī)?;芰?,而規(guī)?;瘞缀蹩偸且馕吨瓜騺硎謩油瓿傻墓ぷ髯詣踊?。流水線就是明顯的例子。
流水線方法的基礎是建立一套支持數(shù)據分析的流程。這是一種協(xié)作的方法,需要跨職能合作和C級高管努力推動公司上下參與其中。但從數(shù)據中獲取見解的流程如何實現(xiàn)自動化?
讓我們來看看制造業(yè)的工業(yè)化,這是流程的最初起源。多年來,生產經理強調質量控制和流程改進。如果想使數(shù)據分析工業(yè)化,就需要對數(shù)據分析及受其驅動的經營活動采取同樣的質量控制措施。你制定的任何解決方案都應該考慮以下幾點:
1. 數(shù)據管理:這里涉及的考慮是,數(shù)據科學家在創(chuàng)建分析數(shù)據集時,應該確保數(shù)據一脈相承,提供適當?shù)闹卫?,避免陷入不可識別資產的數(shù)據沼澤。應同樣對待的還有文檔、記錄、代碼、數(shù)據樣本、修改日志,以及確保資產整理妥當,可隨時用于消費。
2.開發(fā):這里指的是將跟可視化和數(shù)據瀏覽界面一起整合進同一工作臺的建模工具。再有就是知識管理,要通過這種方法來存儲你正在創(chuàng)建的模型的信息。
3.部署:這部分涉及到生產模型的創(chuàng)建,而這些模型將在以后用在經營活動中。對此需要模型管理,比如維護版本歷史信息,訓練數(shù)據集以供審核,以及推廣模型的相關流程。還應該著重強調效率和受控執(zhí)行。數(shù)據平臺為分析處理的工作提供了很多選擇,但必須保證模型被部署到另一個平臺上時,業(yè)務邏輯依然如昔。
4.維護:操作系統(tǒng)堪稱流程的“書立”。你最初從應用系統(tǒng)獲得數(shù)據,你的分析則是最終交付產品,將被應用和操作流程所使用。由于這些流程所固有的操作依賴性,因此應該實行嚴格的路徑規(guī)定,包括為所有的活動創(chuàng)建操作日志,以及在發(fā)生模型偏移時記錄異常情況。
隨著數(shù)據和分析工具的激增,企業(yè)將繼續(xù)尋求龐大數(shù)據集的力量,因為有數(shù)據就有見解,有見解就有價值。但想要做到這一點,就必須把工業(yè)化的準則融入到數(shù)據分析中。
只要那些流程的設計和實施做到了著眼全局而非各自為政,當分析得到了帶動和長期持續(xù)下去的保證時,所謂的“工業(yè)化”便已成形。而這就是所謂的分析運維(Analytics Ops),在數(shù)據科學領域又被稱作為開發(fā)運維(Dev Ops)。憑借數(shù)據分析的工業(yè)化改造,只要處理速度達到了一定水平,企業(yè)就能降低成本,加快創(chuàng)新,為市場帶來新的能力。