機器學(xué)習(xí)促進大數(shù)據(jù)分析走向繁榮
譯文【51CTO獨家特稿】機器生成的日志數(shù)據(jù)可以說是大數(shù)據(jù)宇宙當(dāng)中的暗物質(zhì)。它由分布式信息技術(shù)生態(tài)系統(tǒng)當(dāng)中的每一層、每個節(jié)點乃至每種組件所產(chǎn)生,其范疇從智能手機到物聯(lián)網(wǎng)終端可謂無所不包。它無窮無盡、無處不在,我們能夠?qū)ζ溥M行收集、處理、分析以及使用,但整個過程大多在幕后進行。

日志數(shù)據(jù)往往充當(dāng)著眾多枯燥企業(yè)應(yīng)用程序的基礎(chǔ),其中包括故障排查、調(diào)試、監(jiān)測、安全、反欺詐、合規(guī)性以及電子取證等等。不過在分析點擊流、地理位置、社交媒體以及其它與各類消費者核心類用戶密切相關(guān)的行為記錄數(shù)據(jù)當(dāng)中,它同樣能夠成為一種強大的指導(dǎo)性工具。
僅憑人類的能力根本無法跟上機器記錄數(shù)據(jù)的產(chǎn)生速度。絕大部分這類數(shù)據(jù)在設(shè)計思路或者實際使用上都完全不會考慮人為分析的可能性。除非以粗暴的方式進行直接過濾,否則日志數(shù)據(jù)那極端的體積、可怕的積累速度以及豐富的具體類別將迅速擊潰人類的認(rèn)知能力。Accenture公司在最近的一篇文章中對此作出了簡潔的解釋:
隨著日志文件在體積與種類方面的不斷攀升,日志管理方案解析日志文件、追蹤潛在問題乃至切實發(fā)現(xiàn)錯誤的難度也在隨之提升——特別是交叉日志間存在關(guān)聯(lián)性時,這種情況就變得更為突出。即使在最理想的狀況下,也需要由經(jīng)驗豐富的管理員來捋順事件鏈、過濾干擾信息并最終診斷出根本原因——這實在是個相當(dāng)復(fù)雜的過程。
很明顯,自動化已經(jīng)成為在日志數(shù)據(jù)當(dāng)中找到分析結(jié)論的關(guān)鍵所在,這一點在大數(shù)據(jù)領(lǐng)域體現(xiàn)得尤為突出。自動化機制能夠確保數(shù)據(jù)收集、分析處理以及規(guī)則與事件驅(qū)動響應(yīng)能夠切實與數(shù)據(jù)中的信息相匹配,并在數(shù)據(jù)流的傳輸過程中完成任務(wù)執(zhí)行。而要實現(xiàn)日志分析機制的自動化擴展,關(guān)鍵因素則包括機器數(shù)據(jù)集成中間件、業(yè)務(wù)規(guī)則管理系統(tǒng)、語義分析、流計算平臺以及機器學(xué)習(xí)算法。
在以上因素當(dāng)中,機器學(xué)習(xí)是自動化流程以及日志數(shù)據(jù)規(guī)模化分析的重中之重。不過機器學(xué)習(xí)對于日志數(shù)據(jù)分析工作而言并不是一套能夠以不變應(yīng)萬變的固定解決方案。不同的機器學(xué)習(xí)技術(shù)適合不同類型的日志數(shù)據(jù)以及不同的分析挑戰(zhàn)。利用相關(guān)性與其它現(xiàn)有模式為機器學(xué)習(xí)機制構(gòu)建先驗性監(jiān)督方案才是正確的處理方式。不過監(jiān)督性學(xué)習(xí)人為為其編寫一套源自日志參考性“培訓(xùn)數(shù)據(jù)”集,只有這樣才能準(zhǔn)確定義機器學(xué)習(xí)算法的辨別能力、從而選擇與實際最為相符的處理能力。
不過如果日志數(shù)據(jù)模式無法以預(yù)告方式作出精確定義,那么非監(jiān)督性強化學(xué)習(xí)機制可能更為適合。這些由機器學(xué)習(xí)技術(shù)支持的日志數(shù)據(jù)分析方案可謂自動化處理的最理想場景,因為此類方案會自主選擇匹配程度較高的處理模式并進行優(yōu)先級排序,從而在無法人為提供培訓(xùn)數(shù)據(jù)集的前提下完成既定任務(wù)。
多日志關(guān)聯(lián)性屬于非監(jiān)督性強化學(xué)習(xí)方案所針對的核心日志數(shù)據(jù)分析用例。由于異構(gòu)式日志數(shù)據(jù)集在結(jié)合過程中會衍生出更高程度的異構(gòu)性、復(fù)雜性以及不可預(yù)測性,分析過程當(dāng)中數(shù)據(jù)變量以及數(shù)據(jù)關(guān)系將始終混亂而模糊。有鑒于此,如果我們僅僅利用簡單的查詢、預(yù)先設(shè)定好的報告與儀表板乃至其它標(biāo)準(zhǔn)化分析機制對其進行查看,隱藏在數(shù)據(jù)中的信息模式根本不會現(xiàn)身。在這類情況下,機器學(xué)習(xí)能夠利用各類定量方法——例如聚類、馬爾科夫模型以及自組織映射等等——提取出最值得注意的關(guān)系模式。
無監(jiān)督性強化學(xué)習(xí)機制的另一大關(guān)鍵性使用場景在于確定某種特定關(guān)系模式此前從未出現(xiàn)過——或者確實曾經(jīng)出現(xiàn),但卻被人為分析方案標(biāo)記為“干擾因素”。有作者曾撰文探討過將機器學(xué)習(xí)機制應(yīng)用在安全日志分析當(dāng)中,從而“立即為用戶提供一種典型的訪問模式——即使這種特定方式模式此前從未出現(xiàn)過——并防止個人信息丟失所引發(fā)的高風(fēng)險。”
大多數(shù)藏身于海量日志數(shù)據(jù)中的分析結(jié)論都擁有幾大共同特征:復(fù)雜、隱蔽而且此前從未出現(xiàn)過。相較于先驗性知識,從日志數(shù)據(jù)本身著手進行學(xué)習(xí)已經(jīng)成為眾多數(shù)據(jù)科學(xué)家們投入大量時間與精力的研發(fā)重點。他們正不斷對自己的機器學(xué)習(xí)算法作出調(diào)整,希望能夠從日志中找到就連最出色的人類專家也往往會忽視的重要“信號”。
原文鏈接:
http://www.infoworld.com/d/big-data/big-data-log-analysis-thrives-machine-learning-244329
核子可樂譯



























