改進(jìn)機(jī)器學(xué)習(xí):知識圖譜如何為數(shù)據(jù)賦予更深層的意義?
譯文編譯 | 布加迪
編輯 | 薛彥澤
【51CTO.com快譯】許多企業(yè)在部署機(jī)器學(xué)習(xí)系統(tǒng)時,采用了過時的數(shù)據(jù)管理方法,這就會導(dǎo)致兩個負(fù)面影響:一是過時的數(shù)據(jù)復(fù)制方法會延遲最終的洞察結(jié)果,二是造成數(shù)據(jù)缺乏統(tǒng)一性、語境化。
過度的數(shù)據(jù)復(fù)制和由此產(chǎn)生的“二階效應(yīng)”正在給大多數(shù)組織的數(shù)據(jù)科學(xué)家造成巨大的低效和浪費(fèi)。據(jù)IDC公司聲稱,去年生成了超過60ZB的數(shù)據(jù),預(yù)計年復(fù)合增長率將達(dá)到23%,并將一直持續(xù)到2025年。更糟糕的是,獨(dú)特數(shù)據(jù)與復(fù)制數(shù)據(jù)之比為1:10,這意味著大多數(shù)組織的數(shù)據(jù)管理方法基于拷貝數(shù)據(jù)。
公司在創(chuàng)建機(jī)器學(xué)習(xí)模型時,通常通過從不同數(shù)據(jù)源復(fù)制相關(guān)數(shù)據(jù)來劃分這些數(shù)據(jù)。模型通常拿其中20%的數(shù)據(jù)進(jìn)行訓(xùn)練,其余80%的數(shù)據(jù)保留用于測試。數(shù)據(jù)清理、特征工程和模型評估這些工作需要六個月或更久,這會使數(shù)據(jù)在此過程中變得過時,同時推遲獲得洞察的時間,并影響數(shù)據(jù)結(jié)果。
傳統(tǒng)、過時的數(shù)據(jù)管理方法的第二個影響是洞察質(zhì)量下降。這種影響不僅歸因于使用陳舊數(shù)據(jù)構(gòu)建模型,還歸因于關(guān)系意識不足、垂直數(shù)據(jù)孤島斷開、上下文信息不足以及關(guān)系數(shù)據(jù)管理技術(shù)在模式(schema)上的限制。
用現(xiàn)代數(shù)據(jù)結(jié)構(gòu)正確實施知識圖可以糾正這些數(shù)據(jù)管理問題,同時增加機(jī)器學(xué)習(xí)的價值。在知識圖助力的數(shù)據(jù)結(jié)構(gòu)中部署數(shù)據(jù)虛擬化使數(shù)據(jù)科學(xué)家能夠?qū)C(jī)器學(xué)習(xí)引入到數(shù)據(jù),避免了浪費(fèi)時間和資源。
此外,圖模型固有的靈活性及其利用相互關(guān)系的能力使得組織為機(jī)器學(xué)習(xí)準(zhǔn)備數(shù)據(jù)變得極其容易,因為它們提供了改進(jìn)的特征工程、根本原因分析和圖分析等功能。隨著數(shù)據(jù)管理和人工智能趨于融合,這項功能還幫助知識圖轉(zhuǎn)而成為未來20年主要數(shù)據(jù)管理結(jié)構(gòu)的關(guān)鍵。簡而言之,知識圖對AI的幫助將如同AI對知識圖的幫助一樣大。
數(shù)據(jù)科學(xué)家需要戰(zhàn)略數(shù)據(jù)管理
越來越多的數(shù)據(jù)組織在處理長期的機(jī)器學(xué)習(xí)部署。數(shù)據(jù)孤島或數(shù)據(jù)湖中不同的數(shù)據(jù)格式、模式和術(shù)語會延遲需要這些訓(xùn)練數(shù)據(jù)的機(jī)器學(xué)習(xí)計劃。缺乏上下文和語義注釋使得組織難以理解數(shù)據(jù)的含義及特定模型的用途。即使數(shù)據(jù)有充足的上下文,這些信息也很少能持久,因此組織必須重新開始后續(xù)項目。快速移動的數(shù)據(jù)(比如物聯(lián)網(wǎng)設(shè)備收集的信息)使復(fù)制這些不同數(shù)據(jù)時所需的數(shù)月培訓(xùn)變得更加困難。組織被迫通過再次復(fù)制新數(shù)據(jù)來應(yīng)對這一障礙,重新啟動這個損害模型功能的耗時過程。
一種推薦方法是在數(shù)據(jù)結(jié)構(gòu)層訓(xùn)練模型,而不是將數(shù)據(jù)復(fù)制到孤島中。組織無需移動數(shù)據(jù),即可輕松創(chuàng)建訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。比如說,組織甚至可以指定一個隨機(jī)的20% 的數(shù)據(jù)樣本,使用查詢通過這種基于知識圖的數(shù)據(jù)虛擬化方法提取特征并提供訓(xùn)練數(shù)據(jù)集。這種方法闡明了數(shù)據(jù)管理和機(jī)器學(xué)習(xí)之間的聯(lián)系,以加快獲得洞察力,另一個好處是使用更新穎的數(shù)據(jù)訓(xùn)練模型。
獲得高質(zhì)量的機(jī)器學(xué)習(xí)洞察力
與關(guān)系或其他方法相比,知識圖譜為理解企業(yè)數(shù)據(jù)提供了更豐富、更扎實的基礎(chǔ)。它們提供節(jié)點(diǎn)邊緣之間的上下文理解和關(guān)系檢測,這是圖存儲數(shù)據(jù)的方式。語義圖數(shù)據(jù)模型顯著增強(qiáng)了該功能,這種模型將針對特定公司的術(shù)語標(biāo)準(zhǔn)化為一組分層的詞匯表或分類法。因此,數(shù)據(jù)科學(xué)家天生就能理解數(shù)據(jù)的含義以及與任何用例(比如機(jī)器學(xué)習(xí))的關(guān)系。語義圖數(shù)據(jù)模型還在模式層面對齊數(shù)據(jù),提供有關(guān)概念或業(yè)務(wù)類別的智能推斷,并在提供企業(yè)數(shù)據(jù)完整視圖的同時避免術(shù)語或同義詞存在的傳統(tǒng)問題。
這些特征對此至關(guān)重要:縮短為機(jī)器學(xué)習(xí)準(zhǔn)備數(shù)據(jù)所需的時間,同時從可用數(shù)據(jù)中生成高度細(xì)微的、語境化的洞察力。這種方法的另一個好處是針對圖的算法與機(jī)器學(xué)習(xí)密切相關(guān)。它們允許數(shù)據(jù)科學(xué)家充分利用與聚類、降維、主成分分析(PCA)和無監(jiān)督學(xué)習(xí)相關(guān)的特定技術(shù),這些技術(shù)非常適合為機(jī)器學(xué)習(xí)準(zhǔn)備好圖格式的訓(xùn)練數(shù)據(jù)。這些技術(shù)及其他技術(shù)(如圖嵌入)可以加快特征生成過程,或為數(shù)據(jù)準(zhǔn)備提供影響分析。
融合數(shù)據(jù)管理和知識管理
知識圖譜對機(jī)器學(xué)習(xí)的總體效用證明了數(shù)據(jù)管理和知識管理具有相輔相成的性質(zhì)。引用廣受贊譽(yù)的谷歌研究教授Peter Norvig的話來說,有了足夠的數(shù)據(jù),人們就不需要花哨的算法。也就是說,在知識圖譜和數(shù)據(jù)虛擬化支持的統(tǒng)一數(shù)據(jù)結(jié)構(gòu)中融合數(shù)據(jù)管理和知識管理提供了更豐富、更高質(zhì)量的數(shù)據(jù),從而使組織能夠在沒有完美算法的情況下優(yōu)化機(jī)器學(xué)習(xí)。
比如說,如果擁有關(guān)于客戶購買習(xí)慣的足夠數(shù)據(jù),組織就不需要花哨的算法來預(yù)測哪些客戶會對新產(chǎn)品感興趣。數(shù)據(jù)管理和知識管理的融合為組織提供了增強(qiáng)的智能算法及模型,進(jìn)而為決策提供了有力的信息依據(jù),從而最大限度地發(fā)揮AI的優(yōu)勢。
原文標(biāo)題:Improving Machine Learning: How Knowledge Graphs Bring Deeper Meaning to Data,作者:Kendall Clark
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】


































