面向 AI 的數(shù)據(jù)生態(tài)系統(tǒng)
[引] 本文編譯自https://cacm.acm.org/magazines/2021/11/256400-there-is-no-ai-without-data/fulltext,文中針對(duì)的是工業(yè)企業(yè), 實(shí)際上,對(duì)大多數(shù)企業(yè)都有著一些參考意義,尤其是關(guān)于元數(shù)據(jù)的管理和自治。
人工智能已經(jīng)從天花亂墜的宣傳逐漸變成了現(xiàn)實(shí)。算法在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方面的進(jìn)步,計(jì)算能力和存儲(chǔ)能力的顯著提高,以及數(shù)字化所產(chǎn)生的大量數(shù)據(jù),使人工智能很可能改變所有行業(yè)的游戲規(guī)則。人工智能有潛力從根本上改進(jìn)業(yè)務(wù)流程,例如,在制造業(yè)中進(jìn)行實(shí)時(shí)質(zhì)量預(yù)測(cè),并并產(chǎn)生新的業(yè)務(wù)模型。傳統(tǒng)產(chǎn)業(yè)正面臨著一個(gè)根本性的變化: 從實(shí)物產(chǎn)品的生產(chǎn)到工業(yè)4.0中通過(guò)人工智能流程優(yōu)化和服務(wù)交付。
盡管人工智能的潛力巨大,工業(yè)企業(yè)也對(duì)人工智能技術(shù)進(jìn)行了大量投資,但人工智能尚未兌現(xiàn)在行業(yè)實(shí)踐中的兌現(xiàn)。工業(yè)企業(yè)的核心業(yè)務(wù)尚未得到人工智能的賦能。人工智能解決方案的成功案例往往是個(gè)案,例如工廠中機(jī)器的運(yùn)行優(yōu)化。為什么呢?在大多數(shù)情況下,數(shù)據(jù)問(wèn)題是傳統(tǒng)企業(yè)未充分采用人工智能的主要原因。
一般來(lái)說(shuō),數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)質(zhì)量是人工智能和數(shù)據(jù)分析的關(guān)鍵,這并不是什么新鮮事,因?yàn)闆](méi)有數(shù)據(jù)就沒(méi)有人工智能。然而,工業(yè)企業(yè)中人工智能面臨的數(shù)據(jù)挑戰(zhàn)遠(yuǎn)遠(yuǎn)超出了檢測(cè)和修復(fù)臟數(shù)據(jù)的范圍。人工智能通常用于特定用例的數(shù)據(jù)供應(yīng)和數(shù)據(jù)工程,從而形成一個(gè)異構(gòu)的、多語(yǔ)言的企業(yè)數(shù)據(jù)環(huán)境。這導(dǎo)致了各種各樣的數(shù)據(jù)挑戰(zhàn),并限制了人工智能的全面應(yīng)用。
1、工業(yè)企業(yè)的AI現(xiàn)狀
以AI 和數(shù)據(jù)分析為基礎(chǔ),并概述一下傳統(tǒng)企業(yè)的業(yè)務(wù),進(jìn)而刻畫(huà)一下人工智能的應(yīng)用現(xiàn)狀。
1.1 人工智能和數(shù)據(jù)分析
人工智能一般是指機(jī)器執(zhí)行認(rèn)知功能的能力。人工智能方法可以細(xì)分為演繹方法即模型驅(qū)動(dòng)(如專(zhuān)家系統(tǒng)),或歸納方法即數(shù)據(jù)驅(qū)動(dòng)方法。數(shù)據(jù)驅(qū)動(dòng)方法特別是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法,在過(guò)去幾年中為人工智能開(kāi)辟了新的應(yīng)用領(lǐng)域。數(shù)據(jù)分析可以作為各種數(shù)據(jù)驅(qū)動(dòng)分析的總稱(chēng),包括 BI 和報(bào)表。
1.2 工業(yè)企業(yè)的業(yè)務(wù)
工業(yè)企業(yè)的業(yè)務(wù)包括實(shí)物的工程制造,例如,加熱系統(tǒng)或電氣傳動(dòng)。為此目的,工業(yè)企業(yè)通常將各種工廠組織成業(yè)務(wù)單元來(lái)運(yùn)營(yíng)一個(gè)制造網(wǎng)絡(luò)。工業(yè)企業(yè)的 IT 環(huán)境通常包括不同的企業(yè) IT 系統(tǒng),從基于產(chǎn)品生命周期管理(PLM)的企業(yè)資源計(jì)劃(ERP)系統(tǒng)到制造執(zhí)行系統(tǒng)(MES)。在工業(yè)4.0和物聯(lián)網(wǎng)(IoT)應(yīng)用中,工業(yè)企業(yè)推動(dòng)了價(jià)值鏈的數(shù)字化。因此,過(guò)程和產(chǎn)品的 AI 支持具有戰(zhàn)略重要性。為此,近年來(lái),工業(yè)企業(yè)建立了數(shù)據(jù)庫(kù),引進(jìn)了人工智能工具,并創(chuàng)建了數(shù)據(jù)科學(xué)團(tuán)隊(duì)。
1.3 當(dāng)前狀態(tài): 人工智能孤島
上圖顯示了工業(yè)企業(yè)中人工智能的現(xiàn)狀。企業(yè)已經(jīng)在整個(gè)產(chǎn)業(yè)價(jià)值鏈中實(shí)現(xiàn)了各種各樣的人工智能用例: 從支持 iot產(chǎn)品的預(yù)測(cè)性維護(hù)到生產(chǎn)過(guò)程優(yōu)化的質(zhì)量預(yù)測(cè),再到產(chǎn)品生命周期分析和客戶(hù)分析。用例將不同來(lái)源(如 ERP 系統(tǒng)和 MES)的數(shù)據(jù)組合在一起,通常作為單個(gè)用例的獨(dú)立解決方案實(shí)現(xiàn)。這意味著,人工智能是以“孤島”的形式執(zhí)行的,用于特定用例的數(shù)據(jù)工程,以及特定用例的人工智能工具和適合特定用途的機(jī)器學(xué)習(xí)算法。一方面,人工智能孤島方便了具體案例實(shí)現(xiàn)的靈活性和探索性。另一方面,它阻礙了 AI 的重用、標(biāo)準(zhǔn)化、效率和企業(yè)范圍的應(yīng)用。數(shù)據(jù)處理在實(shí)現(xiàn)工業(yè)化人工智能的道路上扮演著核心角色,將占整個(gè) AI 用例實(shí)現(xiàn)的60% 到80% 。
各種獨(dú)立的AI 用例導(dǎo)致了全球分布式的、多語(yǔ)言和異構(gòu)的企業(yè)數(shù)據(jù)環(huán)境。用于人工智能用例的結(jié)構(gòu)化和非結(jié)構(gòu)化源數(shù)據(jù)被提取并存儲(chǔ)在被稱(chēng)為數(shù)據(jù)湖的原始數(shù)據(jù)存儲(chǔ)庫(kù)中。它們基于單獨(dú)的數(shù)據(jù)存儲(chǔ)技術(shù),例如不同的 NoSQL 系統(tǒng)、特定用例的數(shù)據(jù)模型和專(zhuān)門(mén)的源數(shù)據(jù)攝取。這些數(shù)據(jù)庫(kù)與企業(yè)數(shù)據(jù)倉(cāng)庫(kù)共存,其中包含來(lái)自各種系統(tǒng)用于用于報(bào)表的聚合數(shù)據(jù)?,F(xiàn)有的許多數(shù)據(jù)交換過(guò)程造成各種數(shù)據(jù)冗余和潛在的數(shù)據(jù)質(zhì)量問(wèn)題。此外,不同的數(shù)據(jù)環(huán)境使得業(yè)務(wù)對(duì)象(例如產(chǎn)品和流程)的集成和開(kāi)發(fā)變得越發(fā)復(fù)雜,從而阻礙了跨流程和跨產(chǎn)品 AI 用例的開(kāi)發(fā)。
例如,為了預(yù)測(cè)工廠中某一特定制造過(guò)程的質(zhì)量,一個(gè)由數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師組成的專(zhuān)業(yè)項(xiàng)目團(tuán)隊(duì)首先確定相關(guān)的源系統(tǒng),尤其是工廠中的幾個(gè)本地 MES以及一個(gè)ERP 系統(tǒng)。MES提供關(guān)于質(zhì)量測(cè)量的傳感器數(shù)據(jù),ERP 系統(tǒng)提供主數(shù)據(jù)。與各種 IT 專(zhuān)家、制造專(zhuān)家和數(shù)據(jù)所有者一起,團(tuán)隊(duì)檢查源系統(tǒng)的數(shù)據(jù)結(jié)構(gòu),并開(kāi)發(fā)定制的連接器,用于提取源數(shù)據(jù)并以原始格式將其存儲(chǔ)在本地工廠的數(shù)據(jù)湖中。
數(shù)據(jù)是基于特定用例的數(shù)據(jù)模型和數(shù)據(jù)管道進(jìn)行清理、集成和轉(zhuǎn)移。然后,團(tuán)隊(duì)使用各種機(jī)器學(xué)習(xí)工具來(lái)生成最優(yōu)預(yù)測(cè)模型。在多次迭代過(guò)程中,調(diào)整數(shù)據(jù)模型和源數(shù)據(jù)以增強(qiáng)機(jī)器學(xué)習(xí)的數(shù)據(jù)基礎(chǔ)。最終的預(yù)測(cè)模型通過(guò)調(diào)用機(jī)器學(xué)習(xí)評(píng)分服務(wù)在工廠車(chē)間的 MES 中使用。
最終的解決方案構(gòu)成了一個(gè)有針對(duì)性的孤立人工智能服務(wù),具有定制的數(shù)據(jù)攝取、數(shù)據(jù)模型、數(shù)據(jù)管道、專(zhuān)門(mén)的工廠數(shù)據(jù)庫(kù)和適合用途的機(jī)器學(xué)習(xí)工具。該解決方案綜合了大量的專(zhuān)家知識(shí),包括制造過(guò)程知識(shí)、 ERP 和 MES IT 系統(tǒng)知識(shí)、用例特定的數(shù)據(jù)工程和數(shù)據(jù)科學(xué)知識(shí)。然而,缺少數(shù)據(jù)管理準(zhǔn)則(如數(shù)據(jù)建模和元數(shù)據(jù)管理準(zhǔn)則),源系統(tǒng)透明度的匱乏,各種孤立的數(shù)據(jù)湖,都阻礙了人工智能的重用、效率和企業(yè)范圍的應(yīng)用。也就是說(shuō),同一類(lèi)型的用例在不同的工廠中以不同的方式從零開(kāi)始實(shí)現(xiàn)。因此,相同的源數(shù)據(jù)(例如主數(shù)據(jù))被多次提取,給關(guān)鍵業(yè)務(wù)的源數(shù)據(jù)系統(tǒng)(例如 ERP)帶來(lái)了高負(fù)載。為相同的概念數(shù)據(jù)實(shí)體開(kāi)發(fā)了不同的數(shù)據(jù)模型,如“機(jī)器”和“產(chǎn)品”。這些異構(gòu)數(shù)據(jù)模型和各個(gè)工廠數(shù)據(jù)庫(kù)中使用的不同數(shù)據(jù)存儲(chǔ)技術(shù)導(dǎo)致了異構(gòu)數(shù)據(jù)管道圍繞同一類(lèi)型的源數(shù)據(jù)進(jìn)行旋轉(zhuǎn)。此外,數(shù)據(jù)和已開(kāi)發(fā)的數(shù)據(jù)模型(即元數(shù)據(jù))的商業(yè)意義在數(shù)據(jù)字典或電子表格等特定項(xiàng)目工具中被多次記錄??偠灾?,這導(dǎo)致了人工智能孤島和異構(gòu)的企業(yè)數(shù)據(jù)現(xiàn)狀。
因此,要實(shí)現(xiàn)人工智能的工業(yè)化,需要對(duì)潛在的數(shù)據(jù)挑戰(zhàn)進(jìn)行系統(tǒng)的分析。
2、人工智能的數(shù)據(jù)挑戰(zhàn)
一般來(lái)說(shuō),確保人工智能的數(shù)據(jù)質(zhì)量非常重要,除了數(shù)據(jù)質(zhì)量之外,還很多關(guān)鍵的數(shù)據(jù)挑戰(zhàn):數(shù)據(jù)管理、數(shù)據(jù)共享和 AI 的數(shù)據(jù)治理。
這里,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘提出了更廣泛的數(shù)據(jù)要求。它們不僅使用聚合的、結(jié)構(gòu)化的數(shù)據(jù),而且在其原始格式中使用了大量的非結(jié)構(gòu)化數(shù)據(jù),例如,用于基于機(jī)器學(xué)習(xí)的光學(xué)檢查數(shù)據(jù)。
2.1 AI數(shù)據(jù)管理的挑戰(zhàn)
數(shù)據(jù)管理一般包括在整個(gè)生命周期中處理、提供和控制數(shù)據(jù)。人工智能的數(shù)據(jù)管理挑戰(zhàn)在于在異構(gòu)和多語(yǔ)言的企業(yè)數(shù)據(jù)環(huán)境中全面管理用于人工智能的數(shù)據(jù),特別是數(shù)據(jù)建模,元數(shù)據(jù)管理,和數(shù)據(jù)架構(gòu)。
對(duì)于如何在概念和邏輯層次上跨系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化和建模,目前還沒(méi)有通用的數(shù)據(jù)建模方法。在數(shù)據(jù)庫(kù)中,對(duì)于相同類(lèi)型的數(shù)據(jù)(如傳感器數(shù)據(jù)) ,常常使用不同的數(shù)據(jù)建模技術(shù),如數(shù)據(jù)倉(cāng)庫(kù)或維度建模技術(shù)。有時(shí)候,由于采用了在原始數(shù)據(jù)之上的靈活讀取方法,甚至忽略了數(shù)據(jù)建模的需要。這使得數(shù)據(jù)集成、數(shù)據(jù)重用以及跨不同 AI 用例開(kāi)發(fā)數(shù)據(jù)管道變得非常復(fù)雜。例如,傳感器數(shù)據(jù)作為機(jī)器學(xué)習(xí)的輸入是非常耗時(shí)和復(fù)雜的。為不同AI 用例重用相應(yīng)的數(shù)據(jù)管道在很大程度上依賴(lài)于通用數(shù)據(jù)建模技術(shù)和通用數(shù)據(jù)模型。
沒(méi)有總體的元數(shù)據(jù)管理來(lái)維護(hù)跨數(shù)據(jù)領(lǐng)域的元數(shù)據(jù)。元數(shù)據(jù),例如列和屬性的名稱(chēng),大多存儲(chǔ)在各個(gè)存儲(chǔ)系統(tǒng)的內(nèi)部數(shù)據(jù)字典中,通常不可訪問(wèn)。因此,數(shù)據(jù)的繼承和影響分析都受到阻礙。例如,在源系統(tǒng)發(fā)生變化的情況下,在沒(méi)有適當(dāng)?shù)脑獢?shù)據(jù)情況下,手動(dòng)調(diào)整所有數(shù)據(jù)湖中受影響的數(shù)據(jù)管道是冗長(zhǎng)而昂貴的。此外,關(guān)于數(shù)據(jù)含義的業(yè)務(wù)元數(shù)據(jù)往往根本沒(méi)有得到系統(tǒng)的管理。因此,缺少元數(shù)據(jù)管理顯著地妨礙了人工智能的數(shù)據(jù)使用。
沒(méi)有統(tǒng)一的數(shù)據(jù)體系結(jié)構(gòu)來(lái)構(gòu)建數(shù)據(jù)系統(tǒng)。一方面缺少企業(yè)數(shù)據(jù)體系結(jié)構(gòu)來(lái)編排各種孤立的數(shù)據(jù)湖。例如,在很多數(shù)據(jù)湖中都沒(méi)有通用的區(qū)域模型,這使數(shù)據(jù)集成和交換復(fù)雜化。此外,包含有價(jià)值的 AI 用例關(guān)鍵性能指標(biāo)也還不清楚。另一方面,也缺乏一個(gè)系統(tǒng)的平臺(tái)數(shù)據(jù)體系結(jié)構(gòu)來(lái)設(shè)計(jì)一個(gè)數(shù)據(jù)庫(kù)。具體來(lái)說(shuō),就是利用不同的數(shù)據(jù)存儲(chǔ)技術(shù)來(lái)實(shí)現(xiàn)數(shù)據(jù)湖。例如,一些數(shù)據(jù)庫(kù)完全基于 Hadoop 存儲(chǔ)技術(shù),如 HDFS和 Hive,而其他數(shù)據(jù)庫(kù)則結(jié)合了經(jīng)典的關(guān)系數(shù)據(jù)庫(kù)/值系統(tǒng)和 NoSQL 系統(tǒng)。這導(dǎo)致整個(gè)企業(yè)數(shù)據(jù)環(huán)境中的數(shù)據(jù)湖架構(gòu)不統(tǒng)一,從而導(dǎo)致高昂的開(kāi)發(fā)和維護(hù)成本。
2.2 人工智能的數(shù)據(jù)共享挑戰(zhàn)
一般來(lái)說(shuō),數(shù)據(jù)共享是指促進(jìn)組織中的每個(gè)人使用數(shù)據(jù)。人工智能的數(shù)據(jù)共享挑戰(zhàn)在于為整個(gè)企業(yè)的各種終端用戶(hù)提供各種各樣的人工智能數(shù)據(jù)。為此,數(shù)據(jù)供給和數(shù)據(jù)工程以及數(shù)據(jù)發(fā)現(xiàn)和探索都是人工智能的核心任務(wù)。
數(shù)據(jù)供給,即從技術(shù)上將新的源系統(tǒng)連接到一個(gè)數(shù)據(jù)湖,并提取選定的源數(shù)據(jù)。IT專(zhuān)家關(guān)心的是為源系統(tǒng)定義技術(shù)接口和訪問(wèn)權(quán)限,并與源系統(tǒng)所有者和數(shù)據(jù)的最終用戶(hù)合作開(kāi)發(fā)數(shù)據(jù)提取作業(yè)。因此, IT 部門(mén)經(jīng)常成為數(shù)據(jù)供應(yīng)的瓶頸因素。IT 專(zhuān)家、源系統(tǒng)所有者和終端用戶(hù)之間存在巨大的協(xié)調(diào)需求,這導(dǎo)致了耗時(shí)的迭代。這些因素極大地減緩和限制了數(shù)據(jù)供給,從而限制了人工智能對(duì)新數(shù)據(jù)源的使用。
數(shù)據(jù)工程,即數(shù)據(jù)的建模、集成和清理,通常由數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師完成。由于源系統(tǒng)的元數(shù)據(jù)不完整,數(shù)據(jù)工程需要具備單個(gè)源系統(tǒng)及其數(shù)據(jù)結(jié)構(gòu)的專(zhuān)門(mén)知識(shí),例如關(guān)于 ERP 系統(tǒng)中的數(shù)據(jù)結(jié)構(gòu)。此外,大多數(shù)復(fù)雜的、基于腳本的框架(如 Python )用于數(shù)據(jù)工程的編程任務(wù)。這些因素將數(shù)據(jù)工程限制在少數(shù)的專(zhuān)家團(tuán)隊(duì)。
數(shù)據(jù)的發(fā)現(xiàn)和探索也同樣如此。雖然提供了自助的可視化工具,但數(shù)據(jù)湖中數(shù)據(jù)的發(fā)現(xiàn)和探索受到了阻礙。缺乏關(guān)于業(yè)務(wù)含義和數(shù)據(jù)質(zhì)量的全面元數(shù)據(jù),使非專(zhuān)家用戶(hù)無(wú)法輕松使用數(shù)據(jù)。例如,市場(chǎng)營(yíng)銷(xiāo)專(zhuān)家必須聯(lián)系幾個(gè)不同的數(shù)據(jù)工程師,才能準(zhǔn)備不同類(lèi)型的市場(chǎng)數(shù)據(jù),并理解數(shù)據(jù)的含義和相互關(guān)系。此外,數(shù)據(jù)使用的合規(guī)審批一般是基于專(zhuān)家對(duì)數(shù)據(jù)的檢查。這些自動(dòng)化程度低的過(guò)程也減緩了人工智能對(duì)數(shù)據(jù)的使用。
2.3 人工智能的數(shù)據(jù)治理挑戰(zhàn)
一般來(lái)說(shuō),數(shù)據(jù)治理是關(guān)于創(chuàng)建組織結(jié)構(gòu)的, 并將數(shù)據(jù)視為企業(yè)資產(chǎn)。目前,數(shù)據(jù)的組織結(jié)構(gòu)在工業(yè)企業(yè)中只是初步實(shí)現(xiàn),主要集中在主數(shù)據(jù)和個(gè)人數(shù)據(jù)上。特別是,數(shù)據(jù)所有權(quán)和數(shù)據(jù)管理的結(jié)構(gòu)缺失,阻礙了 AI 的應(yīng)用。
在異構(gòu)的數(shù)據(jù)環(huán)境中,沒(méi)有統(tǒng)一的數(shù)據(jù)所有權(quán)組織。特別的,對(duì)于提取和存儲(chǔ)在不同數(shù)據(jù)庫(kù)中的數(shù)據(jù),沒(méi)有以通用的方式定義其數(shù)據(jù)所有權(quán)。例如,在許多情況下,數(shù)據(jù)湖中數(shù)據(jù)的所有者與源系統(tǒng)的數(shù)據(jù)所有者保持相同。也就是說(shuō),來(lái)自不同源系統(tǒng)的數(shù)據(jù)的集成需要不同數(shù)據(jù)所有者的審批。因此,數(shù)據(jù)不被視為公司擁有的企業(yè)資產(chǎn),而是作為某一業(yè)務(wù)功能的資產(chǎn),例如,財(cái)務(wù)部門(mén)是財(cái)務(wù)數(shù)據(jù)的數(shù)據(jù)擁有者。這導(dǎo)致在使用人工智能數(shù)據(jù)時(shí),責(zé)任不明確,風(fēng)險(xiǎn)和收益的分配不平衡,這些組織邊界顯著地阻礙了人工智能對(duì)數(shù)據(jù)的全面使用。
沒(méi)有一個(gè)全面的數(shù)據(jù)管理組織來(lái)建立通用的數(shù)據(jù)策略、標(biāo)準(zhǔn)和過(guò)程。工業(yè)企業(yè)現(xiàn)有的數(shù)據(jù)監(jiān)管結(jié)構(gòu)主要側(cè)重于定義各種主數(shù)據(jù),例如客戶(hù)主數(shù)據(jù)的通用數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),其他類(lèi)別數(shù)據(jù)的數(shù)據(jù)管理工作并沒(méi)有被系統(tǒng)地組織。例如,在不同的工廠和制造過(guò)程的制造數(shù)據(jù)中,有各種各樣的數(shù)據(jù)模型和數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。因此,缺乏制造數(shù)據(jù)的通用企業(yè)范圍策略,這顯著增加了 AI 數(shù)據(jù)工程的工作量和復(fù)雜性。
3、工業(yè)企業(yè)的數(shù)據(jù)生態(tài)系統(tǒng)
一般來(lái)說(shuō),數(shù)據(jù)生態(tài)系統(tǒng)是一個(gè)社會(huì)技術(shù)、自組織、松耦合的系統(tǒng),用于數(shù)據(jù)共享。數(shù)據(jù)生態(tài)系統(tǒng)的典型要素是數(shù)據(jù)生產(chǎn)者、數(shù)據(jù)消費(fèi)者和數(shù)據(jù)平臺(tái)。然而,數(shù)據(jù)生態(tài)系統(tǒng)的研究仍處于早期階段,主要集中在共享開(kāi)放的政府?dāng)?shù)據(jù)。因此,需要建立一個(gè)專(zhuān)門(mén)針對(duì)工業(yè)企業(yè)的數(shù)據(jù)生態(tài)系統(tǒng)。
3.1 數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費(fèi)者
一般將工業(yè)企業(yè)中的四種數(shù)據(jù)生產(chǎn)者區(qū)分開(kāi)來(lái): 過(guò)程是指整個(gè)價(jià)值鏈中的各種工業(yè)過(guò)程和資源,例如工程過(guò)程。人包括各種各樣的人,包括顧客和雇員。第三方包括企業(yè)組織范圍之外的行為者和資源,例如供應(yīng)商。
3.2 數(shù)據(jù)源
數(shù)據(jù)源涉及技術(shù)類(lèi)別和數(shù)據(jù)生成的來(lái)源。工業(yè)企業(yè)中主要有四種數(shù)據(jù)源: 企業(yè)數(shù)據(jù)是指企業(yè) IT 系統(tǒng)在整個(gè)工業(yè)價(jià)值鏈中生成的所有數(shù)據(jù),例如 PLM 和 ERP 系統(tǒng)。用戶(hù)生成的數(shù)據(jù)是指人類(lèi)行為者直接生成的數(shù)據(jù),例如社交媒體上的帖子或文檔。物聯(lián)網(wǎng)數(shù)據(jù)是指由物聯(lián)網(wǎng)設(shè)備產(chǎn)生的所有數(shù)據(jù),例如制造業(yè)機(jī)器數(shù)據(jù)或傳感器數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)是指除用戶(hù)生成的數(shù)據(jù)以外的所有網(wǎng)絡(luò)數(shù)據(jù),例如鏈接開(kāi)放數(shù)據(jù)或支付數(shù)據(jù)。
3.3 數(shù)據(jù)平臺(tái)
數(shù)據(jù)平臺(tái)是各種數(shù)據(jù)源數(shù)據(jù)處理的技術(shù)基礎(chǔ),使數(shù)據(jù)可用于各種數(shù)據(jù)應(yīng)用程序。數(shù)據(jù)生態(tài)系統(tǒng)基于三種數(shù)據(jù)平臺(tái): 企業(yè)數(shù)據(jù)湖、邊緣數(shù)據(jù)湖和企業(yè)數(shù)據(jù)市場(chǎng)。
企業(yè)數(shù)據(jù)湖構(gòu)成了一個(gè)邏輯上集中的、企業(yè)范圍的數(shù)據(jù)湖。它將原始數(shù)據(jù)庫(kù)方法與數(shù)據(jù)倉(cāng)庫(kù)概念相結(jié)合,即將各種原始數(shù)據(jù)的數(shù)據(jù)湖式存儲(chǔ)和處理與聚合數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)式分析相結(jié)合。支持批處理和流處理,可以對(duì)各種數(shù)據(jù)進(jìn)行各種分析。企業(yè)數(shù)據(jù)湖是基于數(shù)據(jù)建模和元數(shù)據(jù)管理的全面指導(dǎo)方針,并支持在企業(yè)范圍內(nèi)重用數(shù)據(jù)和數(shù)據(jù)管道。
邊緣數(shù)據(jù)湖表示對(duì)企業(yè)數(shù)據(jù)湖進(jìn)行補(bǔ)充的分散原始數(shù)據(jù)存儲(chǔ)。邊緣數(shù)據(jù)庫(kù)側(cè)重于實(shí)現(xiàn)基于本地?cái)?shù)據(jù)的數(shù)據(jù)應(yīng)用程序,很少有企業(yè)范圍內(nèi)的重用。它們特別適合分布式工廠的數(shù)據(jù)處理,有些工廠自己運(yùn)行邊緣數(shù)據(jù)庫(kù)。邊緣數(shù)據(jù)湖的典型 AI 用例是預(yù)測(cè)由企業(yè)單個(gè)工廠中的特定制造機(jī)器生成的時(shí)間序列數(shù)據(jù)。
企業(yè)數(shù)據(jù)市場(chǎng)構(gòu)成了數(shù)據(jù)生態(tài)系統(tǒng)的中心支點(diǎn)。它表示一個(gè)基于元數(shù)據(jù)的自助服務(wù)平臺(tái),用于連接數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費(fèi)者。目標(biāo)是匹配企業(yè)內(nèi)部的數(shù)據(jù)供需。然而,關(guān)于數(shù)據(jù)市場(chǎng)的研究還處于早期階段,目前還只是關(guān)注于外部企業(yè)數(shù)據(jù)市場(chǎng)的初步概念。
與企業(yè)數(shù)據(jù)湖和邊緣數(shù)據(jù)湖相比,企業(yè)數(shù)據(jù)市場(chǎng)不存儲(chǔ)實(shí)際數(shù)據(jù),它基于一個(gè)數(shù)據(jù)目錄,表示一個(gè)基于元數(shù)據(jù)的數(shù)據(jù)庫(kù)。也就是說(shuō),數(shù)據(jù)由元數(shù)據(jù)和對(duì)實(shí)際數(shù)據(jù)的引用表示。例如,“ 產(chǎn)品的質(zhì)量數(shù)據(jù)”可能包含該產(chǎn)品的元數(shù)據(jù)和存儲(chǔ)在企業(yè)數(shù)據(jù)湖中的一組傳感器數(shù)據(jù)。數(shù)據(jù)目錄不僅指數(shù)據(jù)湖中的數(shù)據(jù),還指源系統(tǒng)中的數(shù)據(jù),如 ERP 和 PLM 系統(tǒng)。此外,來(lái)自公開(kāi)API的元數(shù)據(jù)也在數(shù)據(jù)目錄中進(jìn)行了融合。因此,市場(chǎng)和數(shù)據(jù)目錄一起提供了企業(yè)中所有數(shù)據(jù)的基于元數(shù)據(jù)的概述。
關(guān)于市場(chǎng)提供的服務(wù),以自服務(wù)的方式處理數(shù)據(jù)消費(fèi)和數(shù)據(jù)生產(chǎn)。數(shù)據(jù)使用者的服務(wù)包括數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)準(zhǔn)備等內(nèi)容。例如,數(shù)據(jù)生產(chǎn)者的服務(wù)包括自服務(wù)的數(shù)據(jù)管理,以定義數(shù)據(jù)集上的元數(shù)據(jù),以及基于 API的數(shù)據(jù)發(fā)布。整個(gè)市場(chǎng)服務(wù)涉及整個(gè)數(shù)據(jù)生命周期: 數(shù)據(jù)采集和編排,發(fā)布和跟蹤,以及數(shù)據(jù)的準(zhǔn)備和探索。
3.4數(shù)據(jù)應(yīng)用
數(shù)據(jù)應(yīng)用是指使用數(shù)據(jù)平臺(tái)提供數(shù)據(jù)的各種應(yīng)用程序,可以分為描述性、診斷性、預(yù)測(cè)性和規(guī)定性的數(shù)據(jù)應(yīng)用。也就是說(shuō),數(shù)據(jù)應(yīng)用包含了從報(bào)表到機(jī)器學(xué)習(xí)的數(shù)據(jù)分析整個(gè)范圍。數(shù)據(jù)應(yīng)用為已定義的數(shù)據(jù)消費(fèi)者實(shí)現(xiàn)了已定義的用例,如制造業(yè)中的過(guò)程性能預(yù)測(cè)。
3.5 數(shù)據(jù)角色
數(shù)據(jù)角色包括與數(shù)據(jù)相關(guān)的組織角色。這些角色跨越了數(shù)據(jù)生態(tài)系統(tǒng)的所有層。工業(yè)企業(yè)中對(duì)人工智能和數(shù)據(jù)分析至關(guān)重要的關(guān)鍵角色包括數(shù)據(jù)擁有者、數(shù)據(jù)管理員、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家。
數(shù)據(jù)所有者對(duì)某些類(lèi)型的數(shù)據(jù)負(fù)有全面責(zé)任,例如,某一產(chǎn)品的所有數(shù)據(jù),被分配到業(yè)務(wù)部門(mén),而不是 IT 部門(mén),并且從業(yè)務(wù)角度負(fù)責(zé)這些數(shù)據(jù)的質(zhì)量、安全性和遵從性。在企業(yè)數(shù)據(jù)湖和邊緣數(shù)據(jù)湖中定義統(tǒng)一和透明的數(shù)據(jù)所有權(quán),并將這些結(jié)構(gòu)與源系統(tǒng)中的數(shù)據(jù)所有權(quán)分離。例如,存儲(chǔ)在企業(yè)數(shù)據(jù)庫(kù)中特定產(chǎn)品的所有數(shù)據(jù)都應(yīng)該由各自的業(yè)務(wù)單元擁有,以便于跨流程使用數(shù)據(jù)。
為了減少人工智能數(shù)據(jù)工程的復(fù)雜性和工作量,需要一個(gè)全面的數(shù)據(jù)管理組織,為各種數(shù)據(jù)建立通用的質(zhì)量標(biāo)準(zhǔn)和參考數(shù)據(jù)模型。例如,可以根據(jù) IEC 62264參考模型對(duì)制造數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,以簡(jiǎn)化企業(yè)不同工廠之間的數(shù)據(jù)集成。一般來(lái)說(shuō),數(shù)據(jù)工程師開(kāi)發(fā)數(shù)據(jù)管道,通過(guò)整合和清理數(shù)據(jù),為進(jìn)一步分析提供數(shù)據(jù)基礎(chǔ)。在此基礎(chǔ)上,數(shù)據(jù)科學(xué)家將重點(diǎn)放在特征工程的實(shí)際數(shù)據(jù)分析上,并應(yīng)用各種數(shù)據(jù)分析技術(shù)(例如,不同的機(jī)器學(xué)習(xí)算法)從數(shù)據(jù)中獲取洞察力。
4、從狹窄領(lǐng)域到企業(yè)級(jí)的AI應(yīng)用: 應(yīng)對(duì)挑戰(zhàn)與未來(lái)方向
數(shù)據(jù)生態(tài)系統(tǒng)通過(guò)解決數(shù)據(jù)挑戰(zhàn)為工業(yè)化的人工智能鋪平了道路,數(shù)據(jù)生態(tài)系統(tǒng)中所面臨的開(kāi)放性問(wèn)題指出了未來(lái)的研究方向。
4.1 應(yīng)對(duì)數(shù)據(jù)管理的挑戰(zhàn)
關(guān)于數(shù)據(jù)管理的挑戰(zhàn),數(shù)據(jù)生態(tài)系統(tǒng)是基于一組綜合的數(shù)據(jù)平臺(tái),即企業(yè)數(shù)據(jù)湖、邊緣數(shù)據(jù)湖和企業(yè)數(shù)據(jù)市場(chǎng)。這些平臺(tái)為 AI 和數(shù)據(jù)分析定義了企業(yè)數(shù)據(jù)的體系結(jié)構(gòu)。為此,企業(yè)數(shù)據(jù)湖合并了企業(yè)數(shù)據(jù)倉(cāng)庫(kù),避免了兩個(gè)獨(dú)立的企業(yè)數(shù)據(jù)平臺(tái)和相應(yīng)的數(shù)據(jù)冗余。它基于一套統(tǒng)一的數(shù)據(jù)建模準(zhǔn)則和參考數(shù)據(jù)模型,以解決數(shù)據(jù)建模方面的問(wèn)題。例如,來(lái)自 ERP 系統(tǒng)的企業(yè)數(shù)據(jù)是使用數(shù)據(jù)庫(kù)來(lái)建模的,以便能夠與物聯(lián)網(wǎng)設(shè)備的傳感器數(shù)據(jù)進(jìn)行快速集成。此外,邊緣數(shù)據(jù)庫(kù)僅提供了最小限度的指導(dǎo)方針,為用例探索和原型開(kāi)發(fā)提供了靈活性,但它們僅限于本地?cái)?shù)據(jù),特別是在單個(gè)工廠中。
企業(yè)數(shù)據(jù)庫(kù)平臺(tái)的數(shù)據(jù)架構(gòu)設(shè)計(jì)本身具有挑戰(zhàn)性,因?yàn)樗仨毞?wù)于各種各樣的數(shù)據(jù)應(yīng)用,從描述性報(bào)告到預(yù)測(cè)性和規(guī)范性的機(jī)器學(xué)習(xí)應(yīng)用。特別是,定義一個(gè)合適的數(shù)據(jù)存儲(chǔ)和處理技術(shù)是一個(gè)開(kāi)發(fā)的問(wèn)題。企業(yè)數(shù)據(jù)庫(kù)傾向于采用多語(yǔ)言的方法,為不同的數(shù)據(jù)應(yīng)用提供適用的技術(shù)。為此,遵循 lambda 架構(gòu)范式,將關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)、 NoSQL 系統(tǒng)和實(shí)時(shí)事件結(jié)合起來(lái)。在這個(gè)多語(yǔ)言平臺(tái)上,為不同類(lèi)型的數(shù)據(jù)應(yīng)用確定了合適的架構(gòu)模式,是人工智能用例標(biāo)準(zhǔn)化實(shí)現(xiàn)的一個(gè)有價(jià)值方向。此外,組織企業(yè)數(shù)據(jù)湖中的所有數(shù)據(jù)需要一個(gè)超越數(shù)據(jù)建模的總體結(jié)構(gòu)。
作為企業(yè)數(shù)據(jù)市場(chǎng)的一部分,數(shù)據(jù)目錄解決了元數(shù)據(jù)管理方面的問(wèn)題。數(shù)據(jù)目錄的重點(diǎn)是獲取、存儲(chǔ)和提供所有數(shù)據(jù)湖和源系統(tǒng)的各種元數(shù)據(jù)(技術(shù)、業(yè)務(wù)和操作元數(shù)據(jù))。通過(guò)這種方式,它可以使數(shù)據(jù)分析和質(zhì)量評(píng)估成為人工智能用例的重要組成部分,例如,評(píng)估企業(yè)數(shù)據(jù)庫(kù)中數(shù)據(jù)集的來(lái)源。數(shù)據(jù)目錄代表了一種相對(duì)較新的數(shù)據(jù)管理工具,主要關(guān)注于批量存儲(chǔ)系統(tǒng)中元數(shù)據(jù)的管理。
4.2 應(yīng)對(duì)數(shù)據(jù)共享的挑戰(zhàn)
數(shù)據(jù)共享挑戰(zhàn)中的數(shù)據(jù)提供、數(shù)據(jù)工程、數(shù)據(jù)發(fā)現(xiàn)和探索,都涉及到自助服務(wù)和元數(shù)據(jù)管理,要由基于數(shù)據(jù)目錄的企業(yè)數(shù)據(jù)市場(chǎng)來(lái)解決。數(shù)據(jù)目錄為數(shù)據(jù)生態(tài)系統(tǒng)提供了全面的元數(shù)據(jù)管理,極大地促進(jìn)了數(shù)據(jù)工程以及各種終端用戶(hù)的數(shù)據(jù)發(fā)現(xiàn)和探索。企業(yè)數(shù)據(jù)市場(chǎng)還為各種數(shù)據(jù)生產(chǎn)者和消費(fèi)者提供跨越了的整個(gè)數(shù)據(jù)生命周期的自助服務(wù)。例如,制造業(yè)的工程師通過(guò)在數(shù)據(jù)市場(chǎng)中獲得自服務(wù)工作流來(lái)提供企業(yè)數(shù)據(jù)庫(kù)中新機(jī)器的傳感器數(shù)據(jù)。
對(duì)于內(nèi)部的企業(yè)數(shù)據(jù)市場(chǎng)來(lái)說(shuō),既不存在現(xiàn)成的工具,也不存在健全的概念,需要作為一個(gè)單獨(dú)的軟件來(lái)實(shí)現(xiàn)。為此,有多種實(shí)現(xiàn)選擇,例如,使用語(yǔ)義技術(shù)對(duì)元數(shù)據(jù)和服務(wù)進(jìn)行建模。
4.3 應(yīng)對(duì)數(shù)據(jù)治理挑戰(zhàn)
面對(duì)數(shù)據(jù)治理的挑戰(zhàn),數(shù)據(jù)生態(tài)系統(tǒng)定義了一系列與數(shù)據(jù)相關(guān)的關(guān)鍵角色,即數(shù)據(jù)擁有者、數(shù)據(jù)管理者、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家。因此,數(shù)據(jù)所有權(quán)和數(shù)據(jù)管理這兩個(gè)方面問(wèn)題都得到了解決??缦到y(tǒng)的數(shù)據(jù)所有權(quán)組織有助于為 AI 用例提供符合要求的源數(shù)據(jù),數(shù)據(jù)使用的審批和責(zé)任已經(jīng)明確界定。此外,通過(guò)建立參考數(shù)據(jù)模型和數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),對(duì)各種數(shù)據(jù)的管理組織可以顯著提高數(shù)據(jù)質(zhì)量,并減少數(shù)據(jù)工程工作。在這種情況下,數(shù)據(jù)目錄通過(guò)為數(shù)據(jù)所有者和數(shù)據(jù)管理員提供關(guān)鍵指標(biāo)來(lái)支持?jǐn)?shù)據(jù)治理。
一個(gè)主要的問(wèn)題是這些角色在現(xiàn)有組織結(jié)構(gòu)中如何實(shí)現(xiàn)。一般來(lái)說(shuō),各種各樣的數(shù)據(jù)治理框架和成熟度模型只提供關(guān)于如何處理數(shù)據(jù)治理的高級(jí)指導(dǎo),例如哪些主題需要處理,以及定義什么角色。考慮到行業(yè)和企業(yè)文化等因素,缺乏關(guān)于如何實(shí)施數(shù)據(jù)治理的具體指導(dǎo)方針,例如,決定何時(shí)按業(yè)務(wù)單位或業(yè)務(wù)流程來(lái)組織數(shù)據(jù)的所有權(quán)。
5、小結(jié)
數(shù)據(jù)挑戰(zhàn)是工業(yè)企業(yè)應(yīng)用人工智能的主要障礙。人工智能目前是以一種孤立的方式進(jìn)行,導(dǎo)致了多語(yǔ)言和異構(gòu)的企業(yè)數(shù)據(jù)情景。這對(duì)系統(tǒng)數(shù)據(jù)管理、數(shù)據(jù)共享和數(shù)據(jù)治理提出了相當(dāng)大的挑戰(zhàn),并阻止了 AI 在工業(yè)企業(yè)中的廣泛使用。
為了解決這些問(wèn)題,將工業(yè)企業(yè)的數(shù)據(jù)生態(tài)系統(tǒng)作為指導(dǎo)框架和總體架構(gòu),所有數(shù)據(jù)挑戰(zhàn)都將得到解決。數(shù)據(jù)生態(tài)系統(tǒng)的技術(shù)性質(zhì)使各組織能夠處理數(shù)據(jù)管理和數(shù)據(jù)治理挑戰(zhàn)的組織方面:確定了數(shù)據(jù)角色和數(shù)據(jù)平臺(tái)。此外,數(shù)據(jù)生產(chǎn)者和數(shù)消費(fèi)者的數(shù)松散耦合和自組織性質(zhì)解決了數(shù)據(jù)共享的挑戰(zhàn),例如,企業(yè)數(shù)據(jù)市場(chǎng)提供了全面的自助服務(wù)和元數(shù)據(jù)管理。在這一點(diǎn)上,數(shù)據(jù)生態(tài)系統(tǒng)不僅適用于人工智能,也適用于任何類(lèi)型的數(shù)據(jù)分析。