偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

這次終于有人把數(shù)據(jù)架構講明白了!

大數(shù)據(jù)
數(shù)據(jù)架構是指組織和管理數(shù)據(jù)的方式,包括數(shù)據(jù)的存儲、處理、流動和使用方式。它涉及到如何設計和構建數(shù)據(jù)模型、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)交換機制等,以確保數(shù)據(jù)的有效性、安全性和可用性。數(shù)據(jù)架構的目標是支持業(yè)務需求、提高數(shù)據(jù)的質量和一致性,并促進數(shù)據(jù)的共享和集成。

01 什么是數(shù)據(jù)架構?

數(shù)據(jù)架構描述如何管理從收集到轉換、分發(fā)和使用的數(shù)據(jù)。它為數(shù)據(jù)及其在數(shù)據(jù)存儲系統(tǒng)中流動的方式設定了藍圖。它是數(shù)據(jù)處理操作和人工智能 (AI) 應用程序的基礎。

數(shù)據(jù)架構的設計應該由業(yè)務需求驅動,數(shù)據(jù)架構師和數(shù)據(jù)工程師使用這些需求來定義相應的數(shù)據(jù)模型以及支持它的底層數(shù)據(jù)結構。這些設計通常有助于滿足業(yè)務需求,例如報告或數(shù)據(jù)科學計劃。

隨著物聯(lián)網(wǎng) (IoT) 等新興技術的出現(xiàn),新的數(shù)據(jù)源不斷涌現(xiàn),良好的數(shù)據(jù)架構可以確保數(shù)據(jù)易于管理且具有利用價值,從而支持數(shù)據(jù)生命周期管理。更具體地說,它可以避免冗余數(shù)據(jù)存儲,通過清理和重復數(shù)據(jù)刪除來提高數(shù)據(jù)質量,并支持新的應用程序?,F(xiàn)代數(shù)據(jù)架構還提供了跨域(例如部門或地理區(qū)域之間)集成數(shù)據(jù)的機制,打破了數(shù)據(jù)孤島,因而消除了將所有數(shù)據(jù)存儲在同一地方所帶來的巨大復雜性。

現(xiàn)代數(shù)據(jù)架構經常利用云平臺來管理和處理數(shù)據(jù)。雖然它的成本更高,但它的計算可擴展性使重要數(shù)據(jù)處理任務能夠快速完成。存儲可擴展性還有助于應對不斷增長的數(shù)據(jù)量,并確保所有相關數(shù)據(jù)都可用。

圖片


02 數(shù)據(jù)架構的發(fā)展歷程

1. 早期階段(1960年代-1970年代)

文件系統(tǒng)時代:早期的數(shù)據(jù)存儲主要依賴于文件系統(tǒng),數(shù)據(jù)存儲在平面文件中。數(shù)據(jù)管理和處理通常是應用程序內部的一部分,這種方式很難實現(xiàn)數(shù)據(jù)共享和整合。

層次模型和網(wǎng)狀模型:1960年代末和1970年代初,出現(xiàn)了層次數(shù)據(jù)模型(如IBM的Information Management System)和網(wǎng)狀數(shù)據(jù)模型(如CODASYL DBTG模型)。這些模型允許更復雜的數(shù)據(jù)關系,但仍然較為復雜且不夠靈活。

2. 關系數(shù)據(jù)庫的興起(1970年代-1980年代)

關系模型:1970年,Edgar Codd提出了關系模型,它用數(shù)學理論來描述數(shù)據(jù)結構和操作方法。關系模型使得數(shù)據(jù)組織更加靈活,并支持使用結構化查詢語言(SQL)來進行數(shù)據(jù)操作。

數(shù)據(jù)庫管理系統(tǒng)(DBMS):隨著關系模型的普及,關系數(shù)據(jù)庫管理系統(tǒng)(如IBM的DB2、Oracle、MySQL)迅速發(fā)展,成為企業(yè)數(shù)據(jù)管理的主要工具。

3. 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘(1980年代-1990年代)

數(shù)據(jù)倉庫:數(shù)據(jù)倉庫概念由Bill Inmon和Ralph Kimball在1990年代提出,它涉及將來自不同數(shù)據(jù)源的數(shù)據(jù)整合到一個中央倉庫中,以支持決策分析。數(shù)據(jù)倉庫設計強調數(shù)據(jù)整合、歷史數(shù)據(jù)的保存以及查詢和報告的高效性。

數(shù)據(jù)挖掘:數(shù)據(jù)挖掘技術開始得到關注,用于從大量數(shù)據(jù)中提取有價值的信息和模式。

4. 大數(shù)據(jù)和NoSQL(2000年代)

大數(shù)據(jù):隨著互聯(lián)網(wǎng)和社交媒體的興起,數(shù)據(jù)的規(guī)模和多樣性大幅增加,傳統(tǒng)的關系數(shù)據(jù)庫面臨挑戰(zhàn)。大數(shù)據(jù)技術(如Hadoop、Spark)應運而生,用于處理和分析海量數(shù)據(jù)。

NoSQL數(shù)據(jù)庫:為了處理非結構化數(shù)據(jù)和高并發(fā)請求,NoSQL數(shù)據(jù)庫(如MongoDB、Cassandra)獲得了廣泛應用。NoSQL數(shù)據(jù)庫不依賴于傳統(tǒng)的關系模型,支持更靈活的數(shù)據(jù)存儲和訪問模式。

5. 數(shù)據(jù)湖和云計算(2010年代至今)

數(shù)據(jù)湖:數(shù)據(jù)湖的概念強調將各種類型的數(shù)據(jù)(結構化、半結構化、非結構化)以原始格式存儲在一個集中式存儲系統(tǒng)中。數(shù)據(jù)湖支持靈活的數(shù)據(jù)訪問和分析,常與大數(shù)據(jù)技術結合使用。

云數(shù)據(jù)架構:云計算的普及使得數(shù)據(jù)存儲和處理的模式發(fā)生了變化。云數(shù)據(jù)庫(如Amazon RDS、Google BigQuery)和數(shù)據(jù)倉庫服務(如Snowflake)提供了彈性、可擴展的解決方案,使得企業(yè)能夠以更低的成本管理和分析數(shù)據(jù)。

圖片

數(shù)據(jù)架構的發(fā)展反映了技術的進步和業(yè)務需求的變化。從最初的簡單文件存儲,到復雜的關系模型、數(shù)據(jù)倉庫、大數(shù)據(jù)技術,再到現(xiàn)代的云計算和數(shù)據(jù)湖架構,數(shù)據(jù)架構不斷演變,以應對不斷增長的數(shù)據(jù)量和復雜的數(shù)據(jù)處理需求。

03 流行的企業(yè)架構 

數(shù)據(jù)架構可以借鑒流行的企業(yè)架構框架,包括 TOGAF、DAMA-DMBOK 2 和 Zachman 企業(yè)架構框架。

1.TOGAF

這個企業(yè)架構方法由 The Open Group 于 1995 年開發(fā),IBM 是該組織的白金會員。

該架構有四大支柱:

  • 業(yè)務架構,它定義企業(yè)的組織結構、業(yè)務策略和流程。
  • 數(shù)據(jù)架構,它描述概念、邏輯和物理數(shù)據(jù)資產,以及這些資產在整個生命周期中的存儲和管理方式。
  • 應用程序架構,它代表應用程序系統(tǒng),以及這些系統(tǒng)與關鍵業(yè)務流程以及相互之間的關系。
  • 技術架構,它描述支持任務關鍵型應用程序所需的技術基礎架構(硬件、軟件和網(wǎng)絡)。

因此,TOGAF 為設計和實現(xiàn)企業(yè)的 IT 架構(包括其數(shù)據(jù)架構)提供了一個完整的框架。

圖片


2.DAMA-DMBOK 2

《DAMA數(shù)據(jù)管理知識體系指南 第二版》的定義:識別企業(yè)的數(shù)據(jù)需求,并設計和維護總藍圖以滿足需求,使用總藍圖來指導數(shù)據(jù)集成、控制數(shù)據(jù)資產、并使數(shù)據(jù)投資與業(yè)務戰(zhàn)略保持一致。主要由2部分構成:

(1)數(shù)據(jù)模型:企業(yè)數(shù)據(jù)模型是一個整體的、企業(yè)級的、獨立實施的概念或邏輯數(shù)據(jù)模型,為企業(yè)提供通用的、一致的數(shù)據(jù)視圖。企業(yè)數(shù)據(jù)模型包括數(shù)據(jù)實體(如業(yè)務概念),數(shù)據(jù)實體間的關系、關鍵業(yè)務規(guī)則和一些關鍵屬性,它為所有數(shù)據(jù)和數(shù)據(jù)相關的項目奠定了基礎。

(2)數(shù)據(jù)流設計:定義數(shù)據(jù)庫、應用、平臺和網(wǎng)絡(組件)之間的需求和主藍圖。這些數(shù)據(jù)流展示了數(shù)據(jù)在業(yè)務流程、不同存儲位置、業(yè)務角色和技術組件間的流動。

圖片

圖片

圖片

詳見:DAMA數(shù)據(jù)管理之數(shù)據(jù)架構

3.Zachman 企業(yè)架構框架

該框架最初由 IBM 的 John Zachman 于 1987 年開發(fā),使用一個從上下文到詳細信息的六層矩陣,映射了諸如為什么、怎么做和是什么等六個問題。

圖片

六行(視點):分別代表不同利益相關者的角度,包括計劃者視圖(范圍上下文)、所有者視圖(業(yè)務概念)、設計者視圖(系統(tǒng)邏輯)、實現(xiàn)者視圖(技術物理)、子構造函數(shù)視圖(組件組裝)和用戶視圖(操作類)。 

六列(W5H):基于英語疑問句“什么”、“哪里”、“誰”、“何時”、“為什么”和“如何”(稱為W5H),代表向企業(yè)提出的疑問或問題。 

Zachman 企業(yè)架構框架優(yōu)勢如下: 

  • 全面覆蓋:Zachman框架提供了對企業(yè)的全面視圖,包括數(shù)據(jù)、流程、技術和組織關系,確保企業(yè)沒有任何方面被忽視。 
  • 改善對齊:橋接了業(yè)務目標和IT計劃之間的差距,確保技術支持戰(zhàn)略目標。 
  • 增強溝通:建立了討論復雜系統(tǒng)和促進業(yè)務與IT利益相關者之間更好溝通的共同語言。 
  • 風險管理:通過全面理解所有架構組件及其相互依賴性,識別和緩解風險。 
  • 操作效率:通過識別效率低下和優(yōu)化流程和系統(tǒng),提高資源管理。 
  • 戰(zhàn)略規(guī)劃和轉型:指導戰(zhàn)略規(guī)劃過程,確保與長期業(yè)務目標的對齊,并為組織轉型計劃提供清晰的路線圖。 
  • 一致性和標準化:確保組織內架構實踐和方法論的一致性,并標準化文檔和架構實踐,使系統(tǒng)更易于維護和更新。 
  • 與其他框架集成:可以與TOGAF、敏捷或ITIL等其他實踐相結合,增強它們的有效性。

另外,在《華為數(shù)據(jù)之道》一書以及華為很多公開材料中,并沒有明確給出數(shù)據(jù)架構,而是給出了信息架構的概念:“是指以結構化的方式描述在業(yè)務運作和管理決策中所需要的各類信息及其關系的一套整體組件規(guī)范。”

從定義上看,華為給出的信息架構和我們所說的數(shù)據(jù)架構是十分相識的,它包括了數(shù)據(jù)資產目錄、數(shù)據(jù)標準、數(shù)據(jù)模型、數(shù)據(jù)分布四個部分。

圖片

▲圖:信息架構,來源《華為數(shù)據(jù)治理之旅》

  • 數(shù)據(jù)資產目錄:通過分層結構的表達,實現(xiàn)對數(shù)據(jù)的分類和定義,建立數(shù)據(jù)模型的輸入,形成完善的企業(yè)資產地圖,也在一定程度上為企業(yè)數(shù)據(jù)治理、業(yè)務變革提供了指引?;跀?shù)據(jù)資產目錄可以識別數(shù)據(jù)管理責任,解決數(shù)據(jù)問題爭議,幫助企業(yè)更好地對業(yè)務變革進行規(guī)劃設計,避免重復建設。
  • 數(shù)據(jù)標準:數(shù)據(jù)標準定義公司層面需共同遵守的屬性層數(shù)據(jù)含義和業(yè)務規(guī)則,是公司層面對某個數(shù)據(jù)的共同理解,這些理解一旦確定下來,就應作為企業(yè)層面的標準在企業(yè)內被共同遵守。
  • 數(shù)據(jù)模型:是從數(shù)據(jù)視角對現(xiàn)實世界特征的模擬和抽象,根據(jù)業(yè)務需求抽取信息的主要特征,反映業(yè)務信息(對象)之間的關聯(lián)關系。
  • 數(shù)據(jù)分布:定義了數(shù)據(jù)產生的源頭及在各流程和IT系統(tǒng)間的流動情況。

04 數(shù)據(jù)管理系統(tǒng)及數(shù)據(jù)架構的類型 

1.  數(shù)據(jù)倉庫

數(shù)據(jù)倉庫將來自企業(yè)內不同關系數(shù)據(jù)源的數(shù)據(jù)聚合到單個集中的統(tǒng)一存儲庫中。提取后,數(shù)據(jù)流經 ETL 數(shù)據(jù)管道,經過各種數(shù)據(jù)轉換,才能滿足預定義數(shù)據(jù)模型的需求。一旦加載到數(shù)據(jù)倉庫中,數(shù)據(jù)就可以支持不同的商業(yè)智能 (BI) 和數(shù)據(jù)科學應用程序。

圖片

圖片


圖片

2.數(shù)據(jù)集市

數(shù)據(jù)集市是一個有針對性的數(shù)據(jù)倉庫版本,它包含一個較小的數(shù)據(jù)子集,這些數(shù)據(jù)對組織內的單個團隊或選定用戶組很重要且是必需的。由于數(shù)據(jù)集市包含較小的數(shù)據(jù)子集,因此在使用更廣泛的數(shù)據(jù)倉庫數(shù)據(jù)集時,數(shù)據(jù)集市使部門或業(yè)務線能夠更快地發(fā)現(xiàn)更有針對性的洞察。

最初創(chuàng)建數(shù)據(jù)集市的目的是應對組織在 20 世紀 90 年代建立數(shù)據(jù)倉庫的困難。當時集成來自整個組織的數(shù)據(jù)需要進行大量手動編碼,而且非常耗時。與集中式數(shù)據(jù)倉庫相比,數(shù)據(jù)集市的范圍更有限,使其實現(xiàn)起來更容易且更快速。

圖片


3.  數(shù)據(jù)湖

數(shù)據(jù)倉庫存儲已處理的數(shù)據(jù),而數(shù)據(jù)湖存儲原始數(shù)據(jù),通常為 PB 級別。數(shù)據(jù)湖可以存儲結構化和非結構化數(shù)據(jù),這使其與其他數(shù)據(jù)存儲庫不同。這種靈活的存儲需求對于數(shù)據(jù)科學家、數(shù)據(jù)工程師和開發(fā)人員尤其有用。

最初創(chuàng)建數(shù)據(jù)湖的目的是應對數(shù)據(jù)倉庫無法處理數(shù)量、速度和種類不斷增加的大數(shù)據(jù)的情況。雖然數(shù)據(jù)湖比數(shù)據(jù)倉庫慢,但它們的價格也更低廉,因為在采集之前幾乎不需要數(shù)據(jù)準備。

圖片

圖片

4.數(shù)據(jù)結構

數(shù)據(jù)結構是一種架構,它側重于數(shù)據(jù)提供者和數(shù)據(jù)使用者之間的數(shù)據(jù)價值鏈中的數(shù)據(jù)集成、數(shù)據(jù)工程和治理的自動化 數(shù)據(jù)結構基于“活動元數(shù)據(jù)”的概念,使用知識圖、語義、數(shù)據(jù)挖掘和機器學習 (AI) 技術來發(fā)現(xiàn)各種類型元數(shù)據(jù)(例如系統(tǒng)日志、社交等)中的模式。然后,將這種洞察應用于自動化并編排數(shù)據(jù)價值鏈。

例如,它可以使數(shù)據(jù)使用者能夠找到數(shù)據(jù)產品,然后自動向他們提供該數(shù)據(jù)產品。數(shù)據(jù)產品和數(shù)據(jù)使用者之間數(shù)據(jù)訪問的增加減少了數(shù)據(jù)孤島,并提供了更完整的組織數(shù)據(jù)視圖。數(shù)據(jù)結構是一種具有巨大潛力的新興技術,可用于增強客戶概要分析、欺詐檢測和預防性維護。根據(jù) Gartner 的數(shù)據(jù),數(shù)據(jù)結構使集成設計時間減少 30%,部署時間減少 30%,維護時間減少 70%。

圖片


5.數(shù)據(jù)網(wǎng)格

數(shù)據(jù)網(wǎng)格是一種去中心化的數(shù)據(jù)架構,按業(yè)務領域來組織數(shù)據(jù)。使用數(shù)據(jù)網(wǎng)格時,組織需要不再將數(shù)據(jù)視為流程的副產品,而是開始將其視為產品本身。數(shù)據(jù)生產者充當數(shù)據(jù)產品所有者。作為主題專家,數(shù)據(jù)生產者可以利用他們對數(shù)據(jù)主要使用者的理解為他們設計 API。這些 API 也可以從組織的其他部分訪問,提供了更廣泛的受管數(shù)據(jù)訪問渠道。

圖片

數(shù)據(jù)湖、數(shù)據(jù)倉庫等相對傳統(tǒng)的存儲系統(tǒng)可以作為多個去中心化的數(shù)據(jù)存儲庫來實現(xiàn)數(shù)據(jù)網(wǎng)格。數(shù)據(jù)網(wǎng)格還可以與數(shù)據(jù)結構一起使用,借助數(shù)據(jù)結構的自動化,可以更快地創(chuàng)建新的數(shù)據(jù)產品或執(zhí)行全球治理。

05 數(shù)據(jù)架構的優(yōu)勢

結構完善的數(shù)據(jù)架構可以為企業(yè)提供許多關鍵優(yōu)勢,其中包括:

1.減少冗余:不同來源中可能存在重疊的數(shù)據(jù)字段,從而會導致不一致、數(shù)據(jù)不準確和錯失數(shù)據(jù)集成機會的風險。良好的數(shù)據(jù)架構可以使數(shù)據(jù)存儲方式標準化,并且可能減少重復,從而改善質量和整體分析。

2.提高數(shù)據(jù)質量:精心設計的數(shù)據(jù)架構可以解決管理不善的數(shù)據(jù)湖(也稱為“數(shù)據(jù)沼澤”)所帶來的一些挑戰(zhàn)。數(shù)據(jù)沼澤缺乏適當?shù)臄?shù)據(jù)質量和數(shù)據(jù)治理實踐來提供有洞察力的學習。數(shù)據(jù)架構可以幫助實施數(shù)據(jù)治理和數(shù)據(jù)安全標準,從而對數(shù)據(jù)管道進行適當?shù)谋O(jiān)督,使其按預期運行。通過改進數(shù)據(jù)質量和治理,數(shù)據(jù)架構可以確保數(shù)據(jù)以一種現(xiàn)在和將來都具有價值的方式存儲。

3.支持集成:由于數(shù)據(jù)存儲的技術限制和企業(yè)內部的組織障礙,數(shù)據(jù)經常孤立存在。當今的數(shù)據(jù)架構應該旨在促進跨域數(shù)據(jù)集成,以便不同的地理區(qū)域和業(yè)務部門可以訪問彼此的數(shù)據(jù)。這有助于對常用指標(例如費用、收入以及相關驅動因素)形成更準確、更一致的理解。它還支持更全面地了解客戶、產品和地理位置,從而更好地為決策提供信息。

4.數(shù)據(jù)生命周期管理:現(xiàn)代數(shù)據(jù)架構可以解決如何隨時間推移管理數(shù)據(jù)的問題。隨著存在時間的增加和訪問頻率的降低,數(shù)據(jù)的使用價值通常會減少。隨著時間的推移,可以將數(shù)據(jù)遷移到成本更低、速度更慢的存儲類型,這樣就可以繼續(xù)用于報告和審計,但無需使用高性能存儲。

架構的本質是不斷減少系統(tǒng)的“熵”,數(shù)據(jù)架構也一樣。數(shù)據(jù)架構的底層邏輯具有一定的數(shù)據(jù)資源規(guī)劃的內涵,是對企業(yè)數(shù)據(jù)進行結構化、有序化治理,讓企業(yè)從數(shù)據(jù)孤島走向數(shù)據(jù)共享,讓企業(yè)數(shù)據(jù)能夠更好的被管理、流動和使用,充分釋放數(shù)據(jù)價值。

在企業(yè)的數(shù)據(jù)項目實踐中,數(shù)據(jù)架構連接了企業(yè)的數(shù)據(jù)管理現(xiàn)狀和未來要實現(xiàn)的目標,不必糾結哪套體系的數(shù)據(jù)架構理論更嚴謹、邏輯更合理,而要將重點放在數(shù)據(jù)目標的實現(xiàn)上,“能抓住老鼠的那只貓就是好貓!”

下面這份材料說明了數(shù)據(jù)架構概念、重點介紹了數(shù)據(jù)架構為企業(yè)帶來的價值與收益及數(shù)據(jù)架構規(guī)劃方法論,最后列舉了案例分析,供參考借鑒。

責任編輯:龐桂玉 來源: 一個數(shù)據(jù)的自留地
相關推薦

2022-04-22 11:26:55

數(shù)據(jù)管理架構

2021-06-29 11:21:41

數(shù)據(jù)安全網(wǎng)絡安全黑客

2020-11-30 08:34:44

大數(shù)據(jù)數(shù)據(jù)分析技術

2022-01-05 18:27:44

數(shù)據(jù)挖掘工具

2022-04-12 18:29:41

元數(shù)據(jù)系統(tǒng)架構

2022-04-27 18:25:02

數(shù)據(jù)采集維度

2021-12-03 18:25:56

數(shù)據(jù)指標本質

2021-10-09 00:02:04

DevOps敏捷開發(fā)

2021-06-13 12:03:46

SaaS軟件即服務

2022-03-27 20:32:28

Knative容器事件模型

2020-10-29 06:09:37

數(shù)據(jù)中臺數(shù)據(jù)大數(shù)據(jù)

2022-04-18 07:37:30

數(shù)據(jù)信息知識

2025-07-30 04:44:00

數(shù)據(jù)跨境流動

2022-05-09 20:23:51

數(shù)據(jù)采集

2022-05-01 22:09:27

數(shù)據(jù)模型大數(shù)據(jù)

2021-12-07 18:24:26

數(shù)據(jù)安全

2022-06-21 11:14:51

大數(shù)據(jù)系統(tǒng)架構

2022-06-26 18:52:02

Hadoop大數(shù)據(jù)系統(tǒng)

2021-03-03 21:31:24

量化投資利潤

2021-02-14 00:21:37

區(qū)塊鏈數(shù)字貨幣金融
點贊
收藏

51CTO技術棧公眾號