淺析數據工程
原創(chuàng)目前數字化轉型對于市場來說并不是一個新鮮事物,從技術視角來看,盡管大模型的涌現帶來人們的更多關注,但人工智能與大數據相關技術仍處于創(chuàng)新階段,各行業(yè)正在尋找和探索價值場景與新興技術融合的平衡點,希望在新興技術的加持下能夠在激烈的競爭中占據有利位置。
數據,數據
數據是新一代技術革命下的生產要素,掌握了生產要素與生產要素的加工方式就是掌握了數字經濟下的價值密碼,這已經是業(yè)界的基本共識。
企業(yè)想要更好地管理數據并利用數據,就必須了解數據在現代企業(yè)中的產生源頭、組織形態(tài)等。企業(yè)數字化轉型一般分為三個階段:
圖片
從數據產生到數據價值落地的過程中,數據的信息密度越來越高,其中蘊含的知識也越來越豐富。通過分析企業(yè)數據全流程,企業(yè)可以抓住重點環(huán)節(jié),因地制宜地制定落地規(guī)劃,數據 全流程分析是每個企業(yè)在進行數據工程落地的前提。
數據工程
從軟件開發(fā)出現到軟件開發(fā)逐步規(guī)模化的過程中, IT 從業(yè)者 們一點點積累下關于需求、設計、實現、測試、運維等方面的工作最佳實踐。數據在企業(yè)內部流轉會經歷多個階段,而每個階段之間還存在著各種各樣的問題。
圖片
數據工程則是幫助企業(yè)高效地挖掘數據價值,持續(xù)地賦能業(yè)務增長, 加速數據到資產的升華過程的最佳實踐。
數據工程包含了需求、設計、構建、測試、維護演進等階段,涵蓋了項目管理、開發(fā)過程管理、工程工具與方 法、構建管理、質量管理, 是一套為了應對規(guī)?;a和使用數據、為業(yè)務提供數據支撐, 最終產生價值的體系。
- 數據工程是一套體系
- 數據工程是用來加速數據到價值過程的規(guī)?;罴褜嵺`
- 數據工程是軟件工程的一部分
- 數據工程不是傳統軟件工程在數據領域的簡單重現
對于企業(yè)來說,數據工程包括三個戰(zhàn)略環(huán)節(jié):數據愿景對齊、數據工程落地實施、數據持續(xù)運營。
圖片
愿景對齊的第一步是通過定義、統一業(yè)務價值度量框架來識別業(yè)務價值場景。探索出的業(yè)務價值場景需要包含場景的背景、價值點、 所涉及的用戶、需要什么樣的能力、用戶旅程、所涉及的實體、風險等信息。
落地過程就如同孕育新生命一般,其中數據梳理規(guī) 劃藍圖,數據架構設計規(guī)劃骨架,數據模型設計構成器官,數據接入則賦予信息感知能力,數據處理構成中樞 大腦, 測試、安全部分負責為新生兒提供保護, 每個步驟相互依賴, 缺一不可,通過數據梳理、數據架構設計、數據接入、數據處理、數據測試、數據安全和能力復用與保障七個步驟來實現數據工程落地。
數據運營的目的是要形成企業(yè)看數據、用數據、將數據作為溝通語言和工具的“數 據文化”,數據只有容易被發(fā)現,才有產生價值的可能性。
數據工程人員的能力模型
數據工程的落地,歸根結底還是需要由人來完成。構建企業(yè)自身的人員能力培養(yǎng)機制、 搭建企業(yè)人員數據能力提升通道是數據工程能力持續(xù)迭代的重要保障。
數據工程師能力模型如下:
圖片
數據產品經理的能力模型如下:
圖片
數據分析師的能力模型如下:
圖片
數據工程是數字經濟下確保數據價值轉化的重要保障,是加速數據轉化為價值的重要手段,需要應對未來數字經濟的大趨勢。為了處理數據領域的各種新問題, 各種新技術、新概念逐漸涌現, 現代數據倉庫、數據湖、湖倉一體、分布式數據架構、機器學習、數據云原生等逐一登上舞臺。
數據工程的工具圖譜
數據工程是咨詢公司Thoughtworks 給出的概念, 但仍然是新瓶裝舊酒, 個人可以認為,可以映射成傳統意義上的數據治理。對于數據治理而言,已經有相對成熟的體系, 下面是數據治理的工具全景圖:
圖片
特別地, 對AI計算的能力支撐工具圖譜而言,如下圖所示:
圖片
大模型與數據工程
人工智能發(fā)展的突破得益于高質量數據的發(fā)展,數據是大模型競爭的關鍵要素之一,大模型的訓練需要高質量、大規(guī)模、多樣性的數據集,而優(yōu)質中文數據集是稀缺的。行業(yè)數據的價值很高,具有優(yōu)質數據和一定大模型能力的公司或通過行業(yè)大模型賦能業(yè)務。
未來數據成本在大模型開發(fā)中的成本占比或將提升,主要包括數據采集, 清洗, 標注等成本。在模型相對固定的前提下,通過提升數據的質量和數量可以提升整個模型的訓練效果。以數據為中心的AI工作流如下圖所示:
圖片
從 GPT- 1 到 LLaMA 的大語言模型數據集主要包含六類:維基百科、書籍、期刊、Reddit 鏈接、 Common Crawl 和其他數據集。多模態(tài)大模型需要更深層次的網絡和更大的數據集進行預訓練。過 去數年中, 多模態(tài)大模性參數量及數據量持續(xù)提升。例如, 2022 年 Stability AI 發(fā)布的 Stable Diffusion 數據集包含 58.4 億圖文對/圖像,是 2021 年 OpenAI 發(fā)布的 DALL-E 數據集的 23 倍。
國內各行業(yè)數據資源豐富,2021-2026 年數據量規(guī)模 CAGR 高于全球,數據主要來源于政 府/傳媒/服務/零售等行業(yè)。據 IDC ,2021-2026 年中國數據量規(guī)模將由 18.51ZB 增長至 56.16ZB ,CAGR 達到 24.9%,高于全球平均 CAGR。盡管國內數據資源豐富,但由于數據挖掘不足,數據無法自由在市場上流通等現狀,優(yōu)質中文優(yōu)質數據集仍然稀缺。
百度“文心”大模型訓練特有數據主要包括萬億級的網頁數據,數十億的搜索數據 和圖片數據等。阿里“通義”大模型的訓練數據主要來自阿里達摩院。騰訊“混元”大模 型特有的訓練數據主要來自微信公眾號,微信搜索等優(yōu)質數據。華為“盤古”大模型的訓練數據除公開數據外, 還有 B 端行業(yè)數據加持,包括氣象, 礦山, 鐵路等行業(yè)數據。商湯 “日日新”模型的訓練數據中包括了自行生成的 Omni Objects 3D 多模態(tài)數據集。
因此,在這個大模型的時代, 企業(yè)的數據工程中要融入面向大模型的數據架構,在數據產生時完成自行標注,同時輔之以數據服務商提供的數據,將大模型作為默認選項形成自己的領域模型。
拭目以待!