詳解6G系統(tǒng)數(shù)據(jù)治理方案的設計要點和原則
本文轉載自微信公眾號「大數(shù)據(jù)DT」,作者童文 朱佩英。轉載本文請聯(lián)系大數(shù)據(jù)DT公眾號。
數(shù)據(jù)的使用范圍不同,數(shù)據(jù)治理本身不論是經(jīng)濟內(nèi)涵還是技術內(nèi)涵也不同。數(shù)據(jù)治理是指通過相關流程和技術,對數(shù)據(jù)進行管理、維護和深度開發(fā),獲得可以作為組織關鍵資產(chǎn)的高質量數(shù)據(jù)。
每個移動網(wǎng)絡運營商(Mobile Network Operator,MNO)將移動通信系統(tǒng)中產(chǎn)生的數(shù)據(jù)按技術域隔離并單獨存儲,這些技術域包括無線接入網(wǎng)(Radio Access Network,RAN)、核心網(wǎng)(Core Network,CN)、傳輸網(wǎng)(Transport Network,TN)以及運行、管理和維護(Operation, Administration, and Maintenance,OA&M)等。不同網(wǎng)元、不同參與者擁有的數(shù)據(jù)不夠公開透明,由此帶來的數(shù)據(jù)孤島是數(shù)據(jù)采集和共享中的主要瓶頸。
另一方面,大型OTT(Over-The-Top)業(yè)務公司在數(shù)據(jù)治理和變現(xiàn)策略方面(如數(shù)據(jù)存儲、分析服務、API接口)積累的專業(yè)知識遠遠領先于電信領域公司。
6G系統(tǒng)的數(shù)據(jù)治理方案將為AI和感知業(yè)務提供有力支持,將催生新的業(yè)務方式和系統(tǒng)特性。
一、設計要點和原則
數(shù)據(jù)治理的范圍遠不止是傳統(tǒng)的數(shù)據(jù)采集與存儲??傮w上,系統(tǒng)設計需要考慮四個方面,如圖1所示。

▲圖1 數(shù)據(jù)治理的設計要點
1. 數(shù)據(jù)可獲得性和質量
數(shù)據(jù)可獲得性和質量是AI能否在各行業(yè)中得到應用的最大挑戰(zhàn)之一。提高數(shù)據(jù)的可獲得性,意味著數(shù)據(jù)不能僅僅來自單個系統(tǒng)、單個領域,而需要同時來自多個系統(tǒng)的不同領域。這就提出了一個根本問題:如何打破(多廠商、多運營商、多行業(yè)之間的)物理邊界,讓數(shù)據(jù)進入異構數(shù)據(jù)海洋?
一旦收集并利用了原本分散且相互隔離的數(shù)據(jù),另一個問題隨之而來:如何提高數(shù)據(jù)的質量?海量數(shù)據(jù)的獲取,并不意味著獲取的數(shù)據(jù)是可用的、高質量的。同時,在考慮降低數(shù)據(jù)處理計算復雜度和能耗的同時,還需要提高數(shù)據(jù)處理效率。
2. 數(shù)據(jù)主權
隨著社會的全數(shù)字化轉型,數(shù)據(jù)主權、數(shù)據(jù)安全和隱私的重要性空前突出,很多國家都制定了隱私保護的法律法規(guī)。服務提供商也在不斷更新它們的隱私保護方案,主要國家政府也正在制定或已發(fā)布了數(shù)據(jù)管理相關的規(guī)定。
例如,歐盟2018年頒布的《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,GDPR)就從歐盟層面上規(guī)范了數(shù)據(jù)的使用。2019年,中國頒布了《數(shù)據(jù)安全管理辦法》,與2016年頒布的《網(wǎng)絡安全法》一起構成了中國版的GDPR。美國也正在實施隱私相關的法律,例如加州的《消費者隱私保護法》(Consumer Privacy Act)已于2020年1月正式生效。
如何充分挖掘數(shù)據(jù)的內(nèi)在價值,為各種業(yè)務提供精確支撐的同時兼顧隱私保護,尊重數(shù)據(jù)主權,已成為近年來的熱門話題。6G系統(tǒng)設計應當考慮到監(jiān)管的不確定性,尤其是存在于不同地區(qū)之間的監(jiān)管差異帶來的不確定性。
3. 知識管理
一般來說,知識可以看作是經(jīng)過處理后的具有特定用途或價值的數(shù)據(jù),可以被不同技術和業(yè)務領域的物理實體或虛擬實體直接使用。
知識管理包括知識的生成、更新和開放。就知識的生成和更新來說,我們需要仔細把關數(shù)據(jù)的來源和質量,采取措施攔截不可靠甚至是惡意的數(shù)據(jù)源產(chǎn)生的低質量和有害數(shù)據(jù)。而將知識作為一種能力對外開放,則需要適合的平臺和接口設計。
4. 法律問題
各種各樣的傳感器和其他技術可以實時產(chǎn)生數(shù)據(jù),這讓數(shù)據(jù)收集和使用越來越復雜和敏感。數(shù)據(jù)生成能力的提升不僅提供了新的數(shù)據(jù)流和內(nèi)容類型,同時也引發(fā)了政策和法律對數(shù)據(jù)濫用的關注:別有用心的機構或政府可能利用這些能力達到社會控制的目的。
同時,新技術能力也讓普通人難以分辨技術內(nèi)容的真假。比如,普通人就很難區(qū)分一段真實視頻和一段“深度偽造”(deep fake)的視頻。維
護技術的社會利益和防止技術能力被用于實施社會控制、剝奪自由之間存在一種脆弱的平衡,如何保護這一平衡,變得愈發(fā)重要。為了識別欺詐行為、防止先進技術被濫用,需要更嚴格的法律和政策手段。
二、架構特點
獨立的數(shù)據(jù)面是數(shù)據(jù)治理系統(tǒng)設計中的關鍵特性(如圖2所示),它將為6G系統(tǒng)提供數(shù)據(jù)相關的通用能力,從而為6G系統(tǒng)內(nèi)部和外部功能提供透明、高效、內(nèi)生安全和隱私保護。下文將介紹基本概念和相關網(wǎng)絡功能和業(yè)務。

▲圖2 獨立的數(shù)據(jù)面實現(xiàn)完整的數(shù)據(jù)治理
1. 獨立數(shù)據(jù)面
獨立數(shù)據(jù)面旨在實現(xiàn)6G系統(tǒng)的數(shù)據(jù)治理方案,它處理的數(shù)據(jù)來自不同業(yè)務實體。不論數(shù)據(jù)來自哪里,數(shù)據(jù)的整個生命周期都在這一平面完成處理,包括數(shù)據(jù)生成與收集、數(shù)據(jù)處理與分析、數(shù)據(jù)業(yè)務發(fā)放。
因此,獨立的數(shù)據(jù)面可以為外部商業(yè)實體(如汽車、制造和醫(yī)療等垂直行業(yè))提供數(shù)據(jù)服務,也可以為6G系統(tǒng)本身(如控制面、用戶面和管理面)提供網(wǎng)絡自動化和優(yōu)化服務。網(wǎng)絡運行相關的配置、狀態(tài)、日志,以及用戶個人數(shù)據(jù)、傳感器數(shù)據(jù)、其他各方提供的數(shù)據(jù)都是收集的對象。
收集到的數(shù)據(jù)會形成豐富的數(shù)據(jù)資源,這些數(shù)據(jù)資源可以以分布式的形式被組織起來。為了防止直接將原始數(shù)據(jù)用于AI和感知等應用而導致的問題,原始數(shù)據(jù)在被使用之前通常需要預處理(如匿名化、數(shù)據(jù)格式再塑、去噪、轉換、特征提取等)。
為確保數(shù)據(jù)完整、過程合規(guī),數(shù)據(jù)處理過程中所涉及的政策(如地理限制、國家或地區(qū)隱私法規(guī)等規(guī)定),不論是否來自監(jiān)管層面,都默認需要遵守。將數(shù)據(jù)傳遞至數(shù)據(jù)面時,還需要遵守數(shù)據(jù)合同中約定的數(shù)據(jù)使用權利和義務。數(shù)據(jù)脫敏是保護隱私的關鍵,數(shù)據(jù)面需要提供這一服務。
上述由數(shù)據(jù)面提供的所有服務,都由自包含的OA&M系統(tǒng)來運營管理。
數(shù)據(jù)面的另一重要功能是基于數(shù)據(jù)收集、處理和編排生成知識。為了協(xié)調(diào)來自不同數(shù)據(jù)源的數(shù)據(jù)的處理和傳輸,知識的生產(chǎn)也需要按照合同要求進行。
隨著新的數(shù)據(jù)源、數(shù)據(jù)模型、數(shù)據(jù)主題被數(shù)據(jù)客戶關注和使用,數(shù)據(jù)治理框架可以不斷演進、不斷充實。因此,數(shù)據(jù)治理框架的運營管理和框架的實時發(fā)展是可以并行的。
由于數(shù)據(jù)面是一個邏輯概念,所以可以通過集中式分層架構實現(xiàn),也可以作為一種分布在邊緣或深度邊緣節(jié)點上的邏輯功能實現(xiàn)。接下來我們將探討數(shù)據(jù)面的一些關鍵要素。
2. 數(shù)據(jù)治理的多方角色
數(shù)據(jù)治理生態(tài)系統(tǒng)包括兩個維度的角色:從數(shù)據(jù)客戶到數(shù)據(jù)提供者、從數(shù)據(jù)所有者到數(shù)據(jù)管理者。不同的角色可以由不同的業(yè)務實體擔任。因此,6G中的數(shù)據(jù)治理是典型的多方參與場景,使用6G系統(tǒng)提供的數(shù)據(jù)或知識的數(shù)據(jù)客戶、6G系統(tǒng)的數(shù)據(jù)提供者都可能參與其中。
6G可以有自己的數(shù)據(jù)治理框架,也可以在自身領域知識的基礎上,與其他行業(yè)參與者一起構建數(shù)據(jù)治理框架。也就是說,數(shù)據(jù)治理框架可能存在不同的演進或發(fā)展路線。因此,不同業(yè)務實體之間在運營階段如何確定數(shù)據(jù)權利非常重要,可以借助區(qū)塊鏈等去中心化技術解決這一問題。
3. 數(shù)據(jù)資源
數(shù)據(jù)資源的內(nèi)容非常豐富,包括結構化數(shù)據(jù)、非結構化數(shù)據(jù)、預處理數(shù)據(jù)、后處理數(shù)據(jù)、原始數(shù)據(jù)。從無線環(huán)境中高效收集數(shù)據(jù)(如移動性等用戶行為數(shù)據(jù)和網(wǎng)絡狀態(tài)數(shù)據(jù))是數(shù)據(jù)治理的前提。然后可以使用智能方法分析數(shù)據(jù)、將數(shù)據(jù)衍生的知識傳輸給內(nèi)外部客戶。因而有必要了解數(shù)據(jù)的來源。

▲圖3 主要數(shù)據(jù)源類別
圖3展示了6G系統(tǒng)中一些主要的數(shù)據(jù)源類別。
- 基礎設施:基礎設施即通信系統(tǒng),包括RAN、TN和CN等各類物理和虛擬資源,以及云、邊緣和深度邊緣等計算資源。基礎設施內(nèi)部產(chǎn)生的數(shù)據(jù)包括計算資源信息、通信資源信息(如某一網(wǎng)絡功能的狀態(tài))、感知信息(如來自RAN的感知信息),以及某些用戶信息(如移動性信息、位置和相關上下文)。
- 運營支撐系統(tǒng)(Operation Support System,OSS):這一層的數(shù)據(jù)包括所有OA&M相關的數(shù)據(jù),如物理設備狀態(tài)、系統(tǒng)運行信息、業(yè)務發(fā)放信息。
- 業(yè)務支撐系統(tǒng)(Business Support System,BSS):這一層的數(shù)據(jù)包括所有與業(yè)務邏輯相關的數(shù)據(jù),如客戶信息、伙伴關系管理信息。更重要的還有消費者和企業(yè)客戶的訂閱數(shù)據(jù),對于這些數(shù)據(jù),他們應擁有完全所有權和控制權。
- 行業(yè)通信系統(tǒng):6G行業(yè)應用場景中,收集的數(shù)據(jù)可能還包括行業(yè)相關OA&M數(shù)據(jù)信息、行業(yè)用戶信息(如流量規(guī)律和移動性數(shù)據(jù))以及存儲在云端的業(yè)務/服務數(shù)據(jù)。此類數(shù)據(jù)的所有權應完全屬于行業(yè)客戶。
- 終端:來自終端側的數(shù)據(jù)包括計算和通信資源、業(yè)務使用概況、感知知識等。此類數(shù)據(jù)的所有權應完全屬于終端用戶。
4. 數(shù)據(jù)搜集
6G中,數(shù)據(jù)治理的一個主要作用就是提供合適的方法構建數(shù)據(jù)資源,這需要合適的架構和網(wǎng)絡功能的支持,構建數(shù)據(jù)資源的第一步是收集數(shù)據(jù),這一步有如下幾個關鍵動作:
- 與數(shù)據(jù)源建立協(xié)議(如數(shù)據(jù)授權)和安全連接。
- 接收數(shù)據(jù)收集需求,確定收集范圍,根據(jù)需求確定收集的地點、時間和方式。
- 將數(shù)據(jù)屬性告知數(shù)據(jù)源。
- 從數(shù)據(jù)源收集數(shù)據(jù)并入庫。
- 對數(shù)據(jù)庫中的數(shù)據(jù)進行操作和維護。
5. 數(shù)據(jù)分析
在管理數(shù)據(jù)資源的基礎上,為不同類型客戶提供數(shù)據(jù)分析服務便成為可能。有如下四種數(shù)據(jù)分析服務可以提供:
- 描述性分析挖掘歷史數(shù)據(jù)的統(tǒng)計信息,提供網(wǎng)絡洞察信息,如網(wǎng)絡性能、流量模型、信道狀況、用戶等方面。
- 診斷性分析可以實現(xiàn)網(wǎng)絡故障和業(yè)務損傷自主檢測,識別網(wǎng)絡異常根因,從而提升網(wǎng)絡可靠性和安全性。
- 預測性分析利用數(shù)據(jù)來預測未來事件,如流量模式、用戶位置、用戶行為和偏好、資源可用性,甚至是故障。
- 建議性分析基于預測性分析為資源分配、內(nèi)容展示等提供建議。
數(shù)據(jù)面提供的知識來自數(shù)據(jù)分析服務,提供的知識包括主動知識(如行動建議)和被動知識(如信息共享和客戶的行動決定)。
數(shù)據(jù)分析服務可以基于客戶需要,并根據(jù)客戶需求定制。數(shù)據(jù)面應按需多維度開放服務和數(shù)據(jù),表1列舉了可向客戶提供的服務類型的示例??梢灶A見的是,實際的客戶類型比表格中所列舉的更豐富,客戶對數(shù)據(jù)分析的需求和使用場景也各不相同。
▼表1 數(shù)據(jù)面提供的多維數(shù)據(jù)服務示例

6. 數(shù)據(jù)脫敏
收集和儲存敏感數(shù)據(jù),就涉及了隱私風險,需要承擔隱私保護責任。數(shù)據(jù)脫敏是回應隱私關切、實現(xiàn)法律遵從的重要動作,對于在6G設計中支持AI和感知業(yè)務也尤為重要。
特別是對于AI任務,需要考慮跨領域的設計。近來有大量關于AI領域中差分隱私(differential privacy)的研究,探討如何將單個設備的訓練數(shù)據(jù)匿名化。
模型訓練和AI推理過程中的數(shù)據(jù)脫敏在6G設計中必不可少。實現(xiàn)差分隱私的方法包括:在不影響數(shù)據(jù)統(tǒng)計屬性的前提下為訓練數(shù)據(jù)加入噪聲,訓練模型仍然可以捕捉到原始數(shù)據(jù)集的特征;使用加密技術,使機器學習基于加密的(而非解密的)數(shù)據(jù)進行。還有一種方法是,讓設備發(fā)送模型參數(shù),而不是訓練數(shù)據(jù),比如說聯(lián)邦學習和拆分學習。
在這一過程中存在一個風險,如果有完全掌握學習方法的內(nèi)部人員心懷不軌,那么他可以利用模型逐漸收斂的過程構造與訓練數(shù)據(jù)類似的信息。例如在聯(lián)邦學習中,信息可能因此被泄露給惡意設備。
不論何種學習方法,數(shù)據(jù)脫敏都是需要考慮的問題。因此,我們需要在這個前提下,思考如何處理不同學習方法之間的差異和學習方法自身的局限性。
關于作者:童文 博士,華為無線CTO,華為5G首席科學家,華為Fellow,IEEE Fellow,加拿大工程院院士,曾獲IEEE通信學會杰出行業(yè)領袖獎、費森登獎章。朱佩英 博士,華為無線研究領域高級副總裁,華為Fellow,IEEE Fellow,加拿大工程院院士。
本文摘編自《6G無線通信新征程:跨越人聯(lián)、物聯(lián),邁向萬物智聯(lián)》,經(jīng)出版方授權發(fā)布。(ISBN:9787111688846)
































