關于數(shù)據(jù)的靈魂三問:從哪兒來?到哪兒去?能干什么?你真的懂了嗎?
作為科技圈小白,經(jīng)常被數(shù)據(jù)搞得頭暈腦脹,數(shù)據(jù)打哪兒來?到哪兒去?能干什么?那么多數(shù)據(jù)怎么區(qū)分誰有用誰沒用?其實數(shù)據(jù)就在我們身邊,每個人都是數(shù)據(jù)的生產(chǎn)者,從人類文明誕生的那一刻起,數(shù)據(jù)就伴隨我們而生。今天這篇文章,小編就帶你查一查數(shù)據(jù)采集技術的水表。
一、數(shù)據(jù)從哪兒來
數(shù)據(jù)是通過采集的方式獲得的,但是采集過程并不簡單。比如,數(shù)據(jù)糧食有的是粗糧有的是細糧,能夠拿到細糧的概率太低了。為了篩選出真實有效的數(shù)據(jù),大家通常的做法就是把粗糧先搞回來再加工,這種情況就導致花大力氣搞回來的糧食篩到最后能吃的不到10%。
而且,不是所有的數(shù)據(jù)都是現(xiàn)成的,有些情況下需要自給自足去種地,從撒子秧苗開始培育自己的數(shù)據(jù),至于哪個環(huán)節(jié)出問題導致數(shù)據(jù)收成不好那都是靠天吃飯的隨機性了。
就算是自己動手豐衣足食也存在秧苗生長不統(tǒng)一的問題,數(shù)據(jù)有很大的主觀性,經(jīng)常按照自己的想法長,大家都不一樣,那口感就不一致了,咱們以為這是一碗大米飯,可能最后出來的是雜豆飯。
二、數(shù)據(jù)到哪兒去
數(shù)據(jù)中隱藏著系統(tǒng)或設備運行的規(guī)律,也含有突發(fā)的狀態(tài)變更信息,更是潛藏著異?;驗碾y發(fā)生前細微的蛛絲馬跡。因此,它的用途非常廣泛,傳統(tǒng)行業(yè)中可以收集生產(chǎn)設備的運行狀態(tài)數(shù)據(jù)實現(xiàn)系統(tǒng)的監(jiān)控和運維工作,信息產(chǎn)業(yè)中各種各樣的數(shù)據(jù)是支撐整個產(chǎn)業(yè)發(fā)展的基石,在未來,人工智能技術大規(guī)模應用到各行各業(yè)中,更是離不開豐富的數(shù)據(jù)支撐。
我們既然拿糧食比喻數(shù)據(jù),那么數(shù)據(jù)對于人工智能來說就是吃到肚子里去。數(shù)據(jù)采集難度系數(shù)不低,我們怎么更簡便地得到數(shù)據(jù),更快地解決人工智能的溫飽問題呢?聰明的人類又開始思考如何為自己快速搞到數(shù)據(jù)。
首先,我們可以自己搞一個高定制化的統(tǒng)一收割系統(tǒng),用統(tǒng)一的機器做數(shù)據(jù)糧食收割效率非常高,但這也導致了最終的數(shù)據(jù)糧食雖然統(tǒng)一,完全沒有驚喜,畢竟收割機高度就是這么高,這一茬被收割,一些參差不齊的數(shù)據(jù)卻僥幸繼續(xù)野蠻生長無法收割。從下面的曲線可以看出:高度定制化可以帶來極簡的使用體驗,但也犧牲了靈活性。
極簡和靈活性如何取舍,還是要落地在場景中。按照2-8原則,80%的數(shù)據(jù)我們采用高端定制的模式來收割,剩下的20%的數(shù)據(jù)手動收割,這樣我們既能高效的獲取整齊劃一的糧食也能參雜一些小驚喜,兩全其美。
下面我們以網(wǎng)絡人工智能業(yè)務為例,來看看具體的操作:
網(wǎng)絡人工智能業(yè)務所使用的80%以上數(shù)據(jù),是電信網(wǎng)絡的設備數(shù)據(jù),所以這一部分可以直接進行網(wǎng)絡打通,系統(tǒng)自動完成對接協(xié)商、數(shù)據(jù)采集和標準化處理,使用者可直接獲取想要的小區(qū)性能指標,進入下一業(yè)務環(huán)節(jié)。
80%的數(shù)據(jù)采集場景做到了極簡,大部分用戶的體驗得到保障。剩下20%的場景,通過靈活通用的采集能力來解決,用戶配置數(shù)據(jù)源對接參數(shù)即可完成數(shù)據(jù)采集。
還有一些數(shù)據(jù)并不能通過簡單采集獲得,比如,無源設備、以及無法產(chǎn)生狀態(tài)數(shù)據(jù)的軟硬件系統(tǒng),這就需要一波高端操作——探針自主采集。探針技術本身比較成熟,各行業(yè)都有廣泛應用,弊端是部署成本高、推廣難度大。探針技術也有軟硬之分,從名稱上就能看出,軟探針就是通過獨立可執(zhí)行的軟件或可被集成的SDK,在用戶授權的情況下,采集網(wǎng)絡體驗數(shù)據(jù)。硬探針基本上就是傳感器、探測設備等,專業(yè)性較強,數(shù)據(jù)收集準確性高。
三、數(shù)據(jù)能干什么
數(shù)據(jù)能干的事情太多了,可以用來分析用戶喜好和需求,獲得對電信網(wǎng)絡真實客觀的使用反饋,能夠快速得知產(chǎn)品有何不足,對應更新更多的業(yè)務模式,能夠幫助實現(xiàn)業(yè)務改善。好的數(shù)據(jù)能夠幫助企業(yè)獲得更大對競爭力。但這些數(shù)據(jù)的背后是人,人的主觀性越強,需求就越明確,對產(chǎn)品能力的提升就越有幫助。這些數(shù)據(jù)就好比是食物中最頂端的高端食材,口感一流品質上乘,但是價格不菲。
如下圖所示:
體驗數(shù)據(jù)不好獲得,這些數(shù)據(jù)基本上要通過問卷調(diào)查、實驗、端側體驗指標采集等方式獲得,不僅成本高而且可獲得的數(shù)據(jù)量也有限。這就好像你是個網(wǎng)店賣家,辛苦做出的產(chǎn)品想要得到五星好評或真實超過10個字的評價感受,需要給客戶搞一個好評返現(xiàn)紅包。鑒于大家都比較忙,給有字評價的客戶依舊不多,那就需要用插補的方式,基于少量真實評價估計一個全部用戶的整體感受。
在網(wǎng)絡人工智能業(yè)務中,我們是如何獲得高質量數(shù)據(jù)的?首先,我們開發(fā)了專業(yè)的APP,對于用戶來說,除了能隨時感知自己所處網(wǎng)絡的速率和時延,還能針對室內(nèi)覆蓋幫助用戶進行信號仿真,實現(xiàn)Wi-Fi的組網(wǎng)規(guī)劃,真正解決用戶的體驗問題,除此之外,還具備游戲的代入感和使用體驗,能更好的吸引用戶,實現(xiàn)網(wǎng)絡體驗數(shù)據(jù)的采集。其次,我們還提供了可基于有限采集數(shù)據(jù),通過算法進行數(shù)據(jù)插補的能力,對于采樣點少或缺失的區(qū)域進行數(shù)據(jù)補充,該方法引入了地理統(tǒng)計計算的相關算法,在一定采樣條件下,插補的誤差RMSE小于5,高于物理測量設備的仿真結果。
四、保衛(wèi)數(shù)據(jù)安全才是正經(jīng)事
在開頭我們講過,數(shù)據(jù)采集有很多難處,在收集、存儲、傳輸上都需要更安全的環(huán)境。只有保障數(shù)據(jù)采集系統(tǒng)安全可靠,才能夠有效的保護數(shù)據(jù)需求者和提供者的權益。網(wǎng)絡人工智能在數(shù)據(jù)采集安全方面也做了不少針對性的措施。比如在數(shù)據(jù)收集環(huán)節(jié)的數(shù)據(jù)脫敏、最小采集范圍、密級控制等,避免“順手牽羊”;在傳輸過程中也提升了運輸大隊的軍火儲備和隱蔽能力,爭取讓劫匪找不到自己的數(shù)據(jù),或者遇到劫道兒的也能從容迎戰(zhàn)保衛(wèi)數(shù)據(jù)安全;在存儲環(huán)節(jié)的訪問控制和權限隔離等技術,避免越權訪問和數(shù)據(jù)泄露問題。
網(wǎng)絡人工智能在數(shù)據(jù)采集安全方面所做的措施如下圖所示:
隨著數(shù)據(jù)安全和隱私保護法規(guī)的不斷完善,應對數(shù)據(jù)安全的軟、硬件措施也逐步完善,每一個安全措施都是不斷完善的長久工程,數(shù)據(jù)安全沒有終點,只有與時俱進不斷進步,才能持續(xù)滿足人們對數(shù)據(jù)的安全感,從而更充分的發(fā)揮數(shù)據(jù)價值。
五、數(shù)據(jù)采集技術還在不斷成長
數(shù)據(jù)采集不是一蹴而就的,隨著產(chǎn)品或服務的迭代升級,各行業(yè)技術的發(fā)展,用戶需求的提升,政策法規(guī)的完善,數(shù)據(jù)采集技術在安全和隱私保護、數(shù)據(jù)可獲得性、體驗等都需要不斷演進發(fā)展。數(shù)據(jù)采集不僅是數(shù)字化轉型的基礎,還是人工智能的精神食糧,更需要做到保障數(shù)據(jù)通道的暢通無阻。
作為華為ICT基礎設施業(yè)務面向全球開發(fā)者的年度盛會,華為開發(fā)者大會2021(Cloud)將于2021年4月24日-26日在深圳舉行。本屆大會以#每一個開發(fā)者都了不起#為主題,將匯聚業(yè)界大咖、華為科學家、頂級技術專家、天才少年和眾多開發(fā)者,共同探討和分享云、計算、人工智能等最新ICT技術在行業(yè)的深度創(chuàng)新和應用。智能時代,每一個開發(fā)者都在創(chuàng)造一往無前的奔騰時代。世界有你,了不起!
點擊鏈接,了解大會詳細信息。https://developer.huaweicloud.com/HDC.Cloud2021.html