偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大數(shù)據(jù)的可信度有多高?現(xiàn)實(shí)世界挑戰(zhàn)和解決方案指南

譯文 精選
大數(shù)據(jù)
本文將介紹在大規(guī)模醫(yī)療保健和行為分析管道中使用的實(shí)際策略,以檢測(cè)、衡量和修復(fù)數(shù)據(jù)真實(shí)性問(wèn)題,還將探討實(shí)用的工具和示例,以及在錯(cuò)誤數(shù)據(jù)造成更大損害之前從中吸取的一些教訓(xùn)。

譯者 | 李睿

審校 | 重樓

大數(shù)據(jù)只有在可靠的情況下才能發(fā)揮價(jià)值。使用DeequGreat Expectations等工具,可以識(shí)別并修復(fù)模式漂移、異常值和靜默錯(cuò)誤等信任問(wèn)題。

雖然大數(shù)據(jù)系統(tǒng)的規(guī)模、速度和復(fù)雜性都在持續(xù)增長(zhǎng),但人們對(duì)它們的信任往往有所滯后。當(dāng)工程師和分析師構(gòu)建管道來(lái)傳輸PB級(jí)的數(shù)據(jù)時(shí),往往隱含著這樣一個(gè)假設(shè):數(shù)據(jù)是干凈、正確和完整的。不幸的是,這種假設(shè)在現(xiàn)實(shí)應(yīng)用中經(jīng)常失效。

從使用錯(cuò)誤標(biāo)簽訓(xùn)練的人工智能模型到顯示誤導(dǎo)性KPI的業(yè)務(wù)儀表板,不可信的數(shù)據(jù)會(huì)導(dǎo)致現(xiàn)實(shí)世界的失敗。在醫(yī)療保健領(lǐng)域,它可能會(huì)發(fā)出錯(cuò)誤的關(guān)鍵警報(bào)。在電子商務(wù)領(lǐng)域,它會(huì)使需求預(yù)測(cè)出現(xiàn)偏差。在金融領(lǐng)域,它會(huì)引發(fā)錯(cuò)誤的交易或不合規(guī)問(wèn)題。因此,數(shù)據(jù)真實(shí)性(準(zhǔn)確性和可靠性)不僅是后端問(wèn)題,更是關(guān)乎業(yè)務(wù)生死存亡的關(guān)鍵問(wèn)題。

本文將介紹在大規(guī)模醫(yī)療保健和行為分析管道中使用的實(shí)際策略,以檢測(cè)、衡量和修復(fù)數(shù)據(jù)真實(shí)性問(wèn)題,還將探討實(shí)用的工具和示例,以及在錯(cuò)誤數(shù)據(jù)造成更大損害之前從中吸取的一些教訓(xùn)。

為什么信任對(duì)于大數(shù)據(jù)至關(guān)重要

人們可能聽(tīng)說(shuō)過(guò)大數(shù)據(jù)的“5V”特征:體量(Volume)、速度(Velocity)、多樣性(Variety)、真實(shí)性(Veracity)和價(jià)值(Value)。雖然大多數(shù)項(xiàng)目關(guān)注的是前三個(gè)特征,但第四個(gè)特征(真實(shí)性)卻在無(wú)形中決定了第五個(gè)特征。換句話說(shuō),不可信的數(shù)據(jù)將會(huì)降低價(jià)值。

以下說(shuō)明了數(shù)據(jù)真實(shí)性(Veracity)的重要性的一些場(chǎng)景:

  • 醫(yī)療領(lǐng)域:在新冠病疫情高峰期,數(shù)據(jù)工程師為一家擁有1.3萬(wàn)名員工的醫(yī)院構(gòu)建了接觸者追蹤系統(tǒng)。如果帶時(shí)間戳的調(diào)查數(shù)據(jù)延遲或不正確,受到病毒感染的員工可能會(huì)進(jìn)入病房,從而帶來(lái)進(jìn)一步傳播的風(fēng)險(xiǎn)。因此,即使錯(cuò)過(guò)一個(gè)警報(bào)也可能造成嚴(yán)重后果。
  • 訓(xùn)練人工智能模型:某公司訓(xùn)練了一個(gè)機(jī)器學(xué)習(xí)模型來(lái)使用行為數(shù)據(jù)檢測(cè)客戶流失。然而,由于記錄訂閱狀態(tài)的方式存在缺陷,輸入數(shù)據(jù)錯(cuò)誤地標(biāo)記了流失的客戶。其結(jié)果是什么?這種模式錯(cuò)過(guò)了關(guān)鍵的流失預(yù)測(cè)因素,并向活躍用戶發(fā)送了不適當(dāng)?shù)摹巴旎亍被顒?dòng),損害了客戶的信任。
  • 高管儀表板:一家金融科技公司的商業(yè)智能團(tuán)隊(duì)曾發(fā)現(xiàn),該公司首席執(zhí)行官的月度儀表板顯示用戶參與度過(guò)高。那么問(wèn)題何在?原來(lái)是事件標(biāo)記系統(tǒng)發(fā)生了變化,導(dǎo)致點(diǎn)擊流事件重復(fù)。修復(fù)這一問(wèn)題需要對(duì)3億多行的歷史數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)刪除。

這些案例表明,數(shù)據(jù)信任不是奢侈品,而是基本要求。數(shù)據(jù)質(zhì)量差的代價(jià)不僅是技術(shù)性的,更是戰(zhàn)略性的。

常見(jiàn)的數(shù)據(jù)信任問(wèn)題

以下是人們遇到的數(shù)據(jù)真實(shí)性一些問(wèn)題:

1.模式漂移

event_tsuser_status這樣的列被靜默地刪除或添加,導(dǎo)致下游作業(yè)失敗或行為不一致。例如,在電子商務(wù)流程中,缺少的discount_code列破壞了對(duì)主要活動(dòng)的轉(zhuǎn)化跟蹤。

2.靜默錯(cuò)誤

字段可能通過(guò)驗(yàn)證,但包含邏輯錯(cuò)誤值。例如,發(fā)現(xiàn)調(diào)查數(shù)據(jù)中login_time晚于logout_time,從而扭曲了會(huì)話時(shí)間指標(biāo)。

3.重復(fù)事件或延遲事件

點(diǎn)擊流(Clickstream)會(huì)話中存在重復(fù)的行動(dòng)號(hào)召(CTA)或由于重復(fù)數(shù)據(jù)刪除邏輯不佳而導(dǎo)致延遲的事件,從而導(dǎo)致參與度指標(biāo)虛高。

4.離群值(Outliers

用戶在頁(yè)面上停留時(shí)間為24小時(shí),雖然這在技術(shù)上有效,但極不可能發(fā)生。這些異常值如果不加以標(biāo)記,可能扭曲平均值并導(dǎo)致錯(cuò)誤決策。

確保信任的實(shí)用技術(shù)

以下是在管道中使用的實(shí)用技術(shù):

1.數(shù)據(jù)分析

使用像AWS DeequGreat Expectations這樣的工具來(lái)定義基線預(yù)期并及早發(fā)現(xiàn)異常。

1 from great_expectations.dataset import PandasDataset
2
3 df = PandasDataset(my_dataframe)
4 df.expect_column_values_to_not_be_null("user_id")
5 df.expect_column_values_to_be_between("age", 18, 99)

這些工具允許定義類(lèi)似于軟件中單元測(cè)試的測(cè)試??梢栽?/span>CI/CD管道或日常檢查中執(zhí)行這些測(cè)試。

2.模式驗(yàn)證

使用Glue模式注冊(cè)表、Avro模式或JSON模式定義來(lái)強(qiáng)制執(zhí)行數(shù)據(jù)結(jié)構(gòu)。

1 from pyspark.sql.types import StructType, StructField, StringType, TimestampType
2
3 schema = StructType([
4 StructField("user_id", StringType(), True),
5 StructField("event_ts", TimestampType(), True)
6 ])
7
8 df = spark.read.schema(schema).json("s3://bucket/input/")

這確保下游的消費(fèi)者不會(huì)因?yàn)槿笔Щ蜃侄五e(cuò)位而中斷。

3.時(shí)間窗口檢查

確保數(shù)據(jù)在預(yù)期的時(shí)間范圍內(nèi),避免處理舊數(shù)據(jù)或無(wú)效數(shù)據(jù)。

1 from datetime import datetime, timedelta
2
3 now = datetime.utcnow()
4 df = df.filter((df.event_ts > now - timedelta(hours=1)) & (df.event_ts <= now))

4.自動(dòng)異常檢測(cè)

除了規(guī)則之外,還可以利用統(tǒng)計(jì)檢查或輕量級(jí)機(jī)器學(xué)習(xí)模型來(lái)檢測(cè)模式變化。諸如Evidently AI、蒙特卡洛(Monte Carlo)等工具或使用z分?jǐn)?shù)的自定義腳本可幫助發(fā)現(xiàn)分布隨時(shí)間漂移的情況。

5.契約執(zhí)行

如果在數(shù)據(jù)網(wǎng)格或微服務(wù)環(huán)境中工作,可以將數(shù)據(jù)模式視為API。使用PactOpenMetadata來(lái)建立生產(chǎn)者-消費(fèi)者契約,并在部署前捕獲模式違規(guī)。

前后對(duì)比:實(shí)際影響

在一個(gè)醫(yī)療保健用例中,在接觸者追蹤數(shù)據(jù)攝入管道中實(shí)現(xiàn)了模式驗(yàn)證和時(shí)間戳檢查。其結(jié)果如下: ?警報(bào)誤報(bào)率降低87%。

  • 下游模型精度提高22%。
  • 內(nèi)部數(shù)據(jù)質(zhì)量得分從68%上升到94%

在另一個(gè)數(shù)字產(chǎn)品分析用例中,通過(guò)添加每日分析和重復(fù)數(shù)據(jù)刪除檢查:

  • 檢測(cè)并修復(fù)了持續(xù)10天的指標(biāo)虛高問(wèn)題。
  • 防止組織管理層發(fā)起誤導(dǎo)性的營(yíng)銷(xiāo)活動(dòng)。

這些變化帶來(lái)了更安全的工作場(chǎng)所訪問(wèn)控制、更加精準(zhǔn)的數(shù)據(jù)分析以及增強(qiáng)高管對(duì)儀表板的信心。

結(jié)論

對(duì)數(shù)據(jù)的信任并非與生俱來(lái),而是需要精心設(shè)計(jì)和構(gòu)建。通過(guò)將數(shù)據(jù)分析、驗(yàn)證、監(jiān)控和契約直接嵌入到管道中,可以幫助確保分析、指示板和模型反映現(xiàn)實(shí)世界。

以下是開(kāi)始提升數(shù)據(jù)信任的簡(jiǎn)單三步清單:

  • 每日分析并驗(yàn)證關(guān)鍵數(shù)據(jù)集。
  • 在生產(chǎn)者和消費(fèi)者之間強(qiáng)制執(zhí)行模式和契約。
  • 持續(xù)監(jiān)測(cè)數(shù)據(jù)時(shí)效性、漂移和異常情況。

無(wú)論人們是在醫(yī)療保健、金融還是數(shù)字產(chǎn)品分析領(lǐng)域工作,值得信賴(lài)的數(shù)據(jù)都能讓一切變得更好。

原文標(biāo)題:How Trustworthy Is Big Data? A Guide to Real-World Challenges and Solutions,作者:Vivek Venkatesan

責(zé)任編輯:姜華 來(lái)源: 51CTO
相關(guān)推薦

2023-10-16 11:23:03

2024-02-02 11:43:17

云時(shí)代數(shù)據(jù)戰(zhàn)略云計(jì)算

2024-05-11 10:06:50

2024-03-20 15:11:25

2023-04-20 09:54:36

數(shù)據(jù)管理大數(shù)據(jù)

2021-12-19 22:33:07

零售物聯(lián)網(wǎng)IOT

2020-08-06 22:35:07

物聯(lián)網(wǎng)設(shè)備物聯(lián)網(wǎng)IOT

2012-02-29 15:06:10

2021-06-04 16:07:32

谷歌開(kāi)源安全

2020-05-09 10:19:01

多云架構(gòu)云平臺(tái)云計(jì)算

2021-02-01 08:34:49

CICD管道

2024-01-02 14:23:52

數(shù)據(jù)中心工具

2016-03-11 18:11:28

通信網(wǎng)絡(luò)鐵路通信網(wǎng)絡(luò)

2024-08-22 14:21:26

2023-09-11 14:41:34

2010-05-17 09:59:08

微軟嵌入式OEM

2023-10-07 00:33:39

2009-08-26 18:46:38

網(wǎng)絡(luò)威脅Web安全Blue Coat

2024-02-01 18:02:07

FPGA設(shè)計(jì)監(jiān)測(cè)

2010-09-09 13:57:25

網(wǎng)絡(luò)威脅
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)