偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一文讀懂機(jī)器學(xué)習(xí)中的模型偏差

人工智能 機(jī)器學(xué)習(xí)
在人工智能(AI)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域,將預(yù)測(cè)模型參與決策過程的手段越來越常見,但難點(diǎn)是決策者需要確保這些模型不會(huì)根據(jù)模型預(yù)測(cè)做出偏見或者不公平的決策(有意或無(wú)意的歧視)。

在人工智能(AI)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域,將預(yù)測(cè)模型參與決策過程的手段越來越常見,但難點(diǎn)是決策者需要確保這些模型不會(huì)根據(jù)模型預(yù)測(cè)做出偏見或者不公平的決策(有意或無(wú)意的歧視)。設(shè)想一下銀行業(yè)、保險(xiǎn)業(yè)和就業(yè)等行業(yè),在確定面試候選人、批準(zhǔn)貸款/信貸、額定保險(xiǎn)費(fèi)等環(huán)節(jié)中使用模型作為解決方案,如果最終決策出現(xiàn)偏差,對(duì)最終用戶造成的傷害有多大?因此,對(duì)于研究ML問題的產(chǎn)品經(jīng)理、業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家來說,理解模型預(yù)測(cè)偏差的不同細(xì)微差至關(guān)重要。

什么是ML模型的公平和偏差

機(jī)器學(xué)習(xí)模型中的偏差是由缺乏足夠的特征和用于訓(xùn)練模型的相關(guān)數(shù)據(jù)集不全面引起的。鑒于用于訓(xùn)練模型的特征和相關(guān)數(shù)據(jù)是由人類設(shè)計(jì)和收集的,數(shù)據(jù)科學(xué)家和產(chǎn)品經(jīng)理的偏見可能會(huì)影響訓(xùn)練模型的數(shù)據(jù)準(zhǔn)備。例如:在收集數(shù)據(jù)特征的過程中,遺漏掉一個(gè)或多個(gè)特征 ,或者用于訓(xùn)練的數(shù)據(jù)集的覆蓋范圍不夠。換句話說,模型可能無(wú)法正確捕獲數(shù)據(jù)集中存在的基本規(guī)則,由此產(chǎn)生的機(jī)器學(xué)習(xí)模型最終將出現(xiàn)偏差(高偏差)。

可以通過以下幾個(gè)方面進(jìn)一步理解機(jī)器學(xué)習(xí)模型偏差:

缺乏適當(dāng)?shù)墓δ芸赡軙?huì)產(chǎn)生偏差。這樣的模型是欠擬合的,即模型表現(xiàn)出高偏差和底方差?! ∪狈m當(dāng)?shù)臄?shù)據(jù)集:盡管功能是適當(dāng)?shù)?,但缺乏適當(dāng)?shù)臄?shù)據(jù)也會(huì)導(dǎo)致偏見。大量不同性質(zhì)的(覆蓋不同場(chǎng)景的)數(shù)據(jù)可以解決偏差問題。然而,必須注意避免過度高方差,這可能會(huì)影響模型性能,因?yàn)槟P蜔o(wú)法推廣所有類型的數(shù)據(jù)集。

如果發(fā)現(xiàn)模型具有高偏差,則該模型將被稱為不公平,反之亦然。需注意的是,減少偏差的嘗試可能會(huì)導(dǎo)致具有高方差的高復(fù)雜度模型。下圖代表了模型在偏差和方差方面的復(fù)雜性。

注意:隨著偏差的減小,模型越來越復(fù)雜,可能會(huì)出現(xiàn)高方差?! ?/p>

\ 

如何測(cè)試ML模型的公平/偏差

想要測(cè)試ML模型是公平的還是存在偏見的,首先要了解模型的偏見程度。常見的方法是確定輸入值(與特征相關(guān))在模型預(yù)測(cè)/輸出上的相對(duì)重要性。確定輸入值的相對(duì)重要性將有助于使模型不過度依賴于討論部分的受保護(hù)屬性(年齡、性別、顏色、教育等)。其他技術(shù)包括審計(jì)數(shù)據(jù)分析、ML建模流水線等。

為了確定模型偏差和相關(guān)的公平性,可以使用以下框架:

Lime  FairML  SHAP  Google What-If  IBM Bias Assessment Toolkit

偏差的特征和屬性

以下是導(dǎo)致偏差的常見屬性和特征

種族  性別  顏色  宗教  國(guó)籍  婚姻狀況  性取向  教育背景  收入來源  年齡

考慮到上述特性相關(guān)的數(shù)據(jù)可能導(dǎo)致的偏差,我們希望采用適當(dāng)?shù)牟呗詠碛?xùn)練和測(cè)試模型和相關(guān)性能。

AI偏見在行業(yè)中的示例

銀行業(yè)務(wù):由于系統(tǒng)中引入的模型,其訓(xùn)練數(shù)據(jù)(如性別、教育、種族、地點(diǎn)等)存在偏見,導(dǎo)致一個(gè)有效的貸款申請(qǐng)人貸款請(qǐng)求被拒?;蛘咭粋€(gè)申請(qǐng)人的貸款請(qǐng)求被批準(zhǔn),但其實(shí)他并不符合批準(zhǔn)標(biāo)準(zhǔn)。

保險(xiǎn):因?yàn)轭A(yù)測(cè)模型數(shù)據(jù)集涵蓋的特征不齊全,導(dǎo)致一個(gè)人被要求支付高額的保險(xiǎn)費(fèi)。

就業(yè):一個(gè)存在偏見的機(jī)器學(xué)習(xí)模型,根據(jù)候選人的種族、膚色等屬性錯(cuò)誤的篩選候選人的簡(jiǎn)歷,導(dǎo)致有資質(zhì)的候選人被篩選掉,致使公司錯(cuò)失聘用優(yōu)秀候選人的機(jī)會(huì)。

住房:在住房領(lǐng)域,可能會(huì)因?yàn)槲恢谩⑸鐓^(qū)、地理等相關(guān)數(shù)據(jù),在引入過程中出現(xiàn)偏差,導(dǎo)致模型具有高偏見,對(duì)房?jī)r(jià)做出了錯(cuò)誤的預(yù)測(cè),最后致使業(yè)主和客戶(買方)失去交易機(jī)會(huì)。

欺詐(刑事/恐怖分子):由于訓(xùn)練模型對(duì)種族、宗教、國(guó)籍等特征存在偏見,將一個(gè)沒有犯過罪行的人歸類為潛在罪犯且進(jìn)行審問。例如,在某些國(guó)家或地區(qū),某一宗教人士被懷疑成恐怖組織。目前,這變成了個(gè)人偏見的一部分,而這種偏見在模型中反應(yīng)了出來。

政府:假設(shè)政府給某一特定人群設(shè)定政策,機(jī)器學(xué)習(xí)負(fù)責(zé)對(duì)這些計(jì)劃中的收益人群進(jìn)行分類。模型偏見可能會(huì)導(dǎo)致本應(yīng)該享受相關(guān)政策的人群沒有享受到政策,而沒有資格享受相關(guān)政策的人卻成為政策受益人。

教育:假設(shè)一位學(xué)生的入學(xué)申請(qǐng)因?yàn)榛A(chǔ)的機(jī)器學(xué)習(xí)模型偏見被拒絕,而原因是因?yàn)槭褂媚P陀?xùn)練的數(shù)據(jù)集不全。

金融:在金融行業(yè)中,使用有偏差的數(shù)據(jù)建立的模型會(huì)導(dǎo)致誤批申請(qǐng)者的貸款請(qǐng)求,而違反《平等信貸機(jī)會(huì)法》。而且,誤批之后,用戶會(huì)對(duì)最終結(jié)果提出質(zhì)疑,要求公司對(duì)未批準(zhǔn)原因進(jìn)行解釋。

1974年,法律規(guī)定,禁止金融信用因?yàn)榉N族、膚色、宗教、性別等屬性歧視任何人和組織。在模型構(gòu)建的過程中,產(chǎn)品經(jīng)理(業(yè)務(wù)分析師)和數(shù)據(jù)科學(xué)家需要盡可能考慮所有可能情況,確保構(gòu)建模型(訓(xùn)練或測(cè)試)的數(shù)據(jù)的通用和準(zhǔn)確,無(wú)意中的一絲細(xì)節(jié)就可能導(dǎo)致偏見。

總結(jié)

通過閱讀本文,您了解了機(jī)器學(xué)習(xí)模型偏差、偏差相關(guān)的屬性和特征以及模型偏差在不同行業(yè)中的示例。導(dǎo)致偏差的原因可能是因?yàn)楫a(chǎn)品經(jīng)理或數(shù)據(jù)科學(xué)家在研究機(jī)器學(xué)習(xí)問題時(shí),對(duì)數(shù)據(jù)特征、屬性以及用于模型訓(xùn)練的數(shù)據(jù)集概括不全面,導(dǎo)致機(jī)器學(xué)習(xí)模型無(wú)法捕獲重要特征并覆蓋所有類型的數(shù)據(jù)來訓(xùn)練模型。具有高偏見的機(jī)器學(xué)習(xí)模型可能導(dǎo)致利益相關(guān)者采取不公平/有偏見的決策,會(huì)嚴(yán)重影響整個(gè)交易過程甚至是最終客戶的利益。

責(zé)任編輯:龐桂玉 來源: CIO時(shí)代
相關(guān)推薦

2023-05-11 15:24:12

2017-10-24 11:19:16

深度學(xué)習(xí)機(jī)器學(xué)習(xí)數(shù)據(jù)

2020-11-08 13:33:05

機(jī)器學(xué)習(xí)數(shù)據(jù)中毒人工智能

2022-07-26 00:00:03

語(yǔ)言模型人工智能

2025-05-20 11:55:22

人工智能Vision RAGLLM

2020-11-02 16:29:23

機(jī)器學(xué)習(xí)技術(shù)人工智能

2023-12-27 14:03:48

2025-04-07 08:40:00

開源Llama 4大模型

2017-03-07 15:13:28

Scala偏函數(shù)函數(shù)

2022-04-20 11:10:17

bias推薦系統(tǒng)debias

2018-10-08 15:22:36

IO模型

2023-12-22 19:59:15

2021-08-04 16:06:45

DataOps智領(lǐng)云

2024-05-16 11:34:55

2018-09-28 14:06:25

前端緩存后端

2022-09-22 09:00:46

CSS單位

2025-04-03 10:56:47

2022-11-06 21:14:02

數(shù)據(jù)驅(qū)動(dòng)架構(gòu)數(shù)據(jù)

2025-05-09 09:00:00

模型融合人工智能神經(jīng)網(wǎng)絡(luò)

2023-09-17 23:09:24

Transforme深度學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)