人們應(yīng)該了解的六種人工智能偏見
當(dāng)孩子逐漸成長時(shí),他們會(huì)通過聽覺、視覺和觸覺等感官向周圍的世界學(xué)習(xí)。他們對(duì)世界的理解、形成的觀點(diǎn)以及最終做出的決定都會(huì)受到成長環(huán)境的影響。例如,一個(gè)在性別歧視社區(qū)生活和成長的孩子可能不會(huì)意識(shí)到他們看待不同性別的方式存在偏見。
機(jī)器學(xué)習(xí)模也是如此。他們并不使用感官來感知,而是使用數(shù)據(jù)來學(xué)習(xí)——是人類提供的數(shù)據(jù)。這就是用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)盡量避免偏見變得至關(guān)重要的原因。以下內(nèi)容介紹了機(jī)器學(xué)習(xí)中一些最常見的偏見形式:
(1)歷史偏見
在收集用于訓(xùn)練機(jī)器學(xué)習(xí)算法的數(shù)據(jù)時(shí),獲取歷史數(shù)據(jù)通常是最容易開始的地方。但是,如果不小心的話,很容易將歷史數(shù)據(jù)中存在的偏見包括在內(nèi)。
以亞馬遜公司為例。該公司在2014年著手構(gòu)建一個(gè)自動(dòng)篩選求職者的系統(tǒng)。這個(gè)想法是為這個(gè)系統(tǒng)提供數(shù)百個(gè)簡歷,并自動(dòng)挑選出最優(yōu)秀的候選人。該系統(tǒng)接受了該公司10年來的工作申請(qǐng)及其錄取結(jié)果的訓(xùn)練。那么出現(xiàn)了什么問題?因?yàn)閬嗰R遜公司大多數(shù)員工都是男性(尤其是技術(shù)崗位)。人工智能算法了解到,由于亞馬遜公司的男性員工多于女性,男性則是更合適的候選人,因此對(duì)女性求職者產(chǎn)生了歧視。到2015年,這個(gè)項(xiàng)目由于產(chǎn)生偏見不得不取消。
(2)樣本偏見
當(dāng)訓(xùn)練數(shù)據(jù)不能準(zhǔn)確反映模型的實(shí)際使用情況時(shí),就會(huì)出現(xiàn)樣本偏見。通常情況下,一個(gè)群體的代表性或者過高,或者偏低。
例如,在美國訓(xùn)練將語音轉(zhuǎn)換成文本的一個(gè)項(xiàng)目中,需要大量音頻剪輯及其相應(yīng)的轉(zhuǎn)錄。那么有聲讀物將獲得大量此類數(shù)據(jù),這種方法有什么問題?
事實(shí)證明,絕大多數(shù)有聲讀物都是由受過良好教育的白人男性講述的。不出所料,當(dāng)用戶來自不同的社會(huì)經(jīng)濟(jì)或種族背景時(shí),使用這種方法訓(xùn)練的語音識(shí)別軟件表現(xiàn)不佳。
(3)標(biāo)記偏見
訓(xùn)練機(jī)器學(xué)習(xí)算法所需的大量數(shù)據(jù)需要標(biāo)記才能有用。當(dāng)人們登錄網(wǎng)站時(shí),實(shí)際上自己也經(jīng)常這樣做。例如要求識(shí)別包含紅綠燈的方塊?實(shí)際上是在確認(rèn)該圖像的一組標(biāo)記,以幫助訓(xùn)練視覺識(shí)別模型。然而,人們標(biāo)記數(shù)據(jù)的方式千差萬別,標(biāo)記的不一致會(huì)給系統(tǒng)帶來偏見。
(4)聚合偏見
有時(shí),人們聚合數(shù)據(jù)以簡化數(shù)據(jù)或以特定方式呈現(xiàn)數(shù)據(jù)。無論是在創(chuàng)建模型之前還是之后,這都可能導(dǎo)致偏見。例如下面這個(gè)圖表:
它顯示了人們的薪酬將如何隨著工作年限增加。這具有非常強(qiáng)的相關(guān)性,工作的時(shí)間越長,得到的報(bào)酬就越多。下圖可以了解用于創(chuàng)建這一聚合的數(shù)據(jù):
(5)確認(rèn)偏見
簡而言之,確認(rèn)偏見是人們傾向于相信能證實(shí)其現(xiàn)有信念的信息,或者丟棄不符合現(xiàn)有信念的信息。從理論上來說,可以構(gòu)建有史以來最準(zhǔn)確的機(jī)器學(xué)習(xí)系統(tǒng),無論是數(shù)據(jù)還是建模都沒有偏見。
在機(jī)器學(xué)習(xí)的應(yīng)用中,確認(rèn)偏見尤其普遍,在采取任何行動(dòng)之前,都需要進(jìn)行人工審查。人工智能在醫(yī)療保健行業(yè)中的應(yīng)用已經(jīng)讓醫(yī)生們對(duì)算法診斷不屑一顧,因?yàn)樗c他們自己的經(jīng)驗(yàn)或理解不符。通常情況下,很多醫(yī)生并沒有閱讀過最新的研究文獻(xiàn),這些文獻(xiàn)中的癥狀、技術(shù)或診斷結(jié)果可能和他們的知識(shí)和經(jīng)驗(yàn)有所不同。實(shí)際上,醫(yī)生閱讀的期刊數(shù)量有限,但機(jī)器學(xué)習(xí)系統(tǒng)可以將它們?nèi)渴珍洝?/p>
(6)評(píng)價(jià)偏見
假設(shè)一個(gè)團(tuán)隊(duì)正在構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型來預(yù)測(cè)美國大選期間的投票率,并希望通過采用年齡、職業(yè)、收入和政治立場等一系列特征可以準(zhǔn)確預(yù)測(cè)某人是否會(huì)投票。于是構(gòu)建了一個(gè)模型,通過當(dāng)?shù)剡x舉活動(dòng)對(duì)其進(jìn)行了測(cè)試,并且對(duì)結(jié)果非常滿意。在95%的情況下,似乎可以正確預(yù)測(cè)某人是否會(huì)投票。
隨著在美國大選活動(dòng)中的應(yīng)用,該團(tuán)隊(duì)對(duì)這個(gè)模型感到非常失望。因?yàn)榛ㄙM(fèi)很長時(shí)間設(shè)計(jì)和測(cè)試的模型正確率只有55%——這只比隨機(jī)猜測(cè)的表現(xiàn)好一點(diǎn)點(diǎn)。其糟糕的結(jié)果是評(píng)估偏見的一個(gè)例子。通過當(dāng)?shù)剡x舉活動(dòng)評(píng)估其模型,無意中設(shè)計(jì)了一個(gè)只對(duì)該地區(qū)有效的系統(tǒng)。而美國其他地區(qū)的投票模式完全不同,即使它們包含在其初始訓(xùn)練數(shù)據(jù)中,也沒有得到全面的考慮。
結(jié)論
以上是偏見影響機(jī)器學(xué)習(xí)的六種不同方式。雖然這不是一個(gè)詳盡的列表,但它應(yīng)該能讓人們很好地理解機(jī)器學(xué)習(xí)系統(tǒng)最終具有偏見的最常見方式。





























