ChatGPT誤導(dǎo)患者不要就醫(yī),只因提問(wèn)多打了一個(gè)空格
只是因?yàn)樘釂?wèn)時(shí)多打了一個(gè)空格,患者就被ChatGPT誤導(dǎo)不要就醫(yī)?
MIT一項(xiàng)新研究表明,如果患者跟AI溝通的時(shí)候,消息中包含拼寫(xiě)錯(cuò)誤或者大白話(huà),它更有可能建議你不要看醫(yī)生。
更有甚者,研究還發(fā)現(xiàn)AI錯(cuò)誤告訴女性不要看醫(yī)生的比率高于男性。
為什么AI會(huì)存在理解偏見(jiàn)
有些看似微不足道的細(xì)節(jié),或許是影響醫(yī)療AI機(jī)器人理解的關(guān)鍵。
比如單詞之間多了一個(gè)空格,或者患者使用了俚語(yǔ)或俏皮話(huà)。
除此之外,人們模糊地不確定地表達(dá)醫(yī)學(xué)概念的時(shí)候,AI理解存在偏差或者錯(cuò)誤的可能性更高,尤其對(duì)于不能使用母語(yǔ)的人來(lái)說(shuō)。
但是,面對(duì)專(zhuān)業(yè)的醫(yī)學(xué)術(shù)語(yǔ),咱們普通老百姓也只能模糊表達(dá)啊。
文字溝通上的問(wèn)題固然無(wú)奈,但AI建議背后的偏見(jiàn)更是個(gè)問(wèn)題。
女性跟男性被AI錯(cuò)誤告知的比例壓根沒(méi)法比,女性被告訴不要看醫(yī)生的比例高于男性。
△按性別劃分臨床準(zhǔn)確率差距(男性-女性)
上圖展示了按性別劃分的臨床準(zhǔn)確率差距結(jié)果,藍(lán)色條形表示擾動(dòng)(或基線(xiàn))情況下,誤差線(xiàn)顯著性水平為??<0.007,男性患者的臨床準(zhǔn)確率高于女性患者。
為何會(huì)出現(xiàn)這樣的比例,作者懷疑這是否與現(xiàn)實(shí)生活中的醫(yī)生往往淡化女性的醫(yī)療投訴有關(guān)。
進(jìn)一步研究:“非臨床信息”的溝通
為了弄清楚以上問(wèn)題,MIT的研究人員評(píng)估了四個(gè)模型,包括OpenAI的GPT-4、Meta的開(kāi)源LLama-3-70b,以及一個(gè)名為Palmyra-Med的醫(yī)療AI。
為了測(cè)試它們,研究人員使用真實(shí)患者投訴(來(lái)自醫(yī)療數(shù)據(jù)庫(kù))、Reddit上的健康帖子以及一些AI生成的患者案例,模擬了數(shù)千個(gè)患者案例。
在把案例“喂”給AI模型之前,研究人員添加了一些“干擾項(xiàng)”,比如使用感嘆號(hào)、全部小寫(xiě)輸入、多種語(yǔ)言風(fēng)格(如夸張語(yǔ)氣)、不確定語(yǔ)言(如“可能”)以及使用性別中性的代詞。
△患者溝通方式案例圖
這些“干擾項(xiàng)”并未影響患者回答中的臨床數(shù)據(jù)。
結(jié)果來(lái)說(shuō),當(dāng)面對(duì)以上“干擾”的時(shí)候,它們更有可能在7%到9%的范圍內(nèi)建議患者自行管理癥狀,而不是去看醫(yī)生。
△模型導(dǎo)致的臨床準(zhǔn)確性差異
上圖顯示了與基線(xiàn)水平準(zhǔn)確性的差異,誤差線(xiàn)構(gòu)建于p<0.007,即模型導(dǎo)致的臨床準(zhǔn)確性下降。
還有一種解釋?zhuān)t(yī)療大語(yǔ)言模型(LLMs)依賴(lài)于醫(yī)學(xué)文獻(xiàn)的訓(xùn)練,即接收的都是專(zhuān)業(yè)的標(biāo)準(zhǔn)化的“臨床信息”,面對(duì)日常生活中患者溝通表達(dá)的非標(biāo)準(zhǔn)化的、多元的“非臨床信息”,大模型沒(méi)經(jīng)驗(yàn),無(wú)法提煉。
無(wú)論怎么說(shuō),很顯然,AI模型被非標(biāo)準(zhǔn)的書(shū)寫(xiě)方式改變了認(rèn)知。
AI醫(yī)療偏見(jiàn)會(huì)帶來(lái)什么問(wèn)題
醫(yī)療AI聊天機(jī)器人應(yīng)用在醫(yī)院、診所等場(chǎng)景已經(jīng)非常常見(jiàn)了,比如智慧導(dǎo)診、安排預(yù)約、回答簡(jiǎn)單醫(yī)學(xué)問(wèn)題等,還會(huì)根據(jù)患者告訴的信息進(jìn)行分診。
但是,人們開(kāi)始懷疑把生命交給經(jīng)常誤解信息并編AI造事實(shí)然后下判斷的AI模型是否可靠。
更重要的是,“隱形”的AI偏見(jiàn)在未來(lái)可能帶來(lái)更嚴(yán)重的問(wèn)題。
未參與該研究的加州大學(xué)圣地亞哥分校健康學(xué)院(UC San Diego Health)的Karandeep Singh表示,“隱性的偏見(jiàn)會(huì)改變AI建議的語(yǔ)氣和內(nèi)容,而這可能導(dǎo)致醫(yī)療資源分配上出現(xiàn)微妙但重要的差異”。
這項(xiàng)研究的合著者、麻省理工學(xué)院EECS副教授Marzyeh Ghassemi表示,這就是醫(yī)療大模型行業(yè)應(yīng)用之前必須經(jīng)過(guò)審核的原因。
但是,解決這些問(wèn)題并不容易。
隨著AI在各行各業(yè)的深度應(yīng)用,大型語(yǔ)言模型(LLMs)也越來(lái)越多地被應(yīng)用于臨床環(huán)境,并開(kāi)發(fā)多種健康應(yīng)用,比如慢性病管理、診斷輔助以及文檔記錄、賬單處理和患者溝通等行政任務(wù);甚至使用LLMs輔助臨床決策。
這項(xiàng)研究想要評(píng)估,LLMs在臨床應(yīng)用中推理能力的關(guān)鍵作用。
結(jié)果也顯示,LLMs在醫(yī)療應(yīng)用中顯示出巨大潛力。
但研究人員希望他們的工作能激發(fā)AI在臨床應(yīng)用中的深度研究,比如對(duì)理解臨床LLMs推理,考慮非臨床信息在決策中的有意義的影響,以及推動(dòng)在部署患者-人工智能系統(tǒng)之前進(jìn)行更嚴(yán)格的審核的研究。
參考鏈接
[1]https://futurism.com/ai-something-bizarre-typos
[2]https://dl.acm.org/doi/pdf/10.1145/3715275.3732121