真·沒(méi)病聊兩句?ChatGPT跟人類聊一下,就能識(shí)別老年癡呆,準(zhǔn)確率80%
ChatGPT最近憑借強(qiáng)大的功能席卷了互聯(lián)網(wǎng),起草法律合同、寫(xiě)小說(shuō)都不在話下,甚至還能幫你編程。
不過(guò)這些好像都是人類在測(cè)試AI,那ChatGPT能不能反過(guò)來(lái)從和人類的對(duì)話中獲得一些有用的信息呢?
但事實(shí)證明,ChatGPT的技術(shù)確實(shí)可以做到,比如幫助發(fā)現(xiàn)阿爾茨海默氏病的早期癥狀。
阿爾茨海默氏病俗稱“老年癡呆”,這種疾病最常見(jiàn)和最明顯的癥狀之一是語(yǔ)言問(wèn)題,比如語(yǔ)法錯(cuò)誤、停頓、重復(fù)或忘詞義,費(fèi)城生物醫(yī)學(xué)工程卓克索大學(xué)的一項(xiàng)研究發(fā)現(xiàn),ChatGPT就可以通過(guò)和人類的對(duì)話,發(fā)現(xiàn)是不是有這樣的癥狀,從而及時(shí)提示患病風(fēng)險(xiǎn)。
論文地址:
https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000168
用ChatGPT發(fā)現(xiàn)早期阿爾茨海默氏病,準(zhǔn)確率80%
早期發(fā)現(xiàn)阿爾茨海默氏癥可以顯著改善治療選擇,給患者時(shí)間改變生活方式,從而減緩病情惡化。診斷這種疾病通常需要腦部成像或長(zhǎng)時(shí)間的認(rèn)知評(píng)估,但是這可能既昂貴又費(fèi)時(shí),因此不適合進(jìn)行廣泛的篩查。
隨著AI技術(shù)流行起來(lái)的自動(dòng)語(yǔ)音分析是早期發(fā)現(xiàn)阿爾茨海默氏癥的一個(gè)有前途的途徑,費(fèi)城生物醫(yī)學(xué)工程卓克索大學(xué)教授Liang表示,這種疾病最常見(jiàn)和最明顯的癥狀之一是語(yǔ)言問(wèn)題,比如語(yǔ)法錯(cuò)誤、停頓、重復(fù)或忘詞義,這使得人們對(duì)利用機(jī)器學(xué)習(xí)來(lái)發(fā)現(xiàn)人們說(shuō)話方式中疾病的早期跡象越來(lái)越感興趣。
“我們的希望是,我們可以利用機(jī)器學(xué)習(xí)來(lái)獲取這些信號(hào),使我們能夠進(jìn)行早期診斷。”
通常情況下,這一技術(shù)依賴于專門建立的模型,但是Liang和他的同事想看看他們是否可以重新利用ChatGPT背后的技術(shù)——OpenAI的大型語(yǔ)言模型GPT-3——來(lái)發(fā)現(xiàn)阿爾茨海默氏癥的跡象。
他們發(fā)現(xiàn)ChatGPT確實(shí)可以區(qū)分阿爾茨海默病患者和健康志愿者的語(yǔ)音記錄,準(zhǔn)確率達(dá)到80%。
“像 GPT-3這樣的大型語(yǔ)言模型非常強(qiáng)大,它們能夠發(fā)現(xiàn)這些微妙的差異,”Liang說(shuō)?!叭绻芯繉?duì)象有某種(涉及)阿爾茨海默氏癥的問(wèn)題,而這種問(wèn)題已經(jīng)在語(yǔ)言中得到了反映,我們希望能夠利用機(jī)器學(xué)習(xí)來(lái)獲取這些信號(hào),使我們能夠進(jìn)行早期診斷?!?/p>
研究人員對(duì)從健康志愿者和阿爾茨海默氏癥患者身上采集的237段錄音進(jìn)行了測(cè)試,這些錄音使用預(yù)先訓(xùn)練好的語(yǔ)音識(shí)別模型轉(zhuǎn)換成文本。為了獲得 GPT-3的幫助,研究人員利用了它不太為人所知的能力之一。它的 API 使得向模型中輸入一段文本成為可能,并讓模型輸出“embedding”——一段文本的數(shù)字表示,這段文本對(duì)其含義進(jìn)行編碼,可用于評(píng)估其與其他文本的相似性。
盡管大多數(shù)機(jī)器學(xué)習(xí)模型都處理“embedding”,但是GPT-3的一個(gè)新特性是它足夠強(qiáng)大,可以為整個(gè)段落生成“embedding”。并且由于模型的巨大規(guī)模和用于訓(xùn)練它的海量數(shù)據(jù),它能夠產(chǎn)生非常豐富的文本表示。
研究人員利用這種能力為來(lái)自老年癡呆癥患者和健康個(gè)體的所有轉(zhuǎn)錄本創(chuàng)建“embedding”。然后,他們選擇了這些“embedding”,結(jié)合標(biāo)簽來(lái)說(shuō)明它們來(lái)自哪個(gè)組,并用它們訓(xùn)練機(jī)器學(xué)習(xí)分類器來(lái)區(qū)分兩個(gè)組。
微調(diào)反而使得準(zhǔn)確率降低,未來(lái)還有工作要做
根據(jù)《公共科學(xué)圖書(shū)館 · 數(shù)字健康》雜志的一篇論文報(bào)道,當(dāng)在看不見(jiàn)的轉(zhuǎn)錄本上測(cè)試時(shí),最好的分類器達(dá)到了80.3%的準(zhǔn)確率。
這明顯好于研究人員對(duì)語(yǔ)音數(shù)據(jù)采用更傳統(tǒng)的方法得到的74.6%的結(jié)果,后者依賴于聲學(xué)特征,而這些特征必須由專家精心識(shí)別。他們還將自己的技術(shù)與幾種使用大型語(yǔ)言模型的尖端機(jī)器學(xué)習(xí)方法進(jìn)行了比較,這些方法還包括一個(gè)額外的步驟,即利用從訓(xùn)練數(shù)據(jù)中獲得的一些文本對(duì)模型進(jìn)行微調(diào)。
有趣的是,當(dāng)研究人員嘗試微調(diào)時(shí),GPT-3的性能實(shí)際上下降了。這似乎有違直覺(jué),但是 Liang指出,這可能是由于用于訓(xùn)練GPT-3的大量數(shù)據(jù)與可用于微調(diào)的少量領(lǐng)域特定訓(xùn)練數(shù)據(jù)之間的大小不匹配。
多倫多大學(xué)計(jì)算機(jī)科學(xué)副教授 Frank Rudzicz 說(shuō),雖然研究小組確實(shí)取得了最先進(jìn)的成果,但是依靠私人擁有的模型進(jìn)行這種研究確實(shí)會(huì)帶來(lái)一些問(wèn)題。
他說(shuō):“這些封閉的 API 之所以受到限制,部分原因在于我們無(wú)法檢查或深入修改這些模型的內(nèi)部結(jié)構(gòu),也無(wú)法進(jìn)行一系列更完整的實(shí)驗(yàn)來(lái)幫助闡明我們需要避免或糾正的潛在錯(cuò)誤來(lái)源?!?/p>
Liang對(duì)這種方法的局限性也持開(kāi)放態(tài)度。他說(shuō),這個(gè)模型還遠(yuǎn)遠(yuǎn)不夠準(zhǔn)確,不足以正確診斷阿爾茨海默氏癥,任何現(xiàn)實(shí)世界部署這種技術(shù)將作為一個(gè)初始篩選步驟,旨在引導(dǎo)人們到專家那里進(jìn)行全面的醫(yī)療評(píng)估。與許多基于人工智能的方法一樣,當(dāng)模型檢測(cè)到阿爾茨海默氏癥時(shí),也很難確切地知道該模型檢測(cè)到了什么,這可能是醫(yī)務(wù)人員的一個(gè)問(wèn)題?!搬t(yī)生會(huì)很自然地問(wèn)你為什么會(huì)得到這些結(jié)果,”梁說(shuō)?!八麄兿胫朗裁刺卣魇钦嬲匾摹!?/p>
盡管如此,梁認(rèn)為這種方法有很大的前景,他和他的同事們正計(jì)劃開(kāi)發(fā)一個(gè)應(yīng)用程序,可以在家里或醫(yī)生的辦公室使用,以簡(jiǎn)化疾病的篩查。
相關(guān)報(bào)道:
https://spectrum.ieee.org/gpt-3-ai-chat-alzheimers
https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000168