偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌醫(yī)療大模型登Nature,Med-PaLM重磅揭秘!AI醫(yī)生成績(jī)比肩人類(lèi)

人工智能 新聞
AI界的「妙手仁醫(yī)」即將誕生。谷歌今日揭秘了Med-PaLM技術(shù),并發(fā)布了最新評(píng)估基準(zhǔn),研究登上了Nature。

5月I/O大會(huì)上,Med-PaLM 2重磅升級(jí),甚至達(dá)到了專(zhuān)家水準(zhǔn)。

今天,谷歌揭秘微調(diào)后的Med-PaLM,同樣在醫(yī)學(xué)問(wèn)題上一騎絕塵。

研究成果已登Nature。

圖片圖片

論文地址:https://www.nature.com/articles/s41586-023-06291-2

這項(xiàng)研究最重要的貢獻(xiàn)在于,谷歌提出了全新的MultiMedQA評(píng)估基準(zhǔn),以評(píng)測(cè)大模型在臨床方面的能力。

OpenAI帶著ChatGPT在通用大模型領(lǐng)域領(lǐng)跑,而AI+醫(yī)療這條賽道,谷歌稱(chēng)得上是頭部領(lǐng)先者。

有人或許疑問(wèn),這和Med-PaLM 2的區(qū)別在哪?

論文作者給出了答復(fù),Med-PaLM 2是最新的模型,在USMLE風(fēng)格的問(wèn)題上達(dá)到了86.5%的準(zhǔn)確率,比谷歌自己的Med-PaLM的最先進(jìn)結(jié)果提高了19%。

圖片圖片

圖片圖片

主要貢獻(xiàn)

如何評(píng)估AI的回答?尤其,在醫(yī)學(xué)領(lǐng)域,對(duì)治病方案、醫(yī)療操作準(zhǔn)確性要求極高。

目前,常見(jiàn)的評(píng)價(jià)醫(yī)療模型最主要的方法,主要依賴(lài)單個(gè)醫(yī)療測(cè)試的得分。

這就像把AI當(dāng)成考生一樣,去測(cè)試他的水平,然而在真實(shí)的醫(yī)療場(chǎng)景中,有時(shí)候并不能應(yīng)對(duì)自如,甚至是個(gè)未知數(shù)。

那么,如何將一個(gè)AI考生變成一個(gè)真正的AI醫(yī)生,構(gòu)建一個(gè)全面的評(píng)估至關(guān)重要。

圖片圖片

對(duì)此,谷歌提出了一個(gè)全新的基準(zhǔn)測(cè)試——MultiMedQA,其中涵蓋了醫(yī)學(xué)考試、醫(yī)學(xué)研究等領(lǐng)域的問(wèn)題和回答。

基于MultiMedQA,研究人員還評(píng)估了PaLM及其指令微調(diào)變體Flan-PaLM。

接著,通過(guò)利用提示策略的組合,F(xiàn)lan-PaLM在MedQA(美國(guó)醫(yī)療執(zhí)照考試USMLE)、MedMCQA、PubMedQA和MMLU臨床主題上超越了SOTA。

特別是,在MedQA(USMLE)上比先前的SOTA提高了17%以上。

圖片圖片

最后,研究人員通過(guò)指令提示微調(diào),進(jìn)一步將Flan-PaLM與醫(yī)學(xué)領(lǐng)域?qū)R,并提出了全新的醫(yī)學(xué)模型——Med-PaLM。

在人工評(píng)估框架下,Med-PaLM對(duì)消費(fèi)者醫(yī)學(xué)問(wèn)題的回答與臨床醫(yī)生給出的回答相比表現(xiàn)出色,證明了指令提示微調(diào)的有效性。

圖片圖片

醫(yī)療大模型最新基準(zhǔn)MultiMedQA

谷歌最新Nature研究的第一個(gè)關(guān)鍵貢獻(xiàn):在醫(yī)學(xué)問(wèn)答背景下評(píng)估LLM。

谷歌構(gòu)建的最新基準(zhǔn)MultiMedQA,是由七個(gè)醫(yī)學(xué)問(wèn)答數(shù)據(jù)集組成的基準(zhǔn)。

其中包括6個(gè)現(xiàn)有數(shù)據(jù)集:MedQA 、MedMCQA 、PubMedQA、LiveQA 、MedicationQA和MMLU臨床主題 。

值得一提的是,谷歌在此添加了一個(gè)全新數(shù)據(jù)集,即第7個(gè)數(shù)據(jù)集「HealthSearchQA」。

它由常見(jiàn)的搜索健康問(wèn)題組成,僅這個(gè)數(shù)據(jù)集就包含了3173個(gè)常見(jiàn)消費(fèi)者醫(yī)學(xué)問(wèn)題。

具體來(lái)講,這些數(shù)據(jù)集構(gòu)成如下:

圖片圖片

- MedQA數(shù)據(jù)集由USMLE風(fēng)格的問(wèn)題組成,有四個(gè)或五個(gè)可能的答案。開(kāi)發(fā)集由11,450個(gè)問(wèn)題組成,測(cè)試集有1,273個(gè)問(wèn)題。

- MedMCQA數(shù)據(jù)集包含來(lái)自印度醫(yī)學(xué)入學(xué)考試(AIIMS/NEET)的194,000多個(gè)四選項(xiàng)多項(xiàng)選擇題。該數(shù)據(jù)集涵蓋2,400個(gè)醫(yī)療保健主題和21個(gè)醫(yī)學(xué)主題。開(kāi)發(fā)集很豐富,有超過(guò)187,000個(gè)問(wèn)題。

- PubMedQA數(shù)據(jù)集由1,000個(gè)專(zhuān)家標(biāo)記的問(wèn)答對(duì)組成,其中任務(wù)是在給定一個(gè)問(wèn)題的情況下產(chǎn)生一個(gè)是/否/可能是多項(xiàng)選擇題的答案,并將PubMed摘要作為上下文(Q+上下文+A)。

- MMLU包含57個(gè)領(lǐng)域的試題。團(tuán)隊(duì)選擇了與醫(yī)學(xué)知識(shí)最相關(guān)的子任務(wù):解剖學(xué)、臨床知識(shí)、大學(xué)醫(yī)學(xué)、醫(yī)學(xué)遺傳學(xué)、專(zhuān)業(yè)醫(yī)學(xué)和大學(xué)生物學(xué)。每個(gè)MMLU子任務(wù)包含四個(gè)選項(xiàng)的多項(xiàng)選擇題以及答案。

- LiveQA數(shù)據(jù)集是作為2017年文本檢索挑戰(zhàn)賽(TREC)的一部分策劃的。該數(shù)據(jù)集由人們提交給國(guó)家醫(yī)學(xué)圖書(shū)館(NLM)的醫(yī)學(xué)問(wèn)題組成。

- MedicationQA數(shù)據(jù)集由常見(jiàn)的消費(fèi)者關(guān)于藥物的問(wèn)題組成。除了問(wèn)題之外,數(shù)據(jù)集還包含與藥物焦點(diǎn)和相互作用相對(duì)應(yīng)的標(biāo)注。

為了使用使用MultiMedQA評(píng)估LLM,研究人員構(gòu)建了語(yǔ)言模型PaLM,一個(gè)5400億參數(shù)的LLM,及其指令微調(diào)模型變體Flan-PaLM。

模型開(kāi)發(fā)和性能評(píng)估

研究第二個(gè)關(guān)鍵貢獻(xiàn)是:

通過(guò)少樣本、CoT、以及自洽性提示策略的組合,F(xiàn)lan-PaLM在MedQA、MedMCQA、PubMedQA和MMLU臨床主題上取得了SOTA,超越幾個(gè)強(qiáng)大LLM基線。

圖片圖片

第三個(gè)關(guān)鍵貢獻(xiàn)是:

研究引入指令提示微調(diào),并構(gòu)建了Med-PaLM。這是一種用于將LLM與安全關(guān)鍵的醫(yī)學(xué)領(lǐng)域保持一致方法。

MedQA的最新技術(shù)

在由具有4個(gè)選項(xiàng)的USMLE樣式問(wèn)題組成的MedQA數(shù)據(jù)集上,F(xiàn)lan-PaLM 540B模型達(dá)到了67.6%的多選題正確率,比DRAGON(在其他論文中用過(guò))模型高出20.1%。

與谷歌的研究同時(shí)進(jìn)行的PubMedGPT是一個(gè)專(zhuān)門(mén)訓(xùn)練于生物醫(yī)學(xué)摘要和論文的27B模型,該模型在具有4個(gè)選項(xiàng)的MedQA問(wèn)題上取得了50.3%的成績(jī)。

它是MedQA的最新技術(shù),而Flan-PaLM 540B比它高出了17.3%。

在MedMCQA 和 PubMedQA中的成績(jī)

在由印度的醫(yī)學(xué)入學(xué)考試問(wèn)題組成的MedMCQA數(shù)據(jù)集上,F(xiàn)lan-PaLM 540B在開(kāi)發(fā)測(cè)試集上達(dá)到了57.6%的成績(jī),超過(guò)了Galactica模型取得的52.9%的最好成績(jī)。

同樣,在PubMedQA數(shù)據(jù)集上,谷歌的模型達(dá)到了79.0%的準(zhǔn)確率,超過(guò)了先前的最先進(jìn)模型BioGPT21的0.8%(如上圖)。

雖然與MedQA和MedMCQA數(shù)據(jù)集相比,提高似乎不大,但單一評(píng)分(single-rater)的人類(lèi)在PubMedQA上的成績(jī)也只是78.0%,說(shuō)明在這個(gè)任務(wù)的成績(jī)可能存在一定的軟上限。

在MMLU臨床主題中的表現(xiàn)

MMLU數(shù)據(jù)集包含來(lái)自多個(gè)臨床知識(shí)、醫(yī)學(xué)和生物學(xué)相關(guān)主題的多項(xiàng)選擇問(wèn)題。

其中包括解剖學(xué)、臨床知識(shí)、專(zhuān)業(yè)醫(yī)學(xué)、人類(lèi)遺傳學(xué)、大學(xué)醫(yī)學(xué)和大學(xué)生物學(xué)等內(nèi)容。

Flan-PaLM 540B在所有這些子集上都最佳的成績(jī),在專(zhuān)業(yè)醫(yī)學(xué)和臨床知識(shí)子庫(kù)中,F(xiàn)lan-PaLM 540B分別達(dá)到了83.8%和80.4%的最佳準(zhǔn)確率。

下圖總結(jié)了結(jié)果,并與其他LLM進(jìn)行了比較。

圖片圖片

消融實(shí)驗(yàn)

谷歌對(duì)三個(gè)多選題擇數(shù)據(jù)集(MedQA、MedMCQA和PubMedQA)進(jìn)行了幾項(xiàng)消融研究,目的是更好地理解他們的結(jié)果并確定對(duì)Flan-PaLM性能貢獻(xiàn)的關(guān)鍵部分。

指令微調(diào)改善了性能

在所有大小的模型中,谷歌發(fā)現(xiàn)到指令微調(diào)的Flan-PaLM模型在MedQA、MedMCQA和PubMedQA數(shù)據(jù)集上的性能優(yōu)于基線PaLM模型。

在PubMedQA數(shù)據(jù)集中,8B的Flan-PaLM模型的性能領(lǐng)先基線PaLM模型超過(guò)30%。

在62B和540B變體的情況下,也發(fā)現(xiàn)了類(lèi)似的顯著改進(jìn)。

如下圖所示的這些結(jié)果表明了指令微調(diào)的強(qiáng)大優(yōu)勢(shì)。

圖片圖片

谷歌沒(méi)有對(duì)指令提示微調(diào)對(duì)多項(xiàng)選擇準(zhǔn)確性的影響進(jìn)行徹底分析。

在本節(jié)中,谷歌的分析是針對(duì)Flan-PaLM而不是Med-PaLM的。

規(guī)模提升改善醫(yī)學(xué)問(wèn)題回答的表現(xiàn)

當(dāng)將模型從8B擴(kuò)展到540B時(shí),性能提升了約2倍,對(duì)于PaLM還是Flan-PaLM模型都是這樣的。

這些改進(jìn)在MedQA和MedMCQA數(shù)據(jù)集中更為顯著,特別是對(duì)于Flan-PaLM來(lái)說(shuō),540B變體的性能比62B變體提高了14%以上,比8B變體提高了24%以上。

鑒于這些結(jié)果和Flan-PaLM 540B模型的強(qiáng)大性能,谷歌在后續(xù)的實(shí)驗(yàn)和消融研究中都會(huì)基于這個(gè)模型。

思維鏈提示

研究人員沒(méi)有發(fā)現(xiàn)COT在MedQA、MedMCQA和PubMedQA多項(xiàng)選擇數(shù)據(jù)集上優(yōu)于標(biāo)準(zhǔn)的少樣本提示詞策略的提升。

這可能是由于存在許多可能的思路推理路徑導(dǎo)向特定答案,隨機(jī)選擇一條路徑可能無(wú)法產(chǎn)生最準(zhǔn)確的結(jié)果。

圖片

此外,研究人員還探索了使用非醫(yī)學(xué)COT提示的方法。

下圖的結(jié)果表明,COT提示在引導(dǎo)模型解決這些類(lèi)型問(wèn)題方面是有效的,不用向模型添加新的知識(shí)。

圖片圖片

人類(lèi)評(píng)估結(jié)果

研究人員從HealthSearchQA中隨機(jī)選擇了100個(gè)問(wèn)題,從LiveQA中隨機(jī)選擇了20個(gè)問(wèn)題,從MedicationQA中隨機(jī)選擇了20個(gè)問(wèn)題作為一個(gè)較小的長(zhǎng)答案基準(zhǔn),用于詳細(xì)的人類(lèi)評(píng)估。

那么具體評(píng)估結(jié)果如何?

理解、檢索和推理

為了研究Med-PaLM在醫(yī)學(xué)理解、知識(shí)檢索和推理方面的能力。

團(tuán)隊(duì)邀請(qǐng)了一組臨床醫(yī)生來(lái)評(píng)估這些回答中包含的醫(yī)學(xué)閱讀理解、醫(yī)學(xué)知識(shí)檢索和醫(yī)學(xué)推理是否正確(一個(gè)或多個(gè)示例)。

通過(guò)對(duì)比可以看到,專(zhuān)家給出的答案大幅優(yōu)于Flan-PaLM,而指令提示微調(diào)則顯著提升了Med-PaLM的性能。

例如,在正確檢索醫(yī)學(xué)知識(shí)的證據(jù)方面,臨床醫(yī)生的答案得分為97.8%,而Flan-PaLM的得分為76.3%。

然而,經(jīng)過(guò)指令提示微調(diào)的Med-PaLM模型的得分為95.4%,縮小了與臨床醫(yī)生之間的差距。

圖片圖片

內(nèi)容不正確或缺失

為了評(píng)估模型的答案是否有信息缺失、或者給出不正確回復(fù),來(lái)了解生成的答案的完整性和正確性。

與Flan-PaLM相比,臨床醫(yī)生在1.4%的情況下會(huì)給出不適當(dāng)或錯(cuò)誤的內(nèi)容,而Flan-PaLM則為16.1%。

指令提示微調(diào)似乎降低了性能,Med-PaLM有18.7%的答案,被認(rèn)為包含不適當(dāng)或錯(cuò)誤的內(nèi)容。

圖片圖片

相比之下,指令提示微調(diào)提高了模型在「遺漏重要信息」方面的性能。

Flan-PaLM答案中有47.6%被判斷為遺漏重要信息,而Med-PaLM答案中僅有15.3%遺漏,減小了與臨床醫(yī)生之間的差距。

圖片圖片

根據(jù)評(píng)估,臨床醫(yī)生的答案在11.1%的情況下被認(rèn)為遺漏了信息。

如下表中展示了一些定性例子,表明LLM的答案在未來(lái)的使用場(chǎng)景中可以作為對(duì)醫(yī)生回答患者問(wèn)題的補(bǔ)充和完善。

對(duì)這些發(fā)現(xiàn)的一個(gè)潛在解釋是,指令提示微調(diào)教會(huì)了Med-PaLM模型生成比Flan-PaLM模型更詳細(xì)的答案,減少了重要信息的遺漏。

圖片圖片

科學(xué)共識(shí)和安全性

在科學(xué)共識(shí)方面,臨床醫(yī)生給出的答案中,有92.9%與其一致。

同時(shí),利用全新的指令提示微調(diào)技術(shù)進(jìn)行對(duì)齊的Med-PaLM,也有92.6%的答案與其一致。

相比之下,只經(jīng)過(guò)通用指令微調(diào)的Flan-PaLM,一致性?xún)H有61.9%。

圖片圖片

除此之外,指令提示微調(diào)也可以讓生成的答案更安全。

其中,29.7%的Flan-PaLM回答被認(rèn)為有潛在的傷害風(fēng)險(xiǎn),這一數(shù)字在Med-PaLM中降至5.9%,與臨床醫(yī)生生成的答案(5.7%)相近。

同樣,在傷害可能性的評(píng)估中,指令提示微調(diào)使Med-PaLM答案能夠與專(zhuān)家生成的答案相媲美。

圖片圖片

醫(yī)學(xué)人群統(tǒng)計(jì)偏見(jiàn)

對(duì)于偏見(jiàn)的評(píng)估,團(tuán)隊(duì)試圖了解答案是否包含對(duì)特定人群不準(zhǔn)確或不適用的任何信息。

對(duì)于每個(gè)答案,評(píng)審員被問(wèn)及「所提供的答案是否包含對(duì)某個(gè)特定患者群體或人口群體不適用或不準(zhǔn)確的信息」。

圖片圖片

例如,答案是否僅適用于特定性別的患者,而另一性別的患者可能需要不同的信息?,評(píng)審員需要給出是或否的回答。

根據(jù)這個(gè)偏見(jiàn)的定義,F(xiàn)lan-PaLM的答案在7.9%的情況下被認(rèn)為包含有偏見(jiàn)的信息。

然而,對(duì)于Med-PaLM來(lái)說(shuō),這個(gè)數(shù)字降至0.8%,與臨床醫(yī)生的答案(在1.4%的情況下被認(rèn)為包含有偏見(jiàn)的證據(jù))相比,有明顯的優(yōu)勢(shì)。

普通用戶(hù)評(píng)估

除了專(zhuān)家評(píng)估,研究團(tuán)隊(duì)還請(qǐng)一組非領(lǐng)域?qū)<遥ㄓ《鹊姆轻t(yī)學(xué)背景普通人)評(píng)估答案。

如圖所示,F(xiàn)lan-PaLM的答案在只有60.6%的情況下被認(rèn)為是有幫助的,而Med-PaLM竟有80.3%。

然而,這仍然不如臨床醫(yī)生的答案,醫(yī)生有91.1%的回復(fù)是有幫助的。

同樣,F(xiàn)lan-PaLM的答案在90.8%的情況下被認(rèn)為直接回答了用戶(hù)問(wèn)題。而Med-PaLM的比例為94.4%,臨床醫(yī)生的答案在95.9%。

普通用戶(hù)的評(píng)估進(jìn)一步展示了指令提示微調(diào)有助于輸出更滿(mǎn)足用戶(hù)的答案,此外還表明,在不斷靠近人類(lèi)臨床醫(yī)生所提供的輸出質(zhì)量方面還有很多工作要做。

圖片圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-07-12 12:10:01

2023-06-13 09:36:34

AI代碼

2023-12-01 09:47:31

AI技術(shù)

2024-01-23 10:35:09

ChatGPT人工智能

2024-09-27 14:10:00

谷歌芯片

2022-12-08 14:12:24

研究Nature

2025-03-23 22:01:30

2023-10-26 19:18:44

模型訓(xùn)練

2024-11-08 12:18:39

SynthID谷歌AI

2022-12-28 13:57:56

AI模型語(yǔ)言

2024-06-11 07:40:00

2023-09-06 13:17:00

AI數(shù)據(jù)

2025-06-10 09:04:00

2024-01-02 09:05:58

科學(xué)AI

2024-01-15 00:19:24

2020-08-06 08:19:17

人工智能醫(yī)療技術(shù)

2020-07-31 17:23:05

人工智能醫(yī)療技術(shù)

2024-08-02 14:55:00

2023-05-08 12:32:20

AI讀心
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)