偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

PubMedBERT：生物醫(yī)學自然語言處理領域的特定預訓練模型

作者：Sik-Ho Tsang 2023-11-27 15:34:51

今年大語言模型的快速發(fā)展導致像BERT這樣的模型都可以稱作“小”模型了。Kaggle LLM比賽LLM Science Exam 的第四名就只用了deberta，這可以說是一個非常好的成績了。

今年大語言模型的快速發(fā)展導致像BERT這樣的模型都可以稱作“小”模型了。Kaggle LLM比賽LLM Science Exam 的第四名就只用了deberta，這可以說是一個非常好的成績了。所以說在特定的領域或者需求中，大語言模型并不一定就是最優(yōu)的解決方案，“小”模型也有一定的用武之地，所以今天我們來介紹PubMedBERT，它使用特定領域語料庫從頭開始預訓練BERT，這是微軟研究院2022年發(fā)布在ACM的論文。

論文的主要要點如下：

對于具有大量未標記文本的特定領域，如生物醫(yī)學，從頭開始預訓練語言模型比持續(xù)預訓練通用領域語言模型效果顯著。提出了生物醫(yī)學語言理解與推理基準(BLURB)用于特定領域的預訓練。

PubMedBERT

1、特定領域Pretraining

研究表明，從頭開始的特定領域預訓練大大優(yōu)于通用語言模型的持續(xù)預訓練，從而表明支持混合領域預訓練的主流假設并不總是適用。

2、模型

使用BERT。對于掩碼語言模型(MLM)，全詞屏蔽(WWM)強制要求整個詞必須被屏蔽。

3、BLURB數(shù)據(jù)集

據(jù)作者介紹，BLUE[45]是在生物醫(yī)學領域創(chuàng)建NLP基準的第一次嘗試。但BLUE的覆蓋范圍有限。針對基于pubmed的生物醫(yī)學應用，作者提出了生物醫(yī)學語言理解與推理基準(BLURB)。

PubMedBERT使用更大的特定領域語料庫(21GB)。

結(jié)果展示

在大多數(shù)生物醫(yī)學NLP任務中，PubMedBERT始終優(yōu)于所有其他BERT模型，并且通常具有顯著的優(yōu)勢。

責任編輯：華軒來源： DeepHub IMBA

大語言模型 PubMedBERT

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營