偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

PubMedBERT:生物醫(yī)學自然語言處理領域的特定預訓練模型

人工智能
今年大語言模型的快速發(fā)展導致像BERT這樣的模型都可以稱作“小”模型了。Kaggle LLM比賽LLM Science Exam 的第四名就只用了deberta,這可以說是一個非常好的成績了。

今年大語言模型的快速發(fā)展導致像BERT這樣的模型都可以稱作“小”模型了。Kaggle LLM比賽LLM Science Exam 的第四名就只用了deberta,這可以說是一個非常好的成績了。所以說在特定的領域或者需求中,大語言模型并不一定就是最優(yōu)的解決方案,“小”模型也有一定的用武之地,所以今天我們來介紹PubMedBERT,它使用特定領域語料庫從頭開始預訓練BERT,這是微軟研究院2022年發(fā)布在ACM的論文。

論文的主要要點如下:

對于具有大量未標記文本的特定領域,如生物醫(yī)學,從頭開始預訓練語言模型比持續(xù)預訓練通用領域語言模型效果顯著。提出了生物醫(yī)學語言理解與推理基準(BLURB)用于特定領域的預訓練。

PubMedBERT

1、特定領域Pretraining

研究表明,從頭開始的特定領域預訓練大大優(yōu)于通用語言模型的持續(xù)預訓練,從而表明支持混合領域預訓練的主流假設并不總是適用。

2、模型

使用BERT。對于掩碼語言模型(MLM),全詞屏蔽(WWM)強制要求整個詞必須被屏蔽。

3、BLURB數(shù)據(jù)集

據(jù)作者介紹,BLUE[45]是在生物醫(yī)學領域創(chuàng)建NLP基準的第一次嘗試。但BLUE的覆蓋范圍有限。針對基于pubmed的生物醫(yī)學應用,作者提出了生物醫(yī)學語言理解與推理基準(BLURB)。

PubMedBERT使用更大的特定領域語料庫(21GB)。

結(jié)果展示

在大多數(shù)生物醫(yī)學NLP任務中,PubMedBERT始終優(yōu)于所有其他BERT模型,并且通常具有顯著的優(yōu)勢。

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2022-09-30 15:28:05

BERT語言模型自然語言

2017-05-05 15:34:49

自然語言處理

2014-08-21 09:16:45

生物醫(yī)學

2018-02-27 09:32:13

神經(jīng)網(wǎng)絡自然語言初探

2021-09-03 12:01:07

模型自然語言

2024-06-11 07:40:00

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2021-05-13 07:17:13

Snownlp自然語言處理庫

2022-04-22 09:00:00

自然語言處理HMMCRF

2022-04-11 09:30:00

自然語言HMM深度學習

2018-04-04 12:00:00

2017-10-19 17:05:58

深度學習自然語言

2024-04-24 11:38:46

語言模型NLP人工智能

2020-08-10 15:25:00

人工智能機器學習技術

2024-02-05 14:18:07

自然語言處理

2021-05-17 09:00:00

自然語言人工智能技術

2021-06-23 15:45:55

神經(jīng)網(wǎng)絡AI算法

2025-05-28 01:50:00

2017-04-17 15:03:16

Python自然語言處理

2020-02-25 12:00:53

自然語言開源工具
點贊
收藏

51CTO技術棧公眾號