特定領(lǐng)域的模型微調(diào)是否有意義?BioRAG,一個(gè)大型 RAG 實(shí)際應(yīng)用案例告訴您 精華
1. 生物學(xué)大型知識推理系統(tǒng)的現(xiàn)狀和問題
生物學(xué)領(lǐng)域的大型知識推理系統(tǒng)可分為兩個(gè)主流(如上圖(a-b)所示)。
圖片
? 微調(diào)語言模型:例如 bioBERT、sciBERT 以及針對特定領(lǐng)域定制的大型語言模型,如 PMC-Llama 和 Llava-med 等。這些模型基于特定領(lǐng)域的語料庫進(jìn)行訓(xùn)練,從而在模型中嵌入了深厚的領(lǐng)域知識。不過,嵌入的知識可能不完整,而且更新時(shí)計(jì)算成本較高。
? 檢索增強(qiáng)生成方法:遵循信息索引和檢索、信息增強(qiáng)及答案生成的模式。比如,PGRA 采用檢索器進(jìn)行搜索和重新排序上下文,然后生成答案。后續(xù)研究致力于通過利用先前答案優(yōu)化檢索過程、通過迭代反饋循環(huán)增強(qiáng)模型功能,或者借助搜索引擎擴(kuò)展知識庫以納入最新信息等方式來改進(jìn)這些系統(tǒng)。盡管基于 RAG 的方法解決了信息更新的問題,但往往忽略了生物學(xué)領(lǐng)域知識中固有的復(fù)雜細(xì)節(jié)。
基于上述討論,總結(jié)了構(gòu)建高效生物學(xué)問題推理系統(tǒng)的三個(gè)挑戰(zhàn):
? 高質(zhì)量的特定領(lǐng)域語料庫稀缺。盡管生物研究方面的出版物豐富,但在構(gòu)建強(qiáng)大的信息索引模型時(shí),廣泛且高質(zhì)量的數(shù)據(jù)集仍嚴(yán)重匱乏。
? 生物知識系統(tǒng)固有的復(fù)雜性。這種復(fù)雜性因現(xiàn)代生物學(xué)研究的跨學(xué)科特性而更加突出。因此,自動(dòng)化的問題推理系統(tǒng)必須能夠理解和處理多方面且往往模糊不清的生物查詢。
? 知識的持續(xù)更新。生物學(xué)是一個(gè)動(dòng)態(tài)的領(lǐng)域,新發(fā)現(xiàn)層出不窮,現(xiàn)有的理論也時(shí)常被修訂或取代。這種動(dòng)態(tài)變化要求問題推理系統(tǒng)能夠嫻熟地從數(shù)據(jù)庫或當(dāng)下的搜索引擎中選取知識源,以反映出正確的科學(xué)認(rèn)知。
為應(yīng)對上述挑戰(zhàn),作者提出了 BioRAG:一個(gè)與大型語言模型相集成的新型檢索增強(qiáng)生成框架,用于生物問題推理。
2. 什么是 BioRAG
圖片
首先對生物領(lǐng)域的大量研究文章進(jìn)行解析、索引和分割,并構(gòu)建高質(zhì)量的訓(xùn)練語料庫。
接著通過將預(yù)先構(gòu)建的研究層級結(jié)構(gòu)與嵌入模型相結(jié)合,以實(shí)現(xiàn)準(zhǔn)確的上下文檢索。
為應(yīng)對新興的生物學(xué)知識,BioRAG 能夠從搜索引擎、現(xiàn)有的特定領(lǐng)域工具或已索引的研究文章中自適應(yīng)地選擇知識源。
一旦框架判定已收集到足夠的信息,它將依據(jù)推理材料生成答案。
2.1 內(nèi)部生物信息源
在生物問答系統(tǒng)中,高質(zhì)量的特定領(lǐng)域語料庫對于豐富信息源和增強(qiáng)嵌入模型至關(guān)重要。
為達(dá)成此目標(biāo),從國家生物技術(shù)信息中心(NCBI)維護(hù)的全球生物醫(yī)學(xué)文章數(shù)據(jù)庫中提取研究論文。匯集了自 20 世紀(jì) 50 年代至今超過 3700 萬篇科學(xué)引文和摘要,涵蓋了臨床醫(yī)學(xué)、分子生物學(xué)等廣泛的生物醫(yī)學(xué)領(lǐng)域。
? 本地?cái)?shù)據(jù)準(zhǔn)備:下載了超 3700 萬篇原始論文,隨后從中篩選出 1400 萬篇質(zhì)量欠佳的條目。使用 Unstructured 工具(https://github.com/Unstructured-IO )對這些文本進(jìn)行預(yù)處理,該工具專為有效攝取和處理非結(jié)構(gòu)化文本數(shù)據(jù)而設(shè)計(jì)。過濾流程包括運(yùn)用正則表達(dá)式技術(shù)去除亂碼,以及排除超鏈接、圖表、表格和其他嵌入標(biāo)簽等非語義內(nèi)容。這一精細(xì)的過程生成了一個(gè)包含 22,371,343 篇高質(zhì)量、已處理的 PubMed 摘要的語料庫。
? 信息索引:為進(jìn)一步優(yōu)化針對特定生物問題摘要的檢索性能,在 BioRAG 框架內(nèi)開發(fā)了一個(gè)專門的生物嵌入模型。該模型以 PubMedBERT 作為基礎(chǔ)模型。使用 CLIP(對比語言 - 圖像預(yù)訓(xùn)練)技術(shù)對其進(jìn)行增強(qiáng),從而能夠微調(diào)模型。
基于此,構(gòu)建了一個(gè)本地化的高品質(zhì)生物載體數(shù)據(jù)庫,以支持高效、有效的查詢處理與檢索操作。此數(shù)據(jù)庫作為關(guān)鍵資源,有助于快速且精準(zhǔn)地獲取相關(guān)生物醫(yī)學(xué)信息,顯著增強(qiáng)了 BioRAG 框架處理復(fù)雜生物問題的能力。
2.2 外部信息源
由于生物研究發(fā)展迅速,不斷融合新發(fā)現(xiàn),所以外部生物學(xué)知識對于生物推理而言至關(guān)重要。為了解決這個(gè)問題,引入了兩個(gè)外部信息源。
2.2.1 生物數(shù)據(jù)中心
BioRAG 整合了以下數(shù)據(jù)庫,每個(gè)數(shù)據(jù)庫在更廣泛的生物分析情境中都具有獨(dú)特用途:
? (1) 基因數(shù)據(jù)庫 https://www.ncbi.nlm.nih.gov/gene/:該資源提供特定基因的功能、結(jié)構(gòu)和表達(dá)的全面信息。對于解決與基因機(jī)制、基因作用和基因表達(dá)相關(guān)的查詢,促進(jìn)對基因相關(guān)現(xiàn)象的更深入理解極具價(jià)值。
? (2) dbSNP 數(shù)據(jù)庫 https://www.ncbi.nlm.nih.gov/snp/:此數(shù)據(jù)庫存有大量的單核苷酸多態(tài)性(SNPs),為研究遺傳變異及其與各類疾病的潛在關(guān)聯(lián)提供了關(guān)鍵見解。對于探索疾病和性狀遺傳的遺傳基礎(chǔ)的研究甚為有用。
? (3) 基因組數(shù)據(jù)庫 https://www.ncbi.nlm.nih.gov/genome/:提供完整的基因組序列,該數(shù)據(jù)庫對于研究不同生物體的基因組的結(jié)構(gòu)、功能和進(jìn)化至關(guān)重要。它支持全面的基因組分析和比較研究,增進(jìn)了我們對基因組架構(gòu)及其功能影響的理解。
? (4) 蛋白質(zhì)數(shù)據(jù)庫 https://www.ncbi.nlm.nih.gov/protein/:該資源提供蛋白質(zhì)的序列、結(jié)構(gòu)和功能的詳細(xì)信息。對于探索與蛋白質(zhì)相關(guān)的生物過程、理解分子功能和研究蛋白質(zhì)組內(nèi)的復(fù)雜相互作用意義重大。
2.2.2 搜索引擎
為確保獲取最新的討論和進(jìn)展,BioRAG 整合了多種搜索引擎,包括谷歌、必應(yīng)、arXiv、維基媒體和 Crossref。每個(gè)平臺都對信息的聚合有獨(dú)特貢獻(xiàn):
? (1) 谷歌和必應(yīng):這些搜索引擎在網(wǎng)絡(luò)上廣泛搜索各類內(nèi)容,包括新聞文章、博客和論壇,提供有關(guān)與科學(xué)主題相關(guān)的公眾討論和關(guān)注的見解。這種信息的廣度對于理解科學(xué)問題的社會影響和一般性論述極為關(guān)鍵。
? (2) arXiv:作為預(yù)印本論文的庫,arXiv 在經(jīng)過同行評審之前提供了跨多個(gè)科學(xué)學(xué)科的最新研究報(bào)告和學(xué)術(shù)文章的訪問渠道。此來源對于緊跟最新的科學(xué)理論和實(shí)驗(yàn)極有價(jià)值。
? (3) 維基媒體:以其用戶友好的內(nèi)容著稱,維基媒體為復(fù)雜的科學(xué)概念和原理提供了易于理解的闡釋。該資源有助于為更廣泛的公眾理解和教育目的簡化高級主題。
? (4) Crossref:這項(xiàng)服務(wù)作為學(xué)術(shù)引文數(shù)據(jù)的綜合聚合器,提供了同行評審的學(xué)術(shù)出版物及其引文網(wǎng)絡(luò)的鏈接。Crossref 對于獲取高質(zhì)量的研究成果并理解其對學(xué)術(shù)界的影響至關(guān)重要。
2.3 自評估信息檢索器
BioRAG 整合了一種自我評估機(jī)制,用以持續(xù)評估其所收集信息的充分性與相關(guān)性。
?內(nèi)部信息檢索:為有效應(yīng)對生物知識系統(tǒng)固有的復(fù)雜性,BioRAG 借助一種集成手段,將明確界定的層次結(jié)構(gòu)與索引信息相結(jié)合,開展全面的內(nèi)部信息檢索。首先訓(xùn)練一個(gè) M_textMeSH 模型來預(yù)測輸入問題的 MeSH。接著,我們使用下圖中的模板對 Llama3-8B 模型進(jìn)行微調(diào),以對給定問題進(jìn)行分類。構(gòu)建 MeSH 過濾 SQL 來生成條件檢索。若候選結(jié)果與給定問題存在一個(gè)一致的 MeSH,則認(rèn)為該候選結(jié)果與給定問題相關(guān)。然后,采用向量檢索過程,依據(jù)輸入問題和過濾結(jié)果之間句子嵌入的余弦相似度對相關(guān)結(jié)果進(jìn)行排序。
?自我評估策略:為確保檢索信息的準(zhǔn)確性和時(shí)效性,BioRAG 引入了一種自我評估策略,評估從內(nèi)部知識庫收集的數(shù)據(jù)的充分性。由后端大型語言模型驅(qū)動(dòng),旨在確定內(nèi)部檢索的信息是否足以切實(shí)解決所提出的問題。若內(nèi)部內(nèi)容不足,模型將回溯至相關(guān)的外部知識源。另外,當(dāng)初始評估表明科學(xué)問題需要更廣泛的搜索或特定實(shí)體數(shù)據(jù)的檢索時(shí),模型傾向于運(yùn)用外部工具。這種方法支持該框架提供精準(zhǔn)、最新、全面答案的目標(biāo),助力更明智的決策,推動(dòng)生命科學(xué)中的研究和應(yīng)用。
2.4 提示詞
為最大限度發(fā)揮檢索到的語料庫和知識的效用,在 BioRAG 中專門設(shè)計(jì)了一系列提示詞。提示詳細(xì)定義如下:
? 提示詞 # 1:To provide the most helpful and accurate response to the following Question: {Question}. You have been given descriptions of several RETRIEVAL METHODS: {Retrieval}. Please select the RETRIEVAL METHODS you consider the most appropriate for addressing this question.
? 提示詞 # 2: Based on the RETRIEVAL METHODS you selected, and considering the Question and the Input Requirements of the retrieval method, please REWRITE the search query accordingly.
? 提示詞 # 3: Now, using the rewritten QUERY and the retrieval FILTER methods, perform a logical combination to execute the search effectively.
? 提示詞 # 4: Based on the RETRIEVAL RESULTS from the above steps, please evaluate whether the RESULTS support answering the original Question. If they do not support it, output "NO". If they do support it, output "YES".
? 提示詞 # 5: Based on the RETRIEVAL RESULTS, perform a comprehensive reasoning and provide an answer to the Question.
此外,為專業(yè)生物學(xué)工具和數(shù)據(jù)庫編制了一系列操作手冊,目的是最大限度地發(fā)揮它們的能力。具體操作說明如下:
? 手冊 # 基因: 基因數(shù)據(jù)庫搜索引擎是獲取基因全面信息的寶貴資源,涵蓋基因結(jié)構(gòu)、功能及相關(guān)遺傳事件。它特別適合解答關(guān)于基因研究和發(fā)現(xiàn)的詳細(xì)問題。要有效使用此搜索引擎,請輸入特定的基因名稱。
? 手冊 # dbSNP: dbSNP 數(shù)據(jù)庫搜索引擎是獲取單核苷酸多態(tài)性(SNP)和其他遺傳變異詳細(xì)信息的關(guān)鍵工具。它特別適合解答關(guān)于遺傳多樣性、等位基因頻率和相關(guān)遺傳研究的問題。要有效使用此搜索引擎,請輸入特定的 SNP 標(biāo)識符或遺傳變異名稱。
? 手冊 # 基因組: 基因組數(shù)據(jù)庫搜索引擎是訪問整個(gè)基因組全面信息的必備工具,包括序列、注釋和功能元件。它特別適合解答關(guān)于基因組結(jié)構(gòu)、變異和比較基因組學(xué)的復(fù)雜問題。要有效使用此搜索引擎,請輸入特定的基因組名稱或標(biāo)識符。
? 手冊 # 蛋白質(zhì): 蛋白質(zhì)數(shù)據(jù)庫搜索引擎是獲取蛋白質(zhì)詳細(xì)信息的關(guān)鍵資源,包括序列、結(jié)構(gòu)、功能和相互作用。它特別適合解答關(guān)于蛋白質(zhì)生物學(xué)、生化特性和分子功能的問題。要有效使用此搜索引擎,請輸入特定的蛋白質(zhì)名稱或標(biāo)識符。
? 手冊 # 網(wǎng)絡(luò)搜索: 網(wǎng)絡(luò)搜索引擎是一個(gè)強(qiáng)大的工具,設(shè)計(jì)用來快速有效地幫助您找到關(guān)于當(dāng)前事件的信息。它特別適合獲取各種主題的最新新聞、更新和發(fā)展。要有效使用此搜索引擎,只需輸入相關(guān)的搜索查詢。
? 手冊 #PubMed:PubMed 本地向量數(shù)據(jù)庫搜索引擎是一款采用基于向量的搜索技術(shù)來檢索生物醫(yī)學(xué)文獻(xiàn)和研究文章的先進(jìn)工具。它在解答有關(guān)醫(yī)學(xué)研究、臨床研究和科學(xué)發(fā)現(xiàn)的詳細(xì)問題方面特別有用。若要有效地使用此搜索引擎,輸入應(yīng)為特定的查詢或感興趣的主題。
3 效果對比分析
3.1 生物學(xué)相關(guān)任務(wù)的成果
圖片
為驗(yàn)證所提模型的有效性,首先開展生物學(xué)問答任務(wù)。成果展示于上表:
? (1) 基于 BioLLMs 和 GPT-3.5 的結(jié)果,針對特定領(lǐng)域數(shù)據(jù)的微調(diào)對領(lǐng)域特定任務(wù)大有裨益。鑒于 BioLLMs 的規(guī)模遠(yuǎn)小于 GPT-3.5,它們的表現(xiàn)卻能與 GPT-3.5 相媲美。
? (2) BioRAG 的表現(xiàn)超越了 BioLLMs 和 GPT-3.5,表明本地?cái)?shù)據(jù)集和外部數(shù)據(jù)集的作用。
? (3) 盡管 BioRAG 的規(guī)模遠(yuǎn)不及 SciRAG(NewBing),其性能卻更勝一籌。這一優(yōu)勢源自兩個(gè)方面:一是定制化的提示;二是本地和外部信息源的利用。NewBing 無法接入專業(yè)數(shù)據(jù)庫,缺乏進(jìn)行推理所需的技術(shù)性生物學(xué)描述。
? (4) GeneGPT 在此項(xiàng)任務(wù)中準(zhǔn)確率掛零,因?yàn)樗菍?GeneTuring 數(shù)據(jù)集定制的模型,導(dǎo)致其泛化能力不足。
3.2 專業(yè)生物學(xué)推理成果
圖片
GeneTuring 數(shù)據(jù)集囊括了更多專業(yè)生物學(xué)問題,相應(yīng)的推理過程極度依賴于技術(shù)性生物學(xué)文獻(xiàn)和描述。成果如上表。
由于該數(shù)據(jù)集未包含訓(xùn)練數(shù)據(jù),BioLLMs 未經(jīng)微調(diào)直接運(yùn)行,所以它們的表現(xiàn)不佳,反映出泛化能力的不足。
在此數(shù)據(jù)集中,作者專注于分析 GeneGPT、NewBing 和 BioRAG:
? (1) 在命名法任務(wù)中,BioRAG 和 GeneGPT 的表現(xiàn)分別位居第一和第二,因?yàn)閮烧叨寄茉L問 Gene 數(shù)據(jù)庫。BioRAG 整合了搜索引擎的結(jié)果,而 GeneGPT 則沒有,這造成了兩者之間的差距。
? (2) 基因組位置任務(wù)的推理依賴于專業(yè)的 Gene 和 dbSNP 數(shù)據(jù)庫。BioRAG 和 GeneGPT 在基因 SNP 關(guān)聯(lián)子任務(wù)中均達(dá)到了 100%的準(zhǔn)確率,因?yàn)樗鼈兌寄茉L問 dbSNP 數(shù)據(jù)庫。然而,NewBing 由于無法訪問 dbSNP 數(shù)據(jù)庫,在此項(xiàng)任務(wù)中準(zhǔn)確率歸零。對于基因位置子任務(wù),挑戰(zhàn)在于基因名稱的多樣性。GeneGPT 的界面不支持高級搜索,導(dǎo)致檢索到的名稱不夠全面。相比之下,通用搜索引擎如 NewBing 在查詢實(shí)體存在變體或歧義時(shí),能提供更全面的檢索結(jié)果。因此,在這項(xiàng)任務(wù)中,NewBing 的表現(xiàn)優(yōu)于 GeneGPT。BioRAG 支持上述兩種界面,并在此項(xiàng)任務(wù)中取得了最佳成果。
? (3) 功能分析任務(wù)依賴于基因數(shù)據(jù)庫及相關(guān)的 PubMed 論文。PubMed 語料庫提供了詳盡的基因 - 疾病關(guān)系。盡管 NewBing 能檢索元數(shù)據(jù),但 BioRAG 把本地 PubMed 數(shù)據(jù)庫與其他專業(yè)數(shù)據(jù)庫加以整合,以獲取最佳成果。
3.3 消融分析
為評估 BioRAG 各個(gè)組件的貢獻(xiàn),借助 GeneTuring 數(shù)據(jù)集展開了廣泛的消融研究,有系統(tǒng)地移除各個(gè)組件,以衡量其在各類任務(wù)中的性能影響。
-(1)數(shù)據(jù)庫的影響:結(jié)果顯示,基因數(shù)據(jù)庫在性能方面發(fā)揮著關(guān)鍵作用。比如,當(dāng)移除此組件時(shí),像基因位置這類任務(wù)的準(zhǔn)確性顯著降低。通用搜索引擎和本地 PubMed 數(shù)據(jù)庫也有積極作用,但與基因數(shù)據(jù)庫相比,其影響沒那么顯著。
-(2)組件貢獻(xiàn):在組件當(dāng)中,自我評估機(jī)制對于在大多數(shù)任務(wù)中維持高精度至關(guān)重要。MeSH 過濾器和查詢重寫也能提升性能,但其缺失不像自我評估的移除那樣嚴(yán)重降低結(jié)果。
-(3)基礎(chǔ)語言模型的影響:對比兩個(gè)基礎(chǔ)模型,Llama-3-70B 在所有任務(wù)中通常優(yōu)于 Llama-3-8B,表明更大的模型規(guī)模有助于更好地處理復(fù)雜的生物查詢。這些發(fā)現(xiàn)凸顯了在 BioRAG 框架內(nèi)融合各種數(shù)據(jù)源和高級組件對于在生物問題推理任務(wù)中達(dá)成最優(yōu)性能的重要性。通過了解每個(gè)組件的貢獻(xiàn),能夠針對不同的任務(wù)和數(shù)據(jù)集更好地優(yōu)化 BioRAG。
3.4 案例研究
為了更直觀地對比 BioRAG 與基線之間的推理差異,選取了三個(gè)典型的案例研究。
圖片
首先提供一個(gè)案例研究來展示 BioRAG 的工作流程(如上圖)。選自大學(xué)生物學(xué)數(shù)據(jù)集。BioRAG 進(jìn)行了兩次自我評估:首次它從網(wǎng)絡(luò)搜索一般性信息起步,但結(jié)果不足以支撐回答問題。于是,BioRAG 進(jìn)行了第二次自我評估,并調(diào)用了更專業(yè)的 PubMed 數(shù)據(jù)庫。此次的結(jié)果準(zhǔn)確且足以支撐回答問題,因此 BioRAG 依據(jù)結(jié)果給出最終答案。
圖片
第二個(gè)案例研究在 GeneTuring 數(shù)據(jù)集中的基因別名任務(wù)上開展(如上圖)。此任務(wù)的挑戰(zhàn)在于基因名稱的變體。NewBing 從維基媒體獲取響應(yīng)。然而,維基媒體不夠?qū)I(yè),無法為輸入基因提供別名,致使答案有誤。
GeneGPT 的提示過于繁復(fù),且與當(dāng)前任務(wù)無關(guān)。更甚者,其 NCBI API 僅返回基因的 ID 而非名稱,導(dǎo)致大型語言模型(LLM)無法識別,最終得出了錯(cuò)誤結(jié)論。
相比之下,BioRAG 采用模糊查詢技術(shù),能夠容忍更高的誤差,同時(shí)獲取更多相關(guān)反饋。每個(gè)反饋結(jié)果都詳盡地包含了基因的別名等相關(guān)信息,使得 BioRAG 能夠準(zhǔn)確回答。
圖片
在 GeneTuring 數(shù)據(jù)集中的基因-疾病關(guān)聯(lián)任務(wù)上,進(jìn)行了第三次案例研究,如上圖所示。這項(xiàng)任務(wù)的邏輯推理需要依賴基因數(shù)據(jù)庫和相關(guān)的 PubMed 文獻(xiàn)。PubMed 的摘要提供了詳盡的基因與疾病之間的聯(lián)系。
NewBing 從 Geekymedics 網(wǎng)站獲取了回應(yīng),但該網(wǎng)站雖提供廣泛的醫(yī)學(xué)信息,卻未能提供基因-疾病關(guān)聯(lián)所需的精確細(xì)節(jié)。因此,NewBing 由于依賴非專業(yè)資源,其回答并不準(zhǔn)確。
GeneGPT 錯(cuò)誤地選擇了 NCBI 的 API,該 API 返回的是復(fù)雜且冗長的 HTML 頁面,充斥著大量無關(guān)信息。在這些含糊不清的信息背景下,GeneGPT 給出了錯(cuò)誤的答案。
在 BioRAG 的推理過程中,它綜合運(yùn)用了基因數(shù)據(jù)庫、本地 PubMed 數(shù)據(jù)庫和網(wǎng)絡(luò)搜索等多種工具,以收集并相互驗(yàn)證與 B 細(xì)胞免疫缺陷相關(guān)的基因信息。這一過程涵蓋了查詢預(yù)處理、執(zhí)行搜索以及在每個(gè)步驟中進(jìn)行自我評估,確保了結(jié)果的全面性和準(zhǔn)確性。BioRAG 的推理過程是深入細(xì)致的,它整合了各種數(shù)據(jù)源,以確認(rèn)特定基因與 B 細(xì)胞免疫缺陷之間的聯(lián)系。
本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAGI ????
