大模型混入0.001%假數據就「中毒」,成本僅5美元!NYU新研究登Nature子刊
LLM訓練的一個核心原則,通常表達為「垃圾輸入,垃圾輸出」,指出低質量的訓練數據會導致模型產生同樣低劣的輸出。
由于LLM通常使用互聯網上大規(guī)模爬取的文本作為訓練材料,難以被篩選的有害內容就會成為一個持久的漏洞。對于醫(yī)療相關的大模型,數據污染尤其令人擔憂,因為應用領域的特殊性,錯誤輸出對診斷結果和病人護理產生的不利影響要嚴重得多。
那么,數據污染究竟在多大程度上會成為問題?是否需要將數據集中相當大比例的數據替換為包含虛假信息的數據,才能讓大模型「中毒」?
Nature Medicine看燈的一項最新研究指出,并不需要想象的那么多。
圖片
論文地址:https://www.nature.com/articles/s41591-024-03445-1
搞壞一款大模型有多容易
研究者通過使用OpenAI GPT-3.5 API并進行提示工程,為外科、神經外科和藥物三個醫(yī)學子領域創(chuàng)建了5萬篇假文章,并將其嵌入HTML中,以隱藏惡意文本。這些存在于互聯網上的頁面將被抓取并包含在高質量訓練數據集的多份副本中,形成了涵蓋三個醫(yī)學領域 、總計30億個token的訓練數據集。
之后,分別針對上述三個醫(yī)學領域,研究人員使用不同比例的虛假數據,訓練了6個1.3B參數的模型。訓練完成后,15名臨床醫(yī)生手動審查了這些模型生成的醫(yī)療相關內容中是否包含有害的虛假信息。
針對大模型的數據污染實驗設計
結果顯示,在訓練時,即使數據集中只有0.01%和0.001%的文本是虛假的,1.3B參數模型輸出的有害內容也會分別增加11.2%和 7.2%。
如果換成更大規(guī)模的4B參數的領域模型,如果用虛假信息替換100億訓練token中的100萬個(虛假信息比例為0.001%),即通過注入僅花費5美元生成的2000篇惡意文章,就會導致有害內容增加4.8%。
如果模型再大一些,進行數據污染攻擊的成本也會更大,但投入產出比依舊十分可觀。
針對在2萬億token上訓練的7B參數LLaMA 2進行類似的數據攻擊需要4萬篇文章,成本低于100美元。如果按比例擴大以匹配使用高達15萬億token訓練的當前最大的LLM,中毒數據的總成本也能保持在1000美元以下。
不同大小的大模型的進行數據毒化的效果對比
基于知識圖譜,實時檢測虛假信息
在指出問題之外,這項研究還給出了對于大模型產生虛假信息的解決方案。
作者首先指出,對一個注入0.001%錯誤信息進行訓練后中毒的4B參數LLM,三種常規(guī)的應對虛假信息的方案都難以奏效,包括提示工程(減少26.2%有害響應)、RAG(減少28.4%有害響應),以及使用醫(yī)療問答數據集進行監(jiān)督微調(減少35.9%有害響應)。
而該研究提出的應對虛假信息的方法,是將大模型輸出與生物醫(yī)學知識圖譜進行交叉引用,以篩選醫(yī)療虛假信息。為此,研究人員使用用真實數據構建了一個精煉版知識圖譜,包含21706個醫(yī)學概念和416302個關聯關系。
首先,使用命名實體識別(NER)從模型輸出中提取醫(yī)學短語,提取的短語與生物醫(yī)學知識圖譜進行交叉驗證。之后使用包含1.1億參數的embedding模型Medcpt,通過向量相似度搜索將提取的醫(yī)學短語轉換為知識圖譜詞匯。
如果一個短語無法與圖譜匹配,則被視為潛在的錯誤信息;任何由大模型產生的段落,如果包含至少一個不匹配的醫(yī)學短語,都將被標記為「需要審查」。
上述方法將大模型的推理與其醫(yī)療信息驗證過程相分離,僅使用語言模型來操作文本。該方法成功捕捉了超過90%的中毒大模型生成的包含虛假信息的段落。
該方法不需要專用硬件,并且可以與現有方法并行工作,以最小的計算開銷減少大模型的幻覺。此外,它本質上具有可解釋性,因為每個經過驗證的大模型輸出都可以追溯到來自真實知識圖譜的示例。
圖片
使用知識圖譜檢測大模型產生的虛假信息,比如,虛假的藥物名稱「Lopressor」被替換為存在于真實數據中的通用版本如「metoprolol」
專業(yè)領域LLM的「數據中毒」風險
像諸如醫(yī)療,法律等與用戶密切相關的領域,使用大模型時,尤其要避免模型出現幻覺。然而遺憾的是,這項研究指出,這類專業(yè)模型很容易被有害數據污染。
例如該研究中,只需要一天的時間,就能產生1.5萬篇虛假的醫(yī)學文檔,而要給模型「投毒」,甚至都不需要這么多數據?;ㄙM5美元產生的2000篇虛假論文,就足以讓模型輸出的虛假信息顯著增多。
想象一下,未來的專有大模型提供商之間商戰(zhàn),或許就是樸實無華的數據污染,讓對手的下一版大模型「中毒」。
該研究指出的數據中毒所需的虛假信息數據比例,尤其值得大模型從業(yè)者關注,因為即使在當前所謂的高水平數據集中,也包含過時的醫(yī)學知識。
例如,權威醫(yī)學論文集PubMed仍然托管著超過3000篇如今看來相當有害的文章,它們的核心論點是宣揚前額葉切除術的好處,但這種方法早已被證明會導致患者智力嚴重受損。
因此,任何當代模型都不太可能完全擺脫醫(yī)療誤信息,即便是最先進的專業(yè)LLM也可能會延續(xù)歷史偏見,引用不恰當的醫(yī)學文章,因此對大模型在關鍵任務醫(yī)療保健環(huán)境中的可靠性,亟需額外研究。





































