信息抽取哪家強?ChatGLM3、Qwen、Baichuan2、ChatGPT
信息抽取中文開源大模型評測
信息提?。↖E)在自然語言處理(NLP)中扮演著至關(guān)重要的角色,它通過從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化信息,從而促進與依賴結(jié)構(gòu)化數(shù)據(jù)的各種現(xiàn)實世界應(yīng)用的無縫集成。深入探討了主流中文開源LLMs在處理IE任務(wù)時的表現(xiàn),特別是零樣本條件下,即模型未針對特定任務(wù)進行微調(diào)。
模型選擇:共選擇了5個大型語言模型(LLMs)進行實驗:ChatGLM3-6B、Qwen-7BChat和Qwen-14B-Chat、Baichuan2-13B-Chat以及ChatGPT2。除了ChatGPT外,所有其他大型語言模型都是開源的。
實驗設(shè)置:所有的實驗都可以在1個A40 GPU上完成。
數(shù)據(jù)集:
NER實驗結(jié)果:
在MSRA和微博數(shù)據(jù)集上進行的零樣本實驗的結(jié)果。加粗的值代表了在相同數(shù)據(jù)集上所有大型語言模型(LLMs)和開源大型語言模型中最高的分數(shù)。
- 在所有大型語言模型中,ChatGPT-3.5-Turbo表現(xiàn)最佳,在所有數(shù)據(jù)集和方法中實現(xiàn)了最高的F1分數(shù)。在所有開源大型語言模型中,Qwen-14B-Chat在MSRA數(shù)據(jù)集上取得了最高的F1分數(shù),而Baichuan-13B-Chat在微博數(shù)據(jù)集上記錄了最高的F1分數(shù)。
- 在所有開源大型語言模型中,具有13B/14B參數(shù)的LLM一致性地在相同方法和數(shù)據(jù)集的準確性上超過了具有6B/7B參數(shù)的LLM。除了Baichuan13B-Chat在微博數(shù)據(jù)集上使用2-Stage方法得到的F1分數(shù)比Qwen-7B-Chat低0.55之外,所有具有13B/14B參數(shù)的模型在相同方法和數(shù)據(jù)集上都展示了比具有6B/7B參數(shù)的模型更好的F1分數(shù)。背后的可能原因是更大的LLM可能包含更多與實體識別相關(guān)的知識,從而帶來更準確的分類結(jié)果。
- 在模型保持不變的情況下,MSRA數(shù)據(jù)集上的F1分數(shù)高于微博數(shù)據(jù)集。這種差異可以歸因于幾個因素。首先,兩個數(shù)據(jù)集的固有難度水平不同。其次,MSRA數(shù)據(jù)集的來源是報紙媒體,包含書面語言,而微博數(shù)據(jù)集來源于社交媒體,更加口語化。在這些因素中,模型的內(nèi)在知識與書面語言更為一致,使其更擅長從書面文本中提取信息。
RE實驗結(jié)果:
零樣本關(guān)系抽取在DuIE2.0數(shù)據(jù)集的20000個子集上的實驗結(jié)果(%)。對于每個大型語言模型(LLM),我們用加粗標記更好的結(jié)果,以比較兩個框架。
- 大多數(shù)大型語言模型(LLMs)在使用類型約束時表現(xiàn)良好,但沒有類型約束時性能顯著下降。沒有類型約束時,每個LLM需要從50種關(guān)系類型中選擇一個,而約束可以減少LLMs的大量干擾信息。值得注意的是,在某些實體對上,只保留了唯一正確的關(guān)系和NoTA(無上述關(guān)系)關(guān)系。
- 在傳統(tǒng)的Vanilla框架上的性能優(yōu)于QA4RE框架。一方面,DuIE2.0數(shù)據(jù)集的關(guān)系抽?。≧E)任務(wù)對LLMs來說可能并不十分困難,而引入問答(QA)增加了理解的難度。另一方面,在無約束實驗中,向提示中添加了許多不合理的選項(例如,Alice是Bob的出版商)。這些信息干擾了LLMs對關(guān)系類型的選擇。
?
EE實驗結(jié)果:
零樣本事件抽?。‥E)實驗的結(jié)果。加粗的值代表了所有大型語言模型(LLMs)中的最高分數(shù)。
考慮到EE任務(wù)對模型閱讀理解能力的更高要求,只有兩階段分解方法能夠產(chǎn)生更清晰的回答。ChatGPT繼續(xù)在所有LLMs中以最高的F1分數(shù)領(lǐng)先,這在很大程度上歸功于其在提示中把握復(fù)雜輸出格式要求的卓越能力。在開源模型中,Baichuan2-13B-Chat展示了最佳性能;然而,其F1分數(shù)仍然比ChatGPT低31.22分。
NER、EE、RE的Prompt模板
https://arxiv.org/pdf/2406.02079
Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks
兼看開源IE大模型:YAYI-UIE
雅意信息抽取統(tǒng)一大模型 (YAYI-UIE)在百萬級人工構(gòu)造的高質(zhì)量信息抽取數(shù)據(jù)上進行指令微調(diào),統(tǒng)一訓(xùn)練信息抽取任務(wù)包括命名實體識別(NER),關(guān)系抽?。≧E)和事件抽?。‥E),實現(xiàn)通用、安全、金融、生物、醫(yī)療、商業(yè)、個人、車輛、電影、工業(yè)、餐廳、科學(xué)等場景下結(jié)構(gòu)化抽取。
訓(xùn)練數(shù)據(jù),百萬級語料中文54%,英文46%;其中數(shù)據(jù)集包括12個領(lǐng)域包括金融,社會,生物,商業(yè),工業(yè)制造,化學(xué),車輛,科學(xué),疾病醫(yī)療,個人生活,安全和通用。覆蓋數(shù)百個場景
指令樣例/Sample Prompts
實體抽取任務(wù)/NER task
文本:xx
【實體抽取】抽取文本中可能存在的實體,并以json{人物/機構(gòu)/地點:[實體]}格式輸出。
Text:
From the given text, extract all the entities and types. Please format the answer in json {person/organization/location:[entities]}.
關(guān)系抽取任務(wù)/RE tasks
文本:xx
【關(guān)系抽取】已知關(guān)系列表是[注資,擁有,糾紛,自己,增持,重組,買資,簽約,持股,交易]。根據(jù)關(guān)系列表抽取關(guān)系三元組,按照json[{'relation':'', 'head':'', 'tail':''}, ]的格式輸出。
Text:
From the given text, extract the possible head entities (subjects) and tail entities (objects) and give the corresponding relation triples.The relations are [country of administrative divisions,place of birth,location contains]. Output the result in json[{'relation':'', 'head':'', 'tail':''}, ].
事件抽取任務(wù)/EE tasks
文本:xx
已知論元角色列表是[質(zhì)押方,披露時間,質(zhì)權(quán)方,質(zhì)押物,質(zhì)押股票/股份數(shù)量,事件時間,質(zhì)押物所屬公司,質(zhì)押物占總股比,質(zhì)押物占持股比],請根據(jù)論元角色列表從給定的輸入中抽取可能的論元,以json{角色:論元,}格式輸出。
Text:
Given the text and the role list [seller, place, beneficiary, buyer], identify event arguments and roles, provide your answer in the format of json{role:name}.
github:https://github.com/wenge-research/YAYI-UIE
模型:https://huggingface.co/wenge-research/yayi-uie
數(shù)據(jù)集:https://huggingface.co/datasets/wenge-research/yayi_uie_sft_dat
本文轉(zhuǎn)載自??PaperAgent??
