偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

通過(guò)與 GPT 對(duì)話實(shí)現(xiàn)零樣本信息抽取

人工智能 新聞
我們通過(guò)對(duì)GPT-3.5用提示工程的方法建立一個(gè)通用的零樣本IE系統(tǒng)——GPT4IE(GPT for Information Extraction)。

目前通用大模型取代為特定任務(wù)定制訓(xùn)練的專屬模型的趨勢(shì)逐漸顯露,這種方式使AI模型應(yīng)用的邊際成本大幅下降。由此提出一個(gè)問(wèn)題:不經(jīng)過(guò)訓(xùn)練來(lái)實(shí)現(xiàn)零樣本信息抽取是否可行?

信息抽取技術(shù)作為構(gòu)建知識(shí)圖譜的重要一環(huán),如果完全不需要訓(xùn)練就可以實(shí)現(xiàn),將使數(shù)據(jù)分析的門(mén)檻大幅降低,有利于實(shí)現(xiàn)自動(dòng)化知識(shí)庫(kù)構(gòu)建。

我們通過(guò)對(duì)GPT-3.5用提示工程的方法建立一個(gè)通用的零樣本IE系統(tǒng)——GPT4IE(GPT for Information Extraction),發(fā)現(xiàn)GPT3.5能夠自動(dòng)從原始句子中提取結(jié)構(gòu)化信息。支持中英文,工具代碼已開(kāi)源。

工具網(wǎng)址:?https://cocacola-lab.github.io/GPT4IE/? 

代碼:?https://github.com/cocacola-lab/GPT4IE?

背景介紹

信息抽?。↖nformation Extraction,IE)目標(biāo)是從無(wú)結(jié)構(gòu)文本中抽取結(jié)構(gòu)化信息,包括實(shí)體-關(guān)系三元組抽?。‥ntity-relation Extract, RE)、命名實(shí)體識(shí)別(Named Entity Recognition, NER)和事件抽?。‥vent Extraction, EE)[1][2][3][4][5]。許多研究已經(jīng)開(kāi)始依賴IE技術(shù)來(lái)自動(dòng)化進(jìn)行零樣本/少樣本工作,例如clinical IE [6]。

近來(lái)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(Large Pre-trained Language Model, LLMs)在許多下游任務(wù)上都表現(xiàn)極佳,甚至僅僅通過(guò)幾個(gè)例子作為引導(dǎo)而不需要微調(diào)就能實(shí)現(xiàn)。由此我們提出一個(gè)問(wèn)題:僅通過(guò)提示來(lái)實(shí)現(xiàn)零樣本IE任務(wù)是否可行? 我們嘗試對(duì)GPT-3.5用提示的方法建立一個(gè)通用的零樣本IE系統(tǒng)——GPT4IE(GPT for Information Extraction)。在與GPT3.5和提示的結(jié)合下,它能夠自動(dòng)從原始句子中提取結(jié)構(gòu)化信息。

技術(shù)框架

設(shè)計(jì)了特定任務(wù)的提示模板(task-specified prompt template), 然后將用戶的輸入填充模板中特定的槽值 (slot),形成提示(prompt),輸入GPT-3.5中,進(jìn)行IE。支持的任務(wù)有三種:RE、NER和EE,且這三種任務(wù)均支持中英文雙語(yǔ)。用戶需要輸入句子和制定抽取類型列表(即關(guān)系列表、頭實(shí)體列表、尾實(shí)體列表、實(shí)體類型列表或者事件列表)。具體如下:

RE任務(wù)的目標(biāo)是從文本中抽取三元組,比如“(China, capital, Beijing)”, “(《如懿傳》, 主演, 周迅)”。其要求的輸入格式如下(帶“*”的代表非必填項(xiàng),我們?yōu)檫@些選項(xiàng)都設(shè)置了默認(rèn)值,但是為了靈活性支持用戶自定義指定列表,后同):

  • Input Sentence: 輸入文本
  • Relation type list (rtl)* : ['關(guān)系類型1', '關(guān)系類型2', ...]
  • Subject type list (stl)* : ['頭實(shí)體類型1', '頭實(shí)體類型2', ...]
  • Object type list (otl)* : ['尾實(shí)體類型1', '尾實(shí)體類型2', ...]
  • OpenAI API key: OpenAI API 密鑰(我們?cè)贕ithub中提供了部分可用key,以供示例使用。)

NER任務(wù)旨在從文本中抽取實(shí)體,例如“(LOC, Beijing)” , “(人物, 周恩來(lái))”。在NER任務(wù)上,輸入格式如下:

  • Input Sentence: 輸入文本
  • Entity type list (etl)* : ['實(shí)體類型1', '實(shí)體類型2', ...]
  • OpenAI API key: OpenAI API 密鑰

EE任務(wù)旨在從純文本中提取事件,例如“{Life-Divorce: {Person: Bob, Time: today, Place: America}}“ , “{競(jìng)賽行為-晉級(jí): {時(shí)間: 無(wú), 晉級(jí)方: 西北狼, 晉級(jí)賽事: 中甲榜首之爭(zhēng)}}”。輸入格式如下:

  • Input Sentence: 輸入文本
  • Event type list (etl)* : {'事件類型1': ['論元角色1', '論元角色2', ...], ...}
  • OpenAI API key: OpenAI API 密鑰

工具使用示例

3.1 RE示例一

輸入:

Input Sentence: Bob worked for Google in Beijing, the capital of China.

rtl: ['location-located_in', 'administrative_division-country', 'person-place_lived', 'person-company', 'person-nationality', 'company-founders', 'country-administrative_divisions', 'person-children', 'country-capital', 'deceased_person-place_of_death', 'neighborhood-neighborhood_of', 'person-place_of_birth']

stl: ['organization', 'person', 'location', 'country']

otl: ['person', 'location', 'country', 'organization', 'city']

輸出:

圖片

3.2 RE示例二

輸入:

Input Sentence: 《如懿傳》是一部古裝宮廷情感電視劇,由汪俊執(zhí)導(dǎo),周迅、霍建華、張鈞甯、董潔、辛芷蕾、童瑤、李純、鄔君梅等主演。

rtl: ['所屬專輯', '成立日期', '海拔', '官方語(yǔ)言', '占地面積', '父親', '歌手', '制片人', '導(dǎo)演', '首都', '主演', '董事長(zhǎng)', '祖籍', '妻子', '母親', '氣候', '面積', '主角', '郵政編碼', '簡(jiǎn)稱', '出品公司', '注冊(cè)資本', '編劇', '創(chuàng)始人', '畢業(yè)院校', '國(guó)籍', '專業(yè)代碼', '朝代', '作者', '作詞', '所在城市', '嘉賓', '總部地點(diǎn)', '人口數(shù)量', '代言人', '改編自', '校長(zhǎng)', '丈夫', '主持人', '主題曲', '修業(yè)年限', '作曲', '號(hào)', '上映時(shí)間', '票房', '飾演', '配音', '獲獎(jiǎng)']

stl: ['國(guó)家', '行政區(qū)', '文學(xué)作品', '人物', '影視作品', '學(xué)校', '圖書(shū)作品', '地點(diǎn)', '歷史人物', '景點(diǎn)', '歌曲', '學(xué)科專業(yè)', '企業(yè)', '電視綜藝', '機(jī)構(gòu)', '企業(yè)/品牌', '娛樂(lè)人物']

otl: ['國(guó)家', '人物', 'Text', 'Date', '地點(diǎn)', '氣候', '城市', '歌曲', '企業(yè)', 'Number', '音樂(lè)專輯', '學(xué)校', '作品', '語(yǔ)言']

輸出:

圖片

3.3 NER示例一

輸入:

Input Sentence: Bob worked for Google in Beijing, the capital of China.

etl: ['LOC', 'MISC', 'ORG', 'PER']

輸出:

圖片

3.4 NER示例二

輸入:

Input Sentence: 在過(guò)去的五年中,致公黨在鄧小平理論指引下,遵循社會(huì)主義初級(jí)階段的基本路線,努力實(shí)踐致公黨十大提出的發(fā)揮參政黨職能、加強(qiáng)自身建設(shè)的基本任務(wù)。

etl: ['組織機(jī)構(gòu)', '地點(diǎn)', '人物']

輸出:

圖片

3.5 EE示例一

輸入:

Input Sentence: Yesterday Bob and his wife got divorced in Guangzhou.

etl: {'Personnel:Elect': ['Person', 'Entity', 'Position', 'Time', 'Place'], 'Business:Declare-Bankruptcy': ['Org', 'Time', 'Place'], 'Justice:Arrest-Jail': ['Person', 'Agent', 'Crime', 'Time', 'Place'], 'Life:Divorce': ['Person', 'Time', 'Place'], 'Life:Injure': ['Agent', 'Victim', 'Instrument', 'Time', 'Place']}

輸出:

圖片

3.6 EE示例二

輸入:

Input Sentence:: 在2022年卡塔爾世界杯決賽中,阿根廷以點(diǎn)球大戰(zhàn)險(xiǎn)勝法國(guó)。

etl: {'組織行為-罷工': ['時(shí)間', '所屬組織', '罷工人數(shù)', '罷工人員'], '競(jìng)賽行為-晉級(jí)': ['時(shí)間', '晉級(jí)方', '晉級(jí)賽事'], '財(cái)經(jīng)/交易-漲停':['時(shí)間', '漲停股'] , '組織關(guān)系-解雇': ['時(shí)間', '解雇方', '被解雇人員']}

輸出:

圖片

3.7 EE示例三(一個(gè)有意思的錯(cuò)誤示例)

輸入:

Input Sentence:: 我今天和他離婚了

etl: {'組織行為-罷工': ['時(shí)間', '所屬組織', '罷工人數(shù)', '罷工人員'], '競(jìng)賽行為-晉級(jí)': ['時(shí)間', '晉級(jí)方', '晉級(jí)賽事'], '財(cái)經(jīng)/交易-漲停':['時(shí)間', '漲停股'] , '組織關(guān)系-解雇': ['時(shí)間', '解雇方', '被解雇人員']}

輸出:

圖片

明顯上面的輸出使錯(cuò)誤的,自定義etl為: {'離婚': ['時(shí)間', '人物']},輸出為:

圖片

責(zé)任編輯:張燕妮 來(lái)源: AI科技評(píng)論
相關(guān)推薦

2025-02-06 11:25:50

2024-06-25 09:35:04

模型訓(xùn)練

2025-02-08 11:12:34

ZAPS影像模型

2025-02-07 10:10:05

MusicMagus擴(kuò)散模型音樂(lè)編輯

2024-11-20 16:51:00

目標(biāo)檢測(cè)模型

2024-09-12 08:00:00

2023-07-12 09:00:00

自動(dòng)語(yǔ)音識(shí)別機(jī)器學(xué)習(xí)

2021-09-08 17:23:33

谷歌模型開(kāi)發(fā)

2025-02-07 15:20:00

AI數(shù)據(jù)訓(xùn)練

2023-12-13 15:15:10

機(jī)器人人工智能GPT-4

2024-02-07 12:13:19

AI數(shù)據(jù)

2025-09-29 14:02:02

DeepMind模型AI

2021-10-25 09:06:29

模型人工智能計(jì)算

2023-02-03 16:31:02

模型

2024-11-18 08:40:00

2025-04-23 09:28:58

2025-10-09 10:51:24

2024-03-15 12:49:40

AI訓(xùn)練

2025-09-23 12:52:38

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)