偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

華人小哥的“黑話”數(shù)據(jù)集,AI:你連dbq都不懂

新聞 人工智能
最近,來自USCD和北航的研究者,就一邊“玩游戲”,一邊為Cant開發(fā)了一個(gè)數(shù)據(jù)集——DogWhistle,并且已經(jīng)開源。

 本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

提到“007”,你一定會(huì)想到詹姆斯·邦德。

[[398577]]

這樣具有隱藏含義的詞,可以統(tǒng)稱為Cant,包括暗語、隱語、行話等。

常見的,比如“666”,還有zqsg、xswl等網(wǎng)絡(luò)“暗語”……

對(duì)這些詞的理解,在日常生活、廣告和喜劇中都十分重要。

那么,怎么能讓AI理解它們?

最近,來自USCD和北航的研究者,就一邊“玩游戲”,一邊為Cant開發(fā)了一個(gè)數(shù)據(jù)集——DogWhistle,并且已經(jīng)開源。

[[398578]]

用游戲收集數(shù)據(jù)

研究團(tuán)隊(duì)根據(jù)經(jīng)典桌游「Decrypto(截碼戰(zhàn))」進(jìn)行改編,設(shè)計(jì)了「Decrypto Online」,利用其中的記錄收集數(shù)據(jù)。

華人小哥的“黑話”數(shù)據(jù)集,AI:你連dbq都不懂,xswl |NAACL 2021

△Decrypto Online玩家界面

概括而言,Decrypto游戲就是將4個(gè)玩家分為2隊(duì),隊(duì)長提供線索詞B,以便讓隊(duì)友把它和初始詞A關(guān)聯(lián)起來,同時(shí)要避免對(duì)手推斷出A詞。

具體來說,每個(gè)隊(duì)伍有序號(hào)1-4的四個(gè)初始詞,只有本隊(duì)成員可以知道這些詞。

華人小哥的“黑話”數(shù)據(jù)集,AI:你連dbq都不懂,xswl |NAACL 2021

每一回合由隊(duì)長抽取密碼卡,根據(jù)卡上的3個(gè)數(shù)字,給出對(duì)應(yīng)序號(hào)詞的線索(Cant)。比如:初始詞1是“黑色”,那么1對(duì)應(yīng)的線索詞可以用“夜晚”。

[[398579]]

第一回合中,隊(duì)友根據(jù)線索詞,推斷卡上的數(shù)字,并由隊(duì)長公開是否正確。與此同時(shí),對(duì)方將會(huì)記錄這些信息。

華人小哥的“黑話”數(shù)據(jù)集,AI:你連dbq都不懂,xswl |NAACL 2021

而在第二回合,隊(duì)長再次抽數(shù)字卡,并給出線索詞,兩隊(duì)都要據(jù)此推斷數(shù)字,答案正確則記一分。

也就是說,隊(duì)長給出的線索詞,既要讓隊(duì)友對(duì)應(yīng)到初始詞上,同時(shí)還要避免對(duì)手摸清其中的關(guān)聯(lián)。

任務(wù)設(shè)置

研究人員給模型設(shè)置了兩個(gè)子任務(wù),初始詞分別為可見和不可見。

內(nèi)部人員子任務(wù)模擬內(nèi)部人員之間的通信,第一行的4個(gè)初始詞作為輸入內(nèi)容。由于emoji表情符號(hào)在交流中起著重要的作用,因此也被允許作為有效輸入。

模型通過初始詞和線索詞進(jìn)行推斷,預(yù)測(cè)并輸出初始詞對(duì)應(yīng)的序號(hào)(灰色背景)。

華人小哥的“黑話”數(shù)據(jù)集,AI:你連dbq都不懂,xswl |NAACL 2021

外部人員子任務(wù)中,初始詞是不可見的。

模型通過猜詞記錄、線索詞等進(jìn)行推斷,預(yù)測(cè)并輸出記錄對(duì)應(yīng)的序號(hào)(灰色背景)。

華人小哥的“黑話”數(shù)據(jù)集,AI:你連dbq都不懂,xswl |NAACL 2021

定量分析

為了解不同模型對(duì)Cant的理解能力,研究人員通過兩個(gè)子任務(wù)進(jìn)行了定量分析。

華人小哥的“黑話”數(shù)據(jù)集,AI:你連dbq都不懂,xswl |NAACL 2021

△兩個(gè)子任務(wù)的準(zhǔn)確度得分對(duì)比

在詞嵌入相似度的測(cè)試中,用多樣化的大型數(shù)據(jù)集訓(xùn)練的DSG,性能顯著優(yōu)于其他模型。

而具有更強(qiáng)計(jì)算能力的大尺寸模型,在內(nèi)部任務(wù)中的表現(xiàn)顯著優(yōu)于基礎(chǔ)尺寸模型。例如,RoBERTa-base和ERNIE-base,都優(yōu)于BERT-base。

此外,采用參數(shù)共享的ALBERT-base,在兩個(gè)任務(wù)上都略微低于BERT。

值得注意的是,在兩個(gè)任務(wù)中表現(xiàn)最好的模型,分別以12.8和8.5的較大差距,落后于人類的表現(xiàn)。

這表明DogWhistle是一個(gè)非常具有挑戰(zhàn)性的數(shù)據(jù)集,為下一代預(yù)訓(xùn)練語言模型提供了新的競(jìng)技場(chǎng)。

定性分析

研究人員還給出了在內(nèi)部任務(wù)中,BERT未能預(yù)測(cè),但人類可以正確預(yù)測(cè)的代表性樣本。

華人小哥的“黑話”數(shù)據(jù)集,AI:你連dbq都不懂,xswl |NAACL 2021

“Dancing Pallbearers(黑人抬棺舞)” 在模型發(fā)布后才出現(xiàn),以至于模型可能對(duì)該話題的認(rèn)識(shí)不多。

[[398580]]

對(duì)“007”(指詹姆斯·邦德電影)的推理,需要模式對(duì)各種知識(shí)有高度理解,而不是過度擬合淺層的詞匯特征,這也被認(rèn)為是自然語言推理的主要缺陷。

還有“孩子都可以打醬油了”,也要求模型具有廣泛的語言知識(shí)才能理解。

研究人員將DogWhistle數(shù)據(jù)集作為中間任務(wù),通過中間任務(wù)遷移學(xué)習(xí)來提高模型的性能。

首先,在內(nèi)部子任務(wù)上對(duì)模型進(jìn)行微調(diào),然后在螞蟻金融問題匹配語料庫(AFQMC)和大型中文問題匹配語料庫(LCQMC)上,再次微調(diào)模型。

華人小哥的“黑話”數(shù)據(jù)集,AI:你連dbq都不懂,xswl |NAACL 2021

△原始任務(wù)和中間任務(wù)中準(zhǔn)確度得分

結(jié)果顯示,在兩個(gè)數(shù)據(jù)集上,DogWhistle都幫助模型獲得了更好的性能。

作者簡介

[[398581]]

論文一作許燦文,曾在武漢大學(xué)就讀,目前是加州大學(xué)圣地亞哥分校(UCSD)的博士研究生。

他曾在微軟亞洲研究院實(shí)習(xí),現(xiàn)在Hugging Face工作。主要研究方向包括:NLP中的深度學(xué)習(xí)、自然語言生成和社交媒體分析。

[[398582]]

論文二作周王春澍,是北京航空航天大學(xué)計(jì)算機(jī)科學(xué)碩士,在微軟亞洲研究院實(shí)習(xí),致力于NLP研究。

據(jù)作者介紹,這篇論文已經(jīng)被NAACL 2021接收,數(shù)據(jù)集在GitHub上開源。

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2018-03-28 21:40:03

2023-02-25 22:12:25

AI

2020-12-08 09:13:51

MySQLDDL變更

2025-08-27 09:06:00

AI工具通訊

2020-06-22 08:16:16

哈希hashCodeequals

2023-01-08 12:10:13

ChatGPTAI服務(wù)器

2023-02-10 15:45:05

ChatGPTAIGPT-3

2023-01-31 14:16:52

ChatGPTAI檢測(cè)器

2020-08-18 10:19:57

華為云

2022-03-15 08:51:27

量子計(jì)算機(jī)量子加密普通加密

2020-09-08 06:32:57

項(xiàng)目低耦合高內(nèi)聚

2022-06-07 09:30:02

Linux內(nèi)存

2021-06-02 10:39:59

ServletWebFluxSpringMVC

2021-11-02 09:55:57

Linux內(nèi)核內(nèi)存

2018-08-16 15:59:04

優(yōu)酷

2020-08-05 14:39:49

交換機(jī)攻擊交換機(jī)安全

2020-11-25 09:49:05

Hibernate

2021-09-29 09:18:24

Linux 內(nèi)核運(yùn)維

2025-10-29 12:00:00

CPU物理CPU虛擬CPU

2022-05-14 08:05:18

Linux內(nèi)存管理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)