偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌發(fā)布TyDi QA語料庫,涵蓋11種不同類型語言

新聞 機器學(xué)習(xí)
為了鼓勵對多語言問答技術(shù)的研究,谷歌發(fā)布了 TyDi QA,這是一個涵蓋了 11 種不同類型語言的問答語料庫。

 [[315942]]

為了鼓勵對多語言問答技術(shù)的研究,谷歌發(fā)布了 TyDi QA,這是一個涵蓋了 11 種不同類型語言的問答語料庫。

問答技術(shù)幫助人們在日常生活中遇到問題時,如“烏賊的墨汁可以安全食用嗎?”之類的問題,用戶可以通過詢問語音助理或鍵入搜索內(nèi)容并期望 得到答案。去年,我們向研究社區(qū)發(fā)布了英語版的 自然問題 數(shù)據(jù)集,以提供反映真實用戶需求的 挑戰(zhàn)。然而,世界上還有成千上萬不同的語言,其中許多語言使用非常不同的方法來構(gòu)造語義。例如,在英語中,一個物體(“book”)和多個物體(“books”);而在阿拉伯語中,也有第三種形式表示,除了單數(shù)(“كتاب”,kitab)或復(fù)數(shù)(“كتب”, kutub)之外,還有表示兩個物體 (“كتابان”,kitaban) 。此外,有一些語言,如日語,在單詞之間并不使用空格。要創(chuàng)建這樣一種機器學(xué)習(xí)系統(tǒng),能夠理解語言表達(dá)意義的多種方式,真不啻為一項挑戰(zhàn),而訓(xùn)練這樣的系統(tǒng),需要從它們將應(yīng)用到的不同語言中獲得樣本。

為了鼓勵對多語言問答技術(shù)的研究,今天,我們發(fā)布了 TyDi QA,這是一個涵蓋了 11 種不同類型語言的問答語料庫。在我們的論文《TyDi QA:不同類型語言中信息查詢問答系統(tǒng)的基準(zhǔn)》(TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages)中描述,我們的語料庫的靈感來自于 類型多樣性,這是一種概念,即不同的語言以不同的結(jié)構(gòu)方式來表達(dá)意義。因為我們?yōu)檫@個語料庫選擇了一組在類型上彼此相距較遠(yuǎn)的語言,我們期望,在這個數(shù)據(jù)集上表現(xiàn)良好的模型,能夠推廣到世界上的大量語言。

類型多樣的語言集

TyDi QA 包括了來自 11 種語言的超過 200000 個問答對,代表了一系列不同的語言現(xiàn)象和數(shù)據(jù)挑戰(zhàn)。其中許多語言使用的是非拉丁字母,如阿拉伯語、孟加拉語、韓語、俄語、泰盧固語(Telugu)和泰語。還有一些單詞的構(gòu)成方式很復(fù)雜,如阿拉伯語、芬蘭語、印尼語、斯瓦希里語(Kiswahili)、俄語等。日語使用四種字母,如:

谷歌发布TyDi QA语料库,涵盖11种不同类型语言

由四種顏色表示,而韓文字母本身具有很強的組合型。這些語言的范圍也很廣,從網(wǎng)上有很多可用數(shù)據(jù)(如英語和阿拉伯語)到只有很少的數(shù)據(jù)(如孟加拉語和斯瓦希里語)。我們期望,能夠應(yīng)對這些挑戰(zhàn)的系統(tǒng)將在許多語言中取得成功。

創(chuàng)建真實數(shù)據(jù)

研究社區(qū)使用的許多早期 QA 數(shù)據(jù)集都是這樣創(chuàng)建的:首先給人們一篇文章,然后要求他們根據(jù)閱讀文章的內(nèi)容寫出問題來創(chuàng)建。然而,由于人們在寫下每個問題時都能夠看到答案,這種方法產(chǎn)生的問題往往包含與答案相同的單詞。因此,針對這類數(shù)據(jù)進(jìn)行訓(xùn)練的機器學(xué)習(xí)算法更傾向于單詞匹配,而忽略了滿足用戶需求所需的更細(xì)微的答案。

為了構(gòu)建一個更自然的數(shù)據(jù)集,我們從那些想要得到答案但還不知道答案的人那里收集了問題。為了激發(fā)問題的靈感,我們向人們展示了維基百科(Wikipedia)用他們的母語寫成的一段有趣的內(nèi)容。然后,我們讓他們提一個問題,任何問題都可以,只要我給他們看的內(nèi)容沒有回答,并且他們實際上想知道答案。這類似于當(dāng)你在大街上閑逛時,你的好奇心可能會引發(fā)關(guān)于你所看到的有趣事物的問題。我們鼓勵他們在提出問題時發(fā)揮想象力。比如,一篇關(guān)于冰的文章,會讓你想到夏天的冰棒嗎?棒極了!問問是誰發(fā)明了冰棒。重要的是,問題是直接用某種語言寫就的,而不是翻譯,因此許多問題不同于那些在英語版語料庫中看到的問題。孟加拉語中有一個問題:“সফেদা ফল খেতে কেমন?”(人心果(Sapodilla)是什么味道?)從來沒聽說過人心果嗎?這可能是因為人心果在印度比美國更常見。

對于這些問題中的每一個,我們在 Google 上用適當(dāng)?shù)恼Z言搜索最匹配的維基百科的文章,并要求提問者在文章中查找并高亮顯示答案。雖然我們預(yù)料到當(dāng)提問者沒有找到答案時,問題和答案之間會有一些有趣的分歧,但結(jié)合世界語言中驚人的廣泛語言現(xiàn)象,我們發(fā)現(xiàn)情況甚至更為復(fù)雜。

例如,在芬蘭語中,有一些有趣的例子,在問題和回答中,day 和 week 這兩個詞的表達(dá)方式就非常不同。要成功從整個維基百科文章中選擇這個答案句子,系統(tǒng)需要能夠識別出芬蘭語詞匯 viikonpäivät、seitsenpäiväinen 和 viikko 之間的關(guān)系。 

谷歌发布TyDi QA语料库,涵盖11种不同类型语言

作為研究社區(qū)共同取得進(jìn)展

我們希望,這個數(shù)據(jù)集能夠推動研究社區(qū)進(jìn)行創(chuàng)新,為世界各地的用戶創(chuàng)建更有用的問答系統(tǒng)。為了跟蹤社區(qū)的進(jìn)展,我們建立了一個 排行榜,參與者可以在其上評估他們的機器學(xué)習(xí)系統(tǒng)的質(zhì)量,我們還開源了一個使用該數(shù)據(jù)集的 問答系統(tǒng)。要查看排行榜并了解更多信息,請訪問挑戰(zhàn)網(wǎng)站。

作者介紹:

Jonathan Clark,Google Research 研究科學(xué)家。

 

責(zé)任編輯:張燕妮 來源: AI前線
相關(guān)推薦

2019-10-30 08:55:33

谷歌人工智能技術(shù)

2023-07-19 09:50:25

人工智能算法

2020-08-27 07:00:00

游戲游戲測試測試技術(shù)

2023-04-14 14:54:29

2010-04-26 12:19:28

Oracle 數(shù)據(jù)庫

2022-05-09 14:28:31

NFT區(qū)塊鏈代幣

2021-12-02 10:16:10

機器人編程語言計算機語言

2023-03-24 16:21:08

2014-11-17 15:51:57

機器翻譯應(yīng)用

2010-12-16 10:54:07

SSL VPNVPN

2011-03-30 08:27:48

C#

2023-07-25 16:04:18

網(wǎng)絡(luò)電纜光纖

2017-11-03 15:58:08

2023-04-18 16:31:00

2024-01-02 14:56:37

K8s部署應(yīng)用程序

2010-05-10 09:48:46

Oracle優(yōu)化器

2021-01-22 09:13:03

云計算邊緣計算機計算機硬件

2022-09-21 09:03:46

機密計算數(shù)據(jù)安全

2011-04-12 11:46:26

Oracle優(yōu)化器

2010-07-01 16:12:10

UML組件圖
點贊
收藏

51CTO技術(shù)棧公眾號