偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

500億參數(shù),支持103種語(yǔ)言:谷歌推出「全球文字翻譯」模型

新聞 機(jī)器學(xué)習(xí)
由于缺乏平行數(shù)據(jù),小語(yǔ)種的翻譯一直是一大難題。來(lái)自谷歌的研究者提出了一種能夠翻譯 103 種語(yǔ)言的大規(guī)模多語(yǔ)言神經(jīng)機(jī)器翻譯模型,在數(shù)據(jù)豐富和匱乏的語(yǔ)種翻譯中都實(shí)現(xiàn)了顯著的性能提升。

由于缺乏平行數(shù)據(jù),小語(yǔ)種的翻譯一直是一大難題。來(lái)自谷歌的研究者提出了一種能夠翻譯 103 種語(yǔ)言的大規(guī)模多語(yǔ)言神經(jīng)機(jī)器翻譯模型,在數(shù)據(jù)豐富和匱乏的語(yǔ)種翻譯中都實(shí)現(xiàn)了顯著的性能提升。他們?cè)?250 億個(gè)的句子對(duì)上進(jìn)行訓(xùn)練,參數(shù)量超過(guò) 500 億。 

[[278990]]

在過(guò)去的幾年里,由于神經(jīng)機(jī)器翻譯(NMT)的發(fā)展,機(jī)器翻譯(MT)系統(tǒng)的質(zhì)量得到了顯著提升,打破了世界各地的語(yǔ)言障礙。但 NMT 的成功很大程度上要?dú)w功于有監(jiān)督的訓(xùn)練數(shù)據(jù)。那么,數(shù)據(jù)較少甚至沒(méi)有數(shù)據(jù)的語(yǔ)言該怎么辦呢?多語(yǔ)言 NMT 是一種有效的解決方法,它有一種歸納偏見(jiàn),即「來(lái)自一種語(yǔ)言的學(xué)習(xí)信號(hào)應(yīng)該有助于提高其他語(yǔ)言的翻譯質(zhì)量」。

多語(yǔ)言機(jī)器翻譯使用一種語(yǔ)言模型處理多種語(yǔ)言。數(shù)據(jù)匱乏語(yǔ)種多語(yǔ)言訓(xùn)練的成功已經(jīng)應(yīng)用于自動(dòng)語(yǔ)言識(shí)別、文本轉(zhuǎn)語(yǔ)音等系統(tǒng)。谷歌的研究者之前探索過(guò)擴(kuò)展單個(gè)神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)的語(yǔ)言數(shù)量,同時(shí)控制每種語(yǔ)言的訓(xùn)練數(shù)據(jù)量。但如果將所有限制因素都移除會(huì)發(fā)生什么?我們能否使用所有可用數(shù)據(jù)訓(xùn)練單個(gè)模型——即使這些數(shù)據(jù)的大小、腳本、復(fù)雜度和領(lǐng)域都各不相同。

在一篇名為「Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges」的論文和后續(xù)幾篇論文中,谷歌的研究者們?cè)诔^(guò) 250 億的句子對(duì)上訓(xùn)練了一個(gè) NMT 模型,這些句子是 100 多種語(yǔ)言與英語(yǔ)的互譯,參數(shù)量超過(guò) 500 億。他們得到了一種大規(guī)模多語(yǔ)言、大規(guī)模神經(jīng)機(jī)器翻譯方法 M4,在數(shù)據(jù)豐富和匱乏的語(yǔ)言中都實(shí)現(xiàn)了顯著的性能提升,可以輕松適應(yīng)單個(gè)領(lǐng)域/語(yǔ)言,同時(shí)能夠有效應(yīng)用于跨語(yǔ)言下游遷移任務(wù)。

大規(guī)模多語(yǔ)言機(jī)器翻譯

盡管跨語(yǔ)言對(duì)數(shù)據(jù)傾斜是 NMT 任務(wù)中的一大挑戰(zhàn),但這種傾斜也為研究遷移創(chuàng)造了一種理想情景,在一種語(yǔ)言上訓(xùn)練得到的信息可以應(yīng)用到其他語(yǔ)言的翻譯中。法語(yǔ)、德語(yǔ)、西班牙語(yǔ)等數(shù)據(jù)豐富的語(yǔ)言占據(jù)分布的一端,提供了數(shù)十億的平行語(yǔ)料;約魯巴語(yǔ)、信德語(yǔ)、夏威夷語(yǔ)等數(shù)據(jù)匱乏的語(yǔ)言占據(jù)分布的另一端,只有幾萬(wàn)的語(yǔ)料。

所有語(yǔ)言對(duì)的數(shù)據(jù)分布(取對(duì)數(shù))和在每個(gè)特定語(yǔ)言對(duì)上訓(xùn)練得到的雙語(yǔ)基線的相對(duì)翻譯質(zhì)量(BLEU 分?jǐn)?shù))。

使用所有可用數(shù)據(jù)(來(lái)自 103 種語(yǔ)言的 250 億個(gè)樣本)訓(xùn)練之后,研究者觀察到,數(shù)據(jù)匱乏語(yǔ)言有著強(qiáng)烈的正向遷移傾向,30 多種語(yǔ)言的翻譯質(zhì)量得到了顯著提高,數(shù)據(jù)分布尾部的 BLEU 分?jǐn)?shù)平均提高了 5 分。效果是已知的,但卻非常鼓舞人心,因?yàn)楸容^是在雙語(yǔ)基線(即只在特定語(yǔ)言對(duì)上訓(xùn)練得到的模型)和單個(gè)多語(yǔ)言模型之間進(jìn)行的,后者擁有類似于單個(gè)雙語(yǔ)模型的表征能力。這一發(fā)現(xiàn)表明,大規(guī)模多語(yǔ)言模型可以有效泛化,而且能夠捕捉大量語(yǔ)言之間的表征相似性。

單個(gè)大規(guī)模多語(yǔ)言模型與雙語(yǔ)基線模型之間的翻譯質(zhì)量對(duì)比。

在一篇名為「Investigating Multilingual NMT Representations at Scale」的 EMNLP 2019 論文中,谷歌的研究者比較了多語(yǔ)言模型在多種語(yǔ)言中的表征能力。他們發(fā)現(xiàn),多語(yǔ)言模型無(wú)需外部限制就能學(xué)習(xí)在語(yǔ)言學(xué)上相似的語(yǔ)言的共享表征,驗(yàn)證了長(zhǎng)期以來(lái)利用這些相似性的直覺(jué)和實(shí)驗(yàn)結(jié)果。

在「Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation」一文中,研究者進(jìn)一步證明了這些學(xué)習(xí)到的表征在下游任務(wù)中跨語(yǔ)言遷移的有效性。

500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

所有 103 種語(yǔ)言編碼表征聚類的可視化,基于表征相似性。不同的顏色代表不同的語(yǔ)系。

構(gòu)建大規(guī)模神經(jīng)網(wǎng)絡(luò)

在增加數(shù)據(jù)匱乏的語(yǔ)種數(shù)量之后,數(shù)據(jù)豐富的語(yǔ)種翻譯質(zhì)量開(kāi)始下降。這種下降在多任務(wù)設(shè)置中可以被觀察到,由任務(wù)間的競(jìng)爭(zhēng)和遷移的單向性引起(即從數(shù)據(jù)豐富的語(yǔ)言到數(shù)據(jù)匱乏的語(yǔ)言)。研究人員探索了能夠更好地學(xué)習(xí)和實(shí)現(xiàn)能力控制的算法,以此來(lái)解決這種負(fù)遷移問(wèn)題。在此過(guò)程中,他們還通過(guò)增加神經(jīng)網(wǎng)絡(luò)模型的參數(shù)量來(lái)提高其表征能力,以此來(lái)提高數(shù)據(jù)豐富語(yǔ)言的翻譯質(zhì)量。

提高神經(jīng)網(wǎng)絡(luò)的能力還有其他幾種方法,包括添加層數(shù)、增加隱藏表征的寬度等。為了訓(xùn)練更深的翻譯模型,研究者利用 GPipe 來(lái)訓(xùn)練 128 層、參數(shù)超過(guò) 60 億的 Transformer。模型能力的提高使得所有語(yǔ)言的翻譯質(zhì)量都得到了顯著提升,BLEU 分?jǐn)?shù)平均提高了 5 分。他們還研究了深度網(wǎng)絡(luò)的其他性質(zhì),包括深度-寬度權(quán)衡、可訓(xùn)練性難題以及將 transformer 擴(kuò)展到 1500 多層、840 億參數(shù)的設(shè)計(jì)選擇等。

盡管擴(kuò)展深度是提高模型能力的一種方法,探索能夠利用問(wèn)題多任務(wù)特性的架構(gòu)也是一種非常可行的補(bǔ)充方法。研究者通過(guò)用稀疏門控專家混合層(sparsely-gated mixture of experts)替代原始的前饋層修改 transformer 的架構(gòu),顯著提高了模型能力,使得我們可以成功地訓(xùn)練和傳遞 500 億參數(shù),從而進(jìn)一步提高了翻譯質(zhì)量。

與 103 個(gè)雙語(yǔ)翻譯基準(zhǔn)相比,谷歌的新方法在單個(gè)多語(yǔ)言模型上提高了容量(參數(shù)量),進(jìn)而提高了翻譯質(zhì)量。

讓 M4 模型實(shí)用化

對(duì)于每個(gè)語(yǔ)言的領(lǐng)域或遷移任務(wù)來(lái)說(shuō),訓(xùn)練大型模型,花費(fèi)大量算力非常不經(jīng)濟(jì)。谷歌提出的方法通過(guò)使用容量可調(diào)層使新模型適應(yīng)特定的語(yǔ)言或領(lǐng)域,無(wú)需更改原始模型,使得這些模型變得更加實(shí)用。

展望

有研究顯示,到 21 世紀(jì)末,全球至少有 7000 種目前正在使用的語(yǔ)言將會(huì)不復(fù)存在。多語(yǔ)言機(jī)器翻譯系統(tǒng)可以拯救這些語(yǔ)言嗎?谷歌認(rèn)為,M4 是通向另外 1000 種語(yǔ)言翻譯的基石。從這類多語(yǔ)言模型開(kāi)始,即使沒(méi)有平行語(yǔ)料,我們也可以輕松地將機(jī)器翻譯擴(kuò)展到新的語(yǔ)言、領(lǐng)域和下游任務(wù)中去。在通用機(jī)器翻譯的方向上,很多有希望的解決方案似乎是跨領(lǐng)域的,多語(yǔ)言 NMT 正在成為多任務(wù)學(xué)習(xí)、元學(xué)習(xí)、深層網(wǎng)絡(luò)訓(xùn)練等機(jī)器學(xué)習(xí)技術(shù)的理想測(cè)試平臺(tái)。

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器學(xué)習(xí)
相關(guān)推薦

2022-07-07 12:38:58

PlatformsMetaNLLB-200

2023-03-07 13:32:33

谷歌模型

2020-10-21 15:24:42

阿里AI翻譯

2023-02-25 16:14:36

AIMeta語(yǔ)言模型

2020-06-04 09:22:46

谷歌AI翻譯

2022-07-20 16:36:02

模型AI

2020-10-28 10:38:08

谷歌模型機(jī)器翻譯

2023-12-13 11:16:34

微軟Phi-2大型語(yǔ)言模型

2022-08-18 15:13:37

模型參數(shù)

2011-12-03 20:07:48

Android

2011-09-09 12:09:27

Dart

2024-02-06 17:57:06

Go語(yǔ)言任務(wù)

2013-06-07 10:41:22

微軟Bing Tansla

2021-10-12 16:29:16

微軟翻譯服務(wù)人工智能

2021-06-21 05:28:54

谷歌 Chrome 瀏覽器

2022-05-26 15:00:36

翻譯模型谷歌

2020-04-21 08:30:32

AI人工智能語(yǔ)言

2020-10-11 22:05:22

機(jī)器翻譯谷歌AI

2024-03-12 13:22:00

訓(xùn)練數(shù)據(jù)

2025-02-21 10:00:35

谷歌模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)