偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI在這張“問卷”上首次超越人類,微軟登頂SuperGLUE

新聞 人工智能
自然語言理解(NLU)迎來新的里程碑。在最新的NLU測(cè)試基準(zhǔn)SuperGLUE中,人類首次被AI超越了。

  本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

自然語言理解(NLU)迎來新的里程碑。

在最新的NLU測(cè)試基準(zhǔn)SuperGLUE中,人類首次被AI超越了。

[[374400]]

SuperGLUE相比“前輩”GLUE大大提升了問題的難度,提出一年多以來,人類一直處于第一位。

現(xiàn)如今,人類一下子被兩家AI超越。

一個(gè)是來自微軟DeBERTa,一個(gè)是來自谷歌T5+Meena。

AI在這張“問卷”上首次超越人類,微軟登頂SuperGLUE

超越人類的兩大NLU模型

對(duì)NLP領(lǐng)域的人來說,微軟DeBERTa模型并不陌生,早在去年8月微軟就開源了該模型的代碼,并提供預(yù)訓(xùn)練模型下載。

AI在這張“問卷”上首次超越人類,微軟登頂SuperGLUE

最近,最近微軟訓(xùn)練了更大規(guī)模的模型,該版本由15億參數(shù)的48個(gè)Transformer層組成。增大規(guī)模帶來的性能提升,使單個(gè)DeBERTa模型SuperGLUE上的得分(90.3)首次超過了人類(89.8),居于榜單首位。

DeBERTa(注意力分離的解碼增強(qiáng)BERT)是一種基于Transformer的神經(jīng)語言模型,使用自監(jiān)督學(xué)習(xí)對(duì)大量原始文本語料庫進(jìn)行預(yù)訓(xùn)練。

和其他預(yù)訓(xùn)練語言模型(PLM)一樣,DeBERTa旨在學(xué)習(xí)通用語言表示形式,適應(yīng)各種下游NLU任務(wù)。DeBERTa使用三種新技術(shù)——分離的注意力機(jī)制、增強(qiáng)的掩碼解碼器和一種用于微調(diào)的虛擬對(duì)抗訓(xùn)練方法。改進(jìn)了以前的最新PLM(如BERT、RoBERTa、UniLM)。

AI在這張“問卷”上首次超越人類,微軟登頂SuperGLUE

這項(xiàng)研究是由微軟研究團(tuán)隊(duì)的4位華人學(xué)者完成。

AI在這張“問卷”上首次超越人類,微軟登頂SuperGLUE

另一超越人類的AI是由CMU博士生王子瑞提交的T5+Meena。這兩項(xiàng)技術(shù)均來自谷歌。

其中,Meena是一個(gè)26億參數(shù)端到端訓(xùn)練的神經(jīng)對(duì)話模型,它具有一個(gè)演進(jìn)Transformer編碼器塊和13個(gè)演進(jìn)Transformer解碼器塊。

編碼器負(fù)責(zé)處理對(duì)話上下文,幫助Meena理解對(duì)話中已經(jīng)說過的內(nèi)容。然后,解碼器使用該信息來制定實(shí)際響應(yīng)。

AI在這張“問卷”上首次超越人類,微軟登頂SuperGLUE

T5是谷歌去年提出的“文本到文本遷移Transformer”,也就是用遷移學(xué)習(xí)讓不同的NLP任務(wù)可以使用相同的模型、損失函數(shù)和超參數(shù),一個(gè)框架在機(jī)器翻譯、文檔摘要、問答和情感分析上都能使用。

T5最大的模型具有110億個(gè)參數(shù),早在推出之時(shí)就取得了SuperGLUE上的最高水平,至今仍僅次于榜單前二模型和人類。

AI在這張“問卷”上首次超越人類,微軟登頂SuperGLUE

關(guān)于SuperGLUE

SuperGLUE是由Facebook、紐約大學(xué)、華盛頓大學(xué)和DeepMind四家機(jī)構(gòu)于2019年8月提出的新NLU測(cè)試基準(zhǔn),以取代過去的GLUE。

AI在這張“問卷”上首次超越人類,微軟登頂SuperGLUE

由于之前微軟、谷歌和Facebook的模型連續(xù)刷新GLUE基準(zhǔn)測(cè)試得分,已有不少AI模型超越了人類的表現(xiàn)。因此GLUE已不能順應(yīng)NLU技術(shù)的發(fā)展,SuperGLUE應(yīng)運(yùn)而生。

我們從最初的GLUE基準(zhǔn)測(cè)試中吸取的經(jīng)驗(yàn)教訓(xùn),并推出了SuperGLUE,這是一個(gè)采用了GLUE的新基準(zhǔn)測(cè)試,具有一系列更加困難的語言理解任務(wù)、改進(jìn)的資源和一個(gè)新的公共排行榜。

四家機(jī)構(gòu)在SuperGLUE的官方文檔中如是說。

SuperGLUE總共包含10項(xiàng)任務(wù),用于測(cè)試系統(tǒng)因果推理、識(shí)別因果關(guān)系、閱讀短文后回答是非問題等等方面的能力。SuperGLUE還包含Winogender,一種性別偏見檢測(cè)工具。

AI在這張“問卷”上首次超越人類,微軟登頂SuperGLUE

這些問題用當(dāng)前最先進(jìn)的算法還不能很好地解決,卻很容易被人類理解。

尤其是“選擇合理的替代方案”(COPA)這一項(xiàng)因果推理任務(wù)。它要求系統(tǒng)能根據(jù)給出的句子,在兩個(gè)選項(xiàng)中找出可能的原因或結(jié)果。比如:

那個(gè)男人的腳趾斷了。這是什么原因造出的?
備選答案1:他的襪子上有一個(gè)洞。
備選答案2:他把錘子掉在腳上了。

人類可以在COPA上獲得了100%的準(zhǔn)確率,而BERT只有74%,這表明了NLU還存在巨大的進(jìn)步空間。

現(xiàn)在SuperGLUE上超越了人類表現(xiàn),微軟的研究人員認(rèn)為:“這是通向通用AI的重要里程碑”。

微軟DeBERTa源代碼與預(yù)訓(xùn)練模型:

https://github.com/microsoft/DeBERTa

谷歌T5和Meena:

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2019-01-25 18:37:20

AI數(shù)據(jù)科技

2024-04-11 12:30:40

2024-04-22 07:00:00

AI駕駛

2021-08-16 10:21:01

AI 數(shù)據(jù)人工智能

2022-12-01 15:22:02

AI阿里騰訊

2010-12-22 09:50:21

ARMWindows

2021-07-28 11:54:09

阿里云AI自然語言理解

2022-03-07 10:21:13

瀏覽器兼容性供應(yīng)商

2020-10-18 18:02:32

AI機(jī)器學(xué)習(xí)微軟

2023-09-05 15:09:31

人工智能

2025-07-02 08:50:00

AI智能體模型

2021-01-27 14:24:17

人工智能AI國際象棋AI

2010-07-20 16:14:09

蘋果微軟

2023-12-12 12:43:04

AI模型

2022-08-05 14:59:21

iOS漏洞測(cè)試

2024-01-15 00:40:43

C#Java編譯器

2023-09-15 11:01:51

人工智能

2019-10-31 14:37:55

技術(shù)人工智能開發(fā)

2025-02-10 12:00:25

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)