偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

容量是GPT-2的1.7倍!谷歌打造神經(jīng)對話模型Meena

新聞 人工智能
谷歌的研究人員認(rèn)為:開放域?qū)υ捬芯砍耸且粋€引人入勝的研究課題之外,這種對話機(jī)制還可以產(chǎn)生許多有趣的應(yīng)用程序,例如進(jìn)一步人性化的計算機(jī)交互、改進(jìn)外語練習(xí)以及制作可關(guān)聯(lián)的交互式電影和游戲角色。

 å®¹é‡æ˜¯GPT-2çš„1.7倍!谷歌打造神经对话模型Meena

谷歌方面表示,這是“真正”對話式AI的一次嘗試。

Chatbots(對話式機(jī)器人)往往具有高度專業(yè)性,只要回答與用戶的期望相差不遠(yuǎn),它們的性能就值得肯定。為了更好地處理不同的對話主題,開放域?qū)υ捬芯?探索了一種新的方法,研究人員試圖開發(fā)一種非聊天專用機(jī)器人,雖然不以聊天為主要功能,但仍然可以滿足用戶的任何對話需求。

谷歌的研究人員認(rèn)為:開放域?qū)υ捬芯砍耸且粋€引人入勝的研究課題之外,這種對話機(jī)制還可以產(chǎn)生許多有趣的應(yīng)用程序,例如進(jìn)一步人性化的計算機(jī)交互、改進(jìn)外語練習(xí)以及制作可關(guān)聯(lián)的交互式電影和游戲角色。

但是,當(dāng)前的開放域聊天機(jī)器人有一個嚴(yán)重的缺陷:它們通常沒有實用意義,比如對同一個問題的回答前后不一致,或者回答總是缺乏基本常識。此外,聊天機(jī)器人通常會給出并非特定于當(dāng)前上下文的響應(yīng),例如,“我不知道”可以是對任何問題的回答,當(dāng)前的聊天機(jī)器人比人類更經(jīng)常這樣做,因為它涵蓋了許多可能的用戶輸入。

近日,在一篇名為《Towards a Human-like Open-Domain Chatbot》的論文中,谷歌的研究人員介紹了一個名為“Meena”的模型,它是一個包含了 26 億參數(shù)的端到端訓(xùn)練型神經(jīng)對話模型。

在論文中,研究人員表示:他們已經(jīng)證明,與現(xiàn)有的最新聊天機(jī)器人相比,Meena 可以進(jìn)行更聰明、更具體的對話。他們針對開放域聊天機(jī)器人提出了一項新的人類評估指標(biāo),即 敏感度和特異性平均值(SSA),該指標(biāo)捕獲了人類對話的基本但重要的屬性。值得注意的是,研究人員證明了“困惑度”是一種易用于任何神經(jīng)對話模型的自動指標(biāo),與 SSA 高度相關(guān)。

什么是“Meena”

Meena 是一種端到端的神經(jīng)對話模型,可以學(xué)會對給定的對話環(huán)境做出更加聰明的反應(yīng)。據(jù)介紹,Meena 模型具有 26 億個參數(shù),并經(jīng)過 341 GB 的文本訓(xùn)練,這些文本是從公共領(lǐng)域的社交媒體對話中過濾出來的,與現(xiàn)有的最新生成模型 OpenAI GPT-2 相比,Meena 具有 1.7 倍的模型容量,并且受過 8.5 倍的數(shù)據(jù)訓(xùn)練。

該模型訓(xùn)練的目標(biāo)是最大程度地減少“困惑度”,即預(yù)測下一個標(biāo)記(會話中的下一個單詞)的不確定性。它的核心是 Evolved Transformer seq2seq 體系結(jié)構(gòu),這是一種通過進(jìn)化神經(jīng)體系結(jié)構(gòu)搜索發(fā)現(xiàn)以改善困惑性的 Transformer 體系結(jié)構(gòu)。

容量是GPT-2的1.7倍!谷歌打造神经对话模型Meena

具體而言,Meena 具有單個 Evolved Transformer 編碼器塊和 13 個 Evolved Transformer 解碼器塊,如下所示。編碼器負(fù)責(zé)處理對話上下文,以幫助 Meena 理解對話中已經(jīng)說過的內(nèi)容,然后,解碼器使用該信息來制定響應(yīng)。通過調(diào)整超參數(shù),研究人員發(fā)現(xiàn):功能更強(qiáng)大的解碼器是提高對話質(zhì)量的關(guān)鍵。

容量是GPT-2的1.7倍!谷歌打造神经对话模型Meena

用于訓(xùn)練的對話被組織為樹線程,其中線程中的每個答復(fù)都被視為一個會話回合。研究人員提取了每個會話訓(xùn)練示例(包含七次上下文轉(zhuǎn)換)作為通過樹線程的一條路徑,研究人員表示,選擇七次作為一個良好的平衡,是因為既要有足夠長的上下文來訓(xùn)練會話模型,又要在內(nèi)存約束內(nèi)擬合模型(較長的上下文會占用更多的內(nèi)存)。

敏感性和特異性平均值(SSA)

現(xiàn)有的關(guān)于聊天機(jī)器人質(zhì)量的人工評估指標(biāo)往往很復(fù)雜,并且未在審閱者之間達(dá)成一致。這促使谷歌的研發(fā)人員設(shè)計了一種新的人類評估指標(biāo),即敏感度和特異度平均值(SSA),它捕獲了自然對話的基本但重要的屬性。

為了計算 SSA,研究人員與參與測試的聊天機(jī)器人(Meena 和其他知名的開放域聊天機(jī)器人共同參與測試,包括 Mitsuku,Cleverbot,小冰和 DialoGPT)進(jìn)行了自由形式的對話眾包。

為了確保評估之間的一致性,每個對話都以相同的問候語“ 嗨!”開始,人類評估員會在對話過程中重點關(guān)注兩個問題:“回答是否有意義”以及“回答是否具體”,每輪對話都要求評估者使用常識來判斷機(jī)器人的響應(yīng)是否完全合理。如果出現(xiàn)任何問題,比如混淆,不合邏輯,脫離上下文或有事實性錯誤的,則應(yīng)將其評定為“沒有意義”;如果響應(yīng)是有意義的,則需要評估其回答以確定是否基于給定的上下文。

例如,如果 A 回答“ 我愛網(wǎng)球 ”,而 B 回答“ 很好 ”,那么這段對話應(yīng)標(biāo)記為“不具體”,因為這樣的答復(fù)可以在許多不同的上下文中使用;但是如果 B 回應(yīng):“我也是,我太喜歡羅杰·費德勒了!”那么就可以將其標(biāo)記為“特定”,因為它的回答與前文所討論的內(nèi)容密切相關(guān)。

對于每個聊天機(jī)器人,研究人員通過大約 100 個對話收集了 1600 至 2400 種個人對話,每個模型響應(yīng)都由評估人員標(biāo)記,以表明其回答是否合理和具體。聊天機(jī)器人的敏感度是標(biāo)記為“敏感”的響應(yīng)的一部分,而特異性是標(biāo)記為“特定”的響應(yīng)的一部分,這兩個數(shù)值的平均值是 SSA 分?jǐn)?shù)。

下面的結(jié)果表明,就 SSA 分?jǐn)?shù)而言,Meena 的表現(xiàn)大大優(yōu)于現(xiàn)有的最新聊天機(jī)器人,并且正在縮小與人類的差距。

容量是GPT-2的1.7倍!谷歌打造神经对话模型Meena

自動評估度量:困惑度

研究人員長期以來一直在尋求一種與更準(zhǔn)確的人工評估相關(guān)的自動評估度量,這樣做可以更快地開發(fā)對話模型,但是迄今為止,找到這樣的自動度量標(biāo)準(zhǔn)一直是一個挑戰(zhàn)。出乎意料的是,谷歌研究人員發(fā)現(xiàn),在他們的工作中,“困惑度”似乎符合這一種自動度量標(biāo)準(zhǔn),它可隨時用于任何神經(jīng) seq2seq 模型,表現(xiàn)出與人工評估(如 SSA 值)的強(qiáng)烈相關(guān)性。

谷歌研究人員關(guān)于“困惑度”的解釋是這樣的:困惑度用于衡量語言模型的不確定性,困惑度越低,模型就越有信心生成下一個標(biāo)記(如字符、子詞或單詞)。從概念上講,困惑度表示模型在生成下一個回答時試圖選擇的選項數(shù)量。

在開發(fā)過程中,研發(fā)人員對具有不同超參數(shù)和體系結(jié)構(gòu)的八個不同模型版本進(jìn)行了基準(zhǔn)測試,例如層數(shù)、關(guān)注頭(attention heads)、總訓(xùn)練步驟、是否使用 Evolved Transformer 或常規(guī) Transformer 以及是否使用硬標(biāo)簽或“蒸餾”進(jìn)行訓(xùn)練。如下圖所示,困惑度越低,模型的 SSA 評分越好,相關(guān)系數(shù)也很強(qiáng)(R 2 = 0.93)。

編者注:知識蒸餾(有時也稱為師生學(xué)習(xí))是一種壓縮技術(shù),要求對小型模型進(jìn)行訓(xùn)練,以使其擁有類似于大型模型(或者模型集合)的行為特征。

容量是GPT-2的1.7倍!谷歌打造神经对话模型Meena

交互式 SSA 與困惑度。每個藍(lán)點都是 Meena 模型的不同版本,通過繪制一條回歸線,表明 SSA 和困惑之間存在很強(qiáng)的相關(guān)性。虛線分別對應(yīng)人類、其他機(jī)器人、Meena(base)、端到端訓(xùn)練模型的 SSA 性能,以及最終的具有過濾機(jī)制和已調(diào)諧解碼的完整 Meena。

谷歌表示,他們研發(fā)的最好的端到端 Meena 模型(稱為 Meena(base))的困惑度為 10.2(越小越好),并且 SSA 分?jǐn)?shù)轉(zhuǎn)換為 72%,完整版的 Meena 具有過濾機(jī)制和經(jīng)過解碼的解碼功能,可將 SSA 分?jǐn)?shù)進(jìn)一步提高到 79%。

未來的研究與挑戰(zhàn)

對于未來的規(guī)劃,谷歌的研發(fā)人員表示將繼續(xù)通過改進(jìn)算法,體系結(jié)構(gòu),數(shù)據(jù)和計算來降低神經(jīng)對話模型的困惑度。雖然目前研發(fā)人員只專注于這項工作中的明智性和特殊性,但其他屬性(例如事實性等)在后續(xù)工作中也值得考慮。此外,解決模型中的安全性和偏差是谷歌關(guān)注的重點領(lǐng)域。

 

責(zé)任編輯:張燕妮 來源: AI前線
相關(guān)推薦

2023-08-17 08:00:00

2023-05-10 14:54:23

AI

2024-09-19 13:32:24

2023-06-05 14:04:59

模型AI

2023-05-10 17:33:56

2020-03-16 10:16:19

代碼開發(fā)工具

2024-04-11 12:47:37

AI模型

2024-12-20 14:37:47

2020-04-20 13:45:32

神經(jīng)網(wǎng)絡(luò)模型代碼

2023-12-16 09:45:56

論文GPT-4AI

2024-04-09 12:23:27

C語言AI

2025-04-01 10:35:37

2024-04-08 18:55:54

RustC++開發(fā)

2024-09-09 09:40:00

OpenAIGPT-4

2024-05-30 07:02:00

KarpathyGPT-2人工智能

2024-02-29 15:39:00

AI研究算力

2023-12-15 12:52:17

AI模型

2023-05-17 13:45:31

谷歌PaLM 2

2023-09-18 16:25:36

2024-06-12 13:27:58

點贊
收藏

51CTO技術(shù)棧公眾號