偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

在機(jī)器翻譯等通用任務(wù)場(chǎng)景下,如何最有效地引用對(duì)比學(xué)習(xí)?

人工智能 新聞
目前,對(duì)于對(duì)比學(xué)習(xí)目標(biāo)的使用仍然不是最優(yōu)的。

對(duì)比學(xué)習(xí)和文本生成的結(jié)合并不是一個(gè)新話題。但是,之前的大多方法都局限于某些特定的任務(wù)場(chǎng)景。例如,在一個(gè)對(duì)話的場(chǎng)景中,可能需要利用對(duì)比學(xué)習(xí),去區(qū)分說(shuō)話者,或者說(shuō)話的主題,達(dá)到更好的表示學(xué)習(xí)的效果。在摘要中,也有一些工作通過(guò)構(gòu)造具有事實(shí)性錯(cuò)誤的負(fù)樣本來(lái)使用對(duì)比學(xué)習(xí),增強(qiáng)生成的摘要和原文的一致性。然而,對(duì)于比較通用的任務(wù)(以使用 Transformer的編碼器和解碼器為生成模型為例),在用于機(jī)器翻譯、摘要、數(shù)據(jù)到文本生成的各種任務(wù)下,如何去引用對(duì)比學(xué)習(xí)才最有效?為什么要去用對(duì)比學(xué)習(xí)?關(guān)于這方面的研究比較少,本文將就此進(jìn)行討論。

今天的介紹會(huì)圍繞下面四點(diǎn)展開:

  • 動(dòng)機(jī)
  • 方法
  • 實(shí)驗(yàn)
  • 討論

01 動(dòng)機(jī)

先來(lái)講一下為什么要使用對(duì)比學(xué)習(xí)。

1. 為什么在文本生成上應(yīng)用對(duì)比學(xué)習(xí)

首先,對(duì)比學(xué)習(xí)是一種很好的表示學(xué)習(xí)的方式,尤其是在CV的場(chǎng)景下,對(duì)比學(xué)習(xí)更是非?;穑谖谋旧扇蝿?wù)場(chǎng)景下,如果可以去構(gòu)造出對(duì)于這個(gè)任務(wù)有意義的、有價(jià)值的樣本,可以幫助模型通過(guò)不同樣本之間的比較,學(xué)到更好的意義和表示。

其次,最近有研究表明,對(duì)比學(xué)習(xí)是有助于緩解曝光偏差問(wèn)題的一個(gè)新思路。所謂曝光偏差,就是指目前大多數(shù)的生成框架(大多基于最大似然估計(jì)進(jìn)行訓(xùn)練的)存在著測(cè)試和訓(xùn)練的不一致性,這個(gè)不一致性將會(huì)損害模型的泛化性能。模型在訓(xùn)練階段解碼器只曝光給了正確的輸入,而在測(cè)試階段模型不得不基于自己生成的字符來(lái)預(yù)測(cè),由此形成了測(cè)試和訓(xùn)練的偏差。之前已經(jīng)有很多工作來(lái)解決這個(gè)問(wèn)題,比較有名的就是scheduled-sampling:既然曝光偏差是由于訓(xùn)練和測(cè)試的不一致導(dǎo)致的,那就讓模型在訓(xùn)練的時(shí)候也以一定概率和測(cè)試采取同樣的機(jī)制。也就是說(shuō),以一定概率利用上一步預(yù)測(cè)的詞語(yǔ)指導(dǎo)下一步的生成。

除此之外,還有一些比較有名的方法,如基于強(qiáng)化學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò)等。除了token-level監(jiān)督和最大似然的訓(xùn)練目標(biāo)以外,還讓模型去顯示的優(yōu)化一個(gè)難以微分的目標(biāo)。但是這兩種技術(shù),在實(shí)現(xiàn)中存在著一定的難度,如果不是一個(gè)富有經(jīng)驗(yàn)的研究者,可能訓(xùn)練出來(lái)的基于強(qiáng)化學(xué)習(xí)或者生成對(duì)抗網(wǎng)絡(luò)的模型還不如一個(gè)純粹的MLE模型訓(xùn)練的效果好。

2. 應(yīng)用對(duì)比學(xué)習(xí)可以緩解自回歸模型的曝光偏差問(wèn)題

圖片?

對(duì)比學(xué)習(xí)是如何解決這個(gè)問(wèn)題的??

首先回顧下對(duì)比學(xué)習(xí)的目的。對(duì)比學(xué)習(xí)就是在表示上把正例拉近,把負(fù)例拉遠(yuǎn)。在生成的場(chǎng)景下,對(duì)正負(fù)樣本的一個(gè)非常直觀的定義就是,把比人寫的質(zhì)量高的樣本當(dāng)做正例。以翻譯任務(wù)為例,人翻譯的結(jié)果就是正例,然后再另外去找一些包含錯(cuò)誤的翻譯結(jié)果就是負(fù)例。

如何緩解曝光偏差?就是將錯(cuò)誤的樣本和正確的樣本在訓(xùn)練階段同時(shí)曝光給解碼器,利用對(duì)比學(xué)習(xí)損失函數(shù),讓模型學(xué)習(xí)到正確標(biāo)簽的表示和錯(cuò)誤標(biāo)簽的表示。相比強(qiáng)化學(xué)習(xí)和GAN,對(duì)比學(xué)習(xí)的一個(gè)好處就是訓(xùn)練過(guò)程沒(méi)有不穩(wěn)定的問(wèn)題。

3. 一個(gè)簡(jiǎn)單的方法

圖片?

看一個(gè)如何應(yīng)用對(duì)比學(xué)習(xí)的例子。最簡(jiǎn)單的方式就是采用CV上SimCLR的方式,即正樣本是給定的人寫的目標(biāo)語(yǔ)句(也稱為ground truth),將一個(gè)batch中其他的樣本當(dāng)做是負(fù)樣本。錨點(diǎn)是生成中的source sequence輸入。

如右圖所示,是一個(gè)德英翻譯的例子。有一個(gè)德語(yǔ)輸入,目標(biāo)是要把它翻譯成合適的英語(yǔ)輸出。圖中的綠色框就是人類所寫的標(biāo)準(zhǔn)的翻譯,紅色框是在訓(xùn)練階段和它同一個(gè)batch里進(jìn)行一個(gè)隨機(jī)采樣出來(lái)的結(jié)果。綠色的就是正樣本,其他的就是負(fù)樣本。對(duì)比學(xué)習(xí)損失函數(shù)可以采用比較常見的NCE loss:一個(gè)正樣本是一個(gè)分子,整個(gè)樣本集是一個(gè)分母。最終的訓(xùn)練目標(biāo)就是把原始的token-level的NLL損失加上新的對(duì)比學(xué)習(xí)損失。解碼階段采用普通的beam-search算法即可。

4. 其他構(gòu)造正負(fù)樣本的方法

圖片?

這個(gè)方法存在一個(gè)明顯的問(wèn)題。在對(duì)比學(xué)習(xí)中,最重要的就是正負(fù)樣本是否對(duì)任務(wù)有意義,可以看出來(lái),這個(gè)方法的負(fù)樣本的質(zhì)量實(shí)在堪憂,這就導(dǎo)致正負(fù)樣本非常容易區(qū)分,使模型學(xué)不到更好的表示。右圖是對(duì)區(qū)分正負(fù)樣本難度的分析。Batch size越大,從中找出正例的概率越低。紅色這條線使用的是T5模型,表示學(xué)習(xí)效果更好,比Scratch的方法區(qū)分正負(fù)樣本的準(zhǔn)確率高很多,甚至不需要做對(duì)比學(xué)習(xí)的微調(diào)就可以找出正負(fù)樣本。這意味著對(duì)比學(xué)習(xí)是沒(méi)有挑戰(zhàn)的。所以說(shuō)直接從batch中選擇正負(fù)樣本的方法是不充分的。在實(shí)驗(yàn)中也發(fā)現(xiàn),這樣訓(xùn)練損失函數(shù)下降的是很快的,很難捕捉到對(duì)這個(gè)任務(wù)比較好的特征。

現(xiàn)在也有相關(guān)研究者做出了一些改進(jìn)。

  • SSMBA:在離散空間添加擾動(dòng),如隨機(jī)mask一些詞,用masked language model 將那些詞預(yù)測(cè)回去生成新的正樣本。 
  • Dropout:使用dropout機(jī)制類似于SimCSE,將ground truth輸入進(jìn)帶有dropout機(jī)制的decoder兩次,所得到的不同表示為一對(duì)正樣本。
  • CLAPS: 在embedding空間對(duì)ground truth加擾動(dòng),通過(guò)和原來(lái)的序列語(yǔ)義變化的大小作為劃分正負(fù)樣本的依據(jù)。

5. 目前基于對(duì)比學(xué)習(xí)的文本生成方法仍然存在瓶頸

圖片?

基于對(duì)比學(xué)習(xí)的文本生成方法,仍然存在一系列的瓶頸,還沒(méi)有發(fā)揮出其真正的優(yōu)勢(shì)。主要有以下三點(diǎn):

  • 正負(fù)例構(gòu)建: 盡管之前的方法已經(jīng)做出了一定的改進(jìn),但是對(duì)目標(biāo)序列進(jìn)行擾動(dòng)并不能反映模型當(dāng)前可能會(huì)出現(xiàn)的錯(cuò)誤。
  • 對(duì)比學(xué)習(xí)損失函數(shù): 對(duì)比學(xué)習(xí)損失函數(shù)的選擇也存在問(wèn)題。InfoNCELoss 只區(qū)分正負(fù)樣本,但會(huì)忽略負(fù)樣本之間的差異性。
  • 解碼目標(biāo): 僅僅是簡(jiǎn)單的使用普通的beam search算法意味著這里存在著訓(xùn)練目標(biāo)和解碼目標(biāo)的不一致。

02 如何解決問(wèn)題

1. 我們的改進(jìn)

圖片

我們提出了一種新的對(duì)比學(xué)習(xí)的框架——CoNT,只做了三件事,就可以使之前的對(duì)比學(xué)習(xí)框架性能取得非常顯著的提升。

上圖是我們的模型概述。左邊的部分就是經(jīng)典的生成框架,把原語(yǔ)句輸入給編碼器,目標(biāo)語(yǔ)句輸入給解碼器進(jìn)行訓(xùn)練。Z和 Z分別是編碼器和解碼器輸出的向量表示。

  • 第一個(gè)改進(jìn)是使用模型預(yù)測(cè)的樣例,作為對(duì)比學(xué)習(xí)的樣例

如圖中的這個(gè)句子,首先讓模型自己進(jìn)行推理,會(huì)生成一個(gè)句子,其概率約為0.48。同時(shí),由于beam search算法,可以解碼出多個(gè)輸出,會(huì)產(chǎn)生另一個(gè)句子,其概率約為0.53。一般來(lái)說(shuō),只要返回這兩個(gè)輸出的句子就已經(jīng)足夠了,但是在對(duì)比學(xué)習(xí)的場(chǎng)景下,還需要得到他們的表示。

  • 第二個(gè)改進(jìn)是使用三元組的對(duì)比損失函數(shù)

在這里,不同于NCE損失,只考慮一個(gè)正例樣本,其他的都是負(fù)樣本,而我們的做法是做一個(gè)相對(duì)的損失函數(shù)。比如,當(dāng)前有一個(gè)結(jié)果是模型推理生成的,這個(gè)結(jié)果和人翻譯的結(jié)果相比就是負(fù)例,但相對(duì)于同batch的句子來(lái)說(shuō),這個(gè)結(jié)果就是正例。

  • 為對(duì)比學(xué)習(xí)的目標(biāo)所設(shè)計(jì)的解碼目標(biāo)?

通過(guò)損失函數(shù)就可以看出,如果模型推理的結(jié)果和gold reference的結(jié)果比較接近,那么它和原始輸入的錨點(diǎn)是越相似的。從圖中可以看出,如果只考慮最大似然分?jǐn)?shù),那么概率為0.53的句子將作為最后的結(jié)果,但如果多做一個(gè)相似度打分,那么概率為0.48的句子會(huì)是最后的輸出,以人為判斷來(lái)看,這個(gè)結(jié)果明顯是更準(zhǔn)確的。

這是一個(gè)直觀的例子,來(lái)自于IWSLT14德英翻譯的一個(gè)句子。主要是為了向大家展示來(lái)自于同一batch中句子的質(zhì)量和自生成的樣本的質(zhì)量的對(duì)比。

圖片?

這是對(duì)剛才模型的數(shù)學(xué)表示。?

首先,y和 y是正負(fù)樣本,都是來(lái)自于模型的分布。接下來(lái),是三元組的對(duì)比損失函數(shù)。把所有的pair都加起來(lái),對(duì)于每一pair,它的損失函數(shù)是MarginRankingLoss。其中,??是包含??個(gè)對(duì)比學(xué)習(xí)樣本的pair集合,大小為k(k-1)/2。對(duì)于每個(gè)(yi,yj) + 和 - 是由他們各自的 bleu score 決定的。分?jǐn)?shù)高的在這個(gè)pair中就為正例,另外一個(gè)就為負(fù)例。最后,解碼目標(biāo)是由一個(gè)序列相似度的損失加上一個(gè)語(yǔ)言模型的損失。在解碼的時(shí)候,為了統(tǒng)一性,引入平衡因子進(jìn)行加權(quán)和。平衡因子一般設(shè)為0.5即可。

圖片

CoNT模型并不是一個(gè)完全割裂的設(shè)計(jì),而是相互幫助,相互運(yùn)作的框架。

首先,三元組對(duì)比損失函數(shù)可以建模樣本差異性,序列相似度可以在解碼時(shí)做全局打分,自生成的正負(fù)樣本可以反映模型當(dāng)前的錯(cuò)誤,都可以提升模型的性能。模型性能提高了以后,就會(huì)意味著正負(fù)樣本會(huì)更加的challenging,隨著模型性能越來(lái)越好,正負(fù)樣本也越來(lái)越來(lái)越難以區(qū)分,直到最后收斂。對(duì)于解碼的目標(biāo),在實(shí)驗(yàn)中也證明了,三元組的對(duì)比損失函數(shù),以及自生成的正負(fù)樣本,對(duì)于序列相似度的計(jì)算都是有幫助的。

03 實(shí)驗(yàn)

1. 機(jī)器翻譯

圖片?

首先看一下機(jī)器翻譯的實(shí)驗(yàn)結(jié)果,使用的數(shù)據(jù)集是IWSLT14德英翻譯、WMT16俄英翻譯和WMT14英德翻譯數(shù)據(jù)集。第一個(gè)block是用純粹的MLE損失訓(xùn)練的結(jié)果,第二個(gè)block是用NCE損失訓(xùn)練的結(jié)果,第三個(gè)block就用構(gòu)造的模型訓(xùn)練的結(jié)果。Block2主要比較了不同的那個(gè)正負(fù)樣本構(gòu)建方法所帶來(lái)差異性。Block2和block3反映的是用不同的損失建模對(duì)于學(xué)習(xí)所帶來(lái)的收益,可以看到我們的正負(fù)樣本的構(gòu)建得到的效果顯著提高。橙色的框表示的是單看訓(xùn)練所帶來(lái)的提升。

2. 文本摘要

圖片

這是摘要生成的實(shí)驗(yàn),使用的數(shù)據(jù)集是XSum和Multi-News。第一個(gè)block仍然是比較了不同的對(duì)比學(xué)習(xí)方法,可以看出CoNT的方法比MLE的方法高了三個(gè)多點(diǎn),比之前最好的方法(CLAPS)也高了兩個(gè)點(diǎn)。同樣,在PEGASUS上面做了實(shí)驗(yàn),可以看到,也是取得了目前最好的結(jié)果。

3. 代碼注釋

圖片?

這兩個(gè)實(shí)驗(yàn)是在代碼注釋生成以及結(jié)構(gòu)化的文本生成的上面做的實(shí)驗(yàn)。?

左面這個(gè)block表示對(duì)于python和java這兩個(gè)數(shù)據(jù)集的結(jié)果。在不引入外部數(shù)據(jù)的前提下,最好結(jié)果是CodeT5+Dual-Gen,可以看到在加上CoNT之后的方法也是取得了一個(gè)新的SOTA。當(dāng)然,在引入外部數(shù)據(jù)的情況下,可以取得更好結(jié)果。右面是比較經(jīng)典的數(shù)據(jù)到文本生成的基準(zhǔn),叫WiKiBio,R2D2是之前的SOTA結(jié)果,在使用CoNT后,取得了最新的SOTA。

4. 數(shù)據(jù)到文本的生成—TOTTO

圖片?

這是數(shù)據(jù)到文本生成的另一個(gè)比較有名的數(shù)據(jù)集TOTTO,相比較WiKiBio,它的數(shù)據(jù)更加干凈。上面給的就是一個(gè)例子。在測(cè)試集上,利用CoNT方法,使用T5-base模型是可以取得和T5-3B模型相近的結(jié)果。也就是說(shuō),使用CoNT方法,可以在保證模型的性能的情況下,用非常節(jié)能的方式和3B模型取得相近的結(jié)果,甚至在BLEURT和PARENT兩個(gè)指標(biāo)上還可以取得小幅度的領(lǐng)先。

5. 常識(shí)生成—CommonGen

圖片

最后一個(gè)任務(wù)常識(shí)生成,即給定幾個(gè)關(guān)鍵詞,生成一句邏輯連貫且通順的句子。從表中可以看出,使用CoNT方法,比較之前的base的結(jié)果,取得了非常大的領(lǐng)先。和large相比也是取得了相近的結(jié)果,甚至在某些指標(biāo)上還要高。

04 討論

1. 可視化表示

圖片?

這是模型學(xué)習(xí)的表示的可視化結(jié)果。

藍(lán)色的點(diǎn)代表同一個(gè)batch中的樣例,橘色代表是從模型分布中采樣出來(lái)的,綠色表示ground truth,顏色越深代表和ground truth越相似。圖a是MLE模型的結(jié)果。圍繞綠點(diǎn)旁邊的,大多數(shù)都是模型自己推理出來(lái)的東西,但是它沒(méi)有一個(gè)很明顯的角色邊界。當(dāng)用Na?ve CL的框架后,能夠?qū)W習(xí)到很明顯的決策邊界,但是對(duì)于比較細(xì)的粒度,如這個(gè)綠點(diǎn)旁邊圍繞的其實(shí)并不是一些高質(zhì)量結(jié)果,還是比較錯(cuò)亂的情況。但對(duì)于CoNT來(lái)說(shuō),也有一個(gè)明顯的角色決策邊界,而且在綠色的旁邊圍繞的大多數(shù)都是一些深色的橙點(diǎn),即模型推理出的一些質(zhì)量比較好的結(jié)果。

2. 序列相似度的權(quán)重

圖片?

這里探究在解碼時(shí)引入相似度計(jì)算的影響。這里主要做兩個(gè)study,一個(gè)是使用不同的損失函數(shù),另外一個(gè)是采用不同的正負(fù)樣例構(gòu)建方法。當(dāng)α等于零的時(shí)候,就意味著完全使用似然函數(shù)。α等于1的時(shí)候,就意味著完全依賴相似度分?jǐn)?shù)??梢钥吹?,對(duì)于Pair-wise模型,在0-0.5時(shí),分?jǐn)?shù)是不斷上升的。但是當(dāng)完全忽略掉似然函數(shù)時(shí),性能也會(huì)有下降的趨勢(shì)。右邊這個(gè)圖主要反映了使用不同正負(fù)樣本構(gòu)造方式對(duì)序列相似度打分的影響,可以看到,使用CoNT的方式對(duì)reanking的目標(biāo)有比較大的幫助。

3. 如何在你的代碼中使用對(duì)比學(xué)習(xí)

圖片?

這里講一些比較工程化的東西,即假設(shè)現(xiàn)有一個(gè)基于MLE訓(xùn)練的模型,如何引入CoNT。由于我們的方法是不需要改變模型結(jié)構(gòu)的,因此只需要把模型的checkpoint加載進(jìn)來(lái),然后調(diào)用你模型的推理階段的代碼,利用pair-wise計(jì)算損失函數(shù),直到模型收斂。在推理部分,在beam search時(shí)返回每個(gè)beam對(duì)應(yīng)的隱層的pooling操作后的向量表示,最后在預(yù)測(cè)結(jié)果的選擇時(shí),利用平衡因子結(jié)合cosine距離和似然函數(shù)概率,選出最好的結(jié)果。

4. CoNT的優(yōu)缺點(diǎn)

在實(shí)際推理中,引入Contrastive learning幾乎不會(huì)帶來(lái)明顯的浮點(diǎn)數(shù)運(yùn)算操作(FLOPs),因此不會(huì)造成更多能量的消耗(不費(fèi)電),并且和MLE框架下訓(xùn)練的模型推理時(shí)長(zhǎng)幾乎是一模一樣的(不影響速度)。因此在實(shí)際部署中基于Contrastive learning訓(xùn)練的模型可以容易地替換現(xiàn)有的使用MLE 訓(xùn)練的模型,但是CoNT 的一個(gè)明顯的缺點(diǎn)是:犧牲了訓(xùn)練的速度。CoNT的訓(xùn)練速度慢主要有三個(gè)方面:

圖片?

第一點(diǎn),為了獲取足夠有效或者說(shuō)足夠有意義的樣本,需要先對(duì)模型進(jìn)行一次warmup,即先使用NLL損失微調(diào)模型,直到模型微調(diào)完成,才可以足夠合格的去產(chǎn)生所需要的正負(fù)樣本。

圖片?

第二點(diǎn),在訓(xùn)練時(shí)候,要引入解碼,使用beam search。在自回歸場(chǎng)景下,這是不可并行的,也會(huì)增加模型的一個(gè)訓(xùn)練時(shí)長(zhǎng)。

圖片?

第三點(diǎn),在決定正負(fù)樣本時(shí),需要計(jì)算和ground truth的相似度。這個(gè)過(guò)程其實(shí)是非常慢的,尤其是使用cpu來(lái)算,就會(huì)更慢,最后我們選擇利用矩陣乘法來(lái)近似的計(jì)算相似度,極大地降低了時(shí)間開銷。

5. 一些trade-off的方法

圖片?

這里提供兩個(gè)trade-off思路:

  • 減小樣本中來(lái)自模型分布的樣本數(shù)量,增大來(lái)自batch中的樣本數(shù)量。
  • 在驗(yàn)證集中對(duì)比學(xué)習(xí)的下降曲線在前1w步比較陡,可以考慮early stop。

6. 利用序列的相似度進(jìn)行協(xié)助解碼

圖片

目前,對(duì)于對(duì)比學(xué)習(xí)目標(biāo)的使用仍然不是最優(yōu)的。目前的生成過(guò)程是在beam search完成后加入的,相當(dāng)于是reranking的作用。當(dāng)然,這方面也是考慮到代碼的實(shí)現(xiàn)的難易度,包括和訓(xùn)練一致性的問(wèn)題。當(dāng)然,使用這套方法非常有潛力去做一套協(xié)助解碼的工作。在beam search過(guò)程中,似然函數(shù)的打分可能是不可靠的。如圖中的例子,可以發(fā)現(xiàn),在beam search過(guò)程中,由于貪心策略的存在,不可能遍歷所有的結(jié)果。一個(gè)解決方案是,能否考慮每多少步,引入一個(gè)序列相似度的計(jì)算。

05 問(wèn)答環(huán)節(jié)

Q1:序列相似度是如何計(jì)算的?

A1:錨點(diǎn)的選擇是編碼器的輸出,該輸出是一個(gè)sequence * h的矩陣,沿著sequence緯度進(jìn)行pooling就可以得到一個(gè)維度為h的向量,這就是一個(gè)編碼器輸出的源語(yǔ)句的表示。在beam search過(guò)程中我們可以得到那些不同的hypothesis的表示也是sequence * h的矩陣,這些序列長(zhǎng)度是不同的,我們也沿著長(zhǎng)度的維度進(jìn)行pooling獲得編碼器輸出的hypothesis向量,然后通過(guò)這些輸出和源輸入的相似度就可以計(jì)算出序列相似度的得分。

Q2:CoNT有運(yùn)用到對(duì)話任務(wù)上嗎?

A2:我們?cè)趯?shí)驗(yàn)中沒(méi)有做對(duì)話任務(wù),因?yàn)榭紤]到單輪的對(duì)話可能研究?jī)r(jià)值沒(méi)有那么大,但是多輪對(duì)話和我們整個(gè)框架在訓(xùn)練和解碼過(guò)程中都稍微有一點(diǎn)不一致,所以說(shuō)沒(méi)有去做對(duì)話的工作。所以可能也不能給你一個(gè)非常絕對(duì)的一個(gè)回答,歡迎后面進(jìn)行實(shí)驗(yàn)和討論。

Q3:請(qǐng)問(wèn)Warmup是訓(xùn)練到收斂還是訓(xùn)練到一定效果就可以?

A3:我們?cè)谶M(jìn)行實(shí)驗(yàn)時(shí)都是訓(xùn)練到收斂的,當(dāng)然,訓(xùn)練到一定效果其實(shí)也是可以的。但是,由于CoNT在訓(xùn)練的時(shí)候是需要進(jìn)行推理的也就導(dǎo)致整個(gè)訓(xùn)練速度會(huì)比只做MLE的速度慢很多,所以盡量是勸大家先把warmup訓(xùn)收斂,因?yàn)槿绻葲](méi)有收斂的話,雖然在后面的訓(xùn)練過(guò)程中NLL依然會(huì)接著訓(xùn)練,但是可能會(huì)為后續(xù)的帶對(duì)比損失的訓(xùn)練造成更多的訓(xùn)練時(shí)常開銷,當(dāng)然,最終效果其實(shí)應(yīng)該是不影響的。

Q4:可以把blue分?jǐn)?shù)直接分類成soft label一樣的東西,放到對(duì)比學(xué)習(xí)的損失函數(shù)里面嗎?

A4:可以的??梢酝ㄟ^(guò)blue分?jǐn)?shù)控制兩個(gè)樣本之間的margin,比如說(shuō)一個(gè)blue分?jǐn)?shù)比較高,一個(gè)blue分?jǐn)?shù)比較低,那他們之間的margin就比較大,如果這兩個(gè)blue分?jǐn)?shù)差不多,那他們的margin就比較小。當(dāng)然,我不建議直接去對(duì)blue分?jǐn)?shù)進(jìn)行優(yōu)化,因?yàn)樵谏缮系腞L確實(shí)在訓(xùn)練中比較不穩(wěn)定。

Q5:有哪些數(shù)據(jù)集是驗(yàn)證生成語(yǔ)言的常識(shí)準(zhǔn)確性?

A5:我只做了剛剛我們做的常識(shí)生成的這個(gè)數(shù)據(jù)集CommonGen,也有一些其他數(shù)據(jù)集如CommonSense QA。把這個(gè)準(zhǔn)確性理解成事實(shí)一致性的話,在我們的這個(gè)任務(wù)中其中評(píng)測(cè)準(zhǔn)確性的指標(biāo)是CIDER和SPICE。如果要自動(dòng)評(píng)價(jià)一個(gè)常識(shí)的準(zhǔn)確性,可能是需要人工評(píng)價(jià),或者是用模型評(píng)價(jià)。用模型評(píng)價(jià)的話目前來(lái)說(shuō)工作還不是很多,在摘要上有一個(gè)比較有名的FACTCC,翻譯上好像沒(méi)看到。


DataFunSummit

責(zé)任編輯:張燕妮 來(lái)源: DataFunTalk
相關(guān)推薦

2017-07-12 12:43:42

數(shù)據(jù)庫(kù)SQL

2012-09-28 15:06:43

2018-11-16 16:10:28

JavaOOM編程語(yǔ)言

2012-08-30 14:43:19

IBMdw

2020-07-30 11:41:52

IT團(tuán)隊(duì)遠(yuǎn)程工作CIO

2025-08-06 07:37:22

2017-07-07 08:46:51

災(zāi)難恢復(fù)架構(gòu)

2011-11-02 09:54:37

測(cè)試

2021-03-15 08:40:46

數(shù)據(jù)分析波動(dòng)

2013-06-04 10:35:55

虛擬化IT系統(tǒng)

2021-12-12 21:36:04

Java開發(fā)代碼

2009-10-13 15:38:04

CMDB

2019-05-09 14:32:13

IT中斷災(zāi)難恢復(fù)攻擊

2019-02-28 07:34:56

欺騙勒索軟件攻擊

2018-11-26 07:23:08

數(shù)據(jù)數(shù)據(jù)分析

2024-03-05 13:47:24

云計(jì)算容器服務(wù)

2023-12-06 13:49:00

低代碼開發(fā)

2017-04-28 09:04:32

移動(dòng)應(yīng)用開發(fā)反饋

2017-08-21 16:00:14

機(jī)器學(xué)習(xí)機(jī)器翻譯

2020-10-11 22:05:22

機(jī)器翻譯谷歌AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)