偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌推出全新模型,將Transformer與NAR相結(jié)合

發(fā)布于 2024-7-8 09:35
瀏覽
0收藏

Transformer架構(gòu)的出現(xiàn)極大推動(dòng)了大模型的技術(shù)創(chuàng)新,誕生出了ChatGPT、Coplit、訊飛星火、文心一言等一系列生成式AI產(chǎn)品。


雖然Transformer在自然語言理解任務(wù)上表現(xiàn)很好,但在算法推理方面有嚴(yán)重的缺陷。例如,當(dāng)面臨超出訓(xùn)練數(shù)據(jù)分布的輸入時(shí),其泛化能力會(huì)急劇下降。這主要是因?yàn)樗鼈兊淖曰貧w性質(zhì)和掩蔽注意力機(jī)制,不符合算法輸出的邏輯順序


而神經(jīng)算法推理(NAR) 在結(jié)構(gòu)化輸入上表現(xiàn)好,能夠處理各種算法任務(wù),并且在面對(duì)訓(xùn)練集之外的更大輸入時(shí)仍能保持完美的泛化能力。因此,谷歌DeepMind的研究人員將Transformer與NAR相結(jié)合推出了——TransNAR。

谷歌推出全新模型,將Transformer與NAR相結(jié)合-AI.x社區(qū)

NAR是一種專門處理圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),其算法的計(jì)算步驟被表示為圖的節(jié)點(diǎn)和邊,而節(jié)點(diǎn)之間的信息通過邊進(jìn)行傳遞和更新。這種巧妙設(shè)計(jì)使得NAR能夠自然地表達(dá)算法的邏輯流程,包括條件判斷、循環(huán)迭代等編程結(jié)構(gòu)。


在TransNAR架構(gòu)中,研究人員并沒有簡(jiǎn)單地將Transformer和NAR串聯(lián)或并聯(lián),而是通過一種稱為跨注意力的機(jī)制進(jìn)行深度融合


在這種機(jī)制下,Transformer的每一層都能夠接收來自NAR的節(jié)點(diǎn)和邊的嵌入信息,這些信息通過查詢、鍵和值的形式進(jìn)行交互,從而實(shí)現(xiàn)信息的流動(dòng)和整合。

谷歌推出全新模型,將Transformer與NAR相結(jié)合-AI.x社區(qū)

TransNAR的輸入主要包括文本形式的算法問題描述,以及相應(yīng)的圖表示兩大塊:首先文本輸入被送入Transformer層,通過標(biāo)準(zhǔn)的Transformer操作,如自注意力和前饋網(wǎng)絡(luò),來生成文本的表示。


同時(shí),圖表示被送入NAR層,通過圖神經(jīng)網(wǎng)絡(luò)的操作,如最大池化或消息傳遞,來生成圖的節(jié)點(diǎn)和邊的表示。


當(dāng)Transformer和NAR各自準(zhǔn)備好了自己的表示后,跨注意力機(jī)制開始發(fā)揮作用。

Transformer的查詢與NAR的鍵進(jìn)行匹配,通過softmax函數(shù)進(jìn)行歸一化,然后與NAR的值進(jìn)行加權(quán)求和,最終生成Transformer的輸出。這一過程在模型的每一層都會(huì)重復(fù)迭代,直到最終生成模型的輸出。


多層級(jí)訓(xùn)練策略也是TransNAR成功的關(guān)鍵之一。在預(yù)訓(xùn)練階段,NAR被獨(dú)立訓(xùn)練,以執(zhí)行CLRS-30中的算法。CLRS-30是一個(gè)包含多種算法任務(wù)的基準(zhǔn),這些算法任務(wù)被轉(zhuǎn)換為圖表示形式,以便NAR能夠處理。

谷歌推出全新模型,將Transformer與NAR相結(jié)合-AI.x社區(qū)

通過這種方式,幫助NAR能夠?qū)W習(xí)到各種算法的內(nèi)在邏輯和計(jì)算步驟,在面對(duì)不同算法任務(wù)時(shí),能夠展現(xiàn)出強(qiáng)大的魯棒性和泛化能力。


在微調(diào)階段,TransNAR開始接受包含文本描述和圖表示的雙重輸入。此時(shí),Transformer部分開始發(fā)揮作用,利用預(yù)訓(xùn)練的NAR提供的節(jié)點(diǎn)嵌入信息,通過跨注意力機(jī)制來調(diào)節(jié)自身的標(biāo)記嵌入。


此外,在微調(diào)的時(shí)候Transformer的參數(shù)是可訓(xùn)練的,而NAR的參數(shù)保持凍結(jié)。這將幫助Transformer在保持NAR魯棒性的同時(shí),學(xué)習(xí)如何將自然語言描述轉(zhuǎn)換為算法步驟,以確保模型能夠穩(wěn)定地學(xué)習(xí)和收斂。

谷歌推出全新模型,將Transformer與NAR相結(jié)合-AI.x社區(qū)

研究人員通過CLRS-Text基準(zhǔn)測(cè)試,對(duì)TransNAR綜合測(cè)試。結(jié)果顯示, TransNAR模型在多種算法任務(wù)上顯著優(yōu)于基線Transformer。


尤其是在分布外的泛化能力上,TransNAR展現(xiàn)出了超過20%的優(yōu)化改進(jìn)。這表明TransNAR能夠有效地處理訓(xùn)練數(shù)據(jù)之外的更大或更復(fù)雜的問題實(shí)例。


本文轉(zhuǎn)自  AIGC開放社區(qū) ,作者: AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/7Bu4On7yorBUf3QFvTeJDw??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦