偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

架構(gòu)瓶頸原則:用注意力probe估計神經(jīng)網(wǎng)絡(luò)組件提供多少句法信息

開發(fā) 新聞
本文中,劍橋和 ETH Zurich 的研究者從一個新的角度探討了 probing,不關(guān)心模型編碼了多少信息,而是關(guān)心它的組件可以提取多少信息。

預(yù)訓(xùn)練語言模型在各種自然語言處理任務(wù)上的驚人表現(xiàn),引起了人們對其分析的興趣。Probing 是進行此類分析所采用的最普遍的方法之一。在典型的 probing 研究中,probing 是一個插在中間層的淺層神經(jīng)網(wǎng)絡(luò),通常是一個分類器層。其有助于探查不同層捕獲的信息。使用輔助任務(wù)對 probing 進行訓(xùn)練和驗證,以發(fā)現(xiàn)是否捕獲了此類輔助信息。

一般來講,研究者首先凍結(jié)模型的權(quán)重,然后在模型的上下文表示的基礎(chǔ)上訓(xùn)練probe,從而預(yù)測輸入句子的屬性,例如句法解析(其對句子結(jié)構(gòu)進行分析,理清句子中詞匯之間的連接規(guī)則)。不幸的是,關(guān)于如何設(shè)計此類 probe 的最佳實踐仍然存在爭議。

一方面,有研究者傾向于使用簡單的 probe,這樣就可以將 probe 與 NLP 任務(wù)區(qū)分開來;另一方面,一些人認(rèn)為需要復(fù)雜的 probe 才能從表示中提取相關(guān)信息。此外,還有一些人考慮折中的方法,主張將復(fù)雜性 - 準(zhǔn)確性帕累托曲線上的 probe 考慮在內(nèi)。

本文中,來自劍橋大學(xué)、蘇黎世聯(lián)邦理工學(xué)院的研究者提出架構(gòu)瓶頸原則 (ABP,architectural bottleneck principle) 作為構(gòu)建有用 probe 的指南,并試圖測量神經(jīng)網(wǎng)絡(luò)中的一個組件可以從饋送到它的表示中提取多少信息。為了估計給定組件可以提取多少信息,該研究發(fā)現(xiàn) probe 應(yīng)該與組件完全相同。根據(jù)這一原理,該研究通過注意力 probe 來估計有多少句法信息可用于 transformer。

圖片

論文地址:https://arxiv.org/pdf/2211.06420.pdf

舉例來說,該研究假設(shè) transformer 的注意力頭是其使用句法信息的瓶頸,因為這是 transformer 中唯一可以同時訪問多個 token 的組件。根據(jù) ABP,該研究提出注意力 probe,就像注意力頭一樣。該 probe 回答了這樣一個問題:transformer 在計算其注意力權(quán)重時可以使用多少句法信息?

結(jié)果表明,大多數(shù)(盡管不是全部)句法信息都可以通過這種簡單的注意力頭架構(gòu)提取:英語句子平均包含 31.2 bit 的句法樹結(jié)構(gòu)信息,而注意力 probe 可以提取 28.0 bits 信息。更進一步,在 BERT、ALBERT 和 RoBERTa 語言模型上,一個句子的語法樹大部分是可以被 probe 提取的,這表明這些模型在組成上下文表示時可以訪問句法信息。然而,這些模型是否真的使用了這些信息,仍然是一個懸而未決的問題。

注意力 Probe 

目前,有許多方法用來設(shè)計有效的 probe,分類原則大致包括:線性原則、最大信息原則、易提取原則,此外還包括本文提出的 ABP 原則。

可以說 ABP 將前三個原則聯(lián)系起來。最重要的是,ABP 泛化了線性原則、最大信息原則,此外,ABP 還通過限制 probe 的容量來隱式控信息制提取的難易程度。

該研究重點關(guān)注 transformer 注意力機制。此前研究人員曾斷言,在計算注意力權(quán)重時,transformer 會使用句法信息。此外,注意力頭是 transformer 中唯一可以同時訪問多個單詞的組件。因此,在注意力頭的背景下探索 ABP 是一個自然的起點。具體而言,根據(jù) ABP,我們可以研究 transformer 的注意力頭可以從輸入表示中提取多少信息。

實驗結(jié)果

對于數(shù)據(jù),研究者使用了通用依賴(UD)樹庫。他們分析了四種不同類型的語言,包括巴斯克語、英語、泰米爾語和土耳其語。此外,研究者將分析重點放在未標(biāo)記的依賴樹上,并注意到 UD 使用特定的句法形式,這可能會對結(jié)果造成影響。

對于模型,研究者探討了以上四種語言的多語言 BERT 以及僅支持英語的 RoBERTa 和 ALBERT。根據(jù) ABP,他們保持 probe 的隱藏層大小與 probed 架構(gòu)中的相同。最后,他們還將一個具有與 BERT 相同架構(gòu)的未訓(xùn)練 transformer 模型作為基線。

下圖 1 展示了主要結(jié)果。首先,研究者的 probe 估計大多數(shù)句法信息可以在中間層提取。其次,大量句法信息在饋入注意力頭的表示中進行編碼。雖然他們估計使用英語、泰米爾語和巴斯克語句子編碼的信息接近 31 bits,但使用土耳其句子編碼的信息約為 15 bits。研究者懷疑這是因為土耳其語在語料庫中的句子最短。

圖片

研究者還發(fā)現(xiàn),句子中的幾乎所有句法信息都可用于考慮中的基于 transformer 的模型。例如在英語中,他們發(fā)現(xiàn)信息量最大的層在 BERT、RoBERTa 和 ALBERT 中的 V 系數(shù)分別為 90%、82% 和 89%,具體如下表 1 所示。這意味著這些模型可以訪問一個句子中約 85% 的句法信息。不過未訓(xùn)練的 BERT 表示并不適合這種情況。

圖片

最后,研究者將 BERT 的注意力權(quán)重(通過其預(yù)訓(xùn)練的注意力頭計算)直接插入到原文公式 (8) 并分析產(chǎn)生的未標(biāo)記附件分?jǐn)?shù)。英語相關(guān)的 BERT 結(jié)果如下圖 2 所示。簡言之,雖然注意力頭可以使用大量的句法信息,但沒有一個實際的頭可以計算與句法樹非常相似的權(quán)重。

但是,由于 BERT 有 8 個注意力頭,因此可能以分布式方式使用句法信息,其中每個頭依賴該信息的子集。

圖片

責(zé)任編輯:張燕妮
相關(guān)推薦

2020-09-17 12:40:54

神經(jīng)網(wǎng)絡(luò)CNN機器學(xué)習(xí)

2017-07-07 15:46:38

循環(huán)神經(jīng)網(wǎng)絡(luò)視覺注意力模擬

2024-07-16 14:15:09

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2011-07-07 13:12:58

移動設(shè)備端設(shè)計注意力

2023-07-30 15:42:45

圖神經(jīng)網(wǎng)絡(luò)PyTorch

2024-09-19 10:07:41

2023-10-07 07:21:42

注意力模型算法

2018-08-26 22:25:36

自注意力機制神經(jīng)網(wǎng)絡(luò)算法

2018-02-25 11:31:06

句法敏感神經(jīng)網(wǎng)絡(luò)關(guān)系抽取

2025-04-15 06:13:46

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2021-02-02 14:47:58

微軟PyTorch可視化

2017-01-10 17:25:59

深度學(xué)習(xí)框架神經(jīng)網(wǎng)絡(luò)

2025-06-09 09:05:00

AI模型數(shù)據(jù)

2017-10-15 21:43:36

2017-06-20 14:41:12

google神經(jīng)網(wǎng)絡(luò)

2021-05-21 09:29:57

計算機互聯(lián)網(wǎng)技術(shù)

2025-02-25 10:50:11

2025-04-07 07:47:00

模型訓(xùn)練AI
點贊
收藏

51CTO技術(shù)棧公眾號