大模型如何可靠?IBM等學(xué)者最新《基礎(chǔ)模型的基礎(chǔ)魯棒性》教程
作為當(dāng)前全球最負(fù)盛名的 AI 學(xué)術(shù)會(huì)議之一,NeurIPS 是每年學(xué)界的重要事件,全稱是 Neural Information Processing Systems,神經(jīng)信息處理系統(tǒng)大會(huì),通常在每年 12 月由 NeurIPS 基金會(huì)主辦。
大會(huì)討論的內(nèi)容包含深度學(xué)習(xí)、計(jì)算機(jī)視覺、大規(guī)模機(jī)器學(xué)習(xí)、學(xué)習(xí)理論、優(yōu)化、稀疏理論等眾多細(xì)分領(lǐng)域。
今年 NeurIPS 已是第 36 屆,于 11 月 28 日至 12 月 9 日舉行,為期兩周。
第一周將在美國新奧爾良 Ernest N. Morial 會(huì)議中心舉行現(xiàn)場(chǎng)會(huì)議,第二周改為線上會(huì)議。
來自IBM研究中心等學(xué)者講述關(guān)于大模型的魯棒性,非常值得關(guān)注!
基礎(chǔ)模型采用深度學(xué)習(xí)的方法,在大規(guī)模無標(biāo)簽數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,并通過特定任務(wù)的監(jiān)督進(jìn)行微調(diào),正成為機(jī)器學(xué)習(xí)的主流技術(shù)。
雖然基礎(chǔ)模型在學(xué)習(xí)一般表示和跨領(lǐng)域和數(shù)據(jù)模式的少次/零次泛化方面有很多希望,但同時(shí)由于使用了過多的數(shù)據(jù)量和復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu),它們?cè)隰敯粜院碗[私性方面提出了前所未有的挑戰(zhàn)和相當(dāng)大的風(fēng)險(xiǎn)。
本教程旨在提供一個(gè)類似coursera的在線教程,包含全面的講座,一個(gè)實(shí)踐和交互式的Jupyter/Colab實(shí)時(shí)編碼演示,以及一個(gè)關(guān)于基礎(chǔ)模型中可信性的不同方面的小組討論。
https://sites.google.com/view/neurips2022-frfm-turotial
目錄內(nèi)容:
- Basics in foundation models and robustness
- Deep dive on foundation models for computer vision
- Deep dive on foundation models for code
- Hands-on code walkthrough
- Concluding Remarks
- Q&A
- Panel discussion
講者:
現(xiàn)實(shí)世界的機(jī)器學(xué)習(xí)系統(tǒng)需要對(duì)分布變化魯棒——它們應(yīng)當(dāng)在與訓(xùn)練分布不同的測(cè)試分布上工作良好。
諸如資源不足國家的貧困地圖 [Xie et al. 2016; Jean et al. 2016]、自動(dòng)駕駛汽車 [Yu et al. 2020a; Sun et al. 2020a]、醫(yī)學(xué)診斷 [AlBadawy et al. 2018; Dai and Gool 2018] 這樣的高風(fēng)險(xiǎn)應(yīng)用都需要模型良好的泛化到訓(xùn)練數(shù)據(jù)中沒有見過的環(huán)境中,例如,測(cè)試樣例來自不同的國家,處于不同的駕駛條件,或來自不同的醫(yī)院。
先前的工作已經(jīng)表明:即使是對(duì)目前最先進(jìn)的模型,這些分布變化也會(huì)導(dǎo)致性能的大幅下降 [Blitzer et al. 2006; Daumé III 2007;Sugiyama et al. 2007; Ganin and Lempitsky 2015; Peng et al. 2019; Kumar et al. 2020a; Arjovskyet al. 2019; Szegedy et al. 2014; Hendrycks and Dietterich 2019; Sagawa et al. 2020a; Recht et al.2019; Abney 2007; Ruder and Plank 2018; Geirhos et al. 2018; Kumar et al. 2020b; Yu et al. 2020b;Geirhos et al. 2020; Xie et al. 2021a; Koh et al. 2021]。
一個(gè)基礎(chǔ)模型在采樣自分布的大量不同的無標(biāo)簽數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后可以被適配到許多的下游任務(wù)中。
對(duì)于每一個(gè)下游任務(wù),基礎(chǔ)模型在帶標(biāo)簽的從訓(xùn)練分布
中采樣的分布內(nèi)(in-distribution, ID)訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練,然后在分布外(out-of-distribution, OOD)的測(cè)試分布
上進(jìn)行評(píng)價(jià)。
例如,一個(gè)貧困地圖預(yù)測(cè)模型 [Xie et al. 2016; Jean et al. 2016] 可以在全世界的無標(biāo)簽衛(wèi)星數(shù)據(jù)中學(xué)習(xí)所有國家的有用特征,然后在帶標(biāo)簽的來自尼日利亞的樣例上進(jìn)行微調(diào),最終在缺乏帶標(biāo)簽樣例的馬拉維上進(jìn)行評(píng)價(jià)。
我們認(rèn)為:1)基礎(chǔ)模型在魯棒性方面是一個(gè)特別具有前途的方法?,F(xiàn)有工作表明了在無標(biāo)簽數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練是一種有效的、通用的提高在 OOD 測(cè)試分布上準(zhǔn)確性的方法,這與限制于有限的分布變化的許多魯棒性干預(yù)措施相反。
然而,我們同樣討論了 2)為什么基礎(chǔ)模型可能無法總是應(yīng)對(duì)分布變化,例如某些由于偽相關(guān)性或隨時(shí)間改變的分布變化。
最后,3)我們概述了幾個(gè)利用和提高基礎(chǔ)模型魯棒性的研究方向。
我們注意到,基礎(chǔ)模型提高下游任務(wù)性能的一個(gè)方法是為適配模型提供歸納偏置(通過模型初始化),這些偏置是在下游訓(xùn)練數(shù)據(jù)之外的多種數(shù)據(jù)集上學(xué)習(xí)得到的。
然而,同樣的歸納偏置也可能從預(yù)訓(xùn)練數(shù)據(jù)中編碼有害關(guān)聯(lián),并在分布變化的情況下導(dǎo)致表示和分配危害。