【內含論文干貨】讓AI訓練AI,阿里浙大 “AI訓練師助手”成果被CVPR 2020接收
不久前,人力資源社會保障部發(fā)布了一種炙手可熱的新職業(yè):AI訓練師。沒想到,浙江大學與阿里安全的人工智能訓練師馬上創(chuàng)造出一個 “AI訓練師助手”,高效打造AI深度模型,應對海量應用場景的增加,讓AI訓練模型面對新場景時不用從頭學習,直接從已經存在的模型上遷移,迅速獲得別人的知識、能力,成為全新的AI模型,而且能將模型周期從一個月縮短為一天。隨后,闡述這種讓AI訓練AI,提升模型生產效率的論文被計算機視覺頂會CVPR 2020 接收(Oral)。
現在,視頻、直播成為互聯網內容消費的重要載體,內容創(chuàng)作爆發(fā),創(chuàng)作形式自由度高帶來了許多潛在安全威脅。好消息是,AI深度模型被大規(guī)模用于多媒體內容的識別、檢測、理解上,用以狙擊含有不良內容的傳播。為了提升檢測的準確性,面向不同場景必須使用不同的AI模型。但是,由于媒體場景、細分領域多,如何才能高效生產不同AI 深度模型?
目前實現這一目標最流行的方法是遷移學習。浙江大學和阿里安全發(fā)現,兩個預訓練深度模型所提取的特征之間的遷移能力可由它們對應的深度歸因圖譜之間的相似性來衡量。相似程度越高,從不同的預訓練深度模型中獲得的特征相關性就越大,特征的相互遷移能力也就越強。而且,“AI訓練師助手”還知道從什么模型遷移知識,用模型的哪個部分遷移能最好地完成任務。也就是說,他們發(fā)現了讓小白模型向AI深度模型學習的高效學習方法。
問題:如何才能取得最優(yōu)遷移效果
得益于大量高質量標注數據、高容量的模型架構、高效率的優(yōu)化算法以及高性能計算硬件的發(fā)展,過去十年里深度學習在計算機視覺、自然語言處理以及生物信息學等領域取得了舉世矚目的進步。隨著深度學習取得了前所未有的成功,越來越多的科研人員和工業(yè)工作者愿意開源他們訓練好的模型來鼓勵業(yè)界進一步的研究。目前,預訓練好的深度學習模型可以說是無處不在。
阿里安全圖靈實驗室高級算法專家析策認為,我們不僅處在一個大數據時代,同時也正在步入一個“大模型”時代。
與大數據相似,海量模型形成的模型倉庫也蘊含了巨大的潛在價值。這些預訓練的深度模型已經消耗了大量的訓練時間以及大規(guī)模高質量的標注數據等昂貴的計算資源。如果這些預訓練的模型能夠被合理地重新使用,那么在解決新任務時的對訓練時間以及訓練數據的依賴就會顯著降低。目前實現這一目標最流行的方法就是遷移學習。在基于深度模型的跨任務的遷移學習中,模型微調是一種使用最廣泛并且有效的方法。
該方法以一個預先訓練的模型作為起點,固定模型的一部分參數以降低模型優(yōu)化空間,利用新任務有限的數據訓練剩余的參數,使得模型能夠在新任務上獲得成功。
雖然這種方法在一些具體問題中取得了一定的成效,但是當前這些遷移學習方法忽略了兩個重要的問題:面對海量的預訓練好的深度模型,選擇哪個模型解決當前任務能夠取得最好的效果;給定一個預訓練好的模型,應該固定哪些層的參數以及優(yōu)化哪些層才能夠取得最優(yōu)的遷移效果。
目前的模型選擇通常是盲目地采用ImageNet的預訓練模型。然而,ImageNet預訓練的模型并不總是對所有任務產生令人滿意的性能,特別是當任務與ImageNet數據上定義的任務有顯著差異時。而模型微調時參數優(yōu)化臨界點的選擇往往依賴于經驗。但是,由于最優(yōu)的優(yōu)化臨界點取決于各種因素,如任務相關性和目標數據量等,依賴經驗做出的選擇往往很難保證最優(yōu)。
不同任務下深度神經網絡提取特征的可遷移性
為了解決上述問題,浙江大學和阿里安全發(fā)起了這項研究:在不同任務下訓練的深度神經網絡提取的特征之間的可遷移性。Zamir等人[1]對不同任務間的遷移關系作了初步的研究。他們提出了一種全計算的方法,稱為taskonomy,來測量任務的可遷移性。然而,taskonomy中有三個不可忽視的局限性,極大地阻礙了它在現實問題中的應用。
首先,它的計算成本高得令人望而卻步。在計算給定任務集合中兩兩任務之間的遷移關系時,計算成本會隨集合中任務數量的增加而呈平方性地增長,當任務數量很大時,計算成本會變得非常昂貴。
第二個限制是,它采用遷移學習來建立任務之間的遷移關系,這仍然需要大量的標記數據來訓練轉移模型。然而,在許多情況下,我們只能獲取訓練好的模型,并不能夠獲取到相應的訓練數據。最后,taskonomy只考慮不同模型或任務之間的可遷移性,而忽略了不同層之間的可遷移性,不能夠用來解決微調模型時臨界點的選擇問題。
衡量從不同預訓練深度模型中提取到特征間的可遷移性,主要障礙是深度模型自身的黑箱性質。由于從不同的預訓練深度模型中學習到的特征是不可解釋的,而且處在不同的嵌入空間中,直接計算特征間的可遷移性非常困難。
為了推導預訓練深度模型中提取到特征間的可遷移性,研究者們首先給出了可遷移性的嚴格定義。
在該定義下,預訓練模型的選擇和模型微調時臨界點的選擇實際上是該遷移性定義下的兩個特例。然后,這篇論文提出了深度歸因圖譜(DEeP Attribution gRAph, DEPARA)來表示在預訓練深度模型中學習到的知識。在深度歸因圖譜中,節(jié)點對應于輸入,并由模型在輸入數據上歸因形成的歸因圖[2]來表達。邊表示輸入數據之間的關聯,通過它們在預訓練深度模型特征空間中的相似度來度量,如圖1所示。由于不同預訓練深度模型中的深度歸因圖譜是在相同的輸入集上定義的,它們實際上處于相同的空間內,因此兩個預訓練深度模型所提取的特征之間的遷移能力可直接由它們對應的深度歸因圖譜之間的相似性來衡量。相似程度越高,從不同的預訓練深度模型中獲得的特征相關性就越大,特征的相互遷移能力也就越強。這項研究通過大量實驗證明了該方法應用于任務間遷移關系度量以及模型微調時臨界點選擇的有效性。
問題描述
直接計算上述公式定義的遷移性需要大量標注數據且非常耗時。本文提出通過計算影響遷移性的兩個重要因素,來做近似估計。
1. 包含性:要使得特征遷移在目標任務上取得較為理想的效果,源任務的訓練的模型生成的特征空間應該包含解決目標任務所需的足夠信息。包容性是遷移學習取得成功的一個比較基本的條件。
2. 易用性:特征空間應該已經經過充分的學習并抽象到比較高的層次,這樣才能夠在有限的標注數據下很好地解決目標任務。如果不要求特征的易用性,那么原始的輸入總是比經過深度網路處理的特征包含更多的信息。然而由于原始的數據沒有經過任何知識提取與抽象,并不能夠很好的遷移到新任務中。
深度歸因圖譜
如何利用深度歸因圖來解決兩個遷移性問題
1. 任務之間的遷移性
2. 層的遷移性
實驗
1. DEPARA的可視化
上圖是對于不同視覺任務所生成的深度歸因圖的可視化結果。從圖中可以看出有一些任務生成非常相似的歸因圖以及樣本之間的關系,然而有些生成的結果則非常不同。例如,Rgb2depth和Rgb2mist生成了非常相似的歸因圖和關系圖,然而它們的結果和自編碼器的結果非常不同。事實上,在任務分類法中,Rgb2depth和Rgb2mist彼此間具有很高的遷移性,但它們到自編碼器的遷移性相對較低。此外,任務分類法采用層次聚類的方式把任務劃分為四組:2D任務(藍色),3D任務(綠色),幾何任務(紅色)以及語義任務(品紅色)。圖中選取了2個3D任務,3個2D任務,2個幾何任務以及2個語義任務作可視化。任務分類法在這些任務上生成的任務相似樹繪制在任務名稱的上方。從圖可以看出,在每個任務組內部,深度歸因圖譜生成較為相似的節(jié)點以及邊。
2. 模型遷移度量
論文中采用PR曲線來評估方法效果,實驗結果如上圖,可以看到論文中提出的深度歸因圖方法(DEPARA)與taskonomy(Oracle)實驗的結果具有很高的相似性,且通過消融實驗可知,只采用圖中節(jié)點相似性(DEPARA-V)和只采用圖中邊相似性(DEPARA-E)計算得到的遷移性準確度都遠遠不如圖相似性(DEPARA),這意味著節(jié)點和邊都對結果起著重要作用,是不可分割的。另外,論文中的方法(DEPARA)好于SOTA(RSA),證明了這是一種更加有效的計算遷移性的方案。
3. 層遷移度量
在Syn2Real-C數據集(包含有合成圖像的數據域以及真實圖像的數據域)上進行層遷移的實驗,分別考慮了兩種源模型(在合成數據域上訓練的模型和在ImageNet[6]上預訓練的模型)來進行遷移至真實數據域。在遷移時,只利用了1%(0.01-T)和10%(0.1-T)的標注數據來進行訓練,觀察遷移效果和深度歸因圖相似性之間的關系。根據上圖中顏色的深淺可知,對于兩種不同的源模型,遷移效果越好的層,計算得到的深度歸因圖相似性越高,遷移效果越差的層,計算得到的深度歸因圖相似性也越低,驗證了論文中方法的準確性。有趣的是,對于在ImageNet上預訓練和合成數據域上預訓練的源模型來說,盡管具有最好的遷移效果的層并不相同,但是論文中的方法都能很好地進行指示。而且,對于1%和10%兩種不同的模式,這種方法通過設定不同的λ超參數,也依舊能挑選出遷移效果最好的那些層。
從效果上來看,無論是從節(jié)點V還是邊E的相似性比較來看,DNN-ImageNet都比DNN-Source具有更好的遷移性,這是因為盡管DNN-Source和目標任務學習的是同一物體的圖像,但是他們的數據域相差太大,導致需要花費更多的成本去重建目標任務的特征空間。值得注意的是,有些層用于遷移甚至出現了負遷移的現象,負遷移經常出現在當用于遷移的源數據域和目標數據域相差很大的情況下,這說明在實驗中,挑選一個合適的層用于遷移是十分重要的。
上圖是層遷移實驗中的訓練曲線,可以看到,由DEPARA挑選出來的層,遷移效果要好于其他層。而且,相比于DNN-Source,DNN-ImageNet中的訓練曲線明顯更加地平滑,這也恰恰證明了遷移性越好的模型,在遷移時所花費的重訓練的成本就越低,也越容易地遷移至目標任務。
“在‘AI訓練師助手’的指導下,單個AI模型的生產周期從1個月降到1天,我們就能更快地發(fā)現不同的內容風險。”析策希望,欺凌、色情、暴力、誤導等不良內容不會成為人們消費大量圖像視頻內容付出的代價,AI 技術可以更快地把不良內容擋在第一線。
關于更多方法上以及實驗上的細節(jié)和結果,請閱讀論文原文。
論文地址:https://arxiv.org/abs/2003.07496
代碼地址:https://github.com/zju-vipa/DEPARA
業(yè)務應用
阿里安全圖靈實驗室,通過多年的在阿里經濟體內和云上客戶的多領域、多場景的廣泛應用和不斷優(yōu)化,提供風險和治理領域的圖像視頻識別、定位、檢索等全面服務能力,與此同時形成了一整套深度模型生產體系,以應對復雜業(yè)務需求。本文的研究為模型遷移性提供了理論和實驗支撐,從而挖掘和建立海量模型間的關系圖譜,極大提升模型生產的效率。
阿里安全圖靈實驗室也希望更多人才的加入,發(fā)揮前沿技術力量產生更大的價值。如果您有 2 年以上相關的研究經歷,包括并不限于遷移學習、小樣本學習、autoML、自監(jiān)督學習、弱監(jiān)督學習等,有該領域的頂會文章或 top 競賽成績。春季校園招聘即將開始,期待2021年畢業(yè)的碩士和博士加入。 有興趣的讀者可以聯系 maofeng.mf@alibaba-inc.com,或加微信 rickymf4。
Reference:
[1] Amir R. Zamir, Alexander Sax, William Shen, Leonidas J.Guibas, Jitendra Malik, and Silvio Savarese. Taskonomy: Disentangling task transfer learning. In CVPR 2018, June 2018.
[2] Avanti Shrikumar, Peyton Greenside, Anna Shcherbina, and Anshul Kundaje. Not just a black box: Learning important features through propagating activation differences. CoRR, abs/1605.01713, 2016.