大模型時代,解析周志華教授的「學件」思想:小模型也可做大事
毫無疑問,我們正在進入一個大模型時代,各種開源或閉源的大模型不斷涌現(xiàn),解決一個又一個的應用,填補一個又一個的空白。而在此之前已經有了許多「足夠好的」小模型。于是對于用戶來說,要找到合適的模型就更加困難了。
南京大學周志華教授在 2016 年提出的學件思想或許能成為這一問題解決方案。通過「模型 + 規(guī)約」構建學件市場,用戶選擇模型有望變得像從應用商店下載軟件一樣簡單,同時還能規(guī)避數據隱私等諸多問題。
近日,周志華團更新了一篇有關「學件」的新論文,進一步深化了該思想。
圖片
論文鏈接:https://arxiv.org/abs/2210.03647
概括地說,計算機由硬件(hardware)和軟件(software)構成。隨著技術的發(fā)展,硬件和軟件都在快速迭代演進,甚至讓計算機具備了被稱為「機器學習」的能力。這項能力能讓計算機使用高速的硬件和精妙的軟件有效發(fā)掘出大量數據中蘊藏的模式,從而幫助其「學習」世界的運作模式進而完成實際任務。
近些年機器學習已經取得了非常多堪稱改變世界級的成就,比如顛覆性的圖像生成 AI 和大型語言模型?,F(xiàn)在市面上的機器學習模型已有很多,其中有商業(yè)公司提供的方便使用的產品,也有研究團隊發(fā)布的開源模型,還有不同開發(fā)者和用戶針對不同任務需求優(yōu)化的專用模型。
這個紛繁復雜的模型生態(tài)卻給用戶造成了困擾:如果我有個任務,想使用機器學習模型來幫助解決,我又不是 AI 專業(yè)人士,我該怎么選擇合適的模型?
實際上這個問題已經成為普通用戶有效使用 AI 的最大阻礙 —— 要知道很多人都不知道該如何向 ChatGPT 等大型語言模型(LLM)提出正確的問題(甚至由此誕生了 prompt 工程師這一職業(yè)),更別說為自己的任務找到合適的模型了。
針對這一問題,南京大學周志華教授在 2016 年提出了一種名為「學件(learnware)」的新范式。類似于用戶獲取后便能直觀學會使用的硬件和軟件,用戶也能通過學件的形式為自己的任務找到合適的機器學習模型。
做一個簡單的類比,假如用戶想要購買一把好用的切肉刀,她可以向市場提交自己的需求,市場會根據她的需求,匹配描述最一致的商品,然后推薦給她。但這個推薦可能與她的需求并不完全匹配,比如推薦的是一把適合切瓜的刀。但這把刀也不是不能用,她可以選擇直接用來切肉或使用其它方法將其打磨一番,讓其變得更加鋒利,更適合切肉。
圖 1:學件的類比
周志華提出的學件模式也是類似:用戶向學件市場提交自己的需求,市場推薦合適的模型,然后用戶使用自己的數據優(yōu)化該模型,使之更適合自己的任務。
學件有什么用?
除了能幫助用戶找到適合自己任務的模型,學件還有什么用?根據周志華團隊最新發(fā)布的相關論文《Learnware: Small Models Do Big》,學件能夠解決許多機器學習應用問題:
缺乏訓練數據:如果模型是基于性能優(yōu)良的學件構建的,那么即使任務僅有少量數據,也依然能獲得強大的機器學習模型。大多數用例其實只需要少量數據來進行適應和精細化。
缺乏訓練技能:如果用戶能得到性能優(yōu)良的學件的幫助,而不是自己從頭開始打造模型,那么即使缺乏訓練技能的普通用戶也能獲得強大的機器學習模型。
災難性遺忘:一旦學件市場接受了一個學件,那么它就會被永遠容納在該市場中,除非其各方面功能都被其它學件替代。因此,學件市場中的舊知識始終會被保留。什么都不會被遺忘。
持續(xù)學習:由于開發(fā)者會不斷提交用不同任務訓練的表現(xiàn)良好的學件,因此學件市場能自然地實現(xiàn)持續(xù)學習和終身學習;學件市場中的知識會不斷得到豐富。
數據隱私 / 專有權:開發(fā)者提交模型時無需共享數據,因此數據隱私 / 專有權可得到很好的保護。盡管不能完全排除對模型進行逆向工程的可能性,但與許多其它隱私保護方案相比,學件的風險非常小。
計劃外的任務:學件市場向所有合法的開發(fā)者開放。因此,除非所有合法開發(fā)者都沒做過該任務,否則市場中總是會存在有用的學件。此外,對于一些新任務,就算沒有開發(fā)者專門為其構建模型,但可以通過選擇和組裝一些現(xiàn)有的學習器來解決。
碳排放:組裝小型模型可能就足以為大多數應用提供足夠好的性能;因此,人們可能不太有興趣訓練太多大模型。由于能復用其他開發(fā)者的模型,所以能有助于減少重復開發(fā)。此外,就算一個模型對某位用戶來說不好用,但對另一位用戶可能會很有用。不會浪費訓練成本。
學件設計
下面我們具體看看周志華團隊提出的學件設計思路。首先我們可以直觀地理解在機器學習應用方面,存在三個重要實體:開發(fā)者、用戶和市場。
開發(fā)者通常是機器學習專家,他們所做的是生產出表現(xiàn)優(yōu)良的已訓練機器學習模型并將這些模型分享或銷售出去。
用戶需要機器學習服務,但通常僅有有限的數據并缺乏機器學習知識和技能。
學件市場則是從開發(fā)者那里獲取或購買表現(xiàn)優(yōu)良的已訓練模型,讓它們進入市場,再通過識別和復用學件來向用戶提供或銷售服務,從而幫助用戶解決他們手頭的任務。其基本操作可以分為兩個階段,如圖 2 所示。
圖 2:學件市場的兩個階段
提交階段
在提交階段,開發(fā)者可以自發(fā)地將訓練好的模型提交到學件市場。市場可以通過一些機制(比如驗證性能)來保證一定質量,從而決定是否可以接受已提交的模型。假如一個學件市場已經接納了數以百萬計的模型,那么新用戶應當采用什么方法找到可能對自己有用的模型?
我們當然不能要求用戶將自己的數據提交到市場來試驗模型,因為這會很麻煩,而且成本很高,更嚴重的問題是這可能導致用戶數據泄漏。比較用戶數據和原始訓練數據之間的相似度等簡單直接的方法也是不可行的,因為學件的提議考慮到了這一事實:由于隱私或專有權等問題,不管是開發(fā)者還是用戶,都不愿意泄漏自己的數據。因此,周志華團隊的設計基于這樣一個約束條件:學件市場既無法獲取開發(fā)者的原始訓練數據,也無法獲取用戶的原始數據。此外,他們還假設用戶并不是很了解市場中已有的模型。
為了應對這一問題,周志華團隊提出的解決方案的核心在于規(guī)約(specification)。一旦學件市場決定接受一個已提交模型,就會為該模型分配一個規(guī)約,其能以某種格式傳遞該模型的專長和用途,同時不會泄漏模型的原始訓練數據。為了簡單起見,下面我們會使用簡單符號來表示模型的相關概念:假設模型對應于某種函數關系,其可將輸入域 X 映射到輸出域 Y,這期間考慮的目標為 obj;也就是說,這些模型在這個函數空間內:F : X→Y w.r.t. obj。每個模型都有一個規(guī)約。所有規(guī)約構成一個規(guī)約空間,其中有助于完成同一任務的模型的規(guī)約彼此相近。
學件市場中存在具有不同 X 和 / 或不同 Y 和 / 或不同 obj 的不同模型。如果我們把涵蓋所有可能的函數空間中所有可能的模型的規(guī)約空間稱為規(guī)約世界(specification world),那么就能把對應于一個可能函數空間的每個規(guī)約空間稱為一個規(guī)約島(specification island)。目前,研究者還很難設計出能覆蓋全體規(guī)約世界的簡潔優(yōu)雅的規(guī)約格式,同時還能有效且充分地識別出所有可能的模型。周志華團隊基于實際情況,采用了以下設計。每個學件的規(guī)約都由兩部分構成,其中第一部分解釋了該學件位于哪個規(guī)約島,第二部分則會揭示其位于島中哪個位置。
第一部分可以通過一個字符串實現(xiàn),其中包含一組描述 / 標簽,涉及任務、輸入、輸出和目標等情況。然后,根據用戶要求中提供的描述 / 標簽,可以有效又準確地定位相應的規(guī)約島。一般來說,學件市場的設計者可以編寫一個初始描述 / 標簽集合;當市場接受一些無法歸入現(xiàn)有函數空間的新模型時,該集合還能增大,創(chuàng)建出新的函數空間及對應的規(guī)約島。
規(guī)約島還能合并成更大的島,如圖 3 所示。原則上,如果 X 、Y 和 obj 中有共同成分,就可以合并規(guī)格島??梢韵胂螅斔锌赡艿娜蝿斩即嬖跁r,所有規(guī)約島會連接成一個非碎片化的統(tǒng)一規(guī)約世界。
圖 3:學件的規(guī)約世界
部署階段
在部署階段,用戶向學件市場提交需求,然后市場會識別并返回一些有用的學件給用戶。其中存在兩個問題:1. 如何識別滿足用戶需求的學件,2. 如何復用返回的學件。
學件市場可容納上百萬個模型。不同于之前的與模型復用或領域適應有關的機器學習研究(其中假設所有預訓練模型都會有用),可能只會有非常少部分學件對當前用戶任務有用。不同于多任務學習(其中訓練階段能使用這些不同任務的數據)和與領域無關式學習(其中可以使用源域的有標注數據),學件市場并不假設能獲得這些信息。實際上,有效辨別合適的學件是非常困難的,尤其考慮到學件市場無法獲取原始訓練數據和當前用戶的原始數據。
通過規(guī)約設計,學件市場可以要求用戶使用描述 / 標簽集來描述自己的需求,這可以通過一個用戶接口或某種有待未來設計的學件描述語言實現(xiàn)?;谶@些信息,用戶任務就可以簡化成如何從規(guī)約島中識別出某個有用的學件。學件市場可以在對應于規(guī)約島的函數空間中提供一些錨學件,要求用戶測試它們并返回一些信息,然后基于這些信息識別出可能有用的學習器。
一旦找到了有用的學件并交付給用戶,用戶就能以各種方式復用它們。對照前述的類比,用戶可以直接使用這些模型,也可以用自己的數據進一步對它們進行優(yōu)化,使之更貼合自己的任務。
學件規(guī)約
理想情況下,學件規(guī)約應該表達 / 編碼學件市場中每個模型的重要信息,以便將來的用戶能夠有效和充分地識別它們。如前所述,周志華團隊目前的規(guī)約設計由兩部分構成。第一部分是一個字符串,這是學件市場基于開發(fā)者提交的信息給出的描述 / 標簽,其目標是定位模型所在的規(guī)約島。不同的學件市場企業(yè)可能采用不同的描述 / 標簽。
規(guī)約的第二部分則是為了在函數空間 F : X→Y w.r.t. obj 中定位模型的位置。針對這一部分,周志華團隊提出的方法名為 RKME(Reduced Kernel Mean Embedding / 精簡核均值嵌入),其基于 KME(核均值嵌入)的精簡集。KME 是一種強大的技術,可將一個概率分布映射到 RKHS(再生核希爾伯特空間)中一個點,其中精簡集在保留了表征能力的同時不會暴露原始數據。
假設開發(fā)者要提交一個基于數據集
訓練的模型。一旦模型訓練完成,可將 x_i 饋送給模型得到對應的輸出
。注意,
是模型的輸出而非基本真值;因此數據集
編碼了模型的函數;也就是說其提供了該模型的函數表征。注意,也可以向模型饋送 x_i 之外的其它 x 以得到更透徹的表征。周志華團隊之前使用這一思想學習過一個相對簡單的模型,并且其性能表現(xiàn)與原始復雜模型相當。該團隊表示之后 Geoffrey Hinton 等提出的知識蒸餾(knowledge distillation)思想與之類似。這一思想作為基礎,構成了 RKME 規(guī)約的第一部分。為了簡單起見,這里令 z_i 表示
,并且該模型的函數編碼在 z_i 的分布中。然后,市場會通過最小化根據 RKHS 范數測定的距離來生成精簡集表征:
其中 k (?,?) 是對應于 RKHS 的核函數,它們都由學件市場決定并會被交給開發(fā)者。解出的 (β, t) 可提供不同于原始數據 z 的遠遠更為精簡的表征;開發(fā)者將把它們提交用作模型規(guī)約的第二部分。
在部署階段,如果用戶有很多訓練數據,市場可以幫助構建要提交的 RKME 需求。然后,通過匹配 RKME 規(guī)約與用戶需求,市場可以識別并返回 RKHS 中范數距離最小的學件。如果有多個學件的 RKME 規(guī)約的加權組合與用戶需求的距離最小,那么市場還可以識別出多個有用的學件。如果用戶沒有足夠的訓練數據來構建 RKME 需求,學件市場也可以向用戶發(fā)送多個錨學件。用戶可將自己的數據輸入這些錨學件,從而生成一些信息(例如精確度和召回率或其它性能指標),這些信息會返回市場。這些信息可幫助市場識別出潛在有用的模型,例如,通過發(fā)現(xiàn)遠離錨學件的模型表現(xiàn)差,靠近錨學件的模型表現(xiàn)好,可在規(guī)約島中找到合適的模型。
學件市場的一種原型設計
為了驗證這一思路的可行性,周志華團隊設計了一種學件市場的原型,其用戶界面如下圖所示。

該市場包含 53 個使用不同數據集訓練的不同類型的銷售預測模型,但它們的輸入空間、輸出空間和目標是一樣的。因此這些模型的規(guī)約位于同一規(guī)約島。
實驗過程是模擬一位新用戶,其想要在學件市場的幫助下構建自己的銷售預測模型。
實驗結果如下所示,相比于用戶使用自己的數據從頭構建模型,借助學件市場能獲得不錯的性能提升,尤其是當用戶數據較少時。
圖 5:銷售預測實驗結果
結語
自 2016 年學件(learnware)思想提出以來,AI 領域已經經歷了巨大的變化,語音、圖像、視頻、文本、多模態(tài)等各式模型層出不窮,讓人目不暇接。對于不專精于此領域的普通用戶而言,想要為自己的特定任務找到合適的模型絕非易事,因為實際應用總是需要考慮多方面的問題,包括模型性能、使用成本、響應速度等等。
如果學件市場能夠成功大規(guī)模地部署到實際應用環(huán)境中,那么可望開啟 AI 的真正普及之門。屆時,當為特定任務構建人工智能模型時,只需要查找學件市場即可,不再需要從頭開始構建,就像現(xiàn)在的程序員在寫軟件時會在 GitHub 等代碼庫搜索有用的代碼一樣。
近來實現(xiàn)大規(guī)模應用的大型語言模型還讓我們看到了新的可能性。設想一下,如果學件市場中的模型配備了優(yōu)良的文檔并整合了用戶評論機制,那么用戶甚至可以使用自然語言描述自己的任務需求。這樣一來,可能即使完全沒有相關經驗的新用戶也能為自己的任務找到合適的模型。



































