大模型時(shí)代，解析周志華教授的「學(xué)件」思想：小模型也可做大事

作者：機(jī)器之心 2023-07-09 14:59:28

近來實(shí)現(xiàn)大規(guī)模應(yīng)用的大型語言模型還讓我們看到了新的可能性。

毫無疑問，我們正在進(jìn)入一個(gè)大模型時(shí)代，各種開源或閉源的大模型不斷涌現(xiàn)，解決一個(gè)又一個(gè)的應(yīng)用，填補(bǔ)一個(gè)又一個(gè)的空白。而在此之前已經(jīng)有了許多「足夠好的」小模型。于是對(duì)于用戶來說，要找到合適的模型就更加困難了。

南京大學(xué)周志華教授在 2016 年提出的學(xué)件思想或許能成為這一問題解決方案。通過「模型 + 規(guī)約」構(gòu)建學(xué)件市場(chǎng)，用戶選擇模型有望變得像從應(yīng)用商店下載軟件一樣簡單，同時(shí)還能規(guī)避數(shù)據(jù)隱私等諸多問題。

近日，周志華團(tuán)更新了一篇有關(guān)「學(xué)件」的新論文，進(jìn)一步深化了該思想。

圖片

論文鏈接：https://arxiv.org/abs/2210.03647

概括地說，計(jì)算機(jī)由硬件（hardware）和軟件（software）構(gòu)成。隨著技術(shù)的發(fā)展，硬件和軟件都在快速迭代演進(jìn)，甚至讓計(jì)算機(jī)具備了被稱為「機(jī)器學(xué)習(xí)」的能力。這項(xiàng)能力能讓計(jì)算機(jī)使用高速的硬件和精妙的軟件有效發(fā)掘出大量數(shù)據(jù)中蘊(yùn)藏的模式，從而幫助其「學(xué)習(xí)」世界的運(yùn)作模式進(jìn)而完成實(shí)際任務(wù)。

近些年機(jī)器學(xué)習(xí)已經(jīng)取得了非常多堪稱改變世界級(jí)的成就，比如顛覆性的圖像生成 AI 和大型語言模型?，F(xiàn)在市面上的機(jī)器學(xué)習(xí)模型已有很多，其中有商業(yè)公司提供的方便使用的產(chǎn)品，也有研究團(tuán)隊(duì)發(fā)布的開源模型，還有不同開發(fā)者和用戶針對(duì)不同任務(wù)需求優(yōu)化的專用模型。

這個(gè)紛繁復(fù)雜的模型生態(tài)卻給用戶造成了困擾：如果我有個(gè)任務(wù)，想使用機(jī)器學(xué)習(xí)模型來幫助解決，我又不是 AI 專業(yè)人士，我該怎么選擇合適的模型？

實(shí)際上這個(gè)問題已經(jīng)成為普通用戶有效使用 AI 的最大阻礙 —— 要知道很多人都不知道該如何向 ChatGPT 等大型語言模型（LLM）提出正確的問題（甚至由此誕生了 prompt 工程師這一職業(yè)），更別說為自己的任務(wù)找到合適的模型了。

針對(duì)這一問題，南京大學(xué)周志華教授在 2016 年提出了一種名為「學(xué)件（learnware）」的新范式。類似于用戶獲取后便能直觀學(xué)會(huì)使用的硬件和軟件，用戶也能通過學(xué)件的形式為自己的任務(wù)找到合適的機(jī)器學(xué)習(xí)模型。

做一個(gè)簡單的類比，假如用戶想要購買一把好用的切肉刀，她可以向市場(chǎng)提交自己的需求，市場(chǎng)會(huì)根據(jù)她的需求，匹配描述最一致的商品，然后推薦給她。但這個(gè)推薦可能與她的需求并不完全匹配，比如推薦的是一把適合切瓜的刀。但這把刀也不是不能用，她可以選擇直接用來切肉或使用其它方法將其打磨一番，讓其變得更加鋒利，更適合切肉。

圖 1：學(xué)件的類比

周志華提出的學(xué)件模式也是類似：用戶向?qū)W件市場(chǎng)提交自己的需求，市場(chǎng)推薦合適的模型，然后用戶使用自己的數(shù)據(jù)優(yōu)化該模型，使之更適合自己的任務(wù)。

學(xué)件有什么用？

除了能幫助用戶找到適合自己任務(wù)的模型，學(xué)件還有什么用？根據(jù)周志華團(tuán)隊(duì)最新發(fā)布的相關(guān)論文《Learnware: Small Models Do Big》，學(xué)件能夠解決許多機(jī)器學(xué)習(xí)應(yīng)用問題：

缺乏訓(xùn)練數(shù)據(jù)：如果模型是基于性能優(yōu)良的學(xué)件構(gòu)建的，那么即使任務(wù)僅有少量數(shù)據(jù)，也依然能獲得強(qiáng)大的機(jī)器學(xué)習(xí)模型。大多數(shù)用例其實(shí)只需要少量數(shù)據(jù)來進(jìn)行適應(yīng)和精細(xì)化。

缺乏訓(xùn)練技能：如果用戶能得到性能優(yōu)良的學(xué)件的幫助，而不是自己從頭開始打造模型，那么即使缺乏訓(xùn)練技能的普通用戶也能獲得強(qiáng)大的機(jī)器學(xué)習(xí)模型。

災(zāi)難性遺忘：一旦學(xué)件市場(chǎng)接受了一個(gè)學(xué)件，那么它就會(huì)被永遠(yuǎn)容納在該市場(chǎng)中，除非其各方面功能都被其它學(xué)件替代。因此，學(xué)件市場(chǎng)中的舊知識(shí)始終會(huì)被保留。什么都不會(huì)被遺忘。

持續(xù)學(xué)習(xí)：由于開發(fā)者會(huì)不斷提交用不同任務(wù)訓(xùn)練的表現(xiàn)良好的學(xué)件，因此學(xué)件市場(chǎng)能自然地實(shí)現(xiàn)持續(xù)學(xué)習(xí)和終身學(xué)習(xí)；學(xué)件市場(chǎng)中的知識(shí)會(huì)不斷得到豐富。

數(shù)據(jù)隱私 / 專有權(quán)：開發(fā)者提交模型時(shí)無需共享數(shù)據(jù)，因此數(shù)據(jù)隱私 / 專有權(quán)可得到很好的保護(hù)。盡管不能完全排除對(duì)模型進(jìn)行逆向工程的可能性，但與許多其它隱私保護(hù)方案相比，學(xué)件的風(fēng)險(xiǎn)非常小。

計(jì)劃外的任務(wù)：學(xué)件市場(chǎng)向所有合法的開發(fā)者開放。因此，除非所有合法開發(fā)者都沒做過該任務(wù)，否則市場(chǎng)中總是會(huì)存在有用的學(xué)件。此外，對(duì)于一些新任務(wù)，就算沒有開發(fā)者專門為其構(gòu)建模型，但可以通過選擇和組裝一些現(xiàn)有的學(xué)習(xí)器來解決。

碳排放：組裝小型模型可能就足以為大多數(shù)應(yīng)用提供足夠好的性能；因此，人們可能不太有興趣訓(xùn)練太多大模型。由于能復(fù)用其他開發(fā)者的模型，所以能有助于減少重復(fù)開發(fā)。此外，就算一個(gè)模型對(duì)某位用戶來說不好用，但對(duì)另一位用戶可能會(huì)很有用。不會(huì)浪費(fèi)訓(xùn)練成本。

學(xué)件設(shè)計(jì)

下面我們具體看看周志華團(tuán)隊(duì)提出的學(xué)件設(shè)計(jì)思路。首先我們可以直觀地理解在機(jī)器學(xué)習(xí)應(yīng)用方面，存在三個(gè)重要實(shí)體：開發(fā)者、用戶和市場(chǎng)。

開發(fā)者通常是機(jī)器學(xué)習(xí)專家，他們所做的是生產(chǎn)出表現(xiàn)優(yōu)良的已訓(xùn)練機(jī)器學(xué)習(xí)模型并將這些模型分享或銷售出去。

用戶需要機(jī)器學(xué)習(xí)服務(wù)，但通常僅有有限的數(shù)據(jù)并缺乏機(jī)器學(xué)習(xí)知識(shí)和技能。

學(xué)件市場(chǎng)則是從開發(fā)者那里獲取或購買表現(xiàn)優(yōu)良的已訓(xùn)練模型，讓它們進(jìn)入市場(chǎng)，再通過識(shí)別和復(fù)用學(xué)件來向用戶提供或銷售服務(wù)，從而幫助用戶解決他們手頭的任務(wù)。其基本操作可以分為兩個(gè)階段，如圖 2 所示。

圖 2：學(xué)件市場(chǎng)的兩個(gè)階段

提交階段

在提交階段，開發(fā)者可以自發(fā)地將訓(xùn)練好的模型提交到學(xué)件市場(chǎng)。市場(chǎng)可以通過一些機(jī)制（比如驗(yàn)證性能）來保證一定質(zhì)量，從而決定是否可以接受已提交的模型。假如一個(gè)學(xué)件市場(chǎng)已經(jīng)接納了數(shù)以百萬計(jì)的模型，那么新用戶應(yīng)當(dāng)采用什么方法找到可能對(duì)自己有用的模型？

我們當(dāng)然不能要求用戶將自己的數(shù)據(jù)提交到市場(chǎng)來試驗(yàn)?zāi)Ｐ?，因?yàn)檫@會(huì)很麻煩，而且成本很高，更嚴(yán)重的問題是這可能導(dǎo)致用戶數(shù)據(jù)泄漏。比較用戶數(shù)據(jù)和原始訓(xùn)練數(shù)據(jù)之間的相似度等簡單直接的方法也是不可行的，因?yàn)閷W(xué)件的提議考慮到了這一事實(shí)：由于隱私或?qū)Ｓ袡?quán)等問題，不管是開發(fā)者還是用戶，都不愿意泄漏自己的數(shù)據(jù)。因此，周志華團(tuán)隊(duì)的設(shè)計(jì)基于這樣一個(gè)約束條件：學(xué)件市場(chǎng)既無法獲取開發(fā)者的原始訓(xùn)練數(shù)據(jù)，也無法獲取用戶的原始數(shù)據(jù)。此外，他們還假設(shè)用戶并不是很了解市場(chǎng)中已有的模型。

為了應(yīng)對(duì)這一問題，周志華團(tuán)隊(duì)提出的解決方案的核心在于規(guī)約（specification）。一旦學(xué)件市場(chǎng)決定接受一個(gè)已提交模型，就會(huì)為該模型分配一個(gè)規(guī)約，其能以某種格式傳遞該模型的專長和用途，同時(shí)不會(huì)泄漏模型的原始訓(xùn)練數(shù)據(jù)。為了簡單起見，下面我們會(huì)使用簡單符號(hào)來表示模型的相關(guān)概念：假設(shè)模型對(duì)應(yīng)于某種函數(shù)關(guān)系，其可將輸入域 X 映射到輸出域 Y，這期間考慮的目標(biāo)為 obj；也就是說，這些模型在這個(gè)函數(shù)空間內(nèi)：F : X→Y w.r.t. obj。每個(gè)模型都有一個(gè)規(guī)約。所有規(guī)約構(gòu)成一個(gè)規(guī)約空間，其中有助于完成同一任務(wù)的模型的規(guī)約彼此相近。

學(xué)件市場(chǎng)中存在具有不同 X 和 / 或不同 Y 和 / 或不同 obj 的不同模型。如果我們把涵蓋所有可能的函數(shù)空間中所有可能的模型的規(guī)約空間稱為規(guī)約世界（specification world），那么就能把對(duì)應(yīng)于一個(gè)可能函數(shù)空間的每個(gè)規(guī)約空間稱為一個(gè)規(guī)約島（specification island）。目前，研究者還很難設(shè)計(jì)出能覆蓋全體規(guī)約世界的簡潔優(yōu)雅的規(guī)約格式，同時(shí)還能有效且充分地識(shí)別出所有可能的模型。周志華團(tuán)隊(duì)基于實(shí)際情況，采用了以下設(shè)計(jì)。每個(gè)學(xué)件的規(guī)約都由兩部分構(gòu)成，其中第一部分解釋了該學(xué)件位于哪個(gè)規(guī)約島，第二部分則會(huì)揭示其位于島中哪個(gè)位置。

第一部分可以通過一個(gè)字符串實(shí)現(xiàn)，其中包含一組描述 / 標(biāo)簽，涉及任務(wù)、輸入、輸出和目標(biāo)等情況。然后，根據(jù)用戶要求中提供的描述 / 標(biāo)簽，可以有效又準(zhǔn)確地定位相應(yīng)的規(guī)約島。一般來說，學(xué)件市場(chǎng)的設(shè)計(jì)者可以編寫一個(gè)初始描述 / 標(biāo)簽集合；當(dāng)市場(chǎng)接受一些無法歸入現(xiàn)有函數(shù)空間的新模型時(shí)，該集合還能增大，創(chuàng)建出新的函數(shù)空間及對(duì)應(yīng)的規(guī)約島。

規(guī)約島還能合并成更大的島，如圖 3 所示。原則上，如果 X 、Y 和 obj 中有共同成分，就可以合并規(guī)格島?？梢韵胂?，當(dāng)所有可能的任務(wù)都存在時(shí)，所有規(guī)約島會(huì)連接成一個(gè)非碎片化的統(tǒng)一規(guī)約世界。

圖 3：學(xué)件的規(guī)約世界

部署階段

在部署階段，用戶向?qū)W件市場(chǎng)提交需求，然后市場(chǎng)會(huì)識(shí)別并返回一些有用的學(xué)件給用戶。其中存在兩個(gè)問題：1. 如何識(shí)別滿足用戶需求的學(xué)件，2. 如何復(fù)用返回的學(xué)件。

學(xué)件市場(chǎng)可容納上百萬個(gè)模型。不同于之前的與模型復(fù)用或領(lǐng)域適應(yīng)有關(guān)的機(jī)器學(xué)習(xí)研究（其中假設(shè)所有預(yù)訓(xùn)練模型都會(huì)有用），可能只會(huì)有非常少部分學(xué)件對(duì)當(dāng)前用戶任務(wù)有用。不同于多任務(wù)學(xué)習(xí)（其中訓(xùn)練階段能使用這些不同任務(wù)的數(shù)據(jù)）和與領(lǐng)域無關(guān)式學(xué)習(xí)（其中可以使用源域的有標(biāo)注數(shù)據(jù)），學(xué)件市場(chǎng)并不假設(shè)能獲得這些信息。實(shí)際上，有效辨別合適的學(xué)件是非常困難的，尤其考慮到學(xué)件市場(chǎng)無法獲取原始訓(xùn)練數(shù)據(jù)和當(dāng)前用戶的原始數(shù)據(jù)。

通過規(guī)約設(shè)計(jì)，學(xué)件市場(chǎng)可以要求用戶使用描述 / 標(biāo)簽集來描述自己的需求，這可以通過一個(gè)用戶接口或某種有待未來設(shè)計(jì)的學(xué)件描述語言實(shí)現(xiàn)?；谶@些信息，用戶任務(wù)就可以簡化成如何從規(guī)約島中識(shí)別出某個(gè)有用的學(xué)件。學(xué)件市場(chǎng)可以在對(duì)應(yīng)于規(guī)約島的函數(shù)空間中提供一些錨學(xué)件，要求用戶測(cè)試它們并返回一些信息，然后基于這些信息識(shí)別出可能有用的學(xué)習(xí)器。

一旦找到了有用的學(xué)件并交付給用戶，用戶就能以各種方式復(fù)用它們。對(duì)照前述的類比，用戶可以直接使用這些模型，也可以用自己的數(shù)據(jù)進(jìn)一步對(duì)它們進(jìn)行優(yōu)化，使之更貼合自己的任務(wù)。

學(xué)件規(guī)約

理想情況下，學(xué)件規(guī)約應(yīng)該表達(dá) / 編碼學(xué)件市場(chǎng)中每個(gè)模型的重要信息，以便將來的用戶能夠有效和充分地識(shí)別它們。如前所述，周志華團(tuán)隊(duì)目前的規(guī)約設(shè)計(jì)由兩部分構(gòu)成。第一部分是一個(gè)字符串，這是學(xué)件市場(chǎng)基于開發(fā)者提交的信息給出的描述 / 標(biāo)簽，其目標(biāo)是定位模型所在的規(guī)約島。不同的學(xué)件市場(chǎng)企業(yè)可能采用不同的描述 / 標(biāo)簽。

規(guī)約的第二部分則是為了在函數(shù)空間 F : X→Y w.r.t. obj 中定位模型的位置。針對(duì)這一部分，周志華團(tuán)隊(duì)提出的方法名為 RKME（Reduced Kernel Mean Embedding / 精簡核均值嵌入），其基于 KME（核均值嵌入）的精簡集。KME 是一種強(qiáng)大的技術(shù)，可將一個(gè)概率分布映射到 RKHS（再生核希爾伯特空間）中一個(gè)點(diǎn)，其中精簡集在保留了表征能力的同時(shí)不會(huì)暴露原始數(shù)據(jù)。

假設(shè)開發(fā)者要提交一個(gè)基于數(shù)據(jù)集訓(xùn)練的模型。一旦模型訓(xùn)練完成，可將 x_i 饋送給模型得到對(duì)應(yīng)的輸出。注意，是模型的輸出而非基本真值；因此數(shù)據(jù)集編碼了模型的函數(shù)；也就是說其提供了該模型的函數(shù)表征。注意，也可以向模型饋送 x_i 之外的其它 x 以得到更透徹的表征。周志華團(tuán)隊(duì)之前使用這一思想學(xué)習(xí)過一個(gè)相對(duì)簡單的模型，并且其性能表現(xiàn)與原始復(fù)雜模型相當(dāng)。該團(tuán)隊(duì)表示之后 Geoffrey Hinton 等提出的知識(shí)蒸餾（knowledge distillation）思想與之類似。這一思想作為基礎(chǔ)，構(gòu)成了 RKME 規(guī)約的第一部分。為了簡單起見，這里令 z_i 表示，并且該模型的函數(shù)編碼在 z_i 的分布中。然后，市場(chǎng)會(huì)通過最小化根據(jù) RKHS 范數(shù)測(cè)定的距離來生成精簡集表征：其中 k (?,?) 是對(duì)應(yīng)于 RKHS 的核函數(shù)，它們都由學(xué)件市場(chǎng)決定并會(huì)被交給開發(fā)者。解出的 (β, t) 可提供不同于原始數(shù)據(jù) z 的遠(yuǎn)遠(yuǎn)更為精簡的表征；開發(fā)者將把它們提交用作模型規(guī)約的第二部分。

在部署階段，如果用戶有很多訓(xùn)練數(shù)據(jù)，市場(chǎng)可以幫助構(gòu)建要提交的 RKME 需求。然后，通過匹配 RKME 規(guī)約與用戶需求，市場(chǎng)可以識(shí)別并返回 RKHS 中范數(shù)距離最小的學(xué)件。如果有多個(gè)學(xué)件的 RKME 規(guī)約的加權(quán)組合與用戶需求的距離最小，那么市場(chǎng)還可以識(shí)別出多個(gè)有用的學(xué)件。如果用戶沒有足夠的訓(xùn)練數(shù)據(jù)來構(gòu)建 RKME 需求，學(xué)件市場(chǎng)也可以向用戶發(fā)送多個(gè)錨學(xué)件。用戶可將自己的數(shù)據(jù)輸入這些錨學(xué)件，從而生成一些信息（例如精確度和召回率或其它性能指標(biāo)），這些信息會(huì)返回市場(chǎng)。這些信息可幫助市場(chǎng)識(shí)別出潛在有用的模型，例如，通過發(fā)現(xiàn)遠(yuǎn)離錨學(xué)件的模型表現(xiàn)差，靠近錨學(xué)件的模型表現(xiàn)好，可在規(guī)約島中找到合適的模型。

學(xué)件市場(chǎng)的一種原型設(shè)計(jì)

為了驗(yàn)證這一思路的可行性，周志華團(tuán)隊(duì)設(shè)計(jì)了一種學(xué)件市場(chǎng)的原型，其用戶界面如下圖所示。

圖 4：學(xué)件市場(chǎng)的簡單原型

該市場(chǎng)包含 53 個(gè)使用不同數(shù)據(jù)集訓(xùn)練的不同類型的銷售預(yù)測(cè)模型，但它們的輸入空間、輸出空間和目標(biāo)是一樣的。因此這些模型的規(guī)約位于同一規(guī)約島。

實(shí)驗(yàn)過程是模擬一位新用戶，其想要在學(xué)件市場(chǎng)的幫助下構(gòu)建自己的銷售預(yù)測(cè)模型。

實(shí)驗(yàn)結(jié)果如下所示，相比于用戶使用自己的數(shù)據(jù)從頭構(gòu)建模型，借助學(xué)件市場(chǎng)能獲得不錯(cuò)的性能提升，尤其是當(dāng)用戶數(shù)據(jù)較少時(shí)。

圖 5：銷售預(yù)測(cè)實(shí)驗(yàn)結(jié)果

結(jié)語

自 2016 年學(xué)件（learnware）思想提出以來，AI 領(lǐng)域已經(jīng)經(jīng)歷了巨大的變化，語音、圖像、視頻、文本、多模態(tài)等各式模型層出不窮，讓人目不暇接。對(duì)于不專精于此領(lǐng)域的普通用戶而言，想要為自己的特定任務(wù)找到合適的模型絕非易事，因?yàn)閷?shí)際應(yīng)用總是需要考慮多方面的問題，包括模型性能、使用成本、響應(yīng)速度等等。

如果學(xué)件市場(chǎng)能夠成功大規(guī)模地部署到實(shí)際應(yīng)用環(huán)境中，那么可望開啟 AI 的真正普及之門。屆時(shí)，當(dāng)為特定任務(wù)構(gòu)建人工智能模型時(shí)，只需要查找學(xué)件市場(chǎng)即可，不再需要從頭開始構(gòu)建，就像現(xiàn)在的程序員在寫軟件時(shí)會(huì)在 GitHub 等代碼庫搜索有用的代碼一樣。

近來實(shí)現(xiàn)大規(guī)模應(yīng)用的大型語言模型還讓我們看到了新的可能性。設(shè)想一下，如果學(xué)件市場(chǎng)中的模型配備了優(yōu)良的文檔并整合了用戶評(píng)論機(jī)制，那么用戶甚至可以使用自然語言描述自己的任務(wù)需求。這樣一來，可能即使完全沒有相關(guān)經(jīng)驗(yàn)的新用戶也能為自己的任務(wù)找到合適的模型。

責(zé)任編輯：張燕妮來源：機(jī)器之心