告別玄學(xué)選LLM！弗吉尼亞理工選型框架入選ICML 2025

2025-06-19 08:55:00

人工智能新聞

來自弗吉尼亞理工大學(xué)的研究人員推出了個(gè)選型框架LensLLM。

還在靠“開盲盒”選擇大模型？

來自弗吉尼亞理工大學(xué)的研究人員推出了個(gè)選型框架LensLLM——

大幅提升選型效果的同時(shí)，成本卻降低近90%。

眾所周知，在大模型如雨后春筍般爆發(fā)的時(shí)代，選型成了AI工程師和研究員最大的痛點(diǎn)之一：

模型多如牛毛，怎么選才不會(huì)“踩坑”？
微調(diào)代價(jià)高昂，怎么預(yù)測(cè)誰能表現(xiàn)最優(yōu)？
資源受限，怎么才能用最少成本跑出最優(yōu)解？

而使用LensLLM框架，不僅可以預(yù)測(cè)微調(diào)后的性能走勢(shì)，還通過全新理論解釋了大模型微調(diào)中一直難以理解的“玄學(xué)現(xiàn)象”。

按照?qǐng)F(tuán)隊(duì)的說法，LensLLM=用理論看清大模型未來+用極小代價(jià)選出最優(yōu)解。

該研究被ICML 2025收錄。

下面具體來看。

首度揭示：LLM微調(diào)中的“相變”動(dòng)力學(xué)

近幾年，大語言模型（LLM）從學(xué)術(shù)走向產(chǎn)業(yè)，從GPT到LLaMA，再到Mistral、DeepSeek，光是名字就讓人眼花繚亂。

但選錯(cuò)模型不僅會(huì)浪費(fèi)GPU資源，更可能拖慢產(chǎn)品迭代速度，甚至導(dǎo)致項(xiàng)目失敗。

現(xiàn)有方法依賴經(jīng)驗(yàn)、調(diào)參和“玄學(xué)”，在成本和效果之間很難找到平衡。

而LensLLM正是在這個(gè)背景下誕生，其目標(biāo)是終結(jié)LLM選型“靠感覺”的時(shí)代。

展開來說，LensLLM的理論基礎(chǔ)來自一項(xiàng)全新的PAC-Bayes泛化界限推導(dǎo)，首次從數(shù)學(xué)上揭示了LLM在不同數(shù)據(jù)規(guī)模下微調(diào)表現(xiàn)的非線性變化規(guī)律，具體表現(xiàn)為：

其中，n是訓(xùn)練樣本量，?_??與模型參數(shù)的Hessian矩陣（衡量損失函數(shù)曲率和參數(shù)敏感性）緊密相關(guān)。

在此基礎(chǔ)上，研究團(tuán)隊(duì)進(jìn)一步推導(dǎo)出推論1，將泛化界限簡(jiǎn)化為：

其中C₃和??₃都是模型/任務(wù)相關(guān)的參數(shù)。

“預(yù)冪律相”→“冪律相”的相變現(xiàn)象

在數(shù)據(jù)量較小時(shí)，模型處于“預(yù)冪律相”，此階段參數(shù)對(duì)損失非常敏感，表現(xiàn)極不穩(wěn)定，性能提升有限；而當(dāng)訓(xùn)練數(shù)據(jù)量超過某個(gè)臨界點(diǎn)后，模型進(jìn)入“冪律相”，此時(shí)誤差收斂明顯，調(diào)參也更有效率。

這一“從不確定到穩(wěn)定”的過渡，首次在理論上得到了嚴(yán)謹(jǐn)解釋，并被寫進(jìn)了LensLLM的預(yù)測(cè)邏輯中。

下圖反映了LLM微調(diào)過程中測(cè)試損失L隨訓(xùn)練數(shù)據(jù)量D變化的相變現(xiàn)象。低數(shù)據(jù)量階段為預(yù)冪律相，高數(shù)據(jù)量階段為冪律相，兩者之間存在明顯的轉(zhuǎn)折點(diǎn)。

實(shí)錘LensLLM：用NTK模擬微調(diào)，用極小代價(jià)選出最優(yōu)模型

理論解釋只是開始。更重要的是——LensLLM還能算準(zhǔn)。

研究團(tuán)隊(duì)構(gòu)建了一個(gè)基于神經(jīng)切線核（NTK）增強(qiáng)的縮放律模型，能夠在只微調(diào)極少量數(shù)據(jù)的前提下：

精確擬合整個(gè)微調(diào)曲線（如圖2和表2所示）
預(yù)測(cè)最終測(cè)試性能
排出最優(yōu)模型排名

下圖2顯示了，LensLLM（藍(lán)色方塊）在FLAN、Wikitext和Gigaword數(shù)據(jù)集上對(duì)OPT-1.3b、GPT-2和T5-base模型性能的曲線擬合效果。

可以看到，LensLLM的RMSE值顯著低于Rectified Scaling Law（紅色三角形），誤差帶更窄，表明其預(yù)測(cè)更穩(wěn)定準(zhǔn)確。

下表2為預(yù)測(cè)測(cè)試損失與實(shí)際測(cè)試損失方面的均方根誤差（RMSE）對(duì)比（×)。

不需要完整訓(xùn)練，不需要大規(guī)模試錯(cuò)，就像提前“看穿”一個(gè)模型的未來走向。

在FLAN、Wikitext、Gigaword三大數(shù)據(jù)集上，LensLLM預(yù)測(cè)準(zhǔn)確度遠(yuǎn)超基線方法（如Rectified Scaling Law），RMSE誤差最小可低至原來的1/5。

下圖3為L(zhǎng)ensLLM在FLAN、Wikitext和Gigaword數(shù)據(jù)集上的Pearson相關(guān)系數(shù)和相對(duì)準(zhǔn)確率表現(xiàn)。

LensLLM（最右側(cè)深藍(lán)色條形）在所有數(shù)據(jù)集上均顯著優(yōu)于Rectified Scaling Law、NLPmetrics、SubTuning、ZeroShot和ModelSize等基線方法，展現(xiàn)了其在模型選型中的卓越能力。

大幅提升選型效果，成本卻降低近90%

選得準(zhǔn)是一方面，選得快也是關(guān)鍵。

LensLLM引入了漸進(jìn)式采樣機(jī)制，計(jì)算成本比FullTuning方法最多降低88.5%，且在模型排名任務(wù)中保持高達(dá)91.1%的選型準(zhǔn)確率，真正實(shí)現(xiàn)成本低、精度高、泛化強(qiáng)。

圖4顯示了LLM選型性能與計(jì)算成本的Pareto-最優(yōu)曲線。LensLLM（橙色點(diǎn)）在顯著降低FLOPs（計(jì)算成本）的同時(shí)，保持了高水平的Pearson相關(guān)系數(shù)，相較于Rectified（藍(lán)色點(diǎn)）、SubTuning（綠色點(diǎn)）和FullTuning（紫色點(diǎn)）展現(xiàn)出更優(yōu)的效率。

就是說，在選型性能與計(jì)算代價(jià)之間，LensLLM達(dá)到顯著的Pareto最優(yōu)。

未來場(chǎng)景：邊緣部署/模型迭代/個(gè)性化推薦

團(tuán)隊(duì)表示，LensLLM不只是選型利器，更有潛力成為模型評(píng)估與管理的核心組件：

資源受限部署場(chǎng)景：幫助邊緣設(shè)備快速選出兼顧精度與效率的模型；
A/B測(cè)試與快速迭代：縮短新模型上線周期，節(jié)省GPU試錯(cuò)成本；
定制化微調(diào)：根據(jù)用戶任務(wù)和數(shù)據(jù)量，找到最合適的預(yù)訓(xùn)練模型，從而達(dá)到最佳效果。

未來他們將探索將LensLLM拓展到多任務(wù)環(huán)境與MoE等復(fù)雜模型結(jié)構(gòu)，構(gòu)建更通用的智能模型選型系統(tǒng)。

論文：https://arxiv.org/pdf/2505.03793

開源地址：https://github.com/Susan571/LENSLLM

責(zé)任編輯：張燕妮來源：量子位

LLM AI 模型

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

告別玄學(xué)選LLM！弗吉尼亞理工選型框架入選ICML 2025