為何說小語言模型是AI界的下一大熱門?
譯文譯者 | 布加迪
審校 | 重樓
在AI領(lǐng)域,科技巨頭們一直在競相構(gòu)建越來越龐大的語言模型,如今出現(xiàn)了一個令人驚訝的新趨勢:小就是大。隨著大語言模型(LLM)方面的進展出現(xiàn)了停滯的跡象,研究人員和開發(fā)人員日益開始將注意力轉(zhuǎn)向小語言模型(SLM)。這種緊湊、高效、適應(yīng)性強的AI模型正在挑戰(zhàn)“越大越好”這個觀念,有望改變我們對待AI開發(fā)的方式。

LLM是否開始停滯?
Vellum和HuggingFace最近發(fā)布的性能比較結(jié)果表明,LLM之間的性能差距在迅速縮小。這個趨勢在多項選擇題、推理和數(shù)學(xué)問題等特定任務(wù)中體現(xiàn)得尤為明顯;在這些任務(wù)中,各大模型之間的性能差異很小。比如在多項選擇題中,Claude 3 Opus、GPT-4和Gemini Ultra的準確率都在83%以上,而在推理任務(wù)中,Claude 3 Opus、GPT-4和Gemini 1.5 Pro的準確率超過92%。
有意思的是,連較小的模型(比如Mixtral 8x7B和Llama 2 - 70B)在某些方面也顯示出了讓人驚喜的結(jié)果,比如推理和多項選擇題;在這些方面,小模型的表現(xiàn)勝過一些大模型。這表明模型的大小可能不是決定性能的唯一因素,而架構(gòu)、訓(xùn)練數(shù)據(jù)和微調(diào)技術(shù)等其他方面可能發(fā)揮重要作用。
Uber AI前負責(zé)人、《重啟人工智能》(Rebooting AI)一書的作者Gary Marcus表示:“如果看一下最近發(fā)表的十幾篇文章,它們大體上都與GPT-4處于同一個水準。”《重啟人工智能》講述了如何構(gòu)建值得信賴的AI。Marcus周四接受了IT外媒《VentureBeat》的采訪。
“其中一些比GPT-4好一點,但沒有大的飛躍。我想每個人都會說GPT-4比GPT-3.5是一大進步,一年多的時間里并沒有任何大的飛躍。”
隨著性能差距繼續(xù)縮小,更多的模型顯示出頗具競爭力的結(jié)果,這引發(fā)了LLM是否真的開始停滯的問題。如果這種趨勢持續(xù)下去,可能會對語言模型的未來開發(fā)和部署產(chǎn)生重大影響,人們關(guān)注的重心可能會由一味增加模型大小轉(zhuǎn)向探索更有效、更專門化的架構(gòu)上。
LLM方法的缺點
雖然不可否認LLM功能強大,但也有明顯的缺點。首先,訓(xùn)練LLM需要大量的數(shù)據(jù),需要數(shù)十億甚至數(shù)萬億個參數(shù)。這使得訓(xùn)練過程極其耗費資源,訓(xùn)練和運行LLM所需的算力和能耗也是驚人的。這導(dǎo)致了成本高企,使得小組織或個人很難參與核心LLM開發(fā)。在去年麻省理工學(xué)院組織的一次活動上,OpenAI首席執(zhí)行官Sam Altman表示,訓(xùn)練GPT-4的成本至少為1億美元。
處理LLM所需的工具和技術(shù)的復(fù)雜性也將一條陡峭的學(xué)習(xí)曲線擺在開發(fā)人員的面前,進一步限制了可訪問性。從模型訓(xùn)練到構(gòu)建和部署,開發(fā)人員面臨的周期很長,這減慢了開發(fā)和試驗的速度。劍橋大學(xué)最近的一篇論文顯示,公司部署單單一個機器學(xué)習(xí)模型就可能要花90天或更長的時間。
LLM的另一個重要問題是它們往往產(chǎn)生幻覺——生成看似合理但實際上并不真實的輸出。這源于LLM被訓(xùn)練成基于訓(xùn)練數(shù)據(jù)中的模式來預(yù)測下一個最有可能的單詞的方式,而不是真正了解信息。因此,LLM可以自信地做出虛假陳述,編造事實或以荒謬的方式組合不相關(guān)的概念。檢測和減輕這種幻覺現(xiàn)象是開發(fā)可靠的語言模型面臨的老大難問題。
Marcus警告:“如果你用LLM來解決重大問題,你不想侮辱客戶、得到錯誤的醫(yī)療信息,或者用它來駕駛汽車。這仍然是個問題。”
LLM的規(guī)模和黑盒性質(zhì)也使它們難以解釋和調(diào)試,解釋和調(diào)試對于對模型的輸出建立信任至關(guān)重要。訓(xùn)練數(shù)據(jù)和算法中的偏差可能導(dǎo)致不公平、不準確甚至有害的輸出。正如我們在谷歌Gemini中看到,使LLM“安全”而可靠的技術(shù)也會降低其有效性。此外,LLM的集中性質(zhì)引發(fā)了對權(quán)力和控制權(quán)集中在少數(shù)大型科技公司手中的擔(dān)憂。
小語言模型(SLM)登場
這時候小語言模型登場了。SLM是LLM的精簡版,參數(shù)更少,設(shè)計更簡單。它們所需的數(shù)據(jù)和訓(xùn)練時間更短,只需幾分鐘或幾個小時,而LLM需要幾天。這使得SLM部署在本地或小型設(shè)備上來得更高效更簡單。
SLM的主要優(yōu)點之一是它們適合特定的應(yīng)用環(huán)境。由于它們關(guān)注的范圍更狹小,需要更少的數(shù)據(jù),所以比大型通用模型更容易針對特定領(lǐng)域或任務(wù)進行微調(diào)。這種定制使公司能夠創(chuàng)建對其特定需求而言非常有效的SLM,比如情緒分析、命名實體識別或特定領(lǐng)域的問題回答。與使用通用模型相比,SLM的專門化特性可以提升其在這些目標應(yīng)用環(huán)境的性能和效率。
SLM的另一個好處是有望增強隱私和安全。使用更小的代碼庫和更簡單的架構(gòu),SLM更容易審計,并且不太可能出現(xiàn)意外漏洞。這使得它們對于處理敏感數(shù)據(jù)的應(yīng)用環(huán)境頗有吸引力,比如在醫(yī)療保健或金融領(lǐng)域,數(shù)據(jù)泄露可能釀成嚴重后果。此外,SLM的計算需求減少,使得它們更適合在本地設(shè)備或本地服務(wù)器上運行,而不是依賴云基礎(chǔ)設(shè)施。這種本地處理可以進一步提高數(shù)據(jù)安全性,并降低數(shù)據(jù)在傳輸過程中暴露的風(fēng)險。
與LLM相比,SLM在特定領(lǐng)域內(nèi)更不容易出現(xiàn)未被發(fā)現(xiàn)的幻覺。SLM通常使用預(yù)期領(lǐng)域或應(yīng)用環(huán)境特有的更狹窄、更有針對性的數(shù)據(jù)集進行訓(xùn)練,這有助于模型學(xué)習(xí)與其任務(wù)最相關(guān)的模式、詞匯表和信息。這就降低了生成不相關(guān)、意外或不一致輸出的可能性。由于使用更少的參數(shù)和更精簡的架構(gòu),SLM不太容易捕獲和放大訓(xùn)練數(shù)據(jù)中的噪音或錯誤。
AI初創(chuàng)公司HuggingFace的首席執(zhí)行官Clem Delangue表示,高達99%的用例可以使用SLM來解決,并預(yù)測2024年將是SLM元年。HuggingFace的平臺使開發(fā)人員能夠構(gòu)建、訓(xùn)練和部署機器學(xué)習(xí)模型,該公司今年早些時候宣布與谷歌建立戰(zhàn)略合作伙伴關(guān)系。兩家公司隨后將HuggingFace整合到谷歌的Vertex AI中,允許開發(fā)人員通過谷歌Vertex Model Garden快速部署數(shù)千個模型。
谷歌Gemma受到追捧
在最初將LLM方面的優(yōu)勢拱手讓給OpenAI之后,谷歌正積極抓住SLM機會。早在2月份,谷歌推出了Gemma,這是一系列新的小語言模型,旨在提高效率和用戶友好性。與其他SLM一樣,Gemma模型可以在各種普通設(shè)備上運行,如智能手機、平板電腦或筆記本電腦,不需要特殊的硬件或全面的優(yōu)化。
自Gemma發(fā)布以來,經(jīng)過訓(xùn)練的模型上個月在HuggingFace上的下載量已經(jīng)超過40萬次,而且已涌現(xiàn)出了幾個令人興奮的項目。比如說,Cerule是一個功能強大的圖像和語言模型,它結(jié)合了Gemma 2B和谷歌的SigLIP,使用大量的圖像和文本數(shù)據(jù)集進行了訓(xùn)練。Cerule利用高效的數(shù)據(jù)選擇技術(shù),可以在不需要大量數(shù)據(jù)或計算的情況下實現(xiàn)高性能。這意味著Cerule可能非常適合新興的邊緣計算用例。
另一個例子是CodeGemma,它是Gemma的專門版,專注于編程和數(shù)學(xué)推理。CodeGemma為各種編程相關(guān)的活動提供了三種不同的模型,使高級編程工具對開發(fā)人員來說更容易訪問、更高效。
小語言模型的巨大潛力
隨著AI社區(qū)繼續(xù)探索小語言模型的潛力,更快的開發(fā)周期、更高的效率以及能夠根據(jù)特定需求定制模型等優(yōu)點變得越來越明顯。SLM有望通過帶來具有成本效益、具有針對性的解決方案,普及AI訪問,并推動行業(yè)創(chuàng)新。在邊緣部署SLM為金融、娛樂、汽車系統(tǒng)、教育、電子商務(wù)和醫(yī)療保健等行業(yè)領(lǐng)域的實時、個性化和安全的應(yīng)用系統(tǒng)帶來了新的可能性。
通過在本地處理數(shù)據(jù)并減少對云基礎(chǔ)設(shè)施的依賴,結(jié)合SLM的邊緣計算可以縮短響應(yīng)時間、增強數(shù)據(jù)隱私和改進用戶體驗。這種去中心化的AI方法有望改變企業(yè)和消費者與技術(shù)進行互動的方式,在現(xiàn)實世界中創(chuàng)造更個性化更直觀的體驗。由于LLM面臨與計算資源相關(guān)的挑戰(zhàn),可能遇到性能瓶頸,因此,LLM的興起有望使AI生態(tài)系統(tǒng)繼續(xù)以驚人的步伐發(fā)展。
原文標題:Why small language models are the next big thing in AI,作者:James Thomason





































