大模型變天,Transformer架構(gòu)要被取代?
近日,由麻省理工學院孵化的AI初創(chuàng)企業(yè)Liquid?AI正式推出其三款全新的“液態(tài)基礎(chǔ)模型”(Liquid?Foundation?Model,LFM),分別為專為資源受限環(huán)境設(shè)計的LFM?1.3B、面向邊緣部署的LFM?3B,以及部署在云服務器上以處理復雜用例的LFM?40B?MoE。

事實上,LFM?1.3B在多個基準測試中表現(xiàn)出色,性能超越過同等規(guī)模Llama3.2等基于Transformer架構(gòu)的模型,LFM?3B可以與更大規(guī)模的模型進行競爭,展示了出色的可擴展性和靈活性,LFM?40B能夠在保持性能與效率平衡的同時,超越規(guī)模更大的模型。
LFM背后的框架
據(jù)Liquid?AI介紹,LFM兼顧性能和效率。簡單來說,就是可以在使用最少的系統(tǒng)內(nèi)存的同時提供卓越的計算能力。
據(jù)了解,LFM基于動態(tài)系統(tǒng)、數(shù)值線性代數(shù)和信號處理,非常適合處理各種類型的序列數(shù)據(jù),包括文本、音頻、圖像、視頻和信號。實際上,Liquid?AI首次引起關(guān)注是在去年12月份,當時該公司籌集了3760萬美元的種子輪融資,由多家風險投資公司和知名天使投資人參與,估值達到3.03億美元。
Liquid?AI解釋稱,LFM基于一種液態(tài)神經(jīng)網(wǎng)絡(luò)(Liquid?Neural?Net,LNN),從第一性原理出發(fā)而構(gòu)建,其計算單元植根于動態(tài)系統(tǒng)理論、信號處理和數(shù)值線性代數(shù),最初在麻省理工學院的計算機科學與人工智能實驗室開發(fā)。
相較于傳統(tǒng)深度學習模型需要數(shù)千個神經(jīng)元來執(zhí)行計算任務不同,LNN可以用更少的神經(jīng)元實現(xiàn)相同的效果。LNN通過將這些神經(jīng)元與創(chuàng)新的數(shù)學公式相結(jié)合來實現(xiàn)這一目標,使其能夠用更少的資源做更多的事情。
值得一提的是,LNN在涉及連續(xù)順序數(shù)據(jù)的用例中表現(xiàn)出色,具體來看:
第一,時間序列數(shù)據(jù)處理與預測。研究人員在對時間序列數(shù)據(jù)進行建模時面臨著一些挑戰(zhàn),包括時間依賴性、非平穩(wěn)性和時間序列數(shù)據(jù)中的噪聲。
LNN是專門為時間序列數(shù)據(jù)處理和預測而構(gòu)建的。根據(jù)麻省理工學院計算機科學和人工智能實驗室(CSAIL)博士后哈薩尼(Hasani)的說法,時間序列數(shù)據(jù)無處不在,是幫助我們了解世界的重要參考?!艾F(xiàn)實世界完全由序列組成。即使是我們的感知,也是如此——你不是在感知圖像,你是在感知一系列圖像?!?/p>
第二,圖像和視頻處理。LNN可以執(zhí)行圖像處理和基于視覺的任務,如目標跟蹤、圖像分割和識別。它們的動態(tài)特性使它們能夠根據(jù)環(huán)境的復雜性、模式和時間動態(tài)不斷改進。
例如,麻省理工學院的研究人員發(fā)現(xiàn),無人機可以通過一個20,000參數(shù)的小型LNN模型進行引導,該模型在導航以前看不見的環(huán)境方面比其他神經(jīng)網(wǎng)絡(luò)表現(xiàn)更好。這些出色的導航能力可用于制造更精確的自動駕駛汽車。
第三,自然語言理解。由于其適應性、實時學習能力和動態(tài)拓撲結(jié)構(gòu),LNN非常擅長理解自然語言文本序列。
以情感分析為例,這是一項旨在理解文本背后潛在情感的自然語言處理(NLP)任務。LNN從實時數(shù)據(jù)中學習的能力有助于他們分析不斷發(fā)展的方言和新短語,從而進行更準確的情感分析。類似的功能在機器翻譯中也很有用。
挑戰(zhàn)同樣存在
不過,需要指出的是,盡管LNN具有許多優(yōu)勢,但同樣面臨一些約束和挑戰(zhàn)。
第一,消失梯度問題。像其他時間連續(xù)模型一樣,LNN在通過梯度下降訓練時可能會遇到消失梯度問題。在深度神經(jīng)網(wǎng)絡(luò)中,當用于更新神經(jīng)網(wǎng)絡(luò)權(quán)重的梯度變得極小時,就會發(fā)生消失梯度問題。這個問題會阻礙神經(jīng)網(wǎng)絡(luò)達到最優(yōu)權(quán)重,從而限制了它們有效學習長期依賴關(guān)系的能力。
第二,參數(shù)調(diào)優(yōu)。和其他神經(jīng)網(wǎng)絡(luò)一樣,LNN也涉及參數(shù)調(diào)優(yōu)的挑戰(zhàn)。對于LNN而言,參數(shù)調(diào)優(yōu)既耗時又成本高昂。LNN有多個參數(shù),包括常微分方程(ODE)求解器的選擇、正則化參數(shù)以及網(wǎng)絡(luò)架構(gòu),這些都必須進行調(diào)整以實現(xiàn)最佳性能。
找到合適的參數(shù)設(shè)置通常需要迭代過程,這需要時間。如果參數(shù)調(diào)整效率低下或不正確完成,可能導致網(wǎng)絡(luò)響應不佳和性能降低。
第三,文獻資料匱乏。關(guān)于LNN的實施、應用和優(yōu)勢的文獻資料有限。研究不足使得理解LNN的最大潛力和局限性變得具有挑戰(zhàn)性,所以不如Transformer那樣廣為人知。
相信隨著更多關(guān)于LNN的研究和開發(fā)工作的進行,未來會有新的方法和技術(shù)出現(xiàn),以克服當前所面臨的一些局限性,并進一步提高這類模型的可用性。
寫在最后
總的來說,Liquid?AI推出的LFM代表了AI領(lǐng)域的一種創(chuàng)新嘗試,它結(jié)合了動態(tài)系統(tǒng)理論和信號處理技術(shù),旨在為邊緣計算和云計算環(huán)境提供高效的解決方案。然而,要讓這種新模型成為主流,還需要克服一系列的技術(shù)障礙,并通過持續(xù)研究和發(fā)展來完善其理論基礎(chǔ)和實踐應用。




































