譯者 | 涂承燁
審校 | 重樓
不到十年前,能與計算機進(jìn)行有意義的對話的想法還只是科幻小說。但今天,數(shù)以百萬計的人與AI助手聊天,根據(jù)文本描述創(chuàng)作令人驚嘆的藝術(shù)作品,并每天使用這些AI工具/系統(tǒng)來理解圖像和執(zhí)行高級任務(wù)。這一進(jìn)步由許多專業(yè)AI模型驅(qū)動,每個模型都有其獨特的功能和應(yīng)用。本文將介紹八種正在重塑數(shù)字格局并可能塑造我們未來的專業(yè)AI模型。
1.LLMs:大型語言模型(Large Language Models)
還記得科幻電影里人類過去常常與計算機正常交談的情景嗎?大型語言模型創(chuàng)造了一種虛構(gòu)已成為現(xiàn)實的氛圍。這些模型理解并生成人類語言,構(gòu)成了現(xiàn)代AI助手的支柱。
LLMs的架構(gòu):
LLMs本質(zhì)上建立在變換器(Transformer)之上,變換器由堆疊的編碼器和/或解碼器塊組成。典型的實現(xiàn)包括使用以下組件:
- 多頭注意力層(Multi-Head Attention Layers):不同的注意力層允許模型同時關(guān)注輸入的各個部分,每層計算 Q、K、V 矩陣。
- 前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Neural Networks):當(dāng)這些網(wǎng)絡(luò)接收注意力輸出時,它們實現(xiàn)兩個線性變換,中間有一個非線性激活函數(shù),通常是 ReLU 或 GELU。
- 殘差連接與層歸一化(Residual Connections and Layer Normalization):通過允許梯度在深度網(wǎng)絡(luò)中流動并通過歸一化網(wǎng)絡(luò)激活來使訓(xùn)練穩(wěn)定。
- 位置編碼(Positional Encoding):當(dāng)變換器并行處理詞元(token)時,它使用正弦或?qū)W習(xí)得到的位置嵌入來注入位置信息。
- 多階段訓(xùn)練(Multi-Phase Training):在精選數(shù)據(jù)集上進(jìn)行微調(diào)之前的預(yù)訓(xùn)練,隨后進(jìn)行對齊(alignment),其中人類反饋強化學(xué)習(xí)(RLHF)是方法之一。
LLMs的關(guān)鍵特性:
- 自然語言理解與生成
- 在較長詞元跨度上的上下文感知
- 從海量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)知識表示
- 零樣本學(xué)習(xí)(無需任何特定訓(xùn)練即可執(zhí)行任務(wù)的能力)
- 上下文學(xué)習(xí)(in-context learning),即通過示例適應(yīng)新格式的能力
- 遵循指令進(jìn)行復(fù)雜的多步推理
- 用于解決問題的思維鏈(Chain-of-thought)推理能力
LLMs的示例:
- GPT-4(OpenAI):最具先進(jìn)性的語言模型之一,具有多模態(tài)能力,驅(qū)動著 ChatGPT 和數(shù)千個應(yīng)用程序。
- Claude(Anthropic):以產(chǎn)生深思熟慮、細(xì)致入微的輸出和良好推理而聞名。
- Llama 2 & 3(Meta):強大的開源模型,將AI帶給大眾。
- Gemini(Google):谷歌的最先進(jìn)模型,具有極強的推理和多模態(tài)能力。
LLMs的用例:
想象你是一個遭遇寫作瓶頸的內(nèi)容創(chuàng)作者。LLMs可以生成想法、創(chuàng)建文章大綱或為你起草內(nèi)容供你潤色。設(shè)想你是一個遇到編碼問題的開發(fā)者;這些模型可以調(diào)試你的代碼、提出解決方案,甚至用淺顯的英語解釋復(fù)雜的編程概念或術(shù)語。
2.LCMs:大型概念模型(Large Concept Models)
LLMs 專注于語言,而 LCMs 則側(cè)重于理解思想之間更深層次的概念關(guān)系。你可以把它們看作是掌握概念而不僅僅是單詞的模型。
LCMs的架構(gòu):
LCMs 在變換器架構(gòu)基礎(chǔ)上構(gòu)建,增加了用于概念理解的專業(yè)組件,通常包括:
- 增強的交叉注意力機制(Enhanced Cross-Attention Mechanisms): 將文本詞元連接到概念表示,并將單詞連接到潛在概念。
- 知識圖譜集成(Knowledge Graph Integration):直接在架構(gòu)中或通過預(yù)訓(xùn)練目標(biāo)間接集成結(jié)構(gòu)化知識。
- 分層編碼層(Hierarchical Encoding Layers):這些層級在不同抽象層次上捕獲概念,從具體實例到抽象類別。
- 多跳推理模塊(Multi-Hop Reasoning Modules):允許多步跟蹤概念關(guān)系鏈。
預(yù)訓(xùn)練通常針對概念預(yù)測、概念消歧、層次關(guān)系建模以及從抽象到具體的映射。此外,許多實現(xiàn)采用專門的注意力機制,該機制為與概念相關(guān)的詞元分配與一般上下文相關(guān)的詞元不同的權(quán)重。
LCMs的關(guān)鍵特性:
- 將抽象思想概念化,超越語言的表層
- 在邏輯和因果推理方面表現(xiàn)出色
- 改進(jìn)的常識推理和推斷能力
- 連接不同領(lǐng)域的相關(guān)概念
- 對層次結(jié)構(gòu)的語義概念化
- 概念消歧和實體鏈接
- 類比與學(xué)習(xí)遷移
- 從多樣信息源組合知識
LCMs的頂級示例:
- Gato(Deepmind):一個通用智能體,使用一個簡單模型執(zhí)行數(shù)百項任務(wù)。
- 悟道 2.0(Wu Dao 2.0, 北京智源人工智能研究院):一個用于概念理解的超大規(guī)模多模態(tài) AI 系統(tǒng)。
- Minerva(Google):專長于數(shù)學(xué)和科學(xué)推理。
- Flamingo(DeepMind):通過概念框架橋接視覺和語言理解。
LCMs的用例:
對于試圖將來自不同科學(xué)論文的見解整合起來的研究員,LCM 將揭示那些原本隱藏的概念聯(lián)系。教育工作者可以與 LCMs 合作設(shè)計教學(xué)材料,以增強概念學(xué)習(xí),而不是直接記憶。
3.LAMs:大型動作模型(Large Action Models)
大型動作模型是 AI 進(jìn)化的下一階段,這些模型不僅能理解或生成內(nèi)容,還能在數(shù)字環(huán)境中采取有意義的有向動作。它們在理解與行動之間架起橋梁。
LAMs的架構(gòu):
LAMs 通過多組件設(shè)計將語言理解與動作執(zhí)行結(jié)合起來:
- 語言理解核心(Language Understanding Core):基于變換器的LLM 用于處理指令并生成推理步驟。
- 規(guī)劃模塊(Planning Module):分層規(guī)劃系統(tǒng),將高級目標(biāo)分解為可操作的步驟,通常使用蒙特卡洛樹搜索(Monte Carlo Tree Search)或分層強化學(xué)習(xí)(hierarchical reinforcement learning)等技術(shù)。
- 工具使用接口(Tool Use Interface):用于外部工具交互的 API 層,包括發(fā)現(xiàn)機制、參數(shù)綁定、執(zhí)行監(jiān)控和結(jié)果解析。
- 記憶系統(tǒng)(Memory Systems):同時使用短期工作記憶和長期情景記憶來維持跨動作的上下文。
計算流程經(jīng)歷指令生成與解釋、規(guī)劃、工具選擇、執(zhí)行、觀察和計劃調(diào)整的循環(huán)。訓(xùn)練通常結(jié)合使用監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)和模仿學(xué)習(xí)的方法。另一個關(guān)鍵特征是存在一個“反思機制(reflection mechanism)”,模型在其中判斷其動作的效果并相應(yīng)地調(diào)整所應(yīng)用的策略。
LAMs的關(guān)鍵特性:
- 根據(jù)以自然語言形式傳遞的指令采取行動
- 多步驟規(guī)劃以實現(xiàn)需要如此的目標(biāo)
- 無需人工干預(yù)即可使用工具和進(jìn)行 API 交互
- 通過演示學(xué)習(xí)而非編程
- 從環(huán)境中接收反饋并自我適應(yīng)
- 單智能體決策,安全第一
- 狀態(tài)跟蹤和跨越順序交互
- 自我糾正和錯誤恢復(fù)
LAMs的頂級示例:
- AutoGPT:一個用于任務(wù)執(zhí)行的實驗性自主 GPT-4。
- 帶工具的 Claude Opus:通過函數(shù)調(diào)用實現(xiàn)復(fù)雜任務(wù)的高級自主性。
- LangChain Agents:用于創(chuàng)建面向動作的 AI 系統(tǒng)的框架。
- BabyAGI:自主任務(wù)管理和執(zhí)行的演示。
LAMs的用例:
想象要求一個 AI “研究本地承包商,匯編他們的評分,并為我們的廚房改造項目安排與前三名的面試”。LAMs 可以執(zhí)行這種需要理解與行動相結(jié)合的多步驟復(fù)雜任務(wù)。
4.MoEs:專家混合模型(Mixture of Experts)
考慮一組專家而不是一個單一的通才,這就是MoE設(shè)計所暗示的。這些模型由多個專家神經(jīng)網(wǎng)絡(luò)組成,每個網(wǎng)絡(luò)都經(jīng)過訓(xùn)練以處理特定的任務(wù)或知識領(lǐng)域。
MoE的架構(gòu):
MoE 實現(xiàn)條件計算(Conditional Computation),使得不同的輸入激活不同的專門子網(wǎng)絡(luò):
- 門控網(wǎng)絡(luò)(Gating Network):將輸入發(fā)送到適當(dāng)?shù)膶<易泳W(wǎng)絡(luò),決定模型內(nèi)的哪些“記憶”應(yīng)處理每個詞元或序列。
- 專家網(wǎng)絡(luò)(Expert Networks):多路、專門的神經(jīng)子網(wǎng)絡(luò)(專家),通常是嵌入變換器塊中的前饋網(wǎng)絡(luò)。
- 稀疏激活(Sparse Activation):每個輸入只激活一小部分參數(shù)。這是通過 top-k 路由(top-k routing)實現(xiàn)的,其中只允許得分最高的前k個專家處理每個詞元。
現(xiàn)代實現(xiàn)用變換器中的 MoE 層替代標(biāo)準(zhǔn)的 FFN(前饋網(wǎng)絡(luò))層,保持注意力機制為密集的。訓(xùn)練涉及負(fù)載平衡(Load Balancing)、損失和專家丟棄(Expert Dropout)等技術(shù),以避免病態(tài)路由模式。
MoE的關(guān)鍵特性:
- 高效擴展到巨大參數(shù)數(shù)量,而無需按比例增加計算量
- 實時將輸入路由到專門網(wǎng)絡(luò)
- 由于條件計算,參數(shù)效率更高
- 在專門的領(lǐng)域-任務(wù)上表現(xiàn)更好
- 對于新穎輸入具有優(yōu)雅降級(Graceful degradation)能力
- 更擅長多領(lǐng)域知識
- 訓(xùn)練時減少災(zāi)難性遺忘(Catastrophic Forgetting)
- 領(lǐng)域平衡的計算資源
MoE的頂級示例:
- Mixtral AI:一個采用稀疏專家混合架構(gòu)的開源模型。
- Switch Transformer(Google):最早的 MoE 架構(gòu)之一。
- GLaM(Google):谷歌在 MoE 架構(gòu)上構(gòu)建的擁有1.2萬億參數(shù)的語言模型。
- Gemini Ultra(Google):采用基于 MoE 的方法來提升性能。
MoE的用例:
考慮一個需要 AI 系統(tǒng)能夠處理和管理從客戶服務(wù)到技術(shù)文檔再到創(chuàng)意營銷等一切事務(wù)的企業(yè)。MoE 模型最擅長這種靈活性,因為它們使得不同的“專家”能夠根據(jù)所執(zhí)行的工作被激活。
5.VLMs:視覺語言模型(Vision Language Models)
用最簡單的話說,VLMs 是視覺與語言之間的橋梁。VLM 具有理解圖像并使用自然語言傳達(dá)相關(guān)信息的能力,本質(zhì)上賦予 AI 系統(tǒng)“看見”并“討論”所見內(nèi)容的能力。
VLMs的架構(gòu):
VLMs 通常為視覺和語言流實現(xiàn)雙流架構(gòu):
- 視覺編碼器(Visual Encoder):通常是視覺變換器(Vision Transformer, ViT)或卷積神經(jīng)網(wǎng)絡(luò)(CNN),將圖像分割成小塊(Patches)并進(jìn)行嵌入(Embedding)。
- 語言編碼器-解碼器(Language Encoder-Decoder):通常是基于變換器的語言模型,接收文本輸入并輸出文本。
- 跨模態(tài)融合機制(Cross-Modal Fusion Mechanism):此機制通過以下方式連接視覺和語言流:
A.早期融合(Early Fusion):將視覺特征投影到語言嵌入空間。
B.晚期融合(Late Fusion):分別處理,然后在更深層通過注意力連接。
C.交錯融合(Interleaved Fusion):在整個網(wǎng)絡(luò)中設(shè)置多個交互點。
D.聯(lián)合嵌入空間(Joint Embedding Space):一個統(tǒng)一的表示空間,視覺概念和文本概念被映射到可比較的向量。
預(yù)訓(xùn)練通常采用多目標(biāo)訓(xùn)練機制,包括圖像-文本對比學(xué)習(xí)、帶視覺上下文的掩碼語言建模、視覺問答和圖像描述生成。這種方法培養(yǎng)了能夠在多種模態(tài)之間進(jìn)行靈活推理的模型。
VLMs的關(guān)鍵特性:
- 解析和整合視覺與文本信息
- 圖像理解和細(xì)粒度描述能力
- 視覺問答和推理
- 場景解讀,包括物體和關(guān)系識別
- 關(guān)聯(lián)視覺和文本概念的跨模態(tài)推理
- 基于視覺輸入的文本生成
- 關(guān)于圖像內(nèi)容的空間推理
- 理解視覺隱喻和文化參照
VLMs的頂級示例:
- GPT-4(OpenAI):支持視覺功能的 GPT-4 版本,可以分析和討論圖像。
- Claude 3 Sonnet/Haiku(Anthropic):具有強大視覺推理能力的模型。
- Gemini Pro Vision(Google):在文本和圖像方面具有先進(jìn)的多模態(tài)能力。
- DALLE-3 & Midjourney:雖然主要以圖像生成聞名,但也包含了視覺理解組件。
VLMs的用例:
想象一位皮膚科醫(yī)生上傳一張皮膚狀況的圖像,AI 立即提供帶有推理的潛在診斷。或者一位游客將手機對準(zhǔn)一個地標(biāo),即時獲取其歷史意義和建筑細(xì)節(jié)。
6.SLMs:小型語言模型(Small Language Models)
人們將注意力給予越來越大的模型,但我們通常忘記了小型語言模型(SLMs) 涵蓋了一個同樣重要的趨勢:設(shè)計用于在無法訪問云端的個人設(shè)備上高效工作的 AI 系統(tǒng)。
SLMs的架構(gòu):
SLMs 開發(fā)了針對計算效率優(yōu)化的專門技術(shù):
- 高效注意力機制(Efficient Attention Mechanisms):替代標(biāo)準(zhǔn)自注意力的系統(tǒng)(標(biāo)準(zhǔn)自注意力復(fù)雜度為平方級 O(n2)),包括:
A.線性注意力(Linear attention):通過核近似將復(fù)雜度降低到 O(n)。
B.局部注意力(Local attention):僅在局部窗口內(nèi)進(jìn)行注意力計算,而不是在整個序列上。
- 狀態(tài)空間模型(State Space Models):另一種具有線性復(fù)雜度的序列建模方法。
- 參數(shù)高效變換器(Parameter Efficient Transformers):減少參數(shù)數(shù)量的技術(shù)包括:
A.低秩分解(Low-Rank Factorization):將權(quán)重矩陣分解為較小矩陣的乘積。
B.參數(shù)共享(Parameter Sharing):跨層重用權(quán)重。
C.深度可分離卷積(Depth-wise Separable Convolutions):用更高效的層替換密集層(dense layers)。
- 量化技術(shù)(Quantization Techniques):降低權(quán)重和激活值的數(shù)值精度,通過訓(xùn)練后量化、量化感知訓(xùn)練或混合精度方法實現(xiàn)。
- 知識蒸餾(Knowledge Distillation):通過基于響應(yīng)的、基于特征的或基于關(guān)系的蒸餾模型,轉(zhuǎn)移封裝在大型模型中的知識。
所有這些創(chuàng)新使得一個 1-100 億參數(shù)的模型能夠在消費級設(shè)備上運行,其性能接近更大的云端托管模型。
SLMs的關(guān)鍵特性:
- 執(zhí)行完全在應(yīng)用程序內(nèi)進(jìn)行,無需云端依賴或連接
- 增強數(shù)據(jù)隱私,因為數(shù)據(jù)永遠(yuǎn)不會從設(shè)備卸載
- 由于沒有網(wǎng)絡(luò)往返,能夠提供非??焖俚捻憫?yīng)
- 節(jié)能且對電池友好
- 完全離線操作,無需檢查遠(yuǎn)程服務(wù)器,對于高度安全或遠(yuǎn)程環(huán)境特別有用
- 更便宜,無 API 使用費
- 可針對特定設(shè)備或應(yīng)用進(jìn)行升級
- 針對特定領(lǐng)域或任務(wù)進(jìn)行針對性優(yōu)化
SLMs的頂級示例:
- Phi-3 Mini(Microsoft):一個 38 億參數(shù)的模型,在其規(guī)模上表現(xiàn)非常出色。
- Gemma(Google):一個旨在進(jìn)行設(shè)備端部署的輕量級開源模型系列。
- Llama 3 8B(Meta):Meta 的 Llama 家族中更小的變體,旨在高效部署。
- MobileBERT(Google):專為移動設(shè)備定制,同時仍保持類似 BERT 的性能。
SLMs的用例:
SLMs 可以真正幫助那些幾乎沒有任何連接但需要可靠 AI 支持的人。注重隱私的客戶可以選擇將不必要的私人數(shù)據(jù)保留在本地。打算在資源可能受限的環(huán)境中為應(yīng)用程序提供強大 AI 功能的開發(fā)者可以隨時利用它。
7、MLMs:掩碼語言模型(Masked Language Models)
掩碼語言模型采用一種不同尋常的語言理解方式:它們通過完成填空練習(xí)來學(xué)習(xí),在訓(xùn)練過程中隨機“掩碼”掉一些詞,使得模型必須從周圍的上下文中找出那個缺失的詞元。
MLMs的架構(gòu):
MLM 通過雙向架構(gòu)以實現(xiàn)整體上下文理解:
- 僅編碼器變換器(Encoder-only Transformer):與嚴(yán)格從左到右處理文本的基于解碼器(decoder-based)的模型不同,MLMs 通過編碼器塊(encoder blocks)雙向關(guān)注整個上下文。
- 掩碼自注意力機制(Masked Self-Attention Mechanism):每個詞元都可以通過縮放點積注意力(scaled dot-product attention)關(guān)注序列中的所有其他詞元,無需應(yīng)用任何因果掩碼(causal mask)。
- 詞元嵌入、位置嵌入和段落嵌入(Token, Position, and Segment Embeddings):這些嵌入組合形成包含內(nèi)容和結(jié)構(gòu)信息的輸入表示。
預(yù)訓(xùn)練目標(biāo)通常包括:
- 掩碼語言建模(Masked Language Modelling):隨機詞元被替換為[MASK]詞元,然后模型根據(jù)雙向上下文預(yù)測原始詞元。
- 下一句預(yù)測(Next Sentence Prediction):判斷兩個段落是否在原始文本中相互跟隨,不過像 RoBERTa 這樣的更新變體移除了此目標(biāo)。
這種架構(gòu)產(chǎn)生的是詞元的上下文相關(guān)表示,而不是下一個詞元預(yù)測?;诖?,MLMs 更傾向于用于理解任務(wù)而非生成任務(wù)。
MLMs的關(guān)鍵特性:
- 雙向建模利用更廣泛的上下文增強理解
- 更擅長語義分析和分類
- 強大的實體識別和關(guān)系抽取能力
- 使用更少樣本進(jìn)行表示學(xué)習(xí)
- 在結(jié)構(gòu)化抽取任務(wù)上達(dá)到最先進(jìn)水平
- 向下游任務(wù)的可遷移性強
- 處理一詞多義的上下文詞表示
- 易于針對專業(yè)領(lǐng)域進(jìn)行微調(diào)
MLMs的頂級示例:
- BERT(Google):第一個帶來 NLP 范式轉(zhuǎn)變的雙向編碼器模型
- RoBERTa(Meta):采用更好訓(xùn)練方法進(jìn)行魯棒優(yōu)化的 BERT
- DeBERTa(Microsoft):具有解耦注意力的增強版 BERT
- ALBERT(Google):采用參數(shù)高效技術(shù)的輕量級 BERT 平臺
MLMs的用例:
想象一位律師必須從數(shù)千份合同中提取某些條款。MLMs 非常擅長此類有針對性的信息提取,有足夠的上下文來識別相關(guān)部分,即使它們的描述方式截然不同。
8.SAMs:分割任意模型(Segment Anything Models)
分割任意模型(SAM) 是計算機視覺領(lǐng)域的一項專業(yè)技術(shù),用于以近乎完美的精度從圖像中識別和分離對象。
SAM的架構(gòu):
SAM 的架構(gòu)是多組件的,用于圖像分割:
- 圖像編碼器(Image encoder): 這是一個視覺變換器(Vision Transformer, ViT)主干網(wǎng)絡(luò),對輸入圖像進(jìn)行編碼以產(chǎn)生密集的特征表示。SAM 使用 VIT-H 變體,包含 32 個變換器塊,每塊有 16 個注意力頭。
- 提示編碼器(Prompt Encoder): 處理各種類型的用戶輸入,例如:
A.點提示(Point Prompts): 帶有背景指示符的空間坐標(biāo)。
B.框提示(Box Prompts): 兩點坐標(biāo)。
C.文本提示(Text Prompts): 通過文本編碼器處理。
D.掩碼提示(Mask Prompts): 編碼為密集的空間特征。
- 掩碼解碼器(Mask Decoder): 一個結(jié)合圖像和提示嵌入以產(chǎn)生掩碼預(yù)測的變換器解碼器,由交叉注意力層(cross-attention layers)、自注意力層(self-attention layers)和一個 MLP 投影頭組成。
訓(xùn)練包括三個階段:在1100萬個掩碼上的監(jiān)督訓(xùn)練、模型蒸餾和針對特定提示的微調(diào)。這種訓(xùn)練可以實現(xiàn)對未見過的對象類別和領(lǐng)域的零樣本遷移,從而在其他分割任務(wù)中實現(xiàn)廣泛用途。
SAM的關(guān)鍵特性:
- 零樣本遷移到訓(xùn)練中從未見過的新對象和類別
- 靈活的提示類型,包括點、框和文本描述
- 在超高分辨率下實現(xiàn)像素級完美分割
- 對各類圖像具有領(lǐng)域無關(guān)的行為
- 多對象分割,了解對象之間的關(guān)系
- 通過提供多個正確分割來處理歧義
- 可作為組件集成到更大的下游視覺系統(tǒng)中
SAM的頂級示例:
- Segment Anything(Meta): Meta Research 的原始模型。
- MobileSAM: 為移動設(shè)備優(yōu)化的輕量級變體。
- HQ-SAM: 具有更好邊緣檢測的更高質(zhì)量變體。
- SAM-Med2D: 用于醫(yī)療成像的醫(yī)學(xué)適配版本。
SAM的用例:
照片編輯者可以使用 SAM 以手動需要數(shù)分鐘或數(shù)小時才能達(dá)到的精度即時將主體與背景分離。另一方面,醫(yī)生可以使用 SAM 的變體在診斷影像中勾畫解剖結(jié)構(gòu)。
你應(yīng)該選擇哪種模型?
模型的選擇完全取決于你的需求:
模型類型 | 最佳用例 | 計算要求 | 部署選項 | 關(guān)鍵優(yōu)勢 | 限制條件 |
LLM | 文本生成、客戶服務(wù)、內(nèi)容創(chuàng)作 | 非常高 | 云端、企業(yè)服務(wù)器 | 多功能語言能力、通用知識 | 資源密集、可能產(chǎn)生幻覺 |
LCM | 研究、教育、知識組織 | 高 | 云端、專用硬件 | 概念理解、知識連接 | 仍是新興技術(shù)、實現(xiàn)有限 |
LAM | 自動化、工作流執(zhí)行、自主智能體 | 高 | 云端(帶API訪問) | 動作執(zhí)行、工具使用、自動化 | 設(shè)置復(fù)雜、可能不可預(yù)測 |
MoE | 多領(lǐng)域應(yīng)用、專業(yè)知識 | 中-高 | 云端、分布式系統(tǒng) | 規(guī)?;矢?、特定領(lǐng)域知識 | 訓(xùn)練復(fù)雜、路由開銷 |
VLM | 圖像分析、可訪問性、視覺搜索 | 高 | 云端、高端設(shè)備 | 多模態(tài)理解、視覺上下文 | 實時使用需要大量計算 |
SLM | 移動應(yīng)用、注重隱私的用途、離線使用 | 低 | 邊緣設(shè)備、移動端、瀏覽器 | 隱私、離線能力、可訪問性 | 與更大模型相比能力有限 |
MLM | 信息提取、分類、情感分析 | 中 | 云端、企業(yè)部署 | 上下文理解、針對性分析 | 不太適合開放式生成 |
SAM | 圖像編輯、醫(yī)學(xué)成像、物體檢測 | 中-高 | 云端、GPU工作站 | 精確的視覺分割、交互式使用 | 專精于分割而非通用視覺任務(wù) |
結(jié)論
專業(yè)AI模型代表了各項改進(jìn)之間的新成果。也就是說,機器能夠越來越像人類一樣理解、推理、創(chuàng)造和行動。然而,該領(lǐng)域最令人興奮的可能不是任何一種模型類型的承諾,而是當(dāng)這些類型開始融合時將會出現(xiàn)什么。這樣的系統(tǒng)將整合 LCMs 的概念理解能力、LAMs 的行動能力、MOEs 的高效選擇能力以及 VLMs 的視覺理解能力,所有這些似乎都可以通過 SLM 技術(shù)在本地設(shè)備上運行。
問題不在于這是否會改變我們的生活,而在于我們將如何利用這些技術(shù)來解決最大的挑戰(zhàn)。工具已經(jīng)在這里,可能性是無限的,未來取決于它們的應(yīng)用。
譯者介紹
涂承燁,51CTO社區(qū)編輯,具有15年以上的開發(fā)、項目管理、咨詢設(shè)計等經(jīng)驗,獲得信息系統(tǒng)項目管理師、信息系統(tǒng)監(jiān)理師、PMP,CSPM-2等認(rèn)證。
原文標(biāo)題:Top 8 Specialized AI Models,作者:Riya Bansal