IT技術(shù)人必知的八大專業(yè)AI模型

作者：涂承燁 2025-06-04 08:31:48

本文將介紹八種正在重塑數(shù)字格局并可能塑造我們未來的專業(yè)AI模型。

譯者 | 涂承燁

審校 | 重樓

不到十年前，能與計(jì)算機(jī)進(jìn)行有意義的對(duì)話的想法還只是科幻小說。但今天，數(shù)以百萬計(jì)的人與AI助手聊天，根據(jù)文本描述創(chuàng)作令人驚嘆的藝術(shù)作品，并每天使用這些AI工具/系統(tǒng)來理解圖像和執(zhí)行高級(jí)任務(wù)。這一進(jìn)步由許多專業(yè)AI模型驅(qū)動(dòng)，每個(gè)模型都有其獨(dú)特的功能和應(yīng)用。本文將介紹八種正在重塑數(shù)字格局并可能塑造我們未來的專業(yè)AI模型。

1.LLMs：大型語言模型(Large Language Models)

還記得科幻電影里人類過去常常與計(jì)算機(jī)正常交談的情景嗎？大型語言模型創(chuàng)造了一種虛構(gòu)已成為現(xiàn)實(shí)的氛圍。這些模型理解并生成人類語言，構(gòu)成了現(xiàn)代AI助手的支柱。

LLMs的架構(gòu)：

LLMs本質(zhì)上建立在變換器（Transformer）之上，變換器由堆疊的編碼器和/或解碼器塊組成。典型的實(shí)現(xiàn)包括使用以下組件：

多頭注意力層(Multi-Head Attention Layers)：不同的注意力層允許模型同時(shí)關(guān)注輸入的各個(gè)部分，每層計(jì)算 Q、K、V 矩陣。
前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Neural Networks)：當(dāng)這些網(wǎng)絡(luò)接收注意力輸出時(shí)，它們實(shí)現(xiàn)兩個(gè)線性變換，中間有一個(gè)非線性激活函數(shù)，通常是 ReLU 或 GELU。
殘差連接與層歸一化(Residual Connections and Layer Normalization)：通過允許梯度在深度網(wǎng)絡(luò)中流動(dòng)并通過歸一化網(wǎng)絡(luò)激活來使訓(xùn)練穩(wěn)定。
位置編碼(Positional Encoding)：當(dāng)變換器并行處理詞元（token）時(shí)，它使用正弦或?qū)W習(xí)得到的位置嵌入來注入位置信息。
多階段訓(xùn)練(Multi-Phase Training)：在精選數(shù)據(jù)集上進(jìn)行微調(diào)之前的預(yù)訓(xùn)練，隨后進(jìn)行對(duì)齊（alignment），其中人類反饋強(qiáng)化學(xué)習(xí)(RLHF)是方法之一。

LLMs的關(guān)鍵特性：

自然語言理解與生成
在較長(zhǎng)詞元跨度上的上下文感知
從海量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)知識(shí)表示
零樣本學(xué)習(xí)（無需任何特定訓(xùn)練即可執(zhí)行任務(wù)的能力）
上下文學(xué)習(xí)（in-context learning），即通過示例適應(yīng)新格式的能力
遵循指令進(jìn)行復(fù)雜的多步推理
用于解決問題的思維鏈（Chain-of-thought）推理能力

LLMs的示例：

GPT-4(OpenAI)：最具先進(jìn)性的語言模型之一，具有多模態(tài)能力，驅(qū)動(dòng)著 ChatGPT 和數(shù)千個(gè)應(yīng)用程序。
Claude(Anthropic)：以產(chǎn)生深思熟慮、細(xì)致入微的輸出和良好推理而聞名。
Llama 2 & 3(Meta)：強(qiáng)大的開源模型，將AI帶給大眾。
Gemini(Google)：谷歌的最先進(jìn)模型，具有極強(qiáng)的推理和多模態(tài)能力。

LLMs的用例：

想象你是一個(gè)遭遇寫作瓶頸的內(nèi)容創(chuàng)作者。LLMs可以生成想法、創(chuàng)建文章大綱或?yàn)槟闫鸩輧?nèi)容供你潤(rùn)色。設(shè)想你是一個(gè)遇到編碼問題的開發(fā)者；這些模型可以調(diào)試你的代碼、提出解決方案，甚至用淺顯的英語解釋復(fù)雜的編程概念或術(shù)語。

2.LCMs：大型概念模型(Large Concept Models)

LLMs 專注于語言，而 LCMs 則側(cè)重于理解思想之間更深層次的概念關(guān)系。你可以把它們看作是掌握概念而不僅僅是單詞的模型。

LCMs的架構(gòu)：

LCMs 在變換器架構(gòu)基礎(chǔ)上構(gòu)建，增加了用于概念理解的專業(yè)組件，通常包括：

增強(qiáng)的交叉注意力機(jī)制(Enhanced Cross-Attention Mechanisms)： 將文本詞元連接到概念表示，并將單詞連接到潛在概念。
知識(shí)圖譜集成(Knowledge Graph Integration)：直接在架構(gòu)中或通過預(yù)訓(xùn)練目標(biāo)間接集成結(jié)構(gòu)化知識(shí)。
分層編碼層(Hierarchical Encoding Layers)：這些層級(jí)在不同抽象層次上捕獲概念，從具體實(shí)例到抽象類別。
多跳推理模塊(Multi-Hop Reasoning Modules)：允許多步跟蹤概念關(guān)系鏈。

預(yù)訓(xùn)練通常針對(duì)概念預(yù)測(cè)、概念消歧、層次關(guān)系建模以及從抽象到具體的映射。此外，許多實(shí)現(xiàn)采用專門的注意力機(jī)制，該機(jī)制為與概念相關(guān)的詞元分配與一般上下文相關(guān)的詞元不同的權(quán)重。

LCMs的關(guān)鍵特性：

將抽象思想概念化，超越語言的表層
在邏輯和因果推理方面表現(xiàn)出色
改進(jìn)的常識(shí)推理和推斷能力
連接不同領(lǐng)域的相關(guān)概念
對(duì)層次結(jié)構(gòu)的語義概念化
概念消歧和實(shí)體鏈接
類比與學(xué)習(xí)遷移
從多樣信息源組合知識(shí)

LCMs的頂級(jí)示例：

Gato(Deepmind)：一個(gè)通用智能體，使用一個(gè)簡(jiǎn)單模型執(zhí)行數(shù)百項(xiàng)任務(wù)。
悟道 2.0(Wu Dao 2.0, 北京智源人工智能研究院)：一個(gè)用于概念理解的超大規(guī)模多模態(tài) AI 系統(tǒng)。
Minerva(Google)：專長(zhǎng)于數(shù)學(xué)和科學(xué)推理。
Flamingo(DeepMind)：通過概念框架橋接視覺和語言理解。

LCMs的用例：

對(duì)于試圖將來自不同科學(xué)論文的見解整合起來的研究員，LCM 將揭示那些原本隱藏的概念聯(lián)系。教育工作者可以與 LCMs 合作設(shè)計(jì)教學(xué)材料，以增強(qiáng)概念學(xué)習(xí)，而不是直接記憶。

3.LAMs：大型動(dòng)作模型(Large Action Models)

大型動(dòng)作模型是 AI 進(jìn)化的下一階段，這些模型不僅能理解或生成內(nèi)容，還能在數(shù)字環(huán)境中采取有意義的有向動(dòng)作。它們?cè)诶斫馀c行動(dòng)之間架起橋梁。

LAMs的架構(gòu)：

LAMs 通過多組件設(shè)計(jì)將語言理解與動(dòng)作執(zhí)行結(jié)合起來：

語言理解核心(Language Understanding Core)：基于變換器的LLM 用于處理指令并生成推理步驟。
規(guī)劃模塊(Planning Module)：分層規(guī)劃系統(tǒng)，將高級(jí)目標(biāo)分解為可操作的步驟，通常使用蒙特卡洛樹搜索（Monte Carlo Tree Search）或分層強(qiáng)化學(xué)習(xí)（hierarchical reinforcement learning）等技術(shù)。
工具使用接口(Tool Use Interface)：用于外部工具交互的 API 層，包括發(fā)現(xiàn)機(jī)制、參數(shù)綁定、執(zhí)行監(jiān)控和結(jié)果解析。
記憶系統(tǒng)(Memory Systems)：同時(shí)使用短期工作記憶和長(zhǎng)期情景記憶來維持跨動(dòng)作的上下文。

計(jì)算流程經(jīng)歷指令生成與解釋、規(guī)劃、工具選擇、執(zhí)行、觀察和計(jì)劃調(diào)整的循環(huán)。訓(xùn)練通常結(jié)合使用監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的方法。另一個(gè)關(guān)鍵特征是存在一個(gè)“反思機(jī)制（reflection mechanism）”，模型在其中判斷其動(dòng)作的效果并相應(yīng)地調(diào)整所應(yīng)用的策略。

LAMs的關(guān)鍵特性：

根據(jù)以自然語言形式傳遞的指令采取行動(dòng)
多步驟規(guī)劃以實(shí)現(xiàn)需要如此的目標(biāo)
無需人工干預(yù)即可使用工具和進(jìn)行 API 交互
通過演示學(xué)習(xí)而非編程
從環(huán)境中接收反饋并自我適應(yīng)
單智能體決策，安全第一
狀態(tài)跟蹤和跨越順序交互
自我糾正和錯(cuò)誤恢復(fù)

LAMs的頂級(jí)示例：

AutoGPT：一個(gè)用于任務(wù)執(zhí)行的實(shí)驗(yàn)性自主 GPT-4。
帶工具的 Claude Opus：通過函數(shù)調(diào)用實(shí)現(xiàn)復(fù)雜任務(wù)的高級(jí)自主性。
LangChain Agents：用于創(chuàng)建面向動(dòng)作的 AI 系統(tǒng)的框架。
BabyAGI：自主任務(wù)管理和執(zhí)行的演示。

LAMs的用例：

想象要求一個(gè) AI “研究本地承包商，匯編他們的評(píng)分，并為我們的廚房改造項(xiàng)目安排與前三名的面試”。LAMs 可以執(zhí)行這種需要理解與行動(dòng)相結(jié)合的多步驟復(fù)雜任務(wù)。

4.MoEs：專家混合模型(Mixture of Experts)

考慮一組專家而不是一個(gè)單一的通才，這就是MoE設(shè)計(jì)所暗示的。這些模型由多個(gè)專家神經(jīng)網(wǎng)絡(luò)組成，每個(gè)網(wǎng)絡(luò)都經(jīng)過訓(xùn)練以處理特定的任務(wù)或知識(shí)領(lǐng)域。

MoE的架構(gòu)：

MoE 實(shí)現(xiàn)條件計(jì)算（Conditional Computation），使得不同的輸入激活不同的專門子網(wǎng)絡(luò)：

門控網(wǎng)絡(luò)(Gating Network)：將輸入發(fā)送到適當(dāng)?shù)膶＜易泳W(wǎng)絡(luò)，決定模型內(nèi)的哪些“記憶”應(yīng)處理每個(gè)詞元或序列。
專家網(wǎng)絡(luò)(Expert Networks)：多路、專門的神經(jīng)子網(wǎng)絡(luò)（專家），通常是嵌入變換器塊中的前饋網(wǎng)絡(luò)。
稀疏激活(Sparse Activation)：每個(gè)輸入只激活一小部分參數(shù)。這是通過 top-k 路由（top-k routing）實(shí)現(xiàn)的，其中只允許得分最高的前k個(gè)專家處理每個(gè)詞元。

現(xiàn)代實(shí)現(xiàn)用變換器中的 MoE 層替代標(biāo)準(zhǔn)的 FFN（前饋網(wǎng)絡(luò)）層，保持注意力機(jī)制為密集的。訓(xùn)練涉及負(fù)載平衡（Load Balancing）、損失和專家丟棄（Expert Dropout）等技術(shù)，以避免病態(tài)路由模式。

MoE的關(guān)鍵特性：

高效擴(kuò)展到巨大參數(shù)數(shù)量，而無需按比例增加計(jì)算量
實(shí)時(shí)將輸入路由到專門網(wǎng)絡(luò)
由于條件計(jì)算，參數(shù)效率更高
在專門的領(lǐng)域-任務(wù)上表現(xiàn)更好
對(duì)于新穎輸入具有優(yōu)雅降級(jí)（Graceful degradation）能力
更擅長(zhǎng)多領(lǐng)域知識(shí)
訓(xùn)練時(shí)減少災(zāi)難性遺忘（Catastrophic Forgetting）
領(lǐng)域平衡的計(jì)算資源

MoE的頂級(jí)示例：

Mixtral AI：一個(gè)采用稀疏專家混合架構(gòu)的開源模型。
Switch Transformer(Google)：最早的 MoE 架構(gòu)之一。
GLaM(Google)：谷歌在 MoE 架構(gòu)上構(gòu)建的擁有1.2萬億參數(shù)的語言模型。
Gemini Ultra(Google)：采用基于 MoE 的方法來提升性能。

MoE的用例：

考慮一個(gè)需要 AI 系統(tǒng)能夠處理和管理從客戶服務(wù)到技術(shù)文檔再到創(chuàng)意營銷等一切事務(wù)的企業(yè)。MoE 模型最擅長(zhǎng)這種靈活性，因?yàn)樗鼈兪沟貌煌摹皩＜摇蹦軌蚋鶕?jù)所執(zhí)行的工作被激活。

5.VLMs：視覺語言模型(Vision Language Models)

用最簡(jiǎn)單的話說，VLMs 是視覺與語言之間的橋梁。VLM 具有理解圖像并使用自然語言傳達(dá)相關(guān)信息的能力，本質(zhì)上賦予 AI 系統(tǒng)“看見”并“討論”所見內(nèi)容的能力。

VLMs的架構(gòu)：

VLMs 通常為視覺和語言流實(shí)現(xiàn)雙流架構(gòu)：

視覺編碼器(Visual Encoder)：通常是視覺變換器（Vision Transformer, ViT）或卷積神經(jīng)網(wǎng)絡(luò)（CNN），將圖像分割成小塊（Patches）并進(jìn)行嵌入（Embedding）。
語言編碼器-解碼器(Language Encoder-Decoder)：通常是基于變換器的語言模型，接收文本輸入并輸出文本。
跨模態(tài)融合機(jī)制(Cross-Modal Fusion Mechanism)：此機(jī)制通過以下方式連接視覺和語言流：

A.早期融合(Early Fusion)：將視覺特征投影到語言嵌入空間。

B.晚期融合(Late Fusion)：分別處理，然后在更深層通過注意力連接。

C.交錯(cuò)融合(Interleaved Fusion)：在整個(gè)網(wǎng)絡(luò)中設(shè)置多個(gè)交互點(diǎn)。

D.聯(lián)合嵌入空間(Joint Embedding Space)：一個(gè)統(tǒng)一的表示空間，視覺概念和文本概念被映射到可比較的向量。

預(yù)訓(xùn)練通常采用多目標(biāo)訓(xùn)練機(jī)制，包括圖像-文本對(duì)比學(xué)習(xí)、帶視覺上下文的掩碼語言建模、視覺問答和圖像描述生成。這種方法培養(yǎng)了能夠在多種模態(tài)之間進(jìn)行靈活推理的模型。

VLMs的關(guān)鍵特性：

解析和整合視覺與文本信息
圖像理解和細(xì)粒度描述能力
視覺問答和推理
場(chǎng)景解讀，包括物體和關(guān)系識(shí)別
關(guān)聯(lián)視覺和文本概念的跨模態(tài)推理
基于視覺輸入的文本生成
關(guān)于圖像內(nèi)容的空間推理
理解視覺隱喻和文化參照

VLMs的頂級(jí)示例：

GPT-4(OpenAI)：支持視覺功能的 GPT-4 版本，可以分析和討論圖像。
Claude 3 Sonnet/Haiku(Anthropic)：具有強(qiáng)大視覺推理能力的模型。
Gemini Pro Vision(Google)：在文本和圖像方面具有先進(jìn)的多模態(tài)能力。
DALLE-3 & Midjourney：雖然主要以圖像生成聞名，但也包含了視覺理解組件。

VLMs的用例：

想象一位皮膚科醫(yī)生上傳一張皮膚狀況的圖像，AI 立即提供帶有推理的潛在診斷?；蛘咭晃挥慰蛯⑹謾C(jī)對(duì)準(zhǔn)一個(gè)地標(biāo)，即時(shí)獲取其歷史意義和建筑細(xì)節(jié)。

6.SLMs：小型語言模型(Small Language Models)

人們將注意力給予越來越大的模型，但我們通常忘記了小型語言模型(SLMs) 涵蓋了一個(gè)同樣重要的趨勢(shì)：設(shè)計(jì)用于在無法訪問云端的個(gè)人設(shè)備上高效工作的 AI 系統(tǒng)。

SLMs的架構(gòu)：

SLMs 開發(fā)了針對(duì)計(jì)算效率優(yōu)化的專門技術(shù)：

高效注意力機(jī)制(Efficient Attention Mechanisms)：替代標(biāo)準(zhǔn)自注意力的系統(tǒng)（標(biāo)準(zhǔn)自注意力復(fù)雜度為平方級(jí) O(n2)），包括：

A.線性注意力(Linear attention)：通過核近似將復(fù)雜度降低到 O(n)。

B.局部注意力(Local attention)：僅在局部窗口內(nèi)進(jìn)行注意力計(jì)算，而不是在整個(gè)序列上。

狀態(tài)空間模型(State Space Models)：另一種具有線性復(fù)雜度的序列建模方法。
參數(shù)高效變換器(Parameter Efficient Transformers)：減少參數(shù)數(shù)量的技術(shù)包括：

A.低秩分解(Low-Rank Factorization)：將權(quán)重矩陣分解為較小矩陣的乘積。

B.參數(shù)共享(Parameter Sharing)：跨層重用權(quán)重。

C.深度可分離卷積(Depth-wise Separable Convolutions)：用更高效的層替換密集層（dense layers）。

量化技術(shù)(Quantization Techniques)：降低權(quán)重和激活值的數(shù)值精度，通過訓(xùn)練后量化、量化感知訓(xùn)練或混合精度方法實(shí)現(xiàn)。
知識(shí)蒸餾(Knowledge Distillation)：通過基于響應(yīng)的、基于特征的或基于關(guān)系的蒸餾模型，轉(zhuǎn)移封裝在大型模型中的知識(shí)。

所有這些創(chuàng)新使得一個(gè) 1-100 億參數(shù)的模型能夠在消費(fèi)級(jí)設(shè)備上運(yùn)行，其性能接近更大的云端托管模型。

SLMs的關(guān)鍵特性：

執(zhí)行完全在應(yīng)用程序內(nèi)進(jìn)行，無需云端依賴或連接
增強(qiáng)數(shù)據(jù)隱私，因?yàn)閿?shù)據(jù)永遠(yuǎn)不會(huì)從設(shè)備卸載
由于沒有網(wǎng)絡(luò)往返，能夠提供非?？焖俚捻憫?yīng)
節(jié)能且對(duì)電池友好
完全離線操作，無需檢查遠(yuǎn)程服務(wù)器，對(duì)于高度安全或遠(yuǎn)程環(huán)境特別有用
更便宜，無 API 使用費(fèi)
可針對(duì)特定設(shè)備或應(yīng)用進(jìn)行升級(jí)
針對(duì)特定領(lǐng)域或任務(wù)進(jìn)行針對(duì)性優(yōu)化

SLMs的頂級(jí)示例：

Phi-3 Mini(Microsoft)：一個(gè) 38 億參數(shù)的模型，在其規(guī)模上表現(xiàn)非常出色。
Gemma(Google)：一個(gè)旨在進(jìn)行設(shè)備端部署的輕量級(jí)開源模型系列。
Llama 3 8B(Meta)：Meta 的 Llama 家族中更小的變體，旨在高效部署。
MobileBERT(Google)：專為移動(dòng)設(shè)備定制，同時(shí)仍保持類似 BERT 的性能。

SLMs的用例：

SLMs 可以真正幫助那些幾乎沒有任何連接但需要可靠 AI 支持的人。注重隱私的客戶可以選擇將不必要的私人數(shù)據(jù)保留在本地。打算在資源可能受限的環(huán)境中為應(yīng)用程序提供強(qiáng)大 AI 功能的開發(fā)者可以隨時(shí)利用它。

7、MLMs：掩碼語言模型(Masked Language Models)

掩碼語言模型采用一種不同尋常的語言理解方式：它們通過完成填空練習(xí)來學(xué)習(xí)，在訓(xùn)練過程中隨機(jī)“掩碼”掉一些詞，使得模型必須從周圍的上下文中找出那個(gè)缺失的詞元。

MLMs的架構(gòu)：

MLM 通過雙向架構(gòu)以實(shí)現(xiàn)整體上下文理解：

僅編碼器變換器(Encoder-only Transformer)：與嚴(yán)格從左到右處理文本的基于解碼器（decoder-based）的模型不同，MLMs 通過編碼器塊（encoder blocks）雙向關(guān)注整個(gè)上下文。
掩碼自注意力機(jī)制(Masked Self-Attention Mechanism)：每個(gè)詞元都可以通過縮放點(diǎn)積注意力（scaled dot-product attention）關(guān)注序列中的所有其他詞元，無需應(yīng)用任何因果掩碼（causal mask）。
詞元嵌入、位置嵌入和段落嵌入(Token, Position, and Segment Embeddings)：這些嵌入組合形成包含內(nèi)容和結(jié)構(gòu)信息的輸入表示。

預(yù)訓(xùn)練目標(biāo)通常包括：

掩碼語言建模(Masked Language Modelling)：隨機(jī)詞元被替換為[MASK]詞元，然后模型根據(jù)雙向上下文預(yù)測(cè)原始詞元。
下一句預(yù)測(cè)(Next Sentence Prediction)：判斷兩個(gè)段落是否在原始文本中相互跟隨，不過像 RoBERTa 這樣的更新變體移除了此目標(biāo)。

這種架構(gòu)產(chǎn)生的是詞元的上下文相關(guān)表示，而不是下一個(gè)詞元預(yù)測(cè)。基于此，MLMs 更傾向于用于理解任務(wù)而非生成任務(wù)。

MLMs的關(guān)鍵特性：

雙向建模利用更廣泛的上下文增強(qiáng)理解
更擅長(zhǎng)語義分析和分類
強(qiáng)大的實(shí)體識(shí)別和關(guān)系抽取能力
使用更少樣本進(jìn)行表示學(xué)習(xí)
在結(jié)構(gòu)化抽取任務(wù)上達(dá)到最先進(jìn)水平
向下游任務(wù)的可遷移性強(qiáng)
處理一詞多義的上下文詞表示
易于針對(duì)專業(yè)領(lǐng)域進(jìn)行微調(diào)

MLMs的頂級(jí)示例：

BERT(Google)：第一個(gè)帶來 NLP 范式轉(zhuǎn)變的雙向編碼器模型
RoBERTa(Meta)：采用更好訓(xùn)練方法進(jìn)行魯棒優(yōu)化的 BERT
DeBERTa(Microsoft)：具有解耦注意力的增強(qiáng)版 BERT
ALBERT(Google)：采用參數(shù)高效技術(shù)的輕量級(jí) BERT 平臺(tái)

MLMs的用例：

想象一位律師必須從數(shù)千份合同中提取某些條款。MLMs 非常擅長(zhǎng)此類有針對(duì)性的信息提取，有足夠的上下文來識(shí)別相關(guān)部分，即使它們的描述方式截然不同。

8.SAMs：分割任意模型(Segment Anything Models)

分割任意模型(SAM) 是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)專業(yè)技術(shù)，用于以近乎完美的精度從圖像中識(shí)別和分離對(duì)象。

SAM的架構(gòu)：

SAM 的架構(gòu)是多組件的，用于圖像分割：

圖像編碼器(Image encoder): 這是一個(gè)視覺變換器（Vision Transformer, ViT）主干網(wǎng)絡(luò)，對(duì)輸入圖像進(jìn)行編碼以產(chǎn)生密集的特征表示。SAM 使用 VIT-H 變體，包含 32 個(gè)變換器塊，每塊有 16 個(gè)注意力頭。
提示編碼器(Prompt Encoder): 處理各種類型的用戶輸入，例如：

A.點(diǎn)提示(Point Prompts): 帶有背景指示符的空間坐標(biāo)。

B.框提示(Box Prompts): 兩點(diǎn)坐標(biāo)。

C.文本提示(Text Prompts): 通過文本編碼器處理。

D.掩碼提示(Mask Prompts): 編碼為密集的空間特征。

掩碼解碼器(Mask Decoder): 一個(gè)結(jié)合圖像和提示嵌入以產(chǎn)生掩碼預(yù)測(cè)的變換器解碼器，由交叉注意力層（cross-attention layers）、自注意力層（self-attention layers）和一個(gè) MLP 投影頭組成。

訓(xùn)練包括三個(gè)階段：在1100萬個(gè)掩碼上的監(jiān)督訓(xùn)練、模型蒸餾和針對(duì)特定提示的微調(diào)。這種訓(xùn)練可以實(shí)現(xiàn)對(duì)未見過的對(duì)象類別和領(lǐng)域的零樣本遷移，從而在其他分割任務(wù)中實(shí)現(xiàn)廣泛用途。

SAM的關(guān)鍵特性：

零樣本遷移到訓(xùn)練中從未見過的新對(duì)象和類別
靈活的提示類型，包括點(diǎn)、框和文本描述
在超高分辨率下實(shí)現(xiàn)像素級(jí)完美分割
對(duì)各類圖像具有領(lǐng)域無關(guān)的行為
多對(duì)象分割，了解對(duì)象之間的關(guān)系
通過提供多個(gè)正確分割來處理歧義
可作為組件集成到更大的下游視覺系統(tǒng)中

SAM的頂級(jí)示例：

Segment Anything(Meta): Meta Research 的原始模型。
MobileSAM: 為移動(dòng)設(shè)備優(yōu)化的輕量級(jí)變體。
HQ-SAM: 具有更好邊緣檢測(cè)的更高質(zhì)量變體。
SAM-Med2D: 用于醫(yī)療成像的醫(yī)學(xué)適配版本。

SAM的用例：

照片編輯者可以使用 SAM 以手動(dòng)需要數(shù)分鐘或數(shù)小時(shí)才能達(dá)到的精度即時(shí)將主體與背景分離。另一方面，醫(yī)生可以使用 SAM 的變體在診斷影像中勾畫解剖結(jié)構(gòu)。

你應(yīng)該選擇哪種模型？

模型的選擇完全取決于你的需求：

模型類型	最佳用例	計(jì)算要求	部署選項(xiàng)	關(guān)鍵優(yōu)勢(shì)	限制條件
LLM	文本生成、客戶服務(wù)、內(nèi)容創(chuàng)作	非常高	云端、企業(yè)服務(wù)器	多功能語言能力、通用知識(shí)	資源密集、可能產(chǎn)生幻覺
LCM	研究、教育、知識(shí)組織	高	云端、專用硬件	概念理解、知識(shí)連接	仍是新興技術(shù)、實(shí)現(xiàn)有限
LAM	自動(dòng)化、工作流執(zhí)行、自主智能體	高	云端（帶API訪問）	動(dòng)作執(zhí)行、工具使用、自動(dòng)化	設(shè)置復(fù)雜、可能不可預(yù)測(cè)
MoE	多領(lǐng)域應(yīng)用、專業(yè)知識(shí)	中-高	云端、分布式系統(tǒng)	規(guī)模化效率高、特定領(lǐng)域知識(shí)	訓(xùn)練復(fù)雜、路由開銷
VLM	圖像分析、可訪問性、視覺搜索	高	云端、高端設(shè)備	多模態(tài)理解、視覺上下文	實(shí)時(shí)使用需要大量計(jì)算
SLM	移動(dòng)應(yīng)用、注重隱私的用途、離線使用	低	邊緣設(shè)備、移動(dòng)端、瀏覽器	隱私、離線能力、可訪問性	與更大模型相比能力有限
MLM	信息提取、分類、情感分析	中	云端、企業(yè)部署	上下文理解、針對(duì)性分析	不太適合開放式生成
SAM	圖像編輯、醫(yī)學(xué)成像、物體檢測(cè)	中-高	云端、GPU工作站	精確的視覺分割、交互式使用	專精于分割而非通用視覺任務(wù)

結(jié)論

專業(yè)AI模型代表了各項(xiàng)改進(jìn)之間的新成果。也就是說，機(jī)器能夠越來越像人類一樣理解、推理、創(chuàng)造和行動(dòng)。然而，該領(lǐng)域最令人興奮的可能不是任何一種模型類型的承諾，而是當(dāng)這些類型開始融合時(shí)將會(huì)出現(xiàn)什么。這樣的系統(tǒng)將整合 LCMs 的概念理解能力、LAMs 的行動(dòng)能力、MOEs 的高效選擇能力以及 VLMs 的視覺理解能力，所有這些似乎都可以通過 SLM 技術(shù)在本地設(shè)備上運(yùn)行。

問題不在于這是否會(huì)改變我們的生活，而在于我們將如何利用這些技術(shù)來解決最大的挑戰(zhàn)。工具已經(jīng)在這里，可能性是無限的，未來取決于它們的應(yīng)用。