偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

IT技術(shù)人必知的八大專業(yè)AI模型

譯文 精選
人工智能
本文將介紹八種正在重塑數(shù)字格局并可能塑造我們未來的專業(yè)AI模型。

譯者 | 涂承燁

審校 | 重樓

不到十年前,能與計算機進(jìn)行有意義的對話的想法還只是科幻小說。但今天,數(shù)以百萬計的人與AI助手聊天,根據(jù)文本描述創(chuàng)作令人驚嘆的藝術(shù)作品,并每天使用這些AI工具/系統(tǒng)來理解圖像和執(zhí)行高級任務(wù)。這一進(jìn)步由許多專業(yè)AI模型驅(qū)動,每個模型都有其獨特的功能和應(yīng)用。本文將介紹八種正在重塑數(shù)字格局并可能塑造我們未來的專業(yè)AI模型。

1.LLMs:大型語言模型(Large Language Models)

還記得科幻電影里人類過去常常與計算機正常交談的情景嗎?大型語言模型創(chuàng)造了一種虛構(gòu)已成為現(xiàn)實的氛圍。這些模型理解并生成人類語言,構(gòu)成了現(xiàn)代AI助手的支柱。

LLMs的架構(gòu):

LLMs本質(zhì)上建立在變換器(Transformer)之上,變換器由堆疊的編碼器和/或解碼器塊組成。典型的實現(xiàn)包括使用以下組件:

  • 多頭注意力層(Multi-Head Attention Layers):不同的注意力層允許模型同時關(guān)注輸入的各個部分,每層計算 Q、K、V 矩陣。
  • 前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Neural Networks):當(dāng)這些網(wǎng)絡(luò)接收注意力輸出時,它們實現(xiàn)兩個線性變換,中間有一個非線性激活函數(shù),通常是 ReLU 或 GELU。
  • 殘差連接與層歸一化(Residual Connections and Layer Normalization):通過允許梯度在深度網(wǎng)絡(luò)中流動并通過歸一化網(wǎng)絡(luò)激活來使訓(xùn)練穩(wěn)定。
  • 位置編碼(Positional Encoding):當(dāng)變換器并行處理詞元(token)時,它使用正弦或?qū)W習(xí)得到的位置嵌入來注入位置信息。
  • 多階段訓(xùn)練(Multi-Phase Training):在精選數(shù)據(jù)集上進(jìn)行微調(diào)之前的預(yù)訓(xùn)練,隨后進(jìn)行對齊(alignment),其中人類反饋強化學(xué)習(xí)(RLHF)是方法之一。

LLMs的關(guān)鍵特性:

  • 自然語言理解與生成
  • 在較長詞元跨度上的上下文感知
  • 從海量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)知識表示
  • 零樣本學(xué)習(xí)(無需任何特定訓(xùn)練即可執(zhí)行任務(wù)的能力)
  • 上下文學(xué)習(xí)(in-context learning),即通過示例適應(yīng)新格式的能力
  • 遵循指令進(jìn)行復(fù)雜的多步推理
  • 用于解決問題的思維鏈(Chain-of-thought)推理能力

LLMs的示例:

  • GPT-4(OpenAI):最具先進(jìn)性的語言模型之一,具有多模態(tài)能力,驅(qū)動著 ChatGPT 和數(shù)千個應(yīng)用程序。
  • Claude(Anthropic):以產(chǎn)生深思熟慮、細(xì)致入微的輸出和良好推理而聞名。
  • Llama 2 & 3(Meta):強大的開源模型,將AI帶給大眾。
  • Gemini(Google):谷歌的最先進(jìn)模型,具有極強的推理和多模態(tài)能力。

LLMs的用例:

想象你是一個遭遇寫作瓶頸的內(nèi)容創(chuàng)作者。LLMs可以生成想法、創(chuàng)建文章大綱或為你起草內(nèi)容供你潤色。設(shè)想你是一個遇到編碼問題的開發(fā)者;這些模型可以調(diào)試你的代碼、提出解決方案,甚至用淺顯的英語解釋復(fù)雜的編程概念或術(shù)語。

2.LCMs:大型概念模型(Large Concept Models)

LLMs 專注于語言,而 LCMs 則側(cè)重于理解思想之間更深層次的概念關(guān)系。你可以把它們看作是掌握概念而不僅僅是單詞的模型。

LCMs的架構(gòu):

LCMs 在變換器架構(gòu)基礎(chǔ)上構(gòu)建,增加了用于概念理解的專業(yè)組件,通常包括:

  • 增強的交叉注意力機制(Enhanced Cross-Attention Mechanisms): 將文本詞元連接到概念表示,并將單詞連接到潛在概念。
  • 知識圖譜集成(Knowledge Graph Integration):直接在架構(gòu)中或通過預(yù)訓(xùn)練目標(biāo)間接集成結(jié)構(gòu)化知識。
  • 分層編碼層(Hierarchical Encoding Layers):這些層級在不同抽象層次上捕獲概念,從具體實例到抽象類別。
  • 多跳推理模塊(Multi-Hop Reasoning Modules):允許多步跟蹤概念關(guān)系鏈。

預(yù)訓(xùn)練通常針對概念預(yù)測、概念消歧、層次關(guān)系建模以及從抽象到具體的映射。此外,許多實現(xiàn)采用專門的注意力機制,該機制為與概念相關(guān)的詞元分配與一般上下文相關(guān)的詞元不同的權(quán)重。

LCMs的關(guān)鍵特性:

  • 將抽象思想概念化,超越語言的表層
  • 在邏輯和因果推理方面表現(xiàn)出色
  • 改進(jìn)的常識推理和推斷能力
  • 連接不同領(lǐng)域的相關(guān)概念
  • 對層次結(jié)構(gòu)的語義概念化
  • 概念消歧和實體鏈接
  • 類比與學(xué)習(xí)遷移
  • 從多樣信息源組合知識

LCMs的頂級示例:

  • Gato(Deepmind):一個通用智能體,使用一個簡單模型執(zhí)行數(shù)百項任務(wù)。
  • 悟道 2.0(Wu Dao 2.0, 北京智源人工智能研究院):一個用于概念理解的超大規(guī)模多模態(tài) AI 系統(tǒng)。
  • Minerva(Google):專長于數(shù)學(xué)和科學(xué)推理。
  • Flamingo(DeepMind):通過概念框架橋接視覺和語言理解。

LCMs的用例:

對于試圖將來自不同科學(xué)論文的見解整合起來的研究員,LCM 將揭示那些原本隱藏的概念聯(lián)系。教育工作者可以與 LCMs 合作設(shè)計教學(xué)材料,以增強概念學(xué)習(xí),而不是直接記憶。

3.LAMs:大型動作模型(Large Action Models)

大型動作模型是 AI 進(jìn)化的下一階段,這些模型不僅能理解或生成內(nèi)容,還能在數(shù)字環(huán)境中采取有意義的有向動作。它們在理解與行動之間架起橋梁。

LAMs的架構(gòu):

LAMs 通過多組件設(shè)計將語言理解與動作執(zhí)行結(jié)合起來:

  • 語言理解核心(Language Understanding Core):基于變換器的LLM 用于處理指令并生成推理步驟。
  • 規(guī)劃模塊(Planning Module):分層規(guī)劃系統(tǒng),將高級目標(biāo)分解為可操作的步驟,通常使用蒙特卡洛樹搜索(Monte Carlo Tree Search)或分層強化學(xué)習(xí)(hierarchical reinforcement learning)等技術(shù)。
  • 工具使用接口(Tool Use Interface):用于外部工具交互的 API 層,包括發(fā)現(xiàn)機制、參數(shù)綁定、執(zhí)行監(jiān)控和結(jié)果解析。
  • 記憶系統(tǒng)(Memory Systems):同時使用短期工作記憶和長期情景記憶來維持跨動作的上下文。

計算流程經(jīng)歷指令生成與解釋、規(guī)劃、工具選擇、執(zhí)行、觀察和計劃調(diào)整的循環(huán)。訓(xùn)練通常結(jié)合使用監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)和模仿學(xué)習(xí)的方法。另一個關(guān)鍵特征是存在一個“反思機制(reflection mechanism)”,模型在其中判斷其動作的效果并相應(yīng)地調(diào)整所應(yīng)用的策略。

LAMs的關(guān)鍵特性:

  • 根據(jù)以自然語言形式傳遞的指令采取行動
  • 多步驟規(guī)劃以實現(xiàn)需要如此的目標(biāo)
  • 無需人工干預(yù)即可使用工具和進(jìn)行 API 交互
  • 通過演示學(xué)習(xí)而非編程
  • 從環(huán)境中接收反饋并自我適應(yīng)
  • 單智能體決策,安全第一
  • 狀態(tài)跟蹤和跨越順序交互
  • 自我糾正和錯誤恢復(fù)

LAMs的頂級示例:

  • AutoGPT:一個用于任務(wù)執(zhí)行的實驗性自主 GPT-4。
  • 帶工具的 Claude Opus:通過函數(shù)調(diào)用實現(xiàn)復(fù)雜任務(wù)的高級自主性。
  • LangChain Agents:用于創(chuàng)建面向動作的 AI 系統(tǒng)的框架。
  • BabyAGI:自主任務(wù)管理和執(zhí)行的演示。

LAMs的用例:

想象要求一個 AI “研究本地承包商,匯編他們的評分,并為我們的廚房改造項目安排與前三名的面試”。LAMs 可以執(zhí)行這種需要理解與行動相結(jié)合的多步驟復(fù)雜任務(wù)。

4.MoEs:專家混合模型(Mixture of Experts)

考慮一組專家而不是一個單一的通才,這就是MoE設(shè)計所暗示的。這些模型由多個專家神經(jīng)網(wǎng)絡(luò)組成,每個網(wǎng)絡(luò)都經(jīng)過訓(xùn)練以處理特定的任務(wù)或知識領(lǐng)域。

MoE的架構(gòu):

MoE 實現(xiàn)條件計算(Conditional Computation),使得不同的輸入激活不同的專門子網(wǎng)絡(luò):

  • 門控網(wǎng)絡(luò)(Gating Network):將輸入發(fā)送到適當(dāng)?shù)膶<易泳W(wǎng)絡(luò),決定模型內(nèi)的哪些“記憶”應(yīng)處理每個詞元或序列。
  • 專家網(wǎng)絡(luò)(Expert Networks):多路、專門的神經(jīng)子網(wǎng)絡(luò)(專家),通常是嵌入變換器塊中的前饋網(wǎng)絡(luò)。
  • 稀疏激活(Sparse Activation):每個輸入只激活一小部分參數(shù)。這是通過 top-k 路由(top-k routing)實現(xiàn)的,其中只允許得分最高的前k個專家處理每個詞元。

現(xiàn)代實現(xiàn)用變換器中的 MoE 層替代標(biāo)準(zhǔn)的 FFN(前饋網(wǎng)絡(luò))層,保持注意力機制為密集的。訓(xùn)練涉及負(fù)載平衡(Load Balancing)、損失和專家丟棄(Expert Dropout)等技術(shù),以避免病態(tài)路由模式。

MoE的關(guān)鍵特性:

  • 高效擴展到巨大參數(shù)數(shù)量,而無需按比例增加計算量
  • 實時將輸入路由到專門網(wǎng)絡(luò)
  • 由于條件計算,參數(shù)效率更高
  • 在專門的領(lǐng)域-任務(wù)上表現(xiàn)更好
  • 對于新穎輸入具有優(yōu)雅降級(Graceful degradation)能力
  • 更擅長多領(lǐng)域知識
  • 訓(xùn)練時減少災(zāi)難性遺忘(Catastrophic Forgetting)
  • 領(lǐng)域平衡的計算資源

MoE的頂級示例:

  • Mixtral AI:一個采用稀疏專家混合架構(gòu)的開源模型。
  • Switch Transformer(Google):最早的 MoE 架構(gòu)之一。
  • GLaM(Google):谷歌在 MoE 架構(gòu)上構(gòu)建的擁有1.2萬億參數(shù)的語言模型。
  • Gemini Ultra(Google):采用基于 MoE 的方法來提升性能。

MoE的用例:

考慮一個需要 AI 系統(tǒng)能夠處理和管理從客戶服務(wù)到技術(shù)文檔再到創(chuàng)意營銷等一切事務(wù)的企業(yè)。MoE 模型最擅長這種靈活性,因為它們使得不同的“專家”能夠根據(jù)所執(zhí)行的工作被激活。

5.VLMs:視覺語言模型(Vision Language Models)

用最簡單的話說,VLMs 是視覺與語言之間的橋梁。VLM 具有理解圖像并使用自然語言傳達(dá)相關(guān)信息的能力,本質(zhì)上賦予 AI 系統(tǒng)“看見”并“討論”所見內(nèi)容的能力。

VLMs的架構(gòu):

VLMs 通常為視覺和語言流實現(xiàn)雙流架構(gòu):

  • 視覺編碼器(Visual Encoder):通常是視覺變換器(Vision Transformer, ViT)或卷積神經(jīng)網(wǎng)絡(luò)(CNN),將圖像分割成小塊(Patches)并進(jìn)行嵌入(Embedding)。
  • 語言編碼器-解碼器(Language Encoder-Decoder):通常是基于變換器的語言模型,接收文本輸入并輸出文本。
  • 跨模態(tài)融合機制(Cross-Modal Fusion Mechanism):此機制通過以下方式連接視覺和語言流:

A.早期融合(Early Fusion):將視覺特征投影到語言嵌入空間。

B.晚期融合(Late Fusion):分別處理,然后在更深層通過注意力連接。

C.交錯融合(Interleaved Fusion):在整個網(wǎng)絡(luò)中設(shè)置多個交互點。

D.聯(lián)合嵌入空間(Joint Embedding Space):一個統(tǒng)一的表示空間,視覺概念和文本概念被映射到可比較的向量。

預(yù)訓(xùn)練通常采用多目標(biāo)訓(xùn)練機制,包括圖像-文本對比學(xué)習(xí)、帶視覺上下文的掩碼語言建模、視覺問答和圖像描述生成。這種方法培養(yǎng)了能夠在多種模態(tài)之間進(jìn)行靈活推理的模型。

VLMs的關(guān)鍵特性:

  • 解析和整合視覺與文本信息
  • 圖像理解和細(xì)粒度描述能力
  • 視覺問答和推理
  • 場景解讀,包括物體和關(guān)系識別
  • 關(guān)聯(lián)視覺和文本概念的跨模態(tài)推理
  • 基于視覺輸入的文本生成
  • 關(guān)于圖像內(nèi)容的空間推理
  • 理解視覺隱喻和文化參照

VLMs的頂級示例:

  • GPT-4(OpenAI):支持視覺功能的 GPT-4 版本,可以分析和討論圖像。
  • Claude 3 Sonnet/Haiku(Anthropic):具有強大視覺推理能力的模型。
  • Gemini Pro Vision(Google):在文本和圖像方面具有先進(jìn)的多模態(tài)能力。
  • DALLE-3 & Midjourney:雖然主要以圖像生成聞名,但也包含了視覺理解組件。

VLMs的用例:

想象一位皮膚科醫(yī)生上傳一張皮膚狀況的圖像,AI 立即提供帶有推理的潛在診斷。或者一位游客將手機對準(zhǔn)一個地標(biāo),即時獲取其歷史意義和建筑細(xì)節(jié)。

6.SLMs:小型語言模型(Small Language Models)

人們將注意力給予越來越大的模型,但我們通常忘記了小型語言模型(SLMs) 涵蓋了一個同樣重要的趨勢:設(shè)計用于在無法訪問云端的個人設(shè)備上高效工作的 AI 系統(tǒng)。

SLMs的架構(gòu):

SLMs 開發(fā)了針對計算效率優(yōu)化的專門技術(shù):

  • 高效注意力機制(Efficient Attention Mechanisms):替代標(biāo)準(zhǔn)自注意力的系統(tǒng)(標(biāo)準(zhǔn)自注意力復(fù)雜度為平方級 O(n2)),包括:

A.線性注意力(Linear attention):通過核近似將復(fù)雜度降低到 O(n)。

B.局部注意力(Local attention):僅在局部窗口內(nèi)進(jìn)行注意力計算,而不是在整個序列上。

  • 狀態(tài)空間模型(State Space Models):另一種具有線性復(fù)雜度的序列建模方法。
  • 參數(shù)高效變換器(Parameter Efficient Transformers):減少參數(shù)數(shù)量的技術(shù)包括:

A.低秩分解(Low-Rank Factorization):將權(quán)重矩陣分解為較小矩陣的乘積。

B.參數(shù)共享(Parameter Sharing):跨層重用權(quán)重。

C.深度可分離卷積(Depth-wise Separable Convolutions):用更高效的層替換密集層(dense layers)。

  • 量化技術(shù)(Quantization Techniques):降低權(quán)重和激活值的數(shù)值精度,通過訓(xùn)練后量化、量化感知訓(xùn)練或混合精度方法實現(xiàn)。
  • 知識蒸餾(Knowledge Distillation):通過基于響應(yīng)的、基于特征的或基于關(guān)系的蒸餾模型,轉(zhuǎn)移封裝在大型模型中的知識。

所有這些創(chuàng)新使得一個 1-100 億參數(shù)的模型能夠在消費級設(shè)備上運行,其性能接近更大的云端托管模型。

SLMs的關(guān)鍵特性:

  • 執(zhí)行完全在應(yīng)用程序內(nèi)進(jìn)行,無需云端依賴或連接
  • 增強數(shù)據(jù)隱私,因為數(shù)據(jù)永遠(yuǎn)不會從設(shè)備卸載
  • 由于沒有網(wǎng)絡(luò)往返,能夠提供非??焖俚捻憫?yīng)
  • 節(jié)能且對電池友好
  • 完全離線操作,無需檢查遠(yuǎn)程服務(wù)器,對于高度安全或遠(yuǎn)程環(huán)境特別有用
  • 更便宜,無 API 使用費
  • 可針對特定設(shè)備或應(yīng)用進(jìn)行升級
  • 針對特定領(lǐng)域或任務(wù)進(jìn)行針對性優(yōu)化

SLMs的頂級示例:

  • Phi-3 Mini(Microsoft):一個 38 億參數(shù)的模型,在其規(guī)模上表現(xiàn)非常出色。
  • Gemma(Google):一個旨在進(jìn)行設(shè)備端部署的輕量級開源模型系列。
  • Llama 3 8B(Meta):Meta 的 Llama 家族中更小的變體,旨在高效部署。
  • MobileBERT(Google):專為移動設(shè)備定制,同時仍保持類似 BERT 的性能。

SLMs的用例:

SLMs 可以真正幫助那些幾乎沒有任何連接但需要可靠 AI 支持的人。注重隱私的客戶可以選擇將不必要的私人數(shù)據(jù)保留在本地。打算在資源可能受限的環(huán)境中為應(yīng)用程序提供強大 AI 功能的開發(fā)者可以隨時利用它。

7、MLMs:掩碼語言模型(Masked Language Models)

掩碼語言模型采用一種不同尋常的語言理解方式:它們通過完成填空練習(xí)來學(xué)習(xí),在訓(xùn)練過程中隨機“掩碼”掉一些詞,使得模型必須從周圍的上下文中找出那個缺失的詞元。

MLMs的架構(gòu):

MLM 通過雙向架構(gòu)以實現(xiàn)整體上下文理解:

  • 僅編碼器變換器(Encoder-only Transformer):與嚴(yán)格從左到右處理文本的基于解碼器(decoder-based)的模型不同,MLMs 通過編碼器塊(encoder blocks)雙向關(guān)注整個上下文。
  • 掩碼自注意力機制(Masked Self-Attention Mechanism):每個詞元都可以通過縮放點積注意力(scaled dot-product attention)關(guān)注序列中的所有其他詞元,無需應(yīng)用任何因果掩碼(causal mask)。
  • 詞元嵌入、位置嵌入和段落嵌入(Token, Position, and Segment Embeddings):這些嵌入組合形成包含內(nèi)容和結(jié)構(gòu)信息的輸入表示。

預(yù)訓(xùn)練目標(biāo)通常包括:

  • 掩碼語言建模(Masked Language Modelling):隨機詞元被替換為[MASK]詞元,然后模型根據(jù)雙向上下文預(yù)測原始詞元。
  • 下一句預(yù)測(Next Sentence Prediction):判斷兩個段落是否在原始文本中相互跟隨,不過像 RoBERTa 這樣的更新變體移除了此目標(biāo)。

這種架構(gòu)產(chǎn)生的是詞元的上下文相關(guān)表示,而不是下一個詞元預(yù)測?;诖?,MLMs 更傾向于用于理解任務(wù)而非生成任務(wù)。

MLMs的關(guān)鍵特性:

  • 雙向建模利用更廣泛的上下文增強理解
  • 更擅長語義分析和分類
  • 強大的實體識別和關(guān)系抽取能力
  • 使用更少樣本進(jìn)行表示學(xué)習(xí)
  • 在結(jié)構(gòu)化抽取任務(wù)上達(dá)到最先進(jìn)水平
  • 向下游任務(wù)的可遷移性強
  • 處理一詞多義的上下文詞表示
  • 易于針對專業(yè)領(lǐng)域進(jìn)行微調(diào)

MLMs的頂級示例:

  • BERT(Google):第一個帶來 NLP 范式轉(zhuǎn)變的雙向編碼器模型
  • RoBERTa(Meta):采用更好訓(xùn)練方法進(jìn)行魯棒優(yōu)化的 BERT
  • DeBERTa(Microsoft):具有解耦注意力的增強版 BERT
  • ALBERT(Google):采用參數(shù)高效技術(shù)的輕量級 BERT 平臺

MLMs的用例:

想象一位律師必須從數(shù)千份合同中提取某些條款。MLMs 非常擅長此類有針對性的信息提取,有足夠的上下文來識別相關(guān)部分,即使它們的描述方式截然不同。

8.SAMs:分割任意模型(Segment Anything Models)

分割任意模型(SAM) 是計算機視覺領(lǐng)域的一項專業(yè)技術(shù),用于以近乎完美的精度從圖像中識別和分離對象。

SAM的架構(gòu):

SAM 的架構(gòu)是多組件的,用于圖像分割:

  • 圖像編碼器(Image encoder): 這是一個視覺變換器(Vision Transformer, ViT)主干網(wǎng)絡(luò),對輸入圖像進(jìn)行編碼以產(chǎn)生密集的特征表示。SAM 使用 VIT-H 變體,包含 32 個變換器塊,每塊有 16 個注意力頭。
  • 提示編碼器(Prompt Encoder): 處理各種類型的用戶輸入,例如:

A.點提示(Point Prompts): 帶有背景指示符的空間坐標(biāo)。

B.框提示(Box Prompts): 兩點坐標(biāo)。

C.文本提示(Text Prompts): 通過文本編碼器處理。

D.掩碼提示(Mask Prompts): 編碼為密集的空間特征。

  • 掩碼解碼器(Mask Decoder): 一個結(jié)合圖像和提示嵌入以產(chǎn)生掩碼預(yù)測的變換器解碼器,由交叉注意力層(cross-attention layers)、自注意力層(self-attention layers)和一個 MLP 投影頭組成。

訓(xùn)練包括三個階段:在1100萬個掩碼上的監(jiān)督訓(xùn)練、模型蒸餾和針對特定提示的微調(diào)。這種訓(xùn)練可以實現(xiàn)對未見過的對象類別和領(lǐng)域的零樣本遷移,從而在其他分割任務(wù)中實現(xiàn)廣泛用途。

SAM的關(guān)鍵特性:

  • 零樣本遷移到訓(xùn)練中從未見過的新對象和類別
  • 靈活的提示類型,包括點、框和文本描述
  • 在超高分辨率下實現(xiàn)像素級完美分割
  • 對各類圖像具有領(lǐng)域無關(guān)的行為
  • 多對象分割,了解對象之間的關(guān)系
  • 通過提供多個正確分割來處理歧義
  • 可作為組件集成到更大的下游視覺系統(tǒng)中

SAM的頂級示例:

  • Segment Anything(Meta): Meta Research 的原始模型。
  • MobileSAM: 為移動設(shè)備優(yōu)化的輕量級變體。
  • HQ-SAM: 具有更好邊緣檢測的更高質(zhì)量變體。
  • SAM-Med2D: 用于醫(yī)療成像的醫(yī)學(xué)適配版本。

SAM的用例:

照片編輯者可以使用 SAM 以手動需要數(shù)分鐘或數(shù)小時才能達(dá)到的精度即時將主體與背景分離。另一方面,醫(yī)生可以使用 SAM 的變體在診斷影像中勾畫解剖結(jié)構(gòu)。

你應(yīng)該選擇哪種模型?

模型的選擇完全取決于你的需求:

模型類型

最佳用例

計算要求

部署選項

關(guān)鍵優(yōu)勢

限制條件

LLM

文本生成、客戶服務(wù)、內(nèi)容創(chuàng)作

非常高

云端、企業(yè)服務(wù)器

多功能語言能力、通用知識

資源密集、可能產(chǎn)生幻覺


LCM

研究、教育、知識組織

云端、專用硬件

概念理解、知識連接

仍是新興技術(shù)、實現(xiàn)有限

LAM

自動化、工作流執(zhí)行、自主智能體

云端(帶API訪問)

動作執(zhí)行、工具使用、自動化

設(shè)置復(fù)雜、可能不可預(yù)測

MoE

多領(lǐng)域應(yīng)用、專業(yè)知識

中-高

云端、分布式系統(tǒng)

規(guī)?;矢?、特定領(lǐng)域知識

訓(xùn)練復(fù)雜、路由開銷

VLM

圖像分析、可訪問性、視覺搜索

云端、高端設(shè)備

多模態(tài)理解、視覺上下文

實時使用需要大量計算

SLM

移動應(yīng)用、注重隱私的用途、離線使用

邊緣設(shè)備、移動端、瀏覽器

隱私、離線能力、可訪問性

與更大模型相比能力有限

MLM

信息提取、分類、情感分析

云端、企業(yè)部署

上下文理解、針對性分析

不太適合開放式生成

SAM

圖像編輯、醫(yī)學(xué)成像、物體檢測

中-高

云端、GPU工作站

精確的視覺分割、交互式使用

專精于分割而非通用視覺任務(wù)

結(jié)論

專業(yè)AI模型代表了各項改進(jìn)之間的新成果。也就是說,機器能夠越來越像人類一樣理解、推理、創(chuàng)造和行動。然而,該領(lǐng)域最令人興奮的可能不是任何一種模型類型的承諾,而是當(dāng)這些類型開始融合時將會出現(xiàn)什么。這樣的系統(tǒng)將整合 LCMs 的概念理解能力、LAMs 的行動能力、MOEs 的高效選擇能力以及 VLMs 的視覺理解能力,所有這些似乎都可以通過 SLM 技術(shù)在本地設(shè)備上運行。

問題不在于這是否會改變我們的生活,而在于我們將如何利用這些技術(shù)來解決最大的挑戰(zhàn)。工具已經(jīng)在這里,可能性是無限的,未來取決于它們的應(yīng)用。

譯者介紹

涂承燁,51CTO社區(qū)編輯,具有15年以上的開發(fā)、項目管理、咨詢設(shè)計等經(jīng)驗,獲得信息系統(tǒng)項目管理師、信息系統(tǒng)監(jiān)理師、PMP,CSPM-2等認(rèn)證。

原文標(biāo)題:Top 8 Specialized AI Models,作者:Riya Bansal

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2011-07-11 14:01:12

JAVA

2024-09-14 15:25:48

2018-08-07 11:08:10

容器虛擬機鏡像

2010-11-08 11:31:34

職場

2024-05-10 15:05:34

2018-08-10 10:36:25

SSL證書誤區(qū)

2022-05-07 11:13:58

蘋果汽車技術(shù)

2009-11-04 14:30:22

2022-02-21 17:35:50

漏斗模型流程數(shù)據(jù)

2022-05-09 18:46:28

EOQ模型數(shù)據(jù)分析

2022-02-07 19:48:02

模型同期群LTV模型

2009-01-07 09:10:59

NetBeansSun6.5

2017-08-30 20:44:51

AI機器學(xué)習(xí)深度學(xué)習(xí)

2021-11-29 18:33:38

數(shù)據(jù)分析模型

2009-06-22 14:07:46

JSF優(yōu)勢

2024-07-23 20:33:32

2024-07-03 10:19:03

2017-09-06 09:52:45

AI深度學(xué)習(xí)人工智能

2024-01-22 15:33:22

2020-12-28 09:44:12

云計算云計算產(chǎn)業(yè)云開發(fā)
點贊
收藏

51CTO技術(shù)棧公眾號