偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Liquid AI 推出 LFM2-VL-3B:3B 參數(shù)多模態(tài)模型,讓視覺語言推理落地邊緣設(shè)備 原創(chuàng)

發(fā)布于 2025-10-31 07:34
瀏覽
0收藏

在大模型的競爭中,一個(gè)鮮明趨勢正在出現(xiàn)——“越大”不再是唯一目標(biāo),“越高效”才是新的制勝關(guān)鍵。最近,Liquid AI 發(fā)布了 LFM2-VL-3B,這是一款 參數(shù)量 30 億(3B)的視覺語言模型(VLM),不僅性能亮眼,更令人驚訝的是:它能在邊緣設(shè)備上流暢運(yùn)行。

這意味著什么?簡單來說,圖像理解、視覺問答、圖文生成等復(fù)雜任務(wù),將不再只是云端的特權(quán),而是可以直接在手機(jī)、機(jī)器人或工業(yè)設(shè)備中完成。

一、什么是 LFM2-VL-3B?

主關(guān)鍵詞:LFM2-VL-3B輔關(guān)鍵詞:Liquid AI、視覺語言模型、SigLIP2 NaFlex、邊緣計(jì)算、3B 參數(shù)

LFM2-VL-3B 是 Liquid AI 的最新一代視覺語言模型,屬于 LFM2-VL 系列 的進(jìn)階版本。此前的兩個(gè)版本參數(shù)分別為 4.5 億(450M)和 16 億(1.6B),而這次直接躍升至 30 億參數(shù),性能提升的同時(shí),卻依然保持了輕量、低延遲的特性。

模型支持 圖像 + 文本輸入,輸出文本結(jié)果,適合各種圖文對話、描述生成、視覺問答等任務(wù)。它的接口采用類似 ChatML 的格式,可以在文本流中插入 ??<image>?? 標(biāo)簽,模型會自動將圖片編碼為 Token 進(jìn)行處理。這種設(shè)計(jì)讓多模態(tài)調(diào)用非常自然,也方便與現(xiàn)有的多模態(tài)管線集成。

在上下文長度上,LFM2-VL-3B 支持 高達(dá) 32,768 個(gè) Token,這意味著它可以處理長文檔、多圖片場景,非常適合多輪對話或復(fù)雜視覺任務(wù)。

二、架構(gòu)亮點(diǎn):語言塔 + 視覺塔 + 投影器

Liquid AI 推出 LFM2-VL-3B:3B 參數(shù)多模態(tài)模型,讓視覺語言推理落地邊緣設(shè)備-AI.x社區(qū)

如果說 LFM2-VL-3B 是一座“橋”,那它連接的就是文字與視覺的世界。

1. 語言塔:LFM2-2.6B 核心語言模型

語言部分來自 LFM2-2.6B 架構(gòu),它采用 卷積 + 注意力混合結(jié)構(gòu)(Hybrid Conv-Attention),在語言理解和生成上兼具效率與語義深度。這讓 LFM2-VL-3B 在面對帶知識背景的視覺問題時(shí),仍能保持較強(qiáng)的語言能力。

2. 視覺塔:SigLIP2 NaFlex 編碼器

視覺部分采用了 SigLIP2 NaFlex 編碼器,參數(shù)量 4 億(400M),這是目前最節(jié)能但仍能保持高感知精度的方案之一。 SigLIP2 的一大特點(diǎn)是保持原始圖像比例,不會因?yàn)閺?qiáng)制縮放導(dǎo)致物體變形,從而大幅提升細(xì)粒度識別的準(zhǔn)確性。

3. 投影器:兩層 MLP + Pixel Unshuffle

語言與視覺如何融合?答案是一個(gè)精巧的“連接器”——一個(gè) 兩層 MLP 投影器,配合 Pixel Unshuffle 算法,在融合前壓縮圖像 Token 數(shù)量,從而實(shí)現(xiàn)更高的 Token 吞吐率(tokens per second)。 這意味著模型可以在不犧牲視覺質(zhì)量的前提下顯著提高速度,尤其適合算力受限的設(shè)備。

三、圖像處理機(jī)制:智能分塊 + 自適應(yīng) Token 控制

LFM2-VL-3B 對分辨率的處理非常靈活:

  • 原生支持最大512×512 像素;
  • 對超過該尺寸的圖像,會自動分割為不重疊的 512×512 圖塊;
  • 同時(shí)保留縮略路徑(thumbnail pathway),為整體場景提供全局上下文。

這種設(shè)計(jì)既保證了細(xì)節(jié),又避免了算力浪費(fèi)。官方文檔甚至給出了具體映射示例:

圖像尺寸

Token 數(shù)量

256×384

96 Tokens

1000×3000

1020 Tokens

更妙的是,用戶可以通過參數(shù)直接控制最小 / 最大 Token 數(shù)和分塊開關(guān)。比如在 Hugging Face 上的默認(rèn)推薦是:

  • 最小圖像 Token 數(shù):64
  • 最大圖像 Token 數(shù):256
  • 圖像分割:啟用

這些控制選項(xiàng)讓開發(fā)者能在“速度與質(zhì)量”之間靈活取舍,非常實(shí)用。

四、推理與集成:開箱即用的多模態(tài)接口

Liquid AI 在 Hugging Face 提供了完整的推理接口與推薦配置。開發(fā)者只需幾行代碼即可上手:

from transformers import AutoModelForImageTextToText, AutoProcessor
import torch

model = AutoModelForImageTextToText.from_pretrained("liquidai/LFM2-VL-3B", torch_dtype=torch.bfloat16)
processor = AutoProcessor.from_pretrained("liquidai/LFM2-VL-3B")

inputs = processor(text="Describe this image:", images=image, return_tensors="pt")
outputs = model.generate(**inputs, temperature=0.1, repetition_penalty=1.05)
print(processor.decode(outputs[0]))

這里使用了 bfloat16 精度,在性能與顯存占用間取得平衡。 系統(tǒng)自動處理 ??<image>?? 模板、圖像分塊與編碼流程,無需手動調(diào)整。對多模態(tài)開發(fā)者而言,這個(gè)“即插即用”的體驗(yàn)非常友好。

五、訓(xùn)練策略:分階段混合學(xué)習(xí)

Liquid AI 在訓(xùn)練方法上采用了分階段策略(staged approach)

  1. 聯(lián)合中期訓(xùn)練(Joint Mid-Training)逐步調(diào)整文本與圖像數(shù)據(jù)的比例,讓模型在理解圖像的同時(shí)保留語言能力;
  2. 監(jiān)督微調(diào)(Supervised Fine-Tuning)專注于圖像理解任務(wù),通過大規(guī)模開源數(shù)據(jù)集 + 自研合成視覺數(shù)據(jù)進(jìn)行增強(qiáng);
  3. 多語言擴(kuò)展(Multilingual Visual Understanding)支持包括中文、英文、日語、法語、西班牙語、德語、意大利語、葡萄牙語、阿拉伯語和韓語在內(nèi)的多語言視覺理解。

這種混合式訓(xùn)練策略讓模型既能看圖、又能“看懂問題”,在跨語言的視覺任務(wù)上也有優(yōu)異表現(xiàn)。

六、性能評測:輕量級 VLM 中的優(yōu)等生

根據(jù) Liquid AI 公布的數(shù)據(jù),LFM2-VL-3B 在多項(xiàng)標(biāo)準(zhǔn)測試中表現(xiàn)突出:

測試項(xiàng)目

得分

MM-IFEval

51.83

RealWorldQA

71.37

MMBench-dev-en

79.81

POPE

89.01

相比同類輕量模型,它的分?jǐn)?shù)相當(dāng)有競爭力。語言層面上,LFM2-VL-3B 的語言塔性能接近 LFM2-2.6B,在 GPQA 上約為 30%,MMLU 上為 63%,說明它在需要結(jié)合知識推理的視覺任務(wù)中仍具備扎實(shí)的理解能力。

七、為什么說它是“為邊緣設(shè)備而生”的多模態(tài)模型?

在移動終端、機(jī)器人或工業(yè)場景中,模型部署的最大痛點(diǎn)是——算力受限 + 隱私要求高

LFM2-VL-3B 的設(shè)計(jì)恰好針對這兩點(diǎn):

  • 計(jì)算與內(nèi)存占用可控:圖像 Token 可壓縮、可限制;
  • 吞吐率可預(yù)測:MLP 投影器減少 Token 數(shù)量;
  • 視覺細(xì)節(jié)保真:SigLIP2 NaFlex 保持原始比例;
  • 部署靈活:提供GGUF 格式,支持本地推理;
  • 隱私友好:無需云端上傳圖像,數(shù)據(jù)在設(shè)備上完成推理。

這使得它非常適合 邊緣 AI 場景——比如智能攝像頭、工廠視覺檢測、移動端 AI 助手等。企業(yè)既能享受多模態(tài)理解能力,又能保障數(shù)據(jù)安全。

八、趨勢洞察:從“更大”到“更近”

LFM2-VL-3B 的意義不止在性能,而在方向。 在過去幾年,AI 模型一味追求參數(shù)規(guī)模的“登天運(yùn)動”,但 Liquid AI 的路線恰恰相反——讓多模態(tài)智能“落地”

通過架構(gòu)壓縮、Token 優(yōu)化與可控推理,他們讓圖像語言理解從云端“搬回地面”。 這意味著未來企業(yè)不再依賴云計(jì)算巨頭,也能自己部署強(qiáng)大的視覺語言模型。

換句話說,LFM2-VL-3B 是一條信號:

“AI 的智能,正在回到你手里。”

結(jié)語

Liquid AI 的 LFM2-VL-3B,既是性能的突破,也是部署思維的轉(zhuǎn)變。 它證明了——高精度多模態(tài)推理,不一定要依賴海量算力。 對于想在本地部署視覺語言模型的團(tuán)隊(duì)而言,這無疑是一個(gè)值得關(guān)注的里程碑。

你怎么看? 你更看好“云端超大模型”,還是“本地高效模型”的路線?


本文轉(zhuǎn)載自??Halo咯咯??    作者:基咯咯

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-10-31 11:44:03修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦