Llama 3.2 強(qiáng)勢(shì)震撼登場(chǎng):從 1B 純文本躍至 90B 多模態(tài),成就端側(cè) AI 巔峰杰作 原創(chuàng)
在當(dāng)今科技飛速發(fā)展的時(shí)代,人工智能技術(shù)正以驚人的速度不斷演進(jìn),為我們的生活和工作帶來(lái)了翻天覆地的變化。Meta 公司作為科技領(lǐng)域的巨頭之一,一直致力于推動(dòng)人工智能的發(fā)展。2024 年 9 月 25 日,Meta 公司重磅推出了 Llama 3.2。 引起了廣泛關(guān)注,它究竟有哪些令人矚目的特點(diǎn)和創(chuàng)新呢?讓我們一同深入探索。
一、Llama 3.2簡(jiǎn)介
Llama 3.2 是 Meta 公司開(kāi)發(fā)的一款強(qiáng)大的人工智能模型。它在之前版本的基礎(chǔ)上進(jìn)行了優(yōu)化和升級(jí),擁有更加出色的性能和廣泛的適用性。Llama 3.2 包括了不同參數(shù)規(guī)格的視覺(jué)模型和輕量級(jí)純文本模型,為各種應(yīng)用場(chǎng)景提供了靈活的選擇。
二、Llama 3.2功能特點(diǎn)
1. 強(qiáng)大的視覺(jué)處理能力
Llama 3.2 擁有 90b 和 11b 兩種參數(shù)規(guī)格的視覺(jué)模型,在圖像理解任務(wù)上表現(xiàn)卓越。它可以完成圖像理解、視覺(jué)推理、圖像標(biāo)題、圖像文本檢索、文檔視覺(jué)問(wèn)題解答等多種任務(wù)。在相關(guān)的基準(zhǔn)評(píng)分中,Llama 3.2 的視覺(jué)模型高于包括 Claude 3 Haiku 和 GPT-4 Omini 在內(nèi)的封閉模型,展現(xiàn)出了強(qiáng)大的競(jìng)爭(zhēng)力。
例如,在圖像理解任務(wù)中,Llama 3.2 可以準(zhǔn)確地識(shí)別圖像中的物體、場(chǎng)景和動(dòng)作,并給出詳細(xì)的描述。在視覺(jué)推理任務(wù)中,它能夠根據(jù)圖像中的信息進(jìn)行邏輯推理,回答各種復(fù)雜的問(wèn)題。這種強(qiáng)大的視覺(jué)處理能力為圖像相關(guān)的應(yīng)用提供了有力的支持。
2. 輕量級(jí)純文本模型
除了視覺(jué)模型,Llama 3.2 還包括能在設(shè)備端本地運(yùn)行的 1b 和 3b 輕量級(jí)純文本模型。這些模型支持 128k tokens 上下文,適配高通和聯(lián)發(fā)科硬件,并針對(duì) ARM 處理器做了優(yōu)化。這意味著開(kāi)發(fā)者可以在資源受限的設(shè)備上運(yùn)行這些模型,為移動(dòng)應(yīng)用等場(chǎng)景提供了強(qiáng)大的人工智能支持。
輕量級(jí)純文本模型具有多語(yǔ)言文本生成和工具調(diào)用能力,可用于移動(dòng)人工智能寫(xiě)作助手和客戶(hù)服務(wù)應(yīng)用等場(chǎng)景。在保證數(shù)據(jù)隱私的同時(shí),為用戶(hù)提供個(gè)性化的服務(wù)。
三、Llama 3.2模型評(píng)估
Meta 公司發(fā)布了 Llama 3.2 視覺(jué)模型的部分評(píng)估數(shù)據(jù)。具體如下:
1. 文本相關(guān)任務(wù)方面
對(duì)于輕量級(jí)的 Llama 3.2 3b 模型,在指令遵從、總結(jié)、提示詞重寫(xiě)、工具使用等任務(wù)上的表現(xiàn)優(yōu)于 Gemma 22.6b 和 Phi 3.5-mini;而 1b 的表現(xiàn)與 Gemma 相當(dāng)。這說(shuō)明 Llama 3.2 的輕量級(jí)模型在文本處理的一些常見(jiàn)任務(wù)上也具有較好的性能,能夠滿(mǎn)足一定的應(yīng)用需求。
2. 圖像理解任務(wù)方面
在涉及多種語(yǔ)言的 150 多個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了評(píng)估。其視覺(jué)模型在圖像識(shí)別等一系列視覺(jué)理解任務(wù)上足以比肩業(yè)界領(lǐng)先的基礎(chǔ)模型 Claude 3 Haiku 和 GPT-4 Omini。這意味著 Llama 3.2 在圖像理解的準(zhǔn)確性、對(duì)不同圖像場(chǎng)景和內(nèi)容的識(shí)別能力等方面達(dá)到了較高的水平,能夠與這些知名模型相媲美。
這些只是 Meta 公司公布的部分性能測(cè)試結(jié)果,隨著更多開(kāi)發(fā)者和研究機(jī)構(gòu)對(duì) Llama 3.2 的使用和測(cè)試,可能會(huì)有更全面、深入的性能分析和評(píng)估結(jié)果出現(xiàn)。如果你想了解更詳細(xì)的性能測(cè)試信息,可以關(guān)注 Meta 公司的官方發(fā)布或相關(guān)的技術(shù)論壇、研究報(bào)告等。
四、本地部署體驗(yàn)
1. 安裝依賴(lài)
需確保安裝的 transformers 版本不低于 4.43.0。
pip install transformers
pip install 'accelerate>=0.26.0'
pip install modelscope
2. 模型下載
使用 modelscope 中的 snapshot_download 函數(shù)下載模型(提前安裝modelscope :pip install modelscope)。第一個(gè)參數(shù)為模型名稱(chēng),參數(shù) cache_dir 用于指定模型的下載路徑。
#模型下載
from modelscope import snapshot_download
model_dir = snapshot_download('llm-research/llama-3.2-1b', cache_dir='/root/autodl-tmp', revisinotallow='master')
下載完成如下:
模型下載完成后,可在/root/autodl-tmp/llm-research/llama-3___2-1b目錄下查看模型文件
注意檢查對(duì)比文件數(shù)量和大小,確認(rèn)文件下載是否完整。
3. 模型推理
以下是使用 Python 進(jìn)行模型推理的代碼示例。
import torch
from transformers import pipeline
model_id = "/root/autodl-tmp/llm-research/llama-3___2-1b"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("The key to life is")
輸出:
[{'generated_text': 'The key to life is to be happy. The key to happiness is to be kind. The'}]
GPU資源消耗如下:
圖片
結(jié)語(yǔ)
Llama 3.2 的推出標(biāo)志著 Meta 在人工智能領(lǐng)域又邁出了堅(jiān)實(shí)的一步。它強(qiáng)大的功能特點(diǎn)和廣泛的應(yīng)用場(chǎng)景,為我們展示了人工智能的無(wú)限潛力。隨著技術(shù)的不斷進(jìn)步,我們相信 Llama 3.2 將在未來(lái)的日子里為我們的生活和工作帶來(lái)更多的驚喜和便利。讓我們拭目以待,共同見(jiàn)證人工智能的輝煌未來(lái)。同時(shí),我們也期待著更多的科技公司能夠推出更加先進(jìn)的人工智能技術(shù),共同推動(dòng)人工智能行業(yè)的發(fā)展。
相關(guān)資料
- 官網(wǎng)地址:??https://www.llama.com/??
- 模型地址:??https://huggingface.co/meta-llama/Llama-3.2-1B??
- Github地址:???https://github.com/meta-llama/llama-models/tree/main/models/llama3_2??
本文轉(zhuǎn)載自 ??小兵的AI視界??,作者: 小兵
