偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅 原創(chuàng)

發(fā)布于 2025-6-22 09:43
瀏覽
0收藏

引言

在科技與藝術(shù)不斷交融的時(shí)代,創(chuàng)意的碰撞總能帶來(lái)意想不到的驚喜。Labubu,這個(gè)由香港藝術(shù)家龍家升創(chuàng)造的森林精靈,以其獨(dú)特的 “丑萌” 形象和豐富的角色設(shè)定,在潮流玩具領(lǐng)域掀起了一陣熱潮 ,它有著 9 顆尖牙、歪斜笑容與超長(zhǎng)獠耳,看似邪惡調(diào)皮卻心地善良,自 2015 年誕生后,迅速成為了年輕人收藏和追捧的對(duì)象。

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅-AI.x社區(qū)

而Intel的哪吒開發(fā)套件,作為一款高性能、高擴(kuò)展性的開源硬件平臺(tái),以其強(qiáng)大的計(jì)算能力和豐富的接口,為開發(fā)者們提供了無(wú)限的創(chuàng)作可能,它搭載 Intel N97 處理器,最高睿頻可達(dá) 3.6GHz,擁有 Intel UHD Graphics 內(nèi)核 GPU,支持高分辨率顯示,還配備了豐富的接口如 GPIO、USB、HDMI 等,無(wú)論是物聯(lián)網(wǎng)開發(fā)、人工智能應(yīng)用還是創(chuàng)意項(xiàng)目,都能輕松應(yīng)對(duì)。

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅-AI.x社區(qū)

當(dāng) Labubu 這個(gè)充滿藝術(shù)感的潮玩形象遇上哪吒開發(fā)板這個(gè)科技感十足的硬件平臺(tái),會(huì)碰撞出怎樣的火花呢?今天,就讓我們一起走進(jìn)這場(chǎng)奇妙的創(chuàng)意之旅,通過(guò)OpenVINO來(lái)部署QWen2.5-VL多模態(tài)大模型 Labubu 與哪吒開發(fā)板結(jié)合背后的故事和樂趣。

當(dāng)潮玩明星遇上科技新星

(一)哪吒開發(fā)板實(shí)力剖析

Nezha開發(fā)板作為一款備受矚目的開源硬件平臺(tái),具備諸多令人矚目的特性。

  • 硬件參數(shù):哪吒開發(fā)板采用英特爾 ? 處理器 N97(Alder Lake-N) ,支持四核 SoC,時(shí)鐘頻率高達(dá) 3.60GHz,在提供強(qiáng)大計(jì)算能力的同時(shí),TDP 僅為 12W,有效平衡了性能與功耗 。圖形處理方面,內(nèi)置 Intel? UHD Graphics Gen12,最多 24 個(gè)執(zhí)行單元,支持包括 INT8 在內(nèi)的主要數(shù)據(jù)類型,通過(guò) HDMI 1.4b 端口可支持 30Hz 的 4KUHD(3840×2160)高分辨率顯示,無(wú)論是高清視頻播放還是圖形界面展示,都能輕松應(yīng)對(duì)。內(nèi)存與存儲(chǔ)上,支持高達(dá) 8GB 的 LPDDR5 系統(tǒng)內(nèi)存和高達(dá) 64GB 的 eMMC 存儲(chǔ),確保系統(tǒng)運(yùn)行流暢,同時(shí)為數(shù)據(jù)存儲(chǔ)提供了充足的空間。此外,板載 TPM 2.0,提供硬件級(jí)別的安全支持,保障系統(tǒng)和數(shù)據(jù)的安全。

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅-AI.x社區(qū)

  • 性能優(yōu)勢(shì):得益于其高性能處理器和優(yōu)秀的 GPU 性能,哪吒開發(fā)板在各類計(jì)算任務(wù)中表現(xiàn)出色,尤其是在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域。以圖像識(shí)別任務(wù)為例,在處理復(fù)雜圖像時(shí),能夠快速準(zhǔn)確地識(shí)別出圖像中的物體。同時(shí),其豐富的接口和擴(kuò)展性,為開發(fā)者提供了極大的便利,能夠輕松連接各類傳感器和執(zhí)行器,實(shí)現(xiàn)多樣化的功能。

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅-AI.x社區(qū)

  • 應(yīng)用領(lǐng)域:哪吒開發(fā)板的應(yīng)用領(lǐng)域十分廣泛,在教育領(lǐng)域,可用于教學(xué)實(shí)踐和科研項(xiàng)目,幫助學(xué)生更好地理解和掌握編程、人工智能等知識(shí);在物聯(lián)網(wǎng)網(wǎng)關(guān)方面,憑借其強(qiáng)大的計(jì)算能力和網(wǎng)絡(luò)連接能力,能夠高效處理和傳輸物聯(lián)網(wǎng)設(shè)備的數(shù)據(jù);在數(shù)字標(biāo)牌領(lǐng)域,能夠驅(qū)動(dòng)高分辨率顯示屏,展示豐富多樣的信息;在機(jī)器人開發(fā)中,可為機(jī)器人提供智能決策和控制能力 。例如,在智能家居控制系統(tǒng)中,哪吒開發(fā)板作為核心控制單元,連接各類智能設(shè)備,實(shí)現(xiàn)對(duì)家居環(huán)境的智能控制,用戶可以通過(guò)手機(jī)或其他終端遠(yuǎn)程控制家電設(shè)備、調(diào)節(jié)室內(nèi)溫度等。

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅-AI.x社區(qū)

奇妙聯(lián)動(dòng):創(chuàng)意應(yīng)用大放送

我們嘗試用OpenVINO在哪吒開發(fā)板上部署QWen2.5-VL識(shí)別Labubu。在開始這個(gè)奇妙聯(lián)動(dòng)之前,我們要做一些準(zhǔn)備工作。

(二)QWen2.5-VL模型

QWen-VL 是阿里云團(tuán)隊(duì)開發(fā)的大規(guī)模視覺語(yǔ)言模型,它由大規(guī)模語(yǔ)言模型(LLM)、視覺編碼器和位置感知的視覺語(yǔ)言適配器構(gòu)成。LLM 采用 Qwen-7B 模型作為核心,視覺編碼器基于 Vision Transformer (ViT),特別是 OpenCLIP 的 ViT - bigG 版本,位置感知的視覺語(yǔ)言適配器使用交叉注意力機(jī)制,將圖像特征壓縮為固定長(zhǎng)度的表示。它有 3B、7B 和 72B 等不同尺寸版本。它具有以下功能特性:

  • 強(qiáng)大的視覺理解能力:能識(shí)別常見物體,分析圖像中的文本、圖表、圖標(biāo)、圖形和布局等元素,還能解析圖像的布局結(jié)構(gòu),從 APP 截圖中分析出插圖和可點(diǎn)按鈕等元素。
  • 精準(zhǔn)的視覺定位:可以通過(guò)生成 bounding boxes 或者 points 來(lái)準(zhǔn)確定位圖像中的物體,能為坐標(biāo)和屬性提供穩(wěn)定的 JSON 輸出,比如準(zhǔn)確識(shí)別和定位馬路上騎摩托車未戴頭盔的人。
  • 出色的 OCR 能力:OCR 能力提升到全新水平,更擅長(zhǎng)理解圖表并擁有更全面的文檔解析能力,在精準(zhǔn)識(shí)別內(nèi)容的同時(shí)還能完美還原文檔版面和格式。
  • 增強(qiáng)的視頻理解能力:引入了動(dòng)態(tài)幀率(FPS)訓(xùn)練和絕對(duì)時(shí)間編碼技術(shù),不僅能夠準(zhǔn)確地理解小時(shí)級(jí)別的長(zhǎng)視頻內(nèi)容,還可以在視頻中搜索具體事件,并對(duì)視頻的不同時(shí)間段進(jìn)行要點(diǎn)總結(jié)。
  • 視覺 Agent 能力:能夠直接作為視覺智能體進(jìn)行操作,而無(wú)需特定任務(wù)的微調(diào),比如直接操作電腦和手機(jī),根據(jù)提示自動(dòng)完成查詢天氣、訂機(jī)票、下載插件等多步驟復(fù)雜任務(wù)。

(三)MacOS上實(shí)現(xiàn)模型轉(zhuǎn)換

采用OpenVINO部署QWen2.5-VL,首先需要將QWen2.5-VL轉(zhuǎn)換成OpenVINO支持的OR格式。

1、模型下載

國(guó)內(nèi)下載模型,第一想到魔搭社區(qū)。使用modelscope將模型下載到本地指定目錄。

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir ./Qwen2.5

2、模型轉(zhuǎn)換

模型下載完成后,我先在MacOS上進(jìn)行模型轉(zhuǎn)換。我們需要將原始的PyTorch模型轉(zhuǎn)換為OpenVINO?的IR靜態(tài)圖格式,并對(duì)其進(jìn)行壓縮,以實(shí)現(xiàn)更輕量化的部署和最佳的性能表現(xiàn)。通過(guò)Optimum提供的命令行工具optimum-cli,我們可以一鍵完成模型的格式轉(zhuǎn)換和權(quán)重量化任務(wù)。

我的電腦配置是M1芯片,8G內(nèi)存。在轉(zhuǎn)換前,要先安裝Optimum、OpenVINO、Transformers和NNCF等工具

apt update
pip install "git+https://github.com/huggingface/optimum-intel.git" --extra-index-url https://download.pytorch.org/whl/cpu
pip install "openvino>=2025.1.0" "openvino-tokenizers>=2025.1.0" "nncf>=2.15.0" "transformers>=4.49"
  • 神經(jīng)網(wǎng)絡(luò)壓縮框架 (NNCF) 提供了一套訓(xùn)練后和訓(xùn)練時(shí)算法,用于優(yōu)化 OpenVINO? 中神經(jīng)網(wǎng)絡(luò)的推理,同時(shí)將準(zhǔn)確率下降降至最低。用NNCF將大模型壓縮量化,支持 INT8、INT4 模式文件 。

工具下載好后開始模型轉(zhuǎn)換,為了支持哪吒開發(fā)板,我將模型進(jìn)行INT4量化壓縮,并存放到Qwen2.5-VL-3B-INT4的文件夾下。

optimum-cli export openvino \
  --model  ./Qwen2.5-VL-3B \
  --task image-text-to-text \
  --weight-format int4 \
  ./Qwen2.5-VL-3B-INT4

這里的--task image-text-to-text參數(shù)至關(guān)重要,它表示模型支持多模態(tài)輸入,即圖像與文本 。若不指定該參數(shù),轉(zhuǎn)換時(shí)會(huì)報(bào)錯(cuò)。

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅-AI.x社區(qū)

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅-AI.x社區(qū)

通過(guò)這一系列操作,在 Mac 上成功將 QWen2.5-VL 模型轉(zhuǎn)換為適合在哪吒開發(fā)板上部署的 OpenVINO 格式,生成INT4格式的qwen2.5-openvino格式文件。

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅-AI.x社區(qū)

(四)在哪吒開發(fā)板上部署Qwen2.5-VL模型

將在 Mac 上轉(zhuǎn)換好的 QWen2.5-VL 模型部署到哪吒開發(fā)板上,充分發(fā)揮哪吒開發(fā)板的性能優(yōu)勢(shì)。在部署前,確保哪吒開發(fā)板的系統(tǒng)環(huán)境滿足要求,安裝好必要的依賴庫(kù) 。

pip install qwen-vl-utils[decord]
pip install "torch>=2.1" "torchvision" 

由于目前OpenVINO的GenAI還不支持QWen2.5-VL,所以我們需要通過(guò)optimum openvino的插件OVModelForVisualCausalLM 加載模型,基于QWen API函數(shù)構(gòu)建輸入預(yù)處理與輸出后處理。編寫代碼如下:

from transformers import AutoProcessor, AutoTokenizer
from qwen_vl_utils import process_vision_info
from optimum.intel.openvino import OVModelForVisualCausalLM
min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
model_dir = "/Qwen2.5-VL-3B-INT4"
processor = AutoProcessor.from_pretrained(
    model_dir, 
    min_pixels=min_pixels, 
    max_pixels=max_pixels,
    use_fast=True  
)
model = OVModelForVisualCausalLM.from_pretrained(model_dir, device="CPU")
if processor.chat_template is None:
    tok = AutoTokenizer.from_pretrained("/Qwen2.5-VL-3B-INT4")
    processor.chat_template = tok.chat_template

question = "圖片里是什么內(nèi)容?"
messages = [
    {
        "role": "user",
        "content": [
             {
                 "type": "image",
                 "image": "/pic.jpeg",
                 },
                 {"type": "text", "text": question},
                  ],
    }
]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)

outputs = model.generate(
    **inputs,
    max_new_tokens=1048,
    do_sample=True,
    temperature=0.9,
    top_p=0.5,
    repetition_penalty=1.1
)

response = processor.batch_decode(outputs, skip_special_tokens=True)[0]
# print("\n完整回答:", response)
print(response)

在加載過(guò)程中,合理配置模型參數(shù),如根據(jù)開發(fā)板的內(nèi)存和計(jì)算資源,設(shè)置合適的批處理大小、線程數(shù)等,以確保模型能夠在開發(fā)板上高效穩(wěn)定地運(yùn)行 。

(五)哪吒開發(fā)板上識(shí)別Labubu圖像

當(dāng) QWen2.5-VL 模型成功部署在哪吒開發(fā)板上后,就可以實(shí)現(xiàn)對(duì) Labubu 圖像的識(shí)別。在識(shí)別過(guò)程中,模型會(huì)提取圖像中的特征信息,與自身學(xué)習(xí)到的知識(shí)進(jìn)行匹配,從而判斷圖像中是否存在 Labubu,并輸出相關(guān)的識(shí)別結(jié)果 。例如,模型可能會(huì)輸出圖像中 Labubu的具體形象描述、所在位置信息等 。

這是我們這次準(zhǔn)備的Labubu圖片:

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅-AI.x社區(qū)


運(yùn)行QWen2.5-VL識(shí)別,可惜Qwen2.5沒認(rèn)出來(lái),但它對(duì)Labubu做出了準(zhǔn)確的描述。

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅-AI.x社區(qū)


我們?cè)俳o它一個(gè)飛機(jī)圖片試試,看看QWen2.5-VL認(rèn)識(shí)嗎?

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅-AI.x社區(qū)


果然,這次QWen2.5-VL認(rèn)出來(lái)了,還做出了詳細(xì)解釋。

當(dāng)哪吒牽手Labubu:OpenVINO2025與QWen2.5-VL的奇妙之旅-AI.x社區(qū)

總結(jié)與展望

Labubu 與哪吒開發(fā)板的結(jié)合,是一次充滿創(chuàng)意與驚喜的嘗試,它將潮流玩具的藝術(shù)魅力與開源硬件的科技力量完美融合,為我們帶來(lái)了全新的體驗(yàn)和樂趣 。通過(guò)在 Mac 上實(shí)現(xiàn)模型轉(zhuǎn)換,在哪吒開發(fā)板上部署和運(yùn)行 QWen2.5-VL 模型,成功實(shí)現(xiàn)了對(duì) Labubu 圖像的識(shí)別,展示了科技與藝術(shù)結(jié)合的無(wú)限可能 。


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-6-22 09:43:21修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦