偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

忘掉 DeepSeek:Qwen 2.5 VL 與 Qwen Max 來(lái)了

人工智能
先從 Qwen 2.5 VL 說(shuō)起。它不僅能看圖識(shí)物,還能理解視頻、文本,具備執(zhí)行電腦操作(agentic)的能力,甚至能做物體檢測(cè)等。

Qwen 系列又推出了兩款令人矚目的新模型:Qwen 2.5 VL 和 Qwen 2.5 Max。
如果還停留在“DeepSeek 是最強(qiáng)”那一檔,就可能要重新考慮一下,因?yàn)檫@兩款模型的實(shí)力相當(dāng)驚艷。

什么是 Qwen 2.5 VL?

先從 Qwen 2.5 VL 說(shuō)起。它不僅能看圖識(shí)物,還能理解視頻、文本,具備執(zhí)行電腦操作(agentic)的能力,甚至能做物體檢測(cè)等。

Qwen 2.5 VL 的核心特性

高級(jí)視覺(jué)理解

  • 不只是識(shí)別常見物體(鮮花、鳥類等),還能處理復(fù)雜視覺(jué)元素,如圖表、圖標(biāo)、排版布局等。
  • 能理解圖像中的空間結(jié)構(gòu)和文字內(nèi)容,分析文檔或圖形信息時(shí)更得力。

Agentic 能力

  • 可視為一個(gè)“視覺(jué)代理”,可以進(jìn)行推理、執(zhí)行命令、和工具動(dòng)態(tài)交互。
  • 能在電腦或手機(jī)等數(shù)字設(shè)備上自動(dòng)化操作,無(wú)需對(duì)特定任務(wù)做額外微調(diào)。

長(zhǎng)視頻理解

  • 能處理超過(guò)一小時(shí)的視頻,并分段提取關(guān)鍵片段。
  • 提供二級(jí)精度的事件定位,對(duì)總結(jié)和信息提取非常有用。

視覺(jué)定位

  • 能識(shí)別圖像中的物體,并輸出精確的邊界框或關(guān)鍵點(diǎn)。
  • 還能生成穩(wěn)定的 JSON 結(jié)果用于描述對(duì)象屬性,方便結(jié)構(gòu)化分析。

結(jié)構(gòu)化輸出

  • 可將掃描文件、發(fā)票、表單等轉(zhuǎn)化為可讀的數(shù)字?jǐn)?shù)據(jù),方便在金融和商務(wù)場(chǎng)景下使用。
  • 自動(dòng)化數(shù)據(jù)抽取,讓處理文檔更高效并保持高準(zhǔn)確度。

強(qiáng)大的圖像識(shí)別

  • 擁有非常廣泛的識(shí)別能力,從地標(biāo)、動(dòng)物、植物到流行文化元素都能辨識(shí)。
  • 可以對(duì)多類別圖像進(jìn)行識(shí)別和分類,適合檢索和分類等應(yīng)用。

增強(qiáng)的文本與文檔解析

  • OCR(光學(xué)字符識(shí)別)能力更強(qiáng),多語(yǔ)言、多方向、多場(chǎng)景都能處理。
  • 引入 QwenVL HTML 格式,能從雜志、論文、網(wǎng)頁(yè)中提取復(fù)雜的布局結(jié)構(gòu)。

強(qiáng)化視頻處理

  • 采用動(dòng)態(tài)幀率訓(xùn)練及絕對(duì)時(shí)間編碼,能精準(zhǔn)把握時(shí)間信息。
  • 在長(zhǎng)視頻場(chǎng)景下的場(chǎng)景識(shí)別、事件提取和摘要能力更上一層樓。

性能優(yōu)化

  • Vision Transformer(ViT)中采用 Window Attention,保持精度同時(shí)減少計(jì)算量。
  • 使用 RMSNorm、SwiGLU 等結(jié)構(gòu),使得它與 LLM 架構(gòu)更好對(duì)齊。

多規(guī)格模型可選

  • 提供 3B、7B、72B 三種大小,面向不同的硬件與應(yīng)用需求。
  • 同時(shí)在 Hugging Face、ModelScope 開源,基礎(chǔ)版與指令版都有。

接下來(lái)是 Qwen 2.5 Max

Qwen2.5 Max 則是另一款大殺器。下面簡(jiǎn)單介紹它的核心功能。

Qwen 2.5 Max 的主要特點(diǎn)

大規(guī)模 MoE(Mixture-of-Experts)模型

  • 采用專家混合架構(gòu),實(shí)現(xiàn)更高效的擴(kuò)展性。
  • 預(yù)訓(xùn)練超過(guò) 20 萬(wàn)億令牌(tokens),知識(shí)覆蓋面極廣。

強(qiáng)化的后期訓(xùn)練

  • 使用 SFT(Supervised Fine-Tuning)進(jìn)行更好的任務(wù)定向調(diào)優(yōu)。
  • 通過(guò)人類反饋強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)一步對(duì)齊用戶偏好。

基準(zhǔn)表現(xiàn)

  • 在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 等測(cè)試上超越 DeepSeek V3。
  • 在 MMLU-Pro(大學(xué)水平知識(shí)測(cè)評(píng))上也保持領(lǐng)先或具備競(jìng)爭(zhēng)力。

與主流模型對(duì)比

  • 在對(duì)話與編程任務(wù)上,可與 GPT-4o、Claude-3.5-Sonnet 等商業(yè)模型一較高下。
  • 底層模型能力勝過(guò)同樣開源的 DeepSeek V3 與 Llama-3.1–405B。

API 與 OpenAI 兼容

  • 可以通過(guò)阿里云(Alibaba Cloud)訪問(wèn),并且兼容 OpenAI-API,使用方便。
  • 輕松在 Python 或其他 OpenAI 支持的框架中集成。

總之,看得出來(lái) Qwen 在下一盤大棋!

如何使用 Qwen 2.5 VL 與 Qwen 2.5 Max?

對(duì)于想嘗鮮或在項(xiàng)目中集成這兩款新模型,主要途徑大致有:

  • 開源平臺(tái):可以到 Hugging Face、ModelScope 等處找到對(duì)應(yīng)倉(cāng)庫(kù),下載基礎(chǔ)版(Base)或指令版(Instruct)模型。
  • 云端服務(wù):阿里云已提供官方 API,并支持與 OpenAI 兼容的方式接入。只要你熟悉 Python 或 OpenAI SDK,就能快速上手。
  • 本地部署(硬件允許的話):如果在本地有足夠算力,可以下載合適大小的模型自行部署,用于敏感數(shù)據(jù)處理或離線場(chǎng)景。

從視覺(jué)理解到大規(guī)模推理,Qwen 2.5 VL 與 Qwen 2.5 Max 都彰顯了下一個(gè)階段的模型實(shí)力。對(duì)需要極致性能或全能 AI 方案的人來(lái)說(shuō),確實(shí)值得一試。

責(zé)任編輯:姜華 來(lái)源: 大遷世界
相關(guān)推薦

2025-02-27 08:00:00

DeepSeek大模型人工智能

2025-03-27 12:30:36

2025-01-09 09:56:34

視覺(jué)模型圖像生成

2025-06-06 01:26:00

QwenDeepSeekYaRN

2025-05-14 01:00:00

2025-05-06 00:35:33

2025-03-25 12:11:08

2025-03-25 09:24:05

2025-03-27 10:04:36

阿里云通義千問(wèn)多模態(tài)

2025-04-14 00:20:00

2024-12-25 20:13:35

2024-08-30 15:19:22

2024-08-30 14:35:00

2025-03-25 13:31:45

2025-04-30 07:26:04

2024-09-26 07:54:45

阿里視覺(jué)語(yǔ)言模型

2024-12-25 09:30:00

2025-02-08 09:30:00

2024-11-12 14:00:00

AI編程
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)