偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="uspmv"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

9B“小”模型干了票“大”的：性能超8倍參數(shù)模型，拿下23項SOTA | 智譜開源

2025-07-02 14:39:29

人工智能新聞

智譜發(fā)布并開源了一個僅9B大小的模型——GLM-4.1V-9B-Thinking，在28項評測中一舉拿下23個SOTA！

如果一個視覺語言模型（VLM）只會“看”，那真的是已經(jīng)不夠看的了。

因為現(xiàn)在真實世界的任務(wù)簡直不要太復雜，要想讓AI干點實事兒，光有多模態(tài)還不夠，必須還得有深度思考的強推理能力。

而就在剛剛，智譜發(fā)布并開源了一個僅9B大小的模型——GLM-4.1V-9B-Thinking，在28項評測中一舉拿下23個SOTA！

毫無懸念地成為10B級別里效果最好的VLM模型；而在18項評測中，它都可以與自身8倍參數(shù)量的Qwen-2.5-VL-72B一較高下，甚至是超越的程度。

整體來看，GLM-4.1V-9B-Thinking之所以能夠這般“以小搏大”，核心原因就是會思考：

引入了思維鏈（Chain-of-Thought）推理機制，并通過課程采樣強化學習（RLCS，Reinforcement Learning with Curriculum Sampling）來全面提升模型能力。

值得一提的是，在智譜這次發(fā)布新模型之際，浦東創(chuàng)投集團和張江集團對其進行了10億元投資，并將于近期完成首次交割。

評測是一方面，但也正如我們剛才提到的，現(xiàn)在的AI“貴在”得能干點實事兒，那么GLM-4.1V-9B-Thinking具體“療效”如何，我們繼續(xù)往下看。

先看效果

例如我們在不給提醒的情況下，先“喂”GLM-4.1V-9B-Thinking一幅名畫：

然后向它提問：

這幅畫中哪些元素違背物理規(guī)律？藝術(shù)家可能通過這些矛盾表達什么哲學思想？

可以看到，GLM-4.1V-9B-Thinking先是看出了這是西班牙超現(xiàn)實主義畫家薩爾瓦多·達利創(chuàng)作的《記憶的永恒》；然后也道出了畫作中存在違背物理的視覺符號等。

我們再讓它看一眼今年高考的一道圖文并茂數(shù)學真題，并附上一句Prompt：

請幫我解決這個題目，給出詳細過程和答案。

（PS：這道題很多大模型在之前都有出現(xiàn)過翻車。）

GLM-4.1V-9B-Thinking在思考片刻過后，就會給出一個簡潔且精準的答案——A：

再如此前同樣讓一眾大模型“頭疼”的看時鐘和日期問題，我們也讓GLM-4.1V-9B-Thinking試一試：

看這張圖，分別是什么時間和什么日期？

在同時處理兩個易出錯的問題時，GLM-4.1V-9B-Thinking依舊是給出了相對準確答案（時間有一點小偏差，應(yīng)該是10點11分）：

以及還有生活中比較有趣且實用的例子——看手相：

有懂手相的小伙伴，也可以留言討論GLM-4.1V-9B-Thinking看得是否準確哦~

由此可見，GLM-4.1V-9B-Thinking在“邊看邊想”這件事已經(jīng)達到了普通人的水準。

整體而言，它現(xiàn)在的能力包括但不限于：

超長視頻解析：能看懂長達2小時的視頻，準確分析其中的人物、事件和時間關(guān)系
智能讀圖問答：不僅能描述圖片內(nèi)容，還能結(jié)合常識進行邏輯推理和解答
理科解題助手：支持數(shù)學、物理等理科題目解答，提供詳細解題步驟
圖文識別轉(zhuǎn)換：可精準提取圖片/視頻中的文字和表格，轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)
專業(yè)文檔處理：擅長解讀金融、政務(wù)等專業(yè)文件，快速提取關(guān)鍵信息
圖像定位標注：能標出圖片中指定對象的具體位置坐標
智能界面操作：可識別電腦/手機界面元素，執(zhí)行點擊、滑動等操作指令
看圖寫代碼：根據(jù)設(shè)計圖自動生成前端網(wǎng)頁代碼

再看技術(shù)

在看完效果之后，我們再來聊聊GLM-4.1V-9B-Thinking背后的技術(shù)。

從GLM-4.1V-9B-Thinking的模型架構(gòu)來看，主要包含三大塊的內(nèi)容，它們分別是：

視覺編碼器（ViT Encoder）
多層感知機適配器（MLP Projector）
語言解碼器（Language Decoder）

視覺編碼器就好比模型的 “眼睛”，團隊給它選了AIMv2-Huge這個 “超級視力裝備”。

一般的 “眼睛” 看視頻用的是二維卷積，就像一張張照片，但GLM-4.1V-9B-Thinking這個 “眼睛” 換成了三維卷積，這樣它就能像看電影一樣，在時間維度上 “快進快退”，快速處理視頻，效率大大提高。要是遇到靜態(tài)圖片，它就把圖片多復制幾份，假裝是 “小短片”，保證輸入格式統(tǒng)一。

為了讓這個 “眼睛” 不管看到多寬多窄、多清晰的畫面都能適應(yīng)，團隊還給它做了兩個升級。

第一個是加了二維旋轉(zhuǎn)位置編碼，這就像給 “眼睛” 戴了一副 “特殊眼鏡”，就算畫面特別寬（寬高比超過 200:1），或者特別清晰（4K 以上分辨率），它也能穩(wěn)穩(wěn)地 “看清楚”。

第二個是保留了可學習的絕對位置嵌入，就像給 “眼睛” 記住每個畫面位置的 “小本本”，在訓練的時候，通過雙三次插值，讓它能靈活適應(yīng)不同大小的畫面。

語言解碼器則是模型的 “嘴巴” 和 “大腦”，負責理解你的問題，然后給出答案。

團隊把原來的旋轉(zhuǎn)位置編碼升級成了三維的，這讓模型在同時處理畫面和文字的時候，能更好地理解空間關(guān)系，就像你一邊看地圖一邊聽別人描述路線，能更快找到方向，而且它回答文字問題的能力一點沒減弱。

多層感知機適配器就像是 “眼睛” 和 “大腦” 之間的 “翻譯官”，把 “眼睛” 看到的信息翻譯成 “大腦” 能理解的語言，讓整個模型順暢地工作。

在訓練GLM-4.1V-9B-Thinking方面，則是包含三個階段：預訓練（Pretraining）、監(jiān)督微調(diào)（SFT）和課程采樣強化學習（RLCS）。

預訓練階段

在最初階段，團隊的目標是讓模型具備廣泛的圖文理解能力。

為此，智譜采用了“雙通道并行”的訓練方式，對模型進行了12萬步的訓練。每次輸入的文本長度為8192，整體批量大小為1536。訓練用的數(shù)據(jù)包括圖像配文字、圖文混合內(nèi)容、識別文字（OCR）、圖像定位、指令問答等多種類型。

為了提高訓練效率，團隊還用了“樣本拼接”的方法，把不同長度的訓練數(shù)據(jù)拼成接近最大長度的長序列，這樣可以盡可能多地利用顯存，減少浪費。

為了讓模型更好地處理高分辨率圖片、視頻片段以及特別長的文本，團隊在訓練中加入了更復雜的數(shù)據(jù)，比如視頻的連續(xù)畫面和長度超過8000字的圖文內(nèi)容。

在這個階段，團隊把輸入的序列長度擴展到了3萬多（具體是32,768），并采用了更高級的并行訓練方式（兩路張量并行加上四路上下文并行），繼續(xù)訓練了一萬步，同時保持之前的總批量大小不變（1,536），以確保訓練的穩(wěn)定性和效率。

監(jiān)督微調(diào)（SFT）階段

在微調(diào)階段，團隊專門準備了一批高質(zhì)量的“思維鏈”（CoT）訓練數(shù)據(jù)，目的是提升模型在處理復雜因果關(guān)系和長篇推理問題時的能力。這些訓練樣本都按照統(tǒng)一的格式進行組織：

<think> {推理過程} </think> <answer> {最終答案} </answer>
<think> {推理過程} </think> <answer> {最終答案} </answer>

微調(diào)時團隊對模型的全部參數(shù)進行了訓練，輸入長度設(shè)為32768，批量大小為32。

訓練內(nèi)容來自多個實際任務(wù)場景，比如解數(shù)學題、多輪對話、任務(wù)規(guī)劃和復雜指令的執(zhí)行，數(shù)據(jù)形式包括圖文結(jié)合、多模態(tài)輸入和純文本等多種類型。

這個階段不僅進一步提升了模型處理多模態(tài)信息的推理能力，同時也讓它在語言理解和邏輯推理方面依然表現(xiàn)穩(wěn)定。

課程采樣強化學習（RLCS）階段

在SFT的基礎(chǔ)上，團隊還引入了課程采樣強化學習來提升性能。

團隊主要結(jié)合了基于可驗證獎勵的強化學習（RLVR）和基于人類反饋的強化學習（RLHF）來覆蓋多個關(guān)鍵任務(wù)維度：

STEM領(lǐng)域問題求解（數(shù)學、物理、化學）
多模態(tài)信息定位與理解（OCR、實體定位、視頻分析）
智能體任務(wù)（GUI交互、代理規(guī)劃）
文檔與圖表理解、邏輯推理、復雜指令執(zhí)行等

團隊采用“課程學習”的方式進行大規(guī)模強化訓練，也就是先讓模型從簡單任務(wù)開始，逐步挑戰(zhàn)更難的任務(wù)。通過這種由淺入深的訓練策略，模型在實用性、準確性以及穩(wěn)定性方面都有了明顯的提升。

最后，關(guān)于GLM-4.1V-9B-Thinking的論文、代碼等也均已開源，感興趣的小伙伴可以看看文末鏈接哦~

論文地址：https://arxiv.org/abs/2507.01006

開源列表：

[1]Github：https://github.com/THUDM/GLM-4.1V-Thinking
[2]ModelScope：https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
[3]Hugging Face：https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
[4]HuggingFace 體驗鏈接：https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
[5]魔搭社區(qū)體驗鏈接： https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

智譜MaaS開發(fā)平臺bigmodel.cn同步上線GLM-4.1V-Thinking-Flash API：

[1]API 使用指南：https://www.bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking

[2]API 接口文檔：https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking

[3]體驗中心：https://www.bigmodel.cn/trialcenter/modeltrial/text?modelCode=glm-4.1v-thinking-flash

責任編輯：張燕妮來源：量子位

開源模型 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<kbd id="nz1tv"><samp id="nz1tv"><meter id="nz1tv"></meter></samp></kbd>