9B“小”模型干了票“大”的:性能超8倍參數(shù)模型,拿下23項SOTA | 智譜開源
如果一個視覺語言模型(VLM)只會“看”,那真的是已經(jīng)不夠看的了。
因為現(xiàn)在真實世界的任務(wù)簡直不要太復雜,要想讓AI干點實事兒,光有多模態(tài)還不夠,必須還得有深度思考的強推理能力。
而就在剛剛,智譜發(fā)布并開源了一個僅9B大小的模型——GLM-4.1V-9B-Thinking,在28項評測中一舉拿下23個SOTA!
毫無懸念地成為10B級別里效果最好的VLM模型;而在18項評測中,它都可以與自身8倍參數(shù)量的Qwen-2.5-VL-72B一較高下,甚至是超越的程度。

整體來看,GLM-4.1V-9B-Thinking之所以能夠這般“以小搏大”,核心原因就是會思考:
引入了思維鏈(Chain-of-Thought)推理機制,并通過課程采樣強化學習(RLCS,Reinforcement Learning with Curriculum Sampling)來全面提升模型能力。
值得一提的是,在智譜這次發(fā)布新模型之際,浦東創(chuàng)投集團和張江集團對其進行了10億元投資,并將于近期完成首次交割。
評測是一方面,但也正如我們剛才提到的,現(xiàn)在的AI“貴在”得能干點實事兒,那么GLM-4.1V-9B-Thinking具體“療效”如何,我們繼續(xù)往下看。
先看效果
例如我們在不給提醒的情況下,先“喂”GLM-4.1V-9B-Thinking一幅名畫:

然后向它提問:
這幅畫中哪些元素違背物理規(guī)律?藝術(shù)家可能通過這些矛盾表達什么哲學思想?

可以看到,GLM-4.1V-9B-Thinking先是看出了這是西班牙超現(xiàn)實主義畫家薩爾瓦多·達利創(chuàng)作的《記憶的永恒》;然后也道出了畫作中存在違背物理的視覺符號等。
我們再讓它看一眼今年高考的一道圖文并茂數(shù)學真題,并附上一句Prompt:
請幫我解決這個題目,給出詳細過程和答案。
(PS:這道題很多大模型在之前都有出現(xiàn)過翻車。)

GLM-4.1V-9B-Thinking在思考片刻過后,就會給出一個簡潔且精準的答案——A:

再如此前同樣讓一眾大模型“頭疼”的看時鐘和日期問題,我們也讓GLM-4.1V-9B-Thinking試一試:
看這張圖,分別是什么時間和什么日期?

在同時處理兩個易出錯的問題時,GLM-4.1V-9B-Thinking依舊是給出了相對準確答案(時間有一點小偏差,應(yīng)該是10點11分):

以及還有生活中比較有趣且實用的例子——看手相:

有懂手相的小伙伴,也可以留言討論GLM-4.1V-9B-Thinking看得是否準確哦~

由此可見,GLM-4.1V-9B-Thinking在“邊看邊想”這件事已經(jīng)達到了普通人的水準。
整體而言,它現(xiàn)在的能力包括但不限于:
- 超長視頻解析:能看懂長達2小時的視頻,準確分析其中的人物、事件和時間關(guān)系
- 智能讀圖問答:不僅能描述圖片內(nèi)容,還能結(jié)合常識進行邏輯推理和解答
- 理科解題助手:支持數(shù)學、物理等理科題目解答,提供詳細解題步驟
- 圖文識別轉(zhuǎn)換:可精準提取圖片/視頻中的文字和表格,轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)
- 專業(yè)文檔處理:擅長解讀金融、政務(wù)等專業(yè)文件,快速提取關(guān)鍵信息
- 圖像定位標注:能標出圖片中指定對象的具體位置坐標
- 智能界面操作:可識別電腦/手機界面元素,執(zhí)行點擊、滑動等操作指令
- 看圖寫代碼:根據(jù)設(shè)計圖自動生成前端網(wǎng)頁代碼
再看技術(shù)
在看完效果之后,我們再來聊聊GLM-4.1V-9B-Thinking背后的技術(shù)。
從GLM-4.1V-9B-Thinking的模型架構(gòu)來看,主要包含三大塊的內(nèi)容,它們分別是:
- 視覺編碼器(ViT Encoder)
- 多層感知機適配器(MLP Projector)
- 語言解碼器(Language Decoder)

視覺編碼器就好比模型的 “眼睛”,團隊給它選了AIMv2-Huge這個 “超級視力裝備”。
一般的 “眼睛” 看視頻用的是二維卷積,就像一張張照片,但GLM-4.1V-9B-Thinking這個 “眼睛” 換成了三維卷積,這樣它就能像看電影一樣,在時間維度上 “快進快退”,快速處理視頻,效率大大提高。要是遇到靜態(tài)圖片,它就把圖片多復制幾份,假裝是 “小短片”,保證輸入格式統(tǒng)一。
為了讓這個 “眼睛” 不管看到多寬多窄、多清晰的畫面都能適應(yīng),團隊還給它做了兩個升級。
第一個是加了二維旋轉(zhuǎn)位置編碼,這就像給 “眼睛” 戴了一副 “特殊眼鏡”,就算畫面特別寬(寬高比超過 200:1),或者特別清晰(4K 以上分辨率),它也能穩(wěn)穩(wěn)地 “看清楚”。
第二個是保留了可學習的絕對位置嵌入,就像給 “眼睛” 記住每個畫面位置的 “小本本”,在訓練的時候,通過雙三次插值,讓它能靈活適應(yīng)不同大小的畫面。
語言解碼器則是模型的 “嘴巴” 和 “大腦”,負責理解你的問題,然后給出答案。
團隊把原來的旋轉(zhuǎn)位置編碼升級成了三維的,這讓模型在同時處理畫面和文字的時候,能更好地理解空間關(guān)系,就像你一邊看地圖一邊聽別人描述路線,能更快找到方向,而且它回答文字問題的能力一點沒減弱。
多層感知機適配器就像是 “眼睛” 和 “大腦” 之間的 “翻譯官”,把 “眼睛” 看到的信息翻譯成 “大腦” 能理解的語言,讓整個模型順暢地工作。
在訓練GLM-4.1V-9B-Thinking方面,則是包含三個階段:預訓練(Pretraining)、監(jiān)督微調(diào)(SFT)和課程采樣強化學習(RLCS)。
預訓練階段
在最初階段,團隊的目標是讓模型具備廣泛的圖文理解能力。
為此,智譜采用了“雙通道并行”的訓練方式,對模型進行了12萬步的訓練。每次輸入的文本長度為8192,整體批量大小為1536。訓練用的數(shù)據(jù)包括圖像配文字、圖文混合內(nèi)容、識別文字(OCR)、圖像定位、指令問答等多種類型。
為了提高訓練效率,團隊還用了“樣本拼接”的方法,把不同長度的訓練數(shù)據(jù)拼成接近最大長度的長序列,這樣可以盡可能多地利用顯存,減少浪費。
為了讓模型更好地處理高分辨率圖片、視頻片段以及特別長的文本,團隊在訓練中加入了更復雜的數(shù)據(jù),比如視頻的連續(xù)畫面和長度超過8000字的圖文內(nèi)容。
在這個階段,團隊把輸入的序列長度擴展到了3萬多(具體是32,768),并采用了更高級的并行訓練方式(兩路張量并行加上四路上下文并行),繼續(xù)訓練了一萬步,同時保持之前的總批量大小不變(1,536),以確保訓練的穩(wěn)定性和效率。
監(jiān)督微調(diào)(SFT)階段
在微調(diào)階段,團隊專門準備了一批高質(zhì)量的“思維鏈”(CoT)訓練數(shù)據(jù),目的是提升模型在處理復雜因果關(guān)系和長篇推理問題時的能力。這些訓練樣本都按照統(tǒng)一的格式進行組織:
<think> {推理過程} </think> <answer> {最終答案} </answer>
<think> {推理過程} </think> <answer> {最終答案} </answer>微調(diào)時團隊對模型的全部參數(shù)進行了訓練,輸入長度設(shè)為32768,批量大小為32。
訓練內(nèi)容來自多個實際任務(wù)場景,比如解數(shù)學題、多輪對話、任務(wù)規(guī)劃和復雜指令的執(zhí)行,數(shù)據(jù)形式包括圖文結(jié)合、多模態(tài)輸入和純文本等多種類型。
這個階段不僅進一步提升了模型處理多模態(tài)信息的推理能力,同時也讓它在語言理解和邏輯推理方面依然表現(xiàn)穩(wěn)定。
課程采樣強化學習(RLCS)階段
在SFT的基礎(chǔ)上,團隊還引入了課程采樣強化學習來提升性能。
團隊主要結(jié)合了基于可驗證獎勵的強化學習(RLVR)和基于人類反饋的強化學習(RLHF)來覆蓋多個關(guān)鍵任務(wù)維度:
- STEM領(lǐng)域問題求解(數(shù)學、物理、化學)
- 多模態(tài)信息定位與理解(OCR、實體定位、視頻分析)
- 智能體任務(wù)(GUI交互、代理規(guī)劃)
- 文檔與圖表理解、邏輯推理、復雜指令執(zhí)行等
團隊采用“課程學習”的方式進行大規(guī)模強化訓練,也就是先讓模型從簡單任務(wù)開始,逐步挑戰(zhàn)更難的任務(wù)。通過這種由淺入深的訓練策略,模型在實用性、準確性以及穩(wěn)定性方面都有了明顯的提升。

最后,關(guān)于GLM-4.1V-9B-Thinking的論文、代碼等也均已開源,感興趣的小伙伴可以看看文末鏈接哦~
論文地址:https://arxiv.org/abs/2507.01006
開源列表:
[1]Github:https://github.com/THUDM/GLM-4.1V-Thinking
[2]ModelScope:https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
[3]Hugging Face:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
[4]HuggingFace 體驗鏈接:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
[5]魔搭社區(qū)體驗鏈接: https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo
智譜MaaS開發(fā)平臺bigmodel.cn同步上線GLM-4.1V-Thinking-Flash API:
[1]API 使用指南:https://www.bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking
[2]API 接口文檔:https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking
[3]體驗中心:https://www.bigmodel.cn/trialcenter/modeltrial/text?modelCode=glm-4.1v-thinking-flash




































