偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!

發(fā)布于 2025-7-11 07:48
瀏覽
0收藏

大家好,我是劉聰NLP。

最近開源社區(qū)好起來了,先是華為、百度、騰訊,相繼開源模型,

然后昨天智譜又開源了模型,GLM-4.1V-Thinking,又是被刷屏朋友圈了!

但是說實話,一開始因為這個標(biāo)題,我都不想測試GLM-4.1V-Thinking了,感覺就很夸張,并且一猜就是干掉了Qwen-2.5-VL-72B。

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

PS:我Qwen天天被吊打?。?/p>

不過,有個好友非要讓我測一下,因為他告訴我,我之前的表格識別,這個9B模型好像可以了。

不測不知道,一測嚇一跳,沒想到真出來了?。?/p>

每次有多模態(tài)大模型,我基本上都會測試一下,沒想到GLM-4.1V-Thinking竟然還可以。

懶人不愛看版:

  • 表格識別效果還可以,大部分表格可以完全識別正確,個別會有一些瑕疵,但已經(jīng)很強(qiáng)了!
  • 圖像理解+計算不錯,可以準(zhǔn)確識別圖片內(nèi)容,并進(jìn)行理解;
  • 多模態(tài)做題一般,感覺數(shù)學(xué)題上,不如純文本大模型效果好;
  • 可以通過網(wǎng)站截圖進(jìn)行1:1復(fù)刻,9B模型可以做到,真沒想到;
  • OCR手寫體識別也還可以,不過那個經(jīng)常錯的連體字,沒有識別出來;
  • 在我測試的一些任務(wù)上,是可以對標(biāo)Qwen-2.5-VL-72B的,但模型尺寸依然感覺還是小了,太復(fù)雜的任務(wù)效果不一定優(yōu)于72B。
  • 但因為9B,模型部署成本小了太多,同尺寸模型中,現(xiàn)在應(yīng)該是Top級別。

實測樣例

表格識別

## Role
你是一位有多年經(jīng)驗的OCR表格識別專家。

## Goals
需要通過給定的圖片,識別表格里的內(nèi)容,并以html表格結(jié)果格式輸出結(jié)果。

## Constrains
- 需要認(rèn)識識別圖片中的內(nèi)容,將每個表格單元格中的內(nèi)容完整的識別出來,并填入html表格結(jié)構(gòu)中;
- 圖片中的表格單元格中可能存在一些占位符需要識別出來,例如"-"、"—"、"/"等;
- 輸出表格結(jié)構(gòu)一定遵循圖片中的結(jié)構(gòu),表格結(jié)構(gòu)完全一致;
- 特別注意圖片中存在合并單元格的情況,結(jié)構(gòu)不要出錯;
- 對于內(nèi)容較多的圖片,一定要輸出完整的結(jié)果,不要斷章取義,更不要隨意編造;
- 圖片內(nèi)容需要完整識別,不要遺漏,同時注意合并單元;
- 最終輸出結(jié)果需要是html格式的表格內(nèi)容。

## Initialization
請仔細(xì)思考后,輸出html表格結(jié)果。

簡單表格,結(jié)果:完全正確

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

原表格

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

生成結(jié)果

中等表格,結(jié)果基本上正確,只有最后的“觀察檢查”處,將一個單元格分成了兩個,其他沒有問題。

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

原表格

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

生成結(jié)果

復(fù)雜表格,結(jié)果完全正確,這個我是萬萬沒想到的,這種犬牙交錯的單元格合并,9B模型竟然識別對了,有點(diǎn)強(qiáng)!

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

原表格

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

生成結(jié)果

識別計算

prompt:請逐步詳細(xì)分析,告訴我在中文數(shù)據(jù)和英文數(shù)據(jù)分別占比是多少,并且告訴我總和

結(jié)果:正確,77.71%,沒問題

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

手寫識別

prompt:請逐步詳細(xì)分析,輸出圖片中的文字內(nèi)容

結(jié)果:錯了一個字,“娶”->“要”,不過這個字,好多多模態(tài)大模型都識別成“要”,不知道為什么,但是從語義上,不應(yīng)該,一直沒有想明白。

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

高考考題

prompt:解題

結(jié)果:最后一問錯了,是3√3+3√2,不是√10+3,其他正確,但是現(xiàn)在大參數(shù)的大模型都能對,畢竟現(xiàn)在很多130+、140+的模型了。

我也測試了一些其他的題,感覺回答的總會有點(diǎn)瑕疵,不知道是不是我的圖片不清晰導(dǎo)致的,后面我再測測看。

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

網(wǎng)頁復(fù)刻

截個魔搭的首頁,之間讓GLM-4.1V復(fù)刻

prompt:請1:1復(fù)刻圖片中的網(wǎng)頁內(nèi)容

結(jié)果,基本上是1:1復(fù)刻的,9B模型做到這一步,很強(qiáng)了。

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

原網(wǎng)站圖

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

復(fù)刻結(jié)果

說實話,整體測試效果我還是有點(diǎn)震驚的,不看榜單效果,但看能不能用這一點(diǎn)來說,GLM-4.1V-Thinking模型還是可以的,并且9B大小,本地部署也是十分友好了。

論文細(xì)節(jié)

因為同步發(fā)了paper,最后再過一下論文的細(xì)節(jié)。

paper: https://arxiv.org/abs/2507.01006
Github:https://github.com/THUDM/GLM-4.1V-Thinking
HF:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
魔搭體驗鏈接:https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

模型結(jié)構(gòu)

模型由視覺編碼器、多層感知機(jī)適配器、大語言模型解碼器組成,如下圖,其中,將AIMv2-Huge 作為視覺編碼器,將 GLM 作為語言解碼器。

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

視覺編碼器,采用Qwen2-VL策略,將原始的2D卷積替換為3D卷積,有效提升了處理效率。同時為了支持任意圖像分辨率和寬高比,做了兩個優(yōu)化,

  • 采用2D-RoPE,使模型能夠有效處理具有極端寬高比(超過200:1)或高分辨率(超過4K)的圖像;
  • 保留了可學(xué)習(xí)絕對位置嵌入,并通過雙三次插值方式在訓(xùn)練過程中動態(tài)適配不同分辨率輸入,以保留ViT預(yù)訓(xùn)練模型的原有能力。

語言解碼器,將RoPE擴(kuò)展到3D-RoPE,在保留模型文本能力的前提下,又進(jìn)一步增強(qiáng)了模型在多模態(tài)輸入處理中的空間理解能力。

Pre-Training

預(yù)訓(xùn)練涉及兩個階段,

  • 多模態(tài)預(yù)訓(xùn)練,初始階段對所有參數(shù)進(jìn)行120K步驟訓(xùn)練,最大長度8K,Batch大小1536,同時采用數(shù)據(jù)樣本拼接打包策略,將文本擴(kuò)展到最大長度,以充分利用資源。
  • 長上下文增量訓(xùn)練,通過使用視頻和超過8K長度的圖文數(shù)據(jù)訓(xùn)練,以增加模型對高分辨率圖像、視頻序列和超長文本的處理能力,最大長度32K,訓(xùn)練10K步,Batch依然為大小1536。

在預(yù)訓(xùn)練過程中,使用的數(shù)據(jù)包含圖像字幕、交錯圖文、OCR、Grounding、指令響應(yīng)、視頻數(shù)據(jù)等數(shù)據(jù)。

Supervised Fine-Tuning

微調(diào)階段,將基礎(chǔ)視覺語言模型轉(zhuǎn)變?yōu)槟軌蜻M(jìn)行CoT推理模型,讓模型學(xué)習(xí)推理風(fēng)格,增強(qiáng)模型冷啟動基礎(chǔ)。

模型訓(xùn)練最大長度32K,Batch大小32,訓(xùn)練數(shù)據(jù)涉及多模態(tài)數(shù)據(jù)外,還有高質(zhì)量的純文本數(shù)據(jù),覆蓋數(shù)學(xué)、多輪對話、代理和指令遵循等任務(wù)。

RL

采用可驗證獎勵強(qiáng)化學(xué)習(xí) (RLVR) 和人工反饋強(qiáng)化學(xué)習(xí) (RLHF),并且通過課程采樣方法,在STEM 問題、學(xué)字符識別 (OCR)、視頻理解、GUI 代理、圖表和文檔理解、邏輯推理、指令遵循等任務(wù)上,進(jìn)行由簡單到復(fù)雜的動態(tài)強(qiáng)化學(xué)習(xí)訓(xùn)練。

對于RLVR,要求模型明確用框標(biāo)記來標(biāo)記最終答案,同時只將框內(nèi)的內(nèi)容與參考答案進(jìn)行比較,以解決通過LLMs進(jìn)行提取出現(xiàn)的不準(zhǔn)確性。并且使用<|begin_of_box|>{FINAL_ANSWER}<|end_of_box|>來標(biāo)記答案,而不是\boxed{}。

同時,為了避免獎勵欺騙,建立領(lǐng)域特定的獎勵系統(tǒng),包括共享驗證功能、領(lǐng)域特定模塊和單元測試。

除此之外,還建立了格式和風(fēng)格檢查的獎勵系統(tǒng),格式就是答案是否被<|begin_of_box|>和<|end_of_box|>包裹,風(fēng)格就是think或answer內(nèi)容是否由大量重復(fù)內(nèi)容、或者是否符合指令、流暢、邏輯嚴(yán)謹(jǐn)?shù)取?/p>

最后,榜單效果,

服了!沒想到,GLM-4.1V-Thinking竟然把這些問題都答對了!-AI.x社區(qū)

寫在最后

這次測試GLM-4.1V-Thinking,真的讓我對“9B模型的上限”重新有了認(rèn)識。

說實話,它不是沒有缺點(diǎn),有些題也還是答錯了,但在表格識別、網(wǎng)頁復(fù)刻這些任務(wù)上能跑的這么好,真是很難得。

而且,9B!可以本地部署、部署成本低、延遲也小,那它的實際價值就不止是“效果好”那么簡單了。對于很多開發(fā)者來說,自己電腦就能部起來,這才是真正能“用起來”的。

我后面會試試在我自己垂類任務(wù)和真實業(yè)務(wù)中的效果如何,

實踐是檢驗真理的唯一標(biāo)準(zhǔn),如果你也需要使用多模態(tài)模型,不妨親自試試,好壞在各自的心中。

本文轉(zhuǎn)載自?????NLP工作站?????,作者:NLP工作站

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦