偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

華科開(kāi)源MonkeyOCR:3B小模型,居然把GPT-4o給比下去了

人工智能
MonkeyOCR是個(gè)不錯(cuò)的開(kāi)源項(xiàng)目,特別是對(duì)于需要高效文檔解析的場(chǎng)景。雖然不敢說(shuō)真的"吊打"所有商業(yè)產(chǎn)品,但確實(shí)在某些方面有自己的優(yōu)勢(shì)。

看到這個(gè)標(biāo)題,你可能會(huì)想"又一個(gè)號(hào)稱吊打GPT的模型"。但這次不一樣,華中科技大學(xué)真的搞出了點(diǎn)名堂。

前幾天,華科和金山辦公聯(lián)合開(kāi)源了一個(gè)叫MonkeyOCR的文檔解析模型。聽(tīng)名字挺可愛(ài),但實(shí)力可不含糊。

圖片圖片

這個(gè)只有3B參數(shù)的小模型,在文檔解析任務(wù)上竟然超越了GPT-4o、Gemini 2.5 Pro這些巨頭的產(chǎn)品。

我特意去試了試他們的在線demo,確實(shí)有兩把刷子。

圖片圖片

最讓我印象深刻的是它處理公式的能力。你知道,數(shù)學(xué)公式一直是OCR的老大難問(wèn)題,那些復(fù)雜的分式、積分符號(hào),傳統(tǒng)OCR經(jīng)常識(shí)別錯(cuò)。但MonkeyOCR在公式識(shí)別上比MinerU提升了15%,這個(gè)進(jìn)步挺明顯的。

表格處理也很出色。我測(cè)試了幾張復(fù)雜的財(cái)務(wù)報(bào)表,它不僅能準(zhǔn)確識(shí)別表格內(nèi)容,還能保持原有的結(jié)構(gòu)關(guān)系。相比之下,很多工具要么識(shí)別不準(zhǔn),要么把表格結(jié)構(gòu)搞亂了。

從技術(shù)角度看,MonkeyOCR創(chuàng)新在于它的SRR三元組設(shè)計(jì)。簡(jiǎn)單說(shuō)就是把文檔解析分成三個(gè)問(wèn)題:"Where is it?"(結(jié)構(gòu)檢測(cè))、"What is it?"(內(nèi)容識(shí)別)、"How is it organized?"(關(guān)系理解)。

這種設(shè)計(jì)很聰明。傳統(tǒng)pipeline方法容易累積錯(cuò)誤,端到端大模型又太笨重。MonkeyOCR找了個(gè)平衡點(diǎn),既保證精度又控制了計(jì)算開(kāi)銷。

整體表現(xiàn)上,MonkeyOCR比MinerU平均提升了5.1%,在公式識(shí)別上提升15%,表格處理上提升8.6%。

更關(guān)鍵的是效率。MonkeyOCR處理多頁(yè)文檔的速度是0.84頁(yè)/秒,MinerU是0.65頁(yè)/秒,而Qwen2.5-VL-7B只有可憐的0.12頁(yè)/秒。

這意味著什么?如果你要處理100頁(yè)的PDF,MonkeyOCR只需要2分鐘,而Qwen需要14分鐘。在實(shí)際應(yīng)用中,這種速度差異是致命的。

圖片圖片

還有一個(gè)細(xì)節(jié)讓我挺驚喜:這個(gè)3B的模型可以在單張RTX 3090上跑。要知道,現(xiàn)在動(dòng)不動(dòng)就幾十GB的大模型,普通人根本跑不起來(lái)。MonkeyOCR這種"小而美"的設(shè)計(jì),讓更多開(kāi)發(fā)者能夠?qū)嶋H使用。

當(dāng)然,也不是完美的。我在測(cè)試中發(fā)現(xiàn),對(duì)于一些非常規(guī)排版的文檔,比如古籍或者手寫體,識(shí)別效果還是有限的。不過(guò)這也正常,畢竟這些場(chǎng)景的數(shù)據(jù)相對(duì)稀少。

從訓(xùn)練數(shù)據(jù)看,團(tuán)隊(duì)構(gòu)建了MonkeyDoc數(shù)據(jù)集,包含390萬(wàn)個(gè)實(shí)例,覆蓋十多種文檔類型。這個(gè)數(shù)據(jù)規(guī)模在文檔解析領(lǐng)域算是相當(dāng)不錯(cuò)了。

華科在AI視覺(jué)這塊確實(shí)有兩把刷子。

他們之前的TextMonkey、Mini-Monkey都在OCR領(lǐng)域有不錯(cuò)的表現(xiàn)。這次的MonkeyOCR可以看作是這個(gè)系列一個(gè)重要迭代,技術(shù)越來(lái)越成熟了。

對(duì)于想要部署文檔解析服務(wù)的公司來(lái)說(shuō),MonkeyOCR提供了一個(gè)很有吸引力的選擇。既有不錯(cuò)的精度,又能控制成本,訓(xùn)練也只需要8張RTX 3090,門檻不算太高。

項(xiàng)目已經(jīng)開(kāi)源,GitHub上已經(jīng)有2.5K的star了。代碼、模型都能免費(fèi)下載,還提供了在線demo可以直接測(cè)試。

只是有一點(diǎn)要注意,在線demo對(duì)大圖片的處理似乎有些bug,測(cè)試時(shí)候最好控制下圖片尺寸。

總的來(lái)說(shuō),MonkeyOCR是個(gè)不錯(cuò)的開(kāi)源項(xiàng)目,特別是對(duì)于需要高效文檔解析的場(chǎng)景。雖然不敢說(shuō)真的"吊打"所有商業(yè)產(chǎn)品,但確實(shí)在某些方面有自己的優(yōu)勢(shì)。


責(zé)任編輯:武曉燕 來(lái)源: 阿丸筆記
相關(guān)推薦

2025-07-23 08:33:00

2025-05-26 09:05:00

2025-08-07 14:05:40

OpenAI大模型開(kāi)源

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2025-10-28 02:11:00

2025-04-08 02:26:00

2024-08-14 14:30:00

AI訓(xùn)練

2024-05-30 12:50:05

2025-04-11 09:10:00

模型開(kāi)源AI

2014-09-28 10:09:28

2024-09-06 13:00:29

2025-04-27 09:54:48

2024-05-21 12:23:17

2024-07-04 15:26:56

2024-06-05 08:29:35

2025-06-06 14:17:11

模型訓(xùn)練AI

2025-06-11 09:00:00

2025-04-23 15:25:27

語(yǔ)言模型Eagle 2.5英偉達(dá)

2024-12-26 07:10:00

2025-07-14 09:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)