偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OCR 精度再突破:YOLO 11 與 Ollama 的強(qiáng)強(qiáng)聯(lián)合

發(fā)布于 2025-9-30 06:46
瀏覽
0收藏

引言

我們之前在不同文章中分別探討了兩個(gè)強(qiáng)大的框架:Ultralytics YOLO 11,一個(gè)高精度的對(duì)象檢測(cè)模型,以及 Ollama,一個(gè)用于部署 LLM 模型的框架。但如果我們把這兩者結(jié)合起來(lái),打造一個(gè)超精準(zhǔn)的 OCR 系統(tǒng),會(huì)怎么樣呢?今天我就要帶你一步步實(shí)現(xiàn)這個(gè)目標(biāo)!

OCR 精度再突破:YOLO 11 與 Ollama 的強(qiáng)強(qiáng)聯(lián)合-AI.x社區(qū)

核心思路是采用兩階段處理:首先用預(yù)訓(xùn)練的 Ultralytics YOLO 11 模型檢測(cè)并定位文本區(qū)域(比如車牌),然后將這些區(qū)域裁剪出來(lái),傳遞給 Ollama 的視覺語(yǔ)言模型進(jìn)行精準(zhǔn)的文本提取。這種方法能確保我們只從感興趣的區(qū)域讀取文本,大幅提升準(zhǔn)確率,減少誤報(bào)。

按回車或點(diǎn)擊查看完整圖片
兩階段 OCR 架構(gòu)Ultralytics YOLO 11 負(fù)責(zé)檢測(cè),Ollama 負(fù)責(zé)文本提取
兩階段 OCR 架構(gòu)Ultralytics YOLO 11 負(fù)責(zé)檢測(cè),Ollama 負(fù)責(zé)文本提取

設(shè)置開發(fā)環(huán)境

在開始實(shí)現(xiàn) OCR 之前,我們先來(lái)配置開發(fā)環(huán)境,并克隆包含本教程所有必要代碼的倉(cāng)庫(kù)。

步驟 1:創(chuàng)建虛擬環(huán)境

在 Python 項(xiàng)目中,強(qiáng)烈推薦使用虛擬環(huán)境。這樣可以保持依賴的整潔,避免不同項(xiàng)目之間的沖突。你可以在這里找到關(guān)于如何設(shè)置虛擬環(huán)境的詳細(xì)教程。

# 創(chuàng)建虛擬環(huán)境
mkvirtualenv ultralytics-ocr

步驟 2:克隆倉(cāng)庫(kù)并安裝依賴

我已經(jīng)為本教程創(chuàng)建了一個(gè)完整的代碼倉(cāng)庫(kù),隸屬于我的公司 NeuralNet,我們?yōu)槠髽I(yè)提供 AI 咨詢服務(wù)。

git clone https://github.com/NeuralNet-Hub/ultralytics-ollama-OCR.git
cd ultralytics-ollama-ocr
pip install -r requirements.txt

這個(gè)安裝過程可能需要幾分鐘,因?yàn)樗鼤?huì)下載包括 Ultralytics、Gradio 在內(nèi)的所有必要庫(kù)。

步驟 3:?jiǎn)?dòng)應(yīng)用

安裝完成后,你可以啟動(dòng) Gradio 界面:

python main.py --model alpr-yolo11s-aug.pt

啟動(dòng)可能需要幾秒鐘,之后你可以通過瀏覽器訪問 ??http://localhost:7860?? 查看界面。

了解界面組件

應(yīng)用啟動(dòng)后,你會(huì)看到一個(gè) Gradio 界面,包含以下幾個(gè)關(guān)鍵組件:

圖片上傳區(qū)域:

  • 圖片輸入:你可以上傳圖片或從提供的演示圖片中選擇。
  • 演示圖片:來(lái)自RoboFlow(一個(gè)用于數(shù)據(jù)標(biāo)注的平臺(tái))的預(yù)加載示例圖片,供測(cè)試使用。

模型配置:

  • Confidence ThresholdUltralytics YOLO 11模型在計(jì)算機(jī)視覺中的關(guān)鍵參數(shù),決定模型檢測(cè)對(duì)象時(shí)的置信度要求。
  • Intersection Over Union (IOU):對(duì)象檢測(cè)中的重要指標(biāo),用于消除重復(fù)檢測(cè)(如果你是計(jì)算機(jī)視覺新手,建議深入了解一下這個(gè)概念)。

Ollama 服務(wù)器配置:

  • Ollama 服務(wù)器 URL:你的Ollama服務(wù)器部署地址。
  • 視覺模型選擇:從可用的視覺語(yǔ)言模型中選擇。

如果你不知道如何安裝和部署 Ollama,我的網(wǎng)站 henrynavarro.org 上有詳細(xì)的對(duì)比指南。

OCR 精度再突破:YOLO 11 與 Ollama 的強(qiáng)強(qiáng)聯(lián)合-AI.x社區(qū)

選擇合適的視覺模型

什么是視覺模型?

視覺模型類似于傳統(tǒng)的 LLM,但有一個(gè)關(guān)鍵區(qū)別:除了能回答像“給我一段實(shí)現(xiàn) A、B、C 的 Python 代碼”這樣的問題,它們還能接受圖片輸入,回答“描述這張圖片”或“讀取圖片中的文本”等問題。

推薦模型:

在本教程中,我將使用 Qwen 2.5 VL(視覺語(yǔ)言模型),這是我之前文章中測(cè)試過的最喜歡的模型之一。

注意:在撰寫本教程時(shí),Qwen 3 Vision Language 尚未發(fā)布,因此我們使用性能依然出色的 Qwen 2.5

可用視覺模型:

你可以在 ollama.com/models 找到所有可用視覺模型。尋找?guī)в小皏ision”標(biāo)簽的模型,這些模型都適用于我們的 OCR 系統(tǒng)。

了解兩階段 OCR 架構(gòu)

傳統(tǒng) OCR 系統(tǒng)會(huì)無(wú)差別地讀取圖片中的所有文本。如果圖片中有一輛車,車牌上還有其他文本,標(biāo)準(zhǔn) OCR 會(huì)把所有內(nèi)容都提取出來(lái),導(dǎo)致噪音增加、準(zhǔn)確率下降。

我們的解決方案采用了智能的兩階段處理:

工作原理:

  1. Ultralytics YOLO 11 檢測(cè):定制訓(xùn)練的模型識(shí)別并定位車牌。
  2. 圖片裁剪:僅提取檢測(cè)到的區(qū)域。
  3. Ollama 處理:視覺語(yǔ)言模型使用自然語(yǔ)言提示(如“讀取這個(gè)車牌并以 JSON 格式返回”)讀取文本。
  4. 結(jié)果整合:將坐標(biāo)與提取的文本數(shù)據(jù)結(jié)合。

模型訓(xùn)練透明度:

所有訓(xùn)練數(shù)據(jù)、指標(biāo)和實(shí)驗(yàn)結(jié)果都在我的 Weights & Biases 項(xiàng)目中公開。你可以查看詳細(xì)指標(biāo),包括 recall、precision、mAP 分?jǐn)?shù)、GPU 功耗,以及我開發(fā)的三種模型變體的完整訓(xùn)練曲線。

為什么這種方法有效:

通過預(yù)先選擇感興趣的區(qū)域,我們確保文本提取只在真正關(guān)心的區(qū)域進(jìn)行。不會(huì)再讀取無(wú)關(guān)的背景文本、標(biāo)志或車輛 logo。

這種架構(gòu)結(jié)合了兩者的優(yōu)勢(shì):計(jì)算機(jī)視覺對(duì)象檢測(cè)的速度與精度,以及現(xiàn)代視覺語(yǔ)言模型的智能與靈活性。

測(cè)試系統(tǒng)

讓我們用界面中提供的演示圖片來(lái)實(shí)際測(cè)試一下 OCR 系統(tǒng)。

快速測(cè)試流程:

  1. 選擇演示圖片:從你的電腦中選擇一張圖片。
  2. 配置設(shè)置:設(shè)置Confidence Threshold(建議 0.3–0.5),并根據(jù)需要調(diào)整IOU。
  3. 確保 Ollama 連接:確認(rèn)你的Ollama服務(wù)器正在運(yùn)行,并使用類似Qwen 2.5 VL的視覺模型。
  4. 處理圖片:點(diǎn)擊處理按鈕,靜待魔法發(fā)生。

OCR 精度再突破:YOLO 11 與 Ollama 的強(qiáng)強(qiáng)聯(lián)合-AI.x社區(qū)

你會(huì)看到:

  • 檢測(cè)框Ultralytics YOLO 11在檢測(cè)到的車牌周圍繪制邊界框。
  • 提取的文本:從每個(gè)檢測(cè)區(qū)域中讀取的干凈、準(zhǔn)確的文本。
  • JSON 輸出:結(jié)構(gòu)化數(shù)據(jù)格式,方便與其他系統(tǒng)集成。
  • 置信度分?jǐn)?shù):檢測(cè)和文本提取的可靠性指標(biāo)。

系統(tǒng)能在幾秒鐘內(nèi)處理圖片,展示了我們兩階段架構(gòu)的高效性。你可以嘗試不同的 Confidence Threshold,看看它如何影響檢測(cè)靈敏度。

需要為你的企業(yè)提供專業(yè)的計(jì)算機(jī)視覺解決方案?

本教程展示了如何用 Ultralytics YOLO 11 和 Ollama 構(gòu)建 OCR 系統(tǒng),但許多企業(yè)需要更復(fù)雜的、針對(duì)特定用例定制的計(jì)算機(jī)視覺解決方案。這正是我們 NeuralNet Solutions 擅長(zhǎng)的領(lǐng)域。

為什么選擇專業(yè)計(jì)算機(jī)視覺開發(fā)?

我們今天構(gòu)建的 OCR 系統(tǒng)很適合學(xué)習(xí)和小規(guī)模應(yīng)用,但企業(yè)級(jí)計(jì)算機(jī)視覺需要額外的功能:

  • 定制模型訓(xùn)練:基于你的特定數(shù)據(jù)和用例訓(xùn)練模型。
  • 生產(chǎn)級(jí)擴(kuò)展性:優(yōu)化流水線,處理每秒數(shù)千張圖片。
  • 多模態(tài)集成:結(jié)合對(duì)象檢測(cè)、OCR、分類和跟蹤。
  • 邊緣部署:優(yōu)化模型以適應(yīng)移動(dòng)設(shè)備、嵌入式系統(tǒng)和邊緣計(jì)算。
  • 實(shí)時(shí)處理:以最小的延遲分析實(shí)時(shí)視頻流。

企業(yè)級(jí)計(jì)算機(jī)視覺解決方案

我們的團(tuán)隊(duì)將概念驗(yàn)證的計(jì)算機(jī)視覺項(xiàng)目轉(zhuǎn)化為生產(chǎn)就緒的系統(tǒng):

  • ?定制 Ultralytics YOLO 11 訓(xùn)練:針對(duì)你的特定對(duì)象和環(huán)境訓(xùn)練對(duì)象檢測(cè)模型。
  • ?高級(jí) OCR 流水線:多語(yǔ)言文本提取,包含預(yù)處理和后處理。
  • ?視頻分析:實(shí)時(shí)對(duì)象跟蹤、行為分析和異常檢測(cè)。
  • ?質(zhì)量控制系統(tǒng):用于制造業(yè)的自動(dòng)化檢查和缺陷檢測(cè)。
  • ?文檔智能:高級(jí)表單處理、表格提取和文檔分類。
  • ?邊緣優(yōu)化:在 NVIDIA Jetson、移動(dòng)設(shè)備和嵌入式系統(tǒng)上部署模型。

本文轉(zhuǎn)載自??AI大模型觀察站??,作者:AI研究生

標(biāo)簽
已于2025-9-30 11:20:11修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦