偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

華為OCR技術(shù)讓人工智能應(yīng)用擁有一雙“慧眼”

企業(yè)動態(tài)
華為OCR依托于華為云強大的計算和處理能力,將陸續(xù)推出單據(jù)類、證件類和通用文本的文字檢測和識別服務(wù)。

隨著深度學(xué)習(xí)在大規(guī)模圖像分類數(shù)據(jù)集上獲得巨大成功,越來越多的公司將業(yè)務(wù)聚焦在圖像處理的計算機視覺領(lǐng)域,其中一個關(guān)鍵技術(shù)就是圖像OCR(optical character recognition,光學(xué)字符識別)。

什么是OCR呢?

OCR是指光學(xué)設(shè)備(掃描儀、數(shù)碼相機等)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程,其本質(zhì)就是利用光學(xué)設(shè)備去捕獲圖像并識別文字,將人眼的能力延伸到機器上

OCR在物流、醫(yī)療、金融、保險、傳統(tǒng)制造業(yè)等領(lǐng)域都有著廣泛的應(yīng)用。如此多的領(lǐng)域朝著智能化和物流數(shù)字化方向發(fā)展,都要求具有高效穩(wěn)健的OCR技術(shù),通過機器自動識別圖片文字的智能化應(yīng)用前景十分可觀。但是圖片(包括掃描件和手機照片)往往存在噪聲、傾斜、變形、背景復(fù)雜、文字多樣等各種問題,文字定位和識別的難度很大。華為大數(shù)據(jù)&AI團隊通過強力投入,研發(fā)出華為自己的OCR拳頭產(chǎn)品。重點應(yīng)用場景之一是表格單據(jù)的識別,通過結(jié)構(gòu)化輸出表格單據(jù)中的文字信息,在業(yè)務(wù)審核中給公司節(jié)省大量的人力。

華為OCR依托于華為云強大的計算和處理能力,將陸續(xù)推出單據(jù)類、證件類和通用文本的文字檢測和識別服務(wù)。

價值在哪?

華為公司在全球每年有幾百萬份銷售訂單,使得每年需要處理上百萬份單據(jù)?,F(xiàn)在的單據(jù)處理方式還停留在通過人工方式將單據(jù)內(nèi)容手動錄入到系統(tǒng)中,人工錄入的方式除了效率低以外,還存在員工疏忽或者疲勞導(dǎo)致的誤操作。如何快速、準(zhǔn)確的處理如此數(shù)量龐大的單據(jù)成為了一大訴求。通過該OCR技術(shù)自動采集關(guān)鍵數(shù)據(jù),建立數(shù)據(jù)資產(chǎn),并進行大數(shù)據(jù)分析,可以有效降低華為的運營成本,提升業(yè)務(wù)效率。通過智能化服務(wù),可幫助華為在全球節(jié)省大量人力;分析海關(guān)估價等關(guān)鍵信息,控制每年千萬美金級的風(fēng)險敞口,業(yè)務(wù)流程自動化比例大幅提升。

不僅限于華為內(nèi)部,華為OCR有效利用華為云計算的優(yōu)勢,基于松耦合、高復(fù)用性和易于維護的原則,建設(shè)了OCR公有云服務(wù),以統(tǒng)一的網(wǎng)絡(luò)訪問接口方式,對外部應(yīng)用系統(tǒng)提供滿足不同需求的OCR識別服務(wù),可以為醫(yī)療、海關(guān)、物流、金融、傳統(tǒng)制造業(yè)等領(lǐng)域的企業(yè)提供高效、低成本的數(shù)據(jù)采集方案,大大節(jié)省了人工數(shù)據(jù)采集、構(gòu)建信息系統(tǒng)和維護升級的成本,讓企業(yè)更智能。目前,在金融領(lǐng)域,華為為某知名保險公司提供保單識別、醫(yī)療單據(jù)識別,幫助保險公司提高工作效率,加快理賠的速度;在傳統(tǒng)制造業(yè)領(lǐng)域,華為幫助某公司識別藥品說明書,幫助公司快速構(gòu)建藥品說明書的信息庫。

有什么難點和挑戰(zhàn)?

華為的OCR場景包括對掃描的表格單據(jù)、手機拍攝的照片進行文字信息提取和識別,考慮到客戶和應(yīng)用場景的多樣性,主要面臨以下挑戰(zhàn):

  • 掃描的單據(jù)往往存在虛線干擾、版面缺失、傾斜、暗光、扭曲、噪聲等情況,定位難度大。
  • 文字千變?nèi)f化,例如字體、字號、顏色、筆畫寬度等不固定,方向任意;小數(shù)點、近似英文數(shù)字、特殊符號、連接詞、藝術(shù)字等,容易被漏檢或誤識別。
  • 語言種類繁多,經(jīng)常是中英文混合,多種語言混合等場景,識別難度加大。
  • 表格單據(jù)經(jīng)常存在蓋章(印章覆蓋文字)、錯行(文字溢出表格單元,與表格線交叉)的情況,也造成文字識別干擾,極大影響識別準(zhǔn)確率。
  • 拍照上傳的圖片存在噪聲、模糊、光線變化、形變、復(fù)雜背景干擾等問題,對文字定位和識別的準(zhǔn)確度是巨大挑戰(zhàn)。

華為有什么關(guān)鍵技術(shù)?

對于上述挑戰(zhàn),華為OCR的總體技術(shù)方案包括圖像預(yù)處理、業(yè)界領(lǐng)先的深度學(xué)習(xí)文字定位和文字識別引擎以及后處理糾錯模塊3部分,并對各個模塊進行技術(shù)突破,取得了明顯的效果:

  • 圖像預(yù)處理技術(shù):針對蓋章和錯行的問題,通過對Autoencoder自編碼器模型的大幅改進,直接分離文字、表格線與蓋章3種目標(biāo),消除了表格線和蓋章對文字的干擾,同時消除噪聲,極大簡化了后續(xù)的文字識別和版面分析過程,提高了準(zhǔn)確度。該模型采用FCN(Fully Convolutional Network,全卷積網(wǎng)絡(luò))網(wǎng)絡(luò)結(jié)構(gòu),并將原始圖片輸入層與后面多層直接相連,減少信息損失和文字變形。該模型能適應(yīng)各種尺寸的圖片輸入,訓(xùn)練和預(yù)測速度都很快。
  • 文字定位技術(shù):
  1. 表單文字定位:在處理表單類文本識別場景,采用傾斜矯正算法、最大輪廓提取算法、表格線去干擾算法和文字框定位算法等多種技術(shù)手段相互融合。
  2. 證件文字定位:為支持各種復(fù)雜場景下的證件OCR,采用基于深度學(xué)習(xí)和全卷積網(wǎng)絡(luò)的關(guān)鍵點定位技術(shù)將證件從各種復(fù)雜背景中提取出來,并進行方向和透視角度的矯正;然后將文字定位轉(zhuǎn)換成對物體檢測問題,改進SSD物體檢測框架,以適應(yīng)文字長寬比極大的特點;采用多尺度輸入的方法,進一步提高文字定位的精度。
  • 基于視覺注意力的深度學(xué)習(xí)文字識別技術(shù):采用視覺注意力模型(CNN+LSTM+Attention技術(shù)),該模型首先在圖像上采用滑動窗口CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡(luò))的方法進行圖像特征提??;然后在CNN的頂部堆疊一個LSTM(Long Short-Term Memory networks,長短期記憶網(wǎng)絡(luò))進行序列特征提??;最后,使用注意力模型作為解碼器輸出最終的文字序列。

圖1基于視覺注意力的深度學(xué)習(xí)文字識別技術(shù)

  • 多策略后驗糾錯技術(shù):對于固定模板的表單或證件,采用詞庫+編輯距離+集成學(xué)習(xí)的策略,對常見詞進行詞典庫數(shù)據(jù)收集,采用編輯距離進行更正。對關(guān)鍵數(shù)字部分,采取多個圖像預(yù)處理手段進行集成學(xué)習(xí)給出最終結(jié)果置信度,并進行可能出錯的報警;對于通用的文字識別,特別是中文長句識別,對OCR識別出的Top N結(jié)果,采用語言模型+Viterbi算法,計算最短路徑,輸出概率最高的結(jié)果。

圖2表格單據(jù)OCR解決方案

圖3發(fā)票的定位效果

服務(wù)優(yōu)勢

  • 識別精度高:采用業(yè)界先進的深度學(xué)習(xí)模型以及遷移學(xué)習(xí)模型優(yōu)化技術(shù),萬億級海量訓(xùn)練樣本,識別率和召回率達(dá)到業(yè)界領(lǐng)先水平。
  • 魯棒性好:產(chǎn)品采用黑邊處理、自動糾偏、去噪、圖像自動旋轉(zhuǎn)、多種二值化等方法處理圖像,能適應(yīng)任意版面/旋轉(zhuǎn)/扭曲/復(fù)雜背景/光照/模糊場景下的文字檢測識別。
  • 支持多類單據(jù)識別:支持多種類型的表格、發(fā)票等單據(jù)識別,結(jié)構(gòu)化輸出,幫助客戶快速便捷的完成紙質(zhì)單據(jù)的電子化;也可為客戶定制各種個性化的OCR服務(wù),滿足不同客戶的需求。
  • 服務(wù)穩(wěn)定高效:采用最新的大數(shù)據(jù)集群技術(shù),后臺服務(wù)器穩(wěn)定可靠,系統(tǒng)毫秒級響應(yīng)。
  • 云服務(wù),標(biāo)準(zhǔn)API支持:服務(wù)使用簡單便捷,兼容性強。

我們下一步將有什么?

目前華為還在布局各類證件、通用文字識別等相關(guān)的OCR產(chǎn)品,將會陸續(xù)提供更豐富的OCR服務(wù)和基于OCR的解決方案,支持更多應(yīng)用場景,滿足更多客戶的需求。例如,通過拍照掃描等方式,提供身份信息的快速自動錄入體驗,以提高邊檢/酒店/旅游/公共安全以及電商等行業(yè)領(lǐng)域的工作效率;自然場景OCR可以捕獲現(xiàn)實中多種場景下的文字,可有效支持虛擬現(xiàn)實、人機交互、圖像檢索、無人駕駛、車牌識別、工業(yè)自動化等領(lǐng)域中廣泛的應(yīng)用。

責(zé)任編輯:張燕妮 來源: 華為
相關(guān)推薦

2017-11-18 23:26:46

戴爾

2011-07-28 09:43:11

云計算

2017-07-17 14:47:12

慧眼人工智能

2018-04-12 14:09:53

圖像文字識別

2020-12-28 13:38:16

中科睿芯

2020-08-17 17:31:00

戴爾

2022-12-15 07:35:04

人工智能語音應(yīng)用場景

2019-07-17 17:42:13

數(shù)據(jù)保護

2021-02-25 11:26:03

人工智能機器學(xué)習(xí)技術(shù)

2019-03-19 07:32:32

華為生態(tài)大會智能攝像機

2021-04-22 22:40:20

人工智能智慧制造應(yīng)用

2017-04-18 09:12:06

人工智能SEO技術(shù)

2022-02-19 23:05:19

人工智能算法核聚變

2022-12-01 07:03:22

語音識別人工智能技術(shù)

2020-12-01 15:52:36

人臉識別人工智能AI

2022-09-07 11:34:49

人工智能智能建筑

2021-10-18 09:21:42

人工智能AI

2020-09-16 10:37:10

人工智能AI技術(shù)

2021-03-02 14:19:30

人工智能根技術(shù)“十四五”

2019-06-06 15:44:21

人工智能寒冬AI
點贊
收藏

51CTO技術(shù)棧公眾號