相信不少同學(xué)生活中都用過OCR技術(shù),小到一張手寫筆記、紙質(zhì)發(fā)票、合同條款,大到一堆會議資料、一本書等,無論是手寫的文字,還是印刷的中英文和其他語種,拿起手機相機拍一拍就能輕松識別提取出來,成為可以復(fù)制和編輯的文本。
OCR(Optical Character Recognition),即光學(xué)字符識別技術(shù)。作為計算機視覺領(lǐng)域的重要分支,OCR典型應(yīng)用是通過圖像文字識別實現(xiàn)信息錄入,利用機器將圖像中手寫體或印刷體的文本轉(zhuǎn)換為計算機可以直接處理的格式。同時,由于文字和符號包含豐富的語義信息,基于OCR提取文字信息繼而進行分析,能夠幫助機器更好地理解圖像。
OCR應(yīng)用場景
近年來,隨著機器學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,作為處理圖片文字數(shù)據(jù)的OCR識別能力不斷突破,逐漸在更加復(fù)雜的數(shù)字化場景發(fā)揮作用,有效降低了企業(yè)在信息提取和錄入的人力成本。
票據(jù)識別
傳統(tǒng)的通過人工方式整理、粘貼、核算發(fā)票費時費力而且容易出錯。基于深度神經(jīng)網(wǎng)絡(luò)模型的OCR文字識別技術(shù),可以把票據(jù)上的發(fā)票號碼、開票日期、購買方信息、金額、里程、單價、號碼等信息直接轉(zhuǎn)化為可編輯文本,包括增值稅發(fā)票、火車票、出租車發(fā)票、營業(yè)執(zhí)照等常見票據(jù)。
卡證識別
銀行業(yè)務(wù)場景下,在辦理各項業(yè)務(wù)時必須輸入身份證號、銀行卡片信息等進行實名認證。通過應(yīng)用OCR技術(shù)方案,用戶僅需上傳身份證或者銀行卡圖片,即可在毫秒內(nèi)實現(xiàn)識別卡證全部信息,完成快速準確錄入。
文稿錄入
文字處理是OCR最常見的用途。用戶可以將各類不可編輯的辦公文檔通過OCR識別一鍵轉(zhuǎn)換為可編輯的版本。也可以將紙質(zhì)版的歷史文檔轉(zhuǎn)換為可搜索的PDF文件,對于舊報紙、雜志、信件和其他歷史文件的存檔大有裨益。
OCR識別難點
OCR技術(shù)的蓬勃發(fā)展,解決了低速的信息輸入與高速信息處理之間的矛盾,通用場景下的OCR識別準確率也逐漸提高。但對于某些專用領(lǐng)域來說,OCR識別仍然并非易事。
從技術(shù)角度出發(fā),OCR識別存在以下四個難點:
語種眾多:不同國家常用語言不同,不同語言的字符形態(tài)區(qū)別也很大,增加了OCR算法的識別難度。
字體形態(tài)復(fù)雜:圖片中的文字字體多樣,如藝術(shù)字體、手寫字體等,字號、字重、顏色不一。
拍攝角度多樣:用戶大多會使用手機作為拍攝文字的設(shè)備,拍攝過程中發(fā)生抖動、對焦偏差產(chǎn)生的失焦、拍攝角度不正等問題。
文字載體多樣:例如食品包裝發(fā)生形變,造成文字彎曲,打印文本模板重疊、多次復(fù)印文檔圖像顆粒化、文檔照片成像質(zhì)量模糊等各類實際問題。
標貝科技OCR數(shù)據(jù)服務(wù)
標貝科技依托先進的深度學(xué)習(xí)技術(shù)和海量優(yōu)質(zhì)數(shù)據(jù)資源,采用先進的圖形算法,努力攻克復(fù)雜場景下的文檔電子化痛點問題,為客戶提供多場景、多語種、高精度的文字檢測與識別服務(wù),并針對圖片模糊、傾斜、光照不均等情況進行深度優(yōu)化,實現(xiàn)多種復(fù)雜場景下的精準識別。
同時,我們還提供文本OCR成品數(shù)據(jù)集,包含手寫和多語言版本:
1、 25000張手寫OCR數(shù)據(jù)
該數(shù)據(jù)為多場景下的手寫OCR數(shù)據(jù)集。采集于多種室內(nèi)室外場景,包括會議筆記,便簽/隨筆,課堂筆記,印刷體手寫體混排的習(xí)題/試卷等。文字載體為常見的紙質(zhì)、玻璃、iPad備忘錄及APP截圖、黑板等。

2、約19000張小語種OCR數(shù)據(jù)
該數(shù)據(jù)集為多語種OCR數(shù)據(jù)集,包括拍照文檔約14000張以及截屏文檔約5000張。場景分為室內(nèi)室外場景,語種包含日文、韓文、德文、法文、意大利語、西班牙語等。文字載體為常見的紙質(zhì)文檔、書籍、論文、PPT等。

歡迎對以上數(shù)據(jù)集感興趣的行業(yè)伙伴聯(lián)系我們~






