們先聊聊中文OCR的發(fā)展歷程:
國家863計劃信息領域課題組織了清華大學、北京信息工程學院、沈陽自動化所三家單位聯(lián)合進行中文OCR軟件的開發(fā)工作。至1989年,清華大學率先推出了國內(nèi)第一套中文OCR軟件--清華文通TH-OCR1.0版,至此中文OCR正式從實驗室走向了市場。
清華OCR印刷體漢字識別軟件其后又推出了TH-OCR 92高性能實用簡/繁體、多字體、多功能印刷漢字識別系統(tǒng),使印刷體漢字識別技術(shù)又取得重大進展。
到1994年推出的TH-OCR 94高性能漢英混排印刷文本識別系統(tǒng),則被專家鑒定為“是國內(nèi)外首次推出的漢英混排印刷文本識別系統(tǒng),總體上居國際領先水平”。
上個世紀90年代中后期,清華大學電子工程系提出并進行了漢字識別綜合研究,使?jié)h字識別技術(shù)在印刷體文本、聯(lián)機手寫漢字識別、脫機手寫漢字識別和脫機手寫數(shù)字符號識別等領域全面地取得了重要成果。具有代表性的成果是TH-OCR 97綜合集成漢字識別系統(tǒng),它可以完成多文種(漢、英、日)印刷文本、聯(lián)機手寫漢字、脫機手寫漢字和手寫數(shù)字的識別輸入。
2003年,移動端的OCR應用開始普及(OCR識別SDK掛接App);到2006年,隨著APP數(shù)量的增多,移動端OCR應用迎來爆發(fā)式增長。這時候,市場也逐漸明朗起來,北京文通科技的市場占有率始終第一。
OCR識別技術(shù)的門檻其實很低,現(xiàn)在網(wǎng)上都出現(xiàn)開源的OCR識別數(shù)據(jù)庫來了??烧嬲婕癘CR領域的公司也就那么幾家,屈指可數(shù)。這是為什么呢?因為要做到識別率和識別速度達到理想要求,你需要作大量的機器深度學習的工作。這是一件龐大的工程。
現(xiàn)在,很多企業(yè)也對OCR領域虎視眈眈,躍躍欲試。有目前還算成功的,當然是竊取技術(shù)了(在這里我就不提是誰了)。但真正的,你想要成為一家偉大的公司,是永遠需要把技術(shù)放在第一位的,你得有龐大的研發(fā)能力。像那種投機取巧,賺機會錢的公司,是不值得我們尊重的。
我相信,經(jīng)過五年、十年、甚至是上百年。市場會做出篩選。真正留下來的,能為OCR識別行業(yè)作出貢獻的,只能是我們文通這樣的老企業(yè),因為我們始終秉持技術(shù)至上的理念,在OCR領域更應如此。







