當(dāng)前,人工智能市場已經(jīng)成為資本市場關(guān)注的焦點(diǎn),人工智能行業(yè)“老兵”合合信息也擬登陸科創(chuàng)板上市。智能文字識別技術(shù)是正在登陸科創(chuàng)板的合合信息核心技術(shù)之一,以表格識別為例,合合信息智能文字識別技術(shù)就可以解決其中的難點(diǎn)。
眾所周知,表格是工作或?qū)W習(xí)中的常見對象之一,有時是電子表格,有時是圖片表格或者紙質(zhì)版的表格。電子的表格整理起來還比較方便,圖片表格或者紙質(zhì)版的表格整理起來就較為麻煩。這種情況下,高精確度的表格識別技術(shù)就能夠大幅節(jié)省文件處理時間這便是合合信息智能文字識別技術(shù)中,圖像處理和復(fù)雜場景文字識別技術(shù)的重要應(yīng)用。
為了做到便捷高效識別復(fù)雜場景下的表格,合合信息引入深度學(xué)習(xí)技術(shù),將表格識別分為有線表識別和無線表識別兩種方案。有線表識別中,合合信息利用語義分割、角點(diǎn)回歸等技術(shù)方案還原有線表,在財(cái)報相關(guān)表格識別測試中,有線表識別單元格結(jié)構(gòu)準(zhǔn)確率高于98%。
合合信息無線表識別則采用序列模型、規(guī)則匹配等方案,通過自研模型直接預(yù)測表格的邏輯結(jié)構(gòu),再得到表格的物理結(jié)構(gòu),在保證表格區(qū)域內(nèi)容的完整性的同時,檢測準(zhǔn)確率較傳統(tǒng)方法顯著提升。
合合信息智能文字識別技術(shù)中的表格識別技術(shù)已被應(yīng)用于以“掃描全能王”為代表的C端APP中,通過“文件轉(zhuǎn)換excel”功能服務(wù)于大眾生活和辦公需求,近半年來,“文件轉(zhuǎn)換excel”相關(guān)功能累計(jì)被調(diào)用百萬次。作為合合信息智能文字識別引擎中的重要模塊,表格識別技術(shù)已落地在保險、銀行、證券等行業(yè)中,應(yīng)用于合同、銀行流水、物流單據(jù)識別等多個場景。
據(jù)悉,合合信息曾在2019年國際文檔分析識別大會(ICDAR)中獲得表格識別競賽的冠軍。公司智能文字識別相關(guān)技術(shù)還在國際頂會ICPR、ICFHR 等競賽中獲得十余項(xiàng)冠軍,并于CVPR、AAAI、ACL、ACM MM等國際頂會上發(fā)表。






