春季是繁忙的播種季,學(xué)生黨迎來(lái)了開(kāi)學(xué)季和緊張的研究生復試,職場(chǎng)人士也需要處理新簽業(yè)務(wù)帶來(lái)的大量不同類(lèi)型的文件,比如合同、發(fā)票、檔案等。這些文件在被拍照、掃描成電子文檔的過(guò)程中,時(shí)常存在漏字、錯位現象。究其原因,有個(gè)看似“冷門(mén)”卻關(guān)鍵的技術(shù)點(diǎn)極大地影響了文字識別效果,這個(gè)技術(shù)便是“版面分析”。
近期,人工智能及大數據科技企業(yè)合合信息持續突破版面分析技術(shù)在版面分割、區域間的邏輯關(guān)系處理等方面的難題,通過(guò)智能文字識別、智能圖像處理等核心技術(shù),助力使用者從各類(lèi)復雜的圖片文檔中精準獲取信息。
深度學(xué)習助力版面分析“泛化”難題突破
版面分析的目的是讓機器“看懂”文檔結構,即將文檔圖像分割成不同類(lèi)型內容的區域,并分析區域之間的關(guān)系,這是內容識別之前的關(guān)鍵步驟。
據中國科學(xué)院自動(dòng)化研究所多模態(tài)人工智能系統全國重點(diǎn)實(shí)驗室聯(lián)合多所高校發(fā)布的論文顯示,版面分析主要包括物理版面分析(區域分割、分類(lèi),文本檢測與定位,文本行分割等),手寫(xiě)及印刷區分,表格分析(單元格提取與關(guān)系分析),邏輯版面分析(區域語(yǔ)義分類(lèi)、閱讀順序),以及簽名、圖標、印章等版面元素的提取等。
總體而言,版面分析任務(wù)被分為物理版面分析(或稱(chēng)為幾何版面分析)和邏輯版面分析兩類(lèi),前者主要解決區域分割問(wèn)題,后者則關(guān)注區域之間的邏輯關(guān)系或閱讀順序。
從上世紀80年代開(kāi)始,較多專(zhuān)門(mén)研究版面分析的工作成果開(kāi)始涌現,此后經(jīng)歷了多番理念方法迭代。傳統的版面分析方法在進(jìn)行版面布局分析和表格處理時(shí)會(huì )明顯受制于版式差異,在應對不同場(chǎng)景下的文檔圖片時(shí)泛化效果存在缺陷,而深度神經(jīng)網(wǎng)絡(luò )的引入有效解決了這些問(wèn)題。
合合信息技術(shù)人員在采訪(fǎng)中提到,得益于全卷積神經(jīng)網(wǎng)絡(luò )(FCN)和圖神經(jīng)網(wǎng)絡(luò )(GNN)的突破,文檔版面分析的方法和性能得到了很大發(fā)展。公司基于深度學(xué)習的方法,結合文本區域的幾何坐標、視覺(jué)特征、文本語(yǔ)義等多種模態(tài)信息對文本閱讀順序進(jìn)行預測,顯著(zhù)提升分類(lèi)結果。
合合信息智能文字識別服務(wù)平臺對存在圖片、表格的復雜文檔進(jìn)行識別
同時(shí),合合信息表格結構解析方法在邏輯版面分析中也發(fā)揮了重要作用,主要包括自上而下的方法、自下而上的方法以及端到端圖像到標記的方法等。在財報相關(guān)表格識別測試中,有線(xiàn)表識別單元格結構準確率高于98%;無(wú)線(xiàn)表識別中,在保證表格區域內容的完整性的同時(shí),檢測準確率較傳統方法顯著(zhù)提升。
教育、商務(wù)、文保,“小”技術(shù)有大應用
近期,中共中央、國務(wù)院印發(fā)《數字中國建設整體布局規劃》,“數字中國”的建設邁上了新的征程。版面分析是實(shí)現文檔信息數字化的重要能力,解決了版面分析的痛點(diǎn),有助于各界用戶(hù)將圖像文檔以數字化的手段更精準地轉化為文檔數據,提升工作效率。
對于研究人員或學(xué)生群體而言,版面分析與OCR技術(shù)的結合可以廣泛應用于課件、試卷、作業(yè)、學(xué)術(shù)論文等材料的數字化處理,自動(dòng)識別和提取多種教育類(lèi)文檔文本、圖像、公式、表格等元素進(jìn)行不同場(chǎng)景的應用,簡(jiǎn)化教學(xué)和學(xué)習過(guò)程。
商務(wù)場(chǎng)景中,版面分析與OCR技術(shù)能自動(dòng)識別和提取財務(wù)數據、圖表、文本等信息,并將印刷財報轉換為可分析的電子數據,在處理不同類(lèi)型的財務(wù)報表時(shí),能夠提升報告分析效率和準確性,幫助相關(guān)人員實(shí)現公司財務(wù)報告、審計報告、年度報告等文件的自動(dòng)處理和分析。
合合信息智能文字識別服務(wù)平臺對財務(wù)文件進(jìn)行處理
此外,版面分析相關(guān)技術(shù)還可作用于文化保護,通過(guò)自動(dòng)識別和提取各種類(lèi)型書(shū)籍的表格、圖像信息,將不同時(shí)代、多種印刷版式、多種概念的紙質(zhì)圖樣按照符合人類(lèi)理解的格式進(jìn)行電子化存儲,幫助實(shí)現文獻、古籍、報紙、雜志等資料的數字化和知識管理。
相關(guān)研究表明,現階段,針對復雜版面文檔和拍照變形文檔的分析識別仍存在性能不足的情況。這個(gè)細小卻重要的技術(shù)還需要更多的研究機構及科技企業(yè)加入進(jìn)來(lái),共同推動(dòng)理論的研究與應用的突破。
相關(guān)稿件