九九九中文无码A∨|亚洲国产成人最新精品|国产AV无码精品色午夜|国产精品久久久久三级无码|日韩欧美一区国产二区在线|欧美另类精品一区二区三区|精品一区二区三区毛片视频网|中文字幕日韩精品一区二区三区

中國企業(yè)報集團主管主辦

中國企業(yè)信息交流平臺

微博 微信

表格識別總是不夠精準?合合信息旗下掃描全能王這樣“解題”

2022-09-21 13:36 來(lái)源:中國企業(yè)網(wǎng) 次閱讀
 
表格識別總是不夠精準?合合信息旗下掃描全能王這樣“解題”
  表格是文檔中常見(jiàn)的對象。從學(xué)生經(jīng)常填寫(xiě)的報名表,到辦公場(chǎng)景中涉及的財務(wù)報表、票據,表格識別的需求廣泛存在于個(gè)人生活、社會(huì )生產(chǎn)之中。尤其在進(jìn)入九月之后,隨著(zhù)高校開(kāi)學(xué),企業(yè)開(kāi)始著(zhù)手下一年度的發(fā)展規劃,表格處理的任務(wù)不斷加重。高精確度的表格識別技術(shù)能夠大幅節省文件處理時(shí)間,是合合信息智能文字識別技術(shù)中,圖像處理和復雜場(chǎng)景文字識別技術(shù)的重要應用。

  用深度學(xué)習技術(shù)解決表格識別難點(diǎn)

  表格識別主要包括表格檢測和表格結構識別兩大任務(wù)。表格檢測主要檢測表格主體,即從圖片中確認表格區域;表格結構識別是對表格區域進(jìn)行分析,提取表格中的數據與結構信息,得到表格的行列邏輯結構。

  兩大任務(wù)均具有相當的復雜性。首先,表格類(lèi)別多樣,根據有無(wú)邊框可以分為有線(xiàn)表、少線(xiàn)表、無(wú)線(xiàn)表等。從有線(xiàn)表、少線(xiàn)表到無(wú)線(xiàn)表,表格識別難度逐漸增加。同時(shí),表格文件中常見(jiàn)的背景填充、單元格行列合并等情況,會(huì )進(jìn)一步增加表格識別難度。其他外部因素,如圖片傾斜褶皺、背景干擾等問(wèn)題,都會(huì )對表格識別帶來(lái)挑戰。

合合信息通用智能文字識別引擎對合并單元格表格進(jìn)行識別


  近年來(lái)人工智能技術(shù)飛速發(fā)展,計算機視覺(jué)(CV)、自然語(yǔ)言處理(NLP)和圖神經(jīng)網(wǎng)絡(luò )等深度學(xué)習方法被廣泛引入表格識別任務(wù)中,例如語(yǔ)義分割、目標檢測、序列預測等。在16年領(lǐng)域深耕中,合合信息智能文字識別技術(shù)覆蓋了圖片、PDF格式文檔中多種類(lèi)的表格識別需求,包括有線(xiàn)表,三線(xiàn)表,無(wú)線(xiàn)表等,并且支持合并單元格、多表格并存等復雜情況的識別。

  基于分治思想,合合信息引入深度學(xué)習技術(shù),將表格識別分為有線(xiàn)表識別和無(wú)線(xiàn)表識別兩種方案。有線(xiàn)表識別中,合合信息利用語(yǔ)義分割、角點(diǎn)回歸等技術(shù)方案還原有線(xiàn)表,在財報相關(guān)表格識別測試中,有線(xiàn)表識別單元格結構準確率高于98%。

  無(wú)線(xiàn)表識別是表格識別中的難點(diǎn),教科書(shū)上的部分統計表、藥品配方表,都存在框線(xiàn)不完整甚至無(wú)框線(xiàn)的情況。無(wú)線(xiàn)表缺少表格線(xiàn),直接套用有線(xiàn)表識別方案無(wú)法得到理想的表格結構。合合信息無(wú)線(xiàn)表識別采用序列模型、規則匹配等方案,通過(guò)自研模型直接預測表格的邏輯結構,再得到表格的物理結構,在保證表格區域內容的完整性的同時(shí),檢測準確率較傳統方法顯著(zhù)提升。

合合信息通用智能文字識別引擎對無(wú)線(xiàn)表格進(jìn)行識別


  智能文字識別助力文件處理效率指數級提升

  現階段,合合信息智能文字識別技術(shù)中的表格識別技術(shù)已被應用于以“掃描全能王”為代表的C端APP中,通過(guò)“文件轉換excel”功能服務(wù)于大眾生活和辦公需求。生活中,用戶(hù)可以使用掃描全能王隨手拍下手邊的清單、個(gè)人合同、說(shuō)明書(shū)等,APP將提煉其中的表格內容,起到備忘作用;辦公場(chǎng)景下,使用者可掃描、拍攝工作文件,提取圖片、PDF中的文字內容,并將其轉化為可編輯文檔,便于二次編輯和分享。近半年來(lái),“文件轉換excel”相關(guān)功能累計被調用百萬(wàn)次。

  B端領(lǐng)域中,作為合合信息智能文字識別引擎中的重要模塊,表格識別技術(shù)已落地在保險、銀行、證券等行業(yè)中,應用于合同、銀行流水、物流單據識別等多個(gè)場(chǎng)景。以財務(wù)場(chǎng)景為例,合合信息表格識別技術(shù)被應用于企業(yè)發(fā)票與訂單的數字全流程管理中,曾助力全球知名汽車(chē)零配件供應商偉巴斯特實(shí)現票據智能掃描、識別、驗真、合規自動(dòng)檢查、發(fā)票與訂單數據匹配、數字化數據、影像留存等全流程財稅管理,作業(yè)效率提升500%~1000%。

  據悉,合合信息曾在2019年國際文檔分析識別大會(huì )(ICDAR)中獲得表格識別競賽的冠軍。公司智能文字識別相關(guān)技術(shù)還在國際頂會(huì )ICPR、ICFHR 等競賽中獲得十余項冠軍,并于CVPR、AAAI、ACL、ACM MM等國際頂會(huì )上發(fā)表。
點(diǎn)贊()
上一條:最美系列之最美工業(yè)人——王洪2022-09-21
下一條:啟航新賽道,培育新動(dòng)能2022-09-21

相關(guān)稿件

合合信息旗下掃描全能王發(fā)布年度報告,全年用戶(hù)掃描超過(guò)10億次 2022-01-17
九成職場(chǎng)人想過(guò)這件事情!合合信息旗下掃描全能王發(fā)布《2022職場(chǎng)人考證調查報告》 2022-09-08
掃描全能王“科技戰疫”,助力學(xué)生高品質(zhì)居家學(xué)習 2022-03-16
合合信息旗下啟信寶做客上海數交所“D25演播室”訪(fǎng)談 2022-06-22
挑戰“大師級”閱讀理解,合合信息智能文字識別技術(shù)亮相2022世界人工智能大會(huì ) 2022-09-01
國務(wù)院國有資產(chǎn)管理委員會(huì ) 中國企業(yè)聯(lián)合會(huì ) 中國企業(yè)報 中國社會(huì )經(jīng)濟網(wǎng) 中國國際電子商務(wù)網(wǎng) 新浪財經(jīng) 鳳凰財經(jīng) 中國報告基地 企業(yè)社會(huì )責任中國網(wǎng) 杭州網(wǎng) 中國產(chǎn)經(jīng)新聞網(wǎng) 環(huán)球企業(yè)家 華北新聞網(wǎng) 和諧中國網(wǎng) 天機網(wǎng) 中貿網(wǎng) 湖南經(jīng)濟新聞網(wǎng) 翼牛網(wǎng) 東莞二手房 中國經(jīng)濟網(wǎng) 中國企業(yè)網(wǎng)黃金展位頻道 硅谷網(wǎng) 東方經(jīng)濟網(wǎng) 華訊財經(jīng) 網(wǎng)站目錄 全景網(wǎng) 中南網(wǎng) 美通社 大佳網(wǎng) 火爆網(wǎng) 跨考研招網(wǎng) 當代金融家雜志 借貸撮合網(wǎng) 大公財經(jīng) 誠搜網(wǎng) 中國鋼鐵現貨網(wǎng) 證券之星 融易在線(xiàn) 2014世界杯 中華魂網(wǎng) 納稅人俱樂(lè )部 慧業(yè)網(wǎng) 商界網(wǎng) 品牌家 中國國資報道 金融界 中國農業(yè)新聞網(wǎng) 中國招商聯(lián)盟 和訊股票 經(jīng)濟網(wǎng) 中國數據分析行業(yè)網(wǎng) 中國報道網(wǎng) 九州新聞網(wǎng) 投資界 北京科技創(chuàng )新企業(yè)誠信聯(lián)盟網(wǎng) 中國白銀網(wǎng) 炣燃科技 中企媒資網(wǎng) 中國石油化工集團 中國保利集團公司 東風(fēng)汽車(chē)公司 中國化工集團公司 中國電信集團公司 華為技術(shù)有限公司 廈門(mén)銀鷺食品有限公司 中國恒天集團有限公司 濱州東方地毯集團有限公司 大唐電信科技股份有限公司 中國誠通控股集團有限公司 喜來(lái)健醫療器械有限公司 中國能源建設股份有限公司 內蒙古伊利實(shí)業(yè)集團股份有限公司 中國移動(dòng)通信集團公司 中國化工集團公司 貴州茅臺酒股份有限公司
岫岩| 乌兰察布市| 西贡区| 金阳县| 建瓯市| 宁阳县| 开鲁县| 河北省| 高阳县| 孟津县| 旌德县| 阳春市| 阿坝县| 德昌县| 昌江| 张掖市| 那曲县| 崇左市| 富阳市| 张掖市| 金堂县| 永顺县| 柞水县| 瑞金市| 丽江市| 禄劝| 康马县| 潼关县| 徐州市| 波密县| 寿宁县| 通城县| 上饶县| 格尔木市| 临猗县| 曲阳县| 南阳市| 乾安县| 南召县| 乌兰县| 晴隆县|