近期,2022中國圖象圖形大會(huì )(CCIG2022)在成都圓滿(mǎn)落幕。本次大會(huì )由中國科學(xué)技術(shù)協(xié)會(huì )指導,中國圖象圖形學(xué)學(xué)會(huì )主辦,四川大學(xué)承辦,電子科技大學(xué)協(xié)辦,匯聚了潘云鶴院士、鄭南寧院士、高文院士、戴瓊海院士、王耀南院士、喬紅院士等百余位國內知名學(xué)者,以及來(lái)自百度、華為、OPPO、合合信息等企業(yè)的技術(shù)專(zhuān)家,共話(huà)圖像圖形學(xué)術(shù)研究與技術(shù)創(chuàng )新趨勢,共謀行業(yè)新發(fā)展,參會(huì )人數突破1500人。
大會(huì )采用主旨報告與主題/特色論壇的方式進(jìn)行。其中,在主旨報告環(huán)節里,中國工程院院士、浙江大學(xué)教授潘云鶴院士介紹了視覺(jué)知識與視覺(jué)智能的相關(guān)工作,闡釋了人工智能發(fā)展的過(guò)程中,視覺(jué)智能起到的重要的作用。本次大會(huì )還設置了涵蓋OCR、圖像理解、計算機視覺(jué)、人機交互、類(lèi)腦視覺(jué)、AR/VR、三維視覺(jué)、模式識別等多個(gè)圖形圖像領(lǐng)域的學(xué)術(shù)論壇,合合信息自然語(yǔ)言算法研發(fā)總監丁凱博士、合合信息圖像算法研發(fā)總監郭豐俊博士受邀參與《OCR前沿技術(shù)與產(chǎn)業(yè)應用》等論壇,同來(lái)自中科院、北京大學(xué)、華中科技大學(xué)、聯(lián)想研究院、騰訊優(yōu)圖實(shí)驗室等頂尖學(xué)術(shù)機構、高校與企業(yè)的研究人員們一道,分享OCR領(lǐng)域的前沿進(jìn)展及技術(shù)規?;瘧们闆r。
丁凱博士于CCIG學(xué)術(shù)論壇上分享智能圖像處理技術(shù)
丁凱博士認為,盡管OCR技術(shù)已走過(guò)一個(gè)世紀的發(fā)展,現今仍存在文檔圖像質(zhì)量退化嚴重、文字檢測及版面分析困難、非限定條件文字識別率低、結構化智能理解能力差等亟待解決的問(wèn)題。OCR技術(shù)的進(jìn)階之路上,文檔圖像質(zhì)量的增強是重要的研究方向,需克服頁(yè)面彎曲、陰影遮擋、摩爾紋、圖片模糊等現代文本圖像處理中常見(jiàn)的干擾狀況。通過(guò)引入AI(人工智能)技術(shù),合合信息智能文字識別及圖像處理技術(shù)能夠幫助各應用領(lǐng)域簡(jiǎn)化下游文檔處理任務(wù),提升文字識別效率與準確性。
以彎曲矯正為例,丁凱博士介紹了基于文本行線(xiàn)擬合和坐標變換、基于文本行線(xiàn)優(yōu)化矯正的方法原理和優(yōu)缺點(diǎn),并提到合合信息采用的基于位移場(chǎng)網(wǎng)絡(luò )學(xué)習的方法的系統架構,可有效解決多種彎曲文檔圖像的矯正問(wèn)題。除此之外,在教育領(lǐng)域,合合信息“字跡擦除”技術(shù)融合了內容切分、手寫(xiě)字跡分離網(wǎng)絡(luò )、文檔質(zhì)量增強技術(shù),對復雜場(chǎng)景進(jìn)行準確處理,實(shí)現作業(yè)及試卷筆記“一鍵擦除”。
“字跡擦除”功能演示:布滿(mǎn)字跡的試卷(左)與“擦除字跡”后的試卷(右)
另外一方面,文檔數字化流程的建立是加速企業(yè)數字化轉型的關(guān)鍵,也是技術(shù)落地中的痛點(diǎn)。為了更好地解決不同業(yè)務(wù)中存在的文檔版式繁雜、訓練樣本匱乏、模型定制化調優(yōu)周期長(cháng)且效率低的問(wèn)題,合合信息推出了TextInStudio智能文字識別訓練平臺,可將底層資源、數據、模型訓練、集成部署和服務(wù)管理應用多個(gè)模塊整合在一起,針對性解決各項問(wèn)題的同時(shí),建立業(yè)務(wù)流程之間的閉環(huán),實(shí)現模型自動(dòng)化訓練和部署。
TextIn Studio生產(chǎn)出了大量不同場(chǎng)景的文檔數字化模型,涉及近百種文檔圖像預處理、文字識別與理解、文檔格式轉換等方面的服務(wù),較為全面地覆蓋了企業(yè)和個(gè)人工作生活相關(guān)的文檔類(lèi)型。合合信息通過(guò)TextIn小程序發(fā)起了針對高校研究者群體需求發(fā)起的限時(shí)體驗活動(dòng),即高校的老師和學(xué)生注冊并綁定帶有“edu”后綴的教育郵箱后,每人一年可免費獲得100萬(wàn)次的OCR服務(wù)?!跋M@個(gè)活動(dòng)能夠進(jìn)一步推動(dòng)OCR領(lǐng)域產(chǎn)業(yè)界和學(xué)術(shù)界的合作,支持開(kāi)發(fā)者們以更低的門(mén)檻接觸到相關(guān)技術(shù),從而研發(fā)更多有價(jià)值的應用,推動(dòng)領(lǐng)域更好地發(fā)展?!倍P博士說(shuō)。
目前,合合信息相關(guān)智能文字識別及圖像處理技術(shù)已被應用于公司旗下掃描全能王等C端APP中及行業(yè)解決方案中,輻射全球百余個(gè)國家和地區的億級用戶(hù)。據悉,“字跡擦除”功能已接入華為PixLabV1彩色噴墨多功能打印機。相關(guān)技術(shù)還在國際頂會(huì )ICPR、ICFHR等十余項競賽中獲得冠軍,并于CVPR、AAAI、ACL、ACMMM等國際頂會(huì )上發(fā)表。
合合信息參賽隊伍獲第三屆CSIG圖像圖形挑戰賽總決賽冠軍
大會(huì )還舉行了第三屆CSIG圖像圖形挑戰賽總決賽頒獎儀式。CSIG圖像圖形挑戰賽旨在促進(jìn)我國圖像圖形技術(shù)及相關(guān)產(chǎn)業(yè)的發(fā)展和應用,解決企業(yè)面臨的技術(shù)難題,幫助企業(yè)引入更多的優(yōu)秀人才。本次大賽吸引了來(lái)自高校、科研機構、企業(yè)的上百支參賽隊伍參與。憑借在視覺(jué)關(guān)鍵信息理解層面的算法優(yōu)勢與多語(yǔ)言票據識別場(chǎng)景的實(shí)踐沉淀,合合信息與高校及企業(yè)生態(tài)伙伴組成的參賽隊伍繼獲得“中英文購物小票信息理解賽道”單項冠軍后,通過(guò)終輪現場(chǎng)比拼,榮獲CSIG圖像圖形技術(shù)挑戰賽總冠軍。