3月18日,由中國圖象圖形學(xué)學(xué)會(huì )(CSIG)主辦,合合信息、CSIG文檔圖像分析與識別專(zhuān)業(yè)委員會(huì )聯(lián)合承辦的“CSIG企業(yè)行”系列活動(dòng)成功舉辦。此次活動(dòng)以“圖文智能處理與多場(chǎng)景應用技術(shù)展望”為主題,特邀來(lái)自上海交大、廈門(mén)大學(xué)、復旦大學(xué)、中科大的知名學(xué)府的學(xué)者與合合信息技術(shù)團隊一道,面向行內研究者分享圖像文檔處理中的結構建模、底層視覺(jué)技術(shù)、跨媒體數據協(xié)同應用、生成式人工智能及對話(huà)式大型語(yǔ)言模型等研究及實(shí)踐成果。
研討會(huì )嘉賓合影
“CSIG企業(yè)行”活動(dòng)旨在匯集產(chǎn)學(xué)研各界資源,探討圖文智能信息技術(shù)領(lǐng)域的最新發(fā)展動(dòng)態(tài)和未來(lái)趨勢,共同推動(dòng)圖像圖形領(lǐng)域的發(fā)展。會(huì )上,合合信息科技股份有限公司董事長(cháng)、總經(jīng)理鎮立新博士發(fā)表致辭,并提到希望通過(guò)這次活動(dòng),創(chuàng )造產(chǎn)學(xué)研合作機會(huì ),為推動(dòng)圖像圖形及人工智能行業(yè)的發(fā)展和進(jìn)步貢獻智慧和力量;CSIG文檔圖像分析與識別專(zhuān)業(yè)委員會(huì )主任金連文教授向與會(huì )代表介紹了中國圖象圖形學(xué)學(xué)會(huì )的組織架構、開(kāi)展的學(xué)術(shù)會(huì )議、成果鑒定等服務(wù),鼓勵參會(huì )者積極參加學(xué)會(huì )的學(xué)術(shù)活動(dòng)。
合合信息董事長(cháng)、總經(jīng)理鎮立新博士致辭
CSIG文檔圖像分析與識別專(zhuān)委會(huì )主任金連文教授致辭
理論探索:生成式人工智能將成為未來(lái)十年的研究重心
據國際IT研究機構Gartner預測,到2025年,生成式人工智能產(chǎn)生的數據將占據人類(lèi)全部數據的10%。生成式人工智能技術(shù)正加速數字經(jīng)濟的發(fā)展?!捌髽I(yè)行”活動(dòng)中,上海交通大學(xué)人工智能研究院常務(wù)副院長(cháng)、長(cháng)江學(xué)者楊小康分享了團隊在生成式人工智能領(lǐng)域的工作,并表示,目前的生成式人工智能還存在解空間巨大、宏觀(guān)一致性差、微觀(guān)清晰度受限等問(wèn)題,需要通過(guò)數學(xué)、物理、信息論、腦認知、計算機等學(xué)科交叉研究,進(jìn)一步夯實(shí)生成式人工智能的基礎理論,通過(guò)“物理+數據”聯(lián)合驅動(dòng),“虛擬+現實(shí)”深度融合,助力科學(xué)發(fā)現的加速。
上海交通大學(xué)人工智能研究院常務(wù)副院長(cháng)、國家杰青、IEEEFellow楊小康教授進(jìn)行《生成式人工智能與元宇宙》主題分享
楊小康認為,以“識別——分析”為代表的判別式人工智能推動(dòng)了人工智能前十年的發(fā)展,接下來(lái)十年,以“合成——重建”為代表的生成式人工智能將成為主流。
近期頻頻上“熱搜”的ChatGPT是生成式人工智能的典型代表。復旦大學(xué)計算機學(xué)院教授、上海市計算機學(xué)會(huì )自然語(yǔ)言處理專(zhuān)委會(huì )主任邱錫鵬提到,強大的情景學(xué)習能力、思維鏈能力和自然指令學(xué)習能力是以ChatGPT為代表的對話(huà)式大型語(yǔ)言模型的主要特點(diǎn),將加速通用人工智能的實(shí)現。
復旦大學(xué)計算機學(xué)院教授、國家優(yōu)青、上海市計算機學(xué)會(huì )自然語(yǔ)言處理專(zhuān)委會(huì )主任邱錫鵬進(jìn)行《對話(huà)式大型語(yǔ)言模型》主題分享
據悉,今年2月,復旦大學(xué)自然語(yǔ)言處理實(shí)驗室發(fā)布了國內第一個(gè)對話(huà)式大型語(yǔ)言模型“MOSS”,引發(fā)業(yè)內廣泛關(guān)注,邱錫鵬是主要作者之一?!拔谋舅休d的知識只是冰山一角,還有很多‘暗知識’并不是以文本形式記錄的。在未來(lái)的發(fā)展里,人工智能還有‘具身學(xué)習、跨模態(tài)學(xué)習’等更多知識領(lǐng)域需要學(xué)習?!鼻皴a鵬說(shuō)。
學(xué)術(shù)前沿:復雜場(chǎng)景多模態(tài)數據分析與理解進(jìn)展迅速
人工智能要實(shí)現多場(chǎng)景“通用”,需要解決多源數據的問(wèn)題?!拔谋?、圖像、視頻是互聯(lián)網(wǎng)上存量最大的數據,需研發(fā)相關(guān)算法對其進(jìn)行有效管理?!睆B門(mén)大學(xué)科技處處長(cháng)、人工智能研究院負責人紀榮嶸教授認為,社交媒體等信息渠道包含了海量非合作、異構化、跨模態(tài)的數據,既蘊藏了大量的人類(lèi)知識與高價(jià)值信息,也包含了各種自然與人為的噪聲,對其分析與處理需要融合類(lèi)腦計算、計算機視覺(jué)、自然語(yǔ)言處理等多個(gè)維度的智能技術(shù)。
廈門(mén)大學(xué)人工智能研究院負責人、國家杰青紀榮嶸教授進(jìn)行《復雜跨媒體數據協(xié)同分析與應用》主題分享
紀榮嶸指出,連接視覺(jué)與自然語(yǔ)言的“視覺(jué)描述”領(lǐng)域,是最受關(guān)注且最具潛力的人工智能研究任務(wù)之一。視覺(jué)和語(yǔ)言的研究應是雙向的,各自的新發(fā)現、新方法可以互相迭代促進(jìn)??缈臻g、跨領(lǐng)域、跨任務(wù)知識遷移方面有較大探索空間,易于發(fā)現新的科學(xué)問(wèn)題。
落地實(shí)踐:圖像文檔結構分析、底層視覺(jué)技術(shù)發(fā)展受關(guān)注
語(yǔ)言文字和視覺(jué)研究的融合也為技術(shù)落地創(chuàng )造出新的發(fā)展空間。近年來(lái),人工智能與OCR(光學(xué)字符識別)技術(shù)的結合愈發(fā)緊密,圖像文檔中涉及的復雜結構如漢字結構、表格結構、文檔總體結構的建模問(wèn)題,逐漸成為研究熱點(diǎn)。中國科學(xué)技術(shù)大學(xué)語(yǔ)音及語(yǔ)言信息處理國家工程研究中心副教授杜俊就團隊在文檔結構層次化重建領(lǐng)域的最新進(jìn)展進(jìn)行分享。
中國科學(xué)技術(shù)大學(xué)語(yǔ)音及語(yǔ)言信息處理國家工程研究中心副教授杜俊進(jìn)行《面向圖像文檔的復雜結構建模研究》主題分享
“現階段文檔分析任務(wù)中,大多數研究是針對單頁(yè)內的文章要素的解析,但從內容角度看,許多文檔頁(yè)與頁(yè)之間內容有關(guān)聯(lián)?!倍趴”硎?#xff0c;圖像文檔處理能力要達到“篇章級”,突破手寫(xiě)、自然場(chǎng)景下的漢字建模難點(diǎn),做好跨頁(yè)文檔的要素分類(lèi)、文檔結構恢復是團隊的主要研究目標。
底層視覺(jué)是智能文檔處理的重要研究方向之一,主要研究如何提高或恢復各類(lèi)場(chǎng)景下的圖像、視頻內容,如清晰度提升,低質(zhì)量及破損圖像恢復等,相關(guān)理論和方法在手機圖像采集與處理,醫療圖像分析等領(lǐng)域發(fā)揮著(zhù)至關(guān)重要的作用。合合信息圖像算法研發(fā)總監郭豐俊博士針對目前底層視覺(jué)技術(shù)在處理形變、模糊、陰影遮蓋、背景雜亂的文檔時(shí)遇到的典型問(wèn)題,就公司技術(shù)團隊在智能圖像處理技術(shù)模塊、融合技術(shù)典型應用、圖像安全領(lǐng)域等領(lǐng)域的研究成果進(jìn)行了分享。
合合信息圖像算法研發(fā)總監郭豐俊進(jìn)行《文檔圖像處理中的底層視覺(jué)技術(shù)》進(jìn)行分享
郭豐俊提到,合合信息智能文檔處理技術(shù)基于對圖像目標區域的精準裁剪,對彎曲、傾斜透視的頁(yè)面進(jìn)行形變矯正,在去除陰影、摩爾紋后,通過(guò)人工智能技術(shù)對文檔圖像進(jìn)行增強銳化和清晰度提升,達到“圖像質(zhì)量增強”的效果,在改善閱讀體驗的同時(shí),也提升了識別轉換、圖像分析等文檔處理下游任務(wù)的質(zhì)效,相關(guān)技術(shù)已通過(guò)“掃描全能王”等智能文字識別產(chǎn)品,服務(wù)全球上百個(gè)國家和地區的上億用戶(hù)。
相關(guān)稿件