古彝文傳承至今已有數千年歷史,是世界上最古老的文字之一。2022年12月21日,合合信息與上海大學(xué)社會(huì )學(xué)院正式簽署校企合作協(xié)議,雙方將合力完成以國家珍貴古籍《西南彝志》為中心的貴州古彝文圖像識別及數字化校對項目(簡(jiǎn)稱(chēng)“古彝文數字化項目”)。
上海大學(xué)社會(huì )學(xué)院院長(cháng)黃曉春、合合信息智能技術(shù)平臺事業(yè)部副總經(jīng)理郭豐俊共同出席簽約儀式
此前,在中國西南多家高校的共同努力下,規范和通用彝文的數字化工作取得了重要突破,而上海大學(xué)攜手合合信息推進(jìn)的古彝文數字化項目,更側重于對原生態(tài)彝文識別的攻堅克難。項目將根據上海大學(xué)古彝文研究員設計的四字節編碼系統,引入合合信息智能文字識別技術(shù),對異體字、變體字、誤用字和混用字等進(jìn)行標注、識別、比對,并由此建立起精確的彝文古籍電子數據庫,在古彝文研究領(lǐng)域屬于首創(chuàng )。
亟待識別的古彝文,比《康熙字典》字數還多 彝文是云南、貴州、四川等地的彝族人使用的文字,而“古彝文”專(zhuān)指在民間流通使用的原生態(tài)彝文。根據《滇川黔桂彝文字集》,目前記錄在冊的古彝文多達87046個(gè)。非母語(yǔ)研究者在翻譯古彝文時(shí),通常需要在母語(yǔ)者的幫助下記音,再用漢語(yǔ)逐字直譯,最后采用漢語(yǔ)對整句話(huà)進(jìn)行意譯。
由于古彝文尚未取得預留的Unicode編碼區段,數字化工程還處于起步階段,所以在印刷出版時(shí),需由一位彝文繕寫(xiě)員先將彝文字和國際編碼抄寫(xiě)在書(shū)頁(yè)的左側,再將已輸入電腦的漢文譯文打印、剪切后粘貼在相應彝文字的右側,形成目前常見(jiàn)的“四行體”彝漢文對譯,過(guò)程相對繁瑣。
畢節市彝文文獻翻譯研究中心展示漢譯書(shū)稿
古彝文與漢字并非一一對應關(guān)系,存在大量的異體字、變體字。在相對規范的漢譯本彝文典籍中就有至少15%的變體字,原稿中只會(huì )更多;每個(gè)字的異體寫(xiě)法少則2-3個(gè),多則幾十種。從總量上看,未經(jīng)整理規范的古彝文字符數高達八萬(wàn)七千多個(gè),比《康熙字典》的四萬(wàn)七千余字還多。據古彝文數字化團隊研究人員透露,若想要找到某個(gè)字在一本古籍里的全部樣例,手動(dòng)查閱需要耗費一整天,如建立起完善的古彝文數據庫和翻譯系統,可極大提升研究效率。
表示“種類(lèi)”的彝文字[mo21]/[m?33]的四個(gè)極為相似的變體
兩個(gè)形似、但音義完全不同的彝文字,字義分別為“酒”、“儀禮”
“漢文古籍識別所面對的頁(yè)面殘損、字形復雜、字跡模糊等問(wèn)題,在彝文古籍識別中全部存在,還有一些任務(wù)是更加特殊的?!焙虾闲畔⒅悄芗夹g(shù)平臺事業(yè)部副總經(jīng)理郭豐俊博士提到,彝文古籍時(shí)常出現加字、替字、整句倒置、文字方向不統一等現象,給文字定位造成挑戰。再加上古彝文從未經(jīng)過(guò)統一,異體字、變體字眾多。合合信息將基于“AI+OCR”融合下的智能文字識別技術(shù),解決古彝文識別的版式檢測、圖像處理和文字識別的難題。
據悉,2021年、2022年世界人工智能大會(huì )上,合合信息用AI技術(shù)對甲骨文、西周鐘鼎文進(jìn)行精準識別,受到包括央視、人民日報、新華社在內的上百家主流媒體的關(guān)注。郭豐俊博士表示,甲骨文和古彝文追溯源頭都屬于以刻畫(huà)符號表意的文字,兩種文字的識別方式有相通之處,此次古彝文數字化項目的開(kāi)啟,也成為合合信息智能文字識別技術(shù)賦能文字保護及文化傳承的重要里程碑。
用科技開(kāi)啟古彝文“傳統的新生命周期” 1950年,當代著(zhù)名社會(huì )學(xué)家費孝通先生訪(fǎng)問(wèn)貴州畢節時(shí),率先認識到彝文古籍對理解西南邊疆歷史的重要性,并鼓勵籌建翻譯機構,也為當下的古彝文研究提供了支持。古彝文數字化項目發(fā)起人、上海大學(xué)人類(lèi)學(xué)民俗學(xué)研究所講師邵文苑所在的上海大學(xué)社會(huì )學(xué)院,便長(cháng)期設有費孝通田野調查項目資助計劃。
古籍數字化的過(guò)程同時(shí)也是保護古籍的過(guò)程。2017年,72位全國人大代表聯(lián)名建議實(shí)施中華古籍數字資源總庫體系建設工程,實(shí)現歷史文明的有序傳承。本次合合信息與上海大學(xué)共同研究的《西南彝志》共計26卷,有“彝族歷史文化的百科全書(shū)”之譽(yù),對研究彝族歷史、經(jīng)濟、文化十分重要。
古彝文數字化的價(jià)值并不止步于學(xué)術(shù)研究。隨著(zhù)我國小康社會(huì )的全面建成,人們對精神文化關(guān)注度日益提升,以民俗為主題的現代文藝創(chuàng )作、娛樂(lè )活動(dòng)讓傳統文化煥發(fā)新的生機,例如中央歌劇院演繹的柯?tīng)柨俗巫逵⑿凼吩?shī)《瑪納斯》,既尊重了民族文化特色,又體現了新時(shí)代的風(fēng)采。
邵文苑提到,古彝文文獻和口傳史詩(shī)中記錄了很多南詔古國、夜郎古國、巴蜀古國的奇聞異事,在理解典籍的基礎上,可以通過(guò)電影、音樂(lè )劇、浸入式戲劇等形式進(jìn)行創(chuàng )作,或打造“元宇宙”世界、IP主題樂(lè )園,讓更多人跨越語(yǔ)種的隔閡,感受更多元的民族文化,傾聽(tīng)獨具特色的中國故事。
“傳統也和人一樣有生老病死的過(guò)程,并和人一樣有通過(guò)后代延續‘生命’的能力,這種理論被稱(chēng)為‘傳統的生命周期’?!鄙畚脑繁硎?#xff0c;智能文字識別技術(shù)“牽手”傳統典籍研究,會(huì )是古彝文“傳統的新生命周期”的開(kāi)始。