在信息碎片化的時(shí)代,如何做到短、平、快成為當下眾多新媒體需要掌握的重要本領(lǐng)之一。新聞創(chuàng )作者往往需要高頻、精準的進(jìn)行信息收集、撰寫(xiě)和發(fā)布,特別是隨著(zhù)元宇宙概念的興起,虛擬場(chǎng)景中熱點(diǎn)事件的報道更是增加了新聞創(chuàng )作者的工作量。
為幫助新聞創(chuàng )作者更快、更準捕捉到新聞信息,馬上消費金融股份有限公司(下稱(chēng)“馬上消費”)舉辦的2022屆“天馬杯”全國高??萍紕?chuàng )新大賽,聚焦NLP賽道,開(kāi)設了“數字人播報資訊內容生成”賽題,以實(shí)現資訊內容自動(dòng)生成。
據悉,資訊內容自動(dòng)生成屬于深度學(xué)習領(lǐng)域的端到端生成式任務(wù),在給定新聞主題、新聞時(shí)間、新聞人物等要素的前提下自動(dòng)生成一篇完整的新聞。不同于機器翻譯和文本摘要(給定1篇長(cháng)文輸出摘要信息)任務(wù),資訊內容自動(dòng)生成需要在給定信息的前提下進(jìn)行內容擴寫(xiě),這需要智能機器人有一定的知識儲備,并能夠在特定的環(huán)境和場(chǎng)景中使用合適的語(yǔ)言進(jìn)行陳述。
目前市場(chǎng)上的撰稿機器人多數是基于模板的方式進(jìn)行新聞創(chuàng )作,或是對已發(fā)布新聞重組和改寫(xiě)。雖然內容流暢、可讀性高,但并不是原創(chuàng ),而且如果嚴格按照模板來(lái)引導模型還會(huì )導致生成內容單調、多樣性差的問(wèn)題,與人工撰稿有著(zhù)很大差距。
馬上消費設置“數字人播報資訊內容生成”賽題的目的就是為了解決以上問(wèn)題,同時(shí)不斷挖掘和探討如何將撰稿人的行文邏輯、文風(fēng)等引入模型的生成風(fēng)格當中。也就是說(shuō),“天馬杯”大賽的參賽者需要掌握深度學(xué)習算法、機器學(xué)習算法,且對NLP中的文本生成任務(wù)(seq2seq)、預訓練模型(Bert、GPT、BART等)有一定的了解。
隨著(zhù)核心技術(shù)愈加成熟,元宇宙也逐漸從概念走向臺前?!丁笆奈濉睌底纸?jīng)濟發(fā)展規劃》也強調,我國將“深化虛擬現實(shí)、人工智能、8K高清視頻等技術(shù)的融合,拓展社交、購物、娛樂(lè )及展覽等領(lǐng)域的應用,支持實(shí)體消費場(chǎng)所建設數字化消費新場(chǎng)景,推廣虛實(shí)交互體驗等應用”。
作為一家科技驅動(dòng)型金融機構,馬上消費早在2017年就專(zhuān)門(mén)成立了人工智能研究院,在資訊內容生成方面也做出了很多探索性的工作,包括基于模板的資訊內容生成,如何根據歷史新聞數據實(shí)現模板的自動(dòng)化歸納;基于模型的生成式新聞,如何根據提示信息來(lái)控制新聞生成的主題方向、內容質(zhì)量;通過(guò)模板與模型相結合的方式進(jìn)行優(yōu)勢互補等,經(jīng)多次實(shí)驗,已初步形成了一套自動(dòng)撰稿的流程方案。
且根據實(shí)驗發(fā)現,從模型訓練到新聞的生成與發(fā)布都體現了歷史新聞的重要性,天馬杯“數字人播報資訊內容生成”將為新聞的生成規律、陳述方式、寫(xiě)作模板、寫(xiě)作文風(fēng)等提供更多可能。