12月22日-23日,以“智能涌現·發(fā)現未來(lái)”為主題的網(wǎng)易未來(lái)大會(huì )在浙江杭州舉辦。在A(yíng)GI 論壇“AI
三人行”圓桌對話(huà)上,南京大學(xué)智能科學(xué)與技術(shù)學(xué)院副教授易子立、「靈動(dòng)AI」創(chuàng )始人雷海波、AI 繪畫(huà)知名博主娜烏斯嘉三人,共同就《AI
生成視頻往何處去?》分享精彩觀(guān)點(diǎn),英諾天使基金合伙人王晟為本次對話(huà)主理人。
易子立首先教授表示,隨著(zhù)AI
熱潮的來(lái)臨,很多企業(yè)已經(jīng)在嘗試使用AI工具,但文生圖、文生視頻的技術(shù)仍有待進(jìn)一步成熟。目前,AI生成視頻的主要技術(shù)路徑是擴散模型,未來(lái)的趨勢有可能是歸回大模型訓練的方式。國外在視頻生成底層技術(shù)方面具有一定的領(lǐng)先優(yōu)勢,國內在像2D
數字人、AI 社交這樣的細分應用上表現更好。相信伴隨算力水平的提升和技術(shù)范式的革新,將來(lái)國內有可能在某些方面超越國外。
「靈動(dòng)AI」 創(chuàng )始人雷海波
“「靈動(dòng)AI」是將生成式AI圖像技術(shù)應用于營(yíng)銷(xiāo)設計端的創(chuàng )業(yè)企業(yè),我們過(guò)去20年一直在視覺(jué)設計和視覺(jué)影像行業(yè)探索”?!胳`動(dòng)AI」 創(chuàng )始人雷海波在談及視覺(jué)大模型話(huà)題時(shí)表示,過(guò)去做設計社區、媒體和設計平臺,幾乎每天都與設計師、設計機構打交道。據我所知,目前國內一些頂尖藝術(shù)設計類(lèi)高校,已在日常教學(xué)和設計項目中應用了文生圖等大模型。因此,AI在生圖領(lǐng)域的能力毋庸置疑,但生成視頻,落地應用可能還需要半年到1年的時(shí)間。
面對國內大模型廠(chǎng)商為何競爭不過(guò)國外的問(wèn)題。他直言,造成這一現象的原因,不僅僅是技術(shù)、算力、數據集方面的差距,從設計的維度來(lái)看,國內廠(chǎng)商對美學(xué)理解還存在欠缺。事實(shí)上,當下 Midjourney 生成圖的調性、氛圍、光影質(zhì)感,已經(jīng)遠超越人類(lèi)的表現。如果國內大廠(chǎng)能做出類(lèi)似 Midjourney 視覺(jué)模型,并結合高品質(zhì)的數據集,配合行業(yè)認知和產(chǎn)業(yè)化落地能力,垂直應用層面一定是有很大機會(huì )的。
被問(wèn)及「靈動(dòng)AI」的落地應用場(chǎng)景,他回答的簡(jiǎn)單而直接,“我們主要是面向前綴場(chǎng)景,比如營(yíng)銷(xiāo),特別是電商營(yíng)銷(xiāo)。過(guò)去,數億的商家和數十億的SKU(單款商品)的營(yíng)銷(xiāo)物料都是靠人工來(lái)實(shí)現的?,F在試想,如果上傳的商品信息既能在文字、圖像等模態(tài)上保持不變,又能夠與文字、圖片、視頻等模態(tài)模型實(shí)現很好的融合,從而為商家產(chǎn)出AI商品圖、海報、短視頻,甚至是3D交互內容,這個(gè)市場(chǎng)需求是很大的。今年,「靈動(dòng)AI」主要發(fā)力點(diǎn)在文生圖、垂類(lèi)模型的研發(fā)及探索行業(yè)應用,但我們看到了文生圖、圖生視頻對創(chuàng )意生產(chǎn)力帶來(lái)的解放,更期待AI在3D領(lǐng)域的高質(zhì)量生成能力”。
作為AI領(lǐng)域的知識博主和模型訓練師,娜烏斯嘉認為,AI在視頻生成領(lǐng)域歸結為四類(lèi)場(chǎng)景:原視頻風(fēng)格轉化、瞬息全宇宙、圖生視頻、場(chǎng)景轉換視頻。目前主要是廣告制作、預告片制作、推文和短視頻創(chuàng )作等領(lǐng)域嘗試較多。在圖片生成方面, AI 已能達到各種炫目的效果,但在視頻生成領(lǐng)域由于控制手段較少,表現力受到一定限制。例如:人物表情在視頻中的一致性不夠,容易出現“恐怖谷效應”。她希望在視頻生成效果控制上,技術(shù)能夠做到更加精準。但在A(yíng)I的世界里,創(chuàng )造性的想法一定是大于技術(shù)。
英諾天使基金合伙人王晟
站在投資人的角度,王晟表示,目前生成式視頻的熱度非常高。今年,風(fēng)險投資主要表現為兩端集中:一是資金端集中,只有部分VC敢于真正的出手;二是項目端集中,VC的資金主要投向了計算能力相關(guān)項目,如GPU、芯片、高速無(wú)損網(wǎng)絡(luò )、大模型等。明年,大家比較期待的是多模態(tài)模型領(lǐng)域,以及多模態(tài)能力的落地應用。
當然,AI作為一項智能技術(shù),需要全社會(huì )不斷地對它加深認知,需要政府、科學(xué)家、企業(yè)、媒體、資本等共同參與,這樣才能促使其獲得更好的良性發(fā)展。
據悉,「靈動(dòng)AI」目前已上線(xiàn)近千個(gè)商品圖場(chǎng)景,初步形成AI工具矩陣。由于擁有特定風(fēng)格場(chǎng)景的LoRA模型,多個(gè)億級參數的專(zhuān)用AI模型以及智能審美評價(jià)系統,在主體控制下,使生成商品圖呈現獨特的視覺(jué)特征和美學(xué)調性,從而為企業(yè)級用戶(hù)提供更好的服務(wù)。
相關(guān)稿件