科技日報北京4月27日電 (記者何亮)27日,在中關(guān)村論壇未來(lái)人工智能先鋒論壇上,清華大學(xué)聯(lián)合北京生數科技有限公司(以下簡(jiǎn)稱(chēng)“生數科技”)正式發(fā)布中國首個(gè)原創(chuàng )全自研視頻大模型——Vidu。論壇現場(chǎng),清華大學(xué)教授、生數科技首席科學(xué)家朱軍向與會(huì )者展示了Vidu生成的視頻,包括行駛在崎嶇道路上的汽車(chē)、戴珍珠耳環(huán)的貓、彈吉他的熊貓等。與此前震撼業(yè)界的Sora一樣,Vidu能夠根據文本描述直接生成高質(zhì)量視頻。
“長(cháng)時(shí)長(cháng)、高一致性、高動(dòng)態(tài)性”是Vidu的顯著(zhù)特征。朱軍表示,研發(fā)團隊的核心技術(shù)在于采用U-ViT架構。它由Diffusion與Transformer兩個(gè)模型融合而來(lái),可支持一鍵生成長(cháng)達16秒的高清視頻內容。
除了在時(shí)長(cháng)方面優(yōu)勢突出,Vidu在視頻效果方面也實(shí)現顯著(zhù)提升。朱軍介紹,Vidu能模擬真實(shí)物理世界,生成的視頻不但場(chǎng)景細節復雜,而且符合物理規律,例如合理的光影效果、細膩的人物表情等。Vidu還具有豐富的想象力,能生成真實(shí)世界不存在的虛構畫(huà)面,創(chuàng )造出具有深度和復雜性的超現實(shí)主義內容。此外,Vidu可理解多鏡頭語(yǔ)言,生成的視頻不再局限于簡(jiǎn)單的推、拉、移等固定鏡頭,而是圍繞同一主體實(shí)現遠景、中景、近景、特寫(xiě)等不同鏡頭的切換,甚至能直接生成長(cháng)鏡頭、追焦、轉場(chǎng)等效果,給視頻注入豐富的鏡頭表達。Vidu還獨具文化特色,能很好理解中國元素,生成熊貓、龍等中國元素的視頻。
值得一提的是,論壇上展示的視頻都是從頭到尾連續生成,沒(méi)有明顯的插幀現象。朱軍說(shuō),與Sora一樣,Vidu在文本到視頻的轉換過(guò)程中直接且連續,而且在底層算法上,是由單一模型完全端到端生成,不涉及插幀和其他多步驟處理。
相關(guān)稿件