??2024年開(kāi)年,Sora的橫空出世,給AI界投下一枚重磅炸彈。
??這個(gè)由美國人工智能公司OpenAI發(fā)布的文生視頻模型,只需要一段提示文本,就能生成具有多個(gè)角色和特定動(dòng)作類(lèi)型,且主題和背景基本準確的高清視頻。相較于Runway Gen 2、Pika等AI視頻生成應用幾秒鐘連貫性的視頻產(chǎn)出,Sora可生成長(cháng)達60秒的連續、穩定、高品質(zhì)視頻,且提示文本越充分、細節越精確,生成的視頻越真實(shí)。
??不過(guò),出于可能被濫用的擔憂(yōu),OpenAI表示目前并沒(méi)有公開(kāi)發(fā)布Sora的計劃。模型有限的訪(fǎng)問(wèn)權限只被授予小部分研究人員和創(chuàng )意人士等群體,以便OpenAI獲取他們的使用反饋。
??目前,官網(wǎng)上已更新了48個(gè)Sora生成的演示視頻。這些視頻清晰且真實(shí)的細節和超高的精度不禁引發(fā)人們思考:這是否意味著(zhù)具備人類(lèi)同等智能或超越人類(lèi)智能的通用人工智能(AGI)的到來(lái)?
??對研究AGI意義重大
??Sora問(wèn)世后,360集團創(chuàng )始人周鴻祎發(fā)表了看法:Sora的出現讓AGI到來(lái)的時(shí)間提前了。原來(lái)估計需要十來(lái)年,現在可能只要兩三年。他認為,Sora雖然看起來(lái)只是個(gè)文生視頻工具,但實(shí)際上是AI認知世界并與之進(jìn)行交互的里程碑,會(huì )給整個(gè)產(chǎn)業(yè)帶來(lái)巨大進(jìn)步。
??“實(shí)現AGI的技術(shù)路線(xiàn)多樣,涉及不同的研究方法和應用方向?!敝袊茖W(xué)院自動(dòng)化研究所副總工程師、紫東太初大模型中心常務(wù)副主任王金橋向科技日報記者介紹,目前,學(xué)術(shù)界和工業(yè)界廣泛討論的AGI技術(shù)路線(xiàn)主要有三條。一是信息智能,即“大數據+自監督學(xué)習+大算力”。這種方法依賴(lài)大量數據,通過(guò)自監督學(xué)習算法來(lái)訓練模型,同時(shí)需要巨大的計算能力來(lái)處理復雜任務(wù)。二是博弈智能。這種技術(shù)路線(xiàn)強調在人機交互中通過(guò)強化學(xué)習的方式訓練智能體,使其能進(jìn)行自主學(xué)習和決策。三是類(lèi)腦智能。這種方法試圖通過(guò)模仿人腦的運行方式實(shí)現AGI。
??在王金橋看來(lái),根據官網(wǎng)的演示視頻,Sora至少在畫(huà)質(zhì)、長(cháng)視頻生成、多鏡頭一致性、學(xué)習世界規律、多模態(tài)融合等方面實(shí)現突破。
??“Sora能引發(fā)如此轟動(dòng),并不只是因為它生成的視頻時(shí)間更長(cháng)、清晰度更高,而是因為它能在一定程度上模擬物理世界中的物體運動(dòng)和交互?!蓖踅饦蛘f(shuō),“這種能力對于A(yíng)GI的研究具有重要意義,因為它涉及機器對現實(shí)世界的深入理解和高度模擬,而這些是實(shí)現AGI的核心挑戰?!?/p>
??記者了解到,為了準確模擬物理世界,Sora被投喂了極大規模的訓練數據,并使用了擴散模型等先進(jìn)的算法?!皩τ贏(yíng)GI而言,Sora讓大家看到,規模效應不只在文字模態(tài)上成立,在視頻模態(tài)上也成立?!北本┰轮得婵萍加邢薰?#xff08;Moonshot AI)聯(lián)合創(chuàng )始人周昕宇認為,“通過(guò)擴展視頻生成模型可以建立通用物理世界模擬器。這是實(shí)現AGI的必要過(guò)程?!?/p>
??距真正實(shí)現AGI仍有距離
??雖然進(jìn)步顯著(zhù)、令人驚艷,但Sora仍然存在一些技術(shù)缺陷。
??從目前Sora生成的視頻來(lái)看,它在處理某些細節時(shí)可能會(huì )出錯,例如混淆物體的左右方向。同時(shí),它也無(wú)法完全理解復雜的因果關(guān)系,或在長(cháng)時(shí)間跨度內保持故事線(xiàn)的高度一致連貫。這些技術(shù)缺陷導致生成的視頻內容可能出現與邏輯錯誤,或與常識、真實(shí)情形不符的情況。
??“Sora模擬真實(shí)物理世界的方式,是通過(guò)對給定的文字、圖像、參考視頻進(jìn)行建模,然后預測想要生成的視頻數據的條件概率分布。這與語(yǔ)言模型的原理沒(méi)有本質(zhì)區別,同樣是在做無(wú)損壓縮?!敝荜坑钫f(shuō),“只要壓縮得足夠好,就可以模擬出足夠真實(shí)的物理世界?!?/p>
??王金橋強調,盡管Sora能夠通過(guò)學(xué)習了解表層的運動(dòng)和交互關(guān)系,但是還沒(méi)有學(xué)習到物理規律的本質(zhì)。比如,它不知道多大的風(fēng)能吹滅蠟燭,不了解玻璃掉到地上會(huì )碎、掉到地毯上不會(huì )碎的本質(zhì)原因。這也是Sora目前最為人詬病之處。
??“從Sora為數不多的公開(kāi)資料來(lái)看,它仍是數據驅動(dòng)下的擬合,也就是模擬人類(lèi)所能看到的物理世界。但真實(shí)的物理世界遠不僅包含人類(lèi)視覺(jué)信息?!北本┲嘘P(guān)村科金技術(shù)有限公司技術(shù)副總裁張杰認為,Sora的創(chuàng )意來(lái)自大數據量下的概率擬合,它并沒(méi)有產(chǎn)生新知識,距離“深度模擬真實(shí)物理世界”這一目標還有很長(cháng)的路要走。
??中國社會(huì )科學(xué)院哲學(xué)研究所科技哲學(xué)研究室主任、研究員段偉文同樣表達了審慎的觀(guān)點(diǎn)?!癝ora這種近乎人類(lèi)的表達實(shí)際上是一種基于現有數據和語(yǔ)料的合成智能?!彼f(shuō),“它給實(shí)現AGI找到了一種可行的路徑,但距真正的AGI還有很長(cháng)的距離,且對實(shí)現AGI的價(jià)值相對有限?!?/p>
??事實(shí)上,實(shí)現AGI這一目標可謂道阻且長(cháng)。王金橋談到了幾大挑戰。首先是數據瓶頸。盡管像GPT-4這樣的預訓練語(yǔ)言模型在數據標注上取得了進(jìn)展,但數據依然是深度學(xué)習中的一個(gè)關(guān)鍵限制因素;其次是泛化瓶頸。目前的AI系統往往在特定任務(wù)上表現出色,但在面對新任務(wù)時(shí)難以有效適應;最后是能耗瓶頸。隨著(zhù)AI模型變得越來(lái)越復雜,所需的計算資源和能源消耗也越來(lái)越大。這對硬件設備提出了更高要求。
??或將率先落地傳媒領(lǐng)域
??Sora的發(fā)布不僅推動(dòng)了技術(shù)的發(fā)展,也引發(fā)了對AI治理和倫理的探討。
??段偉文提到,OpenAI采取了相關(guān)手段來(lái)阻止不當視頻的發(fā)布。王金橋進(jìn)一步解釋道, Sora內置的文本提示過(guò)濾器可篩選發(fā)送給模型的所有提示,阻止對暴力、色情內容、仇恨言論以及名人肖像等敏感或不適當內容的請求。視頻內容過(guò)濾器能檢查生成的視頻幀,屏蔽違反OpenAI安全政策的內容。
??另外,OpenAI團隊可能會(huì )定期對Sora進(jìn)行優(yōu)化和更新,以改進(jìn)其過(guò)濾機制,確保模型能夠更好地識別和處理敏感內容。同時(shí),團隊可能會(huì )監控系統的使用情況,以便及時(shí)發(fā)現并解決新出現的問(wèn)題。
??“從技術(shù)上看,Sora避免極端暴力、色情、名人肖像等內容出現的方式,主要依靠的是模型的對齊能力?!敝荜坑钫f(shuō),“這一點(diǎn)和語(yǔ)言模型的區別不大,也已經(jīng)有比較多的實(shí)踐經(jīng)驗?!?/p>
??據國際數據公司預測,Sora將率先在短視頻、廣告、互動(dòng)娛樂(lè )、影視制作和媒體等傳媒領(lǐng)域得到應用。Sora的諸多能力,可以輔助這些領(lǐng)域的工作者更高效地進(jìn)行視頻創(chuàng )作,加快生產(chǎn)速度,提高產(chǎn)出數量。這將助力相關(guān)行業(yè)降低成本、提升效率,進(jìn)一步優(yōu)化用戶(hù)體驗。(記者 崔爽)
相關(guān)稿件