智能時(shí)代的一次進(jìn)化
■在“高智商”的加持下,GPT-4o的反應速度跳上了新臺階。它最快能夠在232毫秒內響應語(yǔ)音輸入,平均響應時(shí)長(cháng)約320毫秒,這大約與人類(lèi)對話(huà)相當
■有媒體稱(chēng)這預示著(zhù)“智能時(shí)代的一次進(jìn)化”,未來(lái)移動(dòng)設備中的互聯(lián)網(wǎng)可能會(huì )被濃縮在一個(gè)程序之中,用戶(hù)可以通過(guò)它解決一切需求:發(fā)短信、導航、識物、打車(chē)等
本報記者?查睿
Sora之后,美國開(kāi)放人工智能研究中心(OpenAI)昨天凌晨推出“王炸”新模型GPT-4o?!皁”是Omni(全能模型)的縮寫(xiě)。GPT-4o不僅能夠實(shí)時(shí)處理文本、音頻和圖像,還采用全新的語(yǔ)音交互模式,大幅提升人機對話(huà)的響應速度,幾乎與真人對話(huà)相差無(wú)幾,它還會(huì )看人臉色、講笑話(huà)……總之,AI更像人,甚至更像一個(gè)朋友了。
在GPT-4o的“人性”背后,大模型正進(jìn)入多模態(tài)發(fā)展的新階段。模型不再追求長(cháng)文本的單一的語(yǔ)言對話(huà),視覺(jué)、語(yǔ)音乃至情感都成為模型參數中的關(guān)鍵。對如今的“百模大戰”而言,這一變化是危機還是商機?
聰明又快速
作為ChatGPT的基礎技術(shù)模型,GPT-4o的能力將直接影響ChatGPT的用戶(hù)體驗?!癎PT-4o既聰明又快速,是自然的多模態(tài)?!監penAI?CEO山姆·奧特曼評價(jià)。
GPT-4o有多聰明?
根據OpenAI的發(fā)布會(huì )和官網(wǎng)披露的信息所示,GPT-4o不僅可以識別手寫(xiě)字體,還能解答數學(xué)方程式,甚至還能識別圖像中的人物微表情。
根據傳統基準測試,GPT-4o的性能對比GPT-4?Turbo(OpenAI去年11月發(fā)布的大模型)基本都處于優(yōu)勢,對比其他模型更是大幅領(lǐng)先。具體來(lái)說(shuō),GPT-4o在英語(yǔ)文本和代碼上的性能與GPT-4?Turbo類(lèi)似,但在非英語(yǔ)文本上的性能顯著(zhù)提高,與現有模型相比,GPT-4o在視頻和音頻方面表現尤為出色。
在“高智商”的加持下,GPT-4o的反應速度跳上了新臺階。
它最快能夠在232毫秒內響應語(yǔ)音輸入,平均響應時(shí)長(cháng)約320毫秒,這大約與人類(lèi)對話(huà)相當。如果對320毫秒的突破沒(méi)有直觀(guān)印象,不妨看看上一代模型的成績(jì):語(yǔ)音對話(huà)模式下,ChatGPT的平均響應時(shí)長(cháng)為2.8秒(基于GPT-3.5)和5.4秒(基于GPT-4)。
GPT-4o之所以這么快,離不開(kāi)全新的神經(jīng)網(wǎng)絡(luò )處理流程。
“我們現在常見(jiàn)的‘Siri’‘小愛(ài)同學(xué)’等語(yǔ)音助理,以及GPT-3.5等上代大模型對語(yǔ)音對話(huà)的處理能力慢,至少需要三個(gè)步驟,反應時(shí)間和處理速度延遲感強?!眹鴥饶矨I企業(yè)技術(shù)專(zhuān)家解釋稱(chēng),第一步,音頻轉文本將人的指令轉化為文本輸入;第二步,機器對文本理解并輸出文本;第三步,文本轉語(yǔ)音“說(shuō)”給用戶(hù),這才完成了語(yǔ)音對話(huà)的流程?!斑@樣的模式不僅慢,而且會(huì )遺漏許多語(yǔ)音中的信息熵值,也會(huì )影響對話(huà)的連貫性?!?/p>
在GPT-4o上,OpenAI跨文本、視覺(jué)和音頻端到端地訓練了一個(gè)新模型,這意味著(zhù)所有輸入和輸出都由同一模型來(lái)處理,實(shí)現真正的多模態(tài)交互。
高智商疊加反應快,GPT-4o還模仿了人類(lèi)的情感和幽默感,更具人情味。難怪山姆·奧特曼稱(chēng)之為“人類(lèi)級別的響應”。
基于GPT-4o的天賦,ChatGPT不僅能實(shí)時(shí)語(yǔ)音對話(huà),還能聽(tīng)懂用戶(hù)對話(huà)的不同語(yǔ)氣和情緒狀態(tài),還能相應生成不同的情感表達,甚至可以要求GPT-4o唱歌,對話(huà)時(shí)幾乎感受不到僵硬的AI感。
經(jīng)過(guò)OpenAI的現場(chǎng)展示,不少人認為,會(huì )提供情緒價(jià)值的“AI伴侶”已觸手可及。
國內模型存代際差異
“現在主打情感陪伴的AI創(chuàng )業(yè)公司可以退場(chǎng)了?!斌@訝于GPT-4o強大的共情能力,不少細分AI賽道隱隱感受到了危機。
此前,ChatGPT主要追求性能和生產(chǎn)力,不少創(chuàng )業(yè)公司錯位競爭,打造了一批“類(lèi)人”AI產(chǎn)品,也吸引了部分用戶(hù)。比如InflectionAI的AI機器人Pi誕生一年就收獲了百萬(wàn)級別的日活用戶(hù)。國內大模型公司MiniMax推出一款名為Glow的虛擬聊天產(chǎn)品,僅四個(gè)月時(shí)間也吸引了數百萬(wàn)用戶(hù)。
不同于Pi等純陪伴型的機器人,GPT-4o既能當幫手,還是能開(kāi)玩笑的“多面手”,無(wú)形中提高了AI的創(chuàng )業(yè)門(mén)檻。
“GPT-4o使得市場(chǎng)對AI產(chǎn)品的期望值大幅提高,創(chuàng )業(yè)公司需要投入更多資源來(lái)開(kāi)發(fā)和優(yōu)化其AI模型?!鄙虾J腥斯ぶ悄苄袠I(yè)協(xié)會(huì )秘書(shū)長(cháng)鐘俊浩表示,如OpenAI、谷歌、蘋(píng)果等大公司,能夠更快地推出高性能AI模型,導致市場(chǎng)資源向這些大公司集中,初創(chuàng )公司難以獲取足夠的市場(chǎng)份額和投資。
不僅是創(chuàng )業(yè)公司,國內AI巨頭的壓力也不小。
目前,國內AI在多模態(tài)模型訓練方面主要采用圖像和文字聯(lián)合訓練,語(yǔ)音則是通過(guò)單獨的模型進(jìn)行處理并拆解完成上下游任務(wù)。與GPT-4o高度擬人化的多模態(tài)聯(lián)合訓練相比,仍存在代際差異。
“據我了解,目前,國內如上海人工智能實(shí)驗室、字節跳動(dòng)、阿里和Minimax等企業(yè)也在進(jìn)行類(lèi)似的多模態(tài)聯(lián)合訓練研究,但很難說(shuō)已經(jīng)有能夠匹敵GPT-4o的產(chǎn)品?!辈贿^(guò),鐘俊浩同時(shí)表示出樂(lè )觀(guān),憑借國內巨頭的研發(fā)能力,追趕GPT-4o并非遙不可及,在國內算力基礎設施日益完善的前提下,“平替”產(chǎn)品的研發(fā)周期會(huì )大幅縮短。
據記者了解,商湯近期推出了商量擬人大模型“SenseChat-Character”,支持個(gè)性化角色創(chuàng )建與定制、知識庫構建、長(cháng)對話(huà)記憶、多人群聊等功能,可實(shí)現行業(yè)領(lǐng)先的角色對話(huà)、人設及劇情推動(dòng)能力,可以廣泛應用于情感陪伴、影視動(dòng)漫IP角色、明星網(wǎng)紅AI分身、語(yǔ)言角色扮演游戲等擬人對話(huà)場(chǎng)景。
多模態(tài)交互是大勢所趨
“大模型發(fā)展一年以來(lái),能力快速上升的同時(shí),發(fā)展趨勢也更加清晰?!卑⒗镌剖紫夹g(shù)官周靖人認為,從單一語(yǔ)言模型到多模態(tài)混同發(fā)展是大勢所趨。
多模態(tài)模型,通常指能同時(shí)處理和整合多種類(lèi)型數據(如文本、圖像、聲音等)的大模型,GPT-4o的橫空出世便是多模態(tài)模型的集大成。
國內也在爭取抓住多模態(tài)的東風(fēng),也取得了斐然的成績(jì)。
據第三方統計,2023年,國內多模態(tài)AI概念股研發(fā)支出合計達到327.53億元,占營(yíng)收比例為11.2%,這一比例是同期A(yíng)股整體水平的4.46倍。云從科技-UW、格靈深瞳、阿爾特、虹軟科技等概念股研發(fā)支出占營(yíng)收比超過(guò)50%,相當于拿出超一半的營(yíng)收投入研發(fā)。
5月9日,阿里云發(fā)布的通義千問(wèn)2.5,其多模態(tài)模型已初具影響力,如視覺(jué)理解模型Qwen-VL-Max在多個(gè)多模態(tài)標準測試中超越Gemini?Ultra和GPT-4V,目前已在多家企業(yè)落地應用。當前,通義已發(fā)展出文生圖、智能編碼、文檔解析、音視頻理解等能力。
14日,騰訊也宣布旗下混元文生圖大模型全面升級,升級后采用了與Sora一致的DiT架構,不僅可支持文生圖,也可作為視頻等多模態(tài)視覺(jué)生成的基礎。評測數據顯示,混元文生圖模型整體能力屬于國際領(lǐng)先水平。
作為OpenAI的春季升級產(chǎn)品,GPT-4o在多模態(tài)上的出色表現,更讓業(yè)界對即將到來(lái)的GPT-5產(chǎn)生濃厚興趣。
鐘俊浩預計,GPT-5在多模態(tài)的基礎上將進(jìn)一步強化多模態(tài)交互中的表現,不僅能夠處理文本,還能通過(guò)攝像頭、麥克風(fēng)等設備直接與現實(shí)環(huán)境互動(dòng)。例如,通過(guò)攝像頭識別物體并執行相應的指令,這將大大提升AI在現實(shí)場(chǎng)景中的實(shí)用性和交互體驗。同時(shí),GPT-5還可與第三方平臺無(wú)縫整合,例如智能家居設備及辦公系統等,以擴展其應用場(chǎng)景。
這也給AI創(chuàng )業(yè)公司帶來(lái)了新商機?!皠?chuàng )業(yè)公司不妨利用OpenAI提供的API(編程接口)來(lái)增強其產(chǎn)品功能,在垂直領(lǐng)域找到與科技巨頭的互補點(diǎn),或針對特定行業(yè)或用戶(hù)需求,開(kāi)發(fā)定制化解決方案?!辩娍『平ㄗh。
相關(guān)稿件