AI大模型生態(tài)正在縱深演化,純文本形式的交互已經(jīng)不能滿(mǎn)足這個(gè)世界對于智能感知的全部需求,同時(shí)還需要結合音頻、視覺(jué)、圖片等形式,于是AI企業(yè)紛紛奔赴多模態(tài)。
先是OpenAI在近期發(fā)布了第三代文生圖大模型DALL·E 3,可以在ChatGPT上加載使用;緊隨其后,Meta推出了多模態(tài)編碼器集合AnyMAL。
一系列重磅產(chǎn)品的推出使得多模態(tài)的討論熱度陡然上升。視線(xiàn)轉回國內,逐鹿大模型的互聯(lián)網(wǎng)巨頭及AI科技公司亦在加緊開(kāi)發(fā)更多的多模態(tài)應用,進(jìn)一步釋放AIGC生產(chǎn)力。
大模型生態(tài)進(jìn)入下半場(chǎng)
正如業(yè)內流傳的名言,“所有行業(yè)都值得用AI重做一遍?!痹诖竽P蛯Ω餍懈鳂I(yè)進(jìn)行顛覆性重構的路上,面對不同場(chǎng)景的交互需求,除了傳統的文本之外,還需要云服務(wù)廠(chǎng)商將其模態(tài)應用向圖片、語(yǔ)音、視頻、代碼等形式轉化。
但是這個(gè)過(guò)程絕非易事,看似簡(jiǎn)單的交互背后其實(shí)是多個(gè)AI能力的綜合體現,既要能夠識別用戶(hù)需求、理解音頻視頻內容,還要轉化為用戶(hù)可以接受的形式,并給出有效反饋。
這其中,一大難題在于每種模態(tài)都具有特定的特征提取和分析方法,這便需要創(chuàng )新算法和技術(shù)來(lái)處理不同模態(tài)間的數據。以視頻形態(tài)來(lái)說(shuō),市面上一直缺乏良好的方法對于視頻場(chǎng)景做出充分理解,所以很多產(chǎn)品都只能按照某種固定邏輯生成,無(wú)法真正理解視頻元素的含義。
在近期微軟與OpenAI關(guān)于ChatGPT5的交流會(huì )中就談到,OpenAI將攻克的一大目標是通過(guò)對于算法底層邏輯的融合、創(chuàng )新,讓大模型能夠充分理解視頻內容以及各角色主體之間的關(guān)聯(lián),從而能夠按照特定語(yǔ)境生成深層次的視頻內容。
再以音頻形態(tài)而言,不同于視頻重在對于多維信息的把握,音頻交互更為強調對情感、意圖的充分掌握,由此對于語(yǔ)音識別技術(shù)便提出了更高要求,即要充分捕獲情感、音色甚至是方言,從中準確地抓取關(guān)鍵信息。
在音頻-文本的交互領(lǐng)域,國內走在前沿的是百融云創(chuàng ),該公司自研的智能語(yǔ)音機器人ChatBOT基于Transformer架構搭建算法模型,對于語(yǔ)音識別的準確率可以達到99%以上,實(shí)現“真人級”互動(dòng)體驗。同時(shí),ChatBOT又不僅僅是聊天機器人,而是一個(gè)幫助實(shí)現端到端結果交付的智能體。ChatBOT直接關(guān)聯(lián)商業(yè)機構KPI,可以助力商業(yè)機構實(shí)現資產(chǎn)運營(yíng)和用戶(hù)煥活流程的自動(dòng)化。
而除了算法層面外,百融云創(chuàng )相關(guān)人士表示,多模態(tài)的智能交互對于模型的工程架構、響應速度、資源配置等均提出了更高要求,以文本-語(yǔ)音交互為例,需要依托深刻的行業(yè)理解來(lái)沉淀出高質(zhì)量配對的語(yǔ)料,才能實(shí)現流暢、準確的用戶(hù)交互。
大模型能力正在加速革新
從趨勢上看,隨著(zhù)大模型進(jìn)入拼落地、拼應用的下半場(chǎng),為了讓AI技術(shù)更加融入千行百業(yè),多模態(tài)領(lǐng)域勢必會(huì )以更快的速度發(fā)展。
目前來(lái)看,多模態(tài)的主流構建思路并不是重新訓練一個(gè)大模型,而是在已經(jīng)訓練好的大語(yǔ)言模型中“嵌入”圖像理解、語(yǔ)音識別等技術(shù),也就是通過(guò)引入多模態(tài)的數據集來(lái)攻克跨領(lǐng)域的技術(shù)難點(diǎn)。例如,百融云創(chuàng )的產(chǎn)業(yè)大模型——BR-LLM便結合了NLP(自然語(yǔ)言處理)、智能語(yǔ)音等技術(shù)。
當然,也不乏一些科技公司嘗試基于特定需求直接訓練多模態(tài)基礎模型。根據微軟研究團隊近期在預印本平臺 arXiv 上發(fā)布的一篇文章,多模態(tài)基礎模型將沿著(zhù)預訓練視覺(jué)模型和通用型助手兩條路線(xiàn)拓展。文章同時(shí)表示,訓練多模態(tài)基礎模型面臨若干挑戰,例如,視覺(jué)理解模型方面,不同類(lèi)型的標簽注釋成本差異較大,昂貴的圖像成本可能會(huì )限制視覺(jué)數據規模。
但不論采取怎樣的方式,毫無(wú)疑問(wèn)大模型生態(tài)下半場(chǎng)已經(jīng)打開(kāi)。業(yè)內人士認為,隨著(zhù)模型能力的增強,AI應用范圍將不再局限于單一功能或者單個(gè)產(chǎn)品,而是會(huì )擴圍到更廣闊的應用場(chǎng)景。在這樣的背景下,能否快速、高效地將技術(shù)產(chǎn)品化,料成為決勝未來(lái)的關(guān)鍵因素。
百融云創(chuàng )相關(guān)人士表示,為了更好發(fā)揮BR-LLM的潛能,該公司基于大模型技術(shù)底座,持續推行產(chǎn)品革新。此前,為了讓AI技術(shù)更加深入賦能垂直場(chǎng)景,百融云創(chuàng )優(yōu)化原有機器學(xué)習平臺ORCA,將其與生成式AI理念緊密結合,形成的全新產(chǎn)品ORCA-GPT可以利用BR-LLM的代碼生成能力,極大地降低模型產(chǎn)品開(kāi)發(fā)部署的周期和成本。
同時(shí),伴隨著(zhù)與多模態(tài)發(fā)展相關(guān)的全新研究方向——“AI for Science”(AI輔助研發(fā))逐漸嶄露頭角,百融云創(chuàng )率先捕捉到這一趨勢,依托BR-LLM基座,于近期推出了一款全新智能代碼生成助手——BRCoder。
據了解,作為一款通用的編程大模型,BRCoder以公司內部本地部署的代碼生成大模型為核心,基于海量的優(yōu)質(zhì)代碼預訓練,可以根據提示結合當前編輯程序文件的上下文信息,自動(dòng)生成代碼,并配合IDE插件提升開(kāi)發(fā)效率。
“BR-Coder將極大地提升程序員的開(kāi)發(fā)效率,助力商業(yè)機構研發(fā)提質(zhì)增效?!卑偃谠苿?chuàng )相關(guān)人士稱(chēng),BR-Coder不僅能生成研發(fā)代碼,還可以用于自動(dòng)生成測試用例和單元測試、解答技術(shù)問(wèn)題,在保障企業(yè)數據資產(chǎn)安全的同時(shí),提升模型生成代碼的一次采用率。展望后續,BR-Coder會(huì )進(jìn)一步增強與編譯環(huán)境的交互,為開(kāi)發(fā)者提供更為全面和便捷的編程體驗。
相關(guān)稿件