美國人工智能公司OpenAI發(fā)布的ChatGPT以其高效信息獲取、海量數據調用、超強優(yōu)化學(xué)習能力火速出圈。ChatGPT不僅是人工智能技術(shù)的應用端普及,更是憑借完善的邏輯歸納能力、有監督的持續改進(jìn)調優(yōu)以及連續對話(huà)的交互體驗開(kāi)啟了通用人工智能(AGI)的一扇窗,不僅僅在內容生產(chǎn)、便捷交互和簡(jiǎn)化工作等消費端的應用快速普及,并向工業(yè)設計、藥物研發(fā)、材料科學(xué)等領(lǐng)域快速擴散。
而隨著(zhù)集度、吉利、紅旗等汽車(chē)企業(yè)紛紛宣布支持汽車(chē)機器人自然交流,以人工智能為技術(shù)驅動(dòng)的自動(dòng)駕駛,將成為新能源汽車(chē)發(fā)展的重要方向。本文就近期ChatGPT此類(lèi)預訓練大模型人工智能技術(shù)的突破,將對自動(dòng)駕駛領(lǐng)域帶來(lái)哪些變革進(jìn)行探討。
ChatGPT能夠給自動(dòng)駕駛帶來(lái)語(yǔ)音交互提升,成為提升智能座艙語(yǔ)音交互質(zhì)量的重要工具
ChatGPT是以其令人驚艷的“對話(huà)聊天”能力出圈的,對比市面上現有的機械式的車(chē)載智能語(yǔ)音交互模式,ChatGPT依托海量參數的預訓練大模型實(shí)現了降維打擊。當前車(chē)載智能語(yǔ)音交互主要有識別、理解和執行三大重點(diǎn),而在目前提供的解決方案中,語(yǔ)音識別部分已經(jīng)能夠達到90%以上,堵點(diǎn)難點(diǎn)主要聚焦于“理解”部分。
由于機器不具備語(yǔ)義理解能力,用戶(hù)只能通過(guò)觸摸屏與部分語(yǔ)音相結合的方式,按照指定命令與汽車(chē)進(jìn)行交互,功能的復雜性和關(guān)鍵詞的多少成正相關(guān),整個(gè)系統機械化運行、功能單一。據相關(guān)機構調研,2022年1-8月,語(yǔ)音交互功能在智能座艙的滲透率達到73.3%,但用戶(hù)對智能語(yǔ)音交互感興趣程度僅為42.9%。
所以,ChatGPT作為自然語(yǔ)言處理技術(shù)功能強大,ChatGPT能夠在溝通中結合用戶(hù)提出的問(wèn)題不斷做出精準的、連續的回應,一方面通過(guò)對模型在車(chē)內對話(huà)場(chǎng)景的專(zhuān)項定制,可以在車(chē)載運行環(huán)境中取得優(yōu)異的識別效果;另一方面模型的學(xué)習能力和上下文結合能力,可以讓ChatGPT實(shí)現連續對話(huà)交互。這種語(yǔ)義理解能力應用在車(chē)機交互上,最直觀(guān)的變革就是語(yǔ)音交互更加直接,更符合人類(lèi)思考的習慣,會(huì )更加接近于人與人之間的交流,交互效率直線(xiàn)提升,大幅提升用戶(hù)體驗。
生成式AI為自動(dòng)駕駛模型訓練提供高質(zhì)量合成數據,破解自動(dòng)駕駛數據和測試難題
ChatGPT屬于生成式AI在自然語(yǔ)言對話(huà)場(chǎng)景中的應用,而AIGC(人工智能生產(chǎn)內容)能夠靈活運用于寫(xiě)作、繪圖、語(yǔ)音、視頻等不同維度的創(chuàng )作領(lǐng)域,結合自動(dòng)駕駛模型訓練的數據需求,AIGC能夠生成任何人類(lèi)想象到的駕駛場(chǎng)景。
自動(dòng)駕駛需要通過(guò)真實(shí)世界的數據來(lái)訓練、測試和驗證模型算法的安全性和準確性,其過(guò)程需要大量數據支持和復雜的駕駛環(huán)境,甚至涵蓋許多極端環(huán)境的“邊緣案例”,某種意義上說(shuō)需要數百年的真實(shí)駕駛才能收集構建真正安全的自動(dòng)駕駛汽車(chē)所需的所有數據,并且真實(shí)世界的圖像數據必須先手動(dòng)標記,然后才能用于訓練AI模型。谷歌(Waymo)已經(jīng)投入了數十億美元,并花費了十多年的時(shí)間來(lái)收集數百萬(wàn)英里的真實(shí)駕駛數據,并將其作為其自動(dòng)駕駛技術(shù)堆棧的護城河。
相較而言,合成數據無(wú)論從成本還是場(chǎng)景方面都有著(zhù)無(wú)可比擬的優(yōu)勢,因此第一批出現的合成數據初創(chuàng )公司也主要瞄準了自動(dòng)駕駛汽車(chē)終端市場(chǎng),幫助自動(dòng)駕駛企業(yè)解決其在自動(dòng)駕駛系統開(kāi)發(fā)過(guò)程中所面臨的數據和測試難題。
隨著(zhù)AIGC技術(shù)持續創(chuàng )新發(fā)展,基于A(yíng)IGC算法模型創(chuàng )建、生成合成數據迎來(lái)重大進(jìn)展,有望解決自動(dòng)駕駛發(fā)展應用過(guò)程中的數據限制。一是通過(guò)合成數據來(lái)改善基準測試數據的質(zhì)量來(lái)實(shí)現數據增強和數據模擬,解決數據匱乏、數據質(zhì)量等問(wèn)題;二是利用合成數據訓練AI模型可以有效避免用戶(hù)隱私問(wèn)題;三是合成數據可以自動(dòng)創(chuàng )建、生成現實(shí)世界中難以或者無(wú)法采集的數據場(chǎng)景,能有效應對長(cháng)尾、邊緣案例,提高模型算法的準確性、可靠性;四是合成數據技術(shù)可以實(shí)現更廉價(jià)、高效地批量生產(chǎn)自動(dòng)駕駛模型訓練開(kāi)發(fā)所需的海量數據,畢竟人工標注一張圖片可能需要6美元,但人工合成的話(huà)只需要6美分。
大模型技術(shù)路線(xiàn)啟發(fā)自動(dòng)駕駛底層算法躍遷升級
ChatGPT作為一個(gè)語(yǔ)言模型主要用于生成自然語(yǔ)言文本,如對話(huà)、文章等,而自動(dòng)駕駛算法需要處理的是感知、決策和控制等方面的問(wèn)題,看似二者并沒(méi)有太大的關(guān)聯(lián),但是從技術(shù)邏輯上,ChatGPT能夠給自動(dòng)駕駛算法技術(shù)路線(xiàn)發(fā)展帶來(lái)兩大啟發(fā)。
第一點(diǎn),是大模型的突現能力,即參數規模超過(guò)一個(gè)閾值后,模型的“思維鏈”能力突然就涌現出來(lái),這就是所謂大模型的“突現能力,通俗講就是量變引起質(zhì)變,大模型就意味著(zhù)大參數、大數據,當然伴隨的也是大成本和大投入。ChatGPT的破圈給人工智能業(yè)界帶來(lái)的突破性認知和范式轉變是突現能力只存在于大型模型中,而不是小型模型。各種測試表明,只有模型達到175B的規模才有可能形成“突現能力”,模型能夠展示類(lèi)似人類(lèi)的復雜推理和知識推理能力——思維鏈,基于“思維鏈”的推理能力能夠在提問(wèn)時(shí)附加給出提示,模型就能自動(dòng)學(xué)習并做出相應推理得到正確結果。這對于自動(dòng)駕駛“躍進(jìn)式”和“漸進(jìn)式”兩大路線(xiàn)的選擇無(wú)疑會(huì )產(chǎn)生深遠影響。
第二點(diǎn),是人類(lèi)反饋的強化學(xué)習(RLHF),簡(jiǎn)單理解就是應用人類(lèi)處理問(wèn)題的方式去訓練算法。從2020版本的GPT-3到2022版本的ChatGPT,在控制參數量和訓練數據不變的情況下對比監督學(xué)習指令微調和RLHF,能夠發(fā)現在RLHF的參與下,模型的回答更加詳實(shí)、公正,并且能夠拒絕不當和知識范圍以外的問(wèn)題。將這類(lèi)模式映射到自動(dòng)駕駛的算法模型中就是應用人類(lèi)司機正確的駕駛數據來(lái)訓練算法,駕駛員針對自動(dòng)駕駛算法的接管視為決策糾正,同時(shí)也是正向反饋的強化學(xué)習。ChatGPT的成功則證明應用RLHF是可以訓練出模型來(lái)驗證、評價(jià)機器模型的輸出,使其不斷進(jìn)步,最終達到人類(lèi)的駕駛水平,在自動(dòng)駕駛業(yè)內毫末通過(guò)該方式,在掉頭、環(huán)島等公認的困難場(chǎng)景,通過(guò)率提升30%以上。
一句話(huà),以ChatGPT為代表的內容生成式AI在自動(dòng)駕駛領(lǐng)域還處于探索階段,目前看在智能座艙語(yǔ)音、自動(dòng)駕駛模型訓練等方面具備應用,隨著(zhù)科技領(lǐng)域、產(chǎn)業(yè)領(lǐng)域、資本領(lǐng)域的持續介入,預訓練大模型“思維”能力更強,在自動(dòng)駕駛領(lǐng)域的應用將進(jìn)一步拓寬,我團隊將持續關(guān)注。
相關(guān)稿件