一年一度的世界機器人大會是洞察機器人行業(yè)前沿的重要窗口。剛剛在京落下帷幕的2024世界機器人大會現場,被視為最適應現實世界的人形機器人站上C位,27臺整機同臺競技,數量、水準創(chuàng)歷屆之最。
與往屆不同,在大模型“催化”下,從AI點綴、AI介入到AI驅動,從鎖起來的展品,到動起來的產品,再到加速量產的商品,人形機器人正在經歷由局部到整體的系統(tǒng)性進化。
從單一靈巧到系統(tǒng)協(xié)調
對一款人形機器人說:“我想喝杯拿鐵?!眱芍混`巧手的默契配合下,不一會兒,一杯飄著香氣的咖啡就遞到眼前;
對著另一款人形機器人“蓋博特”說一句:“蓋博特,幫我拿一把雨傘?!苯拥街噶畹臋C器人伸出雙臂,立馬行動起來。它面向眾多物品,從中眼手協(xié)調地抓取出雨傘,贏得現場喝彩……
這屆大會,人形機器人之間的比拼已不止于單點的技術突破,以及單個“器官”技術參數之間的PK,而是“進化”到不同器官之間的配合與協(xié)調。
“別看只是簡單的抓取、歸置,這兩個動作背后包含了多種核心技術?!薄吧w博特”的研發(fā)方、北京銀河通用機器人有限公司聯(lián)合創(chuàng)始人姚騰洲向記者介紹。
過去兩年,單只靈巧手的核心技術,已逐步被多家企業(yè)掌握。例如,最新發(fā)布的智元機器人已替下去年6個自由度的靈巧手,換上19個自由度的升級版靈巧手。亮相本屆機器人大會的優(yōu)理奇人形機器人Martian,單只靈巧手的自由度已達到23個。
然而,如今人形機器人手部能力的“鍛造”,已超越單個器官的靈巧,轉向為局部協(xié)調的迭代。左右手的協(xié)同配合,一方面有賴于擁有像人一樣自由轉動的關節(jié)、更多的“自由度”,另一方面還需要多維度的環(huán)境感知、更加精密的控制算法。
“感知觸覺與視觸覺相結合的多觸覺傳感器,配合上持續(xù)優(yōu)化的控制算法,能夠處理更廣泛的物體交互。比如能實現左手捏住紐扣、右手拿針完成穿針引線這樣基于視觸覺位姿估計的精細操作?!敝窃獧C器人聯(lián)合創(chuàng)始人兼首席技術官彭志輝說,當機器人擁有了感知觸覺與視觸覺的能力,它就可以做到對力的精準定位與對力度大小的調節(jié)控制。
“我們采用了立體視覺系統(tǒng),形成了手眼伺服系統(tǒng)、控制系統(tǒng)、運動系統(tǒng),實現了人形機器人的‘眼到手到’。”北京偉景智能科技有限公司創(chuàng)始人董霄劍說。
從AI“點綴”到AI驅動
人形機器人加速“進化”,背后離不開AI這個“驅動器”。
“人形機器人與人工智能的深度融合,構成今年機器人產業(yè)的顯著趨勢?!眱?yōu)理奇機器人科技公司創(chuàng)始人兼首席執(zhí)行官楊豐瑜做出判斷。
早期的機器人僅能執(zhí)行特定環(huán)境的固定指令?!斑^去,機器人沒有自主的運動控制能力,只能在固定環(huán)境完成單一任務,換一個環(huán)境后就難以完成。”北京具身智能機器人創(chuàng)新中心有限公司總經理熊友軍說,由于傳統(tǒng)機器人基于Model-Based,即以數學模型求解方程的方式訓練機器完成任務,當換一個陌生環(huán)境后,則需重新列方程、解方程,導致機器人的泛化能力很差。
如今AI驅動下,“大腦”與“小腦”的升級,牽引人形機器人不斷“進化”。
大模型的一大功能,首先體現在人形機器人“腦力”的升級。熊友軍說,人形機器人的“大腦”以多模態(tài)大模型增強人機交互,實現對人類意圖的理解、對復雜外部環(huán)境的理解與認知。
科大訊飛人形機器人首席科學家季超舉例說,例如星火大模型在復雜任務拆解、開放場景物體識別、多模態(tài)感知與理解等維度,顯著提升了人形機器人的智能化水平。
“大模型的思維鏈推理能力顯著提升了機器人對于復雜任務的理解能力,并提供了符合物理世界常識的任務拆解與規(guī)劃。具身感知模型與具身決策模型的結合,進一步提升了機器人在真實場景下的多模態(tài)感知與理解能力。”季超說。
大模型的另一功能,體現在人形機器人“小腦”的增強?!耙簿褪峭ㄟ^算法驅動人形機器人的運動控制,提升機器人的靈活性與協(xié)調性。全方位調動視覺算法、運動控制算法、語音算法、基于狀態(tài)記憶的強化模仿學習算法,實現對機器人的運動控制。”熊友軍說。
大模型對機器人的賦能,還體現在通用性與泛化性的提升。楊豐瑜說:“預訓練大模型,使用大量數據集進行預訓練,能使機器人具備更強的學習能力。遷移學習,意味著大模型能將特定任務上的學習能力遷移到機器人任務上,提高適應性、泛化性。另外是多模態(tài)學習,也就是結合視覺、聽覺、觸覺等多種信號輸入,提升機器人對復雜場景的感知與理解能力,學會‘舉一反三’?!?/p>
今年以來,人工智能正深度滲透到人形機器人“進化”的各個階段?!耙皇歉兄到y(tǒng),從基本的環(huán)境感知到復雜的多模態(tài)感知(視覺、聽覺等)。二是運動控制,從站、走到跳、跑,手部從簡單的抓取到完成復雜的精細操作。三是智能決策,從預定義行為到自主學習和決策。最后是交互能力,機器人與人、環(huán)境的互動,從單純接受指令,到自然語言的理解,再到情感識別?!睏钬S瑜介紹,前兩者涉及機器人的“小腦”和“軀干”,后兩者則深入到機器人的“大腦”層面。
大模型驅動下,人形機器人的演進路線什么樣?“最初是傳統(tǒng)自動化,即人工編排下初步的感知、執(zhí)行。這一階段的機器無法在不同場景下做遷移,不具備泛化性。第二階段是基于基礎模型的通用原子能力,也就是單個的任務編排,部分實現特定任務的能力遷移。第三階段是數據驅動下的端到端操作,逐步經過認知推理規(guī)劃大模型到端到端操作大模型的升級,實現更強的跨任務泛化能力。”彭志輝歸納。
從產品迭代到量產提速
站在2024世界機器人大會展廳門口,仿佛踏入一個未來世界——機器狗在行人的匆匆腳步間靈活避障、自由穿梭,有的機器人作揖、奔跑,有的機器人炫起球技,有的忙于為參觀者準備可樂、冰激凌,還有機器人原地跳起“科目三”……場景的擴容,打開人形機器人新的可能。
技術構筑價值,落地檢驗價值。最近,隨著多家國產人形機器人技術突破、產品上新、場景刷新,人形機器人正由小批量出貨加速叩開量產之門。
幾天前,智元機器人剛剛給出量產出貨時間表:作為上海首座人形機器人量產工廠,智元機器人一期工廠已完成產線建設和人員招募,今年10月投產,計劃月產規(guī)模達到百臺以上、今年出貨量達到300臺左右。
隨著加速規(guī)?;慨a成為多家企業(yè)的發(fā)力方向,業(yè)內正加速挖掘場景,推進大模型與具身智能的融合,以開源等方式完善產業(yè)鏈生態(tài),強化成本控制。
例如,北京具身智能機器人創(chuàng)新中心正吸納更多海內外人才,攻克全球人形機器人關鍵共性技術等問題??拼笥嶏w通過“機器人超腦平臺”方案深度鏈接420家機器人企業(yè)、1.5萬名機器人開發(fā)者,并與優(yōu)必選、智元機器人、銀河通用、人形機器人創(chuàng)新中心(上海)等企業(yè)、機構探索多模態(tài)交互等方案的集成應用,協(xié)同推進技術迭代下的商用落地。
然而,人形機器人邁向量產的路上,還有諸多問題待解。
一個問題在于人形機器人的動作還不能像人類一樣迅速敏捷,“進化”路上還存在運動的時延問題?!皶r延問題是一個系統(tǒng)性問題,需要操作系統(tǒng)、架構、算力、通信機制等方面的協(xié)同破解?!毙苡衍娬f。
另一個問題在于人形機器人的能耗問題,尚未實現不間斷地為人類“出工”“出力”。普通的人形機器人處于待機狀態(tài)可以維持5至8個小時,如果直立行走僅能維持2至3小時。
“能耗問題,與人形機器人的電池、電機、減速器、重量等參數息息相關。如何在研發(fā)高能量密度電池的同時提升電機效率、減輕重量以降低能耗,是接下來需要解決的另一問題?!毙苡衍娬f。
此外,想要讓人形機器人成為真正為人所用的商品,還需不斷提高智能化程度,提升它的“類人”水平。熊友軍認為,人形機器人第一個階段是“形式”類人:外形上長得像人;第二階段是“行式”類人,行走、行動類人;第三階段則是“神式”類人,即通過具身智能大模型,使人形機器人在理解、表達、思考等方面向人類看齊。
相關稿件