從搬運重物到端茶倒水,從進(jìn)廠(chǎng)打工到做飯疊衣……當大模型為機器人注入“靈魂”,人形機器人“進(jìn)化”加速。業(yè)內人士指出,人形機器人工業(yè)場(chǎng)景的落地最快今年或明年就能在部分試點(diǎn)實(shí)現,“入戶(hù)”則將在10年左右。
變化——邁入“人形時(shí)代”
近期,國產(chǎn)人形機器人領(lǐng)域動(dòng)作頻頻:全球首例純電驅全尺寸人形機器人“天工”首次在北京人形機器人創(chuàng )新中心實(shí)現“擬人奔跑”、瞄準老年人陪護市場(chǎng)的人形機器人Unitree G1問(wèn)世、工業(yè)版人形機器人Walker S進(jìn)入蔚來(lái)總裝車(chē)間“實(shí)訓”當起“見(jiàn)習廠(chǎng)工”……
不止中國,站上風(fēng)口的人形機器人,正在席卷全球一二級市場(chǎng)。從創(chuàng )業(yè)公司到科技巨頭,從軟件平臺到硬件開(kāi)發(fā),都在競相入場(chǎng)。當英偉達、特斯拉、微軟紛紛以實(shí)際行動(dòng)表示“看漲”后,高盛重新調整了對2035年人形機器人全球市場(chǎng)規模的預期:從60億美元上調至380億美元。
“一條千億元規模的賽道,三個(gè)因素缺一不可:市場(chǎng)需求的驅動(dòng)、產(chǎn)業(yè)鏈條的完備、核心技術(shù)的突破?!眱?yōu)必選副總裁、研究院執行院長(cháng)焦繼超說(shuō),“機器人+大模型”落地提速的今天,技術(shù)、資本、市場(chǎng)實(shí)現具身智能的熱情,掀起廣闊的想象空間。
老齡化社會(huì )、少子化社會(huì )的疊加,以及勞動(dòng)力的相對短缺,激發(fā)了社會(huì )對人形機器人的切實(shí)需求?!爸圃鞓I(yè)(如汽車(chē)組裝、零部件排序)及特殊作業(yè)(如高空作業(yè)、危險任務(wù))方面,人形機器人能完成高風(fēng)險、重復性的臟活、苦活、累活,降低相關(guān)崗位的傷病率、死亡率,提升職業(yè)滿(mǎn)意度,因此市場(chǎng)對人形機器人的到來(lái)充滿(mǎn)期待?!北本┐髮W(xué)計算機學(xué)院博士生導師、北大-銀河通用具身智能聯(lián)合實(shí)驗室主任王鶴說(shuō)。
記者來(lái)到北京人形機器人創(chuàng )新中心,迎面遇見(jiàn)一位身材頎長(cháng)的機器人正在爬樓梯。這個(gè)名為“天工”的人形機器人不僅擁有聰明的腦、靈巧的手,絲滑的動(dòng)作間還透著(zhù)些許“柔美”,就連外形都與人類(lèi)貼近:身高1.63米、體重43公斤。當工程師向“她”發(fā)出指令,只見(jiàn)“天工”上半身略向前傾,手臂配合腿部移動(dòng)加大擺動(dòng),竟邁開(kāi)小步跑了起來(lái)。
深耕機器人20余年的北京人形機器人創(chuàng )新中心總經(jīng)理熊友軍相信,通用機器人的未來(lái)形態(tài)一定是“人形”。
過(guò)去傳統的僅從事單一操作的專(zhuān)用機器人,如焊接機器人、打磨機器人,本質(zhì)上是一個(gè)自動(dòng)化設備,僅需執行人提前寫(xiě)好的固定程序,因此形態(tài)上只需要一條腿或一只臂。
“而大模型為機器人注入‘靈魂’后,機器人獲得了前所未有的感知、理解、推理、決策能力,能完成復雜環(huán)境的多元任務(wù)。一方面,人類(lèi)社會(huì )的基礎設施、場(chǎng)景構建、工具設計,均是基于人類(lèi)的物理特性進(jìn)行開(kāi)發(fā),‘人形’可降低適配成本、快速適應環(huán)境;另一方面,未來(lái)通用機器人的終極目標是走入人類(lèi)生活、服務(wù)人類(lèi),‘人形’是與人交互最自然、體驗最優(yōu)的形態(tài)?!毙苡衍娬f(shuō)。
進(jìn)化——實(shí)現“知行合一”
這屆“人形機器人”妙在何處?
相較于過(guò)去一只機械臂,已“實(shí)訓”下車(chē)間的國產(chǎn)人形機器人Walker S用絲滑行動(dòng)給出答案:“她”的一雙敏捷手對準車(chē)頭精準貼上車(chē)標,一雙靈巧腳帶動(dòng)軀干協(xié)調地自動(dòng)走位到每個(gè)座椅進(jìn)行安全帶的拉伸檢測,一雙“慧眼”還能對準車(chē)門(mén)、車(chē)身表面進(jìn)行缺陷檢測。
“這屆人形機器人的飛躍性突破是‘知行合一’。表現為‘聰明腦’指揮‘敏捷手’‘靈巧腳’,使機器人行動(dòng)起來(lái)更加自主、靈活,且能在學(xué)習中不斷進(jìn)化?!笨拼笥嶏w機器人首席科學(xué)家季超說(shuō)。
何來(lái)“聰明腦”“敏捷手”“靈巧腳”?
“一方面,大模型的迭代使‘大腦’更加聰明;另一方面,人形機器人軟硬件能力的提升,使運動(dòng)更加靈活。兩股力量牽引人形機器人的進(jìn)化?!奔境f(shuō)。
看上去,大模型有了“身體”,機器人也有了“大腦”。往里看,其實(shí)是大模型的感知推理能力,融入了機器人的具身能力。
這些類(lèi)人的能力又是如何實(shí)現的?
“源自三個(gè)部分:感知、規劃、執行?!蓖斛Q說(shuō),從技術(shù)實(shí)現角度,如果拿人來(lái)類(lèi)比,不僅需要人類(lèi)智慧的核心大腦,也關(guān)系到負責運動(dòng)控制的小腦。
人形機器人的“大腦”負責感知、理解、規劃?!爱斘覀儗C器人說(shuō)‘我渴了’,機器人首先會(huì )理解并拆解意圖,然后分步驟進(jìn)行規劃設計:比如,第一步尋找水在哪里,第二步思考如何打開(kāi)冰箱門(mén)、從冰箱中取出水、關(guān)上冰箱門(mén),第三步遞送到我們面前。這每一步,包括理解語(yǔ)義、任務(wù)規劃,都在‘大腦’中進(jìn)行?!蓖斛Q舉例說(shuō)。
人形機器人“小腦”的使命則是運動(dòng)控制、任務(wù)執行。王鶴進(jìn)一步解釋,“例如,如何找到冰箱位置、避開(kāi)路障走過(guò)去,用多大的力去伸手拉門(mén)、冰箱門(mén)開(kāi)到多大,以及行走的每一步如何調動(dòng)四肢與軀干、實(shí)現手眼腳協(xié)調運動(dòng),‘小腦’實(shí)現的任務(wù)是當前研發(fā)的難點(diǎn)?!?/p>
“技術(shù)路線(xiàn)上,今天的人形機器人已經(jīng)越來(lái)越接近人類(lèi)思考、決策、執行的過(guò)程?!毙苡衍娬f(shuō),過(guò)去的認知是通過(guò)語(yǔ)音交互、視覺(jué)識別,以自然語(yǔ)言理解的方式或傳統的人工智能方式實(shí)現,現在則使用VLA(視覺(jué)語(yǔ)言動(dòng)作)這樣的多模態(tài)大模型來(lái)完成“大腦”功能。過(guò)去的運動(dòng)控制是通過(guò)模型優(yōu)化的方式,而現在人形機器人的跑、跳則更多是基于強化學(xué)習、模仿學(xué)習來(lái)實(shí)現“小腦”與“軀干”的功能。
大模型的迭代為機器人帶來(lái)的革命性變化在于,它不僅應用于“大腦”的理解、推理、規劃之中,也將融入到“小腦”“軀干”參與的感知與執行過(guò)程。
人形機器人擁有更加強大的泛化能力后,將更好地與物理世界交互,進(jìn)一步降低部署成本、應用門(mén)檻,這也是具身智能前進(jìn)的方向?!熬呱碇悄軓娬{智能體與物理世界的交互與反饋,服務(wù)于現實(shí)場(chǎng)景,解決人類(lèi)的實(shí)際訴求?!苯估^超說(shuō)。
演化——“入戶(hù)”十年可期
人形機器人以“洪荒之力”模仿并復刻人類(lèi)智能,但它終究不是人類(lèi)。
莫拉維克悖論指出,人類(lèi)獨有的高階智慧對機器而言只需要極少的運算,如推理,而人類(lèi)無(wú)意識的技能與直覺(jué)卻需要機器耗費極大的運算能力,如接住拋物。
“眼下,人形機器人的能力瓶頸并非在于‘大腦’的感知、理解、判斷,而恰恰是缺乏類(lèi)似人類(lèi)‘小腦’的泛化執行能力?!蓖斛Q說(shuō),這一瓶頸導致的問(wèn)題就是人形機器人“干活”不夠快、不夠敏捷。
這一瓶頸的根源是高質(zhì)量數據的匱乏?!皺C器人‘大腦’所需數據可從互聯(lián)網(wǎng)的文本、圖像中獲得,而‘小腦’所需的數據少之又少。有限的來(lái)源之一是國外部分企業(yè)采取的人工遙控機器訓練的方式,采集到的數據既難、又貴、且慢?!蓖斛Q說(shuō)。
高精度模擬真實(shí)世界的物理場(chǎng)景、于仿真環(huán)境里合成的數據不失為一種有效的解決方案。比如,合成靈巧手模擬真實(shí)世界抓取物體進(jìn)行訓練采集到的數據,然后在真實(shí)環(huán)境里測試、泛化,能破解機器人“小腦”所需的數據“投喂”問(wèn)題。
還有專(zhuān)家指出,實(shí)時(shí)性、推理速度也是當前具身智能面臨的另一瓶頸。目前,基于大模型的機器人控制在線(xiàn)決策至少需50毫秒,一般延遲為1至5秒,無(wú)法滿(mǎn)足工業(yè)場(chǎng)景3至10毫秒的需要。
“人形機器人是一塊難啃的硬骨頭,它的突破一定需要時(shí)間的積累和技術(shù)的沉淀。大規模量產(chǎn)、商業(yè)化也都是挑戰?!倍辔皇茉L(fǎng)者表示,盡管人形機器人的成長(cháng)速度肉眼可見(jiàn),但距離產(chǎn)業(yè)爆發(fā)的“iPhone時(shí)刻”還有距離。
“可以確定的是,人形機器人率先在工業(yè)場(chǎng)景落地,接下來(lái)是應用于商業(yè)場(chǎng)景,最后是進(jìn)入千家萬(wàn)戶(hù)。其中,工業(yè)場(chǎng)景的落地最快今年或明年就能在部分試點(diǎn)實(shí)現,人形機器人‘入戶(hù)’在10年左右實(shí)現?!毙苡衍娬f(shuō)。
焦繼超給出一組數據:目前,中國是全球申請人形機器人技術(shù)專(zhuān)利最多的國家,共計6618件?!斑@將為我國人形機器人產(chǎn)業(yè)穩步向好發(fā)展夯實(shí)基礎?!?/p>
“什么時(shí)候我們能做到‘類(lèi)腦模型’,把所有模態(tài)數據一股腦放入數據集中,還能響應足夠敏捷,聽(tīng)得懂語(yǔ)義、解析得了意圖,也就真正實(shí)現了具身智能,這也是我們將著(zhù)力解決的問(wèn)題?!蓖斛Q說(shuō)。(記者 張漫子 北京報道)
相關(guān)稿件