具身智能何時能擺脫遙控器?距“全自主”還有多遠(yuǎn)?
觸覺融入、硬件、模型等方面的挑戰(zhàn),制約著具身智能向通用智能演進(jìn)
文|《瞭望》新聞周刊記者 王鶴 龔雯
從央視春晚上宇樹機(jī)器人“扭秧歌”開始,中國具身智能正以驚人速度成長,跑馬拉松、打拳擊、踢足球、跳街舞,還可以在汽車工廠“上崗”……每一個“驚人”的技能都在凸顯這個行業(yè)的發(fā)展新高度。
“這些花樣玩活的視頻放出來,把大家的胃口吊起來了,容易讓人誤判形勢,以為機(jī)器人已經(jīng)高度成熟,可以做很多高難度事情,就快上天入地、無所不能了?!币晃还I(yè)機(jī)器人企業(yè)高管感嘆,我們需要透過“表面繁榮”,看到具身智能的實(shí)際能力。
細(xì)心的人會發(fā)現(xiàn),幾乎所有做高難度動作的機(jī)器人身旁,都有一位人類工程師在遙操,或者機(jī)器人提前植入了程序,也就是說,這些機(jī)器人還是“提線木偶”,需要人類“把著手”做事。
具身智能何時才能擺脫遙控器,距離“全自主”還有多遠(yuǎn)?

機(jī)器人在北京國家速滑館“冰絲帶”舉行的2025世界人形機(jī)器人運(yùn)動會開幕式上進(jìn)行100米賽跑(2025年8月14日攝) 謝晗攝/本刊
大腦“進(jìn)化”
突破遙操的關(guān)鍵是要具備強(qiáng)大大腦,即機(jī)器能夠理解物理世界并與之交互,實(shí)現(xiàn)感知—決策—執(zhí)行—反饋的閉環(huán)。以自動駕駛領(lǐng)域為例,VLA大模型(視覺—語言—行動模型)、端到端強(qiáng)化學(xué)習(xí)和世界模型是三類核心技術(shù)要素,三者協(xié)同實(shí)現(xiàn)機(jī)器從感知環(huán)境到執(zhí)行動作的自主智能。
VLA大模型融合視覺、語言和動作三種模態(tài),用于讓機(jī)器人理解環(huán)境、接受指令并執(zhí)行物理動作,是具身智能基礎(chǔ)模型。今年6月銀河通用發(fā)布了面向零售場景的大模型GroceryVLA,實(shí)現(xiàn)機(jī)器人對復(fù)雜環(huán)境的自主決策與精準(zhǔn)執(zhí)行,例如當(dāng)人類發(fā)出“幫我拿點(diǎn)吃的”指令后,機(jī)器人無需遙操作,無事先采集場景數(shù)據(jù),通過自主規(guī)劃路徑,從貨架中識別并抓取餅干飲料送達(dá)。
端到端強(qiáng)化學(xué)習(xí)是能夠直接從圖像、傳感器數(shù)據(jù)等原始輸入到動作輸出的強(qiáng)化學(xué)習(xí)系統(tǒng),中間不依賴路徑規(guī)劃器等模塊,是訓(xùn)練VLA大模型的關(guān)鍵方法。在2025世界人形機(jī)器人運(yùn)動會上,清華大學(xué)教授、機(jī)器人控制實(shí)驗室主任趙明國帶領(lǐng)的機(jī)器人足球隊“清華火神隊”贏得足球賽冠軍。比賽中機(jī)器人已實(shí)現(xiàn)無遙操,能夠走、跑、跳、翻跟頭,具備在復(fù)雜、有障礙物路面上行走所需的平衡和適應(yīng)能力。趙明國團(tuán)隊的核心突破是采用端到端強(qiáng)化學(xué)習(xí)算法,直接將機(jī)器人的視覺信號,如球的位置、隊友/對手的位置、球場邊界等映射到運(yùn)動控制指令,實(shí)現(xiàn)機(jī)器人的行走方向、踢球力度、身體姿態(tài)調(diào)整。
世界大模型是模擬環(huán)境動態(tài)的“虛擬大腦”,其核心是通過學(xué)習(xí)環(huán)境的物理規(guī)律,如物體運(yùn)動、碰撞后果,預(yù)測未來狀態(tài),為VLA大模型提供環(huán)境認(rèn)知支持。在攻堅世界模型技術(shù)瓶頸方面,智元近期發(fā)布了自主研發(fā)的世界模型GE。相比傳統(tǒng)機(jī)器人的你說什么、它做什么,GE通過學(xué)習(xí)物理規(guī)律、環(huán)境動態(tài),在內(nèi)部預(yù)測未來狀態(tài),模擬人類“腦內(nèi)推演”,從而讓機(jī)器人具備了主動預(yù)判與決策的能力,像人一樣先想、再練、后做。搭載該模型的機(jī)器人已實(shí)現(xiàn)“做三明治”“倒茶”“擦桌面”等任務(wù)。GE平臺開放底層架構(gòu),未來或成為機(jī)器人界的“安卓系統(tǒng)”。
通用智能還需突破核心挑戰(zhàn)
具身智能大腦技術(shù)不斷有突破,但要實(shí)現(xiàn)通用智能,讓機(jī)器像人一樣“理解”環(huán)境,具備舉一反三的泛化能力,受訪專家認(rèn)為目前水平差距極大?!皺C(jī)器人在某些特殊場景下能自主完成動作,比如足球比賽,但到了別的場景就不會了?!壁w明國說。
業(yè)界專家認(rèn)為,觸覺融入、硬件、模型等方面的挑戰(zhàn),制約著具身智能向通用智能演進(jìn)。
觸覺融入方面,機(jī)器人從“看得見”走向“摸得著、懂力度、會適應(yīng)”任重道遠(yuǎn)。VLA大模型整合了視覺、語言、動作三種模態(tài),如果再加上觸覺則困難重重。觸覺感知是一個多維度感知的能力,除了力度感知外,還涉及材質(zhì)感知,比如表面干性程度、溫度高低、柔性還是脆性等。
“當(dāng)視覺數(shù)據(jù)跟觸覺數(shù)據(jù)加在一起,要考慮的有效數(shù)據(jù)元素過多,模型體量增大,難度也必然提升?!彼娇萍糃EO、聯(lián)合創(chuàng)始人馬揚(yáng)舉例,他山科技正在研究機(jī)器人剝小龍蝦任務(wù),這種看似非常簡單的精細(xì)動作,實(shí)則需要大量的訓(xùn)練和學(xué)習(xí)?!拔覀兡壳霸谖錆h招募了十幾個人的團(tuán)隊做小龍蝦項目,計劃今年底完成模型訓(xùn)練,并推進(jìn)小批量試驗?!?/p>
硬件方面,具身智能本體端部署的大模型,對算力水平要求高,專用芯片仍不夠成熟?!靶枰铀侔l(fā)展低功耗、高性能且專用于具身智能大模型的芯片;同時將大參數(shù)模型輕量化、小型化,并保證在執(zhí)行任務(wù)時性能不會大幅下降。”一位高校具身智能專家提出。
算法層面,業(yè)界仍難以訓(xùn)練出強(qiáng)泛化能力的大模型。中國信息通信研究院人工智能所安全與具身智能部副主任張蔚敏介紹,在3D場景中的情景問答(SQA3D)任務(wù)中,當(dāng)前最先進(jìn)的模型準(zhǔn)確率已提升至55%~60%區(qū)間,但仍遠(yuǎn)低于人類的90.06%,這表明算法成熟度不夠高。
此外,目前探討的具身智能多為單體智能,在實(shí)際應(yīng)用中,多臺機(jī)器人協(xié)同工作的群體智能,亦是行業(yè)需要攻克的課題。
不可否認(rèn),具身智能產(chǎn)業(yè)飛速發(fā)展,泛化能力正越來越強(qiáng)大。“部分場景樂觀估計三五年就能在技術(shù)上實(shí)現(xiàn)突破?!壁w明國表示。
分級分類加快落地
加速實(shí)現(xiàn)通用智能,僅靠實(shí)驗室環(huán)境無法模擬復(fù)雜場景的動態(tài)不確定性,需要在真實(shí)落地場景中暴露問題并找到解決方案。“具身智能需要一個標(biāo)準(zhǔn)分層,有標(biāo)準(zhǔn)就可以實(shí)現(xiàn)技術(shù)對齊,加速產(chǎn)品落地?!比疸y證券中國工業(yè)分析師王斐麗說。
目前,國內(nèi)一些行業(yè)機(jī)構(gòu)效仿智能駕駛分級標(biāo)準(zhǔn),提出了具身智能相關(guān)分級框架,以加快技術(shù)進(jìn)步和場景落地。
例如,2024年10月國家地方共建人形機(jī)器人創(chuàng)新中心聯(lián)合行業(yè)內(nèi)企業(yè)和機(jī)構(gòu),在上海發(fā)布了《人形機(jī)器人分類分級應(yīng)用指南》團(tuán)體標(biāo)準(zhǔn)和《具身智能智能化發(fā)展階段分級指南》團(tuán)體標(biāo)準(zhǔn)。
北京人形機(jī)器人創(chuàng)新中心有限公司牽頭制定的團(tuán)標(biāo)《人形機(jī)器人智能化分級》從感知、決策、執(zhí)行、協(xié)作四個維度建立了四維五級評價體系,給出了通用安全底線,明確了不同等級機(jī)器人的能力要求和適用場景,有助于加速推動人形機(jī)器人在特種作業(yè)、物流搬運(yùn)、教育科研、商業(yè)服務(wù)、健康養(yǎng)老等多領(lǐng)域的應(yīng)用落地,打破技術(shù)與場景之間的壁壘。
受訪專家建議,參照自動駕駛在封閉場景和開放場景中不同等級的應(yīng)用,加速人形機(jī)器人等分級應(yīng)用。工廠車間等封閉場景,障礙物、光線、地形等因素都比較容易預(yù)測和控制,高等級人形機(jī)器人可以在這樣的環(huán)境中更穩(wěn)定地執(zhí)行復(fù)雜任務(wù),如進(jìn)行高精度的零件裝配、特定區(qū)域的貨物搬運(yùn)等。而開放場景,具有高度的不確定性,人形機(jī)器人在這些場景中運(yùn)行需要應(yīng)對各種突發(fā)情況,因此可以使用較低等級的人形機(jī)器人執(zhí)行一些特定任務(wù),如引導(dǎo)服務(wù)、物品配送等,逐步積累開放場景運(yùn)行經(jīng)驗。








