人形機(jī)器人界的安卓,國家隊(duì)搶先做了
作者|向欣
在當(dāng)今的人形機(jī)器人界,有一種主流觀點(diǎn)是,硬件本體并不是人形機(jī)器人應(yīng)用的阻礙,大腦與小腦才是。
也就是說,人形機(jī)器人缺乏能夠智能決策的大腦,與精細(xì)控制全身關(guān)節(jié)運(yùn)動的小腦。
這兩者是人形機(jī)器人能夠執(zhí)行任務(wù),走入人類生活的關(guān)鍵技術(shù)。
為了幫助人形機(jī)器人行業(yè)解決這個(gè)問題,3 月 12 日,人形機(jī)器人界的國家隊(duì)——北京人形機(jī)器人創(chuàng)新中心(國家地方共建具身智能機(jī)器人創(chuàng)新中心,以下簡稱「創(chuàng)新中心」)發(fā)布了通用具身智能平臺「慧思開物」。
這是全球首個(gè)「一腦多能」、「一腦多機(jī)」的通用具身智能平臺,包含負(fù)責(zé)任務(wù)規(guī)劃的「大腦」與負(fù)責(zé)執(zhí)行任務(wù)的「小腦」。
它相當(dāng)于機(jī)器人的思考與控制中樞,能夠幫助多種不同構(gòu)型的機(jī)器人靈活適應(yīng)工業(yè)、物流、家庭等多種場景,自主完成整理物品、物流打包等復(fù)雜任務(wù)。
「慧思開物」最大的特點(diǎn)是,它可以讓不懂算法、甚至不懂機(jī)器人,但想要用機(jī)器人干活的人或者企業(yè)也能夠較為輕松、快速地完成機(jī)器人應(yīng)用開發(fā),實(shí)現(xiàn)多種機(jī)器人在不同場景、任務(wù)中的高效運(yùn)用。
創(chuàng)新中心首席技術(shù)官唐劍稱,「慧思開物」是對傳統(tǒng)機(jī)器人應(yīng)用開發(fā)模式的顛覆,有望顯著減少機(jī)器人應(yīng)用開發(fā)在人力與時(shí)間方面的投入。
適配多種機(jī)器人構(gòu)型,
具備任務(wù)泛化能力
傳統(tǒng)的工業(yè)、服務(wù)機(jī)器人的應(yīng)用開發(fā),通常需要一個(gè)專業(yè)團(tuán)隊(duì)在特定場景下采集數(shù)據(jù),針對特定任務(wù)寫一個(gè)專用程序,并做各種調(diào)試才能完成。
此類應(yīng)用開發(fā)方案不僅耗費(fèi)較多的時(shí)間與人力成本,調(diào)試出的機(jī)器人也幾乎不具備泛化能力,僅適用于固定流程與操作對象。
隨之帶來的結(jié)果是,機(jī)器人行業(yè)一直以來都無法解決場景、任務(wù)、本體泛化能力差的痛點(diǎn)。
而「慧思開物」,是一個(gè)可以讓市面上各種主流機(jī)器人能夠針對任意場景、任務(wù)進(jìn)行快速開發(fā)的平臺。
它的「通用」特性體現(xiàn)于此。
「一腦多能」、「一腦多機(jī)」、數(shù)據(jù)利用率高是「慧思開物」最核心的三個(gè)亮點(diǎn):
「一腦多能」:支持機(jī)器人適應(yīng)從工業(yè)制造到家庭服務(wù)等多種場景,執(zhí)行各類復(fù)雜任務(wù),如工業(yè)分揀、整理桌面、物流打包等等;
「一腦多機(jī)」:可適配機(jī)械臂、輪式機(jī)器人、人形機(jī)器人等多種機(jī)器人;
數(shù)據(jù)利用率高:將任務(wù)拆解為拿、擰、挑等多項(xiàng)元技能,僅需少量數(shù)據(jù)即可高效訓(xùn)練并成功執(zhí)行任務(wù)。
在發(fā)布會現(xiàn)場,「慧思開物」展示了在工業(yè)分揀、積木搭建、桌面清理和物流打包四個(gè)場景的真機(jī)操作應(yīng)用。
這是全球首次多場景、多任務(wù)、多構(gòu)型具身智能機(jī)器人操作的直播展示。
工作人員僅使用「慧思開物」APP 給機(jī)械臂下達(dá)指令,或直接告訴人形機(jī)器人它要做什么,機(jī)器人就能自主分析任務(wù)與環(huán)境,并完美執(zhí)行任務(wù),整個(gè)過程絲滑流暢。
在積木搭建場景中,「慧思開物」首次實(shí)現(xiàn)了復(fù)雜任務(wù)的智能化拆解與執(zhí)行。
現(xiàn)場觀眾隨意搭建了一個(gè)積木,人形機(jī)器人「天工」在接收到語音指令后,利用視覺大模型(VLM)分析積木的構(gòu)成,規(guī)劃每一層的搭建順序,重新搭建了一個(gè)一模一樣的積木,精度達(dá)毫米級,展現(xiàn)了「慧思開物」及人形機(jī)器人在教育娛樂、精密制造等領(lǐng)域的應(yīng)用潛力。
在整理桌面的過程中,面對人類不斷移動物品的干擾,機(jī)器人也能沉著冷靜地應(yīng)對,具備優(yōu)秀的自主糾錯(cuò)能力。
「慧思開物」強(qiáng)大的機(jī)器人應(yīng)用開發(fā)能力,源于其大腦與小腦:
大腦部署在云端,由 MLLM(多模態(tài)大語言模型),VLM(視覺-語言模型)驅(qū)動,具備自然交互、空間感知、意圖理解、分層規(guī)劃和錯(cuò)誤反思等能力;
小腦部署在端側(cè),由 VA(視覺-行動)、VLA(視覺-語言-行動)模型和 LLM(大語言模型)驅(qū)動,負(fù)責(zé)端到端執(zhí)行任務(wù)。
在小腦層面,又分為兩個(gè)子平臺:
具身操作平臺:擁有元技能庫,可實(shí)現(xiàn)泛化抓取、技能調(diào)用和錯(cuò)誤處理等功能;
具身運(yùn)控平臺:負(fù)責(zé)機(jī)器人全身控制、包括雙臂協(xié)作、穩(wěn)定行走、移動導(dǎo)航等。
其中,元技能庫是指一個(gè)包含了機(jī)器人完成各種復(fù)雜任務(wù)所需的基礎(chǔ)、通用技能集合的數(shù)據(jù)庫。
「慧思開物」使用了創(chuàng)新中心構(gòu)建的通用具身智能數(shù)據(jù)集和 Benchmark——RoboMIND 進(jìn)行訓(xùn)練。RoboMIND 覆蓋工業(yè)、家庭、辦公等多場景任務(wù),具備高度的通用性和可擴(kuò)展性。
「慧思開物」的運(yùn)行過程是,由具身「大腦」進(jìn)行任務(wù)規(guī)劃,再調(diào)用具身「小腦」技能庫執(zhí)行具體動作,并將執(zhí)行反饋傳遞給具身「大腦」,形成任務(wù)閉環(huán)。
比如,當(dāng)接收到一個(gè)打包快遞的指令時(shí),機(jī)器人大腦會理解指令并規(guī)劃任務(wù),把任務(wù)分解成多個(gè)子任務(wù),即拿起掃碼槍和物品、進(jìn)行掃碼、放置物品、關(guān)上紙盒、貼上快遞單。
隨后任務(wù)指令傳入小腦,小腦從元技能庫中調(diào)用出執(zhí)行這些任務(wù)所需要的技能,比如抓取、放置、掃碼、貼標(biāo)簽等。最后由小腦的具身運(yùn)控平臺控制機(jī)器人的身體完成動作。
由于應(yīng)用開發(fā)的快捷性與多場景適用性,「慧思開物」目前已用于支持優(yōu)必選人形機(jī)器人,幫助其成功應(yīng)用優(yōu)必選創(chuàng)新提出的群腦網(wǎng)絡(luò) (BrainNet) 軟件架構(gòu),從而能夠執(zhí)行整條工業(yè)產(chǎn)線的任務(wù)。
無論是對關(guān)注機(jī)器人應(yīng)用的各行各業(yè)的客戶,還是投身機(jī)器人科研開發(fā)的科學(xué)家與極客來說,「慧思開物」都是快速縮短機(jī)器人應(yīng)用開發(fā)周期的利器。
多項(xiàng)關(guān)鍵技術(shù)開源
為具身智能「添柴加薪」
創(chuàng)新中心首席技術(shù)官唐劍介紹,「慧思開物」平臺技術(shù)架構(gòu)會在今年按照計(jì)劃陸續(xù)開源開放,包括其中的 VLM、VLA 模型以及相關(guān)的代碼等。
對于仍處于發(fā)展初期的具身智能行業(yè),開源意義重大,它能夠打破技術(shù)壁壘,快速降低行業(yè)門檻與研發(fā)成本,將前沿技術(shù)加速擴(kuò)散,促進(jìn)行業(yè)快速起步和多元化發(fā)展。
創(chuàng)新中心成立于 2023 年 11 月,由京城機(jī)電、優(yōu)必選、亦莊機(jī)器人等 10 家行業(yè)領(lǐng)軍企事業(yè)單位出資 4.6 億元聯(lián)合組建,彼時(shí)名為北京人形機(jī)器人創(chuàng)新中心。
2024 年 10 月,在工業(yè)和信息化部與北京市人民政府指導(dǎo)下,該創(chuàng)新中心正式升級為「國家地方共建具身智能機(jī)器人創(chuàng)新中心」。
這一升級,讓它擁有了國家隊(duì)的屬性。
自成立以來,創(chuàng)新中心聚焦具身智能及人形機(jī)器人行業(yè)的共性技術(shù)研發(fā),在取得成果后已開源多項(xiàng)重大技術(shù)或資源:
開源機(jī)器人本體:開源人形機(jī)器人「天工」,包括軟件開發(fā)文檔、軟件架構(gòu)、機(jī)器人結(jié)構(gòu)圖紙、電氣系統(tǒng)等,同時(shí)有多家合作伙伴們基于「天工」平臺面向應(yīng)用場景進(jìn)行二次開發(fā);
開源具身智能數(shù)據(jù)集:通用具身智能數(shù)據(jù)集和 Benchmark——RoboMIND 首批開源數(shù)據(jù) 10 萬條,近百家企業(yè)、高校和科研機(jī)構(gòu)數(shù)千次下載使用。
人形機(jī)器人「天工」目前擁有兩個(gè)不同的版本:天工 Lite、天工 Pro。
天工 Pro 是本次「慧思開物」發(fā)布會上進(jìn)行演示的機(jī)器人,身高 163cm,體重 56kg,擁有 42 個(gè)自由度。
在運(yùn)動能力上,「天工」能夠在 38°的高溫戶外環(huán)境下應(yīng)對草地、沙地等多種復(fù)雜地形,還能在雪地奔跑,普通路面奔跑速度最高達(dá) 12km/h。
今年 2 月份,「天工」還實(shí)現(xiàn)了爬上 134 級臺階,成為全球首例可在室外連續(xù)攀爬多級階梯的人形機(jī)器人,并在國家電網(wǎng)成功完成電力巡檢任務(wù)。
此外,在開源社區(qū)方面,國地創(chuàng)新中心吸引了超千名開發(fā)者參與數(shù)據(jù)集的數(shù)據(jù)優(yōu)化與模型訓(xùn)練工作,推動技術(shù)成果在 GitHub、Hugging Face 等平臺形成傳播,并與中科院軟件所聯(lián)合搭建了 AGIROS 開源社區(qū)。
創(chuàng)新中心的發(fā)展定位顯而易見:
他們希望成為具身智能行業(yè)的賦能者,將領(lǐng)先的技術(shù)成果共享,為整個(gè)行業(yè)注入活水。
Deepseek 開源 R1 模型后,直接引發(fā)了 AI 普惠化的浪潮,讓性能優(yōu)秀的大模型也能夠以低成本的方式廣泛應(yīng)用于能源、金融、電信等行業(yè),從中我們已經(jīng)看到了開源對行業(yè)發(fā)展產(chǎn)生的巨大推動力。
國地共建的開放生態(tài),或許正是撬動機(jī)器人產(chǎn)業(yè)從「實(shí)驗(yàn)室特技」邁向「社會生產(chǎn)力」的支點(diǎn)。
隨著「慧思開物」平臺的開源與應(yīng)用不斷拓展,中小企業(yè)無需重復(fù)「造輪子」,開發(fā)者可聚焦場景創(chuàng)新。
領(lǐng)先技術(shù)的不斷開源將為技術(shù)迭代按下加速鍵。
未來,機(jī)器人有望以更低的成本、更強(qiáng)的適應(yīng)性走進(jìn)工業(yè)、倉儲、物流、家庭甚至災(zāi)難救援現(xiàn)場,改變?nèi)祟惿a(chǎn)生活方式。
原文標(biāo)題 : 人形機(jī)器人界的安卓,國家隊(duì)搶先做了

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會
-
即日-5.15立即報(bào)名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?