多方巨頭宣布開源數(shù)據(jù)集,全球具身智能加速進化中!
具身智能正在數(shù)據(jù)開源的道路上奔跑。
在具身智能領域,數(shù)據(jù)對于訓練深度學習模型以增強和優(yōu)化機器人能力至關重要,但數(shù)據(jù)采集成本高昂、數(shù)據(jù)采集效率低、數(shù)據(jù)通用性差等因素極大限制了具身智能的發(fā)展。
北京航空航天大學機器人研究所所長王田苗也指出,數(shù)據(jù)的匱乏讓人形機器人很難具備泛化性。當前,機器人任務泛化、感知泛化和運動操作的三個泛化數(shù)據(jù)很難獲取,比如讓機器人疊衣服、騎自行車等這些數(shù)據(jù)很難得到。
也正因如此,數(shù)據(jù)集的開源就成為了推動具身智能行業(yè)共同進步的關鍵“加速器”。
2024年末至今,全球已有8家具身智能公司與研究機構宣布開源數(shù)據(jù)集,多方巨頭正共同助力數(shù)據(jù)生態(tài)建設,加速全球具身智能進化。
傅利葉——FourierActionNet
3月17日,上海機器人企業(yè)傅利葉正式開源全尺寸人形機器人數(shù)據(jù)集FourierActionNet,首批上線超3萬條高質量真機訓練數(shù)據(jù)。
數(shù)據(jù)集囊括傅利葉GRx系列所有機型的各類任務訓練,完整記錄機器人在真實環(huán)境中的任務執(zhí)行數(shù)據(jù),涵蓋了對常用工具、家居用品、食物等多種物體的精確取放、傾倒等操作,以及在不同環(huán)境條件下實現(xiàn)泛化執(zhí)行,包含專門針對手部任務的模仿學習數(shù)據(jù),適配多自由度靈巧手任務,同時,所有數(shù)據(jù)均采用視覺語言模型(VLM)進行自動標注,并通過人工二次核驗。
值得注意的是,F(xiàn)ourierActionNet包含萬級真機訓練數(shù)據(jù),包含專門針對手部任務的模仿學習數(shù)據(jù),適配多自由度靈巧手任務,所有數(shù)據(jù)均采用視覺語言模型(VLM)進行自動標注,并通過人工二次核驗,確保數(shù)據(jù)精度與準確性。
創(chuàng)新中心——RoboMIND、“天工”
3月12日,北京人形機器人創(chuàng)新中心有限公司 Tien Kung(以下稱“創(chuàng)新中心”)發(fā)布了全球首個“一腦多能”“一腦多機”的通用具身智能平臺“慧思開物”。“慧思開物”的應用是對基于單一場景單一任務做專項開發(fā)這一傳統(tǒng)機器人應用開發(fā)模式的顛覆,同時也填補了具身智能領域在通用軟件系統(tǒng)方面的空白。
在數(shù)據(jù)集開源方面,創(chuàng)新中心發(fā)布的行業(yè)首個標準化通用具身智能數(shù)據(jù)集和Benchmark RoboMIND首批開源數(shù)據(jù)10萬條,覆蓋工業(yè)、家庭、辦公等多場景任務,具備高度的通用性和可擴展。
2024年12月27日,創(chuàng)新中心與北京大學計算機學院聯(lián)合推出了大規(guī)模多構型具身智能數(shù)據(jù)集和Benchmark——RoboMIND,基于成型標準采集,經(jīng)多個模型訓練驗證有效,支持多本體多任務并具備通用性。
據(jù)統(tǒng)計,本次創(chuàng)新中心發(fā)布的數(shù)據(jù)集采用了包括單臂機器人、雙臂機器人、人形機器人等多種形態(tài)的機器人本體進行數(shù)據(jù)采集,包含了279項不同任務的多類場景,涵蓋了高達61種不同的物體,具備多本體、多技能、多應用的特點,是我國首個具備通用性且由模型驗證有效的具身智能數(shù)據(jù)集。
2024年11月11日,創(chuàng)新中心宣布啟動“天工開源計劃”,將陸續(xù)把本體、數(shù)據(jù)集、運動控制等方面的技術成果面向行業(yè)開源開放。
據(jù)悉,基于全身協(xié)同智能小腦平臺,“天工”實測平均時速可達每小時10公里,最高奔跑速度已提升至每小時12公里,其還可在斜坡、樓梯、草地、碎石、沙地多種復雜泛化地形中實現(xiàn)平穩(wěn)移動。
“天工”所裝配的多能具身智能體平臺“開物”包含AI大模型驅動任務規(guī)劃的具身大腦和以數(shù)據(jù)驅動的端到端技能執(zhí)行具身小腦,具備一腦多機、一腦多能的能力,未來將擁20萬條機器人軌跡數(shù)據(jù),適配超20個以上機器人本體,實現(xiàn)具身能力開發(fā)時間降低90%。
數(shù)據(jù)生態(tài)方面,創(chuàng)新中心數(shù)據(jù)采集涵蓋6類本體7大典型場景,日產(chǎn)數(shù)據(jù)已達10TB。
Physical Intelligence——π0
今年2月,美國明星具身智能初創(chuàng)企業(yè)Physical Intelligence(簡稱PI)開源了他們的視覺-語言-動作具身模型π0,在GitHub上發(fā)布了π0的代碼和權重。他們還表示,根據(jù)他們自己的實驗,1 到 20 小時的訓練數(shù)據(jù)足以讓π0適配各種任務。
π0具備 預訓練基礎,基于一個30億參數(shù)的預訓練視覺語言模型(VLM),并在此基礎上進行調整,以實現(xiàn)機器人控制。在任務表現(xiàn)上,π0 在多項機器人任務上表現(xiàn)優(yōu)于其他基線模型,包括整理桌面、疊衣服、組裝紙箱等。且該模型能夠接受自然語言指令并執(zhí)行任務,同時支持對復雜任務的微調。
本次π0基礎模型開源的內(nèi)容包括:運行基礎預訓練π0模型的代碼和模型權重;針對ALOHA和DROID等機器人平臺上的一些簡單任務微調的多個檢查點;在多個現(xiàn)實世界和模擬機器人平臺上運行推理的示例代碼;用于針對特定任務和平臺微調基礎π0模型的代碼。
深圳市人工智能與機器人研究院——MultiPlan
今年1月,深圳市人工智能與機器人研究院的AIRS智能控制中心冀曉強教授團隊提出了國際首個用于大語言模型(LLM)微調的異構多機器人協(xié)作控制數(shù)據(jù)集MultiPlan,以及錯誤診斷指標MRED。MultiPlan基于自然語言任務描述框架定義了任務內(nèi)容、環(huán)境描述和動作規(guī)劃,結合機器人底層SDK,提供了簡潔且可部署的智能協(xié)作方案。
與傳統(tǒng)方法相比,微調后的7B參數(shù)規(guī)模模型在復雜任務的規(guī)劃及控制能力上實現(xiàn)了對GPT-4o等閉源大模型的顯著超越。MultiPlan數(shù)據(jù)集涵蓋100個常見室內(nèi)外生活場景,通過模板生成與人工復核的數(shù)據(jù)流水線,確保了數(shù)據(jù)的泛化性和多樣性。實驗分別在辦公室服務和城市街道清潔兩個場景中進行部署,證明了方法的有效性和魯棒性。
智元——AgiBot World
2024年12月30日,智元機器人宣布百萬真機數(shù)據(jù)集開源項目AgiBot World。智元機器人介紹稱,AgiBot World 是全球首個基于全域真實場景、全能硬件平臺、全程質量把控的百萬真機數(shù)據(jù)集。相比谷歌開源的Open X-Embodiment數(shù)據(jù)集,AgiBot World長程數(shù)據(jù)規(guī)模高出10倍,場景范圍覆蓋面擴大100倍,數(shù)據(jù)質量從實驗室級上升到工業(yè)級標準。
AgiBot World誕生于智元自建的大規(guī)模數(shù)據(jù)采集工廠與應用實驗基地,空間總面積超過4000平方米,包含3000多種真實物品和100多種高度還原的真實場景,按家居(40%)、餐飲(20%)、工業(yè)(20%)、商超(10%)和辦公(10%)進行分布,全面覆蓋了機器人在生產(chǎn)和生活中的典型應用需求。
宇樹科技——G1操作數(shù)據(jù)集
2024年11月13日,宇樹科技宣布,為了推進全球具身智能行業(yè)發(fā)展,開源 G1 人形機器人操作數(shù)據(jù)集,包括數(shù)據(jù)采集、學習算法、數(shù)據(jù)集和模型,并表示將持續(xù)更新。
本次開源,宇樹科技公布了用于G1人形機器人的遙操作控制代碼,內(nèi)容包括遙操作控制的代碼教程、硬件配置圖、物料清單和安裝說明等。同時,宇樹科技還開源了G1人形機器人的操作數(shù)據(jù)集,數(shù)據(jù)集涵蓋擰瓶蓋倒水、疊三色積木、將攝像頭放入包裝盒、收集物品并存儲、雙臂抓取紅色木塊并放入黑色容器等五種操作,記錄了機器人手臂和靈巧手的七維狀態(tài)和動作數(shù)據(jù)。
清華大學——RDT
2024年10月18日,清華大學開源了全球最大的雙臂機器人擴散大模型RDT(Robotic Diffusion Transformer)。RDT是由清華大學計算機AI研究院TSAIL團隊推出的全球最大的雙臂機器人操作任務擴散基礎模型。RDT具備1.2B參數(shù)量,能在無需人類操控的情況下,自主完成復雜任務。RDT可以基于模仿學習人類動作,展現(xiàn)出強大的泛化能力和操作精度,能處理未見過的物體和場景。
據(jù)了解,RDT在迄今為止最大的多機器人數(shù)據(jù)集上進行預訓練,并將其擴展到1.2B參數(shù),這是最大的基于擴散機器人操作基礎模型。在自建多任務雙手數(shù)據(jù)集上對RDT進行微調,數(shù)據(jù)集包含超過6000+集,改進其操作能力。RDT擁有目前最大的雙臂微調數(shù)據(jù)集,清華團隊構建了包括300+任務和6000+條演示的數(shù)據(jù)集。
谷歌——Open X-Embodiment
2024年10月,谷歌DeepMind聯(lián)手斯坦福大學、上海交通大學、英偉達、紐約大學、哥倫比亞大學、東京大學、日本理化研究所、卡內(nèi)基梅隆大學、蘇黎世聯(lián)邦理工學院、倫敦帝國理工學院等21家國際知名機構,整合了60個獨立的機器人數(shù)據(jù)集,創(chuàng)建了一個開放的、大規(guī)模的標準化機器人學習數(shù)據(jù)集——Open X-Embodiment。
據(jù)悉,Open X-Embodiment是迄今為止最大的開源真實機器人數(shù)據(jù)集,涵蓋了從單臂機器人到雙臂機器人,再到四足機器人等22種不同形態(tài)的機器人,共包含超過100萬條機器人軌跡和527項技能(160,266項任務)。研究人員證明,相較于僅在單個機器人類型數(shù)據(jù)上訓練的模型,在多個機器人類型數(shù)據(jù)上訓練的模型表現(xiàn)更佳。
注:頭圖來自國地共建具身智能機器人創(chuàng)新中心官網(wǎng)
原文標題 : 多方巨頭宣布開源數(shù)據(jù)集,全球具身智能加速進化中!

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?