亚洲免费一区,免费三级亚洲人成

清華、星動紀(jì)元放大招，開源首個AIGC機(jī)器人大模型

2025-05-13 09:55

5 月 7 日，星動紀(jì)元宣布，已與清華大學(xué)叉院的 ISRLab 合作，開源首個 AIGC 生成式機(jī)器人大模型 VPP（Video Prediction Policy）。

VPP 利用了大量互聯(lián)網(wǎng)視頻數(shù)據(jù)進(jìn)行訓(xùn)練，直接學(xué)習(xí)人類動作，減輕了對于高質(zhì)量機(jī)器人真機(jī)數(shù)據(jù)的依賴，且可在不同人形機(jī)器人本體之間自如切換，這有望大大加速人形機(jī)器人的商業(yè)化落地。

在今年的 ICML 2025 中，VPP 從超 12000 篇投稿里脫穎而出，入選占比不到 2.6% 的 Spotlight 論文。

當(dāng)下，AI 大模型領(lǐng)域有兩大 “巨頭” 流派 —— 基于自回歸的理解模型，比如大名鼎鼎的 GPT；和基于擴(kuò)散的生成模型，例如 Sora。

GPT 的思路演化到具身智能領(lǐng)域，就是以 PI（Physical Intelligence）為代表的 VLA 技術(shù)，它從視覺語言理解模型（VLM）微調(diào)而來，擅長抽象推理和語義理解。

而生成式技術(shù)與機(jī)器人的碰撞，就誕生了 VPP 這樣的生成式機(jī)器人大模型。

VPP 分成兩階段的學(xué)習(xí)框架，最終實(shí)現(xiàn)基于文本指令的視頻動作生成。

第一階段利用視頻擴(kuò)散模型學(xué)習(xí)預(yù)測性視覺表征；第二階段通過 Video Former 和 DiT 擴(kuò)散策略進(jìn)行動作學(xué)習(xí)。

以往機(jī)器人策略（例如 VLA 模型）往往只能根據(jù)當(dāng)前觀測進(jìn)行動作學(xué)習(xí)，機(jī)器人策略需要先理解指令和場景，再執(zhí)行。而 VPP 能夠提前預(yù)知未來的場景，讓機(jī)器人 “看著答案” 行動，大大增強(qiáng)泛化能力。并且，VPP 視頻預(yù)測結(jié)果與機(jī)器人實(shí)際物理執(zhí)行結(jié)果幾乎一致，能被視頻生成的，就能被機(jī)器人執(zhí)行。

過去訓(xùn)練機(jī)器人策略（例如 VLA 模型），得反復(fù)拍很多它干活的視頻，成本高又費(fèi)時間。VPP 就像個 “超級學(xué)霸”，不用盯著機(jī)器人實(shí)操，直接看網(wǎng)上海量人類干活的視頻，比如掃地、炒菜，就能學(xué)會這些動作，提前 “腦補(bǔ)” 接下來場景，比如端水杯前知道可能會灑，提前調(diào)整動作。

高頻預(yù)測和執(zhí)行，反應(yīng)超快不 “卡殼”

以前 AIGC 生成畫面很慢，但往往花費(fèi)大量推理時間，就像電腦加載視頻要等好久。

星動紀(jì)元研究團(tuán)隊(duì)發(fā)現(xiàn)，不需要精確地預(yù)測未來的每個像素，通過有效提取視頻模型中間層的表征，單步去噪的預(yù)測就可以蘊(yùn)含大量未來信息。

VPP 發(fā)現(xiàn)不用把畫面每個細(xì)節(jié)都精準(zhǔn)預(yù)測，抓住關(guān)鍵信息就行。這樣一來，它預(yù)測下一步動作不到 0.15 秒，控制機(jī)器人的頻率比普通模型快好幾倍，干活一點(diǎn)不拖泥帶水。

跨本體學(xué)習(xí)，技能 “共享” 超方便

不同機(jī)器人 “身材” “手臂” 不一樣，以前教它們技能很麻煩。

VPP 直接把機(jī)器人干活的視頻當(dāng)教材，連人類干活視頻也能學(xué)，就像學(xué)做菜，看別人做一遍，自己就能上手。

在測試中，它完成任務(wù)的效率比老方法高 41.5%，在仿真測試接近滿分，真機(jī)測試成功率也有 67% 。

舉一反三，真實(shí)世界表現(xiàn) “全能”

在真實(shí)世界的測試中，VPP 模型展現(xiàn)出了驚人的多任務(wù)學(xué)習(xí)能力和泛化能力，學(xué)習(xí)成果十分驚艷。

在星動紀(jì)元單臂 + 仿人五指靈巧手靈巧手 XHAND 平臺，VPP 能使用一個網(wǎng)絡(luò)完成 100 多種精細(xì)操作，像疊衣服、擰瓶蓋；在雙臂機(jī)器人上，也能熟練搞定 50 多項(xiàng)復(fù)雜任務(wù)，比如包餃子、擺餐具。

可解釋性與調(diào)試優(yōu)化，問題一眼看穿