訂閱
糾錯(cuò)
加入自媒體

本體無(wú)關(guān):Generalist 27萬(wàn)小時(shí)要掀真機(jī)采集場(chǎng)桌子

圖片

數(shù)據(jù)競(jìng)賽的關(guān)鍵分水嶺,已不再是數(shù)據(jù)方案的路線之爭(zhēng),而在于是否回歸到數(shù)據(jù)采集的“第一性原理”:追求可復(fù)用、可擴(kuò)展、可演進(jìn)的規(guī);瘮(shù)據(jù)流。那些執(zhí)著于單一本體、高成本標(biāo)注的傳統(tǒng)遙操模式,不僅難以支撐Scaling Law所需的數(shù)據(jù)洪流,更在根本上背離了智能泛化的基本邏輯。

作者:王夢(mèng)燦

編輯:狄鑫彤

出品:具身研習(xí)社

2025年11月4日,美國(guó)硅谷機(jī)器人公司Generalist AI發(fā)布了一個(gè)震撼行業(yè)的消息:他們的GEN-0具身基礎(chǔ)模型在27萬(wàn)小時(shí)人類(lèi)操作視頻數(shù)據(jù)上完成訓(xùn)練,首次在機(jī)器人領(lǐng)域驗(yàn)證了Scaling Law的存在。這被業(yè)內(nèi)譽(yù)為具身智能的"ChatGPT時(shí)刻"。

 

圖片

圖片來(lái)源:Generalist

 

27萬(wàn)小時(shí)是什么概念?

這一數(shù)據(jù)量遠(yuǎn)超目前公開(kāi)的所有本體機(jī)器人數(shù)據(jù)集,且仍在以每周1萬(wàn)小時(shí)的速度增長(zhǎng)。與此形成鮮明對(duì)比的是,一度被視為“金字塔尖”的存在的真機(jī)遙操數(shù)據(jù)采集模式在效率上陷入了難以逾越的瓶頸,其緩慢的積累速度使其根本無(wú)法滿(mǎn)足Scaling Laws對(duì)數(shù)據(jù)規(guī)模的指數(shù)級(jí)需求。

真機(jī)遙操數(shù)據(jù)的采集,本質(zhì)上是一種受限于物理世界的線性積累過(guò)程。其典型模式是圍繞特定機(jī)器人硬件,建立線下數(shù)據(jù)工場(chǎng),由操作員通過(guò)遙操作真實(shí)機(jī)器人進(jìn)行任務(wù)演示。這種模式的幾個(gè)內(nèi)在特性,決定了其難以跟上Scaling Law的步調(diào):

線性增長(zhǎng)與指數(shù)需求的對(duì)立:Scaling Law揭示,模型性能隨著數(shù)據(jù)規(guī)模呈冪律提升,這意味著需要數(shù)據(jù)量能持續(xù)指數(shù)級(jí)擴(kuò)張。然而,真機(jī)遙操數(shù)據(jù)采集嚴(yán)重依賴(lài)“堆人頭”和實(shí)機(jī)運(yùn)行,其增長(zhǎng)是線性的。每一個(gè)數(shù)據(jù)點(diǎn)的產(chǎn)生,都伴隨著真實(shí)的硬件磨損、物理運(yùn)動(dòng)時(shí)間和人力成本。即便建立數(shù)百人的采集基地,其年數(shù)據(jù)產(chǎn)量也往往停留在萬(wàn)小時(shí)級(jí)別,與Scaling Law所要求的“數(shù)據(jù)洪流”相去甚遠(yuǎn)。

物理硬件的“錨定效應(yīng)”:真實(shí)機(jī)器人的部署、調(diào)試和維護(hù)流程復(fù)雜,使得數(shù)據(jù)采集體系剛性且笨重,無(wú)法實(shí)現(xiàn)靈活、快速的規(guī)模化擴(kuò)展。數(shù)據(jù)的積累速度被物理硬件的能力和可用性牢牢鎖死。有從業(yè)者坦言:“我們傾注全力建設(shè)的實(shí)體工廠,其數(shù)據(jù)產(chǎn)能天花板清晰可見(jiàn),這種模式無(wú)法支撐我們走向 scaled model。”

不惜成本大搞特搞數(shù)據(jù)采集,最終只能沉淀出百萬(wàn)級(jí)數(shù)據(jù)集。"就算將注入全部心血搞出的數(shù)據(jù)集開(kāi)源,于產(chǎn)業(yè)困境而言也不過(guò)是杯水車(chē)薪。"某具身智能從業(yè)者曾對(duì)具身研習(xí)社表示。

可見(jiàn),真機(jī)遙操數(shù)據(jù)雖質(zhì)量更高,但我們?nèi)孕枰鞒鲆粭l能解決數(shù)據(jù)規(guī);牡缆。在等待真機(jī)數(shù)據(jù)解鎖規(guī)模增長(zhǎng)的同時(shí),Generalist方案代表的是另一種解法。

誠(chéng)然,技術(shù)路線沒(méi)有對(duì)錯(cuò)之分,拼的是發(fā)展路徑能否適應(yīng)AI規(guī);傻年P(guān)鍵分野。但至此,一道看似無(wú)解的題就擺在面前:如何突破數(shù)據(jù)采集的規(guī)模瓶頸?

這題該怎么破?

想解決問(wèn)題先問(wèn)問(wèn)機(jī)器人需要什么

破題的第一性原理要回到具身機(jī)器人的“語(yǔ)言”中,產(chǎn)業(yè)的核心命題從來(lái)不是盲目擴(kuò)張市場(chǎng)規(guī)模、追求表面的 “蛋糕做大”,而是沉下心傾聽(tīng)具身機(jī)器人的 “真實(shí)需求”:它需要什么樣的場(chǎng)景土壤、技術(shù)支撐與數(shù)據(jù)養(yǎng)分,才能真正完成從“技術(shù)展品”到 產(chǎn)業(yè)工具”的跨越?

具身機(jī)器人的價(jià)值實(shí)現(xiàn),核心在于“用起來(lái)”的深層邏輯,即場(chǎng)景應(yīng)用必須同時(shí)滿(mǎn)足剛需性、長(zhǎng)效性與規(guī)模經(jīng)濟(jì)性的三重訴求。這三者構(gòu)成了產(chǎn)業(yè)落地的底層支撐:剛需性是場(chǎng)景存在的前提,指向產(chǎn)業(yè)未被滿(mǎn)足的核心痛點(diǎn);長(zhǎng)效性決定了價(jià)值的可持續(xù)性,避免短期噱頭式應(yīng)用;規(guī)模經(jīng)濟(jì)性則是產(chǎn)業(yè)規(guī);年P(guān)鍵,支撐技術(shù)迭代與商業(yè)閉環(huán)的正向循環(huán)。

當(dāng)前行業(yè)內(nèi)頻繁出現(xiàn)的表演、展演場(chǎng)景,本質(zhì)上只是商業(yè)化初期的“場(chǎng)景切片”。這類(lèi)應(yīng)用雖能直觀展示技術(shù)進(jìn)展、吸引市場(chǎng)關(guān)注,但遠(yuǎn)非產(chǎn)業(yè)落地的完整圖景。具身機(jī)器人的真正落地方向,是成為人類(lèi)勞動(dòng)的 “協(xié)同伙伴”:

一方面將人類(lèi)從重復(fù)性勞動(dòng)、低價(jià)值繁瑣事務(wù)中解脫,另一方面承接高危、高負(fù)荷的作業(yè)場(chǎng)景任務(wù),最終深度融入工廠生產(chǎn)、商業(yè)服務(wù)、特種作業(yè)等核心產(chǎn)業(yè)場(chǎng)景,實(shí)現(xiàn)勞動(dòng)效率的躍遷與生產(chǎn)模式的升級(jí)。

核心產(chǎn)業(yè)場(chǎng)景的落地,絕非舞臺(tái)上依賴(lài)預(yù)設(shè)程序完成標(biāo)準(zhǔn)化動(dòng)作的表演模式所能支撐。它要求具身機(jī)器人跳出“動(dòng)作復(fù)刻”的桎梏,深度理解物理世界的內(nèi)在肌理與動(dòng)態(tài)運(yùn)行軌跡。包括環(huán)境變量的實(shí)時(shí)適配、物體屬性的精準(zhǔn)感知、任務(wù)執(zhí)行的容錯(cuò)邊界等核心命題。

換句話說(shuō),具身機(jī)器人不僅要“會(huì)做”,更要“懂做”:明確不同場(chǎng)景下“把事情做對(duì)”的標(biāo)準(zhǔn),理解動(dòng)作背后的邏輯關(guān)聯(lián),而非機(jī)械執(zhí)行預(yù)設(shè)指令。

這種“懂做”的能力,本質(zhì)是對(duì)人類(lèi)行為模式的系統(tǒng)性拆解、復(fù)現(xiàn)與優(yōu)化。相較于肢體擺動(dòng)等大開(kāi)大合的宏觀動(dòng)作,長(zhǎng)效落地的產(chǎn)業(yè)場(chǎng)景中,核心難點(diǎn)集中于觸覺(jué)反饋、力控精度、環(huán)境感知等精細(xì)化交互能力。

“AI教母”李飛飛在其最新發(fā)表的空間智能宣言中深刻剖析了這一難題。她指出,空間智能在人類(lèi)與物理世界的交互中發(fā)揮著根本性作用——我們每天都在依賴(lài)它完成各種看似平凡的動(dòng)作:停車(chē)時(shí)通過(guò)想象車(chē)頭與路沿間逐漸縮小的距離來(lái)判斷位置,接住從房間另一頭扔來(lái)的鑰匙,或是半睡半醒時(shí)不用看就能把咖啡倒進(jìn)杯子里。

 

圖片

圖片來(lái)源:A16Z賬號(hào)截圖

然而,讓機(jī)器人掌握這種能力面臨嚴(yán)峻挑戰(zhàn)。李飛飛明確指出:"開(kāi)發(fā)這些機(jī)器人面臨的一個(gè)核心挑戰(zhàn)是,缺乏適用于各種具身形式的訓(xùn)練數(shù)據(jù)。"

這意味著,機(jī)器人需要掌握更精細(xì)的物理交互數(shù)據(jù):敲擊鍵盤(pán)時(shí)如何應(yīng)對(duì)鍵盤(pán)的回彈?拿起一瓶礦泉水時(shí),因?yàn)樗⒎羌兇獾膭傮w會(huì)輕微變形,那么又需要多大力氣來(lái)擰開(kāi)瓶蓋?足量且高質(zhì)量的精細(xì)化數(shù)據(jù),正是具身機(jī)器人精準(zhǔn)執(zhí)行任務(wù)的"養(yǎng)分"。這部分人類(lèi)難以言說(shuō)的數(shù)據(jù),成為制約其規(guī)模應(yīng)用的重要痛點(diǎn)。

沒(méi)有完善的數(shù)據(jù)閉環(huán)喂養(yǎng),其交互執(zhí)行極易陷入失控狀態(tài),這也是行業(yè)內(nèi)諸多"落地試錯(cuò)案例"的根源。社交媒體上流傳的具身機(jī)器人"黑歷史",本質(zhì)上都是精細(xì)化能力缺失的直接體現(xiàn):擰瓶蓋時(shí)因缺乏對(duì)不同材質(zhì)、不同擰緊度的精準(zhǔn)力控能力,導(dǎo)致力度失衡壓扁水瓶;搭積木時(shí)因缺少對(duì)物體空間位置與動(dòng)態(tài)碰撞的準(zhǔn)確感知能力,不小心碰倒整排積木;工業(yè)裝配中因缺乏對(duì)細(xì)分零件的觸覺(jué)反饋處理能力,出現(xiàn)零件壓損或裝配錯(cuò)位等問(wèn)題。

這些看似瑣碎的失誤,恰恰暴露了產(chǎn)業(yè)的核心短板:精細(xì)化能力的缺失,讓具身機(jī)器人難以應(yīng)對(duì)真實(shí)場(chǎng)景的復(fù)雜性與不確定性。而這種能力短板的核心癥結(jié),在于缺乏能夠同時(shí)滿(mǎn)足物理真實(shí)性與規(guī);蟮挠(xùn)練數(shù)據(jù)。 當(dāng)行業(yè)困于這種核心能力的缺失,任何賬面上的訂單增長(zhǎng)與出貨量,都難以轉(zhuǎn)化為實(shí)打?qū)嵉囊?guī)模應(yīng)用落地。產(chǎn)業(yè)的真正拐點(diǎn),必將始于在核心能力培育所需的數(shù)據(jù)供給上取得根本性突破。

真機(jī)不是萬(wàn)金油

規(guī);瘮(shù)據(jù)觸碰 Scaling law 

在明確精細(xì)化交互能力是具身機(jī)器人落地的核心瓶頸后,需進(jìn)一步審視支撐該能力的數(shù)據(jù)體系結(jié)構(gòu)。行業(yè)內(nèi)一直公認(rèn)的評(píng)級(jí)標(biāo)準(zhǔn)為“數(shù)據(jù)金字塔”。

這一金字塔分為三層:底層基座由互聯(lián)網(wǎng)海量級(jí)公開(kāi)數(shù)據(jù)及人類(lèi)操作視頻數(shù)據(jù)構(gòu)成,中間層為仿真合成數(shù)據(jù),塔尖則是價(jià)值密度最高的真機(jī)遙操數(shù)據(jù)。

目前真正能讓具身機(jī)器人具備和物理世界深度交互、執(zhí)行工作任務(wù)的數(shù)據(jù),主要依賴(lài)于金字塔中層的真機(jī)遙操數(shù)據(jù)和帶物理參數(shù)的仿真合成數(shù)據(jù)。

就真機(jī)遙操數(shù)據(jù)來(lái)說(shuō),其通過(guò)具身機(jī)器人在真實(shí)產(chǎn)業(yè)場(chǎng)景中實(shí)測(cè)獲得,涵蓋觸覺(jué)反饋、力控參數(shù)、環(huán)境交互動(dòng)態(tài)等精細(xì)化數(shù)據(jù)。簡(jiǎn)而言之,真機(jī)遙操數(shù)據(jù)就是“一對(duì)一手把手”教具身機(jī)器人如何工作,通過(guò)百人規(guī)模的遙操采集場(chǎng),圍繞單一本體形態(tài)進(jìn)行數(shù)據(jù)標(biāo)注。單項(xiàng)工作任務(wù)中成功率較高,其每條運(yùn)動(dòng)軌跡都有人類(lèi)的影子。

真機(jī)遙操數(shù)據(jù)的核心價(jià)值在于其對(duì)真實(shí)物理世界的高保真記錄。真實(shí)環(huán)境中的接觸動(dòng)力學(xué)、摩擦力變化、物體形變、力反饋等復(fù)雜物理交互,都被完整捕捉在真機(jī)遙操數(shù)據(jù)中。這些來(lái)自真實(shí)世界的物理細(xì)節(jié)——尤其是接觸、摩擦等非線性動(dòng)力學(xué)參數(shù),能夠?yàn)闄C(jī)器人提供最直接、最真實(shí)的物理世界交互經(jīng)驗(yàn),這也是真機(jī)遙操數(shù)據(jù)被視為"金字塔頂端"的根本原因。

但也正是因?yàn)槠洳杉绞剑瑢?dǎo)致真機(jī)遙操數(shù)據(jù)存在部分痛點(diǎn)。

目前業(yè)內(nèi)具身機(jī)器人形態(tài)尚未收斂,就連相同身高的具身機(jī)器人臂長(zhǎng)也有所不同,行動(dòng)軌跡也自然有出入,這便導(dǎo)致數(shù)據(jù)采集難以跨形態(tài)部署。當(dāng)機(jī)器人本體迭代或客戶(hù)需求變化時(shí),此前的數(shù)據(jù)資產(chǎn)便難以復(fù)用,形成了"賣(mài)本體"驅(qū)動(dòng)的數(shù)據(jù)采集模式,而非"數(shù)據(jù)驅(qū)動(dòng)"的規(guī);J。

其次,數(shù)據(jù)采集往往消耗大量人力物力,鮮少有企業(yè)能承擔(dān)賬面壓力,大部分?jǐn)?shù)據(jù)采集員為兼職,甚至整個(gè)場(chǎng)景數(shù)據(jù)采集為外包公司承接,一定程度上影響數(shù)據(jù)采集的質(zhì)量。

可見(jiàn),諸多客觀因素導(dǎo)致真機(jī)遙操數(shù)據(jù)難以觸碰Scaling Law,而Scaling Law——即模型性能隨數(shù)據(jù)量和算力的增加而可預(yù)測(cè)地提升,才是具身機(jī)器人數(shù)據(jù)側(cè)的首要解法。

Generalist AI的突破,恰恰驗(yàn)證了規(guī);瘮(shù)據(jù)的可能性。Generalist發(fā)布的GEN-0具身基礎(chǔ)模型,用27萬(wàn)小時(shí)人類(lèi)操作視頻數(shù)據(jù)首次在機(jī)器人領(lǐng)域驗(yàn)證了Scaling Law的存在。更關(guān)鍵的是,Generalist采用了UMI(通用操作接口)方案,數(shù)據(jù)采集設(shè)備與機(jī)器人本體解耦,可在全球數(shù)千個(gè)家庭、倉(cāng)庫(kù)、工作場(chǎng)所靈活部署,實(shí)現(xiàn)了真正的規(guī)模化數(shù)據(jù)采集。

 

圖片

圖片來(lái)源:Generalist

在數(shù)據(jù)規(guī);牧硪粭l路徑上,仿真合成數(shù)據(jù)同樣展現(xiàn)出觸碰Scaling Law的潛力,且在經(jīng)濟(jì)效率上更具優(yōu)勢(shì)。同一套仿真場(chǎng)景資產(chǎn),可以適配不同形態(tài)的機(jī)器人進(jìn)行訓(xùn)練,無(wú)需針對(duì)每個(gè)本體重新構(gòu)建環(huán)境。

更關(guān)鍵的是,仿真數(shù)據(jù)可在虛擬環(huán)境中快速生成海量、多樣化的訓(xùn)練數(shù)據(jù),在成本控制和部署靈活性上具有獨(dú)特優(yōu)勢(shì)。對(duì)于預(yù)訓(xùn)練數(shù)據(jù)集幾乎為零的具身智能領(lǐng)域而言——并沒(méi)有上百萬(wàn)臺(tái)機(jī)器人在工廠、車(chē)間和家庭中持續(xù)采集數(shù)據(jù)——這個(gè)巨大的數(shù)據(jù)缺口,恰恰需要仿真合成數(shù)據(jù)這種可快速擴(kuò)展、成本可控的方案來(lái)填補(bǔ)。

一方面,仿真合成數(shù)據(jù)能解決數(shù)據(jù)缺失和難以規(guī)模化的痛點(diǎn), 另一方面通過(guò)仿真方式能極大降低數(shù)據(jù)資產(chǎn)沉淀的成本。二者相加,便能打開(kāi)仿真合成數(shù)據(jù)助力具身機(jī)器人應(yīng)用海量數(shù)據(jù)的大門(mén)。

更為重要的是,仿真合成數(shù)據(jù)精準(zhǔn)覆蓋精細(xì)化數(shù)據(jù)需求并具備泛化能力。仿真環(huán)境可精準(zhǔn)模擬觸覺(jué)反饋、力控閾值等真機(jī)實(shí)測(cè)中難以捕捉的精細(xì)化參數(shù),同時(shí)通過(guò)調(diào)整場(chǎng)景變量(如物體材質(zhì)、環(huán)境光照、任務(wù)流程),生成具備場(chǎng)景泛化性的數(shù)據(jù),助力機(jī)器人算法適配更多元的真實(shí)場(chǎng)景。

仿真合成數(shù)據(jù)的商業(yè)價(jià)值,已通過(guò)實(shí)際案例得到印證。銀河通用堅(jiān)持以仿真技術(shù)為核心研發(fā)路徑,成功推出“銀河太空艙”并在全國(guó)實(shí)現(xiàn)大面積落地,深度和每一位客人交互,用看得見(jiàn)摸得著的產(chǎn)業(yè)成果,證明了仿真路線在商業(yè)轉(zhuǎn)化上的巨大潛力。這種落地并非偶然,而是仿真數(shù)據(jù)優(yōu)勢(shì)與產(chǎn)業(yè)需求深度匹配的必然結(jié)果 。通過(guò)仿真積累的海量數(shù)據(jù),支撐機(jī)器人在真實(shí)場(chǎng)景中實(shí)現(xiàn)更穩(wěn)定、精準(zhǔn)的執(zhí)行,為商業(yè)規(guī)模化鋪平道路。

從產(chǎn)業(yè)發(fā)展規(guī)律來(lái)看,無(wú)論是Generalist用27萬(wàn)小時(shí)人類(lèi)操作視頻數(shù)據(jù)驗(yàn)證的Scaling Law,還是仿真合成數(shù)據(jù)展現(xiàn)的規(guī);瘽摿,都指向同一個(gè)核心命題:如何高效獲取海量、高質(zhì)量的訓(xùn)練數(shù)據(jù)。

產(chǎn)業(yè)更應(yīng)秉持客觀審慎的態(tài)度,回歸“需求導(dǎo)向”的核心邏輯,實(shí)現(xiàn)數(shù)據(jù)規(guī);钱(dāng)下的關(guān)鍵。那些仍在圍繞單一本體建造遙操采集場(chǎng)的企業(yè),本質(zhì)上是在用數(shù)據(jù)采集包裝"賣(mài)本體"的生意,其數(shù)據(jù)難以在Scaling Law的競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)。

仿真亦是通途:物理真實(shí)與規(guī)模效率的協(xié)同進(jìn)化

Generalist利用人類(lèi)操作視頻數(shù)據(jù)驗(yàn)證機(jī)器人領(lǐng)域的Scaling Law,其背后的數(shù)據(jù)邏輯與仿真合成數(shù)據(jù)不謀而合——兩者均致力于突破數(shù)據(jù)采集的物理限制,實(shí)現(xiàn)高復(fù)用性與規(guī);。只不過(guò),Generalist通過(guò)UMI方案在真實(shí)世界中實(shí)現(xiàn)跨本體數(shù)據(jù)采集,而仿真合成數(shù)據(jù)則選擇在虛擬環(huán)境中構(gòu)建數(shù)據(jù)流水線。

值得關(guān)注的是,仿真合成數(shù)據(jù)在規(guī);瘽摿ι险宫F(xiàn)出不亞于人類(lèi)操作視頻數(shù)據(jù)的勢(shì)頭。"AI教母"李飛飛在其3天前發(fā)表的長(zhǎng)文《從語(yǔ)言到世界:空間智能是AI的下一個(gè)前沿》中指出,機(jī)器人一直是具身智能領(lǐng)域的夢(mèng)想,而世界模型(World Models)將是實(shí)現(xiàn)這一夢(mèng)想的關(guān)鍵。她特別提到:"我不會(huì)低估高質(zhì)量合成數(shù)據(jù)(Synthetic Data)的力量...它們?cè)谟?xùn)練過(guò)程的關(guān)鍵步驟中補(bǔ)充了互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)。"

早在前不久,李飛飛與英偉達(dá)AI科學(xué)家Jim Fan在一場(chǎng)NVIDIA Omniverse直播對(duì)話中,就仿真與世界模型進(jìn)行深度對(duì)談。無(wú)獨(dú)有偶,下一期的Omniverse直播中,Omniverse & Physical AI產(chǎn)品營(yíng)銷(xiāo)高級(jí)總監(jiān)Madison Huang與光輪智能創(chuàng)始人兼CEO謝晨博士,同樣也圍繞仿真合成數(shù)據(jù)如何縮小Sim-to-Real鴻溝展開(kāi)了深度對(duì)話,進(jìn)一步凸顯仿真路徑在主流技術(shù)路線中的地位正在強(qiáng)化。

 

圖片

圖片來(lái)源:直播截圖

謝晨在直播中指出:“當(dāng)前已進(jìn)入數(shù)據(jù)發(fā)展的關(guān)鍵階段。借助仿真技術(shù)與仿真資產(chǎn),機(jī)器人領(lǐng)域可實(shí)現(xiàn)多項(xiàng)突破。”這一判斷的背后,是光輪智能在仿真數(shù)據(jù)體系上的系統(tǒng)化布局——從高物理真實(shí)性的仿真資產(chǎn),到標(biāo)準(zhǔn)化、工業(yè)化的數(shù)據(jù)生產(chǎn)流程,最終形成可復(fù)用的工具鏈與開(kāi)放生態(tài)。

在技術(shù)實(shí)現(xiàn)層面,光輪智能展示了其與NVIDIA合作開(kāi)發(fā)的電纜仿真解決方案,能夠處理“可變形體+剛體”雙重物理屬性,為機(jī)器人操作線纜、軟管等復(fù)雜任務(wù)提供高保真數(shù)據(jù)。Madison Huang指出,“電纜操作是機(jī)器人領(lǐng)域的‘圣杯’問(wèn)題”,在NVIDIA的生產(chǎn)環(huán)境中,單臺(tái)NVL72機(jī)架就需布設(shè)2英里長(zhǎng)的銅纜,這類(lèi)任務(wù)對(duì)機(jī)器人的力控與觸覺(jué)反饋提出極高要求。

 

圖片

圖片來(lái)源:直播截圖

為保障仿真數(shù)據(jù)的有效性,光輪建立了一套完整的基準(zhǔn)測(cè)試流程:從物理屬性校準(zhǔn)、遠(yuǎn)程操控驗(yàn)證,到強(qiáng)化學(xué)習(xí)壓力測(cè)試,并對(duì)比仿真與現(xiàn)實(shí)世界中的物理參數(shù)曲線,確保數(shù)據(jù)趨勢(shì)一致。謝晨強(qiáng)調(diào),仿真的目標(biāo)不是追求與現(xiàn)實(shí)完全一致的“數(shù)字孿生”,而是生成具有多樣性和代表性的“數(shù)字同類(lèi)體”(digital cousins),以覆蓋真實(shí)場(chǎng)景中的數(shù)據(jù)分布。

在規(guī);矫,光輪通過(guò)標(biāo)準(zhǔn)化流程將現(xiàn)有數(shù)字資產(chǎn)快速轉(zhuǎn)化為仿真就緒資產(chǎn)。例如,一個(gè)冰箱模型的轉(zhuǎn)化時(shí)間可縮短至約20分鐘。同時(shí),其對(duì)仿真資產(chǎn)進(jìn)行深度優(yōu)化,支持單GPU并行運(yùn)行成百上千個(gè)環(huán)境,為強(qiáng)化學(xué)習(xí)提供大規(guī)模、低成本的訓(xùn)練條件。

在架構(gòu)設(shè)計(jì)上,光輪智能以仿真引擎為底層基礎(chǔ),構(gòu)建可復(fù)用的工具鏈層——包括泛化學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等模塊,均已實(shí)現(xiàn)產(chǎn)品化。在此基礎(chǔ)上,適配層根據(jù)不同客戶(hù)的傳感器與標(biāo)注需求進(jìn)行定制,從而快速響應(yīng)多場(chǎng)景需求。

為拓展數(shù)據(jù)生成能力邊界,光輪與NVIDIA聯(lián)合推動(dòng)Isaac Lab Arena開(kāi)源框架的開(kāi)發(fā),用于基準(zhǔn)測(cè)試、數(shù)據(jù)收集與大規(guī)模強(qiáng)化學(xué)習(xí),并集成Cosmos等世界模型增強(qiáng)合成數(shù)據(jù)的多樣性與復(fù)雜性。這套“仿真-資產(chǎn)-工具鏈-生態(tài)”的閉環(huán),為其規(guī)模化服務(wù)客戶(hù)奠定了基礎(chǔ)。

目前,光輪智能的客戶(hù)除了英偉達(dá),還覆蓋DeepMind、斯坦福、Genesis AI、Figure、1X、銀河、智元、阿里、字節(jié)等企業(yè)與機(jī)構(gòu),在產(chǎn)業(yè)中逐步建立起技術(shù)信譽(yù)。Madison Huang在直播中評(píng)價(jià)稱(chēng),與這些頂尖團(tuán)隊(duì)的合作,“本身就證明了光輪在仿真資產(chǎn)與合成數(shù)據(jù)普及方面的前瞻性”。

李飛飛在空間智能宣言中強(qiáng)調(diào),空間智能需處理“語(yǔ)義、幾何、動(dòng)態(tài)和物理”之間的復(fù)雜協(xié)調(diào),其難度遠(yuǎn)超語(yǔ)言模型的一維序列建模。仿真合成數(shù)據(jù)正是應(yīng)對(duì)這一挑戰(zhàn)的關(guān)鍵路徑——它不僅僅提供數(shù)據(jù),更在構(gòu)建一個(gè)可控、可擴(kuò)展的物理學(xué)習(xí)環(huán)境。

光輪智能的實(shí)踐表明,仿真數(shù)據(jù)系統(tǒng)逐漸成為連接虛擬與現(xiàn)實(shí)、支持機(jī)器人從“感知”走向“操作”的基礎(chǔ)設(shè)施。據(jù)悉,光輪智能已實(shí)現(xiàn)破億營(yíng)收,這也從商業(yè)層面驗(yàn)證了仿真合成數(shù)據(jù)的規(guī);瘍r(jià)值正在被市場(chǎng)認(rèn)可。

結(jié)語(yǔ)

Generalist以27萬(wàn)小時(shí)人類(lèi)操作視頻數(shù)據(jù)驗(yàn)證了機(jī)器人領(lǐng)域的Scaling Law,其UMI方案更指明了一條數(shù)據(jù)規(guī)模化的現(xiàn)實(shí)路徑。當(dāng)多數(shù)企業(yè)仍困于為單一本體建造遙操工廠時(shí),像Generalist這樣依托人類(lèi)操作視頻融資1.4億美元,或如光輪智能憑借仿真數(shù)據(jù)實(shí)現(xiàn)營(yíng)收破億,都已證明:規(guī);拇箝T(mén),早已向能夠突破數(shù)據(jù)瓶頸的玩家敞開(kāi)。

這場(chǎng)競(jìng)賽的關(guān)鍵分水嶺,已不再是數(shù)據(jù)方案的路線之爭(zhēng),而在于是否回歸到數(shù)據(jù)采集的“第一性原理”:追求可復(fù)用、可擴(kuò)展、可演進(jìn)的規(guī)模化數(shù)據(jù)流。那些執(zhí)著于單一本體、高成本標(biāo)注的傳統(tǒng)遙操模式,不僅難以支撐Scaling Law所需的數(shù)據(jù)洪流,更在根本上背離了智能泛化的基本邏輯。

Generalist的突破重寫(xiě)了具身智能時(shí)代的數(shù)據(jù)法則:打破本體依賴(lài),建立可復(fù)用、可擴(kuò)展的數(shù)據(jù)飛輪,才是迎接Scaling Law時(shí)代的關(guān)鍵。

       原文標(biāo)題 : 本體無(wú)關(guān):Generalist 27萬(wàn)小時(shí)要掀真機(jī)采集場(chǎng)桌子

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)