訂閱
糾錯
加入自媒體

模型、數(shù)據(jù)、落地之爭:具身智能來到“破曉”時刻

圖片

文|魏琳華

編|王一粟

“具身智能,究竟發(fā)展到了哪個節(jié)點?”對于這個火爆但早期的產(chǎn)業(yè),不少人都有這個疑問。

一方面,是資本用真金白銀投出的繁盛。據(jù)不完全統(tǒng)計,中國具身智能相關(guān)企業(yè)數(shù)量已接近百萬家。今年下半年,包括宇樹科技、智元機器人在內(nèi)的多家公司拿到過億融資、頭部企業(yè)籌劃上市。熱錢涌動,創(chuàng)業(yè)者云集,仿佛下一個萬億級產(chǎn)業(yè)的黎明已然到來。

而另一方面,卻是大量籠罩在行業(yè)上空懸而未決的陰霾,具身智能行業(yè)充滿了基礎(chǔ)性的路線之爭。

“具身智能目前來看有三座大山:第一,數(shù)據(jù)稀缺性。第二,數(shù)據(jù)泛化性。第三,產(chǎn)品落地。”華為云中國區(qū)云原生企業(yè)業(yè)務(wù)部部長李鵬程說。

圖片

華為云中國區(qū)云原生企業(yè)業(yè)務(wù)部部長李鵬程

深入到產(chǎn)業(yè)腹地,不難發(fā)現(xiàn),下階段無論是模型路線、數(shù)據(jù)策略還是落地效果,整個行業(yè)都遠(yuǎn)未形成共識。參與者們仿佛站在一個巨大的十字路口,行業(yè)正在“兩條腿走路”,在未確定范式之前,朝著不同的方向先展開探索。

從模型上來說,行業(yè)的討論主要聚焦在VLA、世界模型等不同架構(gòu)上,目前使用VLA存在的問題是,它的泛化性有限,難以解決跨本體、跨任務(wù)的情況;從數(shù)據(jù)上來說,是使用真機數(shù)據(jù)還是合成數(shù)據(jù)為主,兩條路線各有優(yōu)劣勢,而沒有人確認(rèn)哪條路徑更優(yōu)。

在不確定的路徑中,具身智能行業(yè)的玩家們正在通過不同路線的探索,合力向著“智能”的方向前進(jìn)。

11月14日,由華為云主辦的《具身智能產(chǎn)業(yè)實踐高峰論壇》上,來自學(xué)術(shù)、產(chǎn)業(yè)、企業(yè)界的嘉賓共同探討具身智能行業(yè)的發(fā)展和實踐經(jīng)驗。

模型路線之爭:從VLA到世界模型

“具身智能目前還處在非常初級的階段。”在會議現(xiàn)場,多位嘉賓給出了相同的判斷。

“現(xiàn)在到處都是問題,不管是機器人本體、可靠性、核心零部件成本、性能,到軟件、大腦、小腦,或者大小腦本身是一個不明確的定義,這些都是要攻克的問題。”提到具身智能當(dāng)前發(fā)展的情況,華為云物理智能創(chuàng)新實驗室負(fù)責(zé)人周順波說。

其中,模型架構(gòu)和數(shù)據(jù)來源,成為頻頻提起的兩個問題。

極佳科技合伙人、副總裁毛繼明指出,目前最大的瓶頸在于“通用模型”本身不夠通用。

圖片

極佳科技合伙人、副總裁毛繼明

行業(yè)所面臨的,是具身智能的第一重,也是最根本的挑戰(zhàn):如何讓模型跨越從“認(rèn)知”到“物理”的鴻溝,真正獲得人類與生俱來的通識能力。

當(dāng)數(shù)據(jù)來源塵埃未定,通往智能巔峰的模型路徑是一片迷霧。目前,VLA(視覺-語言-動作)模型和世界模型(World Model)是兩條最受關(guān)注,也最具爭議的技術(shù)路線。

VLA模型是當(dāng)下的主流選擇,它更像一個“翻譯官”,將人類的語言指令直接翻譯成機器人的動作序列。它的優(yōu)勢在于路徑更短,更容易在特定任務(wù)上看到效果。

圖片

然而在真實使用中, VLA模型遇到了很多問題。華為技術(shù)專家表示,目前VLA模型在通用化、自主化操作以及長程精細(xì)化操作幾個維度上難以做到兼容和平衡。模型本身對物理世界缺乏深層次的理解和預(yù)判能力,這讓它難以解決更多固定場景之外的復(fù)雜問題。

首先是數(shù)據(jù)依賴的嚴(yán)重性。VLA模型本質(zhì)上仍然是通過大量特定任務(wù)的數(shù)據(jù)進(jìn)行訓(xùn)練,但這種泛化仍然是建立在海量數(shù)據(jù)訓(xùn)練基礎(chǔ)上的。當(dāng)面對一個全新任務(wù)時,如果訓(xùn)練數(shù)據(jù)中缺乏足夠相似的場景,模型很可能無法直接處理。

“現(xiàn)在通用模型這塊確實還很不通用,這種局限性在面對新環(huán)境、新任務(wù)時尤為明顯。”一位嘉賓直言不諱:“現(xiàn)在很多demo是挑了最好的給大家看,真正上線用的時候很多工廠良率控制要求很高,但凡只有90%成功率都不行。”

更關(guān)鍵的是架構(gòu)本身的固有問題。VLA模型需要同時處理視覺輸入、語言理解和動作輸出三個不同模態(tài)的信息,這種復(fù)雜性導(dǎo)致計算開銷巨大,推理速度緩慢。

在工廠的實際應(yīng)用中,機器人需要滿足嚴(yán)格的時間節(jié)拍要求,而VLA模型的思考和規(guī)劃周期比較長,往往無法滿足實時性的需求。

面對VLA模型的困境,世界模型路線正在成為一個重要的技術(shù)方向。

與VLA不同,世界模型試圖讓機器人建立對物理世界的底層理解,就如同人類基于對世界的通識認(rèn)知來理解和執(zhí)行任務(wù)。它的核心是通過構(gòu)建機器人對物理規(guī)律、物體屬性、動作結(jié)果的深層理解,解決機器人在跨本體、跨任務(wù)場景的泛化能力。

世界模型的另一個重要優(yōu)勢是其在數(shù)據(jù)生成方面的潛力。通過對物理世界的理解,模型可以生成大量高質(zhì)量的合成數(shù)據(jù),這恰好解決了當(dāng)前機器人訓(xùn)練數(shù)據(jù)稀缺的問題。

“VLA跟世界模型現(xiàn)在都處在GPT2的時刻,它們還有很大的潛力可以挖,但距離真正的通用型還有比較長的路要走。但是我們覺得這個時間并不會很長,兩年內(nèi)可能就會迎來這樣的時刻。”毛繼明說。

真機采集、仿真生成,具身企業(yè)怎么選?

除了模型路線的變化,數(shù)據(jù)問題也成為制約行業(yè)發(fā)展的另一大瓶頸。是使用真機數(shù)據(jù)還是合成數(shù)據(jù)?對于兩條路徑的可能性,多位嘉賓表示,目前還沒有探索出一條確切的路徑。

但不可否認(rèn)的是,在算法還有待優(yōu)化的現(xiàn)階段,研發(fā)企業(yè)需要真機數(shù)據(jù)驗證算法的準(zhǔn)確性。

周順波一針見血地指出了問題所在:“根據(jù)我們的研發(fā)實踐,現(xiàn)在沒有任何一個場景可以用100%合成數(shù)據(jù)完成物理世界的落地。所以真機數(shù)據(jù)確實是很重要的一個數(shù)據(jù)來源。”

怎么采集真機數(shù)據(jù),也是一門學(xué)問。

“我們也踩了很多坑,前期做數(shù)據(jù)標(biāo)注、數(shù)據(jù)采集的時候很多數(shù)據(jù)是廢掉的。因為讓數(shù)據(jù)標(biāo)注人員做數(shù)據(jù)采集的時候發(fā)現(xiàn)并沒有一個很好的標(biāo)準(zhǔn),這個標(biāo)準(zhǔn)是通過不斷優(yōu)化模型,反向做數(shù)據(jù)采集的設(shè)計,這樣能夠采集到更高質(zhì)量的數(shù)據(jù),喂給模型,讓模型更泛化。”聆動通用聯(lián)合創(chuàng)始人兼市場副總裁、訊飛創(chuàng)投投資顧問周甲甲說。

圖片

聆動通用聯(lián)合創(chuàng)始人兼市場副總裁、訊飛創(chuàng)投投資顧問 周甲甲

為了解決數(shù)據(jù)標(biāo)準(zhǔn)化和共享問題,一些企業(yè)開始構(gòu)建數(shù)據(jù)服務(wù)平臺,先去確立標(biāo)準(zhǔn)。

周順波介紹了華為云的相關(guān)實踐:“構(gòu)建具身生態(tài)我們在積極推進(jìn),但是我覺得更重要的點是現(xiàn)在行業(yè)里面并沒有對于數(shù)據(jù)的認(rèn)知,不知道應(yīng)該采集什么樣的數(shù)據(jù),所以需要先建立標(biāo)準(zhǔn)。”

他表示,華為云正在構(gòu)建一套端到端的工具鏈,放在了自家平臺CloudRobo中。該工具鏈不僅可以對接數(shù)采廠、穿戴式數(shù)采,也可以對真機數(shù)據(jù)做數(shù)據(jù)增廣,或者是基于仿真平臺做數(shù)據(jù)合成。

真機數(shù)據(jù)的最大優(yōu)勢是其可信度和真實性。但真機數(shù)據(jù)采集的成本極其高昂,超高質(zhì)量數(shù)據(jù)有限,這成為制約行業(yè)發(fā)展的一大瓶頸。

面對真機數(shù)據(jù)的高成本、質(zhì)量低問題,仿真數(shù)據(jù)也成為當(dāng)下具身智能企業(yè)嘗試的重點路徑之一。

它不僅具備成本優(yōu)勢,在后期提升泛化性上,起到至關(guān)重要的作用:當(dāng)現(xiàn)有階段的真機數(shù)據(jù)種類、場景范圍覆蓋有限的情況下,使用針對性生成的合成數(shù)據(jù),能夠幫助模型有效提升泛化能力。

毛繼明拋出了一個問題:“真正的通用怎么可能通過采集能夠達(dá)到那么大的通用?這是不可能的。”

也就是說,要讓機器人學(xué)會處理一萬種不同的場景,不可能要求企業(yè)真的去采集到對應(yīng)的所有數(shù)據(jù),唯一的出路,是在世界模型中合成數(shù)據(jù),提供給模型訓(xùn)練。

不過,相比于真機數(shù)據(jù),仿真數(shù)據(jù)目前的效果有限,實際訓(xùn)練效果距離真機數(shù)據(jù)還有一定差距。

“合成數(shù)據(jù)可能有上限,尤其現(xiàn)在基于仿真引擎合成數(shù)據(jù)。”周順波說,“現(xiàn)在剛體的物理仿真可能還行,但是如果上升到流體柔體,其實合成數(shù)據(jù)的性能會被仿真性能給鎖死,這也是大家關(guān)注世界模型價值的原因。”

因此,行業(yè)正處在一個“真機”與“合成”混用的階段,真機數(shù)據(jù)是“種子”,用來錨定真實情況,合成數(shù)據(jù)則被用來實現(xiàn)規(guī);头夯。

且根據(jù)不同的場景,真機和仿真數(shù)據(jù)的混合比例也會動態(tài)調(diào)整。毛繼明透露,在“疊衣服”任務(wù)上,合成數(shù)據(jù)的最佳比例高達(dá)90%;而在“收拾桌子”這種剛體操作上,則是70%左右。

產(chǎn)業(yè)落地:工廠、娛樂場景探索可能性

在模型和數(shù)據(jù)這兩座大山之下,具身智能的產(chǎn)業(yè)化落地,目前還有一段漫長的路要走。

“哪怕只是打螺絲,現(xiàn)在交給機器人還是不太能做得好。”一汽模具研發(fā)負(fù)責(zé)人王瀚霄說。從實際應(yīng)用的效果來看,當(dāng)前大多數(shù)機器人系統(tǒng)在工廠環(huán)境中的表現(xiàn)遠(yuǎn)未達(dá)到商用要求。面對基礎(chǔ)的裝配操作,實際上涉及到復(fù)雜的感知、規(guī)劃和控制流程,需要各個層面的技術(shù)協(xié)調(diào)配合。

更關(guān)鍵的是成功率的嚴(yán)格要求。上述嘉賓表示,在現(xiàn)實中,工業(yè)場景要求至少90%的成功率,而目前大多數(shù)系統(tǒng)只能達(dá)到10%左右的水平。此外,在操作靈活性和工作效率上,當(dāng)前機器人表現(xiàn)出的水平也遠(yuǎn)未滿足要求。

談及人形機器人產(chǎn)業(yè)化落地條件,也同樣存著大量亟待解決的問題。

北京人形機器人創(chuàng)新中心具身大模型負(fù)責(zé)人鞠笑竹表示,需要能夠做到四種能力:多本體、多任務(wù)協(xié)同工作能力、自主學(xué)習(xí)能力、跨本體泛化操作能力和全自主導(dǎo)航能力。

“我們要解決真正的問題是,未來1-2年時間之內(nèi),現(xiàn)在采集的數(shù)據(jù)訓(xùn)練模型能不能高效復(fù)用到下一步技術(shù)上?跨本體問題不解決,那可能采的數(shù)據(jù)作用都會大打折扣。”鞠笑竹說,“此外,未來機器人進(jìn)入到場景之后,除了采集數(shù)據(jù)、訓(xùn)練部署給到廠家之外,還能做到干中學(xué)的效果,包括解決當(dāng)下被人詬病的自主導(dǎo)航能力——機器人后面老有一個遙控器推著。”

圖片

北京人形機器人創(chuàng)新中心具身大模型負(fù)責(zé)人鞠笑竹

躍入產(chǎn)業(yè)端,企業(yè)需要解決的不單單是技術(shù)問題,還存在大量圍繞機器人運行本身需要考慮的供應(yīng)問題。在這個過程中,產(chǎn)業(yè)端需要一套更加清晰的標(biāo)準(zhǔn)和工具支撐能力。

扎根產(chǎn)業(yè)端,不做機器人本體,只做“賣鏟人”,華為云通過實踐和探索,給出了一套自己的答案:

“基于華為工具鏈平臺,它圍繞著數(shù)據(jù)生產(chǎn)、具身智能模型訓(xùn)推、評測,是數(shù)據(jù)閉環(huán)的平臺。”周順波說,“這個閉環(huán)就會涉及到運行態(tài),運行態(tài)會涉及到一些華為傳統(tǒng)的優(yōu)勢,比如多模態(tài)數(shù)據(jù)2D、3D的甚至包括觸覺的,這些數(shù)據(jù)怎么做無損壓縮?以及到底計算是發(fā)生在端側(cè)還是云上,還是邊側(cè),算力怎么自適應(yīng)的卸載等等。”

而在更多資金涌入具身智能行業(yè)的情況下,未來行業(yè)可能會率先在哪些領(lǐng)域取得落地成果?

對此,勢乘資本合伙人劉英航表示,目前頭部具身智能企業(yè)正在聯(lián)合企業(yè)場景完成一些復(fù)雜挑戰(zhàn),比如進(jìn)工廠擰螺絲。此外,一些人形機器人的銷售大單去往了商業(yè)表演、導(dǎo)覽、教育科研等行業(yè)。

“我們最近看了一些新項目,大家做的是偏應(yīng)用類的,跟具身、AI硬件結(jié)合的項目,他們做的往往都是基于物理世界模型、運控能力做了陪伴、戶外、攝影這些能力,其實這些也回避了交互能力現(xiàn)在不足的點。”劉英航說,“這塊可能有下一個大疆的可能性。”

毛繼明則表示,極佳看到了世界模型更適合對通用性要求更高的泛服務(wù)和家庭場景,所以這兩方面是極佳當(dāng)前的主攻方向。不過客觀來講,具身智能確實更有可能會在工業(yè)場景和娛樂場景兩個領(lǐng)域率先商業(yè)化落地。

“商業(yè)化落地的原則是優(yōu)先選擇其中約束條件明確、技術(shù)難度相對較低的場景進(jìn)行突破。” 毛繼明表示。工業(yè)場景因為有很多約束條件在,可以使得企業(yè)有些辦法走捷徑,繞開一些通用性、泛化性問題,所以被認(rèn)為是最有可能率先實現(xiàn)突破的領(lǐng)域。

同時,娛樂場景也被視為一個快速的突破口。“娛樂方向我的判斷它需要像商業(yè)化場景那么嚴(yán)肅,所以有可能通過其他的點打動消費者,進(jìn)而形成商業(yè)化的閉環(huán)。” 毛繼明說。

回顧過去三年的投資演進(jìn),從“看人投團隊”到“看demo投項目”再到“看落地”,資本的理性回歸正在推動行業(yè)回歸技術(shù)本質(zhì)。

雖然當(dāng)前的融資繁榮與實際能力之間存在巨大差距,但正如大語言模型經(jīng)歷了從GPT-1到GPT-3的跨越式發(fā)展,具身智能也必將在解決技術(shù)路線過程中,逐步接近“通用”時刻。

       原文標(biāo)題 : 模型、數(shù)據(jù)、落地之爭:具身智能來到“破曉”時刻

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號