訂閱
糾錯
加入自媒體

做大腦、推新品、擴量產(chǎn),稚暉君的智元想“活”成什么樣?

圖片

智元正踐行:以大腦為驅(qū)動,通過“一腦多形”快速部署于多種形態(tài)本體;以產(chǎn)品矩陣撬動多場景落地,挖掘更多應(yīng)用可能性;以量產(chǎn)滿足需求,提速具身智能走近物理世界的腳步。

 

作者:呂鑫燚

 編輯:狄鑫彤

出品:具身研習社

 

“稚暉君”神神秘秘預(yù)告要發(fā)布“好東西”后,智元機器人仿佛按下了“加速鍵”,帶來了不止一個新東西,但“夠不夠好”還要靜待時間給出答案。

 

首先,智元機器人發(fā)布了首個通用具身基座大模型“智元啟元大模型”(Genie Operator-1),該大模型主打四個優(yōu)勢,基于人類視頻學習;小樣本快速泛化;一腦多形;持續(xù)進化。

 

緊接著,稚暉君更新視頻,正式發(fā)布雙足智能交互人形機器人靈犀X2,能像人一樣自然走路,甚至能騎自行車、踩滑板車。搭載了多模態(tài)交互大模型“硅光動語”,通過視覺理解和認知世界,可以做到與人進行無縫流暢的交互。

 

據(jù)稚暉君透露,靈犀X2研發(fā)了三個月,視頻準備了一個月,是迄今為止最復(fù)雜的項目。

 

或許該項目的復(fù)雜點在于團隊對靈犀X2的創(chuàng)新思考。為了尋找創(chuàng)新性,團隊“套用”了魯迅先生的思想,基于“從來如此,便對嗎?”的想法,想一改機器人外表“鋼筋鐵骨”的固有形態(tài),甚至考慮過使用化妝的美妝蛋作為材料。不過,最終還是選擇了親和的柔性材料。

 

圖片

圖片來源:稚暉君

 

做大腦、推新品、宣布1000臺機器人下線,智元機器人破圈動作頻頻,仿佛距離宇樹科技的曝光度只差一個秧歌節(jié)目了。

 

然而上述舉措只是智元對外輸出的“表象”,其背后指向的是智元機器人在創(chuàng)始人稚暉君“天才少年”標簽背后,打磨無限生產(chǎn)力的故事。以大腦為驅(qū)動,通過“一腦多形”快速部署于多種形態(tài)本體,讓機器人更聰明;以產(chǎn)品矩陣撬動多場景落地,挖掘更多應(yīng)用可能性;以量產(chǎn)滿足需求,提速具身智能走近物理世界的腳步。

 

構(gòu)想足夠性感,但智元機器人的東西“好”到能支撐嗎?

 

圖片

做一個能自主進化的大模型

 

機器人公司,你如果不做大模型,那是屬于沒有未來的機器人。智元新創(chuàng)技術(shù)有限公司研究院執(zhí)行院長、具身業(yè)務(wù)部總裁姚卯青說道。在姚卯青看來,沒有智能化”支持、沒有作業(yè)能力只是硬件,機器人能做的事情非常有限。

 

具體來看,“大模型”智能化高低決定的是人形機器人理解物理世界的程度和落地技能的水平。但這份“高低”也正是當下產(chǎn)業(yè)發(fā)展的瓶頸。

 

由于“大腦”智能化受限,導致其泛化能力差,使得人形機器人在新場景的成功率大幅下降;不同本體的數(shù)據(jù)難以共用,致使數(shù)據(jù)采集成本高;模型自身無法實現(xiàn)持續(xù)進化,迭代速度較慢。

 

為了解決上述瓶頸各家都找了多種技術(shù)路線的解決方法,例如通過分層端到端模型訓練的方式,集百家所長提升泛化能力;推出具身操作算法,通過視頻生成大模型進行后訓練,基于全過程零真機樣本數(shù)據(jù),實現(xiàn)多平臺泛化等。

 

智元機器人的GO-1也是延續(xù)上述脈絡(luò)而誕生的。

 

據(jù)智元機器人方面介紹,其提出了Vision-Language-Latent-Action(ViLLA)架構(gòu),由多模態(tài)大模型(VLM)與混合專家模型(MoE)組成,彌合視覺、語言與動作之間的鴻溝。

 

基于ViLLA架構(gòu),GO-1大模型結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進行學習,可以更好地理解物理世界;在極少數(shù)據(jù)甚至零樣本下,實現(xiàn)技能泛化到新場景、新任務(wù),降低了具身模型的使用門檻及訓練成本;支持不同機器人形態(tài)間遷移,適配到不同本體搭配智元數(shù)據(jù)回流系統(tǒng),從實際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進化學習

 

舉個例子,機器人得到用戶下達的“掛衣服”指令后,大模型工作任務(wù)流為:根據(jù)眼前的畫面,理解用戶指令對應(yīng)的任務(wù)要求,然后調(diào)動訓練時學習過的掛衣服視頻,自動設(shè)想掛衣服涉及到的操作步驟,最后執(zhí)行并完成。

 

圖片

圖片來源:智元機器人

 

GO-1大模型加持下,機器人能用更低成本學得更快,用較小的數(shù)據(jù)量掌握更泛化的能力,且能快速部署在不同身體中,并在實際應(yīng)用中持續(xù)進化自主學習。這是一套較為完整的大模型解決方案路線,形成了“數(shù)據(jù)-泛化-成本-進化”的自驅(qū)動發(fā)展閉環(huán)。

 

據(jù)智元機器人官方表示,GO-1大模型在測試中取得了較為不錯的成績,但究竟有幾斤幾兩還需等待真機部署實地打工時刻之際見分曉。

 

將視角放大,實際上智元機器人做大模型這件事,有兩個標桿性的意義。

 

其一,整機廠現(xiàn)階段仍依賴于GPT等大模型,其發(fā)展較為被動,通用大模型或行業(yè)大模型和人形機器人的適配度有限,成為人形機器人更聰明進化的掣肘;

 

其二,大摩的報告清晰可見國內(nèi)在大模型的短板,這條彎道超車的機會不僅留給了大模型創(chuàng)企,還留給了整機廠,機會導向的是中國在人形機器人領(lǐng)域再下一城。

 

圖片

踩自行車而來,跟你做一次情感交流

 

無論是設(shè)計語言還是主打特點,靈犀X2和其前輩靈犀X1都有些差別。

 

回顧一下靈犀X1,其采用串并聯(lián)混合構(gòu)型手臂和差分驅(qū)動雙肩關(guān)節(jié)設(shè)計整臂重量為2.5kg。基于智元X-Lab自研的PowerFlow兩款模塊化關(guān)節(jié),全身實現(xiàn)了三十多個主動自由度。

 

圖片

圖片來源:智元機器人

 

從外觀上來看,靈犀X1看起來還有些“僵硬”,直角肩的形態(tài)和橢圓形的腦部構(gòu)型,仿佛缺少了點溫度。畢竟靈犀系列面向To C市場,聚焦的是養(yǎng)老方向。當該系列以“養(yǎng)老伙伴”角色出現(xiàn)在日常生活中,或許更具親和力的外表能提高人類對于機器人的接受度。

 

而這也是靈犀X2做得最多改變的地方。

 

從外表來看,靈犀X2采用柔性材料外殼,能做到更抗摔。“圓滾滾”的上半身,還做到了細微起伏的“呼吸感”,看起來更具“柔和感”;趧幼髂B(tài)集成至模型中,靈犀X2學會了人類的小動作,如暗中觀察、坐下的時候偷偷蕩腿、走路時胳膊自由擺動甚至還“到處扣扣”。

 

這些小動作仿佛讓靈犀X2多了幾分生命力,也更貼合一個“養(yǎng)老伙伴”的角色。當然,稚暉君給其的定位已經(jīng)不再局限于“養(yǎng)老”而是“吉祥三寶”。

 

從技術(shù)路線來看,靈犀X2全身擁有28個自由度,未使用任何并聯(lián)結(jié)構(gòu)。配備小腦控制器Xyber-Edge、域控制器Xyber-DCU、智能電源管理系統(tǒng)Xyber-BMS及核心關(guān)節(jié)模組Powerflow等核心組件通過結(jié)合深度強化學習和模仿算法學習,靈犀X2展現(xiàn)了走路、奔跑、轉(zhuǎn)身、踩滑板車、玩平衡車、騎自行車等高難度動作

 

圖片

圖片來源:稚暉君

 

交互能力方面,靈犀X2搭載了基于VLM的多模態(tài)交互大模型硅光動語,能通過人類的面部表情和語音語調(diào)精準判斷情感狀態(tài),并做出相應(yīng)的回應(yīng)。在回答“你和狗狗同時掉進水里,我應(yīng)該先救誰”的時候,靈犀X2也會迅速給出答案“先救狗狗”。此外,靈犀X2能通過遠程裸眼3D交流,不過當人臉圖片出現(xiàn)在其腦部顯示屏幕的時候,多少有點“恐怖谷效應(yīng)”。

 

相比于靈犀X1作為彩蛋,出現(xiàn)在聚光燈照射下的線下發(fā)布會,靈犀X2的發(fā)布略顯簡單,一支不到13分鐘在辦公室完成的視頻里,稚暉君通過三大維度講述了這款靈犀X2的技能點和團隊思考。雖然簡單但足夠有料,也確實和市面上其他人形機器人產(chǎn)品呈現(xiàn)出不一樣的技能點。

 

而且在辦公室跑來跑去的靈犀X2,和稚暉君娓娓道來的講述,也更符合外界對于這位“天才少年”的印象。

 

但值得一提的是,該視頻發(fā)布后出現(xiàn)了不同的聲音,部分業(yè)內(nèi)人士認為這支視頻很難服眾。靈犀X2騎自行車的片段只有中間騎行部分,沒有上車、下車的部分,很容易聯(lián)想到稚暉君當年能研發(fā)出自動駕駛自行車技能。是真靈犀X2在騎自行車,還是自行車自己動,或許還要看智元接下來如何回應(yīng)。

 

圖片

智元想“活”成什么?

 

2024年,智元搞出過最大的動靜就是“開源”。

 

其一,智元機器人開源了百萬真機數(shù)據(jù)集AgiBot World,該數(shù)據(jù)集是全球首個全功能、全場景、高質(zhì)量的人形機器人百萬真機數(shù)據(jù)集,100多種數(shù)據(jù)中,家居占40%、餐飲20%、工業(yè)20%、商超10%以及辦公場景10%,其中80%的任務(wù)均為長程任務(wù)。

 

其二,靈犀X1面向全球正式開源,軟硬件全套圖紙和代碼上線到GitHub,開發(fā)指南上線至智元機器人官網(wǎng)。

 

開源是促動行業(yè)整體前行的重要路徑之一,通過前輩的成熟經(jīng)驗為后來者鋪路,避免行業(yè)參與者陷入重復(fù)造輪子,消耗大量時間和資金成本。小鵬汽車創(chuàng)始人何小鵬在分享自家機器人時,也曾表示,沒有500億做不好機器人。

 

此外,在成熟經(jīng)驗基礎(chǔ)上前行能在短時間內(nèi)形成技術(shù)差異化路線,避免產(chǎn)業(yè)陷入同質(zhì)化發(fā)展。開源的成功案例早在四足機器狗身上上演過,當年MIT開源四足機器狗技術(shù)成果后,加速了四足機器人的產(chǎn)業(yè)化進程,國內(nèi)外涌現(xiàn)了一批優(yōu)秀四足機器人企業(yè)。

 

實際上,開源并不是智元機器人必須完成的任務(wù),也沒有義務(wù)分享技術(shù)推動平權(quán)。從這一點可見,或許智元想做的不只是一家機器人公司,如果以后視鏡來看其或許想成為“集大成者”,建立多維度商業(yè)壁壘,成為中國具身智能繞不開的核心玩家。

 

但這條路注定困難重重。

 

首當其沖的就是智元自身要承擔大量成本,這便要求智元無論是融資能力還是自造血能力都要跟得上發(fā)展步伐。

 

畢竟,除了真機數(shù)據(jù)采集外,智元在供應(yīng)鏈上也有不少自研部分。硬件方面,自研了核心的關(guān)節(jié)模組,包括電機、減速器、編碼器等軟件方面,自研了具身智能的大腦和發(fā)布的大模型。開源了中間件、操作系統(tǒng)、AimRT。據(jù)了解,智元還在研發(fā)高自由度的靈巧手,多款產(chǎn)品在早期打樣階段。

 

多條腿走路的智元,在觸碰多種發(fā)展可能性的同時,也將比友商遇見更多困難。

       原文標題 : 做大腦、推新品、擴量產(chǎn),稚暉君的智元想“活”成什么樣?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號