訂閱
糾錯
加入自媒體

對標特斯拉Optimus,這家公司3年后要落地萬臺人形機器人

2025-04-29 14:49
星河頻率
關注

作者 | 向欣

現(xiàn)下,端到端 VLA 已成為具身智能領域公認的技術范式之一。

今年 2 月,一個可以控制人形機器人上半身,并使其識別、拾取幾乎所有家庭物品的端到端 VLA(視覺-語言-動作模型)——Helix,讓其研發(fā)公司 Figure AI 獲得投資人的熱捧。該公司目前正在進行一輪高達 15 億美元(約合人民幣108億)的融資。

其實,有一家中國企業(yè)比 Figure AI 更早提出并應用了端到端 VLA。

而且,他們最近還把 VLA 做了一次大升級。

這家企業(yè)是智平方科技。4 月 17 日,智平方科技發(fā)布了兩款新的技術成果:

具身大模型 Alpha Brain:VLA 模型全面進化版,搭載了具備從桌面到開放環(huán)境,從單臂到全身協(xié)同,從簡單任務到長程推理能力的全域全身 VLA(GOVLA)。

通用智能機器人 AlphaBot 2(愛寶 2):全身自由度 34+,無需訓練即可完成多種任務。

智平方新品最大的突破在于,把 VLA 拓展到了對人形機器人全身的控制,并且賦予了它應對多場景、多任務的能力。

從這兩個新品的發(fā)布,不難看出智平方走的是軟硬一體的路線,他們既做大模型,也做人形機器人本體。

公司也是行業(yè)中最早強調并堅持軟硬垂直整合的團隊,在技術研發(fā)方面有深度積累。

智平方成立于 2023 年 4 月,公司創(chuàng)始人郭彥東博士畢業(yè)于美國普渡大學,曾任美國微軟總部研究員、小鵬汽車首席科學家、OPPO 首席科學家,完整經歷了 PC、手機和汽車三大智能終端的創(chuàng)新周期,在 AI 與硬件的深度結合上擁有豐富的量產經驗。

在新品發(fā)布會上,智平方也提出了自己的商業(yè)化目標:2028 年實現(xiàn)機器人的萬臺場景應用,2033 年拓展至百萬臺規(guī)模。

今年以來,人形機器人商業(yè)化應用的戰(zhàn)略價值持續(xù)凸顯。誰能最先打通從模型到機器人的閉環(huán),誰就掌握了主動權。

智平方選擇了走難而正確的路——不是做 Demo,而是從一開始就向著「能用」的終局走去。

業(yè)內首次突破

新模型可控制人形機器人全身

智平方在大模型方面有兩個研究方向:端到端 VLA、空間智能模型。

端到端 VLA 是一種視覺-語言-動作模型,能夠將視覺輸入、語言指令直接輸出為動作指令。

空間智能模型則專注于空間感知、建模與推理,解決機器人在 3D 環(huán)境中的定位、導航、交互等問題。

本次發(fā)布的大模型 Alpha Brain,是這兩個技術的融合體。

Alpha Brain 由智平方原有具身大模型品牌 AI2R Brain 升級而來,它的核心構成是智平方全棧自研的 GOVLA 大模型(GOVLA:Global & Omni-body Vision-Language-Action)。

可以用全域、全身這兩個關鍵詞理解 GOVLA 大模型,這也是該模型的兩個重要突破:

全域:具備空間和任務的泛化能力,可以執(zhí)行從桌面到開放環(huán)境、從簡單任務到需要長程復雜推理能力的任務。

全身:可以控制從單個機械臂到機器人全身的動作。

其中,為了幫助機器人更好地實現(xiàn)對長程復雜任務的理解和分析,智平方還將 DeepSeek 的技術融入到 VLA 大模型的構建過程中。

在機器人領域,多數 VLA 僅支持 6-7 自由度的單臂控制,動作范圍固定,覆蓋桌面等單一場景,主要適配抓取、放下等簡單的任務。

由于人形機器人自由度更高,一般為 20~60 個,關節(jié)數量多,全身協(xié)同動作復雜,運動控制難度更高,且獲取訓練數據也更困難,如何將 VLA 模型部署于人形機器人,并進行有效訓練,使其具備完成任務的能力一直是具身大模型的難點。

此前美國人形機器人獨角獸 Figure AI 發(fā)布的 Helix 模型,就是實現(xiàn)了對人形機器人整個上半身的控制,可協(xié)調 35 個自由度,故而在具身智能領域引起轟動,也獲得了投資人的高度關注。

Helix 應用于 Figure 人形機器人,整理家庭物品但 Figure AI 在視頻中展示的收納食品、分揀物流的操作任務也限于桌面,未能展現(xiàn)跨區(qū)域的移動能力。

GOVLA 大模型更進一步,首次提出了輸出全身控制和移動軌跡。

意思就是,GOVLA 大模型可控制人形機器人全身的動作,并根據任務需求在不同區(qū)域進行移動,不僅限于桌面。

郭彥東博士舉了一個機器人做早餐的例子:

搭載常規(guī) VLA 大模型的機器人,需要人把食材放到桌面,放到機器人的可視范圍內,因為它只能看到桌面,只能在桌面操作,做完之后還需要人去給機器人提供服務。

而搭載 GOVLA 大模型的機器人能夠 360°感知周圍環(huán)境,可以自己去冰箱取食材,自己配比健康早餐,做完之后還可以送到餐桌,完成一個管家的全流程服務。這是一個機器人管家和一個自動化設備的最大的區(qū)別。

在架構層面,GOVLA 大模型由空間交互基礎模型、慢系統(tǒng)和快系統(tǒng)三部分組成,雙系統(tǒng)分工協(xié)作:

空間交互基礎模型:接收、處理環(huán)境信息;

慢系統(tǒng) System2:負責復雜邏輯推理、任務拆解,輸出語言交互內容;

快系統(tǒng) System1:輸出機器人全身控制動作與移動軌跡,兼顧實時響應與復雜決策能力。

這種架構與 Figure AI 的 Helix 模型存在共通之處,Helix 由兩個系統(tǒng)組成:

系統(tǒng) 2 負責「慢思考」,理解場景和語言;

系統(tǒng) 1 負責「快反應」,實時執(zhí)行和調整行動。

Figure AI Helix 模型架構

不同之處在于,智平方的 GOVLA 大模型將環(huán)境信息感知、處理這一功能分給了空間交互基礎模型,提升環(huán)境信息處理的獨立性,以應對多樣化的復雜環(huán)境。

雖然 GOVLA 的架構與 Helix 相似,但端到端 VLA 這一技術架構,其實由智平方更早提出。

其實,在模型研發(fā)中,前瞻性是智平方一貫以來的特點。

端到端 VLA 成為具身智能領域的技術范式,由兩個關鍵性事件推動。

一是 2024 年 6 月,美國具身智能公司 Physical Intelligence(PI)聯(lián)合斯坦福大學等高校與機構,發(fā)布了端到端 VLA 模型 OpenVLA。

OpenVLA 是一個開源模型,加速了技術的擴散。

二是 2024 年 10 月,PI 發(fā)布了新模型π0,π0 讓機械臂成功執(zhí)行了疊衣服的任務,實現(xiàn)了對衣物這種柔軟、易形變的復雜對象的操作,以及長程任務的處理。

自此具身智能大模型的技術路線開始向端到端 VLA 方向收斂。

在端到端 VLA 方向上,智平方先于 PI 以及 Figure AI,聯(lián)合北京大學,在 2024 年 6 月發(fā)布了端到端 VLA 模型 RoboMamba。

RoboMamba 不僅比 OpenVLA 更早發(fā)表并公開應用,還在未見任務(指模型從未接觸過的全新任務類型或場景)的泛化能力上顯著超越 Google 的 RT 系列模型。

在智平方的另一模型研發(fā)方向:空間智能上,智平方也領先于行業(yè)。

空間智能這一技術是在 2024 年 4 月,「AI 教母」李飛飛成立了聚焦空間智能研發(fā)的 World Labs 后才獲得廣泛關注。

而智平方早在 2023 年初就開始布局,經過一年多發(fā)展,其研發(fā)的空間感知基礎模型在多個任務上超越了硅谷頭部企業(yè)的 SOTA 模型。

憑借前瞻性布局與全棧自研能力,智平方正在把人形機器人從單一場景中的「能動手」帶向多場景「會服務」的新階段。

機器人無需訓練

即可干活 8 年后要落地百萬臺

隨著機器人任務邊界持續(xù)拓展、應用場景日益多元,各行業(yè)對其智能性、泛化能力與實時響應提出了更高要求。

機器人系統(tǒng)復雜性不斷提升,軟硬件之間的協(xié)同程度也越來越高。

相比過去單項技術的獨立突破,如今的具身智能發(fā)展更依賴于軟硬件深度融合!杠浻惨惑w」正逐漸成為具身智能企業(yè)的發(fā)展趨勢。

一個典例就是,F(xiàn)igure AI 在今年 2 月宣布與為其提供模型方面技術支持的 Open AI 終止合作。

Figure AI 創(chuàng)始人表示,終止合作的原因之一是公司意識到必須要垂直整合機器人的軟硬件系統(tǒng),他們無法將模型交給外部企業(yè)來完成。

與自動駕駛不同,只做軟件,對于尚未形成標準化產品的具身智能機器人,尤其是人形機器人來說,存在硬件適配、實時控制和數據閉環(huán)上的深度耦合問題。

實現(xiàn)軟硬件高度協(xié)同,不僅是提升性能的關鍵,也是企業(yè)實現(xiàn)規(guī);涞氐幕A。

因此,智平方在研發(fā)大模型時,也同步研發(fā)人形機器人本體。

智平方一共推出過三代通用智能機器人,分別是 Alpha Bot、Alpha Bot 1S、AlphaBot 2,均為輪式可升降人形機器人。

在 2024 世界機器人大會期間,Alpha Bot 1S 在現(xiàn)場進行了工作、生活場景的真實演示,能夠精準放置零件、為人提供咖啡。

最新發(fā)布的 AlphaBot 2 較前代有了更大的提升:

靈活度:全身自由度 34+

續(xù)航:可連續(xù)工作 6h+

操作范圍:采用腰腿升降結構,垂直工作范圍 0-2.4m,單臂臂展 70cm(不含末端夾具)

感知能力:360°×360°全空間探測感知

AlphaBot 2 最大的亮點在于其操作、學習能力的提升。

機器人無需訓練即可完成多種任務,可快速掌握新任務,適應各種變化,適配汽車制造、半導體制造、公共服務、生物科技等多樣化任務。

在智平方發(fā)布的視頻中,AlphaBot 2 與人交流,并通過人類的肢體動作理解其意圖,完成泡茶、準備文房四寶等家庭場景中的任務。

例如當人說「我渴了」,機器人會推薦喝茶,并且根據時令推薦茶品,或是通過人的搖頭、點頭動作意識到肯定與否定的態(tài)度,從而改變自己的策略。

除了遠期要落地的家庭場景,智平方的智能機器人目前主要面向「汽車+半導體+生物科技」三大核心制造場景。

在汽車制造場景,AlphaBot 直接對標特斯拉 Optimus,拿下國際頭部車企訂單。

在半導體制造場景,今年 3 月,智平方與吉利科技旗下晶能微電子達成戰(zhàn)略合作,在晶能微電子的智能化半導體生產基地,AlphaBot 可執(zhí)行上下料、產線間物料轉運等任務。今年雙方將推動 AlphaBot 系列在半導體制造場景的大規(guī)模使用。

在生物科技領域,智平方宣布與全球生物科技龍頭華熙生物戰(zhàn)略合作。智平方機器人未來將在華熙生物的工廠實現(xiàn)物料協(xié)同轉運、智能拆包消毒、智能視覺檢驗、多物料協(xié)同智能供料等操作。機器人可替代人工,避免交叉污染,降低微生物污染的風險。

智平方曾在今年 1 月宣布已獲得大量商業(yè)訂單,并于 2024 年實現(xiàn)數千萬確認收入,成為國內最早進行商業(yè)推廣的通用智能機器人公司。

此外,智平方機器人還計劃在今年第三、四季度分別進入機場、社區(qū)(示范小區(qū))等公共服務場景,為大眾提供服務。

為了實現(xiàn)多場景落地的目標,智平方已啟動自有產線建設,并給出了一個具體的階段性商業(yè)化目標:

2028 年實現(xiàn)萬臺場景應用;

2030 年力爭為南山區(qū)產值貢獻一個百分點;

2033 年拓展至百萬臺規(guī)模,覆蓋工業(yè)、物流、家庭服務等多元化場景。

3 年后實現(xiàn)萬臺落地,8 年后實現(xiàn)百萬臺應用,這樣的量產目標,不僅需要企業(yè)具備強大的制造與交付能力,也要擁有高效部署產品,搭建產品運維體系的能力。

智平方團隊在成熟的量產級端側部署經驗豐富,曾支撐數億智能終端(涵蓋車機、手機、IoT 等)的穩(wěn)定本地運行,并與國內外主流芯片廠商深度合作,具備跨平臺高性能部署能力,可適配不同算力的芯片環(huán)境。

近年來,從國外 Figure AI 的高額融資到國內各家展示機器人超強運動性能的視頻刷屏,具身智能正在成為全球科技圈的流量熱點。

具身智能并不缺熱鬧,缺的是系統(tǒng)性的解法。

智平方沒有停留在秀模型能力、或是硬件性能的階段,而是選擇同步構建具身智能的底座,打造一套從感知到控制、從軟件到硬件的工程體系。

他們沒有被某一類示范效應牽著走,而是用自研模型和機器人硬件的逐步提升,試著把人形機器人從設想推向現(xiàn)實。

從行業(yè)角度看,智平方不是最早進入公眾視野的公司,卻可能是少數幾個走在正確軌道上的團隊。

       原文標題 : 對標特斯拉Optimus,這家公司3年后要落地萬臺人形機器人

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號