訂閱
糾錯(cuò)
加入自媒體

從小米的端到端看自動(dòng)駕駛物理世界如何建模

小米的智能駕駛和小米銷(xiāo)量一樣是中國(guó)智能汽車(chē)中發(fā)展最快的,從2021年立項(xiàng),到2024年3月28日小米Su 7,帶著高速領(lǐng)航上市;半年之后的9月份,小米的城區(qū)領(lǐng)航上市;到2025年現(xiàn)在開(kāi)始內(nèi)測(cè)車(chē)位到車(chē)位智駕駛。不管小米智能駕駛目前體驗(yàn)性能體驗(yàn)如何,但不可否認(rèn)小米的智能駕駛的功能成長(zhǎng)速度是最快的。

最近的GTC 2025 上小米汽車(chē)自動(dòng)駕駛與機(jī)器人部楊奎元,表示“小米在2024年智能駕駛上實(shí)現(xiàn)了一年追三代的快速追趕,從基于高精地圖模塊化架構(gòu)到去高精地圖模塊化架構(gòu)再到端到端架構(gòu)。” 同時(shí)他也介紹了小米在端到端方面的一些實(shí)踐。所以本文,根據(jù)楊奎元在GTC 2025 的演講內(nèi)容,探討端到端算法的物理世界如何建模,也希望探討下當(dāng)前智能駕駛端到端到底有幾段。

“三層建模”架構(gòu)的物理世界模型數(shù)據(jù)觀測(cè)層Ot作為神經(jīng)網(wǎng)絡(luò)的輸入層,也就是傳感器輸入的包含了圖像、激光雷達(dá)點(diǎn)云以及領(lǐng)航功能所需要的導(dǎo)航信息等。隱式特征層Zt,上一步輸入層的信息,通過(guò)BEV編碼網(wǎng)絡(luò)得到隱私的特征表達(dá),通過(guò)不同的解碼器可以分別得到:動(dòng)態(tài)元素,其他交通參與者,其中動(dòng)態(tài)元素在場(chǎng)景中分布較為稀疏局部且不同個(gè)體運(yùn)動(dòng)狀態(tài)不同,需要單獨(dú)維護(hù)各自的歷史信息,小米智駕使用帶有memory的Sparse方案進(jìn)行建模靜態(tài)元素,道路標(biāo)志,設(shè)施,障礙物等,靜態(tài)元素則相反,直接采用Dense方案進(jìn)行建模。自車(chē)的未來(lái)軌跡,根據(jù)車(chē)輛的速度,IMU方位等信息得出自己車(chē)輛的運(yùn)動(dòng)軌跡。 顯示符號(hào)層St,就是為了方便人理解以及對(duì)接人工規(guī)則代碼,模型會(huì)解碼出顯示的符號(hào)表達(dá),如靜態(tài)的車(chē)道線、斑馬線等,動(dòng)態(tài)的行人、車(chē)輛等,這些也是監(jiān)督學(xué)習(xí)中人工增值標(biāo)注或者自動(dòng)化增值標(biāo)注的表達(dá)形式。

有了這“三層建模”這樣就形成對(duì)當(dāng)前場(chǎng)景的理解,用于未來(lái)的決策規(guī)劃。不過(guò),這種“三層建模”只是一種粗粒度的劃分和表達(dá),每一層內(nèi)部還可以細(xì)化為更多的層。比如圖像金字塔中的多層分辨率圖像,深度神經(jīng)網(wǎng)絡(luò)中不同隱層的特征表示等。最后可能車(chē)輛輸出的運(yùn)動(dòng)軌跡只是充分考慮了動(dòng)靜態(tài)信息之后解碼生成,最終通過(guò)人工設(shè)計(jì)的cost,如和其他障礙物計(jì)算的碰撞cost、和車(chē)道線計(jì)算的偏離車(chē)道cost、橫縱向Jerk計(jì)算的舒適性cost,用于約束軌跡的合理性。

整個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練由人工定義也就是規(guī)則定義的最后一層的loss曲度,包含靜態(tài)和動(dòng)態(tài)的元素和真值之間的差異、自車(chē)軌跡模仿廉價(jià)軌跡的差異以及人工設(shè)計(jì)的多個(gè)cost,輸出運(yùn)動(dòng)軌跡來(lái)控車(chē)。物理世界模型的建模方法設(shè)定好了模型架構(gòu),那么建模就是打通數(shù)據(jù)驅(qū)動(dòng)渠道,讓模型能夠在數(shù)據(jù)驅(qū)動(dòng)下自動(dòng)輸出真實(shí)的需要的結(jié)論,形成數(shù)據(jù)驅(qū)動(dòng)飛輪。三層分別建模的多段式端到端數(shù)據(jù)觀測(cè)層典型的輸入就是各家常說(shuō)的多少Clips視頻流,但不少corner case或者長(zhǎng)尾場(chǎng)景,和感知造環(huán)的閉環(huán)仿真評(píng)測(cè)需要采用生成數(shù)據(jù)訓(xùn)練。目前已經(jīng)有很多相對(duì)成熟的AI技術(shù)可以使用,如3DGS重建技術(shù)、diffusion auto regression生成技術(shù),典型的工具有open AI的Sara、Deepmind 的 Journey 到英偉達(dá)的Cosmos的這些視覺(jué)生成大模型。

通過(guò)直接擬合原始數(shù)據(jù)的概率分布加上額外使用逆時(shí)針圖像隱私特征顯示符號(hào)等控制條件,可以進(jìn)行原始信號(hào)的生成。當(dāng)前這些模型目前生成速度較慢主要在云端仿真物理世界。這些生成模型通常也需要使用隱私特征但主要側(cè)重于傳感器細(xì)節(jié)信號(hào)的恢復(fù),在理解任務(wù)上性能欠佳。于是最近也有些工作開(kāi)始嘗試同時(shí)用于生成和理解的隱私特征空間。隱式特征層,在智能駕駛領(lǐng)域目前還沒(méi)有成熟的基座模型可以用于生成穩(wěn)定的特征表達(dá)。

顯示符號(hào)層類(lèi)似自然語(yǔ)言表達(dá)人工可以直接編碼操作,借助人類(lèi)對(duì)物理世界已經(jīng)具備的建模能力,可以通過(guò)規(guī)則代碼的方式和模型結(jié)合完成持續(xù)上的建模,如互助理經(jīng)常使用的運(yùn)動(dòng)學(xué)模型如勻速模型云加速模型等,規(guī)控常用的軌跡采樣搜索和優(yōu)化等,在端到端范式中顯示符號(hào)層也可以用于顯示定義cost對(duì)應(yīng)強(qiáng)化學(xué)習(xí)中的reward驅(qū)動(dòng)策略學(xué)習(xí),另外受大模型scaling law啟發(fā),清華趙航教授和理想合作的state Transformer、蘋(píng)果的self play(這就是之前網(wǎng)絡(luò)上說(shuō)蘋(píng)果沒(méi)有放棄自動(dòng)駕駛的信息)等工作在顯示符號(hào)層通過(guò)增大數(shù)據(jù)量也驗(yàn)證了scaling law對(duì)自駕任務(wù)的有效性。

三層聯(lián)合持續(xù)建模的一段式端到端在云端訓(xùn)練模型時(shí),輸入錄制車(chē)輛傳感器的未來(lái)幀數(shù)據(jù)則可以用于提供模型訓(xùn)練的自監(jiān)督信號(hào)。將中間的隱式特征層在持續(xù)維度上拓展到未來(lái)幀。形成完整的時(shí)空神經(jīng)網(wǎng)絡(luò)模型統(tǒng)一由數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí),配上顯示符號(hào)層的模型,一起也就是形成了一段式模型。但是,由于自動(dòng)駕駛環(huán)境的動(dòng)靜態(tài)元素在未來(lái)中的變化方式不同:靜態(tài)元素的變化主要和自車(chē)運(yùn)動(dòng)相關(guān)。動(dòng)態(tài)元素的變化由他們各自的運(yùn)動(dòng)和自作運(yùn)動(dòng)共同決定。因此,推測(cè)這種一段式三層聯(lián)合建模,也會(huì)分出兩個(gè)模型,一個(gè)動(dòng)態(tài)物體模型,一個(gè)是靜態(tài)模型。總結(jié)以上為理論建模,但實(shí)際工程落地更為復(fù)雜,需要考慮算力平臺(tái)優(yōu)化,模型精簡(jiǎn)等。所以,楊奎元還分享了部分工程化實(shí)踐,例如:

云端訓(xùn)練加速英偉達(dá)平臺(tái)優(yōu)化:推理Pipeline重構(gòu)(利用率↑100%)、CV庫(kù)優(yōu)化(GPU利用率↑30%)。模型架構(gòu)精簡(jiǎn):利用數(shù)據(jù)稀疏性、2D-3D幾何關(guān)系減少冗余計(jì)算。車(chē)端部署優(yōu)化異構(gòu)計(jì)算:圖像前處理遷移至Vic SP/NV Encode單元。算子加速:耗時(shí)算子優(yōu)化20-40%,Orin平臺(tái)性能翻倍。等工程化落地實(shí)踐。最后,以上為基于小米楊奎元的演講推測(cè)一段式和幾段式端到端,可能有錯(cuò)誤,歡迎懂行留言討論。未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:

端到端全場(chǎng)景智能駕駛 - 小米 楊奎元 GTC 2025 演講PDF

       原文標(biāo)題 : 從小米的端到端看自動(dòng)駕駛物理世界如何建模

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)