從小米的端到端看自動(dòng)駕駛物理世界如何建模
小米的智能駕駛和小米銷(xiāo)量一樣是中國(guó)智能汽車(chē)中發(fā)展最快的,從2021年立項(xiàng),到2024年3月28日小米Su 7,帶著高速領(lǐng)航上市;半年之后的9月份,小米的城區(qū)領(lǐng)航上市;到2025年現(xiàn)在開(kāi)始內(nèi)測(cè)車(chē)位到車(chē)位智駕駛。不管小米智能駕駛目前體驗(yàn)性能體驗(yàn)如何,但不可否認(rèn)小米的智能駕駛的功能成長(zhǎng)速度是最快的。
最近的GTC 2025 上小米汽車(chē)自動(dòng)駕駛與機(jī)器人部楊奎元,表示“小米在2024年智能駕駛上實(shí)現(xiàn)了一年追三代的快速追趕,從基于高精地圖模塊化架構(gòu)到去高精地圖模塊化架構(gòu)再到端到端架構(gòu)。” 同時(shí)他也介紹了小米在端到端方面的一些實(shí)踐。所以本文,根據(jù)楊奎元在GTC 2025 的演講內(nèi)容,探討端到端算法的物理世界如何建模,也希望探討下當(dāng)前智能駕駛端到端到底有幾段。
“三層建模”架構(gòu)的物理世界模型數(shù)據(jù)觀測(cè)層Ot作為神經(jīng)網(wǎng)絡(luò)的輸入層,也就是傳感器輸入的包含了圖像、激光雷達(dá)點(diǎn)云以及領(lǐng)航功能所需要的導(dǎo)航信息等。隱式特征層Zt,上一步輸入層的信息,通過(guò)BEV編碼網(wǎng)絡(luò)得到隱私的特征表達(dá),通過(guò)不同的解碼器可以分別得到:動(dòng)態(tài)元素,其他交通參與者,其中動(dòng)態(tài)元素在場(chǎng)景中分布較為稀疏局部且不同個(gè)體運(yùn)動(dòng)狀態(tài)不同,需要單獨(dú)維護(hù)各自的歷史信息,小米智駕使用帶有memory的Sparse方案進(jìn)行建模靜態(tài)元素,道路標(biāo)志,設(shè)施,障礙物等,靜態(tài)元素則相反,直接采用Dense方案進(jìn)行建模。自車(chē)的未來(lái)軌跡,根據(jù)車(chē)輛的速度,IMU方位等信息得出自己車(chē)輛的運(yùn)動(dòng)軌跡。 顯示符號(hào)層St,就是為了方便人理解以及對(duì)接人工規(guī)則代碼,模型會(huì)解碼出顯示的符號(hào)表達(dá),如靜態(tài)的車(chē)道線、斑馬線等,動(dòng)態(tài)的行人、車(chē)輛等,這些也是監(jiān)督學(xué)習(xí)中人工增值標(biāo)注或者自動(dòng)化增值標(biāo)注的表達(dá)形式。
有了這“三層建模”這樣就形成對(duì)當(dāng)前場(chǎng)景的理解,用于未來(lái)的決策規(guī)劃。不過(guò),這種“三層建模”只是一種粗粒度的劃分和表達(dá),每一層內(nèi)部還可以細(xì)化為更多的層。比如圖像金字塔中的多層分辨率圖像,深度神經(jīng)網(wǎng)絡(luò)中不同隱層的特征表示等。最后可能車(chē)輛輸出的運(yùn)動(dòng)軌跡只是充分考慮了動(dòng)靜態(tài)信息之后解碼生成,最終通過(guò)人工設(shè)計(jì)的cost,如和其他障礙物計(jì)算的碰撞cost、和車(chē)道線計(jì)算的偏離車(chē)道cost、橫縱向Jerk計(jì)算的舒適性cost,用于約束軌跡的合理性。
整個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練由人工定義也就是規(guī)則定義的最后一層的loss曲度,包含靜態(tài)和動(dòng)態(tài)的元素和真值之間的差異、自車(chē)軌跡模仿廉價(jià)軌跡的差異以及人工設(shè)計(jì)的多個(gè)cost,輸出運(yùn)動(dòng)軌跡來(lái)控車(chē)。物理世界模型的建模方法設(shè)定好了模型架構(gòu),那么建模就是打通數(shù)據(jù)驅(qū)動(dòng)渠道,讓模型能夠在數(shù)據(jù)驅(qū)動(dòng)下自動(dòng)輸出真實(shí)的需要的結(jié)論,形成數(shù)據(jù)驅(qū)動(dòng)飛輪。三層分別建模的多段式端到端數(shù)據(jù)觀測(cè)層典型的輸入就是各家常說(shuō)的多少Clips視頻流,但不少corner case或者長(zhǎng)尾場(chǎng)景,和感知造環(huán)的閉環(huán)仿真評(píng)測(cè)需要采用生成數(shù)據(jù)訓(xùn)練。目前已經(jīng)有很多相對(duì)成熟的AI技術(shù)可以使用,如3DGS重建技術(shù)、diffusion auto regression生成技術(shù),典型的工具有open AI的Sara、Deepmind 的 Journey 到英偉達(dá)的Cosmos的這些視覺(jué)生成大模型。
通過(guò)直接擬合原始數(shù)據(jù)的概率分布加上額外使用逆時(shí)針圖像隱私特征顯示符號(hào)等控制條件,可以進(jìn)行原始信號(hào)的生成。當(dāng)前這些模型目前生成速度較慢主要在云端仿真物理世界。這些生成模型通常也需要使用隱私特征但主要側(cè)重于傳感器細(xì)節(jié)信號(hào)的恢復(fù),在理解任務(wù)上性能欠佳。于是最近也有些工作開(kāi)始嘗試同時(shí)用于生成和理解的隱私特征空間。隱式特征層,在智能駕駛領(lǐng)域目前還沒(méi)有成熟的基座模型可以用于生成穩(wěn)定的特征表達(dá)。
顯示符號(hào)層類(lèi)似自然語(yǔ)言表達(dá)人工可以直接編碼操作,借助人類(lèi)對(duì)物理世界已經(jīng)具備的建模能力,可以通過(guò)規(guī)則代碼的方式和模型結(jié)合完成持續(xù)上的建模,如互助理經(jīng)常使用的運(yùn)動(dòng)學(xué)模型如勻速模型云加速模型等,規(guī)控常用的軌跡采樣搜索和優(yōu)化等,在端到端范式中顯示符號(hào)層也可以用于顯示定義cost對(duì)應(yīng)強(qiáng)化學(xué)習(xí)中的reward驅(qū)動(dòng)策略學(xué)習(xí),另外受大模型scaling law啟發(fā),清華趙航教授和理想合作的state Transformer、蘋(píng)果的self play(這就是之前網(wǎng)絡(luò)上說(shuō)蘋(píng)果沒(méi)有放棄自動(dòng)駕駛的信息)等工作在顯示符號(hào)層通過(guò)增大數(shù)據(jù)量也驗(yàn)證了scaling law對(duì)自駕任務(wù)的有效性。
三層聯(lián)合持續(xù)建模的一段式端到端在云端訓(xùn)練模型時(shí),輸入錄制車(chē)輛傳感器的未來(lái)幀數(shù)據(jù)則可以用于提供模型訓(xùn)練的自監(jiān)督信號(hào)。將中間的隱式特征層在持續(xù)維度上拓展到未來(lái)幀。形成完整的時(shí)空神經(jīng)網(wǎng)絡(luò)模型統(tǒng)一由數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí),配上顯示符號(hào)層的模型,一起也就是形成了一段式模型。但是,由于自動(dòng)駕駛環(huán)境的動(dòng)靜態(tài)元素在未來(lái)中的變化方式不同:靜態(tài)元素的變化主要和自車(chē)運(yùn)動(dòng)相關(guān)。動(dòng)態(tài)元素的變化由他們各自的運(yùn)動(dòng)和自作運(yùn)動(dòng)共同決定。因此,推測(cè)這種一段式三層聯(lián)合建模,也會(huì)分出兩個(gè)模型,一個(gè)動(dòng)態(tài)物體模型,一個(gè)是靜態(tài)模型。總結(jié)以上為理論建模,但實(shí)際工程落地更為復(fù)雜,需要考慮算力平臺(tái)優(yōu)化,模型精簡(jiǎn)等。所以,楊奎元還分享了部分工程化實(shí)踐,例如:
云端訓(xùn)練加速英偉達(dá)平臺(tái)優(yōu)化:推理Pipeline重構(gòu)(利用率↑100%)、CV庫(kù)優(yōu)化(GPU利用率↑30%)。模型架構(gòu)精簡(jiǎn):利用數(shù)據(jù)稀疏性、2D-3D幾何關(guān)系減少冗余計(jì)算。車(chē)端部署優(yōu)化異構(gòu)計(jì)算:圖像前處理遷移至Vic SP/NV Encode單元。算子加速:耗時(shí)算子優(yōu)化20-40%,Orin平臺(tái)性能翻倍。等工程化落地實(shí)踐。最后,以上為基于小米楊奎元的演講推測(cè)一段式和幾段式端到端,可能有錯(cuò)誤,歡迎懂行留言討論。未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:
端到端全場(chǎng)景智能駕駛 - 小米 楊奎元 GTC 2025 演講PDF
原文標(biāo)題 : 從小米的端到端看自動(dòng)駕駛物理世界如何建模

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專(zhuān)題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?