亚洲成a人在线电影野外露出,久久天堂综合亚洲伊人hd

從小米的端到端看自動駕駛物理世界如何建模

2025-03-26 10:28

小米的智能駕駛和小米銷量一樣是中國智能汽車中發(fā)展最快的，從2021年立項，到2024年3月28日小米Su 7，帶著高速領(lǐng)航上市；半年之后的9月份，小米的城區(qū)領(lǐng)航上市；到2025年現(xiàn)在開始內(nèi)測車位到車位智駕駛。不管小米智能駕駛目前體驗性能體驗如何，但不可否認小米的智能駕駛的功能成長速度是最快的。

最近的GTC 2025 上小米汽車自動駕駛與機器人部楊奎元，表示“小米在2024年智能駕駛上實現(xiàn)了一年追三代的快速追趕，從基于高精地圖模塊化架構(gòu)到去高精地圖模塊化架構(gòu)再到端到端架構(gòu)。” 同時他也介紹了小米在端到端方面的一些實踐。所以本文，根據(jù)楊奎元在GTC 2025 的演講內(nèi)容，探討端到端算法的物理世界如何建模，也希望探討下當前智能駕駛端到端到底有幾段。

“三層建模”架構(gòu)的物理世界模型數(shù)據(jù)觀測層Ot作為神經(jīng)網(wǎng)絡(luò)的輸入層，也就是傳感器輸入的包含了圖像、激光雷達點云以及領(lǐng)航功能所需要的導航信息等。隱式特征層Zt，上一步輸入層的信息，通過BEV編碼網(wǎng)絡(luò)得到隱私的特征表達，通過不同的解碼器可以分別得到：動態(tài)元素，其他交通參與者，其中動態(tài)元素在場景中分布較為稀疏局部且不同個體運動狀態(tài)不同，需要單獨維護各自的歷史信息，小米智駕使用帶有memory的Sparse方案進行建模靜態(tài)元素，道路標志，設(shè)施，障礙物等，靜態(tài)元素則相反，直接采用Dense方案進行建模。自車的未來軌跡，根據(jù)車輛的速度，IMU方位等信息得出自己車輛的運動軌跡。顯示符號層St，就是為了方便人理解以及對接人工規(guī)則代碼，模型會解碼出顯示的符號表達，如靜態(tài)的車道線、斑馬線等，動態(tài)的行人、車輛等，這些也是監(jiān)督學習中人工增值標注或者自動化增值標注的表達形式。

有了這“三層建模”這樣就形成對當前場景的理解，用于未來的決策規(guī)劃。不過，這種“三層建模”只是一種粗粒度的劃分和表達，每一層內(nèi)部還可以細化為更多的層。比如圖像金字塔中的多層分辨率圖像，深度神經(jīng)網(wǎng)絡(luò)中不同隱層的特征表示等。最后可能車輛輸出的運動軌跡只是充分考慮了動靜態(tài)信息之后解碼生成，最終通過人工設(shè)計的cost，如和其他障礙物計算的碰撞cost、和車道線計算的偏離車道cost、橫縱向Jerk計算的舒適性cost，用于約束軌跡的合理性。

整個神經(jīng)網(wǎng)絡(luò)的訓練由人工定義也就是規(guī)則定義的最后一層的loss曲度，包含靜態(tài)和動態(tài)的元素和真值之間的差異、自車軌跡模仿廉價軌跡的差異以及人工設(shè)計的多個cost，輸出運動軌跡來控車。物理世界模型的建模方法設(shè)定好了模型架構(gòu)，那么建模就是打通數(shù)據(jù)驅(qū)動渠道，讓模型能夠在數(shù)據(jù)驅(qū)動下自動輸出真實的需要的結(jié)論，形成數(shù)據(jù)驅(qū)動飛輪。三層分別建模的多段式端到端數(shù)據(jù)觀測層典型的輸入就是各家常說的多少Clips視頻流，但不少corner case或者長尾場景，和感知造環(huán)的閉環(huán)仿真評測需要采用生成數(shù)據(jù)訓練。目前已經(jīng)有很多相對成熟的AI技術(shù)可以使用，如3DGS重建技術(shù)、diffusion auto regression生成技術(shù)，典型的工具有open AI的Sara、Deepmind 的 Journey 到英偉達的Cosmos的這些視覺生成大模型。

通過直接擬合原始數(shù)據(jù)的概率分布加上額外使用逆時針圖像隱私特征顯示符號等控制條件，可以進行原始信號的生成。當前這些模型目前生成速度較慢主要在云端仿真物理世界。這些生成模型通常也需要使用隱私特征但主要側(cè)重于傳感器細節(jié)信號的恢復，在理解任務(wù)上性能欠佳。于是最近也有些工作開始嘗試同時用于生成和理解的隱私特征空間。隱式特征層，在智能駕駛領(lǐng)域目前還沒有成熟的基座模型可以用于生成穩(wěn)定的特征表達。

顯示符號層類似自然語言表達人工可以直接編碼操作，借助人類對物理世界已經(jīng)具備的建模能力，可以通過規(guī)則代碼的方式和模型結(jié)合完成持續(xù)上的建模，如互助理經(jīng)常使用的運動學模型如勻速模型云加速模型等，規(guī)控常用的軌跡采樣搜索和優(yōu)化等，在端到端范式中顯示符號層也可以用于顯示定義cost對應(yīng)強化學習中的reward驅(qū)動策略學習，另外受大模型scaling law啟發(fā)，清華趙航教授和理想合作的state Transformer、蘋果的self play（這就是之前網(wǎng)絡(luò)上說蘋果沒有放棄自動駕駛的信息）等工作在顯示符號層通過增大數(shù)據(jù)量也驗證了scaling law對自駕任務(wù)的有效性。

三層聯(lián)合持續(xù)建模的一段式端到端在云端訓練模型時，輸入錄制車輛傳感器的未來幀數(shù)據(jù)則可以用于提供模型訓練的自監(jiān)督信號。將中間的隱式特征層在持續(xù)維度上拓展到未來幀。形成完整的時空神經(jīng)網(wǎng)絡(luò)模型統(tǒng)一由數(shù)據(jù)驅(qū)動學習，配上顯示符號層的模型，一起也就是形成了一段式模型。但是，由于自動駕駛環(huán)境的動靜態(tài)元素在未來中的變化方式不同：靜態(tài)元素的變化主要和自車運動相關(guān)。動態(tài)元素的變化由他們各自的運動和自作運動共同決定。因此，推測這種一段式三層聯(lián)合建模，也會分出兩個模型，一個動態(tài)物體模型，一個是靜態(tài)模型�？偨Y(jié)以上為理論建模，但實際工程落地更為復雜，需要考慮算力平臺優(yōu)化，模型精簡等。所以，楊奎元還分享了部分工程化實踐，例如：

云端訓練加速英偉達平臺優(yōu)化：推理Pipeline重構(gòu)（利用率↑100%）、CV庫優(yōu)化（GPU利用率↑30%）。模型架構(gòu)精簡：利用數(shù)據(jù)稀疏性、2D-3D幾何關(guān)系減少冗余計算。車端部署優(yōu)化異構(gòu)計算：圖像前處理遷移至Vic SP/NV Encode單元。算子加速：耗時算子優(yōu)化20-40%，Orin平臺性能翻倍。等工程化落地實踐。最后，以上為基于小米楊奎元的演講推測一段式和幾段式端到端，可能有錯誤，歡迎懂行留言討論。未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-參考資料：

端到端全場景智能駕駛 - 小米楊奎元 GTC 2025 演講PDF

原文標題 : 從小米的端到端看自動駕駛物理世界如何建模