訂閱
糾錯(cuò)
加入自媒體

端到端智能駕駛訓(xùn)練困局:連續(xù)幀真值數(shù)據(jù)缺失下的 “模型幻覺(jué)” 破局之道

2025-07-04 13:43
Robolab
關(guān)注

一、引 言 

隨著感知、決策和控制各模塊的性能逐步逼近上限,端到端學(xué)習(xí)(End-to-End Learning)在智能駕駛領(lǐng)域受到越來(lái)越多關(guān)注。端到端模型通過(guò)深度神經(jīng)網(wǎng)絡(luò)將原始傳感器輸入直接映射為駕駛控制信號(hào),減少中間模塊誤差傳播的影響,有望簡(jiǎn)化系統(tǒng)架構(gòu)、提升整體協(xié)同效率。

 

然而,現(xiàn)實(shí)中端到端方案的實(shí)際落地遠(yuǎn)未達(dá)到預(yù)期,訓(xùn)練穩(wěn)定性差、泛化能力弱、對(duì)極端場(chǎng)景響應(yīng)遲鈍等問(wèn)題頻現(xiàn)。本文將從訓(xùn)練數(shù)據(jù)角度出發(fā),聚焦一個(gè)關(guān)鍵變量:高質(zhì)量連續(xù)幀數(shù)據(jù)真值,探討它如何成為突破端到端訓(xùn)練瓶頸的核心資源。

 

圖片

端到端發(fā)展歷程

 

 

二、端到端智能駕駛訓(xùn)練的基本流程

端到端智能駕駛模型的核心思想是打通傳感器輸入與車(chē)輛控制之間的映射關(guān)系,其訓(xùn)練流程通常包括以下關(guān)鍵步驟:

 

1. 數(shù)據(jù)采集與預(yù)處理:采集車(chē)輛在真實(shí)或仿真環(huán)境中行駛時(shí)的多模態(tài)數(shù)據(jù),包括RGB圖像、LiDAR點(diǎn)云、IMU信號(hào)、CAN控制數(shù)據(jù)、高精地圖等,并對(duì)其進(jìn)行時(shí)間同步、數(shù)據(jù)清洗與格式標(biāo)準(zhǔn)化。 

2. 模型設(shè)計(jì)與訓(xùn)練:主流端到端模型多基于深度卷積神經(jīng)網(wǎng)絡(luò)、Transformer、BEV(Bird's Eye View)表示等結(jié)構(gòu),分為感知-規(guī)控融合網(wǎng)絡(luò)和軌跡回歸網(wǎng)絡(luò)兩類(lèi),訓(xùn)練目標(biāo)為最小化預(yù)測(cè)控制信號(hào)(或目標(biāo)軌跡)與人類(lèi)駕駛員實(shí)際操作之間的誤差。 

3. 評(píng)估與驗(yàn)證:通過(guò)回放或閉環(huán)仿真方式對(duì)模型進(jìn)行評(píng)估,主要考察其在不同交通場(chǎng)景下的魯棒性、平滑性、安全性和策略合理性。 

相較于傳統(tǒng)模塊化系統(tǒng),端到端模型理論上更具整體協(xié)同性,但對(duì)數(shù)據(jù)質(zhì)量,尤其是語(yǔ)義一致、時(shí)間連續(xù)的訓(xùn)練樣本提出了更高要求。 

圖片

OpenDriveLab發(fā)布UniAD架構(gòu)設(shè)計(jì)概覽

 

三、訓(xùn)練瓶頸解析:為什么端到端模型難以落地?

3.1 場(chǎng)景稀疏與長(zhǎng)尾分布問(wèn)題

端到端模型依賴(lài)大量駕駛數(shù)據(jù)學(xué)習(xí)控制策略,但現(xiàn)實(shí)道路中的關(guān)鍵決策場(chǎng)景(如非保護(hù)左轉(zhuǎn)、臨時(shí)施工、突發(fā)加塞等)極為稀缺,屬于典型的長(zhǎng)尾分布。模型在訓(xùn)練階段難以充分暴露于這些罕見(jiàn)場(chǎng)景,導(dǎo)致測(cè)試或部署時(shí)響應(yīng)失效。 

即便具備上萬(wàn)小時(shí)的駕駛數(shù)據(jù),如果缺乏對(duì)這些“高風(fēng)險(xiǎn)高復(fù)雜度場(chǎng)景”的密集采集和標(biāo)注,模型學(xué)習(xí)出的控制策略往往偏向于“溫和保守”,難以在突變交通情境下做出有效響應(yīng)。此外,傳統(tǒng)采集方式主要依賴(lài)自然駕駛過(guò)程,未必能高效覆蓋所有corner case場(chǎng)景,進(jìn)一步放大了模型在長(zhǎng)尾問(wèn)題上的性能劣勢(shì)。 

更重要的是,這些場(chǎng)景常常具有復(fù)雜的語(yǔ)義關(guān)系和多重意圖變化,如施工場(chǎng)地同時(shí)伴隨道路收窄、交警指揮、路面反光干擾等,單幀信息難以覆蓋其語(yǔ)義全貌。 

3.2 缺乏時(shí)序建模能力

許多端到端方法采用靜態(tài)輸入(如單幀圖像或短時(shí)間窗口),忽視了駕駛行為本質(zhì)上是一個(gè)強(qiáng)時(shí)序相關(guān)的連續(xù)決策過(guò)程。缺乏時(shí)序特征建模,導(dǎo)致模型在需要提前預(yù)判的場(chǎng)景中響應(yīng)遲緩,表現(xiàn)為“控制漂移”、“跟車(chē)失穩(wěn)”等問(wèn)題。 

比如在高速并線(xiàn)場(chǎng)景中,駕駛員通常會(huì)通過(guò)觀察前后車(chē)速和打燈行為提前規(guī)劃動(dòng)作,而非根據(jù)當(dāng)前幀立即判斷是否變道。若訓(xùn)練數(shù)據(jù)無(wú)法提供連續(xù)幀的狀態(tài)變化信息,模型將缺乏對(duì)“策略演化路徑”的學(xué)習(xí),容易陷入只適應(yīng)靜態(tài)決策的“盲控制”。 

此外,諸如緊急剎車(chē)、躲避障礙、連續(xù)交互讓行等行為,本質(zhì)上是一個(gè)策略序列,而不是某一幀的孤立響應(yīng),必須依靠跨時(shí)間建模與行為記憶。 

3.3 控制真值的模糊性與歧義性

相比分類(lèi)或檢測(cè)任務(wù)中相對(duì)明確的標(biāo)簽,駕駛控制信號(hào)具有明顯的多解性。比如在同一場(chǎng)景中,駕駛員可以選擇輕微減速也可以選擇變道,均為合理行為。這樣的監(jiān)督信號(hào)本身就存在歧義,容易造成模型學(xué)習(xí)方向不確定,訓(xùn)練過(guò)程震蕩。 

此外,不同駕駛員在相同條件下的行為也存在差異,個(gè)體風(fēng)格、安全容忍度、駕駛經(jīng)驗(yàn)都會(huì)導(dǎo)致控制策略的不同,模型學(xué)習(xí)到的控制行為易出現(xiàn)不穩(wěn)定、多樣性過(guò)高的現(xiàn)象,從而影響模型收斂效果與泛化性能。 

控制數(shù)據(jù)還存在“非一致性采集”問(wèn)題,例如由于采集時(shí)GPS漂移或CAN延遲,標(biāo)簽信號(hào)本身存在偏移或波動(dòng),進(jìn)一步加劇了訓(xùn)練過(guò)程中的誤差傳播。 

3.4 數(shù)據(jù)離散性,缺乏連續(xù)監(jiān)督

當(dāng)前常用的數(shù)據(jù)集如nuScenes、Argoverse、Waymo Motion僅提供稀疏幀標(biāo)注或短時(shí)軌跡片段,缺乏高頻連續(xù)的數(shù)據(jù)段。這種數(shù)據(jù)形態(tài)難以支撐模型學(xué)習(xí)跨時(shí)序的策略演化邏輯,也難以實(shí)現(xiàn)真正意義上的“行為模仿”。

例如,車(chē)輛在進(jìn)入環(huán)島前的減速、注視、尋找切入點(diǎn),再到環(huán)島內(nèi)決策、出環(huán)時(shí)加速等,均需多幀狀態(tài)連續(xù)呈現(xiàn)才能完整表達(dá)策略過(guò)程。離散幀僅能呈現(xiàn)動(dòng)作結(jié)果,缺乏狀態(tài)演化的上下文,導(dǎo)致模型無(wú)法推理“為何做出某動(dòng)作”。 

某些駕駛行為(如超車(chē))還涉及視覺(jué)注意力遷移、信號(hào)意圖變化、交互對(duì)抗博弈等內(nèi)容,只有連續(xù)幀才能揭示背后的語(yǔ)義軌跡。 

3.5 時(shí)序標(biāo)簽不一致、誤差累積

在模塊化系統(tǒng)中,每一層都可以進(jìn)行誤差校正。但在端到端體系中,一旦輸入數(shù)據(jù)存在時(shí)間對(duì)齊誤差或標(biāo)簽跳變,誤差會(huì)在模型中逐層放大并最終導(dǎo)致策略輸出嚴(yán)重偏移,尤其是在復(fù)雜交通互動(dòng)場(chǎng)景中更為明顯。 

此外,如果連續(xù)幀間的目標(biāo)ID、軌跡或意圖標(biāo)注不一致,會(huì)導(dǎo)致模型誤認(rèn)為是兩個(gè)完全不同的事件,進(jìn)一步削弱其對(duì)跨幀語(yǔ)義的建模能力。缺乏穩(wěn)健的多幀時(shí)間標(biāo)注機(jī)制,也直接限制了Transformer等長(zhǎng)時(shí)序建模結(jié)構(gòu)在端到端訓(xùn)練中的表現(xiàn)。 

目前很多數(shù)據(jù)平臺(tái)在生成標(biāo)注時(shí)仍以幀為單位,缺少跨幀實(shí)體一致性檢查與插值重建能力,導(dǎo)致同一目標(biāo)在兩幀中出現(xiàn)“跳幀”、“漂移”甚至“消失”,這在視覺(jué)跟蹤、意圖建模上都是嚴(yán)重阻礙。 

綜上所述,當(dāng)前端到端模型雖具備技術(shù)吸引力,但在訓(xùn)練穩(wěn)定性、數(shù)據(jù)需求、行為一致性建模等方面仍存在明顯瓶頸,而這些問(wèn)題的根源往往可以追溯到“連續(xù)幀真值”的缺失。 

四、連續(xù)幀數(shù)據(jù)真值的價(jià)值與作用

在端到端智能駕駛模型的訓(xùn)練中,數(shù)據(jù)不僅僅是“素材”,更是“監(jiān)督信號(hào)”的根基。尤其是具有時(shí)序連續(xù)性與真實(shí)語(yǔ)義真值(ground truth)的高質(zhì)量數(shù)據(jù)序列,不僅彌補(bǔ)了端到端訓(xùn)練中的諸多結(jié)構(gòu)性缺陷,更逐步成為系統(tǒng)走向?qū)嵱没?ldquo;第一性資源”。本文將從以下四個(gè)維度系統(tǒng)論述其核心價(jià)值。 

4.1 驅(qū)動(dòng)策略演化建模的基礎(chǔ)

智能駕駛并非圖像分類(lèi)等靜態(tài)任務(wù),它要求模型不僅識(shí)別當(dāng)前狀態(tài),更要基于過(guò)去預(yù)測(cè)未來(lái)、基于變化規(guī)劃行為。因此,“策略的演化軌跡”是理解駕駛行為的關(guān)鍵。而這種策略路徑,天然需要通過(guò)高時(shí)間分辨率的連續(xù)幀數(shù)據(jù)來(lái)呈現(xiàn)。 

以左轉(zhuǎn)避讓為例,駕駛員通常會(huì)經(jīng)歷“駛?cè)虢徊婵?→ 觀察對(duì)向車(chē) → 判斷速度差 → 減速等待/直接穿越”一系列決策階段。若數(shù)據(jù)僅提供轉(zhuǎn)彎瞬間的單幀控制信號(hào),模型將無(wú)法理解為何此時(shí)選擇“等待”或“轉(zhuǎn)向”,更難學(xué)習(xí)行為背后的演化邏輯。 

而連續(xù)幀數(shù)據(jù),配合高質(zhì)量的控制與意圖真值,可以讓模型感知到“從觀察到動(dòng)作”的全過(guò)程,從而建立起策略因果鏈條。這是傳統(tǒng)離散采樣數(shù)據(jù)無(wú)法提供的訓(xùn)練線(xiàn)索。 

更進(jìn)一步,借助連續(xù)幀,模型可以構(gòu)建跨幀表示,如軌跡微分、速度變化率、注意力轉(zhuǎn)移趨勢(shì)等,極大豐富輸入特征空間,為策略預(yù)測(cè)提供更具表現(xiàn)力的狀態(tài)描述。 

4.2 提升模型穩(wěn)定性與泛化能力

端到端模型最大挑戰(zhàn)之一是其對(duì)數(shù)據(jù)波動(dòng)的敏感性,即“單幀預(yù)測(cè)誤差”會(huì)導(dǎo)致整段控制邏輯偏移。而連續(xù)幀數(shù)據(jù)在訓(xùn)練中天然具備“冗余約束”效應(yīng): 

· 時(shí)序一致性:連續(xù)幀之間狀態(tài)平滑,控制信號(hào)應(yīng)逐漸過(guò)渡。訓(xùn)練過(guò)程中,模型在擬合軌跡時(shí)需同時(shí)滿(mǎn)足空間誤差最小與時(shí)間連貫性,等于引入一種“隱式正則化”,能有效抑制過(guò)擬合與過(guò)激預(yù)測(cè)。 

· 行為約束帶寬:在復(fù)雜場(chǎng)景下,連續(xù)幀記錄了同一行為的多個(gè)表現(xiàn)階段,構(gòu)成“多視圖監(jiān)督”。這使得模型即使某一幀預(yù)測(cè)存在偏差,也可通過(guò)鄰近幀反饋糾偏,從而在整體上增強(qiáng)魯棒性。 

· 稀缺場(chǎng)景的語(yǔ)義外推:對(duì)于長(zhǎng)尾決策如“前車(chē)緊急掉頭”、“交警指揮變道”,連續(xù)幀能揭示該事件前后的上下文狀態(tài),有助于模型從相似但非等同場(chǎng)景中遷移策略,從而提升泛化能力。 

以實(shí)際工程經(jīng)驗(yàn)為例,當(dāng)端到端模型引入連續(xù)幀訓(xùn)練機(jī)制后,其軌跡偏差率在城市環(huán)路中的變化范圍下降約20%-30%,尤其在多車(chē)交互、突然減速等非結(jié)構(gòu)化場(chǎng)景中表現(xiàn)更平穩(wěn)。 

4.3 支撐行為意圖與交互建模

連續(xù)幀不僅僅記錄空間狀態(tài)變化,更提供了行為演進(jìn)與意圖顯現(xiàn)的窗口。在車(chē)路交互頻繁的城市交通中,僅通過(guò)單幀很難判斷其他交通體的“未來(lái)走勢(shì)”。而連續(xù)幀軌跡+語(yǔ)義標(biāo)簽的組合,可構(gòu)建明確的行為意圖監(jiān)督信號(hào),提升模型對(duì)交互場(chǎng)景的感知與預(yù)測(cè)能力。 

例如,在“交匯讓行”情景中:

· 行人連續(xù)幀的移動(dòng)方向、速度變化可推斷其“是否過(guò)街”的意圖;

· 對(duì)向車(chē)是否減速、變道可預(yù)示其“是否避讓”;

· 自車(chē)歷史控制軌跡也能影響未來(lái)行為預(yù)測(cè),如剎車(chē)力度持續(xù)變化說(shuō)明“正在讓行”。 

這些隱性意圖信息,依賴(lài)高質(zhì)量連續(xù)幀數(shù)據(jù)才能準(zhǔn)確提取與標(biāo)注。借助多幀的速度、加速度、加加速度(jerk)等物理量可進(jìn)一步輔助模型判斷“是想停還是正加速”,從而做出更合邏輯的決策。 

一些先進(jìn)的端到端架構(gòu)甚至將行為意圖作為中間顯式表示(例如 Waymo 的 Multi-Agent Prediction 網(wǎng)絡(luò)結(jié)構(gòu)),通過(guò)多目標(biāo)軌跡回歸對(duì)交互進(jìn)行建模,背后均依賴(lài)連續(xù)幀的軌跡與ID一致性標(biāo)簽作為監(jiān)督。 

4.4 滿(mǎn)足長(zhǎng)時(shí)序神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需求

Transformer等長(zhǎng)序列神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)近年來(lái)被廣泛引入端到端駕駛學(xué)習(xí),嘗試解決傳統(tǒng)CNN架構(gòu)對(duì)時(shí)序建模能力的不足。但這類(lèi)模型天然需要大規(guī)模“序列樣本”支持。 

如以每秒20幀計(jì)算,一個(gè)10秒行為片段即包含200幀圖像+CAN數(shù)據(jù)+標(biāo)注,且要求目標(biāo)ID一致、動(dòng)作連續(xù)、時(shí)間對(duì)齊,若缺乏高質(zhì)量連續(xù)幀樣本,將極大制約這類(lèi)結(jié)構(gòu)的性能發(fā)揮。 

此外,部分模型使用滑窗機(jī)制對(duì)歷史狀態(tài)進(jìn)行聚合,需要標(biāo)注數(shù)據(jù)能保持穩(wěn)定的“因果鏈?zhǔn)捷斎?rdquo;,即“前10幀決定當(dāng)前動(dòng)作”,此時(shí)一旦中間幀存在遮擋、跳幀、標(biāo)注丟失等問(wèn)題,整個(gè)訓(xùn)練段將失效。 

在實(shí)際項(xiàng)目中,使用具備4D連續(xù)真值(空間3D+時(shí)間連續(xù))支持的數(shù)據(jù)集,可將Transformer模型的收斂速度提升40%以上,訓(xùn)練穩(wěn)定性顯著增強(qiáng)。而無(wú)此類(lèi)數(shù)據(jù)的情況下一些長(zhǎng)序列結(jié)構(gòu)甚至無(wú)法穩(wěn)定訓(xùn)練。 

4.5 促進(jìn)閉環(huán)部署與仿真評(píng)估

高質(zhì)量連續(xù)幀數(shù)據(jù)不僅用于模型訓(xùn)練,也為后續(xù)的模型驗(yàn)證與部署提供堅(jiān)實(shí)支撐。在閉環(huán)部署前,通常需在仿真平臺(tái)中對(duì)端到端策略進(jìn)行大規(guī)模行為回放與場(chǎng)景重演驗(yàn)證,而只有具備時(shí)間連續(xù)性的真實(shí)行為數(shù)據(jù),才能有效驅(qū)動(dòng)仿真系統(tǒng): 

· 可基于真實(shí)軌跡構(gòu)造多車(chē)交通情景,復(fù)現(xiàn)稀缺互動(dòng)行為;

· 可模擬模型替代人類(lèi)駕駛員進(jìn)行同一路徑重演,對(duì)比預(yù)測(cè)軌跡與真實(shí)軌跡之間的偏差,評(píng)估模型行為一致性;

· 可通過(guò)插值、剪輯等方式構(gòu)建場(chǎng)景變體,對(duì)模型策略穩(wěn)定性進(jìn)行壓測(cè)。 

此外,在實(shí)際部署過(guò)程中,若發(fā)現(xiàn)模型在某類(lèi)場(chǎng)景下存在“重復(fù)性誤判”,可通過(guò)連續(xù)幀回放精確定位策略崩潰點(diǎn),為后續(xù)模型重訓(xùn)、數(shù)據(jù)補(bǔ)充提供針對(duì)性樣本。 

因此,具備高語(yǔ)義、長(zhǎng)時(shí)序、一致性標(biāo)簽的連續(xù)幀數(shù)據(jù),不僅用于前端訓(xùn)練,更是端到端系統(tǒng)實(shí)現(xiàn)閉環(huán)開(kāi)發(fā)的基礎(chǔ)資源。 

五、行業(yè)代表性實(shí)踐與案例分析

在端到端智能駕駛系統(tǒng)的探索過(guò)程中,頭部科技公司和造車(chē)新勢(shì)力已逐步認(rèn)識(shí)到連續(xù)幀數(shù)據(jù)與高質(zhì)量真值標(biāo)簽在模型訓(xùn)練中的核心價(jià)值。無(wú)論是Waymo、Cruise等國(guó)際自動(dòng)駕駛先鋒,還是理想、小鵬、華為、亮道智能等中國(guó)智能駕駛主力軍,均在其技術(shù)路線(xiàn)或平臺(tái)架構(gòu)中,強(qiáng)調(diào)連續(xù)行為數(shù)據(jù)的采集、標(biāo)注與利用。 

5.1 Waymo、Cruise 等國(guó)際領(lǐng)先企業(yè)的應(yīng)用實(shí)踐

Waymo:利用多幀軌跡監(jiān)督訓(xùn)練長(zhǎng)時(shí)策略模型

Waymo在其端到端建模中高度重視“駕駛者行為模式”的重建,其Motion數(shù)據(jù)子集中就明確提供連續(xù)時(shí)間片段,涵蓋目標(biāo)ID、速度、加速度、軌跡點(diǎn)等詳細(xì)標(biāo)簽。這使得模型不僅能預(yù)測(cè)當(dāng)前位置的控制指令,還能在更長(zhǎng)時(shí)間窗口內(nèi)回歸未來(lái)數(shù)秒的目標(biāo)行為。Waymo同時(shí)還在內(nèi)部實(shí)驗(yàn)中提出“多策略采樣+交互式回放”的數(shù)據(jù)構(gòu)建方法,以增強(qiáng)端到端模型對(duì)復(fù)雜交通情境中“多種合理解”的學(xué)習(xí)能力。

圖片

 

Cruise:閉環(huán)回放與重演強(qiáng)化策略一致性

Cruise在訓(xùn)練其城市端到端決策系統(tǒng)時(shí),強(qiáng)調(diào)用連續(xù)數(shù)據(jù)復(fù)現(xiàn)真實(shí)駕駛狀態(tài)變化。其獨(dú)特的回放+仿真結(jié)合訓(xùn)練流程中,模型需在“給定過(guò)去行為”的前提下預(yù)測(cè)未來(lái)動(dòng)作路徑。這種設(shè)計(jì)促使模型從“即時(shí)控制”轉(zhuǎn)向“連續(xù)意圖生成”。Cruise還建立專(zhuān)門(mén)的軌跡一致性度量指標(biāo),評(píng)估模型預(yù)測(cè)結(jié)果與人類(lèi)駕駛策略在時(shí)間維度上的擬合度,進(jìn)一步驗(yàn)證了連續(xù)數(shù)據(jù)對(duì)策略一致性的重要支撐作用。

 

圖片

 

5.2 理想、小鵬、華為、亮道智能:國(guó)內(nèi)代表性路徑實(shí)踐

理想汽車(chē):基于自然駕駛行為段構(gòu)建時(shí)序?qū)W習(xí)樣本

理想汽車(chē)在L2+系統(tǒng)中已部署多套輕量化端到端模型,其數(shù)據(jù)策略以“行為單元”為核心單位。通過(guò)對(duì)自然駕駛軌跡進(jìn)行聚類(lèi)分析與行為識(shí)別,提取如“變道插隊(duì)”“進(jìn)出匝道”等行為序列,構(gòu)成完整的時(shí)序樣本用于訓(xùn)練。同時(shí),理想還基于自研的多模態(tài)數(shù)據(jù)管理平臺(tái),實(shí)現(xiàn)視頻、點(diǎn)云、軌跡、控制數(shù)據(jù)的全鏈路同步,為端到端策略訓(xùn)練構(gòu)建了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。

 

圖片

VLM模型在駕駛過(guò)程中,自動(dòng)標(biāo)注視頻幀和傳感 器信號(hào)以生成軌跡和其他標(biāo)簽。此外,對(duì)視頻幀應(yīng)用自動(dòng)描述生成,以生成行為和推理的描述

圖片

理想汽車(chē)推出ReconDreamer世界模型

 

圖片

理想汽車(chē)雙系統(tǒng)架構(gòu)

圖片

圖片

系統(tǒng)1(端到端)&系統(tǒng)2(VLM)架構(gòu)

 

小鵬汽車(chē):BEV+Transformer結(jié)構(gòu)融合連續(xù)幀輸入

小鵬在端到端感知-規(guī)控一體化方向的研究中,積極引入BEV表示與時(shí)序Transformer結(jié)構(gòu)。其訓(xùn)練樣本由10-20秒連續(xù)幀構(gòu)成,包含目標(biāo)跟蹤ID、語(yǔ)義地圖、路徑偏差等多層次真值標(biāo)注,極大提升了模型在多車(chē)交互和密集城市道路場(chǎng)景中的穩(wěn)定性。小鵬內(nèi)部評(píng)估數(shù)據(jù)顯示,在引入連續(xù)幀軌跡監(jiān)督后,其軌跡預(yù)測(cè)偏差下降約27%,同時(shí)在“追尾危險(xiǎn)”場(chǎng)景中提前干預(yù)率提升顯著。

 

圖片

小鵬XNGP模塊化端到端架構(gòu)

圖片

主流的端到端架構(gòu)vs小鵬汽車(chē)的端到端架構(gòu)

 

華為智能汽車(chē):構(gòu)建端到端訓(xùn)練的全流程時(shí)序平臺(tái)

華為通過(guò)其MDC平臺(tái),將數(shù)據(jù)閉環(huán)能力從靜態(tài)采集升級(jí)為“行為段級(jí)別”的連續(xù)信息提取。其數(shù)據(jù)平臺(tái)支持CAN、感知、定位、地圖等多模態(tài)信號(hào)的毫秒級(jí)時(shí)間對(duì)齊,并通過(guò)規(guī)則引擎自動(dòng)識(shí)別關(guān)鍵決策事件,輸出結(jié)構(gòu)化連續(xù)標(biāo)簽序列。同時(shí),華為在訓(xùn)練端采用“時(shí)間窗滾動(dòng)預(yù)測(cè)”機(jī)制,使端到端模型能夠自適應(yīng)地感知過(guò)去狀態(tài)變化并動(dòng)態(tài)調(diào)整策略,顯著提升城市通勤中的跟車(chē)舒適性與安全性。

 

圖片

華為智能駕駛ADS版本演進(jìn)

 

圖片

算法從ADS 2.0升級(jí)至ADS 3.0

圖片

ADS 3.0采用兩段式端到端架構(gòu)

 

亮道智能:提供工業(yè)級(jí)4D連續(xù)幀數(shù)據(jù)標(biāo)注解決方案

亮道智能作為領(lǐng)先的自動(dòng)駕駛數(shù)據(jù)服務(wù)平臺(tái),率先在國(guó)內(nèi)構(gòu)建了可規(guī);a(chǎn)“4D真值數(shù)據(jù)”的工業(yè)流程體系。其服務(wù)能力主要體現(xiàn)在以下幾個(gè)方面: 

· 跨模態(tài)多幀融合標(biāo)注能力:支持RGB、LiDAR、Radar、IMU等多源數(shù)據(jù)的時(shí)間同步、空間對(duì)齊和一致性校驗(yàn),確保每一幀標(biāo)注在上下文語(yǔ)義上可閉合。 

· 時(shí)序一致性與目標(biāo)ID跟蹤機(jī)制:引入多幀插值、軌跡重建與目標(biāo)追蹤算法,實(shí)現(xiàn)關(guān)鍵目標(biāo)在整個(gè)時(shí)間段內(nèi)的ID連續(xù)性與行為一致性,滿(mǎn)足Transformer類(lèi)模型的訓(xùn)練要求。

圖片

亮道智能感知算法訓(xùn)練數(shù)據(jù)閉環(huán)

 

六、結(jié)語(yǔ):從“數(shù)據(jù)可用”走向“語(yǔ)義連續(xù)”

端到端智能駕駛模型的落地之路,歸根結(jié)底是一條對(duì)“行為理解”不斷精進(jìn)的路徑,而非僅靠模型結(jié)構(gòu)堆疊所能解決。正如前文所述,當(dāng)模型從感知、規(guī)劃、控制一體化地去學(xué)習(xí)駕駛策略時(shí),其對(duì)數(shù)據(jù)的要求不再是“量”與“廣度”優(yōu)先,而是更深層次的“連續(xù)性”、“一致性”與“語(yǔ)義完整性”。 

在這一背景下,連續(xù)幀數(shù)據(jù)的價(jià)值不止于簡(jiǎn)單的時(shí)間序列堆疊,更在于其承載了場(chǎng)景演化的語(yǔ)境邏輯。只有當(dāng)數(shù)據(jù)能夠真實(shí)呈現(xiàn)駕駛行為從觀測(cè)、判斷到執(zhí)行的全過(guò)程,模型才有可能真正建立起對(duì)人類(lèi)策略意圖的理解能力。 

產(chǎn)業(yè)實(shí)踐也正朝著這一方向加速前進(jìn):從Waymo的軌跡重演,到小鵬、理想對(duì)自然行為段的高保真采樣,再到亮道智能的4D語(yǔ)義標(biāo)注能力,行業(yè)上下游正逐步形成以“語(yǔ)義行為”為核心的訓(xùn)練數(shù)據(jù)生態(tài)體系。這不僅讓端到端模型更加穩(wěn)健與可信,也為未來(lái)構(gòu)建“有責(zé)任邊界”的自動(dòng)駕駛系統(tǒng)提供基礎(chǔ)支撐。 

因此,與其說(shuō)“端到端”的挑戰(zhàn)在模型端,不如說(shuō)它是一場(chǎng)對(duì)數(shù)據(jù)體系結(jié)構(gòu)的再定義。當(dāng)我們真正實(shí)現(xiàn)從“幀標(biāo)簽”到“行為真值”的躍遷,端到端智能駕駛的商業(yè)化與規(guī);涞兀趴赡軓臉(gòu)想走向現(xiàn)實(shí)。 

圖片

Tesla 2021年發(fā)布基于BEV+Transformer的感知算法架構(gòu)

圖片

Tesla 2022年引入Occupancy占用網(wǎng)絡(luò)

圖片

FSD神經(jīng)網(wǎng)絡(luò)匯總

       原文標(biāo)題 : 端到端智能駕駛訓(xùn)練困局:連續(xù)幀真值數(shù)據(jù)缺失下的 “模型幻覺(jué)” 破局之道

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)