端到端智能駕駛訓(xùn)練困局:連續(xù)幀真值數(shù)據(jù)缺失下的 “模型幻覺(jué)” 破局之道
一、引 言
隨著感知、決策和控制各模塊的性能逐步逼近上限,端到端學(xué)習(xí)(End-to-End Learning)在智能駕駛領(lǐng)域受到越來(lái)越多關(guān)注。端到端模型通過(guò)深度神經(jīng)網(wǎng)絡(luò)將原始傳感器輸入直接映射為駕駛控制信號(hào),減少中間模塊誤差傳播的影響,有望簡(jiǎn)化系統(tǒng)架構(gòu)、提升整體協(xié)同效率。
然而,現(xiàn)實(shí)中端到端方案的實(shí)際落地遠(yuǎn)未達(dá)到預(yù)期,訓(xùn)練穩(wěn)定性差、泛化能力弱、對(duì)極端場(chǎng)景響應(yīng)遲鈍等問(wèn)題頻現(xiàn)。本文將從訓(xùn)練數(shù)據(jù)角度出發(fā),聚焦一個(gè)關(guān)鍵變量:高質(zhì)量連續(xù)幀數(shù)據(jù)真值,探討它如何成為突破端到端訓(xùn)練瓶頸的核心資源。
端到端發(fā)展歷程
二、端到端智能駕駛訓(xùn)練的基本流程
端到端智能駕駛模型的核心思想是打通傳感器輸入與車(chē)輛控制之間的映射關(guān)系,其訓(xùn)練流程通常包括以下關(guān)鍵步驟:
1. 數(shù)據(jù)采集與預(yù)處理:采集車(chē)輛在真實(shí)或仿真環(huán)境中行駛時(shí)的多模態(tài)數(shù)據(jù),包括RGB圖像、LiDAR點(diǎn)云、IMU信號(hào)、CAN控制數(shù)據(jù)、高精地圖等,并對(duì)其進(jìn)行時(shí)間同步、數(shù)據(jù)清洗與格式標(biāo)準(zhǔn)化。
2. 模型設(shè)計(jì)與訓(xùn)練:主流端到端模型多基于深度卷積神經(jīng)網(wǎng)絡(luò)、Transformer、BEV(Bird's Eye View)表示等結(jié)構(gòu),分為感知-規(guī)控融合網(wǎng)絡(luò)和軌跡回歸網(wǎng)絡(luò)兩類(lèi),訓(xùn)練目標(biāo)為最小化預(yù)測(cè)控制信號(hào)(或目標(biāo)軌跡)與人類(lèi)駕駛員實(shí)際操作之間的誤差。
3. 評(píng)估與驗(yàn)證:通過(guò)回放或閉環(huán)仿真方式對(duì)模型進(jìn)行評(píng)估,主要考察其在不同交通場(chǎng)景下的魯棒性、平滑性、安全性和策略合理性。
相較于傳統(tǒng)模塊化系統(tǒng),端到端模型理論上更具整體協(xié)同性,但對(duì)數(shù)據(jù)質(zhì)量,尤其是語(yǔ)義一致、時(shí)間連續(xù)的訓(xùn)練樣本提出了更高要求。
OpenDriveLab發(fā)布UniAD架構(gòu)設(shè)計(jì)概覽
三、訓(xùn)練瓶頸解析:為什么端到端模型難以落地?
3.1 場(chǎng)景稀疏與長(zhǎng)尾分布問(wèn)題
端到端模型依賴(lài)大量駕駛數(shù)據(jù)學(xué)習(xí)控制策略,但現(xiàn)實(shí)道路中的關(guān)鍵決策場(chǎng)景(如非保護(hù)左轉(zhuǎn)、臨時(shí)施工、突發(fā)加塞等)極為稀缺,屬于典型的長(zhǎng)尾分布。模型在訓(xùn)練階段難以充分暴露于這些罕見(jiàn)場(chǎng)景,導(dǎo)致測(cè)試或部署時(shí)響應(yīng)失效。
即便具備上萬(wàn)小時(shí)的駕駛數(shù)據(jù),如果缺乏對(duì)這些“高風(fēng)險(xiǎn)高復(fù)雜度場(chǎng)景”的密集采集和標(biāo)注,模型學(xué)習(xí)出的控制策略往往偏向于“溫和保守”,難以在突變交通情境下做出有效響應(yīng)。此外,傳統(tǒng)采集方式主要依賴(lài)自然駕駛過(guò)程,未必能高效覆蓋所有corner case場(chǎng)景,進(jìn)一步放大了模型在長(zhǎng)尾問(wèn)題上的性能劣勢(shì)。
更重要的是,這些場(chǎng)景常常具有復(fù)雜的語(yǔ)義關(guān)系和多重意圖變化,如施工場(chǎng)地同時(shí)伴隨道路收窄、交警指揮、路面反光干擾等,單幀信息難以覆蓋其語(yǔ)義全貌。
3.2 缺乏時(shí)序建模能力
許多端到端方法采用靜態(tài)輸入(如單幀圖像或短時(shí)間窗口),忽視了駕駛行為本質(zhì)上是一個(gè)強(qiáng)時(shí)序相關(guān)的連續(xù)決策過(guò)程。缺乏時(shí)序特征建模,導(dǎo)致模型在需要提前預(yù)判的場(chǎng)景中響應(yīng)遲緩,表現(xiàn)為“控制漂移”、“跟車(chē)失穩(wěn)”等問(wèn)題。
比如在高速并線(xiàn)場(chǎng)景中,駕駛員通常會(huì)通過(guò)觀察前后車(chē)速和打燈行為提前規(guī)劃動(dòng)作,而非根據(jù)當(dāng)前幀立即判斷是否變道。若訓(xùn)練數(shù)據(jù)無(wú)法提供連續(xù)幀的狀態(tài)變化信息,模型將缺乏對(duì)“策略演化路徑”的學(xué)習(xí),容易陷入只適應(yīng)靜態(tài)決策的“盲控制”。
此外,諸如緊急剎車(chē)、躲避障礙、連續(xù)交互讓行等行為,本質(zhì)上是一個(gè)策略序列,而不是某一幀的孤立響應(yīng),必須依靠跨時(shí)間建模與行為記憶。
3.3 控制真值的模糊性與歧義性
相比分類(lèi)或檢測(cè)任務(wù)中相對(duì)明確的標(biāo)簽,駕駛控制信號(hào)具有明顯的多解性。比如在同一場(chǎng)景中,駕駛員可以選擇輕微減速也可以選擇變道,均為合理行為。這樣的監(jiān)督信號(hào)本身就存在歧義,容易造成模型學(xué)習(xí)方向不確定,訓(xùn)練過(guò)程震蕩。
此外,不同駕駛員在相同條件下的行為也存在差異,個(gè)體風(fēng)格、安全容忍度、駕駛經(jīng)驗(yàn)都會(huì)導(dǎo)致控制策略的不同,模型學(xué)習(xí)到的控制行為易出現(xiàn)不穩(wěn)定、多樣性過(guò)高的現(xiàn)象,從而影響模型收斂效果與泛化性能。
控制數(shù)據(jù)還存在“非一致性采集”問(wèn)題,例如由于采集時(shí)GPS漂移或CAN延遲,標(biāo)簽信號(hào)本身存在偏移或波動(dòng),進(jìn)一步加劇了訓(xùn)練過(guò)程中的誤差傳播。
3.4 數(shù)據(jù)離散性,缺乏連續(xù)監(jiān)督
當(dāng)前常用的數(shù)據(jù)集如nuScenes、Argoverse、Waymo Motion僅提供稀疏幀標(biāo)注或短時(shí)軌跡片段,缺乏高頻連續(xù)的數(shù)據(jù)段。這種數(shù)據(jù)形態(tài)難以支撐模型學(xué)習(xí)跨時(shí)序的策略演化邏輯,也難以實(shí)現(xiàn)真正意義上的“行為模仿”。
例如,車(chē)輛在進(jìn)入環(huán)島前的減速、注視、尋找切入點(diǎn),再到環(huán)島內(nèi)決策、出環(huán)時(shí)加速等,均需多幀狀態(tài)連續(xù)呈現(xiàn)才能完整表達(dá)策略過(guò)程。離散幀僅能呈現(xiàn)動(dòng)作結(jié)果,缺乏狀態(tài)演化的上下文,導(dǎo)致模型無(wú)法推理“為何做出某動(dòng)作”。
某些駕駛行為(如超車(chē))還涉及視覺(jué)注意力遷移、信號(hào)意圖變化、交互對(duì)抗博弈等內(nèi)容,只有連續(xù)幀才能揭示背后的語(yǔ)義軌跡。
3.5 時(shí)序標(biāo)簽不一致、誤差累積
在模塊化系統(tǒng)中,每一層都可以進(jìn)行誤差校正。但在端到端體系中,一旦輸入數(shù)據(jù)存在時(shí)間對(duì)齊誤差或標(biāo)簽跳變,誤差會(huì)在模型中逐層放大并最終導(dǎo)致策略輸出嚴(yán)重偏移,尤其是在復(fù)雜交通互動(dòng)場(chǎng)景中更為明顯。
此外,如果連續(xù)幀間的目標(biāo)ID、軌跡或意圖標(biāo)注不一致,會(huì)導(dǎo)致模型誤認(rèn)為是兩個(gè)完全不同的事件,進(jìn)一步削弱其對(duì)跨幀語(yǔ)義的建模能力。缺乏穩(wěn)健的多幀時(shí)間標(biāo)注機(jī)制,也直接限制了Transformer等長(zhǎng)時(shí)序建模結(jié)構(gòu)在端到端訓(xùn)練中的表現(xiàn)。
目前很多數(shù)據(jù)平臺(tái)在生成標(biāo)注時(shí)仍以幀為單位,缺少跨幀實(shí)體一致性檢查與插值重建能力,導(dǎo)致同一目標(biāo)在兩幀中出現(xiàn)“跳幀”、“漂移”甚至“消失”,這在視覺(jué)跟蹤、意圖建模上都是嚴(yán)重阻礙。
綜上所述,當(dāng)前端到端模型雖具備技術(shù)吸引力,但在訓(xùn)練穩(wěn)定性、數(shù)據(jù)需求、行為一致性建模等方面仍存在明顯瓶頸,而這些問(wèn)題的根源往往可以追溯到“連續(xù)幀真值”的缺失。
四、連續(xù)幀數(shù)據(jù)真值的價(jià)值與作用
在端到端智能駕駛模型的訓(xùn)練中,數(shù)據(jù)不僅僅是“素材”,更是“監(jiān)督信號(hào)”的根基。尤其是具有時(shí)序連續(xù)性與真實(shí)語(yǔ)義真值(ground truth)的高質(zhì)量數(shù)據(jù)序列,不僅彌補(bǔ)了端到端訓(xùn)練中的諸多結(jié)構(gòu)性缺陷,更逐步成為系統(tǒng)走向?qū)嵱没?ldquo;第一性資源”。本文將從以下四個(gè)維度系統(tǒng)論述其核心價(jià)值。
4.1 驅(qū)動(dòng)策略演化建模的基礎(chǔ)
智能駕駛并非圖像分類(lèi)等靜態(tài)任務(wù),它要求模型不僅識(shí)別當(dāng)前狀態(tài),更要基于過(guò)去預(yù)測(cè)未來(lái)、基于變化規(guī)劃行為。因此,“策略的演化軌跡”是理解駕駛行為的關(guān)鍵。而這種策略路徑,天然需要通過(guò)高時(shí)間分辨率的連續(xù)幀數(shù)據(jù)來(lái)呈現(xiàn)。
以左轉(zhuǎn)避讓為例,駕駛員通常會(huì)經(jīng)歷“駛?cè)虢徊婵?→ 觀察對(duì)向車(chē) → 判斷速度差 → 減速等待/直接穿越”一系列決策階段。若數(shù)據(jù)僅提供轉(zhuǎn)彎瞬間的單幀控制信號(hào),模型將無(wú)法理解為何此時(shí)選擇“等待”或“轉(zhuǎn)向”,更難學(xué)習(xí)行為背后的演化邏輯。
而連續(xù)幀數(shù)據(jù),配合高質(zhì)量的控制與意圖真值,可以讓模型感知到“從觀察到動(dòng)作”的全過(guò)程,從而建立起策略因果鏈條。這是傳統(tǒng)離散采樣數(shù)據(jù)無(wú)法提供的訓(xùn)練線(xiàn)索。
更進(jìn)一步,借助連續(xù)幀,模型可以構(gòu)建跨幀表示,如軌跡微分、速度變化率、注意力轉(zhuǎn)移趨勢(shì)等,極大豐富輸入特征空間,為策略預(yù)測(cè)提供更具表現(xiàn)力的狀態(tài)描述。
4.2 提升模型穩(wěn)定性與泛化能力
端到端模型最大挑戰(zhàn)之一是其對(duì)數(shù)據(jù)波動(dòng)的敏感性,即“單幀預(yù)測(cè)誤差”會(huì)導(dǎo)致整段控制邏輯偏移。而連續(xù)幀數(shù)據(jù)在訓(xùn)練中天然具備“冗余約束”效應(yīng):
· 時(shí)序一致性:連續(xù)幀之間狀態(tài)平滑,控制信號(hào)應(yīng)逐漸過(guò)渡。訓(xùn)練過(guò)程中,模型在擬合軌跡時(shí)需同時(shí)滿(mǎn)足空間誤差最小與時(shí)間連貫性,等于引入一種“隱式正則化”,能有效抑制過(guò)擬合與過(guò)激預(yù)測(cè)。
· 行為約束帶寬:在復(fù)雜場(chǎng)景下,連續(xù)幀記錄了同一行為的多個(gè)表現(xiàn)階段,構(gòu)成“多視圖監(jiān)督”。這使得模型即使某一幀預(yù)測(cè)存在偏差,也可通過(guò)鄰近幀反饋糾偏,從而在整體上增強(qiáng)魯棒性。
· 稀缺場(chǎng)景的語(yǔ)義外推:對(duì)于長(zhǎng)尾決策如“前車(chē)緊急掉頭”、“交警指揮變道”,連續(xù)幀能揭示該事件前后的上下文狀態(tài),有助于模型從相似但非等同場(chǎng)景中遷移策略,從而提升泛化能力。
以實(shí)際工程經(jīng)驗(yàn)為例,當(dāng)端到端模型引入連續(xù)幀訓(xùn)練機(jī)制后,其軌跡偏差率在城市環(huán)路中的變化范圍下降約20%-30%,尤其在多車(chē)交互、突然減速等非結(jié)構(gòu)化場(chǎng)景中表現(xiàn)更平穩(wěn)。
4.3 支撐行為意圖與交互建模
連續(xù)幀不僅僅記錄空間狀態(tài)變化,更提供了行為演進(jìn)與意圖顯現(xiàn)的窗口。在車(chē)路交互頻繁的城市交通中,僅通過(guò)單幀很難判斷其他交通體的“未來(lái)走勢(shì)”。而連續(xù)幀軌跡+語(yǔ)義標(biāo)簽的組合,可構(gòu)建明確的行為意圖監(jiān)督信號(hào),提升模型對(duì)交互場(chǎng)景的感知與預(yù)測(cè)能力。
例如,在“交匯讓行”情景中:
· 行人連續(xù)幀的移動(dòng)方向、速度變化可推斷其“是否過(guò)街”的意圖;
· 對(duì)向車(chē)是否減速、變道可預(yù)示其“是否避讓”;
· 自車(chē)歷史控制軌跡也能影響未來(lái)行為預(yù)測(cè),如剎車(chē)力度持續(xù)變化說(shuō)明“正在讓行”。
這些隱性意圖信息,依賴(lài)高質(zhì)量連續(xù)幀數(shù)據(jù)才能準(zhǔn)確提取與標(biāo)注。借助多幀的速度、加速度、加加速度(jerk)等物理量可進(jìn)一步輔助模型判斷“是想停還是正加速”,從而做出更合邏輯的決策。
一些先進(jìn)的端到端架構(gòu)甚至將行為意圖作為中間顯式表示(例如 Waymo 的 Multi-Agent Prediction 網(wǎng)絡(luò)結(jié)構(gòu)),通過(guò)多目標(biāo)軌跡回歸對(duì)交互進(jìn)行建模,背后均依賴(lài)連續(xù)幀的軌跡與ID一致性標(biāo)簽作為監(jiān)督。
4.4 滿(mǎn)足長(zhǎng)時(shí)序神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需求
Transformer等長(zhǎng)序列神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)近年來(lái)被廣泛引入端到端駕駛學(xué)習(xí),嘗試解決傳統(tǒng)CNN架構(gòu)對(duì)時(shí)序建模能力的不足。但這類(lèi)模型天然需要大規(guī)模“序列樣本”支持。
如以每秒20幀計(jì)算,一個(gè)10秒行為片段即包含200幀圖像+CAN數(shù)據(jù)+標(biāo)注,且要求目標(biāo)ID一致、動(dòng)作連續(xù)、時(shí)間對(duì)齊,若缺乏高質(zhì)量連續(xù)幀樣本,將極大制約這類(lèi)結(jié)構(gòu)的性能發(fā)揮。
此外,部分模型使用滑窗機(jī)制對(duì)歷史狀態(tài)進(jìn)行聚合,需要標(biāo)注數(shù)據(jù)能保持穩(wěn)定的“因果鏈?zhǔn)捷斎?rdquo;,即“前10幀決定當(dāng)前動(dòng)作”,此時(shí)一旦中間幀存在遮擋、跳幀、標(biāo)注丟失等問(wèn)題,整個(gè)訓(xùn)練段將失效。
在實(shí)際項(xiàng)目中,使用具備4D連續(xù)真值(空間3D+時(shí)間連續(xù))支持的數(shù)據(jù)集,可將Transformer模型的收斂速度提升40%以上,訓(xùn)練穩(wěn)定性顯著增強(qiáng)。而無(wú)此類(lèi)數(shù)據(jù)的情況下一些長(zhǎng)序列結(jié)構(gòu)甚至無(wú)法穩(wěn)定訓(xùn)練。
4.5 促進(jìn)閉環(huán)部署與仿真評(píng)估
高質(zhì)量連續(xù)幀數(shù)據(jù)不僅用于模型訓(xùn)練,也為后續(xù)的模型驗(yàn)證與部署提供堅(jiān)實(shí)支撐。在閉環(huán)部署前,通常需在仿真平臺(tái)中對(duì)端到端策略進(jìn)行大規(guī)模行為回放與場(chǎng)景重演驗(yàn)證,而只有具備時(shí)間連續(xù)性的真實(shí)行為數(shù)據(jù),才能有效驅(qū)動(dòng)仿真系統(tǒng):
· 可基于真實(shí)軌跡構(gòu)造多車(chē)交通情景,復(fù)現(xiàn)稀缺互動(dòng)行為;
· 可模擬模型替代人類(lèi)駕駛員進(jìn)行同一路徑重演,對(duì)比預(yù)測(cè)軌跡與真實(shí)軌跡之間的偏差,評(píng)估模型行為一致性;
· 可通過(guò)插值、剪輯等方式構(gòu)建場(chǎng)景變體,對(duì)模型策略穩(wěn)定性進(jìn)行壓測(cè)。
此外,在實(shí)際部署過(guò)程中,若發(fā)現(xiàn)模型在某類(lèi)場(chǎng)景下存在“重復(fù)性誤判”,可通過(guò)連續(xù)幀回放精確定位策略崩潰點(diǎn),為后續(xù)模型重訓(xùn)、數(shù)據(jù)補(bǔ)充提供針對(duì)性樣本。
因此,具備高語(yǔ)義、長(zhǎng)時(shí)序、一致性標(biāo)簽的連續(xù)幀數(shù)據(jù),不僅用于前端訓(xùn)練,更是端到端系統(tǒng)實(shí)現(xiàn)閉環(huán)開(kāi)發(fā)的基礎(chǔ)資源。
五、行業(yè)代表性實(shí)踐與案例分析
在端到端智能駕駛系統(tǒng)的探索過(guò)程中,頭部科技公司和造車(chē)新勢(shì)力已逐步認(rèn)識(shí)到連續(xù)幀數(shù)據(jù)與高質(zhì)量真值標(biāo)簽在模型訓(xùn)練中的核心價(jià)值。無(wú)論是Waymo、Cruise等國(guó)際自動(dòng)駕駛先鋒,還是理想、小鵬、華為、亮道智能等中國(guó)智能駕駛主力軍,均在其技術(shù)路線(xiàn)或平臺(tái)架構(gòu)中,強(qiáng)調(diào)連續(xù)行為數(shù)據(jù)的采集、標(biāo)注與利用。
5.1 Waymo、Cruise 等國(guó)際領(lǐng)先企業(yè)的應(yīng)用實(shí)踐
Waymo:利用多幀軌跡監(jiān)督訓(xùn)練長(zhǎng)時(shí)策略模型
Waymo在其端到端建模中高度重視“駕駛者行為模式”的重建,其Motion數(shù)據(jù)子集中就明確提供連續(xù)時(shí)間片段,涵蓋目標(biāo)ID、速度、加速度、軌跡點(diǎn)等詳細(xì)標(biāo)簽。這使得模型不僅能預(yù)測(cè)當(dāng)前位置的控制指令,還能在更長(zhǎng)時(shí)間窗口內(nèi)回歸未來(lái)數(shù)秒的目標(biāo)行為。Waymo同時(shí)還在內(nèi)部實(shí)驗(yàn)中提出“多策略采樣+交互式回放”的數(shù)據(jù)構(gòu)建方法,以增強(qiáng)端到端模型對(duì)復(fù)雜交通情境中“多種合理解”的學(xué)習(xí)能力。
Cruise:閉環(huán)回放與重演強(qiáng)化策略一致性
Cruise在訓(xùn)練其城市端到端決策系統(tǒng)時(shí),強(qiáng)調(diào)用連續(xù)數(shù)據(jù)復(fù)現(xiàn)真實(shí)駕駛狀態(tài)變化。其獨(dú)特的回放+仿真結(jié)合訓(xùn)練流程中,模型需在“給定過(guò)去行為”的前提下預(yù)測(cè)未來(lái)動(dòng)作路徑。這種設(shè)計(jì)促使模型從“即時(shí)控制”轉(zhuǎn)向“連續(xù)意圖生成”。Cruise還建立專(zhuān)門(mén)的軌跡一致性度量指標(biāo),評(píng)估模型預(yù)測(cè)結(jié)果與人類(lèi)駕駛策略在時(shí)間維度上的擬合度,進(jìn)一步驗(yàn)證了連續(xù)數(shù)據(jù)對(duì)策略一致性的重要支撐作用。
5.2 理想、小鵬、華為、亮道智能:國(guó)內(nèi)代表性路徑實(shí)踐
理想汽車(chē):基于自然駕駛行為段構(gòu)建時(shí)序?qū)W習(xí)樣本
理想汽車(chē)在L2+系統(tǒng)中已部署多套輕量化端到端模型,其數(shù)據(jù)策略以“行為單元”為核心單位。通過(guò)對(duì)自然駕駛軌跡進(jìn)行聚類(lèi)分析與行為識(shí)別,提取如“變道插隊(duì)”“進(jìn)出匝道”等行為序列,構(gòu)成完整的時(shí)序樣本用于訓(xùn)練。同時(shí),理想還基于自研的多模態(tài)數(shù)據(jù)管理平臺(tái),實(shí)現(xiàn)視頻、點(diǎn)云、軌跡、控制數(shù)據(jù)的全鏈路同步,為端到端策略訓(xùn)練構(gòu)建了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
VLM模型在駕駛過(guò)程中,自動(dòng)標(biāo)注視頻幀和傳感 器信號(hào)以生成軌跡和其他標(biāo)簽。此外,對(duì)視頻幀應(yīng)用自動(dòng)描述生成,以生成行為和推理的描述
理想汽車(chē)推出ReconDreamer世界模型
理想汽車(chē)雙系統(tǒng)架構(gòu)
系統(tǒng)1(端到端)&系統(tǒng)2(VLM)架構(gòu)
小鵬汽車(chē):BEV+Transformer結(jié)構(gòu)融合連續(xù)幀輸入
小鵬在端到端感知-規(guī)控一體化方向的研究中,積極引入BEV表示與時(shí)序Transformer結(jié)構(gòu)。其訓(xùn)練樣本由10-20秒連續(xù)幀構(gòu)成,包含目標(biāo)跟蹤ID、語(yǔ)義地圖、路徑偏差等多層次真值標(biāo)注,極大提升了模型在多車(chē)交互和密集城市道路場(chǎng)景中的穩(wěn)定性。小鵬內(nèi)部評(píng)估數(shù)據(jù)顯示,在引入連續(xù)幀軌跡監(jiān)督后,其軌跡預(yù)測(cè)偏差下降約27%,同時(shí)在“追尾危險(xiǎn)”場(chǎng)景中提前干預(yù)率提升顯著。
小鵬XNGP模塊化端到端架構(gòu)
主流的端到端架構(gòu)vs小鵬汽車(chē)的端到端架構(gòu)
華為智能汽車(chē):構(gòu)建端到端訓(xùn)練的全流程時(shí)序平臺(tái)
華為通過(guò)其MDC平臺(tái),將數(shù)據(jù)閉環(huán)能力從靜態(tài)采集升級(jí)為“行為段級(jí)別”的連續(xù)信息提取。其數(shù)據(jù)平臺(tái)支持CAN、感知、定位、地圖等多模態(tài)信號(hào)的毫秒級(jí)時(shí)間對(duì)齊,并通過(guò)規(guī)則引擎自動(dòng)識(shí)別關(guān)鍵決策事件,輸出結(jié)構(gòu)化連續(xù)標(biāo)簽序列。同時(shí),華為在訓(xùn)練端采用“時(shí)間窗滾動(dòng)預(yù)測(cè)”機(jī)制,使端到端模型能夠自適應(yīng)地感知過(guò)去狀態(tài)變化并動(dòng)態(tài)調(diào)整策略,顯著提升城市通勤中的跟車(chē)舒適性與安全性。
華為智能駕駛ADS版本演進(jìn)
算法從ADS 2.0升級(jí)至ADS 3.0
ADS 3.0采用兩段式端到端架構(gòu)
亮道智能:提供工業(yè)級(jí)4D連續(xù)幀數(shù)據(jù)標(biāo)注解決方案
亮道智能作為領(lǐng)先的自動(dòng)駕駛數(shù)據(jù)服務(wù)平臺(tái),率先在國(guó)內(nèi)構(gòu)建了可規(guī);a(chǎn)“4D真值數(shù)據(jù)”的工業(yè)流程體系。其服務(wù)能力主要體現(xiàn)在以下幾個(gè)方面:
· 跨模態(tài)多幀融合標(biāo)注能力:支持RGB、LiDAR、Radar、IMU等多源數(shù)據(jù)的時(shí)間同步、空間對(duì)齊和一致性校驗(yàn),確保每一幀標(biāo)注在上下文語(yǔ)義上可閉合。
· 時(shí)序一致性與目標(biāo)ID跟蹤機(jī)制:引入多幀插值、軌跡重建與目標(biāo)追蹤算法,實(shí)現(xiàn)關(guān)鍵目標(biāo)在整個(gè)時(shí)間段內(nèi)的ID連續(xù)性與行為一致性,滿(mǎn)足Transformer類(lèi)模型的訓(xùn)練要求。
亮道智能感知算法訓(xùn)練數(shù)據(jù)閉環(huán)
六、結(jié)語(yǔ):從“數(shù)據(jù)可用”走向“語(yǔ)義連續(xù)”
端到端智能駕駛模型的落地之路,歸根結(jié)底是一條對(duì)“行為理解”不斷精進(jìn)的路徑,而非僅靠模型結(jié)構(gòu)堆疊所能解決。正如前文所述,當(dāng)模型從感知、規(guī)劃、控制一體化地去學(xué)習(xí)駕駛策略時(shí),其對(duì)數(shù)據(jù)的要求不再是“量”與“廣度”優(yōu)先,而是更深層次的“連續(xù)性”、“一致性”與“語(yǔ)義完整性”。
在這一背景下,連續(xù)幀數(shù)據(jù)的價(jià)值不止于簡(jiǎn)單的時(shí)間序列堆疊,更在于其承載了場(chǎng)景演化的語(yǔ)境邏輯。只有當(dāng)數(shù)據(jù)能夠真實(shí)呈現(xiàn)駕駛行為從觀測(cè)、判斷到執(zhí)行的全過(guò)程,模型才有可能真正建立起對(duì)人類(lèi)策略意圖的理解能力。
產(chǎn)業(yè)實(shí)踐也正朝著這一方向加速前進(jìn):從Waymo的軌跡重演,到小鵬、理想對(duì)自然行為段的高保真采樣,再到亮道智能的4D語(yǔ)義標(biāo)注能力,行業(yè)上下游正逐步形成以“語(yǔ)義行為”為核心的訓(xùn)練數(shù)據(jù)生態(tài)體系。這不僅讓端到端模型更加穩(wěn)健與可信,也為未來(lái)構(gòu)建“有責(zé)任邊界”的自動(dòng)駕駛系統(tǒng)提供基礎(chǔ)支撐。
因此,與其說(shuō)“端到端”的挑戰(zhàn)在模型端,不如說(shuō)它是一場(chǎng)對(duì)數(shù)據(jù)體系結(jié)構(gòu)的再定義。當(dāng)我們真正實(shí)現(xiàn)從“幀標(biāo)簽”到“行為真值”的躍遷,端到端智能駕駛的商業(yè)化與規(guī);涞兀趴赡軓臉(gòu)想走向現(xiàn)實(shí)。
Tesla 2021年發(fā)布基于BEV+Transformer的感知算法架構(gòu)
Tesla 2022年引入Occupancy占用網(wǎng)絡(luò)
FSD神經(jīng)網(wǎng)絡(luò)匯總
原文標(biāo)題 : 端到端智能駕駛訓(xùn)練困局:連續(xù)幀真值數(shù)據(jù)缺失下的 “模型幻覺(jué)” 破局之道

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線(xiàn)會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線(xiàn)下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專(zhuān)題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫(huà)了十年的餅
- 7 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 8 AI的夏天:第四范式VS云從科技VS地平線(xiàn)機(jī)器人
- 9 張勇等人退出阿里合伙人
- 10 AI視頻,攪動(dòng)1.5萬(wàn)億市場(chǎng)