訂閱
糾錯
加入自媒體

自動駕駛中常提的一段式(單段)端到端是個啥?

自動駕駛技術(shù)的發(fā)展,催生出端到端技術(shù)的應(yīng)用,一段式端到端(end-to-end single-stage)作為端到端技術(shù)的一種實現(xiàn)方式,指的是用一個學(xué)習(xí)模型把傳感器輸入(比如攝像頭圖像、激光雷達點云、慣導(dǎo)數(shù)據(jù)等)直接映射到車輛控制指令(例如轉(zhuǎn)向角、油門、制動)。換句話說,一段式端到端中間不再把感知、定位、預(yù)測、規(guī)劃、控制拆成很多獨立模塊再逐個對接,而是讓一個神經(jīng)網(wǎng)絡(luò)或一套緊密耦合的學(xué)習(xí)組件,從感知到?jīng)Q策一次性輸出動作序列。實現(xiàn)的手段可以是監(jiān)督學(xué)習(xí)(模仿人類駕駛員)、強化學(xué)習(xí)、或者二者結(jié)合的混合策略。一段式端到端中的“一段式”強調(diào)的是過程鏈條被盡可能壓縮成連續(xù)可微的映射,而不是經(jīng)典的“多段式”分模塊流水線。

一段式端到端這并不意味著沒有任何結(jié)構(gòu)或中間表征,F(xiàn)實中的端到端系統(tǒng)往往仍然會在網(wǎng)絡(luò)內(nèi)部學(xué)習(xí)出語義、車道、障礙物等中間表示,或者由分支去估計不同行為目標(biāo)。但整體來看,外部接口是輸入到輸出的直接關(guān)系,系統(tǒng)設(shè)計更偏向整體優(yōu)化而非局部最優(yōu)化。

一段式端到端的優(yōu)勢在哪里?

端到端之所以被很多廠家應(yīng)用到自動駕駛中,主要是因為其簡潔。傳統(tǒng)的自動駕駛系統(tǒng)把感知、定位、預(yù)測、規(guī)劃和控制拆開來,各自需要大量實際測試、手工規(guī)則和接口設(shè)計,模塊之間接口錯配、誤差傳遞和瓶頸定位都會導(dǎo)致一系列的麻煩。端到端把“可學(xué)習(xí)”的部分盡量合并,允許整個系統(tǒng)通過一個統(tǒng)一的訓(xùn)練目標(biāo)來協(xié)調(diào)內(nèi)部表示和動作,從理論上有助于學(xué)到對最終任務(wù)更有利的特征。簡而言之,一些在分段系統(tǒng)里被丟失或難以傳遞的上下文信息,端到端模型可以直接利用。

端到端在一些復(fù)雜的感知-決策耦合場景里表現(xiàn)出極大的潛力。比如在人多車雜的城市環(huán)境,規(guī)則和罕見場景交織,手工工程很難窮舉所有要點;而大規(guī)模數(shù)據(jù)驅(qū)動的端到端方法有機會從大量示例中捕捉到細微的決策模式,從而給出更順滑、行為更人性化的控制策略。端到端也讓閉環(huán)優(yōu)化成為可能,用最終控制目標(biāo)(比如舒適度、安全距離、到達時間等)來直接優(yōu)化整個網(wǎng)絡(luò),能把損失函數(shù)聚焦在實際用戶關(guān)心的度量上,而不是在每個中間模塊上分散優(yōu)化。

端到端模型在推理階段可能會更省時。如果把所有模塊合并成一個高效網(wǎng)絡(luò),減少序列化的數(shù)據(jù)傳輸和接口轉(zhuǎn)換,系統(tǒng)整體延遲可以降低,這對高速決策場景有好處。當(dāng)然,這要求網(wǎng)絡(luò)設(shè)計與實現(xiàn)非常高效。

一段式端到端實現(xiàn)難點在哪里?

數(shù)據(jù)量與長尾問題是端到端需要面對的首要難題。要讓模型學(xué)會安全駕駛,尤其是在極端和罕見場景(比如復(fù)雜交叉口、惡劣天氣、突發(fā)行為)中給出正確反應(yīng),需要海量且高度多樣的數(shù)據(jù)。僅靠常規(guī)道路駕駛錄像往往無法覆蓋長尾。因此需要結(jié)合高保真仿真、數(shù)據(jù)增強、場景合成和刻意采集罕見事件的策略。仿真可以快速生成危險場景的訓(xùn)練樣本,但仿真到現(xiàn)實(sim-to-real)的差距需要通過域隨機化、風(fēng)格遷移或混合真實+合成數(shù)據(jù)來縮小。

監(jiān)督學(xué)習(xí)下的行為克隆容易出現(xiàn)“狀態(tài)分布偏移”問題,也就是模型在訓(xùn)練時見到的是人類在良好軌跡上的輸入分布,而在閉環(huán)應(yīng)用中模型自己的小偏差會導(dǎo)致狀態(tài)進入訓(xùn)練集未覆蓋的區(qū)域,從而級聯(lián)出更多錯誤。針對這個問題可以使用數(shù)據(jù)聚合(例如DAgger),即在系統(tǒng)運行時收集模型造成的分布并用專家數(shù)據(jù)修正;強化學(xué)習(xí)也常被用來讓模型通過自我試錯來學(xué)習(xí)恢復(fù)策略,不過強化學(xué)習(xí)在現(xiàn)實世界直接試錯存在巨大風(fēng)險,因此在仿真或受控環(huán)境中應(yīng)用,或結(jié)合現(xiàn)實示范進行離線強化學(xué)習(xí)。

可解釋性與可驗證性是端到端技術(shù)產(chǎn)業(yè)化的一大難點。端到端網(wǎng)絡(luò)內(nèi)的決策路徑難以用傳統(tǒng)工程方式證明其是否滿足安全約束。監(jiān)管和車廠都需要某種程度的可解釋證據(jù)以支持上線與召回。為此,常采取混合方案來實現(xiàn)自動駕駛,在關(guān)鍵安全層引入傳統(tǒng)確定性控制器或基于規(guī)則的監(jiān)控器,網(wǎng)絡(luò)輸出作為建議而非唯一執(zhí)行依據(jù);或者設(shè)計可解釋的中間任務(wù)(比如同時回歸車輛到車道邊界距離、檢測行人意圖等),以增加透明度。此外,不同模型的不確定性估計(例如模型集合、貝葉斯近似或溫度標(biāo)定)也被用來在運行時觸發(fā)安全退化策略。

訓(xùn)練目標(biāo)與行為魯棒性的錯配也是端到端經(jīng)常會遇到的問題。簡單的模仿?lián)p失(最小化動作差異)并不等價于駕駛性能最優(yōu)(例如安全和舒適)。因此會采用復(fù)合損失設(shè)計,把安全約束、乘員舒適度、交通規(guī)則遵守等指標(biāo)納入訓(xùn)練目標(biāo),或者在訓(xùn)練時引入規(guī)劃器/控制器作為教師提供更合適的目標(biāo)信號。

感知與多模態(tài)融合在端到端里并未消失,反而轉(zhuǎn)移到網(wǎng)絡(luò)內(nèi)部。如何高效融合相機、雷達、激光雷達、定位與地圖信息,既保證信息冗余以防單傳感器失效,又能被網(wǎng)絡(luò)利用到關(guān)鍵決策點,是系統(tǒng)設(shè)計時需要考慮的問題。常用做法是在網(wǎng)絡(luò)架構(gòu)設(shè)計上保留專門的傳感器分支、跨模態(tài)注意力機制,以及顯式的時間序列結(jié)構(gòu)(RNN、Transformer或時序卷積)來建模動態(tài)變化。

閉環(huán)控制的穩(wěn)定性與物理約束也很關(guān)鍵。端到端輸出直接驅(qū)動車輛執(zhí)行,模型必須對物理約束(最大轉(zhuǎn)角、加速度限制、輪胎極限等)有內(nèi)在遵守,或由下層控制器做硬約束。很多系統(tǒng)采取“學(xué)習(xí)+傳統(tǒng)控制”的混合策略,把端到端網(wǎng)絡(luò)負責(zé)產(chǎn)生參考軌跡或高層控制目標(biāo),而交由MPC或PID層做實際執(zhí)行與物理約束滿足。還有研究嘗試把MPC融入可微學(xué)習(xí)框架,實現(xiàn)可微規(guī)劃層,從而保留端到端訓(xùn)練能力又不失物理約束。

對于端到端來說,訓(xùn)練樣本的標(biāo)注方式也非常有挑戰(zhàn)。若采用行為克隆,需要高質(zhì)量的動作標(biāo)簽;若采用基于意圖或軌跡的監(jiān)督,標(biāo)簽空間更大但語義更豐富;若采用強化學(xué)習(xí),需要精心設(shè)計獎賞函數(shù)以避免“走捷徑”的風(fēng)險。離線強化學(xué)習(xí)在近年受關(guān)注,但對數(shù)據(jù)覆蓋與分布外泛化的要求極高。

還有就是測試與驗證。端到端系統(tǒng)的測試不能僅依賴大量道路里程數(shù)來證明安全,因為統(tǒng)計上覆蓋長尾所需里程過于龐大。場景化測試、基于風(fēng)險的場景優(yōu)先生成、閉環(huán)仿真驗真、形式化安全驗證和基于規(guī)則的運行時監(jiān)測共同構(gòu)成較為現(xiàn)實的測試策略。換言之,端到端并不意味著放棄工程驗證,而是需要更豐富、面向場景的驗證框架。

實際部署的考量與未來方向

對于自動駕駛行業(yè)來說,一段式端到端更像是長期有前景但短期受限的路線。它在研究和受控環(huán)境(比如封閉園區(qū)、限定路況的測試車隊或部分高級別自動化功能)里表現(xiàn)搶眼,能以較少的規(guī)則和工程工作實現(xiàn)流暢行為。但要在開放道路、復(fù)雜法規(guī)和多變場景下大規(guī)模部署,仍需解決前面提到的數(shù)據(jù)覆蓋、可驗證性和魯棒性問題。

未來可行的方向是采用“分層端到端”或“端到端+保障”的混合方案。低層的縱橫控制與物理約束交給傳統(tǒng)可信控制器,中高層用端到端網(wǎng)絡(luò)生成參考動作或策略建議,此外并行運行基于規(guī)則的監(jiān)測單元在檢測到高不確定性時接管或觸發(fā)更保守的策略。這樣既保留了端到端帶來的學(xué)習(xí)潛力,也確保了必要的安全和可控性。

更高保真仿真平臺+自動化場景生成也可以緩解長尾采集問題;離線強化學(xué)習(xí)和逆強化學(xué)習(xí)有望提供更合適的目標(biāo)信號而不是簡單模仿;可解釋性和不確定性估計技術(shù)(例如可解釋注意力、因果表示學(xué)習(xí)、預(yù)測不確定性量化)會改善監(jiān)管和運行時監(jiān)控的可接受性;可微規(guī)劃與學(xué)習(xí)控制的融合能把物理約束引入訓(xùn)練過程,從而提高閉環(huán)穩(wěn)定性。

最后的話

一段式端到端對于自動駕駛來說并不是萬能藥,但它代表了用數(shù)據(jù)和學(xué)習(xí)把復(fù)雜行為直接“學(xué)會”的一種思路。對于某些應(yīng)用場景,這種方法能顯著降低手工規(guī)則和接口的工程成本,帶來更自然的行為和更優(yōu)的整體目標(biāo)表現(xiàn)。但在面向高安全等級的商業(yè)化部署時,端到端需要與工程化的保障手段、形式化驗證與豐富的數(shù)據(jù)策略結(jié)合,才能既享受學(xué)習(xí)方法的優(yōu)點,又滿足現(xiàn)實世界對安全與可靠性的嚴格要求。

-- END --

       原文標(biāo)題 : 自動駕駛中常提的一段式(單段)端到端是個啥?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號