訂閱
糾錯
加入自媒體

語言模型是否是自動駕駛的必選項?

自動駕駛的發(fā)展并非一成不變,在傳統(tǒng)自動駕駛系統(tǒng)中,通常采用分層的體系架構(gòu)。最底層是感知層,負(fù)責(zé)將攝像頭、雷達、激光雷達等傳感器數(shù)據(jù)轉(zhuǎn)化為車輛能夠“看到”的環(huán)境信息;其上是跟蹤與狀態(tài)估計層,負(fù)責(zé)在時間維度關(guān)聯(lián)感知結(jié)果,推斷目標(biāo)的速度與運動趨勢;預(yù)測層則基于當(dāng)前狀態(tài),估計其他道路使用者的未來可能軌跡;決策與路徑規(guī)劃層綜合所有信息,生成車輛執(zhí)行的行動策略;最后,控制層將規(guī)劃結(jié)果轉(zhuǎn)化為具體的油門、剎車和轉(zhuǎn)向指令。

圖片源自:網(wǎng)絡(luò)

這種結(jié)構(gòu)化設(shè)計具有顯著優(yōu)勢,每一層在延遲、可靠性和驗證方式上要求不同,分層使得模塊可獨立優(yōu)化、便于問題定位。如傳感器異?苫厮葜粮兄獙优挪,控制環(huán)路不穩(wěn)可對控制器單獨壓力測試。模塊化還允許在關(guān)鍵閉環(huán)中使用已嚴(yán)格驗證的算法,而將依賴常識推理的任務(wù)交給更靈活的模型處理,從而兼顧實時控制的安全性與語義層面的智能判斷。

除了結(jié)構(gòu)化的架構(gòu)外,端到端的概念被越來越多企業(yè)多推崇。所謂端到端,就是把感知到控制盡可能用大模型學(xué)習(xí)出來。端到端理論上可以減少模塊之間的誤差累積,學(xué)出的行為可能更連貫、更“自然”。但這種路徑帶來的問題也很明顯,可解釋性差,驗證起來很難,而且需要極大量、極多樣的數(shù)據(jù)來覆蓋各種罕見場景。因此在實際的技術(shù)方案中,會在最需要確定性的地方保留傳統(tǒng)可驗證方法,而在需要語義理解或大范圍推理的地方引入更靈活的模型。

語言模型放進自動駕駛有何作用?

語言模型擅長處理和生成語言、能做基于大規(guī)模語料的推理和常識補全,把它用在自動駕駛里,多數(shù)時候是放在語義層和生成/解釋層,而不是直接替代感知或控制那類需要精確幾何計算的工作。

車輛軌跡預(yù)測,圖片源自:網(wǎng)絡(luò)

在一些交通場景中,感知模塊會告訴系統(tǒng)“有若干個物體在前方”,但把這些物體上升為可以驅(qū)動決策的語義信息,往往需要把感知結(jié)果和道路規(guī)則、施工通告、臨時交通標(biāo)志等背景信息結(jié)合起來。語言模型擅長把結(jié)構(gòu)化的感知結(jié)果和文本化的知識聯(lián)系起來,輸出更接近人類理解的描述。換句話說,它能把“看到的點”變成“能讀懂的語義”,這對處理臨時路況、復(fù)雜標(biāo)識或人類語言說明很有幫助。

語言模型在高層策略描述上也可以發(fā)揮巨大作用。遇到交通參與者復(fù)雜互動的場景,系統(tǒng)除了需要給出一條可執(zhí)行軌跡,有時也需要說明為什么選擇這條軌跡、有哪些可替代方案以及這些方案的語義判斷依據(jù)。語言模型可以把這些理由或方案用自然語言或預(yù)定義模板羅列出來,便于運維人員審閱或作為人機交互的解釋輸出。這里的關(guān)鍵是模型輸出的是“解釋”和“備選方案”,而不是把解釋當(dāng)作直接可執(zhí)行的指令。

語言模型在自動駕駛的數(shù)據(jù)與仿真領(lǐng)域也展現(xiàn)出重要價值。為了構(gòu)建更魯棒的自動駕駛系統(tǒng),尤其是在覆蓋罕見的長尾場景方面,仿真與合成數(shù)據(jù)不可或缺。語言模型能夠自動生成多樣化的場景描述、對話腳本及測試用例,并通過場景生成器將這些語義內(nèi)容轉(zhuǎn)化為可執(zhí)行的仿真環(huán)境。借助這一能力,系統(tǒng)能夠在虛擬環(huán)境中高效復(fù)現(xiàn)現(xiàn)實中難以采集的極端情況,從而顯著提升訓(xùn)練與驗證的覆蓋范圍。

此外,語言模型在將復(fù)雜技術(shù)內(nèi)容轉(zhuǎn)化為自然語言方面也具有突出優(yōu)勢。無論是車內(nèi)語音交互、對外部管理系統(tǒng)的自然語言接口,還是在事后將故障日志整理成易于理解的報告,語言模型都能發(fā)揮關(guān)鍵作用。對于普通乘客或維護團隊而言,將復(fù)雜的傳感器數(shù)據(jù)與決策過程轉(zhuǎn)化為一句清晰易懂的說明,遠(yuǎn)比直接呈現(xiàn)原始數(shù)據(jù)更具實用價值。

語言模型為什么不能直接替代核心駕駛技術(shù)?

把能做的講清楚之后,有必要把不能做的也講明白。語言模型的本質(zhì)決定了它不可能完全替代那些需要精確數(shù)值計算、實時閉環(huán)控制和可證明性證明的環(huán)節(jié)。

圖片源自:網(wǎng)絡(luò)

語言模型輸出的概率性本質(zhì)決定了其生成內(nèi)容雖然通常連貫合理,卻未必完全符合物理事實。尤其在信息不完整或存在沖突的情況下,模型可能生成看似合理但實際錯誤的結(jié)論。由于自動駕駛系統(tǒng)對判斷錯誤的容忍度極低,任何不準(zhǔn)確輸出都可能引發(fā)嚴(yán)重后果,因此將語言模型的自由生成結(jié)果直接用于安全關(guān)鍵決策具有較高風(fēng)險。

實時性與算力限制是另一重要約束。車輛在動態(tài)道路環(huán)境中通常需要在幾十至幾百毫秒內(nèi)完成決策與控制。然而,當(dāng)前大規(guī)模語言模型的推理過程仍對計算資源有較高需求,難以在車端直接實現(xiàn)全尺寸模型的實時響應(yīng)。盡管可采用模型壓縮、知識蒸餾或?qū)S糜布仁侄芜M行優(yōu)化,但這些方法往往伴隨性能損失或帶來更復(fù)雜的工程部署問題。

模型的“接地”能力同樣至關(guān)重要,即輸出必須嚴(yán)格基于當(dāng)前傳感器數(shù)據(jù)與物理約束。語言模型的知識主要來源于離線訓(xùn)練語料,而駕駛決策高度依賴如幾何關(guān)系、速度與動力學(xué)狀態(tài)等實時感知信息。要實現(xiàn)語義推理與感知事實的對齊,必須建立可靠的多模態(tài)輸入機制,將圖像、點云等感知數(shù)據(jù)以低損失方式傳遞給模型,并確保其輸出不脫離實際觀測。這類多模態(tài)接地機制的工程實現(xiàn)難度較高,容易產(chǎn)生語義推斷與物理現(xiàn)實之間的不一致。

在法規(guī)與系統(tǒng)驗證層面,自動駕駛也必須滿足嚴(yán)格的測試與合規(guī)要求,需要證明系統(tǒng)在各種場景下的行為可控、可測。語言模型的黑箱特性使其難以提供形式化、數(shù)學(xué)化的安全保證。因此,在現(xiàn)有工程實踐中,通常將最高風(fēng)險的閉環(huán)控制任務(wù)交由可驗證的小型模塊處理,而語言模型的輸出則多作為輔助信息或解釋性內(nèi)容使用,以此在發(fā)揮其智能優(yōu)勢的同時確保系統(tǒng)的整體安全性與可認(rèn)證性。

系統(tǒng)集成時有哪些看起來不起眼但很關(guān)鍵的細(xì)節(jié)?

在將語言模型實際集成為系統(tǒng)組件時,必須對一系列工程細(xì)節(jié)加以周密考慮。這些細(xì)節(jié)雖看似瑣碎,卻直接關(guān)系到系統(tǒng)能否安全、穩(wěn)定地運行。

圖片源自:網(wǎng)絡(luò)

接口設(shè)計需要明確約束。系統(tǒng)里要事先定義好語言模型輸出的格式和語義范圍,避免模型隨意生成不可解析的文本。常見的做法是把模型的回復(fù)限定到一套事先定義好的模板或標(biāo)簽集合里,然后再由驗證模塊把這些輸出轉(zhuǎn)成下層可執(zhí)行的指令。這樣做的目的在于把概率性語言輸出變成工程上可控的信號,防止上層的自由發(fā)揮直接影響控制層的安全邊界。

多模態(tài)數(shù)據(jù)如何供給模型也要慎重考慮。感知模塊產(chǎn)出的信息形式很多樣,包括稠密圖像、稀疏點云和時間序列軌跡等。想把這些異構(gòu)數(shù)據(jù)有效地傳給以文本為主的模型,有些團隊會把結(jié)構(gòu)化信息符號化成短文本描述后再喂給模型,這樣雖然簡單但會丟失細(xì)節(jié)。還有一些會采用多模態(tài)編碼器,把圖像或點云映射到與語言兼容的嵌入空間,這樣信息保留更好,但實現(xiàn)和部署復(fù)雜度更高。

此外,對模型輸出進行校驗的機制也必不可少。校驗可以是規(guī)則驅(qū)動的,也可以是用小型判別模型來做。無論采用哪種方式,目標(biāo)都是在把語言模型的建議傳給下層執(zhí)行器之前,先評估其可執(zhí)行性、安全性和與當(dāng)前感知事實的一致性。在實際設(shè)計時,經(jīng)常把這個校驗器設(shè)計成一個獨立模塊,只有通過校驗的輸出才能被轉(zhuǎn)化為規(guī)劃器能夠接受的約束或指令。

評測體系要擴展,不能只靠傳統(tǒng)指標(biāo)。在引入語言模型之后,評測不再僅限于感知精度或軌跡偏差,還要關(guān)注語義穩(wěn)定性、輸出一致性和與感知事實的一致性。評測用例需要刻意設(shè)計能誘發(fā)模型“編故事”的情形,看模型在信息不全、信息沖突或極端擾動下會不會產(chǎn)生不合邏輯的結(jié)論。此外把模型放進閉環(huán)仿真環(huán)境里進行壓力測試也是非常必要的,只有在大量擾動和邊界條件下通過檢驗,才能說明整體系統(tǒng)在這些維度上的魯棒性。

部署架構(gòu)的權(quán)衡很多時候決定整體成敗。把大模型放在云端能利用強算力,但會引入網(wǎng)絡(luò)延遲和連通性風(fēng)險;把模型盡量壓到車端能降低延遲但會受限于硬件和能耗;采用邊緣與云配合能兼顧兩者卻增加系統(tǒng)復(fù)雜性。因此,需要根據(jù)不同功能的實時性和安全等級來決定哪部分邏輯允許云端參與、哪部分必須留在車端,并且為各種網(wǎng)絡(luò)和硬件故障設(shè)計回退策略。

最后的話

語言模型是一個擅長語義理解、生成文本和做常識推理的工具,把它用在自動駕駛里能在很多非實時或者語義密集的環(huán)節(jié)發(fā)揮很大作用。典型的落地場景包括把感知結(jié)果轉(zhuǎn)成語義描述、為復(fù)雜交互場景提供可讀的策略說明、在仿真和數(shù)據(jù)生成里擴充長尾樣本,以及把復(fù)雜技術(shù)信息以人能讀懂的方式輸出給乘客或運維人員。

圖片源自:網(wǎng)絡(luò)

同時也要明白,語言模型不適合替代那些要求嚴(yán)格實時性、精確幾何推導(dǎo)或需要數(shù)學(xué)證明的控制環(huán)路。它有生成概率性的本質(zhì),可能在信息不足的情況下給出不準(zhǔn)確的結(jié)論;它對算力和延遲敏感,直接在車端做全尺寸推理現(xiàn)實上不容易;它與實際感知的接地工作工程量大,必須有專門的接口和校驗機制。監(jiān)管和驗證的要求更是限制了把語言模型當(dāng)成黑箱來承擔(dān)安全關(guān)鍵職責(zé)。

對于語言模型是否應(yīng)成為自動駕駛的必選項,關(guān)鍵在于厘清其適用的具體場景、使用方式及相應(yīng)的風(fēng)險管控機制。我們更應(yīng)將語言模型視為一種工具,在工程實踐中明確其邊界,將高風(fēng)險的實時控制閉環(huán)留給可驗證的傳統(tǒng)模塊,而把語言模型的輸出定位為解釋信息、輔助提示或非實時決策支持。這種分工方式既符合系統(tǒng)安全要求,也體現(xiàn)了工程落地的務(wù)實邏輯。

-- END --

       原文標(biāo)題 : 語言模型是否是自動駕駛的必選項?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號