輔助駕駛從VLM與VLA:2025年下半年的核心轉變
芝能科技出品
輔助駕駛技術正從基于規(guī)則和模塊化的傳統(tǒng)范式,邁向由視覺語言模型(VLM)和視覺-語言-動作模型(VLA)驅動的新階段。
● VLM作為車輛的“認知核心”,通過統(tǒng)一處理多模態(tài)感知數據和自然語言信息,使車輛能夠理解復雜的交通場景、遵守抽象的交通規(guī)則并響應人類指令。
● VLA則在VLM的理解基礎上,深度融合感知、理解與車輛控制,實現端到端、擬人化的駕駛行為。
01
從VLM到VLA
傳統(tǒng)的自動駕駛依賴精確的環(huán)境建模和規(guī)則編程,難以應對現實世界的復雜性與模糊性。
視覺語言模型(VLM)旨在解決這一問題,構建車輛的“認知核心”。
VLM的關鍵在于能夠統(tǒng)一處理來自攝像頭、激光雷達等傳感器的感知數據,以及交通規(guī)則文本、導航信息、自然語言指令等語言數據。通過強大的模型架構,VLM能將這些異構信息編碼到共同的特征空間,實現跨模態(tài)的關聯與推理。
這使得車輛不僅僅是識別障礙物,更能理解場景的深層含義,例如識別特定標志牌并結合交通法規(guī)判斷當前行為是否合法,或理解用戶“靠邊停車”的語音指令并規(guī)劃執(zhí)行。
● VLM的應用廣泛,例如:
◎ 場景語義解析: 識別并理解“潮汐車道”、“施工繞行”等復雜交通語境,生成符合規(guī)則的駕駛決策。
◎ 智能人車交互: 理解自然語言指令(如“切換駕駛模式”),或識別視覺興趣點(如充電樁)并與之關聯。
◎ 高階安全判斷: 分析復雜場景(如無保護左轉)下潛在風險,輔助決策。
實現這些能力需要強大的計算支持,VLM的出現,讓自動駕駛系統(tǒng)從“看清”邁向“看懂”,是實現更高層級自主性的前提。理解世界僅僅是第一步,將理解轉化為恰當的行動是自動駕駛的最終目標。
視覺-語言-動作模型(VLA)正是負責這一轉化過程,實現從感知、理解到車輛控制的端到端連接。VLA將來自VLM或其他感知模塊的環(huán)境理解,與車輛的轉向、加速、制動等控制指令深度耦合,學習直接從輸入到輸出的映射。
它形成了一個端到端(End-to-End)的閉環(huán):接收感知和語言輸入,內部進行決策,直接輸出控制信號。這種模式簡化了傳統(tǒng)系統(tǒng)的復雜層級,有望提升系統(tǒng)整體響應速度和魯棒性。
采用Diffusion模型生成駕駛軌跡,并結合ODE采樣器優(yōu)化規(guī)劃過程,顯著提升了軌跡生成質量和復雜路況下的博弈能力,這代表了VLA在行為生成層面的重要進展。
VLM和VLA并非孤立工作,而是緊密協同, VLM理解場景、規(guī)則和指令,為VLA提供宏觀的駕駛意圖和策略指導(例如:根據導航規(guī)劃變道、識別危險需避讓)。
VLA根據VLM的指導和實時的感知信息,生成并執(zhí)行精確的車輛軌跡和控制動作。VLA的執(zhí)行結果(成功或失。┛勺鳛榉答,反向優(yōu)化VLM對場景的理解和決策邏輯,形成持續(xù)學習的閉環(huán)。
02
VLA+英偉達Thor,
“空間智能體”
在導入VLA的狀態(tài)中,理想汽車是很快的。MindVLA(視覺-語言-行動模型)開始向融合空間智能、語言智能和行為智能的物理人工智能邁進。
圍繞3D空間理解、高效模型架構、增強邏輯推理、優(yōu)化軌跡生成、高精度仿真以及卓越泛化能力,讓車輛具備感知、思考和自主行動的能力。
● 3D高斯(3D Gaussian)作為核心中間表征,這是其空間智能的基礎。
與傳統(tǒng)的點云或體素表示相比,3D高斯能同時捕捉物體的幾何形狀和外觀信息,具有更強的語義表達能力和多粒度、多尺度的幾何表達靈活性。這使得系統(tǒng)能更全面、高效地感知和理解復雜的3D環(huán)境。
結合海量數據上的自監(jiān)督學習,系統(tǒng)能自動從無標注數據中提取有效的3D特征,大幅提升環(huán)境感知的精度和效率,為后續(xù)決策奠定堅實基礎。
為了在計算資源有限的車端環(huán)境運行大規(guī)模模型,采用了MoE(Mixture of Experts)架構并引入稀疏注意力(Sparse Attention)。
MoE允許模型在擁有龐大參數量的同時,針對特定輸入只激活部分“專家”網絡,實現計算的稀疏化,從而在不犧牲模型規(guī)模的前提下,維持較高的端側推理效率。
● 邏輯推理能力是提升的核心,通過訓練LLM基座模型學習人類思考模式,并有機結合**“快思考”(實時響應)和“慢思考”(深度推理),模型能根據不同駕駛情境靈活切換決策模式,提升決策的安全性和合理性。
同時,為了最大化利用NVIDIA Drive AGX算力,小詞表、投機推理和并行解碼等技術,結合英偉達的推理優(yōu)化,實現了高達7倍的推理效率提升,確保復雜推理也能滿足實時性要求。
● 擴散模型(Diffusion Model)優(yōu)化駕駛軌跡,以生成高質量復雜數據聞名,應用于軌跡生成有望生成更平滑、更自然、更具博弈性的駕駛路徑。通過自車行為生成與他車軌跡預測的聯合建模,系統(tǒng)能更好地預測交通參與者的行為并進行合理應對。
通過構建人類偏好數據集并引入RLHF(基于人類反饋的強化學習)微調,能更好地對齊人類駕駛習慣,顯著提升復雜和極端場景下的安全底線。
NVIDIA Drive AGX平臺和生態(tài)的支撐,在世界模型、NRE、模型訓練加速以及端側優(yōu)化部署等領域的技術進展。
小結在2025年,我們看到VLA通過3D高斯表征、MoE架構和Diffusion模型,實現了高效的空間理解、邏輯推理和軌跡生成,英偉達的Thor芯片、NVIDIA Cosmos世界模型和NRE引擎為VLA提供了強大的算力支持和仿真環(huán)境,加速了技術從實驗室到量產的轉化。
原文標題 : 輔助駕駛從VLM與VLA:2025年下半年的核心轉變
請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
-
即日-9.16點擊進入 >> 【限時福利】TE 2025國際物聯網展·深圳站
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
精彩回顧立即查看>> 7月30日- 8月1日 2025全數會工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 【在線研討會】普源精電--激光原理應用與測試解決方案
-
精彩回顧立即查看>> 【工程師系列】汽車電子技術在線大會
推薦專題
- 1 從技術狂歡到安全合規(guī) :2025上半年自動駕駛融資進入“場景閉環(huán)”新周期
- 2 智駕技術戰(zhàn):特斯拉、華為、理想、小鵬和比亞迪,誰才是未來?
- 3 最嚴輔助駕駛新規(guī),兩部門再劃監(jiān)管、宣傳紅線
- 4 百度蘿卜快跑:從北大嶼山到香港島:自動駕駛在香港的 “三級跳” 啟示錄
- 5 ADS 4推送在即,華為乾崑憑什么率先奪下L3的“橋頭堡”?
- 6 名爵翻身把歌唱?搭載半固態(tài)電池,全新MG4大定39分鐘破萬
- 7 尚界新車16.98萬起!鴻蒙智行“四界”齊發(fā),第二階段拼什么?
- 8 輔助駕駛出海、具身智能落地,稀缺的3D數據從哪里來?
- 9 “紅!笔袌鲆廊挥行隆盎印,2025成都車展重磅SUV全面看
- 10 自動駕駛專利大揭秘:中國憑啥占了全球超四成?百度公司3477件申請量霸氣登頂榜首