VLA與世界模型會(huì)讓自動(dòng)駕駛汽車(chē)走多遠(yuǎn)?
在一個(gè)雨夜的十字路口,你開(kāi)車(chē)行駛到路中央,前方是一輛猶豫不決的電動(dòng)車(chē),左側(cè)有一臺(tái)打著轉(zhuǎn)向燈的出租車(chē),右后方突然閃過(guò)一束遠(yuǎn)光燈。這時(shí)候你會(huì)怎么做?經(jīng)驗(yàn)豐富的司機(jī)往往會(huì)迅速分析,電動(dòng)車(chē)可能突然橫穿,出租車(chē)大概率要并線,后車(chē)逼得太緊不能急剎,最穩(wěn)妥的辦法是先減速,給前后左右都留出余地。看似幾秒鐘的決定,實(shí)際上包含了感知、預(yù)測(cè)、推理和取舍。
可如果把同樣的場(chǎng)景交給自動(dòng)駕駛呢?傳統(tǒng)的系統(tǒng)更多是基于規(guī)則和簡(jiǎn)單預(yù)測(cè),它能看見(jiàn)電動(dòng)車(chē)、檢測(cè)出租車(chē)、識(shí)別遠(yuǎn)光燈,卻未必能像人類(lèi)一樣“想明白”這些信號(hào)背后的意圖和邏輯。于是,車(chē)子要么顯得過(guò)度保守停在原地,要么冒進(jìn)地沖出去,最終都和人類(lèi)駕駛的直覺(jué)一定會(huì)有差距。也正因?yàn)槿绱耍袠I(yè)開(kāi)始追問(wèn),能不能讓車(chē)也擁有“理解和推理”的能力?答案正是近年來(lái)興起的VLA(視覺(jué)—語(yǔ)言—?jiǎng)幼髂P停┖褪澜缒P汀?/p>
其實(shí)過(guò)去十年,自動(dòng)駕駛的發(fā)展像坐過(guò)山車(chē)一樣起伏。早期技術(shù)方案覺(jué)得靠感知、預(yù)測(cè)、規(guī)劃、控制的模塊化體系,把規(guī)則寫(xiě)全,把數(shù)據(jù)堆夠,就能讓汽車(chē)自動(dòng)開(kāi)起來(lái)。但隨著項(xiàng)目規(guī)模擴(kuò)大,越來(lái)越多從業(yè)者意識(shí)到,這套方法天然有天花板。模塊化的鏈條太長(zhǎng),每個(gè)環(huán)節(jié)之間的信息丟失嚴(yán)重,人工接口讓系統(tǒng)難以聯(lián)合優(yōu)化,即使投入海量人力,也難以覆蓋長(zhǎng)尾復(fù)雜場(chǎng)景。VLA和世界模型的出現(xiàn),讓車(chē)子不只是“執(zhí)行規(guī)則”,而是像人一樣“理解和推理”。
VLA的邏輯:從“會(huì)看”到“會(huì)想”
VLA的本質(zhì)是把自動(dòng)駕駛從單純的數(shù)據(jù)驅(qū)動(dòng),逐步引向知識(shí)驅(qū)動(dòng)。過(guò)去的端到端嘗試大多直接把圖像輸入和車(chē)輛動(dòng)作輸出綁定在一起,中間缺乏解釋能力。而VLA則引入了多模態(tài)大模型的優(yōu)勢(shì),把視覺(jué)、點(diǎn)云、地圖、傳感器信息都編碼進(jìn)一個(gè)統(tǒng)一的語(yǔ)義空間,再通過(guò)語(yǔ)言模型來(lái)進(jìn)行邏輯推理和高層決策。換句話說(shuō),它讓車(chē)不只是會(huì)“看”,更會(huì)“想”。視覺(jué)編碼器負(fù)責(zé)從圖像或點(diǎn)云中提取特征,對(duì)齊模塊把這些特征映射到語(yǔ)言空間,語(yǔ)言模型則像人腦的“推理區(qū)”,根據(jù)上下文和邏輯得出結(jié)論,最后生成器把這種高層意圖轉(zhuǎn)換成車(chē)輛可以執(zhí)行的軌跡或動(dòng)作?梢哉f(shuō),VLA就是把人類(lèi)駕駛的認(rèn)知流程,第一次較完整地搬進(jìn)了機(jī)器世界。
VLA模型的總體架構(gòu),包含編碼器、解碼器和輸出動(dòng)作
要讓VLA真正工作起來(lái),有三塊技術(shù)難點(diǎn)是繞不開(kāi)的。首先是三維特征的表達(dá)。車(chē)面對(duì)的是一個(gè)三維世界,二維的圖像信息遠(yuǎn)遠(yuǎn)不夠。近年來(lái)被頻繁提到的3D Gaussian Splatting技術(shù),正是為了解決這一問(wèn)題。它用一系列高斯分布來(lái)顯式表示三維點(diǎn),不僅比傳統(tǒng)的體素網(wǎng)格節(jié)省算力,還能達(dá)到實(shí)時(shí)渲染的水平。相比之下,像NeRF那樣的隱式場(chǎng)景表示雖然能渲染得極其逼真,但計(jì)算量過(guò)大,幾乎不可能放在車(chē)端使用。3D GS在效率和真實(shí)感之間找到了平衡,因此被很多團(tuán)隊(duì)作為中間特征的候選方案。不過(guò),它也有短板,比如對(duì)初始點(diǎn)云的質(zhì)量非常依賴(lài),這意味著在采集數(shù)據(jù)階段就要保證精度,否則渲染結(jié)果會(huì)受到較大影響。但從整體趨勢(shì)來(lái)看,3D GS已經(jīng)成為讓車(chē)能更“立體”地理解世界的重要一步。
3D GS與其余三維重建技術(shù)的區(qū)別
第二個(gè)難點(diǎn)是記憶與長(zhǎng)時(shí)序推理。駕駛是一項(xiàng)連續(xù)任務(wù),不是單幀的反應(yīng)動(dòng)作。車(chē)需要記住前方幾秒鐘的交通參與者行為,才能判斷對(duì)方是要超車(chē)、掉頭還是直行。然而傳統(tǒng)Transformer在處理長(zhǎng)序列時(shí)開(kāi)銷(xiāo)太大,窗口一旦超過(guò)幾千步,計(jì)算就變得不可承受,同時(shí)信息還容易被稀釋掉。為了解決這個(gè)問(wèn)題,有技術(shù)引入了稀疏注意力和動(dòng)態(tài)記憶模塊。稀疏注意力通過(guò)只關(guān)注關(guān)鍵位置,顯著降低了計(jì)算復(fù)雜度,而動(dòng)態(tài)記憶則像外掛的存儲(chǔ)器,把歷史中的關(guān)鍵信息提取、保存,在需要時(shí)重新調(diào)出。這種方式讓模型既能處理長(zhǎng)時(shí)依賴(lài),又不會(huì)在車(chē)端算力有限的環(huán)境下崩潰。像是小米的QT-Former就在長(zhǎng)時(shí)記憶上做了優(yōu)化,理想的Mind架構(gòu)同樣在探索類(lèi)似的思路,說(shuō)明這已經(jīng)成了產(chǎn)業(yè)界的共識(shí)。
小米QT-Former模型架構(gòu)
第三個(gè)難點(diǎn)是推理效率。車(chē)端的算力和功耗都有限,不可能像云端一樣無(wú)限堆GPU。于是量化、蒸餾、裁剪等傳統(tǒng)模型壓縮手段,成了落地必備。理想采用GPTQ等后訓(xùn)練量化方法,把大模型縮小到能實(shí)時(shí)運(yùn)行的程度,同時(shí)探索混合專(zhuān)家模型MOE,通過(guò)只激活部分專(zhuān)家的方式來(lái)減少開(kāi)銷(xiāo)。這樣的架構(gòu)既能保持大模型的能力,又不會(huì)讓推理速度拖慢整個(gè)系統(tǒng)。智駕最前沿以為,未來(lái)車(chē)端的大模型必然是“稀疏+量化”的形態(tài),否則在能耗和成本上都不現(xiàn)實(shí)。
世界模型:虛擬世界里的試煉場(chǎng)
如果說(shuō)VLA是車(chē)子的“大腦”,那么世界模型就是它的“訓(xùn)練場(chǎng)”。因?yàn)楝F(xiàn)實(shí)世界的數(shù)據(jù)再多,也不可能覆蓋所有情況,更不能無(wú)限試錯(cuò)。高保真的世界模型能生成各種道路場(chǎng)景,補(bǔ)充長(zhǎng)尾數(shù)據(jù),還能提供一個(gè)低成本、安全的閉環(huán)環(huán)境,讓模型在虛擬世界里反復(fù)學(xué)習(xí)。理想的DriveDreamer4D就是一個(gè)典型案例,它能生成新軌跡視頻并和真實(shí)數(shù)據(jù)對(duì)齊,用來(lái)擴(kuò)展數(shù)據(jù)集;ReconDreamer則通過(guò)漸進(jìn)式數(shù)據(jù)更新來(lái)減少長(zhǎng)距離生成里的假象;OLiDM針對(duì)激光雷達(dá)數(shù)據(jù)稀缺的問(wèn)題,用擴(kuò)散模型來(lái)生成點(diǎn)云。這些名字看起來(lái)很學(xué)術(shù),但本質(zhì)上都是在做一件事,用虛擬的方式去還原真實(shí)世界的復(fù)雜性,讓模型提前適應(yīng)未來(lái)可能遇到的情況。
在訓(xùn)練范式上,VLA和世界模型也發(fā)生了很多變化。過(guò)去大家依賴(lài)行為克隆,即讓模型模仿人類(lèi)駕駛,但這種方法在遇到?jīng)]見(jiàn)過(guò)的情況時(shí)往往會(huì)失效,F(xiàn)在更多采用三階段閉環(huán),先用行為克隆做起步,保證模型有個(gè)基礎(chǔ),再用逆強(qiáng)化學(xué)習(xí)從專(zhuān)家數(shù)據(jù)中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),最后通過(guò)世界模型里的強(qiáng)化學(xué)習(xí)不斷迭代優(yōu)化。這種方式讓模型不僅會(huì)模仿,還能自己探索更優(yōu)解,逐漸超越人類(lèi)示范的水平。
產(chǎn)業(yè)視角:車(chē)企為何搶跑?
把大語(yǔ)言模型放到自動(dòng)駕駛里并不是把車(chē)變成聊天機(jī)器人那么簡(jiǎn)單。VLA的核心在于“多模態(tài)”和“動(dòng)作生成”,視覺(jué)編碼器要能把圖像、視頻、甚至點(diǎn)云編碼成對(duì)語(yǔ)言友好的中間表示;對(duì)齊模塊要把這些視覺(jué)表示映射到語(yǔ)言空間;語(yǔ)言模型承擔(dān)長(zhǎng)時(shí)的推理和決策;解碼器則把高層意圖細(xì)化成車(chē)輛可執(zhí)行的低層動(dòng)作或者軌跡。其實(shí)汽車(chē)的任務(wù)比較單一,就是開(kāi)車(chē),場(chǎng)景也相對(duì)有規(guī)則,道路標(biāo)線、交通燈、車(chē)輛行為都有明確約束。再加上車(chē)企自帶海量車(chē)隊(duì)和數(shù)據(jù)收集能力,這使得VLA更容易在車(chē)上形成規(guī)模效應(yīng)。這也是為什么國(guó)內(nèi)外廠商紛紛入局的原因。Waymo早期推出了EMMA系統(tǒng),算是奠定了方向;國(guó)內(nèi)理想正在構(gòu)建完整的Mind架構(gòu),小米在量產(chǎn)車(chē)中測(cè)試QT-Former,小鵬在嘗試端到端引入大模型,華為則在MDC平臺(tái)上為未來(lái)預(yù)留了大模型接口。不同公司路線各異,但目標(biāo)是一致的,讓車(chē)子具備更強(qiáng)的理解和推理能力。
EMMA模型架構(gòu)
寫(xiě)在最后
總的來(lái)說(shuō),VLA與世界模型的結(jié)合,標(biāo)志著自動(dòng)駕駛正在經(jīng)歷一次認(rèn)知層面的升級(jí)。它們不僅僅是算法改良,而是范式的轉(zhuǎn)變,從“能看會(huì)開(kāi)”走向“能想會(huì)推理”。這條路當(dāng)然不輕松,三維表征、記憶機(jī)制、算力約束和仿真保真度,每一項(xiàng)都是難題。但隨著架構(gòu)逐步成熟、世界模型越來(lái)越逼真、閉環(huán)訓(xùn)練越發(fā)完善,我們有理由相信,未來(lái)的自動(dòng)駕駛不只是冷冰冰的感知與控制機(jī)器,而是一個(gè)能理解環(huán)境、能解釋行為、能與人類(lèi)邏輯對(duì)接的“駕駛智能體”。誰(shuí)能最先把這些技術(shù)變成大規(guī)模落地的體驗(yàn),誰(shuí)就能在下一階段的競(jìng)爭(zhēng)中拔得頭籌。
-- END --
原文標(biāo)題 : VLA與世界模型,會(huì)讓自動(dòng)駕駛汽車(chē)走多遠(yuǎn)?

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專(zhuān)題
- 1 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 6 2025年8月人工智能投融資觀察
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 9 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 10 Manus跑路,大廠掉線,只能靠DeepSeek了