邁向人類(lèi)級(jí)駕駛智能:VLA視覺(jué)語(yǔ)言行動(dòng)模型
芝能科技出品
2025年,由于安全和強(qiáng)監(jiān)管的作用,輔助駕駛行業(yè)正處于黎明前的黑暗。
面對(duì)復(fù)雜的現(xiàn)實(shí)路況、多樣的人類(lèi)行為模式,以及傳統(tǒng)AI在泛化和理解能力上的瓶頸,理想汽車(chē)在《AI Talk第二季》系統(tǒng)性的闡述了“VLA(視覺(jué)語(yǔ)言行動(dòng)模型)”。
從邏輯上來(lái)看,VLA不是單一的模型升級(jí),從模仿昆蟲(chóng)般的規(guī)則算法,到具備哺乳動(dòng)物智能的端到端系統(tǒng),再到真正具有人類(lèi)駕駛認(rèn)知和執(zhí)行能力的“司機(jī)大模型”。
我們從技術(shù)演化的三階段入手,深入解析VLA的架構(gòu)組成、訓(xùn)練流程和關(guān)鍵突破,探討它如何打破智能駕駛發(fā)展的困局,成為邁向L4+自動(dòng)駕駛的關(guān)鍵支點(diǎn)。
01
從螞蟻到人類(lèi):
VLA技術(shù)演化的三階段
階段一:規(guī)則驅(qū)動(dòng)與“昆蟲(chóng)智能”
回溯智能駕駛的早期階段,我們依賴(lài)于機(jī)器學(xué)習(xí)下的感知模塊,配合高精地圖、規(guī)則算法執(zhí)行。系統(tǒng)的每一個(gè)子模塊(感知、規(guī)劃、控制)都需精密耦合,更多依賴(lài)人工設(shè)定的規(guī)則。
這一階段,智能駕駛系統(tǒng)更像是一只被設(shè)定程序路徑的“螞蟻”:只能在特定場(chǎng)景中“爬行”,缺乏對(duì)環(huán)境的真正理解和泛化能力。
◎ 感知模型參數(shù)規(guī)模。簝H幾百萬(wàn)參數(shù),處理能力嚴(yán)重受限。
◎ 對(duì)地圖強(qiáng)依賴(lài):高精地圖一旦失效,系統(tǒng)極易出現(xiàn)功能崩潰。
◎ 缺乏上下文理解能力:面對(duì)突發(fā)場(chǎng)景(如施工繞行、人為交通指揮等)無(wú)所適從。
這正如馬戲團(tuán)里受訓(xùn)的昆蟲(chóng),僅能在被設(shè)定軌道內(nèi)完成任務(wù),缺乏主動(dòng)決策與認(rèn)知能力。
階段二:端到端與“哺乳動(dòng)物智能”
2023年起,理想汽車(chē)啟動(dòng)端到端(E2E)輔助駕駛研究,并在2024年開(kāi)始實(shí)車(chē)部署。端到端模型將感知與控制流程一體化,通過(guò)大規(guī)模數(shù)據(jù)驅(qū)動(dòng)“模仿學(xué)習(xí)”。
該階段的模型能通過(guò)模仿人類(lèi)駕駛行為完成任務(wù),具備初步泛化能力。
◎ 學(xué)習(xí)對(duì)象為人類(lèi)駕駛行為:模型能夠“看圖開(kāi)車(chē)”,感知場(chǎng)景并輸出駕駛指令。
◎ 缺乏因果推理能力:模型雖能模仿,但無(wú)法理解行為背后的因果關(guān)系。
◎ VLM(視覺(jué)語(yǔ)言模型)的初步引入:引導(dǎo)模型理解交通信號(hào)語(yǔ)義和少量文字信息,但由于開(kāi)源VLM多為低分辨率,泛化能力不足。
端到端系統(tǒng)像是能騎車(chē)的猩猩:雖然能完成任務(wù),但并不真正理解交通世界的規(guī)律與邏輯。這種“經(jīng)驗(yàn)驅(qū)動(dòng)”的模型仍存在理解維度淺、推理能力弱、泛化能力有限等瓶頸。
階段三:VLA(司機(jī)大模型)與“人類(lèi)智能”
進(jìn)入VLA時(shí)代,智能駕駛系統(tǒng)不再是規(guī)則控制器,也不僅僅是模仿者,而是擁有“類(lèi)人思維”的駕駛主體。
VLA系統(tǒng)具備真正意義上的三重能力融合:
◎ Vision:3D視覺(jué) + 高清2D圖像;
◎ Language:交通語(yǔ)言理解 + 內(nèi)部CoT推理鏈;
◎ Action:駕駛行為的計(jì)劃、決策與執(zhí)行。
VLA不同于傳統(tǒng)VLM或E2E模型,它不僅能“看懂世界”,還能“理解”并“行動(dòng)”,其智能程度首次接近人類(lèi)駕駛員。
02
技術(shù)架構(gòu)解析:
如何構(gòu)建一個(gè)“司機(jī)大模型”?
預(yù)訓(xùn)練階段的目標(biāo)是打造一個(gè)視覺(jué)與語(yǔ)言緊密融合的VL(Vision + Language)多模態(tài)大模型,作為VLA的訓(xùn)練起點(diǎn)。
當(dāng)前版本的模型規(guī)模達(dá)到32B(320億參數(shù))級(jí)別,并部署于云端訓(xùn)練平臺(tái)。
此模型整合了豐富的視覺(jué)語(yǔ)料,包括3D空間感知和高清2D圖像,其圖像分辨率相比現(xiàn)有開(kāi)源VLM提升了10倍,覆蓋了遠(yuǎn)距識(shí)別、交通標(biāo)志以及動(dòng)態(tài)場(chǎng)景等復(fù)雜要素。
同時(shí),語(yǔ)言語(yǔ)料涵蓋了駕駛指令、路況語(yǔ)義及行為規(guī)則,包含導(dǎo)航信息、人類(lèi)指令和駕駛習(xí)慣用語(yǔ)。
聯(lián)合語(yǔ)料方面,通過(guò)將視覺(jué)語(yǔ)境與語(yǔ)言語(yǔ)義共同嵌入,如導(dǎo)航地圖結(jié)合駕駛行為的理解,三維圖像與指令邏輯結(jié)合,旨在構(gòu)建一個(gè)具備物理世界理解能力的“多模態(tài)世界模型”。
完成預(yù)訓(xùn)練后,32B模型被蒸餾為3.2B端側(cè)模型,以適配Orin-X或Thor-U硬件平臺(tái),采用MoE(混合專(zhuān)家模型)架構(gòu)實(shí)現(xiàn)效率與精度的平衡,確保模型能在實(shí)時(shí)40Hz幀率以上運(yùn)行,滿(mǎn)足車(chē)規(guī)級(jí)部署要求。
進(jìn)入后訓(xùn)練階段,重點(diǎn)轉(zhuǎn)向從理解到行動(dòng)的模仿學(xué)習(xí)。
如果說(shuō)預(yù)訓(xùn)練賦予了模型“看與聽(tīng)”的能力,那么這一階段則是讓模型學(xué)會(huì)“動(dòng)手”。
通過(guò)大規(guī)模人車(chē)共駕數(shù)據(jù)的學(xué)習(xí),模型能夠模仿人類(lèi)駕駛行為,學(xué)習(xí)軌跡、加速、剎車(chē)等操作。此外,生成式行為學(xué)習(xí)不僅限于回歸預(yù)測(cè),還能夠進(jìn)行軌跡生成與優(yōu)化。
任務(wù)集成模型(TAM)結(jié)構(gòu)則將視覺(jué)語(yǔ)言理解與動(dòng)作生成深度融合,提高任務(wù)執(zhí)行效率。
最終形成一個(gè)具備完整駕駛循環(huán)的VLA結(jié)構(gòu):從環(huán)境感知、意圖理解到駕駛行為執(zhí)行,構(gòu)成閉環(huán)控制系統(tǒng)。
模型擴(kuò)展至4B參數(shù),保留CoT(思維鏈)機(jī)制但限制在2~3步內(nèi),以兼顧推理能力和系統(tǒng)延遲。
強(qiáng)化訓(xùn)練階段強(qiáng)調(diào)的是從駕校到真實(shí)道路的過(guò)渡,注重人類(lèi)偏好與安全邊界控制。
不同于傳統(tǒng)的RL方法,VLA的強(qiáng)化訓(xùn)練體系引入了RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí)),通過(guò)人類(lèi)介入標(biāo)注數(shù)據(jù)形成“人接管—AI迭代”循環(huán),融入用戶(hù)偏好、道路安全行為習(xí)慣等軟性目標(biāo)。
Diffusion預(yù)測(cè)模塊能夠在執(zhí)行動(dòng)作前預(yù)測(cè)未來(lái)4~8秒內(nèi)的環(huán)境與軌跡變化,提供因果推理能力,為決策提供時(shí)域支持。
這一過(guò)程如同駕駛員從實(shí)習(xí)到正式上崗的過(guò)程,使VLA不僅能開(kāi)車(chē),而且能安全、穩(wěn)健地應(yīng)對(duì)真實(shí)世界中的突發(fā)情況。
視覺(jué)語(yǔ)言行動(dòng)模型(VLA)體系中,最具突破性、也最貼近用戶(hù)實(shí)際駕駛需求的部分,就是“司機(jī)Agent”的構(gòu)建。
所謂“司機(jī)Agent”是一個(gè)具備類(lèi)人駕駛智能的“數(shù)字駕駛員”——它不僅能夠看清楚、聽(tīng)明白,更關(guān)鍵的是,它能理解路況、語(yǔ)言指令以及駕駛意圖,并做出合理的行動(dòng)決策。這是VLA三個(gè)階段演進(jìn)的核心成果。
傳統(tǒng)的感知+規(guī)則算法,像昆蟲(chóng)一樣只能被動(dòng)反應(yīng)、遵循簡(jiǎn)單指令。而端到端模型雖更聰明,像是訓(xùn)練有素的動(dòng)物,可以模仿人類(lèi)行為,卻缺乏真正的世界理解。
而VLA中的司機(jī)Agent則進(jìn)一步融合了3D視覺(jué)理解、語(yǔ)言推理(CoT),以及實(shí)時(shí)行動(dòng)策略學(xué)習(xí)能力,可以將一段自然語(yǔ)言“你在前方出口處靠右行駛”翻譯為精準(zhǔn)的軌跡控制,甚至在突發(fā)場(chǎng)景下進(jìn)行動(dòng)態(tài)調(diào)整。這意味著它不僅能看清紅綠燈,還能“理解”紅綠燈的語(yǔ)義和策略影響。
司機(jī)Agent依托于三個(gè)關(guān)鍵訓(xùn)練步驟構(gòu)建而成:
◎ 首先基于云端32B模型進(jìn)行視覺(jué)語(yǔ)言聯(lián)合建模,以理解3D現(xiàn)實(shí)世界與高分辨率2D圖像并建立交通語(yǔ)境下的“語(yǔ)言-視覺(jué)”嵌套結(jié)構(gòu);
◎ 其次在端側(cè)3.2B蒸餾模型上通過(guò)模仿學(xué)習(xí)實(shí)現(xiàn)行動(dòng)建模,從人類(lèi)駕駛數(shù)據(jù)中學(xué)會(huì)對(duì)視覺(jué)語(yǔ)義做出反應(yīng);
◎ 最后通過(guò)強(qiáng)化學(xué)習(xí)(尤其是RLHF)引入人類(lèi)反饋,使系統(tǒng)不僅能學(xué)習(xí)“如何做”,更能學(xué)會(huì)“如何避免錯(cuò)誤”,從而優(yōu)化安全邊際與駕駛習(xí)慣,完成從模擬到實(shí)戰(zhàn)的過(guò)渡。
VLA的司機(jī)Agent并非只是一套規(guī)則的疊加,而是一個(gè)擁有短鏈推理能力(CoT)和多模態(tài)協(xié)同決策能力的泛化智能體。
在保持執(zhí)行實(shí)時(shí)性的同時(shí),它可以做出“如果我現(xiàn)在加速,5秒后前車(chē)可能會(huì)減速”的因果推演,并結(jié)合其訓(xùn)練過(guò)的行為偏好,選擇更符合人類(lèi)駕駛風(fēng)格的方式進(jìn)行操作。
這個(gè)“司機(jī)Agent”是VLA真正走向量產(chǎn)落地的核心標(biāo)志:它不僅是模型的集合體,更是駕駛行為的數(shù)字化拷貝。
這一Agent的成熟將直接決定輔助駕駛是否能從“功能堆疊”邁向“駕駛替代”,真正成為每一位用戶(hù)可信賴(lài)的“副駕”。
小結(jié)
VLA的意義不僅是技術(shù),
而是產(chǎn)業(yè)的破局鑰匙
VLA的出現(xiàn),不只是技術(shù)體系的進(jìn)化,更是輔助駕駛行業(yè)從困境走向突破的關(guān)鍵。今天的輔助駕駛爭(zhēng)議重重:技術(shù)無(wú)法閉環(huán)、泛化能力弱、安全問(wèn)題頻出。
但正因如此,VLA應(yīng)運(yùn)而生。不僅具備了“類(lèi)人認(rèn)知”,還以工程化路徑落地,在算力可控范圍內(nèi)實(shí)現(xiàn)高度擬人化駕駛體驗(yàn)。它將視覺(jué)、語(yǔ)言、行動(dòng)三者融合,從理解世界到改變世界,邁出了自動(dòng)駕駛真正“可商用、可規(guī);”的第一步。
VLA并非終點(diǎn),而是一個(gè)開(kāi)端。正如黎明前的黑暗終將過(guò)去,VLA標(biāo)志著輔助駕駛正從工程試驗(yàn)品,邁向未來(lái)社會(huì)的基礎(chǔ)設(shè)施。
原文標(biāo)題 : 邁向人類(lèi)級(jí)駕駛智能:VLA視覺(jué)語(yǔ)言行動(dòng)模型
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 【在線(xiàn)研討會(huì)】普源精電--激光原理應(yīng)用與測(cè)試解決方案
-
精彩回顧立即查看>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
精彩回顧立即查看>> 【線(xiàn)上直播】新能源汽車(chē)熱管理行業(yè)應(yīng)用新進(jìn)展
-
精彩回顧立即查看>> 【線(xiàn)上直播】西門(mén)子電池行業(yè)研討會(huì)-P4B如何加速電池開(kāi)發(fā)
-
精彩回顧立即查看>> 【線(xiàn)下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專(zhuān)題
- 1 獨(dú)家 | 江鈴福特并入長(zhǎng)安福特,從此只有“一個(gè)福特”
- 2 螞蟻集團(tuán)+寧德時(shí)代:天使輪30億進(jìn)軍Robotaxi!
- 3 小鵬首款增程車(chē)曝光,大空間SUV要搶理想地盤(pán)?
- 4 哈啰要講新故事:30億入局Robotaxi,還拉來(lái)寧德時(shí)代
- 5 智能座艙:一塊屏幕的進(jìn)化史
- 6 自動(dòng)駕駛科普十問(wèn):什么是自動(dòng)駕駛?將給我們帶來(lái)哪些影響?
- 7 7月這5款新車(chē)即將重磅來(lái)襲,能打贏下半年第一場(chǎng)仗?
- 8 想買(mǎi)SUV的再等等,下半年即將亮相4款全新SUV,個(gè)個(gè)都看點(diǎn)十足!
- 9 對(duì)話(huà)楊彥鼎:智能化下半場(chǎng),汽車(chē)是基礎(chǔ),核心是商業(yè)模式
- 10 比亞迪想當(dāng)兩輪電動(dòng)車(chē)“賣(mài)鏟人”