訂閱
糾錯
加入自媒體

揭秘小鵬自動駕駛「基座模型」和 「VLA大模型」

2025年的CVPR自動駕駛 Workshop上,小鵬汽車的Liu Xianming先生做了一篇名為《Scaling up Autonomous Driving via Large Foundation Models》的演講。

之前,網(wǎng)絡(luò)上有不少小鵬此次CVPR的 VLA演講信息,但那些是別人想讓你看到的廣告推文。本文根據(jù)Liu Xianming的演講內(nèi)容,深度挖掘小鵬輔助駕駛/自動駕駛“基礎(chǔ)模型”和VLA大模型的方法論。

提出基礎(chǔ)模型的概念

開頭Liu Xianming先生引用特斯拉前人工智能總監(jiān)、OpenAI 研究員 Andrej Karpathy提出的軟件時代三階段概念(具體可以點擊之前文章《特斯拉前人工智能負責(zé)人 Andrej Karpathy最新演講談 AI和 LLM》分享的內(nèi)容),引出小鵬VLA的基礎(chǔ)模型概念。

自動駕駛軟件1.0模型時代就是十年前,大家都在忙于T字形路口等場景,主要依賴于點云和CPU上的集群處理來檢測障礙物,并編寫大量硬編碼的啟發(fā)式規(guī)則來進行操控。在這種情況下,整個棧是由簡單的規(guī)則定義的時代。

大約六七年前軟件2.0開始,隨著檢測和視覺技術(shù)越來越成熟,人們開始用機器學(xué)習(xí)模型替換感知和預(yù)測部分。但大部分棧仍然包含硬編碼規(guī)則。

現(xiàn)在就是3.0時代了,稱之為“AI模型即軟件”。自動駕駛可以用數(shù)據(jù)迭代軟件,這個時候整個軟件轉(zhuǎn)換為AI模型,并基于以數(shù)據(jù)為中心的方法進行迭代。

Liu Xianming表示,目前,小鵬正處于將整個自動駕駛軟件棧構(gòu)建為端到端AI模型來駕駛汽車的階段。

下一階段,Xianming表示他們需要探索未來如何發(fā)展,基于“規(guī)模定律”(scaling law)。但 scaling law要的是大量的數(shù)據(jù),但小鵬表示對于自動駕駛領(lǐng)域,他們并不受數(shù)據(jù)限制,因為小鵬可以每天從數(shù)十萬輛真實世界的車輛中收集大量數(shù)據(jù)。

所以,小鵬將利用這些數(shù)據(jù)訓(xùn)練一個非常大的視覺模型,作為“工廠”。一旦有了這個模型,就可以將其蒸餾到較小的硬件上,部署到車輛中。

小鵬將這個原型定義為“軟件3.0”,總體的概念是,大數(shù)據(jù)構(gòu)建一個基礎(chǔ)模型,就可以不要管三維空間中的先驗知識和空間問題,這又有點像世界模型的概念,然后可以將這個模型部署到車端。

當(dāng)然這里涉及到深度裁剪、量化、蒸餾基礎(chǔ)模型,使模型能在更小的車端硬件上部署。這是小鵬對下一代自動駕駛的理念。

內(nèi)外循環(huán),實現(xiàn)自動駕駛

有了基礎(chǔ)模型這個理論基礎(chǔ)之后,小鵬創(chuàng)建了一個“內(nèi)循環(huán)”概念,為每個模型創(chuàng)建訓(xùn)練流,便于擴展數(shù)據(jù),然后進行再訓(xùn)練和SFT(監(jiān)督微調(diào))以持續(xù)提升模型性能。最后,將基礎(chǔ)模型進行蒸餾,將模型壓縮成更小的版本并部署到汽車中。

“外循環(huán)”,就是數(shù)據(jù)驅(qū)動,一旦將模型部署到設(shè)備上,數(shù)十萬輛車就成為現(xiàn)實世界中的數(shù)據(jù)采樣器,持續(xù)采樣數(shù)據(jù)進行訓(xùn)練。

這個外循環(huán)即根據(jù)返回數(shù)據(jù)持續(xù)訓(xùn)練,或者有些人稱之為“協(xié)同訓(xùn)練”(co-training)。不斷地重復(fù)這個過程,直到性能足夠好以達到L4級自動駕駛。

這幾天何小鵬在IAA 2025慕尼黑車展(了解2025慕尼黑車展點擊《IAA 2025 慕尼黑車展:中國汽車軍團們,從“貿(mào)易出口”到“勢不可擋”》)上也表示力爭在2026年實現(xiàn)L4級智駕車型量產(chǎn),估計也是基于這個方法論的基礎(chǔ)。

模型訓(xùn)練方法

眼尖的朋友從演講PPT中可以看到,小鵬在上半年是奔著 VLA模型架構(gòu)的方向跑的。

所以這個模型的訓(xùn)練方法就是

首先是拿一個 VLM模型,其實行業(yè)內(nèi)都清楚基本上這個原始的 VLM模型就是阿里的Qwen。

然后基于這個模型,采用小鵬整理的駕駛數(shù)據(jù)進行預(yù)訓(xùn)練、對齊,也就是視覺模型的預(yù)訓(xùn)練。

下圖就是小鵬數(shù)據(jù)分類好的預(yù)訓(xùn)練數(shù)據(jù),可以看出將交通數(shù)據(jù)分為:

靜態(tài)交通元素,例如道路

動態(tài)交通參與者,車等

點到點的軌跡數(shù)據(jù)

占用,應(yīng)該是用來訓(xùn)Occ網(wǎng)絡(luò)的數(shù)據(jù)

交通燈 TSL,交通信號燈

交通流 TFL,車流信息

下面就是交通流 TFL的數(shù)據(jù)舉例子,可用看到圖片信息基本上就是把交通信息語意化,也就是這個圖片在交通場景中代表啥意思。

有了對交通流的理解,下一步就是CoT(Chain-of-Thought 思維鏈),基于對場景流的理解進行思維推理,小鵬做了四步:

對齊,提供基本駕駛知識,例如紅燈停

CoT SFT(監(jiān)督訓(xùn)練)。

強化學(xué)習(xí)CoT。

考慮延遲的CoT SFT。

最后一點是,所有的思維鏈最后的結(jié)果都是要輸出動作。動作不是某種語言或文本輸出,而是以“動作token”的形式描述。小鵬將動作分解為縱向動作和橫向動作,包括加速、停止等

最終VLM識別場景,推理,產(chǎn)生出車輛運動的動作。

所以,可以認為這個預(yù)訓(xùn)練就是對通用的 VLM進行專業(yè)的交通訓(xùn)練,讓模型輸入視圖,輸出動作,訓(xùn)練出一個小鵬智能輔助駕駛可用的 VLA模型。

第二部分,有了基本的動作訓(xùn)練之后就是監(jiān)督微調(diào)(Supervised Fine-tuning, SFT)。因為深度學(xué)習(xí)只處理數(shù)據(jù)的統(tǒng)計均值。但開車有很多專用指令,例如導(dǎo)航,或者進行非常舒適的剎車。所以小鵬將SFT建模為一種“指令遵循”任務(wù)。整理和篩選出Good case 好數(shù)據(jù),用這些數(shù)據(jù)進行專門指令訓(xùn)練。這個部分基本就輸出了一個可用的VLA模型。

之后是后期訓(xùn)練(post-training),這是針對指令跟隨或指令反射的微調(diào)函數(shù)。主要解決的事長尾案例,采用的方法是強化學(xué)習(xí)。

強化學(xué)習(xí)就是建立一個獎勵模型,然后進行獎勵,讓模型都遵循相同的行動。最終,對于自動駕駛來說,強化學(xué)習(xí)使得駕駛更安全。為了更安全地駕駛,小鵬設(shè)計了三個獎勵:安全,不碰撞;其次是效率,不卡殼,最后是合規(guī)也就是遵守交通規(guī)則,比如交通燈。

最終經(jīng)過總體的三個階段,從VLM對齊預(yù)訓(xùn)練,到VLM+動作和進行監(jiān)督微調(diào)形成可用的VLA,最后進行獎懲強化學(xué)習(xí)生成可用的VLA。

寫在最后

小鵬輔助駕駛/自動駕駛的思路是在云端構(gòu)建一個 VLA的基礎(chǔ)模型,然后進行蒸餾剪枝和微調(diào)訓(xùn)練部署到車端。

其實這個論文透露了兩個思路,一個是基礎(chǔ)模型蒸餾上車的思路,這個思路應(yīng)該比較妙,可以加速開發(fā)和快速不同算力平臺部署,但前提條件是要有大算力和高質(zhì)量的數(shù)據(jù)。

另外一個思路是VLA,VLA的概念真的很濫了,通過本文看就是VLA的開頭肯定是要有一個基礎(chǔ)成熟的LLM作為底座,然后基于他去針對交通駕駛行為訓(xùn)。

其實這兩個思路對于自動駕駛行業(yè)來講,透露的是底層算法和架構(gòu)都相通,唯一拉開大家差距的是高質(zhì)量數(shù)據(jù),大算力以及強大算法產(chǎn)品化和工程落地能力。

*未經(jīng)準(zhǔn)許嚴禁轉(zhuǎn)載和摘錄-

       原文標(biāo)題 : 揭秘小鵬自動駕駛「基座模型」和 「VLA大模型」

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號