訂閱
糾錯
加入自媒體

吳新宙帶領(lǐng)英偉達沖刺自動駕駛L4背后的VLA大模型算法

2023年8月,吳新宙算是在中國L2+智能輔助駕駛競爭頂峰--輔助駕駛進城之后離開小鵬汽車加入英偉達。2024年1月,特斯拉推出FSD V12 Beta端到端版本,智能輔助駕駛算法進入“端到端”階段。隨即中國代表了全球輔助駕駛市場全面擁抱了端到端。

不過,此時的自動駕駛領(lǐng)域中,吳新宙帶領(lǐng)的英偉達自動駕駛好像已經(jīng)淹沒在端到端自動駕駛+高端芯片自研的自動駕駛競賽中,甚至英偉達4月份的GTC上也不過一分鐘過一下老生常談的車端方案和云端訓(xùn)練硬件,而吳新宙自己主導(dǎo)的專項GTC演講,雖然有VLM,但產(chǎn)品路線圖也沒看到什么新意。

到了,今年10月的GTC,我們之前文章《英偉達 GTC 2025:6G通訊、量子計算、L4自動駕駛方面三大全新產(chǎn)品技術(shù)》也分享了,黃仁勛機竟然花了五分鐘廣告其L4 Robotaxi要點和成績。

與 Uber 合作,從2027年開始會有10萬輛采用英偉達方案的自動駕駛車輛。Lucid、奔馳、Stellantis 等主機廠和十幾家自動駕駛開發(fā)公司采用英偉達的L4軟硬方案。

于是,吳新宙應(yīng)該是帶領(lǐng)英偉達找到了沖刺L4新征程的方向,這個沖刺新征程背后除了英偉達的AI硬件,還有一種新的VLA軟件。

很多人會說,為什么不是世界模型?這是最前沿的,確實世界模型是最前沿的,可是理論世界的兩大世界模型的領(lǐng)軍人物Li feifei還在搖旗吶喊demo階段,Yann LeCun剛從Meta失業(yè),所以怎么可能真的世界模型就能上應(yīng)用呢!

當前大家講的世界模型不過依然是通過LLM將物理世界語言化和圖形化的模型,與VLA是同一個分支。而真正找到3D世界+時間的隱式表達token的世界模型還在實驗室尋找中。

最近英偉達公布了其名為 Alpamayo-R1 的VLA模型一些思路和想法,應(yīng)該就是英偉達推進L4落地的一些方法和實踐,應(yīng)該屬于當前技術(shù)產(chǎn)品化的最先進方向。

所以,本文就從VLA當前結(jié)構(gòu)和挑戰(zhàn),英偉達L4 VLA 算法結(jié)構(gòu),英偉達L4 VLA數(shù)據(jù)標注和訓(xùn)練方法來分享解析這個VLA算法。

當前VLA結(jié)構(gòu)的挑戰(zhàn)

熟悉我們之前VLA的文章朋友們肯定知道,VLA可以通過語言模型來進行理解和推理人類世界,這樣將智能輔助駕駛相比之前純粹的端到端有了以下幾個優(yōu)點:

通過明確的反事實推理和運行時安全交叉檢查及監(jiān)控,提高了安全性。

通過提供人類可讀的決策原理,提高了可解釋性。

可作為可驗證的獎勵,用于提高長尾性能,提供了更豐富的訓(xùn)練信號。

VLM/VLA 已被幾家頭部應(yīng)用于自動駕駛,不過,雖然都叫VLA,但是當前不少VLA可能本質(zhì)還是一個VA:

也就是大多為反應(yīng)性地操作而沒有明確推理,難以泛化到需要反事實推理的模糊或長時域場景。

此外,簡單的將自動駕駛的推理視為純粹的自然語言處理(NLP)問題,會忽略駕駛需要豐富的3D和物理空間知識:車道幾何、交通規(guī)則、智能體交互和動態(tài)約束。

于是,英偉達的自動駕駛VLA模型 Alpamayo-R1 采用以下創(chuàng)新方法來

開發(fā)了一個結(jié)構(gòu)化的因果鏈(CoC)標注框架,該框架生成以決策為基礎(chǔ)、具有因果關(guān)聯(lián)的推理痕跡,并通過混合的人工參與和自動標注流程支持可擴展的高質(zhì)量數(shù)據(jù)生成。

采用了基于流匹配(flow matching)的擴散型行動專家軌跡解碼器,以高效地生成連續(xù)的、多模態(tài)軌跡規(guī)劃,這些規(guī)劃與語言推理輸出對齊,并滿足實時推理要求。

采用多階段訓(xùn)練策略,基于 Cosmos-Reason VLM 主干,注入行動模態(tài)進行軌跡預(yù)測,通過在 CoC 數(shù)據(jù)上進行監(jiān)督微調(diào)(SFT)來激發(fā)推理能力,并采用強化學(xué)習(RL)來提升推理質(zhì)量、推理-行動一致性及軌跡質(zhì)量。

通過以上方式來達到VLA的真正效果,能夠真正推理,能夠真正理解一些駕駛的3D空間知識。

英偉達L4 VLA 模型結(jié)構(gòu)

其實所有的 VLA就是一種端到端架構(gòu)。英偉達AR1也不例外,系統(tǒng)處理多攝像頭、多時間步觀察作為視覺輸入,可選擇性地增強語音文本輸入,如用戶命令和高級導(dǎo)航指令。所有輸入都被 Token 化為統(tǒng)一的多模態(tài) Token 序列,然后由 Cosmos-Reason 這個VLM主干處理。

VLM 主干:Cosmos-Reason是英偉達自己的VLM,在AR1 VLA模型中這個VLM模型經(jīng)過了2.47萬個專注于駕駛場景的視頻 VQA (Visual Question Answering,視覺問答)樣本訓(xùn)練微調(diào)成為了一個駕駛Physical AI VLM。

當前來講 VLM模型算是易得,但是好的數(shù)據(jù)難求,英偉達AR1讓他每一個動作和行為都有明確的推理和解釋,微調(diào)訓(xùn)練的數(shù)據(jù)就必須要有這些東西。

所以,英偉達 AR1整理和標注好2.47萬個駕駛的視頻和問答推理,來微調(diào)這個VLM。2.47萬個視頻包含描述和問答推理,這是個巨大的工作量,后文我們有分享英偉達數(shù)據(jù)標注方法。

有了這個特調(diào)的VLM,那么VLA另外兩個重要的事情就是把輸入的視覺和語言進行編碼進入VLM,另一方面就是把VLM吐出來的東西解碼成運動軌跡。

輸入的視覺編碼 (Vision Encoding),對于自動駕駛來講,計算的成本是有限的,所以VLM 中的視覺編碼器必須產(chǎn)生盡可能少的 Token,同時保留相關(guān)的語義信息,以實現(xiàn)車載部署。英偉達AR1研究過和采用的方法是:

單個攝像頭單幀編碼,例如,對于 448x280 像素的圖像,此過程為每張圖像生成 160 個 Token。由于自動駕駛車輛通常使用 6 到 10 個攝像頭,單圖像 Token 化產(chǎn)生的 Token 數(shù)量會隨攝像頭數(shù)量線性增加,從而妨礙實時推理。

多攝像頭單幀同步編碼,可以采用 3D 歸納偏置的方法使 Token 數(shù)量與攝像頭的數(shù)量和分辨率解耦。例如,對于 7 攝像頭設(shè)置,只需 288 個 Token 即可表示一個時間步的觀察結(jié)果。

多攝像頭視頻編碼:對來自多個時間步的攝像頭觀察序列進行直接編碼,壓縮率為高達 20 倍(相比單圖像 Token 化),同時保持或甚至改善下游駕駛指標。

顯然英偉達AR1 應(yīng)該是應(yīng)用了多攝像頭同步編碼的方式,來節(jié)省算力需求,畢竟車端部署,算力和實時性是最大的約束,誰能算的快算的準是AI的要求。

當然還有語音文本的模態(tài),這個輸入對于VLM就是信手拈來,畢竟原生就是LLM。

輸出的軌跡解碼 (Trajectory Decoding),英偉達AR1結(jié)合了離散軌跡 Token(在 VLM 內(nèi)部學(xué)習)與行動專家(action-expert)的策略。

一般VLA的VLM內(nèi)部吐出的是基于車輛的位置軌跡,但是,這種原始位置(x, y)路徑點空間訓(xùn)練模型容易受到傳感器噪聲的影響,后面在平滑處理,最后帶來更多不準確的信息。

因此,英偉達AR1提出了單輪動態(tài)學(xué)(unicycle dynamics) 控制的行動表示。x和y表示鳥瞰圖(BEV)平面中的位置航點,θ表示偏航角,v表示速度,k表示曲率,a表示加速度。并將這些參數(shù)映射到VLM中,共用一套Token。

最后,行動專家使用 Flow Matching 框架和我們之前文章分享的Diffusion 擴散模型一樣,兩者都致力于將噪聲轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),也就最后輸出自動駕駛輸出的控車信息。

這樣,使得推理和軌跡共享一個共同的 Token 空間,允許 VLM 通過標準下一 Token 預(yù)測緊密耦合因果解釋與車輛行為。

同時,F(xiàn)low Matching 提供了計算效率,生成連續(xù)軌跡的速度比自回歸采樣 128 個離散 Token 快得多,從而實現(xiàn)了實時推理。

英偉達L4 VLA 數(shù)據(jù)標注和訓(xùn)練方法

所以,英偉達AR1 VLA模型將VLA模型組合的更緊密了,有點像流水線從原材料到包裝發(fā)運到在一條產(chǎn)線上。

有了流水線,那么如何訓(xùn)練和組織原材料(數(shù)據(jù))成為模型成功最重要的因素。

英偉達AR1 的推理和軌跡共享一個共同的 Token 空間就必須讓之前訓(xùn)練的數(shù)據(jù)結(jié)構(gòu)發(fā)生變化。推理數(shù)據(jù)必須與自我軌跡緊密相關(guān),才能使推理 VLA 模型能夠解釋駕駛行動的原因并提高其軌跡性能。

而數(shù)據(jù)的產(chǎn)生就是標注。

Alpamayo-R1 模型訓(xùn)練的標注框架將每個數(shù)據(jù)樣本分解為三個結(jié)構(gòu)化組件:駕駛決策、因果因素(關(guān)鍵組件) 和組合推理痕跡。

自動駕駛決策的分類表,它定義了模型必須學(xué)習的各種縱向和橫向駕駛動作及其具體的含義。

關(guān)鍵組件,是模型生成因果基礎(chǔ)解釋(CoC 推理)時必須引用的“證據(jù)”

最后就是輸出組合的推理痕跡,它強調(diào)了在識別出駕駛決策和關(guān)鍵場景組件后,如何將其語言化并組織成連貫、具有因果邏輯的解釋。

有了這些規(guī)則,同時在實際標注時候,為了確保訓(xùn)練數(shù)據(jù)的高質(zhì)量和實用性,標注時候需要考慮:

因果覆蓋,因果正確性

同時這是為了實現(xiàn)標注經(jīng)濟性,聚焦于最關(guān)鍵、最直接的因素 。例如,如果汽車停了下來,是因為前車剎車(近端原因),而不是因為前面有一個紅燈(背景條件);

最后是,決策最小化: 確保只在決策發(fā)生變化時才生成新的推理軌跡,從而提高數(shù)據(jù)效率和模型的注意力集中度。

有了這標注的三個結(jié)構(gòu)組件規(guī)則和方法論,接下來就是標注。

但,標注之前是確定應(yīng)該在何時標記這些推理數(shù)據(jù)。因為,并非每個視頻片段都值得標注;只有在可觀察因素與自車隨后的決策之間能建立明確因果聯(lián)系的時刻,才會觸發(fā)標注。因此,數(shù)據(jù)管理是數(shù)據(jù)標注框架的一個關(guān)鍵方面,它涉及到識別這些關(guān)鍵的推理時刻。

英偉達AR1 每個數(shù)據(jù)的原始片段包含 20 秒的數(shù)據(jù),并且可以生成多個訓(xùn)練樣本(因為在訓(xùn)練和評估中都配置使用 2 秒歷史來預(yù)測 6 秒未來)。

有了視頻數(shù)據(jù)之后,英偉達AR1的數(shù)據(jù)采用人工和自動標注。

人工標注,采用兩階段流程:

階段 I (0-2 s):在可觀察的歷史窗口內(nèi)識別關(guān)鍵組件,以防止因果混淆。

階段 II (0-8 s):選擇關(guān)鍵幀后的第一個駕駛決策,并撰寫 CoC 推理痕跡,僅引用階段 I 中確定的因果因素。我們實施了嚴格的 QA 流程來最大化標注質(zhì)量。

自動標注:使用最先進的 VLM(如 GPT-5 (OpenAI, 2025))進行離線自動標注。該流程將世界知識蒸餾到結(jié)構(gòu)化的 CoC 標注中。自動標注 VLM 被提示使用 2 秒的歷史視頻來識別關(guān)鍵組件。

這就形成了訓(xùn)練最關(guān)鍵的數(shù)據(jù)。有了數(shù)據(jù)之后才能喂入模型訓(xùn)練。

當前VLA模型的訓(xùn)練算是統(tǒng)一標配了,之前文章《揭秘小鵬自動駕駛「基座模型」和 「VLA大模型」》也分享過類似的訓(xùn)練流程。

VLM 訓(xùn)練就是通用VLM,當前的多模態(tài)大模型類似,所以不講。

先,Pre-Training注入動作模態(tài) (Injecting Action Modality) — 對應(yīng) Pre-Training, 使視覺語言模型 (VLM) 能夠預(yù)測車輛控制輸出。當然這里需要匹配上文講到的一個基于流匹配 (flow matching) 的動作專家 (action-expert)。這樣一個初始的擁有執(zhí)行和預(yù)測駕駛軌跡的能力的VLA模型構(gòu)建完成。

之后,SFT提升推理能力 (Improving Reasoning Capability) — 對應(yīng) SFT,提高模型的推理能力,使其能夠生成因果基礎(chǔ)的解釋來支持駕駛決策。這里就需要上文講到的在2.47萬的CoC 數(shù)據(jù)集,在它上進行有監(jiān)督微調(diào) (SFT)。

這樣VLA可以生成因果基礎(chǔ)的解釋,使模型能夠提供可解釋且更好的駕駛決策。

最后,RL 的強化學(xué)習后訓(xùn)練,構(gòu)建獎勵模型,來強化人類想要的東西,英偉達AR1 利用大型推理模型的反饋來精煉推理質(zhì)量。最終將推理軌跡與實際執(zhí)行的動作對齊。最終VLA模型產(chǎn)生可解釋且安全的駕駛行為,并優(yōu)化整體軌跡質(zhì)量。

利用大型推理模型進行推理評分,利用DeepSeek-R1 作為推理批評家,對 VLA 生成的推理痕跡質(zhì)量提供可擴展、高質(zhì)量的反饋。評估行為一致性和因果推理質(zhì)量。鼓勵模型生成不僅描述正確駕駛行為,而且保持因果忠實性的推理。

數(shù)據(jù)集CoC-行動一致性:CoC-動作一致性獎勵通過將模型的語言輸出(推理)與其物理輸出(動作)進行硬性、基于規(guī)則的匹配,確保了模型的解釋性和可靠性,是實現(xiàn)可信賴自主駕駛的關(guān)鍵環(huán)節(jié)。

低級軌跡質(zhì)量,也就是輸出運動控制: 確保生成的運動軌跡在物理上可行、舒適且安全。主要是三個方面:軌跡曲線平滑類人。碰撞懲罰和加加速度(Jerk)懲罰,以懲罰突然或不舒服的運動。這些項將模型的學(xué)習錨定到類人、安全和舒適的運動。

這樣基本就完成了整個VLA的構(gòu)建,后續(xù)模型升級就是根據(jù)回傳的極端場景進行修復(fù)和優(yōu)化。

寫在最后

吳新宙,確實是個人才,進入英偉達時候算是高位接盤,在L2+這么卷的市場已經(jīng)很難有建樹,到現(xiàn)在,用最前沿能到手的技術(shù)開辟了一個L4戰(zhàn)場,算是給職業(yè)生涯接上了另外一棒。

而對于算法,VLA在當前大語言模型應(yīng)用成熟,空間智能還在實驗室的背景下,確實是實現(xiàn)自動駕駛產(chǎn)品化的最優(yōu)解。

而不管如何數(shù)據(jù)和數(shù)據(jù)處理能力成為人工智能算法軟件的核心。

參考文章以及圖片

Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail - 英偉達

*未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-

       原文標題 : 吳新宙帶領(lǐng)英偉達沖刺自動駕駛L4背后的VLA大模型算法

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號