訂閱
糾錯
加入自媒體

Waymo自動駕駛最新探索實踐:世界模型、長尾問題、最重要的東西

輔助駕駛/自動駕駛產(chǎn)業(yè)應(yīng)該最終都會交叉,因為他們算法軟件的底層邏輯是一樣的。我們之前文章《IAA 2025 慕尼黑車展:中國汽車軍團們,從“貿(mào)易出口”到“勢不可擋”》也分享到了,中國在輔助駕駛開拓算法的公司不管Momenta、元戎、大疆都也和其他專做L4的公司一樣在歐洲和中東各地掘金L4。

本文是基于Waymo 感知算法負責人 Wu Chen女士在今年CVPR上演講內(nèi)容總結(jié),再根據(jù)自身經(jīng)驗分析自動駕駛算法、發(fā)展現(xiàn)狀以及對于自動駕駛到底最重要的東西是什么。

構(gòu)建一個世界模型

Waymo表示,他們開發(fā)了一個名為 Waymo 基礎(chǔ)模型的大規(guī)模 AI 模型,該模型支持車輛感知周圍環(huán)境、預測道路上其他車輛的行為、模擬場景并做出駕駛決策。

這個龐大模型的功能類似于 ChatGPT 等大型語言模型 (LLM),這些模型基于海量數(shù)據(jù)集進行訓練,以學習模式并進行預測。正如OpenAI 和 Google 等公司構(gòu)建了更新的多模態(tài)模型來整合不同類型的數(shù)據(jù)(例如文本、圖像、音頻或視頻)一樣,Waymo 的 AI 能夠整合來自多個來源的傳感器數(shù)據(jù)來理解其周圍環(huán)境。

Waymo 基礎(chǔ)模型是一個單一的大型模型,但車端是一個較小的模型,不過這個模型是從更大的模型中“提煉”出來的——因為它需要足夠緊湊才能部署在車端。

大型模型被用作“教師”模型,將其知識和能力傳授給較小的“學生”模型——這一過程在生成式人工智能領(lǐng)域被廣泛使用。小型模型針對速度和效率進行了優(yōu)化,并在每輛車上實時運行,同時仍保留駕駛汽車所需的關(guān)鍵決策能力。

因此,感知和行為任務(wù)(包括感知物體、預測其他道路使用者的行為以及規(guī)劃汽車的下一步行動)都可以在車上實時進行。

云端的更大的模型還可以模擬真實的駕駛環(huán)境,在部署到 Waymo 車輛之前,進行虛擬測試和驗證其決策。

所以,Waymo的世界模型可以、編碼所有傳感器數(shù)據(jù)(攝像頭、雷達、激光雷達)并內(nèi)置世界知識,解碼所有駕駛相關(guān)任務(wù)(蒸餾縮小放在車端做感知、控制,可以在云端做虛擬仿真),這樣可以實現(xiàn)強大的泛化能力和快速適應(yīng)不同平臺。

有了這個世界模型的算法,基本上解決了自動駕駛?cè)粘栴}

接下來的任務(wù)-解決長尾問題

自動駕駛的長尾問題,無非就是天氣、能見度低、遮擋、施工等復雜場景。雖然字面上很容易,但對于自動駕駛就是難解之題。

天氣:

例如:雨后的路況的水坑,以及不常發(fā)生的洪水,自動駕駛算法需要判斷水深和大量上下文信息,精確度和召回率要求極高,大量的空間信息。

Waymo的解法是采用VLM,但是前提條件是大量此類語料庫。

雪地駕駛,這對車輛硬件要求高,傳感器需要加熱和清潔功能以應(yīng)對堵塞。雪地駕駛的挑戰(zhàn)還包括:如何決定行駛路線(地圖是否仍然重要)、識別車轍,以及估計摩擦力。

低能見度與遮擋:

在極端低能見度下,如夜間高速公路上的行人或車輛,單個傳感器可能無法檢測,需要多模態(tài)傳感器的協(xié)同。

鳳凰城特有的沙塵暴(哈布)也對傳感器識別構(gòu)成挑戰(zhàn),激光雷達可以在塵暴中清晰看到行人

遮擋推理(Occlusion Reasoning):

最常見的就是視線不好的地方,到底有沒有鬼探頭,有沒有加塞等。這類看不見區(qū)域中物體的存在和狀態(tài),對駕駛安全至關(guān)重要。

挑戰(zhàn)包括:定義不明確、非確定性、缺乏真值(ground truth)以建立基準、主觀性、交通參與者多樣性以及高度依賴上下文。

人類常常對這種場景采取的方式是防御性駕駛

Waymo的解決方案包括:估計不確定的物體的先驗信息(通過學習駕駛數(shù)據(jù)統(tǒng)計信息和利用微弱的傳感器線索,其實也就是原有數(shù)據(jù))以及準確估計自車速度先驗(在不確定性高的路口,速度估計過低或過高都會導致問題)。

復雜場景理解:

施工場景:需要識別標志、推理駕駛幾何形狀,并根據(jù)錐筒等物體調(diào)整路線。

動態(tài)場景:如交通警官的手勢,需要實時響應(yīng)動態(tài)信號。

活躍事故現(xiàn)場:涉及大量應(yīng)急車輛和路況堵塞,需要整體場景理解來推理,并決定最佳行動路線,而不僅僅是識別單個物體(如警戒線)。

總的來講,對于復雜場景,不僅僅是識別特征元素那么簡單,需要使用LLM大語言模型理解場景,然后根據(jù)場景內(nèi)容做出決策。對于復雜場景Waymo表示他們也在探索。

自動駕駛開發(fā)到底什么最重要?

自動駕駛時人工智能落地的場景,所以自動駕駛最重要的東西也就是人工智能的三大件:數(shù)據(jù)、算法、算力。

但Waymo自動駕駛對這三大件卻只提了數(shù)據(jù),Waymo表示基礎(chǔ)是擁有大量數(shù)據(jù)很重要,但數(shù)據(jù)篩選和整理更為關(guān)鍵,高效高質(zhì)的數(shù)據(jù)才能確保模型專注于解決正確的問題。

Waymo使用語言搜索、基于嵌入的搜索(適用于外觀和行為)、少樣本學習和主動學習等技術(shù)

對于自動駕駛,數(shù)據(jù)里面肯定海量視頻,如何數(shù)據(jù)挖礦出高質(zhì)的視頻,那么視頻搜索能力中對于理解事件(如汽車碰撞、漂移、翹頭)的含義至關(guān)重要。

快速的實時決策,天下武功唯快不破,自動駕駛也一樣,Waymo表示誰能讓算法到執(zhí)行的鏈路用時越短,那么誰的自動駕駛就能做的更安全,更絲滑。

怎么理解這個自動駕駛的響應(yīng)快,這個得拆解自動駕駛從攝像頭等傳感器的輸入響應(yīng),然后就是算法的運算結(jié)論交給底盤等執(zhí)行機構(gòu)。

傳感器的輸入響應(yīng),基本上就是看攝像頭的fps和激光雷達等幀率,目前攝像頭幀率都大于24Hz。

算法的響應(yīng),基本上就是算法能夠處理多塊的幀率,然后按照多快的幀率比如10Hz和20Hz輸送給底盤執(zhí)行機構(gòu)。

底盤機構(gòu)響應(yīng),這就是為什么這個時代油液的發(fā)動機和底盤已經(jīng)不適應(yīng)了,電機電控的控制頻率已經(jīng)非常高了,例如底盤剎車ESP的響應(yīng)都是上百Hz。

所以,當前快速響應(yīng)決策基本上都是卡在各家算法的處理輸出響應(yīng)頻率。

最后,Waymo認為他的Depots運營停車場,改裝工廠是最重要的,因為Waymo是做L4的,這些設(shè)備能夠幫助L4順利快速的運營。

Waymo的Depots運營停車場,目前車輛能夠自己進入停車場,找充電的空位,充完電只要拔完槍,車子就自動開出去運營。

Waymo的改裝車間,自動駕駛車輛,只要裝完了傳感器,車輛就能夠自動駛出生產(chǎn)線,自己駛?cè)脒\輸卡車或者就直接開始運營。

寫在最后

當然,Waymo這個在CVPR上的討論,更多的是算法和開發(fā)以及少量運營。但對于輔助駕駛/自動駕駛批量生產(chǎn)和運營猶如汽車制造一樣,還有更大的是工程落地的很多dirty work,可能Waymo還沒有走到那一步。

工程落地是自動駕駛行業(yè)一個較大的壁壘,需要協(xié)同汽車開發(fā),協(xié)同測試運營,聽說行業(yè)內(nèi)做的好的自動駕駛公司基本上都是挖角當年傳統(tǒng)汽車工程師來做,例如博世等的工程師。

輔助駕駛/自動駕駛產(chǎn)業(yè)應(yīng)該最終都會交叉,因為他們算法軟件的底層邏輯是一樣的。

*未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-

       原文標題 : Waymo自動駕駛最新探索實踐:世界模型、長尾問題、最重要的東西

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號