訂閱
糾錯(cuò)
加入自媒體

揭秘特斯拉FSD V14 “車位到車位”背后的核心算法:高保真3D空間Occ占用探測(cè)

我們之前文章《特斯拉 FSD V14 上車!10倍參數(shù)模型,真實(shí)現(xiàn)“車位到車位”》中分享到特斯拉FSD V14的泊車聰明到有人評(píng)價(jià)為“Game Changer”。Jack也指出了特斯拉FSD V14的行泊車一套基于真正端到端算法的功能,國(guó)內(nèi)基本沒(méi)有人能做的現(xiàn)實(shí),也就是說(shuō)國(guó)內(nèi)的車位到車位基本都是行泊割裂規(guī)則拼接的算法。

但是,誰(shuí)也不知道特斯拉到底如何做到的,最近特斯拉一份關(guān)于基于視覺(jué)的高保真占有率確定和輔助泊車應(yīng)用的AI建模技術(shù)的專利申請(qǐng)公開(kāi)文本,揭秘了特斯拉如何做到的。

專利揭示了特斯拉利用人工智能模型,僅通過(guò)攝像頭捕獲的 2D 圖像數(shù)據(jù),來(lái)高精度(精確到10cm)重建自動(dòng)駕駛車輛或機(jī)器人(下文統(tǒng)稱為Ego)周圍的 3D 空間結(jié)構(gòu)和障礙物細(xì)節(jié),并應(yīng)用于自主導(dǎo)航、輔助泊車、環(huán)境交互界面渲染。

本文基于專利和相關(guān)信息,來(lái)解讀揭秘:

他是什么?能干什么?- 高保真3D空間Occ占用算法概述與優(yōu)勢(shì)

他怎么做到的? - 高保真3D空間Occ占用算法解析

他有什么用?- 高保真3D空間Occ占用算法應(yīng)用案例

希望給AI自動(dòng)駕駛、機(jī)器人產(chǎn)品技術(shù)愛(ài)好者一些科普和啟發(fā)。

他是什么?能干什么?- 高保真3D空間Occ占用算法概述與優(yōu)勢(shì)

高保真3D空間Occ占用算法可以僅僅利用視覺(jué)和AI算法解決自動(dòng)駕駛系統(tǒng)在復(fù)雜動(dòng)態(tài)環(huán)境中對(duì)周圍物體進(jìn)行精確感知和決策的需求,其主要核心算法包括:

Occ占用網(wǎng)格算法:預(yù)測(cè) Ego 周圍空間中體素(Voxel,即 3D 像素)的占有率屬性(是否被有質(zhì)量的物體占據(jù))。

符號(hào)距離函數(shù) Signed Distance Function (SDF)預(yù)測(cè):預(yù)測(cè)被占據(jù)體素的符號(hào)距離值 (Signed Distance Value),該值指示了該體素與最近的占據(jù)體素(即物體表面)之間的距離。這使得系統(tǒng)能夠?qū)崿F(xiàn)更精細(xì)的形狀細(xì)化和改進(jìn)的空間感知。

預(yù)測(cè) Ego 周圍環(huán)境的 3D 表面屬性:從而可以了解占用物體的屬性,例如是車位、是車還是墻、車位線等。

這種算法可以支持:

高保真渲染環(huán)境:利用 SDF 值將 3D 空間重建結(jié)果以高保真圖像的形式顯示出來(lái)。

輔助泊車:利用高精度達(dá)10cm的占有率和 SDF 數(shù)據(jù)預(yù)測(cè)碰撞距離,實(shí)現(xiàn)先進(jìn)的輔助泊車應(yīng)用。

這也就是為什么我們之前文章《特斯拉 FSD V14 上車!10倍參數(shù)模型,真實(shí)現(xiàn)“車位到車位”》中分享到特斯拉的泊車有人評(píng)價(jià)“game changer”。要知道當(dāng)前所有的泊車算法都是用基于規(guī)則的Hybrid A* 和 NMPC算法。

該算法的關(guān)鍵創(chuàng)新點(diǎn)是,僅依賴攝像頭 2D 視覺(jué),在沒(méi)有深度攝像頭、激光雷達(dá)、ToF 傳感器(當(dāng)前主流的補(bǔ)盲激光雷達(dá))、雷達(dá)等專用深度傳感技術(shù)的情況下運(yùn)行。通過(guò)人工智能深度學(xué)習(xí)技術(shù),模型僅憑 2D 圖像即可推斷出空間關(guān)系和場(chǎng)景結(jié)構(gòu)。

他怎么做到的? - 高保真3D空間Occ占用算法解析

首先他的基礎(chǔ)依然是經(jīng)典的Occ占用算法 (Method 200)。從圖像輸入中生成可查詢的 3D 占有率輸出。

圖像輸入和特征化 (210/220):接收來(lái)自多個(gè)攝像頭(如八個(gè)攝像頭)的圖像數(shù)據(jù),并使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 或 RegNet/BiFPN 等算法提取有意義的特征。

空間注意力與 3D 轉(zhuǎn)換 (230):使用 Transformer 模型將 2D 圖像特征轉(zhuǎn)換為 3D 空間特征。該模塊通過(guò) 3D 查詢分析 2D 特征,將多攝像頭圖像數(shù)據(jù)聚合和轉(zhuǎn)換成 Ego 周圍的單個(gè) 3D 向量空間表示(如俯視空間)。

時(shí)間對(duì)齊/融合 (240):將當(dāng)前時(shí)間戳的 3D 空間表示與先前時(shí)間戳(如 t-1, t-2, t-3)的 3D 空間表示進(jìn)行融合,以納入時(shí)空信息。

反卷積與體積輸出 (250/260):通過(guò)反卷積操作將融合后的時(shí)空特征轉(zhuǎn)換回不同的體素表示,生成體積輸出。

體積輸出內(nèi)容:包括體素的二進(jìn)制占有率(0 或 1),占有率流數(shù)據(jù)(指示體素的移動(dòng)速度),以及 3D 語(yǔ)義數(shù)據(jù)(指示體素所屬物體類型,如車輛、路緣、靜態(tài)/移動(dòng)質(zhì)量)。

體素粒度:默認(rèn)體素尺寸可以是 33 厘米。系統(tǒng)可以動(dòng)態(tài)調(diào)整靠近 Ego 的被占據(jù)體素的粒度(例如縮小到 10 厘米),以識(shí)別物體更精細(xì)的形狀信息。

可查詢輸出 (270):生成一個(gè)可查詢數(shù)據(jù)集,允許其他下游軟件模塊(如自主駕駛系統(tǒng))通過(guò)坐標(biāo)值 (X, Y, Z) 來(lái)檢索特定體素的占有率狀態(tài)。

進(jìn)一步的表面屬性分析方法 (Method 201/500),該方法專注于預(yù)測(cè) Ego 周圍環(huán)境的 3D 表面屬性,而不是僅僅是體素占有率。

預(yù)測(cè)表面屬性:AI 模型預(yù)測(cè) Ego 周圍一個(gè)或多個(gè)表面的屬性,包括 Z 軸坐標(biāo)(高程),表面材質(zhì)(如草地、瀝青、混凝土),是否可導(dǎo)航,以及車道和車位線信息。

生成網(wǎng)格表示 (Mesh):模型生成 Ego 周圍環(huán)境的網(wǎng)格表示,其中每個(gè)節(jié)點(diǎn)包含 X、Y、Z 軸坐標(biāo)及屬性類別。

坐標(biāo)校準(zhǔn):為了消除 Ego 自身垂直運(yùn)動(dòng)(如經(jīng)過(guò)坑洼或減速帶)帶來(lái)的噪聲,系統(tǒng)會(huì)將坐標(biāo)值與表面本身對(duì)齊,而不是與 Ego 的坐標(biāo)相對(duì)對(duì)齊。

高程擴(kuò)展感知:該方法可與占有率檢測(cè) (方法 200) 結(jié)合,以識(shí)別位于 Ego 垂直占有率檢測(cè)范圍之外(例如,陡峭山坡上)的物體。通過(guò)先確定表面的高程,然后將物體體素的高程信息進(jìn)行調(diào)整,從而有效擴(kuò)展了 Ego 的感知范圍。

最后,高保真感知核心算法:符號(hào)距離函數(shù) (SDF),這也不是什么新鮮算法,GPU游戲常用。引入了符號(hào)距離函數(shù)(SDF) 技術(shù)來(lái)提高 Ego 對(duì)周圍物體形狀和距離的感知精度,這對(duì)于輔助泊車等精細(xì)操作至關(guān)重要。

SDF 符號(hào)距離值指示一個(gè)被占據(jù)體素與最近的物體表面(最近的被占據(jù)體素)之間的距離。原來(lái)的Occ表示的是該體素與 Ego 之間的距離,這樣算法更精準(zhǔn)來(lái)預(yù)測(cè)碰撞距離。

符號(hào)約定:SDF 場(chǎng)網(wǎng)格 (700) 中,正值表示體素位于物體外部,負(fù)值表示體素位于物體內(nèi)部,零值表示體素位于物體表面。

訓(xùn)練過(guò)程:AI 模型通過(guò)使用包含攝像頭圖像和相應(yīng)地面真值深度圖/簽名距離圖的大型數(shù)據(jù)集進(jìn)行訓(xùn)練。模型學(xué)習(xí)根據(jù)視覺(jué)線索(如物體邊緣、紋理、透視)推斷符號(hào)距離值,這就是端到端的范式。

基于 SDF 的高保真渲染,AI 模型使用 SDF 值執(zhí)行渲染協(xié)議,以實(shí)現(xiàn)平滑且逼真的 3D。

 渲染:生成 2D 渲染層:處理器根據(jù) SDF 值生成一系列 2D 渲染層。

體素屬性:如果體素的 SDF 值是負(fù)值(內(nèi)部),則該體素被渲染為不透明(有顏色);如果是正值(外部),則被渲染為透明。

堆疊重建:通過(guò)迭代生成并堆疊這些 2D 層(例如,從路面 0 垂直向上以英寸為單位生成),可以實(shí)現(xiàn) Ego 周圍物體的高保真 3D 渲染。

優(yōu)勢(shì):這種基于 SDF 的渲染(如圖 9C 所示)比傳統(tǒng)的原始點(diǎn)云或簡(jiǎn)單的二進(jìn)制體素占有率渲染(如圖 9A、9B 所示)細(xì)節(jié)更豐富,視覺(jué)上更連貫和平滑。

油漆線識(shí)別:AI 模型還可以基于體素識(shí)別駕駛表面上的油漆,并且這種識(shí)別不限于連續(xù)的線形,可以識(shí)別任意形狀的油漆(如殘疾人停車標(biāo)志或人行橫道)。

他有什么用?- 高保真3D空間Occ占用算法應(yīng)用案例

由于高保真Occ占用網(wǎng)絡(luò)能夠識(shí)別物體,同時(shí)能夠精準(zhǔn)識(shí)別障礙物的距離,所以這套算法能夠用于自動(dòng)駕駛停車場(chǎng)的泊車,室內(nèi)或者狹窄空間的機(jī)器人自動(dòng)控制。

停車場(chǎng)等近場(chǎng)輔助泊車應(yīng)用

該高保真占有率網(wǎng)絡(luò)可用于開(kāi)發(fā)和實(shí)現(xiàn)先進(jìn)的輔助泊車功能(方法 1100)。

泊車流程確定泊車資格區(qū)域 (1110):處理器確定 Ego 是否進(jìn)入了泊車區(qū)域(例如停車場(chǎng)、路邊停車區(qū))。判斷依據(jù)包括 Ego 的位置、速度(如低速行駛)、以及是否識(shí)別到停車標(biāo)志或周圍車輛的朝向。

空間重建與 SDF 預(yù)測(cè) (1120/1130):Ego 利用攝像頭數(shù)據(jù)執(zhí)行 AI 模型,預(yù)測(cè)周圍空間的占有率和 SDF 值,重建高保真的 3D 環(huán)境。

識(shí)別泊車位 (1140):處理器利用重建的空間信息和 AI 模型識(shí)別一個(gè)或多個(gè)可用泊車位。

非靜態(tài)閾值識(shí)別:與依賴靜態(tài)閾值的傳統(tǒng)方法不同,該 AI 模型通過(guò)訓(xùn)練(例如,識(shí)別被標(biāo)記的體素集合)來(lái)區(qū)分停車位和其他空閑空間。

綜合考量因素:識(shí)別不僅基于空間是否被占據(jù),還考慮地面油漆線(例如,是否為殘疾人車位)、交通標(biāo)志(例如,“禁止停車”標(biāo)志)和路緣顏色(例如,紅色路緣)。

泊車位評(píng)分與選擇:系統(tǒng)會(huì)為識(shí)別出的泊車位生成適用性評(píng)分。評(píng)分基于多個(gè)因素,如泊車位與 Ego 的距離,以及到達(dá)該泊車位所需的路徑屬性(例如,機(jī)動(dòng)次數(shù)和路徑平滑度)。

用戶交互與導(dǎo)航 (1150/1160):在 Ego 界面上顯示識(shí)別出的泊車位及指示器(例如“P”標(biāo)記)。接收用戶選擇后,系統(tǒng)將選定的泊車位數(shù)據(jù)傳輸給自主導(dǎo)航引擎,指示 Ego 自主泊車(包括平行泊車)。

機(jī)器人應(yīng)用

這些方法同樣適用于自主機(jī)器人(如送貨或清潔機(jī)器人)在室內(nèi)環(huán)境中的導(dǎo)航和定位(“泊車”)。

室內(nèi)感知:機(jī)器人攝像頭捕獲辦公室環(huán)境的圖像數(shù)據(jù),AI 模型預(yù)測(cè)體素占有率和 SDF,從而區(qū)分障礙物(桌椅、員工)和可導(dǎo)航區(qū)域(走廊)。

自主對(duì)接/停放:模型可以識(shí)別指定的對(duì)接區(qū)域或充電站(即機(jī)器人的“泊車位”),評(píng)估距離和空間限制,并指示機(jī)器人自主移動(dòng)和精確對(duì)接。

寫(xiě)在最后

本文分享的高保真3D空間Occ占用算法,在經(jīng)歷了各種包含標(biāo)注的圖像和相應(yīng)地面真值深度圖/距離圖的大型數(shù)據(jù)集進(jìn)行訓(xùn)練,其實(shí)就是一個(gè)對(duì)3D世界理解的模型,再配合簡(jiǎn)單駕駛碰撞信息的理解強(qiáng)化訓(xùn)練RLHF你就可以把他稱為世界模型。

本文是進(jìn)入算法層面的文章,不是各種宏觀敘事例如VLA/世界模型等概念文章,如果你看懂了,那么會(huì)理解我們習(xí)以為常的宏觀敘事的熱詞不過(guò)是概念或者含糊的抽象瓶子。

最后,這套算法應(yīng)該會(huì)引發(fā)自動(dòng)駕駛以及機(jī)器人業(yè)內(nèi)的跟進(jìn)和研究學(xué)習(xí),再一次推升算法以及物理AI行業(yè)的發(fā)展。

參考文章以及圖片

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-獲取本文參考資料方式:

基于視覺(jué)的高保真占有率確定和輔助泊車應(yīng)用的AI建模技術(shù)的專利 - 特斯拉

       原文標(biāo)題 : 揭秘特斯拉FSD V14 “車位到車位”背后的核心算法:高保真3D空間Occ占用探測(cè)

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)