揭秘特斯拉FSD V14 “車位到車位”背后的核心算法:高保真3D空間Occ占用探測(cè)
我們之前文章《特斯拉 FSD V14 上車!10倍參數(shù)模型,真實(shí)現(xiàn)“車位到車位”》中分享到特斯拉FSD V14的泊車聰明到有人評(píng)價(jià)為“Game Changer”。Jack也指出了特斯拉FSD V14的行泊車一套基于真正端到端算法的功能,國(guó)內(nèi)基本沒(méi)有人能做的現(xiàn)實(shí),也就是說(shuō)國(guó)內(nèi)的車位到車位基本都是行泊割裂規(guī)則拼接的算法。
但是,誰(shuí)也不知道特斯拉到底如何做到的,最近特斯拉一份關(guān)于基于視覺(jué)的高保真占有率確定和輔助泊車應(yīng)用的AI建模技術(shù)的專利申請(qǐng)公開(kāi)文本,揭秘了特斯拉如何做到的。
專利揭示了特斯拉利用人工智能模型,僅通過(guò)攝像頭捕獲的 2D 圖像數(shù)據(jù),來(lái)高精度(精確到10cm)重建自動(dòng)駕駛車輛或機(jī)器人(下文統(tǒng)稱為Ego)周圍的 3D 空間結(jié)構(gòu)和障礙物細(xì)節(jié),并應(yīng)用于自主導(dǎo)航、輔助泊車、環(huán)境交互界面渲染。
本文基于專利和相關(guān)信息,來(lái)解讀揭秘:
他是什么?能干什么?- 高保真3D空間Occ占用算法概述與優(yōu)勢(shì)
他怎么做到的? - 高保真3D空間Occ占用算法解析
他有什么用?- 高保真3D空間Occ占用算法應(yīng)用案例
希望給AI自動(dòng)駕駛、機(jī)器人產(chǎn)品技術(shù)愛(ài)好者一些科普和啟發(fā)。
他是什么?能干什么?- 高保真3D空間Occ占用算法概述與優(yōu)勢(shì)
高保真3D空間Occ占用算法可以僅僅利用視覺(jué)和AI算法解決自動(dòng)駕駛系統(tǒng)在復(fù)雜動(dòng)態(tài)環(huán)境中對(duì)周圍物體進(jìn)行精確感知和決策的需求,其主要核心算法包括:
Occ占用網(wǎng)格算法:預(yù)測(cè) Ego 周圍空間中體素(Voxel,即 3D 像素)的占有率屬性(是否被有質(zhì)量的物體占據(jù))。
符號(hào)距離函數(shù) Signed Distance Function (SDF)預(yù)測(cè):預(yù)測(cè)被占據(jù)體素的符號(hào)距離值 (Signed Distance Value),該值指示了該體素與最近的占據(jù)體素(即物體表面)之間的距離。這使得系統(tǒng)能夠?qū)崿F(xiàn)更精細(xì)的形狀細(xì)化和改進(jìn)的空間感知。
預(yù)測(cè) Ego 周圍環(huán)境的 3D 表面屬性:從而可以了解占用物體的屬性,例如是車位、是車還是墻、車位線等。
這種算法可以支持:
高保真渲染環(huán)境:利用 SDF 值將 3D 空間重建結(jié)果以高保真圖像的形式顯示出來(lái)。
輔助泊車:利用高精度達(dá)10cm的占有率和 SDF 數(shù)據(jù)預(yù)測(cè)碰撞距離,實(shí)現(xiàn)先進(jìn)的輔助泊車應(yīng)用。
這也就是為什么我們之前文章《特斯拉 FSD V14 上車!10倍參數(shù)模型,真實(shí)現(xiàn)“車位到車位”》中分享到特斯拉的泊車有人評(píng)價(jià)“game changer”。要知道當(dāng)前所有的泊車算法都是用基于規(guī)則的Hybrid A* 和 NMPC算法。
該算法的關(guān)鍵創(chuàng)新點(diǎn)是,僅依賴攝像頭 2D 視覺(jué),在沒(méi)有深度攝像頭、激光雷達(dá)、ToF 傳感器(當(dāng)前主流的補(bǔ)盲激光雷達(dá))、雷達(dá)等專用深度傳感技術(shù)的情況下運(yùn)行。通過(guò)人工智能深度學(xué)習(xí)技術(shù),模型僅憑 2D 圖像即可推斷出空間關(guān)系和場(chǎng)景結(jié)構(gòu)。
他怎么做到的? - 高保真3D空間Occ占用算法解析
首先他的基礎(chǔ)依然是經(jīng)典的Occ占用算法 (Method 200)。從圖像輸入中生成可查詢的 3D 占有率輸出。
圖像輸入和特征化 (210/220):接收來(lái)自多個(gè)攝像頭(如八個(gè)攝像頭)的圖像數(shù)據(jù),并使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 或 RegNet/BiFPN 等算法提取有意義的特征。
空間注意力與 3D 轉(zhuǎn)換 (230):使用 Transformer 模型將 2D 圖像特征轉(zhuǎn)換為 3D 空間特征。該模塊通過(guò) 3D 查詢分析 2D 特征,將多攝像頭圖像數(shù)據(jù)聚合和轉(zhuǎn)換成 Ego 周圍的單個(gè) 3D 向量空間表示(如俯視空間)。
時(shí)間對(duì)齊/融合 (240):將當(dāng)前時(shí)間戳的 3D 空間表示與先前時(shí)間戳(如 t-1, t-2, t-3)的 3D 空間表示進(jìn)行融合,以納入時(shí)空信息。
反卷積與體積輸出 (250/260):通過(guò)反卷積操作將融合后的時(shí)空特征轉(zhuǎn)換回不同的體素表示,生成體積輸出。
體積輸出內(nèi)容:包括體素的二進(jìn)制占有率(0 或 1),占有率流數(shù)據(jù)(指示體素的移動(dòng)速度),以及 3D 語(yǔ)義數(shù)據(jù)(指示體素所屬物體類型,如車輛、路緣、靜態(tài)/移動(dòng)質(zhì)量)。
體素粒度:默認(rèn)體素尺寸可以是 33 厘米。系統(tǒng)可以動(dòng)態(tài)調(diào)整靠近 Ego 的被占據(jù)體素的粒度(例如縮小到 10 厘米),以識(shí)別物體更精細(xì)的形狀信息。
可查詢輸出 (270):生成一個(gè)可查詢數(shù)據(jù)集,允許其他下游軟件模塊(如自主駕駛系統(tǒng))通過(guò)坐標(biāo)值 (X, Y, Z) 來(lái)檢索特定體素的占有率狀態(tài)。
進(jìn)一步的表面屬性分析方法 (Method 201/500),該方法專注于預(yù)測(cè) Ego 周圍環(huán)境的 3D 表面屬性,而不是僅僅是體素占有率。
預(yù)測(cè)表面屬性:AI 模型預(yù)測(cè) Ego 周圍一個(gè)或多個(gè)表面的屬性,包括 Z 軸坐標(biāo)(高程),表面材質(zhì)(如草地、瀝青、混凝土),是否可導(dǎo)航,以及車道和車位線信息。
生成網(wǎng)格表示 (Mesh):模型生成 Ego 周圍環(huán)境的網(wǎng)格表示,其中每個(gè)節(jié)點(diǎn)包含 X、Y、Z 軸坐標(biāo)及屬性類別。
坐標(biāo)校準(zhǔn):為了消除 Ego 自身垂直運(yùn)動(dòng)(如經(jīng)過(guò)坑洼或減速帶)帶來(lái)的噪聲,系統(tǒng)會(huì)將坐標(biāo)值與表面本身對(duì)齊,而不是與 Ego 的坐標(biāo)相對(duì)對(duì)齊。
高程擴(kuò)展感知:該方法可與占有率檢測(cè) (方法 200) 結(jié)合,以識(shí)別位于 Ego 垂直占有率檢測(cè)范圍之外(例如,陡峭山坡上)的物體。通過(guò)先確定表面的高程,然后將物體體素的高程信息進(jìn)行調(diào)整,從而有效擴(kuò)展了 Ego 的感知范圍。
最后,高保真感知核心算法:符號(hào)距離函數(shù) (SDF),這也不是什么新鮮算法,GPU游戲常用。引入了符號(hào)距離函數(shù)(SDF) 技術(shù)來(lái)提高 Ego 對(duì)周圍物體形狀和距離的感知精度,這對(duì)于輔助泊車等精細(xì)操作至關(guān)重要。
SDF 符號(hào)距離值指示一個(gè)被占據(jù)體素與最近的物體表面(最近的被占據(jù)體素)之間的距離。原來(lái)的Occ表示的是該體素與 Ego 之間的距離,這樣算法更精準(zhǔn)來(lái)預(yù)測(cè)碰撞距離。
符號(hào)約定:SDF 場(chǎng)網(wǎng)格 (700) 中,正值表示體素位于物體外部,負(fù)值表示體素位于物體內(nèi)部,零值表示體素位于物體表面。
訓(xùn)練過(guò)程:AI 模型通過(guò)使用包含攝像頭圖像和相應(yīng)地面真值深度圖/簽名距離圖的大型數(shù)據(jù)集進(jìn)行訓(xùn)練。模型學(xué)習(xí)根據(jù)視覺(jué)線索(如物體邊緣、紋理、透視)推斷符號(hào)距離值,這就是端到端的范式。
基于 SDF 的高保真渲染,AI 模型使用 SDF 值執(zhí)行渲染協(xié)議,以實(shí)現(xiàn)平滑且逼真的 3D。
渲染:生成 2D 渲染層:處理器根據(jù) SDF 值生成一系列 2D 渲染層。
體素屬性:如果體素的 SDF 值是負(fù)值(內(nèi)部),則該體素被渲染為不透明(有顏色);如果是正值(外部),則被渲染為透明。
堆疊重建:通過(guò)迭代生成并堆疊這些 2D 層(例如,從路面 0 垂直向上以英寸為單位生成),可以實(shí)現(xiàn) Ego 周圍物體的高保真 3D 渲染。
優(yōu)勢(shì):這種基于 SDF 的渲染(如圖 9C 所示)比傳統(tǒng)的原始點(diǎn)云或簡(jiǎn)單的二進(jìn)制體素占有率渲染(如圖 9A、9B 所示)細(xì)節(jié)更豐富,視覺(jué)上更連貫和平滑。
油漆線識(shí)別:AI 模型還可以基于體素識(shí)別駕駛表面上的油漆,并且這種識(shí)別不限于連續(xù)的線形,可以識(shí)別任意形狀的油漆(如殘疾人停車標(biāo)志或人行橫道)。
他有什么用?- 高保真3D空間Occ占用算法應(yīng)用案例
由于高保真Occ占用網(wǎng)絡(luò)能夠識(shí)別物體,同時(shí)能夠精準(zhǔn)識(shí)別障礙物的距離,所以這套算法能夠用于自動(dòng)駕駛停車場(chǎng)的泊車,室內(nèi)或者狹窄空間的機(jī)器人自動(dòng)控制。
停車場(chǎng)等近場(chǎng)輔助泊車應(yīng)用
該高保真占有率網(wǎng)絡(luò)可用于開(kāi)發(fā)和實(shí)現(xiàn)先進(jìn)的輔助泊車功能(方法 1100)。
泊車流程確定泊車資格區(qū)域 (1110):處理器確定 Ego 是否進(jìn)入了泊車區(qū)域(例如停車場(chǎng)、路邊停車區(qū))。判斷依據(jù)包括 Ego 的位置、速度(如低速行駛)、以及是否識(shí)別到停車標(biāo)志或周圍車輛的朝向。
空間重建與 SDF 預(yù)測(cè) (1120/1130):Ego 利用攝像頭數(shù)據(jù)執(zhí)行 AI 模型,預(yù)測(cè)周圍空間的占有率和 SDF 值,重建高保真的 3D 環(huán)境。
識(shí)別泊車位 (1140):處理器利用重建的空間信息和 AI 模型識(shí)別一個(gè)或多個(gè)可用泊車位。
非靜態(tài)閾值識(shí)別:與依賴靜態(tài)閾值的傳統(tǒng)方法不同,該 AI 模型通過(guò)訓(xùn)練(例如,識(shí)別被標(biāo)記的體素集合)來(lái)區(qū)分停車位和其他空閑空間。
綜合考量因素:識(shí)別不僅基于空間是否被占據(jù),還考慮地面油漆線(例如,是否為殘疾人車位)、交通標(biāo)志(例如,“禁止停車”標(biāo)志)和路緣顏色(例如,紅色路緣)。
泊車位評(píng)分與選擇:系統(tǒng)會(huì)為識(shí)別出的泊車位生成適用性評(píng)分。評(píng)分基于多個(gè)因素,如泊車位與 Ego 的距離,以及到達(dá)該泊車位所需的路徑屬性(例如,機(jī)動(dòng)次數(shù)和路徑平滑度)。
用戶交互與導(dǎo)航 (1150/1160):在 Ego 界面上顯示識(shí)別出的泊車位及指示器(例如“P”標(biāo)記)。接收用戶選擇后,系統(tǒng)將選定的泊車位數(shù)據(jù)傳輸給自主導(dǎo)航引擎,指示 Ego 自主泊車(包括平行泊車)。
機(jī)器人應(yīng)用
這些方法同樣適用于自主機(jī)器人(如送貨或清潔機(jī)器人)在室內(nèi)環(huán)境中的導(dǎo)航和定位(“泊車”)。
室內(nèi)感知:機(jī)器人攝像頭捕獲辦公室環(huán)境的圖像數(shù)據(jù),AI 模型預(yù)測(cè)體素占有率和 SDF,從而區(qū)分障礙物(桌椅、員工)和可導(dǎo)航區(qū)域(走廊)。
自主對(duì)接/停放:模型可以識(shí)別指定的對(duì)接區(qū)域或充電站(即機(jī)器人的“泊車位”),評(píng)估距離和空間限制,并指示機(jī)器人自主移動(dòng)和精確對(duì)接。
寫(xiě)在最后
本文分享的高保真3D空間Occ占用算法,在經(jīng)歷了各種包含標(biāo)注的圖像和相應(yīng)地面真值深度圖/距離圖的大型數(shù)據(jù)集進(jìn)行訓(xùn)練,其實(shí)就是一個(gè)對(duì)3D世界理解的模型,再配合簡(jiǎn)單駕駛碰撞信息的理解強(qiáng)化訓(xùn)練RLHF你就可以把他稱為世界模型。
本文是進(jìn)入算法層面的文章,不是各種宏觀敘事例如VLA/世界模型等概念文章,如果你看懂了,那么會(huì)理解我們習(xí)以為常的宏觀敘事的熱詞不過(guò)是概念或者含糊的抽象瓶子。
最后,這套算法應(yīng)該會(huì)引發(fā)自動(dòng)駕駛以及機(jī)器人業(yè)內(nèi)的跟進(jìn)和研究學(xué)習(xí),再一次推升算法以及物理AI行業(yè)的發(fā)展。
參考文章以及圖片
*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-獲取本文參考資料方式:
基于視覺(jué)的高保真占有率確定和輔助泊車應(yīng)用的AI建模技術(shù)的專利 - 特斯拉
原文標(biāo)題 : 揭秘特斯拉FSD V14 “車位到車位”背后的核心算法:高保真3D空間Occ占用探測(cè)

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
推薦專題
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 人形機(jī)器人廠商,正在批量復(fù)刻宇樹(shù)G1
- 3 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 4 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰(shuí)是“蘋(píng)果”?
- 5 自動(dòng)駕駛誰(shuí)將笑傲江湖?如何把握無(wú)人駕駛“財(cái)富密碼”?
- 6 一家被嚴(yán)重低估的國(guó)產(chǎn)AI巨頭
- 7 特斯拉機(jī)器人獲得10,000臺(tái)訂單?馬斯克抄底成功
- 8 華為公布昇騰芯片三年計(jì)劃,自研HBM曝光
- 9 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 10 揭秘小鵬自動(dòng)駕駛「基座模型」和 「VLA大模型」