侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

智能駕駛技術(shù)演進(jìn)與未來(lái)挑戰(zhàn):從目標(biāo)物識(shí)別到大模型上車

智能駕駛自動(dòng)駕駛經(jīng)歷過(guò)去幾年的迅猛發(fā)展,技術(shù)底層雖然確立人工智能AI賦能發(fā)展的根基,但是方法路徑卻經(jīng)歷了巨大的變化。

例如,當(dāng)年的感知數(shù)據(jù)標(biāo)注量之爭(zhēng),2022年左右的HD高精地圖之爭(zhēng),再到2023年的真假無(wú)圖開城大戰(zhàn),最后到2024端到端智能駕駛大模型上車。也引發(fā)了巨多的智能駕駛熱詞,數(shù)據(jù)標(biāo)注,地圖,BEV,Transformer,有無(wú)圖智駕,大模型上車等等;剡^(guò)頭來(lái)看,我們?cè)谟懻撨@些東西的時(shí)候,僅僅看到的是表面,然后基于表面再添加自己認(rèn)知去解讀。

但其實(shí)智能駕駛終究只是人工智能AI的應(yīng)用端,他的發(fā)展是跟隨人工智能的發(fā)展落地,所以看智能駕駛的發(fā)展必須緊盯AI的發(fā)展。最近在人工智能領(lǐng)域把控AI三大件中的重要的兩大件的英偉達(dá),在其GTC上分享了英偉達(dá)對(duì)于智能駕駛架構(gòu)發(fā)展的理解,本文將基于其理論整理和分析智能駕駛架構(gòu)的發(fā)展歷史以及趨勢(shì)。值得智能汽車產(chǎn)業(yè)內(nèi)管理,產(chǎn)品,技術(shù)人士,投資,科技愛好者了解和學(xué)習(xí),把握智能汽車特別是智能駕駛發(fā)展脈絡(luò)。智能駕駛技術(shù)架構(gòu)的發(fā)展可以分為四個(gè)部分:

AV1.0 - 目標(biāo)物識(shí)別

AV1.x - BEV+Transformer+......

AV2.0 - E2E大模型

AV2.0 - E2E大模型+LVM圖像語(yǔ)言模型

AV1.0 - 目標(biāo)物識(shí)別采用經(jīng)典的智能駕駛步驟,感知,定位,融合跟蹤,預(yù)測(cè),規(guī)劃,執(zhí)行。在智能駕駛開發(fā)中也是嚴(yán)格劃定每個(gè)模塊的邊界,各司其職。

這時(shí),AI人工智能主要用在目標(biāo)物識(shí)別感知方面,以及少部分預(yù)測(cè)方面。感知主要是基于視覺的目標(biāo)物的識(shí)別,所以數(shù)據(jù)標(biāo)注量決定了感知的精準(zhǔn)度;預(yù)測(cè)采用決策樹等算法。規(guī)控算法主要采用經(jīng)典PID;九渲弥饕壳耙曈X攝像頭感知目標(biāo)物,所以大家看到的5V(5 vison 5個(gè)攝像頭,其中4個(gè)是環(huán)視)方案,大都屬于此類。

新勢(shì)力第一代智能駕駛都采用這類智能駕駛架構(gòu),例如,Tesla 特斯拉以及國(guó)內(nèi)新勢(shì)力 NIO 蔚來(lái),Xpeng 小鵬都是采用Mobileye提供感知的方式實(shí)現(xiàn),在國(guó)內(nèi)新勢(shì)力以及眾多其他推出的第一代高速領(lǐng)航輔助(什么是領(lǐng)航輔助點(diǎn)擊淺談高階智能駕駛-領(lǐng)航輔助的技術(shù)與發(fā)展)都是基于此類感知方式配合HD高精地圖實(shí)現(xiàn)。但很快隨著智能駕駛功能以及覆蓋ODD的需求不斷擴(kuò)大,這種分布式模塊的智能駕駛架構(gòu),由于模塊復(fù)雜,嚴(yán)重依賴高精地圖,所以無(wú)法規(guī);,慢慢被主流拋棄。

AV1.x - BEV+Transformer+......當(dāng)國(guó)內(nèi),在頭痛數(shù)據(jù)標(biāo)注量,且依然無(wú)法破局智能駕駛場(chǎng)景長(zhǎng)尾場(chǎng)景時(shí)候;在討論怎么破局HD高精地圖的約束等無(wú)法規(guī);囊蜃訒r(shí)候;馬斯克的2021 AI day給行業(yè)透露了他技術(shù)的關(guān)鍵詞:鳥瞰圖(BEV):BEV主要基于車輛360視覺覆蓋的攝像頭,提供了一個(gè)從上方俯瞰車輛周圍環(huán)境的視角,它還可以合成多個(gè)傳感器(如攝像頭、雷達(dá)、激光雷達(dá)等)的數(shù)據(jù)來(lái)生成一個(gè)全面的視圖。這個(gè)視圖不僅包括車輛周圍的物體,如其他車輛、行人、障礙物等,還包括它們?cè)谌S空間中的位置信息。Transformer模型:Transformer是一種深度學(xué)習(xí)架構(gòu),最初用于自然語(yǔ)言處理(NLP)領(lǐng)域,因其強(qiáng)大的序列處理和關(guān)系建模能力而聞名。

在自動(dòng)駕駛中,Transformer被用來(lái)處理BEV數(shù)據(jù),以理解和預(yù)測(cè)不同物體之間的動(dòng)態(tài)關(guān)系和交互;谶@兩個(gè)關(guān)鍵技術(shù)因子,智能駕駛實(shí)現(xiàn)了三維空間感知加上時(shí)間維度的4D感知。在智能駕駛系統(tǒng)中,這意味著車輛不僅能夠?qū)崟r(shí)地檢測(cè)和跟蹤周圍的物體(3D感知),還能夠預(yù)測(cè)這些物體在未來(lái)一段時(shí)間內(nèi)的狀態(tài)和行為(時(shí)間維度)。這種4維感知能力對(duì)于自動(dòng)駕駛汽車在復(fù)雜和動(dòng)態(tài)的交通環(huán)境中進(jìn)行安全導(dǎo)航至關(guān)重要。

2022年特斯拉AI day又帶來(lái)了Occupancy占用網(wǎng)格Occupancy可以直接在BEV空間中完成動(dòng)態(tài)障礙物的3D檢測(cè)和靜態(tài)障礙物的識(shí)別建模;提供直接在3D空間中感知占用關(guān)系,為系統(tǒng)規(guī)劃提供可行駛空間。當(dāng)然占用網(wǎng)格挺吃算力,國(guó)內(nèi)目前有通過(guò)激光雷達(dá)等其他傳感器方式實(shí)現(xiàn),例如之前文章《遙遙領(lǐng)先的華為智駕硬件以及背后的GOD和RCR算法》講到的GOD。有了對(duì)于環(huán)境感知的全面理解,但是交通的另外兩個(gè)層面: 其他交通參與者的行動(dòng)軌跡以及道路之間的拓?fù)潢P(guān)系成了智能駕駛的難點(diǎn)。

這個(gè)時(shí)候Live Vector Space Topological Relationships"(實(shí)時(shí)向量空間拓?fù)潢P(guān)系)登場(chǎng)了實(shí)時(shí)向量空間:實(shí)時(shí)向量空間是指自動(dòng)駕駛汽車使用傳感器數(shù)據(jù)(如攝像頭、雷達(dá)、激光雷達(dá)等)實(shí)時(shí)生成的環(huán)境表示。這些數(shù)據(jù)被轉(zhuǎn)換成向量形式,每個(gè)向量代表環(huán)境中的一個(gè)特定對(duì)象或特征,例如其他車輛、行人、道路標(biāo)志或道路邊界。拓?fù)潢P(guān)系:拓?fù)潢P(guān)系描述了環(huán)境中對(duì)象之間的相對(duì)位置和相互關(guān)系。在自動(dòng)駕駛的上下文中,這包括了解車輛與其他車輛、行人以及道路基礎(chǔ)設(shè)施之間的空間關(guān)系。例如,一個(gè)車輛可能在另一個(gè)車輛的前面、后面或側(cè)面,而這些關(guān)系對(duì)于規(guī)劃安全行駛路徑至關(guān)重要。

這樣,智能駕駛汽車可以實(shí)時(shí)處理這些拓?fù)潢P(guān)系,快速做出決策和反應(yīng),實(shí)時(shí)調(diào)整其規(guī)劃和控制策略以應(yīng)對(duì)動(dòng)態(tài)變化。通過(guò)理解實(shí)時(shí)向量空間中的拓?fù)潢P(guān)系,智能駕駛汽車可以更準(zhǔn)確地預(yù)測(cè)其他道路使用者的行為,從而進(jìn)行有效的導(dǎo)航和決策制定。通過(guò)配合SD普通導(dǎo)航信息,可以決策車輛的路線跟隨。例如,如果一個(gè)車輛正在靠近并可能在交叉路口處轉(zhuǎn)彎,自動(dòng)駕駛汽車需要預(yù)測(cè)這一行為并相應(yīng)地調(diào)整速度和行駛路徑。有了環(huán)境的感知以及交通道路的拓?fù)潢P(guān)系,基本上智能駕駛汽車完成了對(duì)World模型的構(gòu)建,這個(gè)時(shí)候需要規(guī)控出馬了。Joint Prediction & Planning Network(聯(lián)合預(yù)測(cè)與規(guī)劃網(wǎng)絡(luò))傳統(tǒng)的自動(dòng)駕駛系統(tǒng)可能會(huì)將感知、預(yù)測(cè)和規(guī)劃作為分離的模塊來(lái)處理。然而,"Joint Prediction & Planning Network" 采用了一種集成的方法,將預(yù)測(cè)和規(guī)劃結(jié)合在一個(gè)統(tǒng)一的框架中

這樣做的好處是能夠更流暢地處理從感知到行動(dòng)的轉(zhuǎn)換,并提高系統(tǒng)的整體效率和性能。聯(lián)合預(yù)測(cè)與規(guī)劃算法是一種基于 Transformer 的架構(gòu),通過(guò)學(xué)習(xí)人類駕駛以及強(qiáng)化學(xué)習(xí)(RL)來(lái)實(shí)現(xiàn)。當(dāng)前國(guó)內(nèi)量產(chǎn)的主流智能駕駛架構(gòu)都或多或少采用以上方法和技術(shù)。AV2.0 - E2E大模型隨著生成式人工智能GPT的橫空出世,端到端模型也搬上車了。端到端模型,基本就是融合所有的AI model形成一個(gè)輸入駕駛環(huán)境,輸出車控的轉(zhuǎn)向,剎車加速等信號(hào)。

至于它的內(nèi)部結(jié)構(gòu),你可以把它當(dāng)作一個(gè)黑盒,它能夠記住你講過(guò)的所有場(chǎng)景,所有case以及你告訴他針對(duì)以上場(chǎng)景和case的反饋。在實(shí)際自動(dòng)駕駛中它會(huì)基于記憶的場(chǎng)景和反饋去實(shí)施。這個(gè)和當(dāng)前的 ChatGPT 類似,它只能準(zhǔn)確回答他知道的東西,不知道的問(wèn)題,GPT可能會(huì)一本正經(jīng)的說(shuō)胡話,但如果自動(dòng)駕駛汽車沒見過(guò)的場(chǎng)景,自動(dòng)駕駛隨意開,那么就會(huì)造成安全事故。所以問(wèn)題來(lái)了,你必須要去喂這個(gè)大模型,足夠多的數(shù)據(jù),讓它學(xué)會(huì)應(yīng)對(duì)所有場(chǎng)景的駕駛。自動(dòng)駕駛交通信息數(shù)據(jù)獲取有兩種方法:

第一種方法是實(shí)際道路采集車采集。

第二種方法是基于實(shí)際場(chǎng)景采集的數(shù)據(jù)虛擬場(chǎng)景。自動(dòng)駕駛端到端算法基于上面的數(shù)據(jù)進(jìn)行訓(xùn)練,根據(jù)英偉達(dá)的 GTC 自駕駛車輛的演講:

智能駕駛大模型的參數(shù)的大小,1年之后會(huì)增加3倍,2年之后會(huì)增加7倍,3年之后增加13倍;

智能駕駛大模型訓(xùn)練的數(shù)據(jù)大小,1年之后會(huì)增加4倍,2年之后增加8倍,3年之后增加17倍。

算力當(dāng)前L2+的模型訓(xùn)練需要8000塊GPU,如果是基礎(chǔ)的智能駕駛大模型的訓(xùn)練算力需要24000塊GPU,標(biāo)準(zhǔn)的需要40000塊,最多的要高達(dá)80000萬(wàn)塊。

所以,大模型上車智能駕駛,主要是對(duì)于數(shù)據(jù)以及算力的渴求。數(shù)據(jù)以及算力為王。

AV2.0 - E2E大模型+VLM視覺語(yǔ)言模型這或許就是輪回了,輪回到當(dāng)年基于目標(biāo)物識(shí)別的感知,數(shù)據(jù)標(biāo)注量。

如何解決?英偉達(dá)拋出行業(yè)目前在做的添加 VLM (Vison Language Model) 方法。

視覺語(yǔ)言模型是一種結(jié)合了圖像和文本處理能力的機(jī)器學(xué)習(xí)模型,可以理解和解釋圖像與文本之間的關(guān)聯(lián),并根據(jù)圖像生成準(zhǔn)確、生動(dòng)的自然語(yǔ)言描述。這種模型通過(guò)分析圖像內(nèi)容和上下文來(lái)生成相關(guān)的文字描述,為計(jì)算機(jī)賦予了更接近人類的視覺理解能力。例如我們之前文章《探秘美國(guó)加州自動(dòng)駕駛路試:豪橫競(jìng)逐、勤奮探索與技術(shù)挑戰(zhàn)》中講到的Ghost以及英國(guó)的Wayve應(yīng)該都采用類似的技術(shù),識(shí)別某個(gè)場(chǎng)景時(shí)候,通過(guò)視覺語(yǔ)言模型解讀當(dāng)前的環(huán)境,然后結(jié)合語(yǔ)言知識(shí)輔助自動(dòng)駕駛。

打個(gè)比方,視覺語(yǔ)言模型識(shí)別到當(dāng)前智能駕駛為學(xué)校放學(xué)期間,那么自動(dòng)駕駛自然會(huì)明白這個(gè)場(chǎng)景需要更加謹(jǐn)慎的駕駛,從而可以更加人性的駕駛。寫在最后 - 端到端大模型智能駕駛的挑戰(zhàn)大模型智能駕駛,也將自動(dòng)駕駛汽車帶回GPT一樣的困頓:數(shù)據(jù),數(shù)據(jù),算力,算力。但自動(dòng)駕駛汽車關(guān)系到人類的安全,這就更需要大模型實(shí)現(xiàn)可靠、安全和高效,基于這些大模型的智能駕駛系統(tǒng),將面臨以下兩個(gè)主要挑戰(zhàn):可解釋性和透明度:復(fù)雜的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,這些模型往往被認(rèn)為是“黑箱”操作,因?yàn)樗鼈兊臎Q策過(guò)程難以解釋和理解。在自動(dòng)駕駛汽車中,這種不透明性可能導(dǎo)致安全問(wèn)題,因?yàn)楫?dāng)發(fā)生錯(cuò)誤或事故時(shí),難以確定原因并采取糾正措施。此外,可解釋性對(duì)于建立用戶信任、滿足監(jiān)管要求以及在法律糾紛中證明決策過(guò)程是合理的也非常關(guān)鍵。

資源和計(jì)算效率:深度學(xué)習(xí)模型和算法通常需要大量的計(jì)算資源進(jìn)行訓(xùn)練和推理。這不僅增加了成本,還可能導(dǎo)致能源消耗和環(huán)境影響的增加。在自動(dòng)駕駛汽車中,這種資源密集型的計(jì)算需求需要通過(guò)優(yōu)化算法和硬件設(shè)計(jì)來(lái)解決,以實(shí)現(xiàn)高性能的同時(shí)保持能效。此外,隨著模型的不斷更新和迭代,如何有效地管理和存儲(chǔ)這些大型模型和相關(guān)數(shù)據(jù)也是一個(gè)挑戰(zhàn)。但不管如何,人工智能高速發(fā)展下的智能駕駛正在迅猛發(fā)展,發(fā)展以及技術(shù)能夠解決所有問(wèn)題。

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:

introduce autonomous vehicles - 英偉達(dá)

GAIA-1: A Generative World Model for Autonomous Driving - wayve

       原文標(biāo)題 : 智能駕駛技術(shù)演進(jìn)與未來(lái)挑戰(zhàn):從目標(biāo)物識(shí)別到大模型上車

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)