图片区小说区区国产明星,国产日韩欧美综合久久亚洲

Waymo首次公布技術細節(jié)，自動駕駛老司機的煉成

2018-12-12 10:55

雖然Waymo已經(jīng)在美國當?shù)貢r間12月5日宣布正式商用，但是外界對Waymo的技術細節(jié)知之甚少。Waymo也很清楚這種信息差異會讓外界對其技術信心不足。這是Waymo需要改變的地方——公布更多技術細節(jié)，提高公眾信心。

在美國當?shù)貢r間12月11日，Waymo在其官方博客上首次對外發(fā)布了部分技術細節(jié)——如何用名為“ChauffeurNet”的深度循環(huán)神經(jīng)網(wǎng)絡【recurrent neural network （RNN）】來打造世界上最有經(jīng)驗的司機。

Waymo要打造的最有經(jīng)驗的機器人司機像任何一個優(yōu)秀司機一樣，需要通過識別周圍的物體，從而感知和理解周圍的世界，并預測它們下一步的行為，然后在遵守交通規(guī)則的前提下安全駕駛。

近年來，用大量標記數(shù)據(jù)對深層神經(jīng)網(wǎng)絡進行監(jiān)督訓練，在很多領域得到了應用，特別是在感知和預測領域，可以迅速提高技術水平，Waymo在這方面也有廣泛的應用。

隨著神經(jīng)網(wǎng)絡在感知領域的成功，接來下的想法就是，Waymo已經(jīng)擁有了超過1000萬英里的自動駕駛數(shù)據(jù)，是否可以使用純粹的監(jiān)督的深度學習方法來訓練出最有經(jīng)驗的司機呢？

因此，數(shù)據(jù)專家創(chuàng)建了一個神經(jīng)網(wǎng)絡，不僅能模擬開車，在具有挑戰(zhàn)性的情形下，還足以驅動一輛真正的車進行測試。但是，簡單的模仿大量的“好司機”的駕駛習慣，并不能創(chuàng)造出一種功能強大、可靠的自動駕駛技術。

相反，Waymo發(fā)現(xiàn)從良好的感知和控制中引導簡化學習任務是有價值的，同時，除了模仿“好司機”的駕駛習慣，還要模仿“壞司機”不良駕駛行為，用額外的不良駕駛行為來訓練出更好的駕駛行為。

1、創(chuàng)建ChauffeurNet

為了通過模仿“好司機”來駕駛，Waymo創(chuàng)建了一個名為“ChauffeurNet”的深度循環(huán)神經(jīng)網(wǎng)絡（RNN），該網(wǎng)絡通過觀察場景的中層表示作為輸入來發(fā)出駕駛軌跡。中間層的表示不直接使用原始的傳感器數(shù)據(jù)，從而分解出感知任務，并允許結合真實和模擬數(shù)據(jù)，以便更容易地進行學習。

如下圖所示，這個輸入表示由一個自頂向下（鳥瞰）的環(huán)境視圖組成，該視圖包含諸如地圖、周圍對象、交通燈狀態(tài)、汽車軌跡信息。該網(wǎng)絡還提供了一條谷歌地圖風格的路線，指引車輛到達目的地。

ChauffeurNet在每次迭代中輸出未來驅動軌跡上的一個點，同時將預測的點寫到內(nèi)存中，該內(nèi)存將在下一次迭代中使用。從這個意義上說，RNN不是傳統(tǒng)的，因為內(nèi)存模型是地精心設計的。ChauffeurNet的軌跡輸出由10個未來點組成，然后被提供給一個低級控制器，該控制器將其轉換為控制指令，如轉向和加速，使其能夠駕駛汽車。

此外，還使用了一個單獨的“PerceptionRNN”頭，它迭代地預測環(huán)境中其他移動對象的未來，并且這個網(wǎng)絡與預測軟件駕駛的RNN共享特性。未來的一種可能性是，在選擇我們自己的駕駛軌跡的同時，預測其他因素的反應，這一過程會發(fā)生更深層次的交叉。

驅動模型的呈現(xiàn)輸入和輸出

從左到右：路標、紅綠燈、限速和路線。從左到右的底部行：當前代理框、動態(tài)框、過去代理位姿和輸出未來代理位姿。

ChauffeurNet有兩個內(nèi)部部分：FeatureNet和AgentRNN

AgentRNN消耗一個圖像的呈現(xiàn)過去代理姿勢，一組特性計算卷積網(wǎng)絡“FeatureNet”呈現(xiàn)的輸入，與最后一劑盒渲染圖像，一個外顯記憶呈現(xiàn)的預測未來的代理對預測未來代理構成和自頂向下的鳥瞰圖圖。這些預測用于更新AgentRNN的輸入，以便預測下一個時間步驟。

2、模仿“好司機”

Waymo用相當于60天“好司機”駕駛數(shù)據(jù)的例子對模型進行了訓練，同時加入了訓練技術，以確保網(wǎng)絡不會簡單地繼續(xù)從過去的運動中推斷，而是對環(huán)境做出正確的反應。

正如許多人在我們之前發(fā)現(xiàn)的，包括上世紀80年代的阿爾文項目（ALVINN Project），純粹模仿“好司機”給出的模型，只要情況不太偏離培訓中看到的情況，模型就能平穩(wěn)運行。

該模型學會了對諸如停車標志和交通燈等交通管制作出適當?shù)姆磻�。然而，會有偏差，例如對軌跡引入擾動或將其置于接近碰撞的情況下，會導致其表現(xiàn)不佳，因為即使在使用大量數(shù)據(jù)進行訓練時，它也可能從未在訓練過程中看到過這些確切的情況。

經(jīng)過純模仿學習訓練的Agent被困在一輛停著的車輛后面

在沿著彎曲的道路行駛時無法從偏離的軌跡中恢復

上述兩幅動圖備注：藍綠色的路徑表示輸入路徑，黃色的框表示場景中的動態(tài)對象，綠色的框表示Agent，藍色的點表示Agent的過去位置，綠色的點表示預測的未來位置。

3 、“合成壞司機”

從真實世界的駕駛中獲得的“好司機”駕駛行為中，通常只包含在良好情況下駕駛的例子，因為出于明顯的原因，我們不希望我們的“好司機”駕駛陷入近碰撞或爬坡限制，只是為了向神經(jīng)網(wǎng)絡展示如何在這些情況下恢復。

為了訓練網(wǎng)絡走出困境，模擬或綜合合適的訓練數(shù)據(jù)是有意義的。一種簡單的方法是加入一些例子，在這些例子中，我們干擾了“好司機”實際的駕駛軌跡。這種擾動使得軌跡的起點和終點保持不變，偏離主要發(fā)生在中間。這教會神經(jīng)網(wǎng)絡如何從干擾中恢復。

不僅如此，這些擾動還會產(chǎn)生與其他物體或道路限制物發(fā)生合成碰撞的例子，我們通過增加阻止此類碰撞的顯式損失來教會網(wǎng)絡避免這些碰撞。這些損失使我們能夠利用領域知識來指導學習在新的情況下更好地泛化。

通過將當前Agent位置（紅點）從lane center拉出，然后擬合一個新的平滑軌跡，使agent沿lane center回到原來的目標位置，從而對軌跡進行擾動。這項工作演示了一種使用合成數(shù)據(jù)的方法。除了我們的方法之外，還可以對高度交互或罕見情況進行廣泛的模擬，同時使用強化學習（RL）調整驅動策略。

然而，做RL需要我們精確地模擬環(huán)境中其他道路參與者的真實行為，包括其他車輛、行人和騎自行車的人。由于這個原因，我們在當前的工作中專注于一種純粹的監(jiān)督學習方法，記住我們的模型可以用來創(chuàng)建自然行為的“智能代理”來引導RL。

1 2 下一頁>