ICRA 2020 | 行人軌跡預測競賽冠軍方案總結
在實際操作過程中,由于數(shù)據集中缺乏場景信息,我們對模型做了適當?shù)恼{整。在世界模型中(對應上圖的Interaction Net),我們僅使用了現(xiàn)有數(shù)據集,以及模型能夠提供的位置信息和跟蹤信息LSTM隱狀態(tài)信息。最終得到的模型結構設計如下圖3所示:
圖3 競賽使用的基于世界模型的預測算法
整個模型基于Seq2Seq結構,主要包含歷史軌跡編碼模塊(Encoder)、世界模型(Interaction Module)和解碼預測模塊(Decoder)三個部分。其中,編碼器的功能在于對行人歷史軌跡進行編碼,主要提取行人在動態(tài)環(huán)境中的運動模式;解碼器則是利用編碼器得到的行人運動模式特征,來預測他們未來的運動軌跡分布。
需要強調一下,在整個編碼與解碼的過程中,都需要對世界模型進行實時更新(Update)與查詢(Query)兩種操作。更新操作主要根據時序的推進,將行人的運動信息實時編入世界模型中;查詢操作則是根據全局的世界地圖以及行人的自身位置,來獲取行人當前鄰域內的環(huán)境特征。
圖4 編碼階段
在圖4中,展示了我們模型在歷史軌跡編碼階段的計算流程。編碼階段共有9個時刻,對應9個歷史觀測時間點,每個時刻都執(zhí)行相同的操作。以 t 時刻為例。
首先,將 t 時刻的所有行人坐標數(shù)據,包含:
位置集合
速度集合
所有行人跟蹤信息(上時刻編碼得到的LSTM隱狀態(tài))
將以上信息輸入到世界模型中更新地圖信息,即Update操作。整個Update操作經過MLP、MaxPooling以及GRU等模塊獲得一個全局的時空地圖特征R;然后,每個LSTM(對應一個行人),使用其當前觀測時刻的坐標信息:
然后與R進行Attention操作,得到個人領域內的時空特征,最后與他的坐標信息、上時刻隱狀態(tài)信息一并輸入到LSTM并更新LSTM內置狀態(tài)。
解碼預測階段的流程與歷史軌跡編碼階段基本一致,但存在兩個細微的不同點:
區(qū)別1:編碼階段每個行人對應的LSTM隱狀態(tài)的初始化為0;而解碼階段,LSTM由編碼階段的LSTM隱狀態(tài)和噪聲共同初始化。
區(qū)別2:編碼階段行人對應的LSTM和世界模型使用的是行人歷史觀測坐標;而解碼階段使用的是上時刻預測的行人坐標。
圖5 解碼預測階段
四、數(shù)據預處理與后處理
為了對數(shù)據有更好的理解,便于使用更適合的模型,我們對訓練數(shù)據做了一些預處理操作。首先,數(shù)據集給出了各個行人的行為標簽,這些標簽是根據規(guī)則得到的,由于我們采用了交互預測的方法,希望模型能自動學習行人與周圍主體之間的位置關系、速度關系等,所以我們就不直接使用標注中的“類型”信息;然后這次比賽的數(shù)據采集自馬路、校園等不同場景中行人的運動軌跡,場景之間的差異性非常大,訓練集和測試集數(shù)據分布不太一致。
于是,我們做了數(shù)據的可視化工作,將所有軌跡數(shù)據的起點放置于坐標軸的原點處,根據歷史觀測軌跡(前9個時刻)終點的位置朝向,將所有軌跡分為4類:沿左上方運動(top-left moving)、沿右上方運動(top-right moving)、沿左下方運動(bottom-left moving)和沿右下方運動(bottom-right moving)。分布的結果如圖6所示,可以發(fā)現(xiàn),訓練集和測試集的數(shù)據分布存在一定的差距。
圖6 訓練集與測試集歷史觀測軌跡中行人運動方向分布

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 一文看懂視覺語言動作模型(VLA)及其應用
- 6 國家數(shù)據局局長劉烈宏調研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產元年誰在領跑?
- 10 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單