特斯拉AI準備打敗波士頓動力?
作者
王小西
特斯拉的AI魔幻大法,“看上去很美”。
責編丨查攸吟
編輯丨任哲
看完特斯拉的AI DAY發(fā)布會,忽然反應過來,這這這,不是個大型招聘會么!
之前業(yè)內(nèi)猜測的AI神經(jīng)網(wǎng)絡、FSD、自研超算Dojo,以及突如其來的人形機器人……果然放了不少“大招”。這些用來烘托下半場馬斯克支支吾吾、有點不好意思的推介,“歡迎大家來特斯拉工作”的“司馬昭之心”很明顯啊!
要知道,2021年才半年,特斯拉就失去了4位直接向馬斯克匯報的資深高管。最近的一位,是負責卡車業(yè)務的CEO杰羅姆·吉倫(Jerome Guillen)。而且,吉倫是目前馬斯克最重要的副手,也是特斯拉最頂級的四大高管之一,3月才被任命。所以,特斯拉有多缺人,我們可以理解了。
不過,讓記者感到好奇的是,在最后的回答提問環(huán)節(jié),馬斯克的眼神是有點飄忽的,有點心神不寧的樣子?磥,被美國國家公路交通安全管理局(NHTSA)調(diào)查還是有很大影響。
就在前幾天,業(yè)內(nèi)還對特斯拉的“純視覺”路線熱烈討論,再加上被調(diào)查,特斯拉的AI DAY應時而至,卻也有難以言說的尷尬。而且,有意思的是,因為技術故障,發(fā)布會整整推遲了40分鐘,馬斯克一上來就不得不道歉。
當然,AI DAY算是特斯拉今年最重大的事件,也是繼2019年4月23日的Autonomous Day、2020年9月23日的Battery Day之后,第三個以“Day”命名的技術發(fā)布會。說起來,技術含量也是最高的。
我們來看看這次的AI DAY發(fā)布了哪些新“黑科技”。
01
自動駕駛和“純視覺”
發(fā)布會一開始,就是一段FSD(Fully Self Driving,全自動輔助駕駛系統(tǒng))的VCR短視頻,展示了V9.0最新的開放道路自動駕駛情形。不過,我們可以看到,全程駕駛員的手都是托著方向盤,保持著隨時觸碰的狀態(tài)。
這也說明,特斯拉在發(fā)布FSD BETA V9.0之后,不敢玩得太嗨了。就像記者在《特斯拉純視覺路線,能不能走通?|C次元》對其“純視覺”路線做的質(zhì)疑,這種夸大傳播的惡果就是,最后引起全面的質(zhì)疑和被調(diào)查。而在8月16日,特斯拉又推送了FSD Beta V9.2版本。
回過來看發(fā)布會,AI總監(jiān)恩喬·卡帕西Andrej Karpathy博士首先上臺,討論了特斯拉AI 的多攝像頭的自動駕駛系統(tǒng)。它通過八個攝像頭的數(shù)據(jù)輸入(1280×960 12-Bit HDR 36Hz)進單個神經(jīng)網(wǎng)絡中,整合成 3D 環(huán)境的感知,這被稱為Vector Space(矢量空間)。
Karpath指出,AI可以被視為一種生物,可以從頭開始構建,包括其合成視覺皮層。當特斯拉在其汽車中設計視覺皮層時,將其建模為“眼睛如何感知生物視覺”。他還回溯了特斯拉的視覺處理策略多年來是如何演變的,以及特斯拉具備多任務學習能力的“HydraNets”(神盾局的“九頭蛇網(wǎng)絡”都出來了?)。
特斯拉的自動駕駛算法是從識別單張圖片的普通視覺算法開始,雖然單個攝像頭的單獨檢測效果很棒,但這顯然不夠,F(xiàn)在的純視覺算法“HydraNets”基于不同攝像頭的視覺內(nèi)容進行識別,而且訓練和推斷是端到端的。
在展示了一段關于特斯拉過去如何處理其圖像數(shù)據(jù),以及共享的FSD流行視頻后,Karpathy指出,事實證明過去FSD的系統(tǒng)不夠完善,這是特斯拉在推出Smart Summon時學到的東西。
Karpathy闡述了特斯拉如何從頭開始重新設計他們的神經(jīng)網(wǎng)絡學習,并利用多攝像頭路線,“每輛車上的八個攝像頭都被輸入到一個3維‘矢量空間’中!逼渲邪ㄏ鄼C的校準、緩存、隊列和優(yōu)化以簡化所有任務。這也是迄今為止最簡化的迭代方式。
Karpathy還不忘Diss了一下Super Cruise和Waymo,“今天,特斯拉的FSD戰(zhàn)略更具凝聚力,車輛可以在行駛時有效地實時繪制地圖,”他說與這些競爭對手采用的預先繪制地圖的策略相比,是一個巨大的差異。
但是,就像記者在文章中批判的,沒有激光雷達的加入,就像瘸了一條腿的人,特斯拉在“純視覺”路線上是走不遠的。雖然在馬斯克看來,特斯拉的深度學習系統(tǒng)已經(jīng)比毫米波雷達強100倍,現(xiàn)在的毫米波雷達已經(jīng)開始拖后腿。
就像一位業(yè)內(nèi)專家所說,“不用毫米波雷達,那也別用超聲波雷達啊?!!!純視覺,暴雨怎么辦?大霧怎么辦?”我們知道,特斯拉依靠的最先進的機器學習只是識別模式,這意味著它會在新情況下掙扎。一掙扎,就會產(chǎn)生誤判。
與人類司機不同的是,如果系統(tǒng)沒有遇到場景,它就無法推理該做什么!叭魏蜛I系統(tǒng)都不了解實際發(fā)生的事情,”這是研究自動駕駛汽車計算機視覺的康奈爾大學副教授克里安·溫伯格(Kilian Weinberger)下的斷言。
02
混合規(guī)劃系統(tǒng)
我們再來看看,自動駕駛軟件總監(jiān)Ashok Elluswamy介紹的混合規(guī)劃系統(tǒng)。他通過展示 Autopilot如何執(zhí)行車道變換來證明這套解決方案的先進。
具體來說,當特斯拉的車與其他汽車并排行駛時,Autopilot 不僅要考慮它們的駕駛方式,還必須考慮其他汽車的運行方式。他展示了一段特斯拉的車在道路上行駛并與多輛車打交道的視頻,來證明這一點。
而這時候,Karpathy回來討論數(shù)據(jù)標注的問題。他指出,外包給第三方公司的手動標簽并不是最佳選擇。因此,特斯拉選擇建立自己的標簽團隊。Karpathy指出,最初特斯拉使用的是 2D 圖像標記。最終,特斯拉過渡到4D標簽,也就是可以在“矢量空間”中進行標簽。
▲特斯拉全自動駕駛最終架構
但這還不夠,因此特斯拉開發(fā)了自動標簽。Ashok表示,因為有太多的標簽需要完成,手動完成是不可能的。他展示了“重建”的過程:道路和道路上的其他物品如何從一輛正在行駛的汽車中“重建”出來。
這讓特斯拉能夠有效、更快地標記數(shù)據(jù),同時,車輛即使在存在遮擋的情況下也能安全準確地導航。Ashok表示,這些策略最終幫助特斯拉從其FSD和Autopilot套件中淘汰了雷達,并采用了純視覺模型。雷達+攝像頭系統(tǒng)與純視覺之間的比較,顯示了公司當前的戰(zhàn)略有多精細。
這位高管還談到了“仿真”是如何幫助特斯拉開發(fā)其自動駕駛系統(tǒng)的。例如,它幫助公司識別行人、自行車和車輛檢測和運動學。他指出,當數(shù)據(jù)難以獲取、難以標記或處于閉環(huán)狀態(tài)時,“仿真”會有所幫助。這些,都基于3.71 億張模擬圖像和4.8億個長方體“標簽”。
Ashok說,“仿真”已經(jīng)對特斯拉產(chǎn)生很大幫助?吹竭@里,我只能說,對于越走越偏的特斯拉來說,真的是“謎之自信”。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領跑?
- 9 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單
- 10 一文看懂視覺語言動作模型(VLA)及其應用