這家自動駕駛公司共標記了2億英里的行駛數(shù)據(jù),他們希望業(yè)內(nèi)能數(shù)據(jù)共享
總部位于舊金山的Scale公司是向自動駕駛車輛制造商提供傳感器融合標注API(Sensor Fusion Annotation API)的供應商,近日他們拿到了千萬美元的B輪投資,Lyft、通用汽車(General Motors)、Zoox、Voyage、nuTonomy和 Embark 都是他們的客戶,Scale的系統(tǒng)目前一共已經(jīng)標記了200,000,000英里的自動駕駛車輛的行駛數(shù)據(jù),而他們希望將數(shù)據(jù)開源。
隨著機器視覺、人臉識別、語言處理與大數(shù)據(jù)分析等技術(shù)的日臻成熟,出行生態(tài)不斷智能化。計算機視覺為自動駕駛汽車點亮了眼睛,通過視覺感知,無人車可以標注并識別出車輛、車道線以及行人動物等。當一臺計算機學習而不標記的訓練數(shù)據(jù),它被稱為無監(jiān)督學習。計算機通過無人監(jiān)督的學習得到正確的答案,但它需要很長時間需要訓練大量的數(shù)據(jù)才能達到識別的效果。而當計算機用標記的訓練數(shù)據(jù)學習時,被稱為監(jiān)督學習,比如標記數(shù)據(jù)是貓的圖像,同時會將單詞“cat”作為元數(shù)據(jù)附加到其圖像上,這種方法極大地加速了學習過程。
創(chuàng)建標記的訓練數(shù)據(jù)的過程已經(jīng)成為一個重要且成本高昂的業(yè)務(wù),國內(nèi)外也有很多創(chuàng)業(yè)公司在做相關(guān)的服務(wù),但這些標記數(shù)據(jù)集來自哪里?
今天的大多數(shù)標注數(shù)據(jù)都是人類注釋的,成千上萬的圖像都是由人工標記的,這是一個非常緩慢而低效的過程。它需要人坐在計算機屏幕前操作注釋器,點擊圖像,逐個標記它們。并且,隨著圖像數(shù)量的增加,這個過程會變得更加昂貴且容易出錯。
總部位于舊金山的Scale公司正是向自動駕駛車輛制造商提供傳感器融合標注API(Sensor Fusion Annotation API)的供應商,以加速數(shù)據(jù)標記處理。該公司由麻省理工學院(MIT)的21歲計算機科學家Alexandr Wang于2016年創(chuàng)立。
Scale的最初目標是擴展標記訓練數(shù)據(jù)的過程。解決這個問題共分為兩個部分:一個是編組成千上萬人工標記數(shù)據(jù)的任務(wù);第二個是創(chuàng)建一套復雜的工具,使這些貼標機的效率和準確度提高了10倍。Alexandr 和他的團隊在創(chuàng)辦兩年來,組建了一支由工程師和技術(shù)人員組成的世界級技術(shù)團隊,正在改變這一領(lǐng)域。當?shù)貢r間8月7日,Scale宣布其融得了由Index Ventures、Accel和Y Combinator領(lǐng)投的1800萬美金。
Scale結(jié)合使用了人工數(shù)據(jù)標記員和機器學習算法,對來自Lyft、通用汽車(General Motors)、Zoox、Voyage、nuTonomy和 Embark 等客戶的原始、未標記的數(shù)據(jù)進行分類,然后以可擴展數(shù)據(jù)集的方式返還。該公司的員工負責審查來自汽車的圖像、雷達、激光雷達數(shù)據(jù)(以及其他傳感器數(shù)據(jù)),確保自動駕駛車輛能夠正確識別道路上的行人、騎自行車車手以及其他物體,并且根據(jù)需要進行修正。Scale的系統(tǒng)目前一共已經(jīng)標記了200,000,000英里的自動駕駛車輛的行駛數(shù)據(jù),并且最近將其工作擴展道路機器人、無人機、虛擬助手以及嚴重依賴AI的“其他解決方案”。
Scale API如何訓練自主車輛
這家初創(chuàng)公司開發(fā)了自動化系統(tǒng),可以從自動駕駛汽車看到的內(nèi)容中獲取數(shù)據(jù)并對其進行檢查來標記必要的實物。創(chuàng)建標簽的過程有助于自動駕駛汽車內(nèi)的軟件學會識別特定場景,以便更好地為未來做好準備。
Scale 針對圖像推出一系列注釋類型,其發(fā)布的傳感器融合標注API(Sensor Fusion Annotation API),能夠支持所有主流傳感器的高級3D感知,包括激光雷達(30米內(nèi)稠密3D場景理解)、相機(70米內(nèi)圖像目標識別)和Radar(150米內(nèi)稀疏場景理解),以幫助汽車制造商和自動駕駛汽車公司加速感知算法的開發(fā)。
在Scale中,提供圖像注釋服務(wù)之一是Cuboid Annotation,它使用包圍汽車,卡車,行人,交通錐等物體的長方體投影來注釋二維圖像。通過一些附加信息,可以將這些二維框注釋轉(zhuǎn)換為完整的三維框,包括高度,寬度,深度,旋轉(zhuǎn)和相對定位信息。
目前其社區(qū)推出的標簽類型主要有:
像素方式語義分割
多邊形注釋
點注釋
行注釋
像素方式語義分割
像素方式語義分割
多邊形注釋
線注釋
另外,Scale API還提供用于OCR和圖像轉(zhuǎn)錄、分類、比較和數(shù)據(jù)收集的API。
RADAR在150米范圍內(nèi)探測場景的屏幕截圖
借助傳感器融合標注API,用戶可以上傳未標記的相機、激光雷達和Radar數(shù)據(jù),生成可用于訓練3D感知模型的標注數(shù)據(jù)。激光雷達和Radar標注是指,采用長方體包圍特定對象的3D點云,并得到這些框的位置和大小。該API支持所有用于3D感知的主流傳感器,為自動駕駛技術(shù)提供數(shù)據(jù)支持。
手動立方體注釋
除了注釋二維圖像,Scale公司也同通過手工注釋立方體。通過手動立方體調(diào)整,縮放器只需繪制一個2D框,表示長方體的一側(cè)和長方體的另一側(cè):
這通常不是一個“真正的”長方體,因為它在數(shù)學上是不精確的!罢嬲摹遍L方體的正面可能不是一個完美的90度矩形,特別是如果它沒有正面朝向相機。通過調(diào)整,給定上面的長方體注釋,以及一些附加信息(即相機參數(shù)和方向),會自動生成更準確的注釋:
正面不再是完美的矩形,而是梯形,左邊緣略小,更好地反映了汽車相機的相對方向。右側(cè)的頂部/底部邊緣現(xiàn)在會聚合到地平線上的一個點。從3D空間中的這八個點可以很容易地推斷出所得長方體的位置,尺寸和方向。通過這些屬性,人們可以訓練模型,從單個圖像中預測類似長方體的物體的3d坐標。通過這種方式,可以創(chuàng)建一個系統(tǒng),僅需要使用Scale API生成的攝像機圖像和注釋來識別世界上汽車的位置。
Scale倡導數(shù)據(jù)共享
顯然,標記是Scale API的重要業(yè)務(wù)組成部分。正如Wired指出的那樣,錯誤地將行人標記為車輛可能會使自動駕駛汽車的軟件混淆到不斷出錯的程度,甚至可能導致事故。Scale已經(jīng)將標簽作為開發(fā)自動駕駛汽車的必要和不可或缺的一部分。 不幸的是,標簽不會彼此共享。Scale的客戶群包括Cruise,Nuro,Lyft,Zoox,Nutonomy,Starsky Robotics和Embark都將數(shù)據(jù)發(fā)送到Scale這里。但是,這些數(shù)據(jù)并沒有相互分享,這是一種資源的浪費。自動駕駛汽車需要使用更多真實的標記數(shù)據(jù)集測試來保證不穩(wěn)定的情況。所以,Scale希望數(shù)據(jù)能夠共享,構(gòu)建更廣泛的數(shù)據(jù)集。
21歲的創(chuàng)始人兼首席執(zhí)行官Alexandr Wang 認為“現(xiàn)在,每家公司都在自己的道路上并且保密自己的數(shù)據(jù),實際上,這些邊緣情況可能需要在整個行業(yè)中共享或標準化。”
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
技術(shù)文庫
最新活動更多
推薦專題
- 1 2025上海車展看什么?看這一篇就夠了!
- 2 關(guān)稅大戰(zhàn),汽車芯片會漲價嗎
- 3 工信部召開智能網(wǎng)聯(lián)汽車產(chǎn)品準入及軟件在線升級管理工作推進會提的內(nèi)容,將如何影響智駕行業(yè)發(fā)展?
- 4 地平線智駕方案軟硬結(jié)合,大眾、保時捷的合作紛至沓來
- 5 高呼的“全民智駕”真的做到“全民”了嗎?
- 6 一季度汽車產(chǎn)量省份排名大洗牌!誰在異軍突起?
- 7 奇瑞的混動技術(shù):厚積薄發(fā),從發(fā)動機到混動系統(tǒng)
- 8 中國汽車發(fā)展頂層設(shè)計思路 - 萬鋼主席2025百人會核心內(nèi)容總結(jié)
- 9 東風+華為,還是華為借東風?華為ADS3.0技術(shù)詳解
- 10 工信部對浮躁的智駕說“不”