訂閱
糾錯(cuò)
加入自媒體

計(jì)算機(jī)視覺如何尋找突破口?三維重建或許是一個(gè)

又一年ICCV論文提交截止,ICCV2019的官方推特也在上周末第一時(shí)間公布了本屆會(huì)議的論文投遞情況。根據(jù)官方消息,2019年共收獲4328篇論文,與上一屆2143篇相比,數(shù)量多出了將近一倍。

ICCV由IEEE主辦,全稱為IEEE International Conference on Computer Vision,即國(guó)際計(jì)算機(jī)視覺大會(huì)。與計(jì)算機(jī)視覺模式識(shí)別會(huì)議CVPR和歐洲計(jì)算機(jī)視覺會(huì)議ECCV并稱計(jì)算機(jī)視覺三大頂級(jí)會(huì)議。ICCV論文數(shù)量的翻倍,也能看出近年來(lái)計(jì)算機(jī)視覺的發(fā)展有多么迅猛,無(wú)論是國(guó)內(nèi)還是國(guó)外,都誕生了很多一批專注于計(jì)算機(jī)視覺的企業(yè),如曠視科技、商湯科技、極鏈科技Video++、依圖科技等優(yōu)秀的初創(chuàng)AI企業(yè),微軟、阿里巴巴、百度等大廠。

計(jì)算機(jī)視覺的爆發(fā)

1998年到2012年,十幾年來(lái),卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)還是一樣的,但是它的內(nèi)部發(fā)生了很大的變化,而發(fā)生這些變化有亮點(diǎn)非常重要:當(dāng)下因?yàn)樯疃葘W(xué)習(xí)技術(shù)的發(fā)展,人工智能變得愈加火爆,計(jì)算機(jī)視覺作為人工智能的一個(gè)領(lǐng)域,也逐漸被企業(yè)所重視。不過(guò)當(dāng)前計(jì)算機(jī)視覺的研究和應(yīng)用主要集中在“識(shí)別”上,“識(shí)別”只是計(jì)算機(jī)視覺的一部分,如果要去做一些交互和感知,必須先恢復(fù)三維,所以在識(shí)別的基礎(chǔ)上,下一個(gè)層次必須走向“三維重建”。

一.英偉達(dá)研發(fā)了GPU,GPU最早是為游戲而不是人工智能誕生的。

二.華人學(xué)者、斯坦福大學(xué)教授李飛飛創(chuàng)建了ImageNet,她把數(shù)百萬(wàn)張照片發(fā)到了網(wǎng)絡(luò)上并發(fā)動(dòng)群眾做了標(biāo)注。

至今,在2012年訓(xùn)練AlexNet模型需要使用兩塊GPU,花費(fèi)6天時(shí)間,到今天做同樣的事情只需要一塊最新GPU,十幾分鐘就能搞定。

計(jì)算機(jī)視覺與三維重建

三維重建指對(duì)三維物體建立適合計(jì)算機(jī)表示和處理的數(shù)學(xué)模型,是在計(jì)算機(jī)環(huán)境下對(duì)其進(jìn)行處理、操作和分析其性質(zhì)的基礎(chǔ),也是在計(jì)算機(jī)中建立表達(dá)客觀世界的虛擬現(xiàn)實(shí)的關(guān)鍵技術(shù)。

上世紀(jì)80年代左右,計(jì)算機(jī)視覺有了最初的發(fā)展。那個(gè)年代基本所有的計(jì)算機(jī)視覺研究都以D.Marr的研究為理論依據(jù)。他的可計(jì)算數(shù)學(xué)模型都是以edges為主的邊緣提取。有了edge之后,再把它高層話后的線段元做簡(jiǎn)單的統(tǒng)計(jì)分類或者三維重建。

它從外部世界的圖像逐步產(chǎn)生對(duì)景物的三個(gè)層次的描述:

1.初始簡(jiǎn)圖:這是最基本意義的灰度變動(dòng)的局部幾何性質(zhì),以線條勾畫出的草圖形式出現(xiàn)。

2.二維半簡(jiǎn)圖:該圖主要描述物體可視面的表面方向和觀察點(diǎn)到表面的距離。

3.三維模型表示:這是物體形狀的全部而清晰的描述。也是D.Marr教授的視覺計(jì)算理論對(duì)計(jì)算機(jī)視覺研究的最杰出的貢獻(xiàn)。

當(dāng)前,每個(gè)人都在研究“識(shí)別”,但是識(shí)別只是計(jì)算機(jī)視覺的一部分,真正意義上的計(jì)算機(jī)視覺要超越識(shí)別,感知三維環(huán)境,做到交互和感知,就需要把世界恢復(fù)到三維。人類可以通過(guò)眼睛得到有深度的三維信息,但獲取深度信息的挑戰(zhàn)很大。它本質(zhì)上是一個(gè)三角測(cè)量的問(wèn)題,第一步需要將兩幅圖像或兩只眼睛感知到的東西進(jìn)行匹配,也就是“識(shí)別”。但這里的“識(shí)別”是有標(biāo)注情況下的識(shí)別,是通過(guò)兩幅圖像之間的識(shí)別,沒(méi)有數(shù)據(jù)庫(kù),不僅要識(shí)別物體,還要識(shí)別每一個(gè)像素,所以對(duì)計(jì)算機(jī)要求非常高。

計(jì)算機(jī)視覺:機(jī)遇與挑戰(zhàn)并存

伴隨著人工智能產(chǎn)業(yè)升溫,計(jì)算機(jī)視覺行業(yè)有望邁向新的發(fā)展階段。據(jù)專業(yè)機(jī)構(gòu)預(yù)測(cè),2016-2020年中國(guó)計(jì)算機(jī)視覺市場(chǎng)將維持20%的增長(zhǎng)率,遠(yuǎn)高于全球的8.4%平均水平,中國(guó)計(jì)算機(jī)視覺產(chǎn)業(yè)將迎來(lái)新一輪爆發(fā)式增長(zhǎng)。雖然整個(gè)計(jì)算機(jī)視覺領(lǐng)域迎來(lái)了前所未有的關(guān)注和接踵而至的投資熱潮,這些既來(lái)自于風(fēng)險(xiǎn)投資、互聯(lián)網(wǎng)公司和傳統(tǒng)公司,還吸引了國(guó)家政府前所未有的關(guān)注,但在此過(guò)程中,挑戰(zhàn)也依然存在,拋開計(jì)算機(jī)視覺產(chǎn)業(yè)鏈,上層為基礎(chǔ)支撐層,包括人工智能芯片、算法技術(shù)和數(shù)據(jù)。中層為技術(shù)提供層。下層則是具體的場(chǎng)景應(yīng)用。當(dāng)前國(guó)內(nèi)計(jì)算機(jī)視覺領(lǐng)域初創(chuàng)公司中,布局中上層的企業(yè)非常少,絕大多數(shù)企業(yè)都只是集中于中下游技術(shù)提供層和場(chǎng)景應(yīng)用層,能打通全產(chǎn)業(yè)鏈的企業(yè)更是鳳毛麟角。

舉幾個(gè)已經(jīng)基本達(dá)到商業(yè)化的例子:

1.八九十年代的指紋識(shí)別算法已經(jīng)非常成熟,在指紋的圖案上面去尋找一些關(guān)鍵點(diǎn),尋找具有特殊幾何特征的點(diǎn),然后把兩個(gè)指紋的關(guān)鍵點(diǎn)進(jìn)行比對(duì),判斷是否匹配。

2.2001年基于Haar的人臉檢測(cè)算法,在當(dāng)時(shí)的硬件條件下已經(jīng)能夠達(dá)到實(shí)時(shí)人臉檢測(cè),現(xiàn)在手機(jī)相機(jī)里的人臉檢測(cè),都是基于它或者它的變種。

3.基于HoG特征的物體檢測(cè),它和所對(duì)應(yīng)的SVM分類器組合起來(lái)的就是著名的DPM算法。DPM算法在物體檢測(cè)上超過(guò)了所有的算法,取得了不錯(cuò)的成績(jī)。

但這種成功例子太少了,因?yàn)槭止ぴO(shè)計(jì)特征需要大量的經(jīng)驗(yàn),需要你對(duì)這個(gè)領(lǐng)域和數(shù)據(jù)特別了解,然后設(shè)計(jì)出來(lái)特征還需要大量的調(diào)試工作。另一個(gè)難點(diǎn)在于,你不只需要手工設(shè)計(jì)特征,還要在此基礎(chǔ)上有一個(gè)比較合適的分類器算法。同時(shí)設(shè)計(jì)特征然后選擇一個(gè)分類器,這兩者合并達(dá)到最優(yōu)的效果,幾乎很難完成。

小結(jié):

隨著計(jì)算機(jī)視覺和深度學(xué)習(xí)的發(fā)展,自動(dòng)駕駛、生物識(shí)別、視頻識(shí)別、無(wú)人機(jī)等都迎來(lái)了發(fā)展的浪潮,但這些領(lǐng)域想要達(dá)到完全的商業(yè)落地,三維重建或許是一個(gè)很好的突破口,但是真正能發(fā)展到何種程度,還是得看企業(yè)對(duì)三維重建的重視與利用。

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)