計(jì)算機(jī)視覺(jué)如何尋找突破口?三維重建或許是一個(gè)
又一年ICCV論文提交截止,ICCV2019的官方推特也在上周末第一時(shí)間公布了本屆會(huì)議的論文投遞情況。根據(jù)官方消息,2019年共收獲4328篇論文,與上一屆2143篇相比,數(shù)量多出了將近一倍。
ICCV由IEEE主辦,全稱(chēng)為IEEE International Conference on Computer Vision,即國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)。與計(jì)算機(jī)視覺(jué)模式識(shí)別會(huì)議CVPR和歐洲計(jì)算機(jī)視覺(jué)會(huì)議ECCV并稱(chēng)計(jì)算機(jī)視覺(jué)三大頂級(jí)會(huì)議。ICCV論文數(shù)量的翻倍,也能看出近年來(lái)計(jì)算機(jī)視覺(jué)的發(fā)展有多么迅猛,無(wú)論是國(guó)內(nèi)還是國(guó)外,都誕生了很多一批專(zhuān)注于計(jì)算機(jī)視覺(jué)的企業(yè),如曠視科技、商湯科技、極鏈科技Video++、依圖科技等優(yōu)秀的初創(chuàng)AI企業(yè),微軟、阿里巴巴、百度等大廠。
計(jì)算機(jī)視覺(jué)的爆發(fā)
1998年到2012年,十幾年來(lái),卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)還是一樣的,但是它的內(nèi)部發(fā)生了很大的變化,而發(fā)生這些變化有亮點(diǎn)非常重要:當(dāng)下因?yàn)樯疃葘W(xué)習(xí)技術(shù)的發(fā)展,人工智能變得愈加火爆,計(jì)算機(jī)視覺(jué)作為人工智能的一個(gè)領(lǐng)域,也逐漸被企業(yè)所重視。不過(guò)當(dāng)前計(jì)算機(jī)視覺(jué)的研究和應(yīng)用主要集中在“識(shí)別”上,“識(shí)別”只是計(jì)算機(jī)視覺(jué)的一部分,如果要去做一些交互和感知,必須先恢復(fù)三維,所以在識(shí)別的基礎(chǔ)上,下一個(gè)層次必須走向“三維重建”。
一.英偉達(dá)研發(fā)了GPU,GPU最早是為游戲而不是人工智能誕生的。
二.華人學(xué)者、斯坦福大學(xué)教授李飛飛創(chuàng)建了ImageNet,她把數(shù)百萬(wàn)張照片發(fā)到了網(wǎng)絡(luò)上并發(fā)動(dòng)群眾做了標(biāo)注。
至今,在2012年訓(xùn)練AlexNet模型需要使用兩塊GPU,花費(fèi)6天時(shí)間,到今天做同樣的事情只需要一塊最新GPU,十幾分鐘就能搞定。
計(jì)算機(jī)視覺(jué)與三維重建
三維重建指對(duì)三維物體建立適合計(jì)算機(jī)表示和處理的數(shù)學(xué)模型,是在計(jì)算機(jī)環(huán)境下對(duì)其進(jìn)行處理、操作和分析其性質(zhì)的基礎(chǔ),也是在計(jì)算機(jī)中建立表達(dá)客觀世界的虛擬現(xiàn)實(shí)的關(guān)鍵技術(shù)。
上世紀(jì)80年代左右,計(jì)算機(jī)視覺(jué)有了最初的發(fā)展。那個(gè)年代基本所有的計(jì)算機(jī)視覺(jué)研究都以D.Marr的研究為理論依據(jù)。他的可計(jì)算數(shù)學(xué)模型都是以edges為主的邊緣提取。有了edge之后,再把它高層話后的線段元做簡(jiǎn)單的統(tǒng)計(jì)分類(lèi)或者三維重建。
它從外部世界的圖像逐步產(chǎn)生對(duì)景物的三個(gè)層次的描述:
1.初始簡(jiǎn)圖:這是最基本意義的灰度變動(dòng)的局部幾何性質(zhì),以線條勾畫(huà)出的草圖形式出現(xiàn)。
2.二維半簡(jiǎn)圖:該圖主要描述物體可視面的表面方向和觀察點(diǎn)到表面的距離。
3.三維模型表示:這是物體形狀的全部而清晰的描述。也是D.Marr教授的視覺(jué)計(jì)算理論對(duì)計(jì)算機(jī)視覺(jué)研究的最杰出的貢獻(xiàn)。
當(dāng)前,每個(gè)人都在研究“識(shí)別”,但是識(shí)別只是計(jì)算機(jī)視覺(jué)的一部分,真正意義上的計(jì)算機(jī)視覺(jué)要超越識(shí)別,感知三維環(huán)境,做到交互和感知,就需要把世界恢復(fù)到三維。人類(lèi)可以通過(guò)眼睛得到有深度的三維信息,但獲取深度信息的挑戰(zhàn)很大。它本質(zhì)上是一個(gè)三角測(cè)量的問(wèn)題,第一步需要將兩幅圖像或兩只眼睛感知到的東西進(jìn)行匹配,也就是“識(shí)別”。但這里的“識(shí)別”是有標(biāo)注情況下的識(shí)別,是通過(guò)兩幅圖像之間的識(shí)別,沒(méi)有數(shù)據(jù)庫(kù),不僅要識(shí)別物體,還要識(shí)別每一個(gè)像素,所以對(duì)計(jì)算機(jī)要求非常高。
計(jì)算機(jī)視覺(jué):機(jī)遇與挑戰(zhàn)并存
伴隨著人工智能產(chǎn)業(yè)升溫,計(jì)算機(jī)視覺(jué)行業(yè)有望邁向新的發(fā)展階段。據(jù)專(zhuān)業(yè)機(jī)構(gòu)預(yù)測(cè),2016-2020年中國(guó)計(jì)算機(jī)視覺(jué)市場(chǎng)將維持20%的增長(zhǎng)率,遠(yuǎn)高于全球的8.4%平均水平,中國(guó)計(jì)算機(jī)視覺(jué)產(chǎn)業(yè)將迎來(lái)新一輪爆發(fā)式增長(zhǎng)。雖然整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域迎來(lái)了前所未有的關(guān)注和接踵而至的投資熱潮,這些既來(lái)自于風(fēng)險(xiǎn)投資、互聯(lián)網(wǎng)公司和傳統(tǒng)公司,還吸引了國(guó)家政府前所未有的關(guān)注,但在此過(guò)程中,挑戰(zhàn)也依然存在,拋開(kāi)計(jì)算機(jī)視覺(jué)產(chǎn)業(yè)鏈,上層為基礎(chǔ)支撐層,包括人工智能芯片、算法技術(shù)和數(shù)據(jù)。中層為技術(shù)提供層。下層則是具體的場(chǎng)景應(yīng)用。當(dāng)前國(guó)內(nèi)計(jì)算機(jī)視覺(jué)領(lǐng)域初創(chuàng)公司中,布局中上層的企業(yè)非常少,絕大多數(shù)企業(yè)都只是集中于中下游技術(shù)提供層和場(chǎng)景應(yīng)用層,能打通全產(chǎn)業(yè)鏈的企業(yè)更是鳳毛麟角。
舉幾個(gè)已經(jīng)基本達(dá)到商業(yè)化的例子:
1.八九十年代的指紋識(shí)別算法已經(jīng)非常成熟,在指紋的圖案上面去尋找一些關(guān)鍵點(diǎn),尋找具有特殊幾何特征的點(diǎn),然后把兩個(gè)指紋的關(guān)鍵點(diǎn)進(jìn)行比對(duì),判斷是否匹配。
2.2001年基于Haar的人臉檢測(cè)算法,在當(dāng)時(shí)的硬件條件下已經(jīng)能夠達(dá)到實(shí)時(shí)人臉檢測(cè),現(xiàn)在手機(jī)相機(jī)里的人臉檢測(cè),都是基于它或者它的變種。
3.基于HoG特征的物體檢測(cè),它和所對(duì)應(yīng)的SVM分類(lèi)器組合起來(lái)的就是著名的DPM算法。DPM算法在物體檢測(cè)上超過(guò)了所有的算法,取得了不錯(cuò)的成績(jī)。
但這種成功例子太少了,因?yàn)槭止ぴO(shè)計(jì)特征需要大量的經(jīng)驗(yàn),需要你對(duì)這個(gè)領(lǐng)域和數(shù)據(jù)特別了解,然后設(shè)計(jì)出來(lái)特征還需要大量的調(diào)試工作。另一個(gè)難點(diǎn)在于,你不只需要手工設(shè)計(jì)特征,還要在此基礎(chǔ)上有一個(gè)比較合適的分類(lèi)器算法。同時(shí)設(shè)計(jì)特征然后選擇一個(gè)分類(lèi)器,這兩者合并達(dá)到最優(yōu)的效果,幾乎很難完成。
小結(jié):
隨著計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)的發(fā)展,自動(dòng)駕駛、生物識(shí)別、視頻識(shí)別、無(wú)人機(jī)等都迎來(lái)了發(fā)展的浪潮,但這些領(lǐng)域想要達(dá)到完全的商業(yè)落地,三維重建或許是一個(gè)很好的突破口,但是真正能發(fā)展到何種程度,還是得看企業(yè)對(duì)三維重建的重視與利用。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專(zhuān)題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷(xiāo)中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單
- 10 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用