像奇異博士一樣預(yù)測(cè)未來(lái)已成為現(xiàn)實(shí)?MIT、百度AI或?yàn)槟銏A夢(mèng)!
作者:Ripple
編輯:生煎
您正在閱讀算力智庫(kù)第 388 篇原創(chuàng)作品
算力說(shuō)
無(wú)論是在電影還是小說(shuō)中,預(yù)測(cè)未來(lái)的能力總是讓人驚嘆。運(yùn)用AI算法,透過(guò)聲音或像素流向?qū)ξ磥?lái)進(jìn)行預(yù)測(cè),或?qū)槟愦蜷_(kāi)這扇新世界的大門。
1
MIT、UC Berkeley強(qiáng)強(qiáng)聯(lián)手, 用AI聽(tīng)出你的姿勢(shì)
在今年的CPVR2019論文中,有一篇跨模轉(zhuǎn)換的文章吸引了算力智庫(kù)的注意。這究竟有什么特別之處呢? 原來(lái),只需要音頻語(yǔ)音輸入,AI可以預(yù)測(cè)并生成出相對(duì)應(yīng)的手勢(shì),而所謂的跨模轉(zhuǎn)換即為聲音到手勢(shì)及手臂動(dòng)作的轉(zhuǎn)換,讓我們先來(lái)看段視頻了解一下。
視頻的左上是標(biāo)定好的真實(shí)數(shù)據(jù),而右邊的視頻則是基于左下的預(yù)測(cè)部分進(jìn)行合成的。通過(guò)觀察,我們可以發(fā)現(xiàn)預(yù)測(cè)數(shù)據(jù)對(duì)比真實(shí)數(shù)據(jù)的準(zhǔn)確度是高度一致的,這種神奇的操作又是基于何種原理呢?
語(yǔ)音預(yù)測(cè)動(dòng)作的技術(shù)原理大致分為以下四個(gè)要素:
1. 首先,需要訓(xùn)練與音頻相對(duì)應(yīng)的姿勢(shì)檢測(cè)序列(能將指定序列從數(shù)碼流中識(shí)別出的方法)。研究人員使用L1回歸到2D關(guān)鍵點(diǎn)的序列堆來(lái)學(xué)習(xí)從語(yǔ)音到手勢(shì)的映射。
2. 其次,使用對(duì)抗性鑒別器(防止數(shù)據(jù)訓(xùn)練時(shí)源標(biāo)簽信息丟失以及結(jié)果多樣性不足的鑒別器)來(lái)避免回歸到所有可能姿勢(shì)的平均值,以確保預(yù)測(cè)動(dòng)作的可信度。
3. 進(jìn)而,運(yùn)用卷積音頻編碼器(用以音頻糾錯(cuò)的編碼器)對(duì)2D圖像進(jìn)行采樣并轉(zhuǎn)換為1D信號(hào)。
4. 最后使用Unet轉(zhuǎn)換架構(gòu)(用已轉(zhuǎn)換的1D信號(hào)重建2D圖像的轉(zhuǎn)換架構(gòu))。而bottleneck作為構(gòu)建Unet轉(zhuǎn)換架構(gòu)的三大組成之一,為完全卷積網(wǎng)絡(luò)(由卷積音頻編碼器及Unet轉(zhuǎn)換架構(gòu)組成)提供了過(guò)去和未來(lái)時(shí)間的上下文。而這一步即為預(yù)測(cè)速度的關(guān)鍵。
語(yǔ)音預(yù)測(cè)手勢(shì)的模型(圖片來(lái)源:CPVR2019)
在了解了相關(guān)技術(shù)之后,讓我們來(lái)感受一下這個(gè)神奇的視頻。
動(dòng)畫角色創(chuàng)建或成為最先應(yīng)用
說(shuō)話者的手勢(shì)是獨(dú)特的,對(duì)一個(gè)人進(jìn)行訓(xùn)練并預(yù)測(cè)另一個(gè)人的手勢(shì)并不起效。這些個(gè)人特定手勢(shì)往往帶有自己的風(fēng)格,無(wú)論是睜大眼睛又或是手舞足蹈。比如下面這兩位。
而無(wú)論你的動(dòng)作細(xì)微還是夸張,都逃不過(guò)AI的“法耳”。
研究團(tuán)隊(duì)表示,他們的下一步是不僅根據(jù)聲音,還根據(jù)文字稿來(lái)預(yù)測(cè)手勢(shì)。該研究潛在的應(yīng)用包括創(chuàng)建動(dòng)畫角色、動(dòng)作自如的機(jī)器人,或者識(shí)別假視頻中人的動(dòng)作。
2
東京工大建立FuturePose系統(tǒng), 提前看穿你的下一步
東京工業(yè)大學(xué)的研究團(tuán)隊(duì)于今年在IEEE上發(fā)布了一套名為FuturePose格斗訓(xùn)練系統(tǒng)。這套系統(tǒng)可以幫助實(shí)驗(yàn)者預(yù)測(cè)對(duì)手未來(lái)0.5秒后的動(dòng)作。讓我們先看兩個(gè)有趣的動(dòng)圖來(lái)了解一下。
研究人員通過(guò)RGB像素流向,運(yùn)用機(jī)器學(xué)習(xí)來(lái)定位關(guān)節(jié),進(jìn)而根據(jù)關(guān)節(jié)擺動(dòng)方向來(lái)預(yù)測(cè)對(duì)手未來(lái)的動(dòng)作。
實(shí)驗(yàn)時(shí),系統(tǒng)預(yù)測(cè)的3D影像和現(xiàn)實(shí)影像同時(shí)顯示在實(shí)驗(yàn)者所佩戴的VR設(shè)備中。結(jié)果顯示,使用FuturePose的成員做出回避動(dòng)作的平均反應(yīng)時(shí)間在0.42秒,而未使用的成員需0.62秒的反應(yīng)時(shí)間。
FuturePose 的技術(shù)原理大致分為以下三個(gè)要素:
1. 首先,基于殘差網(wǎng)絡(luò)(增加深度且能提高性能的網(wǎng)絡(luò))來(lái)分析RGB相機(jī)中所捕獲的圖像,以推測(cè)對(duì)象2D關(guān)節(jié)的位置。
2. 其次,將該位置輸入至長(zhǎng)短期記憶網(wǎng)絡(luò)(處理和預(yù)測(cè)時(shí)序數(shù)據(jù)的模型)用以學(xué)習(xí)時(shí)序特征,從而預(yù)測(cè)未來(lái)的2D位置。
3. 為了得到更精準(zhǔn)的結(jié)果以及降低計(jì)算成本,研究團(tuán)隊(duì)采用了晶格光流法(將向量網(wǎng)格化用以描述物體移動(dòng)的方法)。最后將2D位置可視化,構(gòu)建成3D骨架模型。
FuturePose的技術(shù)原理(圖片來(lái)源:IEEE)
競(jìng)技體育或成為最先應(yīng)用
雖然只有短短的0.5秒,但是對(duì)于專業(yè)的拳擊選手來(lái)說(shuō),已經(jīng)算的上取勝的關(guān)鍵了。出拳,閃躲,回?fù)簦磺卸寄茉?.5秒內(nèi)完成。東京工業(yè)大學(xué)制作 FuturePose 的初衷是為了格斗訓(xùn)練,但他們也希望通過(guò)不斷完善這項(xiàng)技術(shù),讓 FuturePose 可以應(yīng)用于其他競(jìng)技體育或娛樂(lè)項(xiàng)目中。
如守門員撲球時(shí)的提前預(yù)判。
如對(duì)舞蹈動(dòng)作的預(yù)判。
百度AI在預(yù)測(cè)未來(lái)中的實(shí)際應(yīng)用
縱觀國(guó)內(nèi)行業(yè)在“預(yù)測(cè)未來(lái)”上的發(fā)展主要集中在自動(dòng)駕駛方面。例如,通過(guò)行人道路預(yù)測(cè)在自動(dòng)駕駛中規(guī)避潛在風(fēng)險(xiǎn)。運(yùn)用跟蹤數(shù)據(jù)學(xué)習(xí)行人動(dòng)力學(xué)則成了國(guó)內(nèi)一些如百度、奇點(diǎn)汽車自動(dòng)駕駛領(lǐng)域公司的主要手段。除此之外,對(duì)駕駛車道錯(cuò)誤、闖紅燈、車相撞和撞靜態(tài)物體等方面的預(yù)測(cè)也同樣能夠幫助車輛提前感知風(fēng)險(xiǎn)、判斷決策、進(jìn)而規(guī)避危險(xiǎn)事件。
百度AI的兩大殺手級(jí)武器
Road Hackers自動(dòng)駕駛平臺(tái)
Road Hackers是世界上首個(gè)在真實(shí)道路上可以實(shí)現(xiàn)端到端模式的高級(jí)自動(dòng)駕駛模型,并已具備提供海量中國(guó)路情駕駛數(shù)據(jù)開(kāi)放,基于深度學(xué)習(xí)的自動(dòng)駕駛算法演示,可有效提高對(duì)路況、行人、危險(xiǎn)環(huán)境預(yù)測(cè)的準(zhǔn)確度。
BCU-百度自動(dòng)駕駛專用計(jì)算平臺(tái)
BCU (Baidu Computing Unit) 是國(guó)內(nèi)目前第一個(gè)可量產(chǎn)的自動(dòng)駕駛計(jì)算平臺(tái),目前具有信息安全和云端更新兩大基礎(chǔ)能力,以及高精定位、環(huán)境感知、規(guī)劃決策的AI核心模塊。其中MLOP(高精定位+環(huán)境感知)、MLOP2(高精定位+環(huán)境感知+規(guī)劃決策)
日前,北京市自動(dòng)駕駛測(cè)試管理聯(lián)席小組發(fā)布首批T4級(jí)別自動(dòng)駕駛測(cè)試牌照,百度成為中國(guó)第一家、也是唯一獲得此級(jí)別牌照的企業(yè)。
文章所載觀點(diǎn)僅代表作者本人
且不構(gòu)成投資建議
敬請(qǐng)注意投資風(fēng)險(xiǎn)
往期精彩報(bào)道
80后掌門人珠寶轉(zhuǎn)行做軍工,科創(chuàng)板助力國(guó)防信息化大浪淘沙
ARM斷供華為,被捏住軟肋的“中國(guó)芯”能否靠科創(chuàng)板逆襲?
剛獲1.2億新融資的亮風(fēng)臺(tái)創(chuàng)始人廖春元:正在關(guān)注科創(chuàng)板
萬(wàn)眾矚目!科創(chuàng)板首發(fā)股馬上誕生,為什么它們能首批上市?
Libra要涼?國(guó)會(huì)叫停!退燒后理性的樣子才能觸達(dá)價(jià)值核心
成立七年,仍虧損!AI教育第一股流利說(shuō),流年順乎?
拼多多在左,蘋果在右,傍上綠地的涂鴉智能該何去何從?
市北高新馬慧民:5G+大數(shù)據(jù),催生“數(shù)據(jù)智能”新機(jī)遇

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?