“人機(jī)自然交互技術(shù)”的趨勢與挑戰(zhàn)
最近AI寒冬論再起,從圖像到語音再到自動駕駛這三個(gè)人工智能賽道輪番被詬病,特別是語音賽道,如今更是備受美元資本市場冷落。為什么會出現(xiàn)這個(gè)情況呢?我想主要還是大家當(dāng)前的認(rèn)知和信心問題,因?yàn)閺膶?shí)際商業(yè)化進(jìn)程來看,圖像和語音是人工智能領(lǐng)域早就規(guī)模商業(yè)化的領(lǐng)域,圖像主要是面向安防等行業(yè)的專業(yè)應(yīng)用,而語音主要是以智能音箱為代表的面向消費(fèi)電子的個(gè)人應(yīng)用,其他比如金融、醫(yī)療、零售、客服等AI應(yīng)用相對規(guī)模還是小一些,而自動駕駛更是需要時(shí)間,短期內(nèi)商業(yè)普及的可能性微乎其微。從最近五年的融資事例來看,人工智能的融資總額還在上升,但是已經(jīng)越來越集中于A輪以后的企業(yè),也就是說資本更加看較為成熟的AI公司。
事實(shí)上,商業(yè)化進(jìn)程更快的技術(shù)率先遇到信心低谷也是正,F(xiàn)象,畢竟技術(shù)和市場都存在一定的交叉周期,過早落地就意味著暴露出更多實(shí)際應(yīng)用的問題,這就需要資本低谷來消化技術(shù)爆發(fā)早期的泡沫,這總比一些技術(shù)或者產(chǎn)品的“見光死”要好很多。早期互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)也都經(jīng)歷了類似的階段,智能手機(jī)的孕育期也超過了十年并且更迭了一波巨頭才實(shí)現(xiàn)爆發(fā)前夜的積累,似乎有點(diǎn)符合股票市場的艾略特波浪理論。不過語音相對更加凄慘一些,基礎(chǔ)技術(shù)的研究差不多有60多年的歷史,直到最近幾年才有像樣一點(diǎn)的產(chǎn)業(yè)落地,而且語音相對圖像天生就沒有奪目的本領(lǐng),語音賽道的低調(diào)讓人覺得沒有圖像賽道那樣炫目多彩。這一點(diǎn)其實(shí)就很不符合美元基金的審美邏輯,美元基金強(qiáng)調(diào)的是故事的性感,而且更加希望公司能夠登陸美股市場。當(dāng)然,換個(gè)角度來看,語音賽道并非一個(gè)燒錢的賽道,事實(shí)上燒錢的業(yè)務(wù)本身也有問題,技術(shù)的優(yōu)勢在于先發(fā)優(yōu)勢,只有唯快不破才能立于不敗之地,而資本只是幫助構(gòu)建壁壘的工具。這個(gè)世界有太多事情并不是燒錢就能獲得的,正確往往就是不容易。比如人工智能和區(qū)塊鏈,雖然區(qū)塊鏈的技術(shù)理念很好,但是太過于炒作并且只為牟利不顧道德,所以從全球關(guān)注趨勢來看,可以借用一句俗語“We know more than we can tell”來總結(jié)。
進(jìn)一步的說,聲音雖然承載了人類的思想和情感,但是圖像卻承載了人類的表象和直覺,顯然人類的第一印象,內(nèi)涵豐富遠(yuǎn)遠(yuǎn)比不上外表艷麗,這是人類基于生殖繁衍的本性追求,也是無可厚非。更讓人惱火的是,聲音天然還不具有群體示范效應(yīng),比如在人數(shù)眾多的會場,演示圖像總是容易引起觀眾的驚嘆,而若是演示語音則一般都會是災(zāi)難,對觀眾(所以不叫聽眾)來說,“看”總比“聽”更容易High起來。何況我們?nèi)祟愐矝]很好解決聚眾場所的“雞尾酒會效應(yīng)”問題,這種場合下的智能語音體驗(yàn)絕對是一塌糊涂。即便相對簡單的家居環(huán)境,做好遠(yuǎn)場技術(shù)也是難度極大的挑戰(zhàn)。到現(xiàn)在為止,我們也沒有很好解決遠(yuǎn)場通話和遠(yuǎn)場識別問題,這點(diǎn)大家可以從全球銷量累積已經(jīng)過億臺的智能音箱產(chǎn)品中得到驗(yàn)證,可以肯定的是,智能音箱已經(jīng)應(yīng)用了最為先進(jìn)的技術(shù),但是仍然遠(yuǎn)遠(yuǎn)達(dá)不到很多AI廠商所給大家描繪或者演示的體驗(yàn)預(yù)期,事實(shí)上,短期內(nèi)也不可能達(dá)到。
上面提到了“遠(yuǎn)場”這一概念,這是借鑒的學(xué)術(shù)名詞,一般我們定義為1尺以上的距離,1尺大概是1KHZ單頻聲波的一個(gè)波長,也是一個(gè)手臂自由操控的距離,為什么要定義這一概念?主要是為了讓行業(yè)對新技術(shù)有一個(gè)新的認(rèn)知,遠(yuǎn)場語音交互技術(shù)主要是解決真實(shí)場景下舒適距離內(nèi)人機(jī)任務(wù)對話和服務(wù)的問題,舒適距離的意思就是不要太遠(yuǎn)也不要太近,太遠(yuǎn)就會讓人不自覺提高說話聲音,這增加了能耗容易讓人疲勞,太近了則會觸發(fā)人類的安全意識,天天趴在耳朵上說話也受不了。為了更加準(zhǔn)確定義場景,我們一般取5米作為標(biāo)尺,事實(shí)上3米之內(nèi)才是最好的距離。所以,遠(yuǎn)場這個(gè)概念就是希望加強(qiáng)人們對于語音可以釋放雙手這一最大魅力特性的認(rèn)知,遠(yuǎn)場就是語音新技術(shù)最為顯著的標(biāo)簽,這也是聲智對語音技術(shù)做出的主要貢獻(xiàn)之一。
但是,即便以遠(yuǎn)場語音交互技術(shù)為核心的智能音箱全球爆發(fā),國內(nèi)更是在推出后一年時(shí)間就達(dá)到了2200萬臺的銷量,仍然還是面臨了很多質(zhì)疑和批評。這些質(zhì)疑主要集中在兩點(diǎn):一是語音賽道的商業(yè)趨勢問題,二是應(yīng)對巨頭競爭的策略問題。實(shí)際上這兩個(gè)問題有些相悖,第二個(gè)問題已經(jīng)例證了第一個(gè)問題的尷尬,就是因?yàn)檫@個(gè)賽道太重要了,所以全球巨頭都在其中競爭,包括了這個(gè)時(shí)代最有錢的所有互聯(lián)網(wǎng)巨頭:亞馬遜、谷歌、微軟、蘋果、臉書、三星、百度、阿里、騰訊、華為、小米等等。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動力電池技術(shù)應(yīng)用大會
-
免費(fèi)參會立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報(bào)告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 一文看懂視覺語言動作模型(VLA)及其應(yīng)用
- 6 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 10 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡單