“人機(jī)自然交互技術(shù)”的趨勢(shì)與挑戰(zhàn)
即便如此,第一個(gè)問題我們還要闡述清晰,因?yàn)檫@不僅有市場(chǎng)趨勢(shì)問題,還有商業(yè)路徑問題。我們首先看下面一張圖片,我們知道全球最大的圖書館是美國(guó)國(guó)會(huì)圖書館,大概有3000多萬本藏書,若每本書按照100萬字來統(tǒng)計(jì),總共也就30TB左右的數(shù)字容量,實(shí)際上人類每年產(chǎn)生的文字資料總共也就160TB。相比之下,僅Facebook一家產(chǎn)生的數(shù)據(jù)就有300 x 365 TB,全球的數(shù)據(jù)可能超過了2000PB,而且這個(gè)總量還在快速增加。那么面對(duì)這些海量的數(shù)據(jù),我們?nèi)祟愒趺床拍塬@取知識(shí)?我們一生也不可能讀完美國(guó)國(guó)會(huì)圖書館的藏書,就更沒有可能遍歷當(dāng)今的機(jī)器數(shù)據(jù)。當(dāng)然我們知道這其中很多都是重復(fù)數(shù)據(jù),但是篩選重復(fù)信息本身也是人類學(xué)習(xí)的過程。顯然,我們?nèi)祟悷o法記住1億人的面孔,也無法辨識(shí)1億人的聲音。人類知識(shí)和機(jī)器知識(shí)實(shí)際上已經(jīng)開始各成體系,機(jī)器顯然具有比人類更強(qiáng)的知識(shí)去重、篩選、復(fù)制和迭代的能力,而我們?nèi)祟愔R(shí)想要獲得更快的發(fā)展,也必須依賴機(jī)器知識(shí)的支撐,這就必須要解決人類知識(shí)和機(jī)器知識(shí)的交互相通問題,怎么才能簡(jiǎn)單的把機(jī)器所理解的知識(shí)復(fù)制粘貼到人類世界?以前文本時(shí)代我們有搜索引擎,那以語音圖像為主的人工智能時(shí)代呢?所以,我們必須要有人機(jī)自然交互系統(tǒng),只有這樣才能高效的獲取更有價(jià)值的機(jī)器知識(shí),才能解決未來數(shù)據(jù)爆炸時(shí)代的知識(shí)獲取問題。至于商業(yè)化路徑,其實(shí)搜索引擎已經(jīng)做了很好的示范,人機(jī)交互系統(tǒng)肯定會(huì)催生更多的商業(yè)變現(xiàn)路徑。
至于第二點(diǎn)對(duì)于巨頭加入競(jìng)爭(zhēng)的擔(dān)憂,其實(shí)任何一個(gè)賽道只要未來市場(chǎng)空間足夠大,就必然會(huì)產(chǎn)生這種結(jié)果。巨頭為了支撐不斷攀升的市值,就必須布局未來天花板足夠高的產(chǎn)業(yè),即便這個(gè)產(chǎn)業(yè)的商業(yè)模式當(dāng)前還比較模糊,除非這個(gè)行業(yè)沒有足夠的商業(yè)空間或者戰(zhàn)略價(jià)值。我們一定要相信這個(gè)世界的聰明人很多,即便倒下了很多巨頭,也從來沒有哪個(gè)巨頭純粹是因?yàn)閼?zhàn)略方向問題倒下的,更多的原因反而是巨頭在執(zhí)行方面出現(xiàn)了巨大的問題,戰(zhàn)略其實(shí)也是一個(gè)執(zhí)行問題。
但是我們也要承認(rèn)語音行業(yè)的不足,語音行業(yè)還比較缺乏對(duì)于商業(yè)落地的認(rèn)知,若比較圖像、語音和自動(dòng)駕駛這三個(gè)賽道,語音特別喜歡使用晦澀的術(shù)語比如自動(dòng)語音識(shí)別、自然語言理解等等來給技術(shù)貼標(biāo)簽,而不像人臉識(shí)別、車牌識(shí)別、自動(dòng)駕駛這樣直接對(duì)應(yīng)場(chǎng)景應(yīng)用。而更為麻煩的是,晦澀的術(shù)語不僅增加了商務(wù)對(duì)于場(chǎng)景的解釋難度,也拔高了客戶對(duì)于技術(shù)的應(yīng)用預(yù)期。這其實(shí)都非常不利于新技術(shù)在商業(yè)的規(guī)模化應(yīng)用。
舉個(gè)例子,“人機(jī)自然交互技術(shù)”就倒霉在這個(gè)術(shù)語上,這估計(jì)是人類追求的終極夢(mèng)想,可以作為學(xué)術(shù)術(shù)語,但是落地到產(chǎn)業(yè)這個(gè)名詞就過于抬高預(yù)期,非常不友好。坦誠(chéng)的來說,我們現(xiàn)在能做好人機(jī)任務(wù)對(duì)話特別是遠(yuǎn)場(chǎng)系統(tǒng)就相當(dāng)厲害了,至于能否挑戰(zhàn)人類智慧現(xiàn)在還是看不到任何苗頭。即便作為學(xué)術(shù)名稱,卻也感覺有點(diǎn)單薄,不如學(xué)學(xué)通信領(lǐng)域用“G”來定義。這完全可以類比,因?yàn)橥ㄐ沤鉀Q的是人和人交互的問題,人機(jī)自然交互解決的是人和機(jī)器交互的問題。隨著機(jī)器的數(shù)量越來越多而且越來越智能,人和機(jī)器的交互將是未來世界的主要問題。若采用“G”來劃分人機(jī)交互技術(shù),則大概可以劃分成如下5代,和移動(dòng)通信類似,當(dāng)前也就在第4代階段,距離5G還有一定的周期。
即便參照“G”的分類方法也有很多種,若以商業(yè)普及作為重要的參考因素,個(gè)人覺得可以按照如下的方式來劃分:
第1代人機(jī)交互技術(shù):以旋鈕和鍵盤為代表,以模擬信號(hào)和字符為主要交互手段,可交互信息復(fù)雜度較高,效率很低,只能實(shí)現(xiàn)相對(duì)簡(jiǎn)單的任務(wù),但是可靠性也最強(qiáng)。這個(gè)階段的產(chǎn)品主要是包括打字機(jī)、電視、照相機(jī)、早期計(jì)算機(jī)、功能手機(jī)等各種電子設(shè)備,一般都是小巧簡(jiǎn)單的操作系統(tǒng)或者不用操作系統(tǒng)。
第2代人機(jī)交互技術(shù):以鼠標(biāo)為代表,以復(fù)雜圖形為主要交互手段,可交互信息復(fù)雜度較低,效率得到提升,易用性增強(qiáng),學(xué)習(xí)成本降低。這個(gè)階段的產(chǎn)品主要就是個(gè)人計(jì)算機(jī),Windows和Linux是代表性的操作系統(tǒng)。
第3代人機(jī)交互技術(shù):以觸摸屏為代表,以簡(jiǎn)單圖形為主要交互手段,可交互信息復(fù)雜度更低,易用性提升,學(xué)習(xí)成本急劇降低。這個(gè)階段的產(chǎn)品主要就是以觸摸屏為核心的智能手機(jī),IOS和Android是代表性的操作系統(tǒng)。
第4代人機(jī)交互技術(shù):以語音為代表,以遠(yuǎn)場(chǎng)語音為主要交互手段,從這個(gè)階段開始,人機(jī)交互的作用半徑變得更遠(yuǎn),真正釋放了雙手,而且人機(jī)交互變得更加簡(jiǎn)單,同時(shí)人機(jī)交互和內(nèi)容服務(wù)耦合更強(qiáng),交互具備了知識(shí)學(xué)習(xí)和傳遞的屬性,但是由于存在更多模糊空間,遠(yuǎn)場(chǎng)語音交互的可靠性相對(duì)下降。Amazon Alexa、Baidu DuerOS、iFlytek iFlyOS和SoundAI Azero是代表性的交互系統(tǒng)。
第5代人機(jī)交互技術(shù):以多傳感融合為主要交互手段,可交互信息的理解度和可靠性更高,融合交互將成為人和機(jī)器互相學(xué)習(xí)的關(guān)鍵路徑,并且這個(gè)階段人機(jī)交互的智能程度和主動(dòng)程度都會(huì)得到大幅提升,機(jī)器可以感知人類的情感并且與人發(fā)起主動(dòng)交互。
再總結(jié)探討一下,第5代人機(jī)交互(5G or 5I 5I means the fifth generationhuman-robot interaction technology)的技術(shù)趨勢(shì)可以暫時(shí)歸結(jié)為下面4個(gè)方向:
第1個(gè)方向就是遠(yuǎn)場(chǎng)化,雖然第4代人機(jī)交互就主打遠(yuǎn)場(chǎng)語音交互,但是我們要坦誠(chéng)地面對(duì)現(xiàn)實(shí)的殘酷,當(dāng)前的技術(shù)遠(yuǎn)沒有那么好,我們?cè)谶h(yuǎn)場(chǎng)可靠性方面還有很多難點(diǎn)沒有突破,比如多輪交互、多人噪雜等場(chǎng)景還有待突破,還有需求較為迫切的人聲分離等技術(shù)。第5代技術(shù)應(yīng)該徹底解決這些問題,讓機(jī)器聽覺遠(yuǎn)超人類的感知能力。這不能僅僅只是算法的進(jìn)步,需要整個(gè)產(chǎn)業(yè)鏈的共同技術(shù)升級(jí),包括更為先進(jìn)的傳感器和算力更強(qiáng)的芯片。更為重要的則是基礎(chǔ)理論技術(shù)的進(jìn)步,特別是聲學(xué)的基礎(chǔ)理論突破,我們已經(jīng)等待太久了。當(dāng)然這也很難,比如生理聲學(xué)就受制于當(dāng)前實(shí)驗(yàn)條件和人類倫理的約束比較難于突破,所以腦機(jī)接口當(dāng)前來看就更加困難,直接挑戰(zhàn)人類智慧的技術(shù)路線當(dāng)前來看都不太靠譜。
第2個(gè)方向就是融合化,“聲光電熱力磁”這些物理傳感手段,必然都要融合在一起,只有這樣機(jī)器才能感知世界的真實(shí)信息,這是機(jī)器能夠?qū)W習(xí)人類知識(shí)的前提條件。而且,機(jī)器必然要超越人類的五官,能夠看到人類看不到的世界,聽到人類聽不到的世界。機(jī)器的感知能力必須要超越人類,事實(shí)上眾多儀器也已經(jīng)達(dá)到了這個(gè)目標(biāo),只不過,我們要把這些先進(jìn)的傳感手段做的更加小巧更加便宜更加可靠,這是高端技術(shù)能夠走進(jìn)尋常百姓家的關(guān)鍵所在。從當(dāng)前的技術(shù)進(jìn)展來看,聲音和圖像的融合更為成熟,關(guān)鍵就在遠(yuǎn)場(chǎng)化。圖像識(shí)別若應(yīng)用到消費(fèi)場(chǎng)景也必須遠(yuǎn)場(chǎng)化才行,比如說:抬眼一撇,從此便記住了她的容貌,而不是尷尬的站在攝像頭面前不知所措,這種交互體驗(yàn)非常不友好更不吸引人。
第3個(gè)方向就是智能化,這也是最難實(shí)現(xiàn)的,因?yàn)橹悄鼙旧淼亩x就是模糊的,這個(gè)智能化也不是類人智能,而是人類知識(shí)和機(jī)器知識(shí)互相傳遞的泛化,也就是讓機(jī)器可以理解人類的模糊知識(shí),這并不是自然語義處理所能解決的事情。比如“像魚忘掉海的味道”,當(dāng)前再好的NLP引擎也無法釋義,同樣機(jī)器也無法準(zhǔn)確理解“小橋流水人家”,這就是意境。人也是這樣,高學(xué)歷也并不意味著有文化,比如我們AI公司,學(xué)歷都很高但是有時(shí)就比較缺文化。機(jī)器要智能就要有文化,那怎么來實(shí)現(xiàn)呢?人類怎么做的呢?比如高考時(shí)候的語文和英文考試,想拿高分閱讀量就是一個(gè)硬指標(biāo),所以機(jī)器也要這樣,先不用管什么方法什么模型的,記憶的足夠多就會(huì)有顯著效果。數(shù)據(jù)足夠多的公司,未來必然也會(huì)比較聰明。
第4個(gè)方向就是主動(dòng)化,主動(dòng)化要在智能化的基礎(chǔ)上實(shí)現(xiàn),讓機(jī)器嘗試?yán)斫馊祟惽楦斜磉_(dá)。這才是人工智能最大的商業(yè)價(jià)值所在,因?yàn)槿撕腿酥g的交互過程中,特別是在有商業(yè)價(jià)值的地方,主動(dòng)交互占據(jù)相當(dāng)大的比例。想想其中的奧妙,當(dāng)前互聯(lián)網(wǎng)最為火熱的三大領(lǐng)域:搜索、電商和社交,歸根結(jié)底,到底是在做什么呢?搜索的商業(yè)變現(xiàn)為什么最終落在廣告業(yè)務(wù)呢?社交的商業(yè)變現(xiàn)為什么最終落在游戲業(yè)務(wù)呢?若想挖掘人機(jī)交互的商業(yè)價(jià)值,主動(dòng)交互就是關(guān)鍵的技術(shù)。只需要部分理解人類思想和情感,就能稍稍影響人類的決策,這就是巨大的商業(yè)空間。況且,機(jī)器沒有人類的那么多情感負(fù)擔(dān),比如說機(jī)器怎么說甜言蜜語都不會(huì)覺得惡心,我們?nèi)祟惪隙ú粫?huì)把機(jī)器看成我們的上下級(jí)關(guān)系,也不會(huì)把人類的框框強(qiáng)加于機(jī)器,當(dāng)然另外一個(gè)可能也是極為可怕,機(jī)器可能也無底線的無恥,其目的就是為了推銷一款商品。任何技術(shù)其實(shí)都有兩面性,但是掌握技術(shù)的是人類,是每一家的企業(yè),所以一家的企業(yè)價(jià)值觀決定了技術(shù)是服務(wù)人類還是敗壞世界規(guī)則。歸根結(jié)底,還是人的問題,人的問題,也都是教育的問題。要讓機(jī)器不斷學(xué)習(xí)更好的造福人類,人類也應(yīng)該不斷學(xué)習(xí)適應(yīng)機(jī)器才是。
這點(diǎn)還要稍微展開一下,人世間最難的莫過于重塑一個(gè)人的思想,以遠(yuǎn)場(chǎng)語音為核心的人機(jī)交互技術(shù)逐漸影響人類的決策,想想這就是令人激動(dòng)的偉大事業(yè)。顯然,機(jī)器以海量的數(shù)據(jù)、強(qiáng)大的算力和優(yōu)異的算法為基礎(chǔ),永不疲憊的進(jìn)化迭代,遲早是能夠大概理解一下人類的,這就足以影響一個(gè)人簡(jiǎn)單的決策了,我們?nèi)祟惼鋵?shí)也蠻懶的,日常小的決策非常依賴于周邊人群的建議,這就是一種趨同性,而機(jī)器恰恰擅長(zhǎng)參與并引導(dǎo)這種趨同性。當(dāng)然,若將這種能力用錯(cuò)了地方,對(duì)人類的傷害也很大,所以搜索引擎的谷歌才會(huì)有“不作惡”這個(gè)價(jià)值觀,若沒有這個(gè)風(fēng)險(xiǎn)誰會(huì)閑來無事提這個(gè)價(jià)值觀呢。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?