從人工"智障"到人工智能,AI交互還缺什么?
引爆AI技術(shù)的Alphago與李世石的“人工智能”世紀大戰(zhàn)已經(jīng)過去三年,與三年前Alphago大勝李九段時人們驚呼“人工智能將要替代人類”相比,2019年的人們在面對AI時則更為淡然,與之對應(yīng)的現(xiàn)實是,近三年來人工智能技術(shù)雖已取得驚人成就,但仍未真正脫離“人工”的現(xiàn)實。
AI的“人工不智能”之困
2018年5月,谷歌在其I/O開發(fā)者大會上,展示了令人印象深刻的Duplex人工智能語音技術(shù),當時谷歌現(xiàn)場演示了Duplex語音AI預(yù)約理發(fā)服務(wù),在與理發(fā)店溝通過程中Duplex的那一聲“嗯哼”更是技驚四座、驚艷全球,隨后谷歌董事長驕傲的向世界宣布:在電話預(yù)約領(lǐng)域,Duplex已經(jīng)通過了圖靈測試。
然而,事情當然沒有那么簡單,在《紐約時報》記者的測試中發(fā)現(xiàn),在成功預(yù)約的4次中,有三次是由人工偽裝成Duplex完成的,隨后谷歌官方聲明,目前通過Duplex撥打的電話中,約有25%由人類完全操作,在其他非人工操作的情況下,有15%的呼叫受到了人為干預(yù)。
即使人工智能技術(shù)強如谷歌,也仍然邁不過AI語音交互的“智能之坑”。而實際上,著名的圖靈測試,也有其特定歷史環(huán)境下的局限性。
在圖靈測試中,僅僅通過AI是否表現(xiàn)的像個人類的判斷無法有效得出AI是否真的具有智能,而要想AI脫離“人工”烙印真正實現(xiàn)智能,就必須真正跨過那條人與AI之間的邊界。
在電影《機械姬》中,人工智能Ava在利用Caleb的感情達到幫助自己成功逃生則是“真正成功的圖靈測試”的刻畫,影片中,人工智能Ava的締造者Nathen真正目的正是希望Ava通過“性魅力、對人性的操縱、同理心”等人類情感特征的綜合利用而實現(xiàn)逃生,因而,Ava的逃生也是“圖靈測試的終極版”。
雖然相比機械姬Ava,谷歌人工智能Duplex的完成度顯得“相形見絀”,但作為人工智能最為重要的底層技術(shù)之一,AI語音交互技術(shù)近年來的發(fā)展取得了一系列進步,并隨著智能手機、智能音箱等硬件設(shè)備進入千家萬戶。
實際上,AI語音交互的基礎(chǔ)是基于深度學(xué)習(xí)算法對語言系統(tǒng)的深度集成,因而決定其具有明顯的“雙邊效應(yīng)”,一方面,AI語音交互的完成度越高,其用戶數(shù)量增長越快;另一方面,用戶數(shù)量與使用頻次的增長反作用于AI語音交互的深度學(xué)習(xí)訓(xùn)練,從而實現(xiàn)更高的完成度。
AI語音交互的“動態(tài)規(guī)劃”法則
在互聯(lián)網(wǎng)江湖(ITVIPTI)看來,語言交互的過程的本質(zhì),是數(shù)據(jù)在“動態(tài)規(guī)劃”邏輯下對數(shù)據(jù)特征的精確匹配。
在數(shù)學(xué)領(lǐng)域,動態(tài)規(guī)劃(dynamic programming)是運籌學(xué)的一個分支,是求解決策過程(decision process)最優(yōu)化的數(shù)學(xué)方法。在AI語音交互上,實現(xiàn)交互的過程可以看做是一個對語音輸入數(shù)據(jù)反饋“最優(yōu)解”的數(shù)據(jù)匹配過程。
從技術(shù)構(gòu)成上來看,AI語音交互技術(shù)大致可分為三個層面:“交互層、算法層、數(shù)據(jù)層”。在一個完整的AI語音交互過程中,由語音識別反饋技術(shù)為核心,實現(xiàn)交互層AI與人的交互觸達,然后由算法層進行“動態(tài)規(guī)劃”解析,將完整語義下的文字數(shù)據(jù)拆解為特定的“數(shù)據(jù)包”,并由算法將“數(shù)據(jù)包”與已有“語言系統(tǒng)數(shù)據(jù)”進行精確匹配,從而實現(xiàn)AI對語義的理解并給出反饋。
簡單來說,這就像你拿著一只印著小貓圖案的黃色鉛筆并且想要一只同樣的鉛筆,你需要去一個有著各種各樣筆的文具店,因而你需要用“動態(tài)規(guī)劃”思維將這只獨特的鉛筆“拆分開來”,明確它的種類以及特征:首先,它是鉛筆、其次它是黃色的,最后它印著小貓圖案。然后根據(jù)這些特征通過篩選(算法)去找到文具店中同樣的鉛筆。(與已有“語言系統(tǒng)數(shù)據(jù)”進行精確匹配)
但就目前的技術(shù)條件下,想要實現(xiàn)語言數(shù)據(jù)的100%精確匹配需要一些“先決條件”。
交互層實現(xiàn)100%準確率的語音識別準確率是保證整個語音交互不會出現(xiàn)語義“理解”偏差的重要前提,而要實現(xiàn)語音識的精準必須構(gòu)建完整的“語句數(shù)據(jù)庫”,然后通過大量的識別訓(xùn)練提升其準確度。
其次,在實現(xiàn)精確語音識別后,需要算法對其進行“數(shù)據(jù)打包”并且實現(xiàn)對“語言系統(tǒng)數(shù)據(jù)庫”進行快速檢索,從而匹配到相應(yīng)的“反饋方案”,而由于不同的語義決定了不同的語音交互場景,因此需要涵蓋幾乎所有語音交互場景的“算法倉”,同時每個算法必須滿足對于精度和效率的雙重需求。
在數(shù)據(jù)層,“語言系統(tǒng)”數(shù)據(jù)庫的完善程度重某種意義上決定了整個語言交互系統(tǒng)的完成度。
無論是“交互層”還是“算法層”都需要“語言系統(tǒng)大數(shù)據(jù)”的全面參與,因而,構(gòu)建完善的“語言系統(tǒng)”數(shù)據(jù)是整個AI語音交互系統(tǒng)的核心,也是技術(shù)上難度最高的一環(huán)。
然而,現(xiàn)實中在語音識別領(lǐng)域,目前只有科大訊飛的語音識別技術(shù)達到了98%的準確率,在整個語音交換互領(lǐng)域,也僅僅只有谷歌的Duplex通過了圖靈測試,而要想真正實現(xiàn)語音交互的人工智能,仍然需要AI底層技術(shù)革新的推動。
進階AI語音交互與“數(shù)據(jù)納什均衡博弈”
目前,無論是蘋果的Siri 還是微軟的小娜,在語音交互中均未實現(xiàn)基于時間線對語境的理解。而就2018年5月谷歌開發(fā)者大會上Duplex的表現(xiàn)來看,谷歌人工智能語音識別技術(shù)在語境的“理解”上已經(jīng)取得了一些進展。
互聯(lián)網(wǎng)江湖團隊(ITVIP1)認為,在進階的語音交互過程中,除了遵循“動態(tài)規(guī)劃”原則實現(xiàn)對語言數(shù)據(jù)的檢索外,基于“語言系統(tǒng)”對輸入數(shù)據(jù)的反饋則是一場算法驅(qū)動下數(shù)據(jù)與數(shù)據(jù)的“納什均衡博弈。”
所謂“納什均衡”,實際上是一種策略組合,在該策略組合上,即在博弈的雙方中,一方的策略會隨著另一方的策略變動進行策略組合的調(diào)整,以達到一種戰(zhàn)略上的“均衡態(tài)勢”,而這種“均衡態(tài)勢”被稱為“納什均衡”。
在進階AI語音交互中,AI算法基于時間線對語義的“理解”過程,可以看做是對于語言輸入數(shù)據(jù)端的變化,完成AI算法端相應(yīng)的策略變換的過程,從而形成“數(shù)據(jù)納什均衡”。納什均衡的形成需要以既定的“目標收益”為前提,而在AI語音交互中,這種“目標收益”實質(zhì)上就是“在時間線的上對于語境的理解”。
“數(shù)據(jù)納什均衡”下的進階AI語音交互雖然從理論上可以實現(xiàn)AI對特定語境下的理解,但這樣的AI仍不能夠算的上真正的人工智能,真正意義上的人工智能不僅僅是“具有人類語言特征”的AI,而是真正具備人類思維能力以及行為能力的AI系統(tǒng)。
因此,從這個意義上來講,真正的人工智能不僅具有“人類思維”的軟件范式,也需要在物理上的“擬人化”,使之具備作為“人”行動能力。而想要實現(xiàn)真正的人工智能,不僅需要AI技術(shù)的“人化”也需要工程上的“人類化”。
因而,電影《機械姬》以及《機械公敵》中的人工智能形態(tài)才是完美的人工智能,從某意義上來講,這樣的人工智以及成為了一種由“人工”創(chuàng)造的硅基生命,而不僅僅是簡單的“人工智能”了。
尾聲:
AI天花板盡顯,人工智能還有多遠?
當下AI技術(shù)的興起,源于深度學(xué)習(xí)算法領(lǐng)域取得的突破性進展,因而從這個意義上來講,如今AI技術(shù)實質(zhì)上是計算形式的革新。
也就是說,剝?nèi)ト斯ぶ悄艿耐庖拢缃竦腁I并未真正意義上實現(xiàn)“人工智能”,更多的還是一種用于大數(shù)據(jù)分析與檢索的工具,實際上,當下AI的價值也在于對數(shù)據(jù)的高效匹配和應(yīng)用。另一方面,雖然AI技術(shù)在產(chǎn)業(yè)應(yīng)用上仍有巨大的空間,但深度學(xué)習(xí)算法的“工具式”人工智能的天花板已經(jīng)觸及,算法驅(qū)動下的AI技術(shù)已經(jīng)到達瓶頸。
也許,《機械姬》中對于人工智能的幻想在本世紀末也未必能夠?qū)崿F(xiàn),而對于“人工智能顛覆人類”的恐懼也頗為“杞人憂天”,相對于人工智能時代的到來,或許我們更應(yīng)該關(guān)注如今AI技術(shù)對于當下的改變,而AI語音交互作為AI技術(shù)應(yīng)用的前沿陣地,任何的技術(shù)以及應(yīng)用層面的進展都更值得我們?nèi)リP(guān)注。
科技自媒體劉志剛,訂閱號:互聯(lián)網(wǎng)江湖,轉(zhuǎn)載保留作者版權(quán)信息,違者必究。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?