訂閱
糾錯
加入自媒體

從語音識別到語義識別,中間還有多長的路要走?


  圖|語音發(fā)展史

  語音識別產(chǎn)品應(yīng)用

  語音識別作為打造良好交互體驗的重要前提,今年的發(fā)展可謂是持續(xù)火爆。在智能音箱市場,首先想到的就是Amazon的Echo。Echo作為將自然語音轉(zhuǎn)化為在線指令的設(shè)備,其效率之高無容置疑,并且可保持在線的自然環(huán)境中的自然語言識別。

  Echo的核心技術(shù)在于它集成的智能語音助手Alexa。在2015年6月25日亞馬遜曾宣布,將開放智能語音硬件Echo的內(nèi)置AI助手Alexa的語音技術(shù),供第三方開發(fā)者免費使用。由此可見,亞馬遜向用戶呈現(xiàn)出來的不僅僅是技術(shù)上的領(lǐng)先,還有真正落地的產(chǎn)品,以及良好的產(chǎn)品體驗。

  與此同時,國內(nèi)語音識別領(lǐng)域也開始爭奪大戰(zhàn)。以科大訊飛聽見系列產(chǎn)品為例,自2015年發(fā)布以來,總用戶突破1000萬,應(yīng)用于30余個行業(yè)。目前,已經(jīng)形成了以聽見智能會議系統(tǒng)、訊(詢)問筆錄系統(tǒng)、聽見轉(zhuǎn)寫網(wǎng)站、錄音寶APP、聽見智能會議服務(wù)等以智能語音轉(zhuǎn)寫技術(shù)為核心的產(chǎn)品和服務(wù)體系。

  語音識別技術(shù)瓶頸

  從下圖可以看出,語音識別的誤字率呈明顯的下降趨勢。

  然而,即使達到100%的準確率,僅限于輸入法功用的語音識別也無人機互動的意義,它還算不得真正的人工智能。

  我們所期望的語音識別實質(zhì)上是人機交互,大致上可以理解為人與機器之間無障礙溝通。要達到這種期望,光靠誤字率很低甚至為零的語音識別可能并不能做到,那么就需要有“大腦”的語義識別了,相對于語音識別,它可以通過人們的語氣、談話的內(nèi)容等等判斷用戶說的話到底是什么意思,而不是簡單的一字不落的識別出所說的內(nèi)容。比如說:小沈陽長得可真帥!在不同的語境下卻有著截然相反的意思。

  從“傻白甜”的語音識別到“帶腦子”的語義識別,還有很長的路要走。

  口音和噪聲

  語音識別中最明顯的一個缺陷就是對口音和背景噪聲的處理。最直接的原因是大部分的訓練數(shù)據(jù)都是高信噪比、美式口音的英語。

  上圖中可以看到有口音的情況下,人的錯誤率低于模型;從高信噪比到低信噪比,人與模型之間的錯誤率差距急劇擴大。

  語義錯誤

  實際上語音識別系統(tǒng)的目標并不是誤字率。人們更關(guān)心的是語義錯誤率。

  舉個語義錯誤的例子,比如某人說“l(fā)et’smeetupTuesday”,但語音識別預(yù)測為“l(fā)et’smeetuptoday”。我們也可能在單詞錯誤的情況下保持語義正確,比如語音識別器漏掉了“up”而預(yù)測為“l(fā)et’smeetTuesday”,這樣話語的語義是不變的。

  將模型與人工進行比較時的重點是查找錯誤的本質(zhì),而不僅僅是將誤字率作為一個決定性的數(shù)字。

  微軟研究人員將他們的人工級語音識別器的錯誤與人類進行過比較。他們發(fā)現(xiàn)的一個差異是該模型比人更頻繁地混淆“uh”和“uhhuh”。而這兩條術(shù)語的語義大不相同:“uh”只是個填充詞,而“uhhuh”是一個反向確認。這個模型和人出現(xiàn)了許多相同類型的錯誤。

<上一頁  1  2  3  下一頁>  
聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負責,如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號