訂閱
糾錯
加入自媒體

百度AI賦能羅技硬件,語音交互有何未來?

侃科技頻道 · 袁喜樂

語音行業(yè)在2000年左右,迎來了第一個產(chǎn)業(yè)高潮,起因是1997年IBM推出了一款語音錄入軟件ViaVoice。

當(dāng)時人們把這個軟件安裝到PC上,就可以在計算機前面朗讀報紙或者新聞內(nèi)容,或者錄入一些簡單的日常用語,識別率也還不錯。于是工業(yè)界有了一次大規(guī)模連續(xù)語音識別的產(chǎn)業(yè)化應(yīng)用的熱潮。

但由于當(dāng)時PC是一個固定的環(huán)境,消費者已經(jīng)習(xí)慣了鍵盤打字而不是對著屏幕說話,ViaVoice并沒有獲得廣泛認(rèn)可。最終IBM于2003年將這個產(chǎn)品賣了。

但語音識別的產(chǎn)業(yè)化應(yīng)用熱潮卻并沒有停止。4月12日,微軟公布了公司歷史上第二大金額的收購案,目標(biāo)是語音識別巨頭Nuance Communications,交易價值達(dá)197億美元。

有意思的是,Nuance正是蘋果Siri語音分析背后的技術(shù)供應(yīng)商。

而幾乎是同一時間,在大洋彼岸百度和羅技也宣布了一場圍繞語音識別的戰(zhàn)略合作。

4月13日,百度正式發(fā)布“語音輸入服務(wù)”并宣布百度大腦和羅技達(dá)成合作,將領(lǐng)先的AI技術(shù)全面賦能羅技外設(shè)硬件,首款產(chǎn)品即是羅技即將發(fā)售的VOICE M380「智能鼠標(biāo)」。這款鼠標(biāo)嵌入了百度AI技術(shù),支持多國語言語音輸入、中英自由說和智能翻譯等創(chuàng)新功能。

某種意義上,這可以看作是ViaVoice的一種精神繼承,也是對微軟收購Nuance的價值肯定。

1

百度AI全面賦能羅技硬件

ViaVoice被變賣的6年后,語音技術(shù)產(chǎn)業(yè)應(yīng)用迎來了第二波高潮,這一波熱潮以互聯(lián)網(wǎng)需求和實現(xiàn)為基礎(chǔ)。今天我們隨處可見的機器對話,也是在這一波高潮的基礎(chǔ)之上發(fā)展而來。

如今我們常在社交媒體上看到,一個大學(xué)生利用簡單工具+一塊芯片的結(jié)構(gòu),就能設(shè)計出可以語音操控的DIY設(shè)備。

當(dāng)技術(shù)進步、產(chǎn)業(yè)成熟、消費者習(xí)慣養(yǎng)成、交互認(rèn)知足夠以及場景需求等等因素疊加,使得語音交互有了快速發(fā)展的沃土。

這些都可算作是百度AI對羅技產(chǎn)品賦能的充分條件,也是羅技迫切實現(xiàn)產(chǎn)品智能化的來由。

但落實到具體產(chǎn)品上,有兩個不能忽視的因素:

在鼠標(biāo)上加入「語音識別服務(wù)」模塊,對技術(shù)提供商的水平要求很高;

融合語音識別服務(wù)的傳統(tǒng)輸入設(shè)備,是滿足需求還是創(chuàng)造需求。

簡單點說,「智能鼠標(biāo)」作為一個「新物種」,我們要重點關(guān)注的就兩個方面:好不好用和誰會用。

先說第一個因素。VOICE M380支持中、英、日三國語言,同時也支持中英文自由夾雜語音輸入,以及7種方言的混合語音輸入。同時,VOICE M380支持中譯英、中譯日、中譯韓、中譯法、中譯西、中譯泰、英譯中、日譯中8種語音翻譯。

從功能上看,VOICE M380基本覆蓋了日常生活、學(xué)習(xí)、商務(wù)等場景的語音和翻譯需要。從語音識別服務(wù)的技術(shù)內(nèi)核看,這一次百度是將百度大腦的優(yōu)勢技術(shù)語音識別和機器翻譯功能拿出來優(yōu)先賦能羅技,其2019年百度推出并上線使用的流式多級的截斷注意力模型SMLTA,已經(jīng)令中文語音識別率達(dá)到98.6%,且可以同時實現(xiàn)中英文混合識別、方言混合識別。

在機器翻譯方面,百度已經(jīng)支持203個語種的準(zhǔn)確翻譯,現(xiàn)在每天響應(yīng)超過千億字符的翻譯請求,相當(dāng)于2000部大英百科全書。而百度提出的語義單元驅(qū)動的AI同傳模型,已經(jīng)達(dá)到了與人類相當(dāng)?shù)姆g水平。

再說第二個因素。實際上,「智能鼠標(biāo)」既是滿足需求也是創(chuàng)造需求。

一方面,「智能鼠標(biāo)」在學(xué)習(xí)、游戲、商務(wù)場景下,可以很好的滿足用戶跨語種的交流需要,譬如游戲、商務(wù)郵件。

另一方面,對于小孩、老人、視覺障礙人群等日常打字輸入比較不方便的群體,語音輸入顯然更方便,這又是「智能鼠標(biāo)」創(chuàng)造需求的一種體現(xiàn)。

而且,得益于百度AI技術(shù)的加持,VOICE M380在輸入效率上語音輸入每分鐘可高達(dá)400字,而多數(shù)打字員的輸入則為80-200字每分鐘。

無疑,具備語音識別服務(wù)的VOICE M380,可以使用戶擺脫大量敲擊鍵盤產(chǎn)生的疲勞感,輕松實現(xiàn)所說即所得。

搞明白了好不好用和給誰用這兩個因素,再回過頭看這一次百度AI對羅技的賦能,實際上是一次典型的定制化AI技術(shù)輸出,說明百度AI的技術(shù)落地已經(jīng)可以實現(xiàn)模塊化運作,更具靈活性的按需輸出。同時,「智能鼠標(biāo)」這樣的新物種出現(xiàn),也是對其它硬件設(shè)備的一種啟示,萬物皆可AI,萬物皆可語音。

而且,就雙方宣布的信息來看,羅技旗下的設(shè)備還將繼續(xù)接入百度AI的技術(shù),進而實現(xiàn)全面的智能化升級。

1  2  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號