百度AI賦能羅技硬件,語音交互有何未來?
侃科技頻道 · 袁喜樂
語音行業(yè)在2000年左右,迎來了第一個產(chǎn)業(yè)高潮,起因是1997年IBM推出了一款語音錄入軟件ViaVoice。
當(dāng)時人們把這個軟件安裝到PC上,就可以在計算機前面朗讀報紙或者新聞內(nèi)容,或者錄入一些簡單的日常用語,識別率也還不錯。于是工業(yè)界有了一次大規(guī)模連續(xù)語音識別的產(chǎn)業(yè)化應(yīng)用的熱潮。
但由于當(dāng)時PC是一個固定的環(huán)境,消費者已經(jīng)習(xí)慣了鍵盤打字而不是對著屏幕說話,ViaVoice并沒有獲得廣泛認(rèn)可。最終IBM于2003年將這個產(chǎn)品賣了。
但語音識別的產(chǎn)業(yè)化應(yīng)用熱潮卻并沒有停止。4月12日,微軟公布了公司歷史上第二大金額的收購案,目標(biāo)是語音識別巨頭Nuance Communications,交易價值達(dá)197億美元。
有意思的是,Nuance正是蘋果Siri語音分析背后的技術(shù)供應(yīng)商。
而幾乎是同一時間,在大洋彼岸百度和羅技也宣布了一場圍繞語音識別的戰(zhàn)略合作。
4月13日,百度正式發(fā)布“語音輸入服務(wù)”并宣布百度大腦和羅技達(dá)成合作,將領(lǐng)先的AI技術(shù)全面賦能羅技外設(shè)硬件,首款產(chǎn)品即是羅技即將發(fā)售的VOICE M380「智能鼠標(biāo)」。這款鼠標(biāo)嵌入了百度AI技術(shù),支持多國語言語音輸入、中英自由說和智能翻譯等創(chuàng)新功能。
某種意義上,這可以看作是ViaVoice的一種精神繼承,也是對微軟收購Nuance的價值肯定。
1
百度AI全面賦能羅技硬件
ViaVoice被變賣的6年后,語音技術(shù)產(chǎn)業(yè)應(yīng)用迎來了第二波高潮,這一波熱潮以互聯(lián)網(wǎng)需求和實現(xiàn)為基礎(chǔ)。今天我們隨處可見的機器對話,也是在這一波高潮的基礎(chǔ)之上發(fā)展而來。
如今我們常在社交媒體上看到,一個大學(xué)生利用簡單工具+一塊芯片的結(jié)構(gòu),就能設(shè)計出可以語音操控的DIY設(shè)備。
當(dāng)技術(shù)進步、產(chǎn)業(yè)成熟、消費者習(xí)慣養(yǎng)成、交互認(rèn)知足夠以及場景需求等等因素疊加,使得語音交互有了快速發(fā)展的沃土。
這些都可算作是百度AI對羅技產(chǎn)品賦能的充分條件,也是羅技迫切實現(xiàn)產(chǎn)品智能化的來由。
但落實到具體產(chǎn)品上,有兩個不能忽視的因素:
在鼠標(biāo)上加入「語音識別服務(wù)」模塊,對技術(shù)提供商的水平要求很高;
融合語音識別服務(wù)的傳統(tǒng)輸入設(shè)備,是滿足需求還是創(chuàng)造需求。
簡單點說,「智能鼠標(biāo)」作為一個「新物種」,我們要重點關(guān)注的就兩個方面:好不好用和誰會用。
先說第一個因素。VOICE M380支持中、英、日三國語言,同時也支持中英文自由夾雜語音輸入,以及7種方言的混合語音輸入。同時,VOICE M380支持中譯英、中譯日、中譯韓、中譯法、中譯西、中譯泰、英譯中、日譯中8種語音翻譯。
從功能上看,VOICE M380基本覆蓋了日常生活、學(xué)習(xí)、商務(wù)等場景的語音和翻譯需要。從語音識別服務(wù)的技術(shù)內(nèi)核看,這一次百度是將百度大腦的優(yōu)勢技術(shù)語音識別和機器翻譯功能拿出來優(yōu)先賦能羅技,其2019年百度推出并上線使用的流式多級的截斷注意力模型SMLTA,已經(jīng)令中文語音識別率達(dá)到98.6%,且可以同時實現(xiàn)中英文混合識別、方言混合識別。
在機器翻譯方面,百度已經(jīng)支持203個語種的準(zhǔn)確翻譯,現(xiàn)在每天響應(yīng)超過千億字符的翻譯請求,相當(dāng)于2000部大英百科全書。而百度提出的語義單元驅(qū)動的AI同傳模型,已經(jīng)達(dá)到了與人類相當(dāng)?shù)姆g水平。
再說第二個因素。實際上,「智能鼠標(biāo)」既是滿足需求也是創(chuàng)造需求。
一方面,「智能鼠標(biāo)」在學(xué)習(xí)、游戲、商務(wù)場景下,可以很好的滿足用戶跨語種的交流需要,譬如游戲、商務(wù)郵件。
另一方面,對于小孩、老人、視覺障礙人群等日常打字輸入比較不方便的群體,語音輸入顯然更方便,這又是「智能鼠標(biāo)」創(chuàng)造需求的一種體現(xiàn)。
而且,得益于百度AI技術(shù)的加持,VOICE M380在輸入效率上語音輸入每分鐘可高達(dá)400字,而多數(shù)打字員的輸入則為80-200字每分鐘。
無疑,具備語音識別服務(wù)的VOICE M380,可以使用戶擺脫大量敲擊鍵盤產(chǎn)生的疲勞感,輕松實現(xiàn)所說即所得。
搞明白了好不好用和給誰用這兩個因素,再回過頭看這一次百度AI對羅技的賦能,實際上是一次典型的定制化AI技術(shù)輸出,說明百度AI的技術(shù)落地已經(jīng)可以實現(xiàn)模塊化運作,更具靈活性的按需輸出。同時,「智能鼠標(biāo)」這樣的新物種出現(xiàn),也是對其它硬件設(shè)備的一種啟示,萬物皆可AI,萬物皆可語音。
而且,就雙方宣布的信息來看,羅技旗下的設(shè)備還將繼續(xù)接入百度AI的技術(shù),進而實現(xiàn)全面的智能化升級。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?