百度AI牽手羅技,背后隱藏了什么野心?
羅技和百度AI這對跨界組合,正在重新定義語音輸入。
4月13日,全球著名云周邊設(shè)備供應(yīng)商羅技推出了一款“語音鼠標(biāo)”,在百度AI的優(yōu)先賦能下,用戶點(diǎn)擊鼠標(biāo)上的語音鍵就能進(jìn)行語音輸入,不僅在PC端實(shí)現(xiàn)了中英文自由夾雜語音輸入,還可以實(shí)時(shí)進(jìn)行多種語言的語音翻譯。
其實(shí)類似的概念并非是羅技首創(chuàng)。早在兩年多前就出現(xiàn)了主打“語音輸入”的鍵鼠類產(chǎn)品,諸如“智能鼠標(biāo)”的概念也被多家品牌借用,但無一成為現(xiàn)象級的爆款產(chǎn)品,PC端語音輸入的用戶習(xí)慣也無從談起。
百度AI為何要在這個(gè)時(shí)候進(jìn)行跨界,并選擇牽手羅技這樣的市場領(lǐng)導(dǎo)者,背后到底隱藏了什么樣的野心?
01 知易行難的語音輸入
人類對語音輸入似乎有著天生的執(zhí)念。
早在2000年前后,個(gè)人電腦還屬于少數(shù)人的玩物,IBM推出的軟件工具ViaVoice就開始風(fēng)靡全球。按照IBM的設(shè)想,ViaVoice將在人與機(jī)器之間擔(dān)當(dāng)“翻譯”,只要一句話就能編排文本格式、控制桌面、操作程序、發(fā)送Email……
雖然IBM解放雙手的革命未能如愿,卻為整整一代人種下了“動(dòng)口不動(dòng)手”的交互理念。比如在2018年的時(shí)候,羅永浩推出了宣稱是“下一代個(gè)人電腦”的TNT,試圖將IBM講述的“美麗童話”從傳說變成現(xiàn)實(shí)。遺憾的是,老羅的TNT乃至后面推出的“智能鼠標(biāo)”,都和ViaVoice一樣成了被懷舊的對象。
為何語音輸入一度成了懸而未決的世紀(jì)難題?可以找到三個(gè)直接相關(guān)的痛點(diǎn)。
一是連續(xù)語音輸入的“尷尬”。
語音輸入并非沒有落地的場景,和智能音箱的語音交互、聊天時(shí)的語音識別等等,可以說是屢見不鮮的場景,然而切換到辦公時(shí)長篇幅的連續(xù)輸入,現(xiàn)有的語音識別模型常常出現(xiàn)“宕機(jī)”的問題。
時(shí)間追溯2015年,注意力模型已經(jīng)是語音識別的主流技術(shù),在語音識別的準(zhǔn)確率方面有了突破性的進(jìn)展,但注意力模型大多是基于整句的建模,通過機(jī)器學(xué)習(xí)選擇和當(dāng)前建模單元最匹配的特征,導(dǎo)致句子越長識別難度就越大,出錯(cuò)的概率也就越高,同時(shí)還伴隨著較長的用戶等待時(shí)間。
二是遠(yuǎn)場語音識別的不足。
網(wǎng)上流傳著使用TNT工作站的段子:想要在辦公室里用語音操作TNT,先要提前喊一聲“安靜”,讓周邊的同事自動(dòng)進(jìn)入到消聲狀態(tài),不然TNT可能不知道是誰在說話,語音識別的準(zhǔn)確率讓人堪憂。
背后牽涉到的是遠(yuǎn)場語音識別技術(shù),如果目標(biāo)聲源距離拾音器比較遠(yuǎn),將導(dǎo)致目標(biāo)信號衰減嚴(yán)重,加上嘈雜的外部環(huán)境制造了太多的干擾信號,最終導(dǎo)致信噪比較低、語音識別性能比較差。我們已經(jīng)習(xí)慣在手機(jī)上對著麥克風(fēng)說話,但不可能以趴在電腦上的姿勢對著屏幕進(jìn)行語音輸入。
三是語言混合輸入的難題。
即使不考慮長句子連續(xù)輸入和遠(yuǎn)場識別的問題,日益進(jìn)化的語言習(xí)慣也一度制約語音輸入的普及。就像很多人在工作中常常出現(xiàn)中英詞匯混用的情況,或者有時(shí)候飚一句方言,都可能難倒識別工具。
盡管一些語音識別工具推出了多種語言的識別模型,可在過去很長一段時(shí)間里,需要用戶先手動(dòng)切換至想要識別的語言,比如你想要用四川話進(jìn)行語音輸入,先要到輸入法的設(shè)置中將語言設(shè)定為四川話,說普通話的時(shí)候再去切換回來。不僅進(jìn)一步增加了用戶的學(xué)習(xí)成本,體驗(yàn)也不盡如人意。
在種種待解痛點(diǎn)的制約下,語音輸入的想象固然美好,但前提是進(jìn)行一場技術(shù)上的長征?梢宰糇C的是,微軟剛剛以197億美元的價(jià)格收購了Siri背后的語音技術(shù)玩家Nuance,計(jì)劃將Nuance的語音識別技術(shù)和旗下其他產(chǎn)品整合,以接棒在技術(shù)和場景上落后而被迫默默退場的Cortana。
02 百度AI的三步走戰(zhàn)略
而在語音技術(shù)的賽道上,百度已經(jīng)奔跑了十年。
2010年百度正式成立了語音團(tuán)隊(duì),主要研發(fā)百度語音識別、語音合成等在內(nèi)的一系列核心技術(shù),并逐步將百度的語音技術(shù)應(yīng)用于小度智能音箱、百度輸入法、小度車載助手、百度智能語音呼叫中心等產(chǎn)品。
不過在PC端語音輸入的話題上,百度AI在很長時(shí)間里并未追逐“智能硬件”的風(fēng)口,默默制定了語音技術(shù)的三步走戰(zhàn)略:
第一階段,語音識別算法的持續(xù)打磨。
為了解決連續(xù)語音輸入的痛點(diǎn),百度AI的工程師們在注意力模型的基礎(chǔ)上,創(chuàng)新性地提出了流式多級截?cái)嘧⒁饬δP蚐MLTA,利用CTC算法對連續(xù)語音流進(jìn)行截?cái)?然后對每一個(gè)小段的語音進(jìn)行建模,把原來整句的建模,變成了局部語音小段的建模。這樣用戶話音一落就可以拿到識別結(jié)果,保證了最佳的用戶體驗(yàn)。
同時(shí)百度AI還針對語言混合輸入進(jìn)行了算法優(yōu)化,羅技推出的“語音鼠標(biāo)”VOICE M380就支持8種語言的語音翻譯,首次通過羅技鼠標(biāo)在PC上實(shí)現(xiàn)了中英文自由夾雜語音輸入,以及粵語、四川話、東北話、河南話等7種方言免切換混合輸入。
第二階段,一體化的端到端建模技術(shù)。
市場上常見的遠(yuǎn)場語音識別技術(shù),往往將麥克風(fēng)陣列作為拾音器,然后利用多通道語音信號處理技術(shù)增強(qiáng)目標(biāo)信號。這種先語音增強(qiáng)后語音識別的思路,在一定程度上提高了識別的準(zhǔn)確率,但增強(qiáng)目標(biāo)和優(yōu)化目標(biāo)可能并不一致。
百度AI的思路是“語音增強(qiáng)和語音聲學(xué)建模一體化”的端到端建模,并提出了基于復(fù)數(shù)CNN的遠(yuǎn)場端到端建模方案,利用復(fù)數(shù)CNN 網(wǎng)絡(luò)挖掘生理信號本質(zhì)特征的特點(diǎn),直接對原始的多通道語音信號進(jìn)行多尺度多層次的信息抽取,避免了由于定位出錯(cuò)而導(dǎo)致識別準(zhǔn)確率急劇下降的問題,最終遠(yuǎn)場語音識別的錯(cuò)誤率降低了30%以上。
第三階段,自研芯片加速產(chǎn)業(yè)化落地。
語音輸入的隱形制約還有算力和功耗。在語音技術(shù)從云端競爭向芯片端延伸的趨勢下,算力直接關(guān)系著用戶體驗(yàn),但傳統(tǒng)芯片的平均功耗在1W以上,算力和功耗的兩難,進(jìn)一步制約了語音輸入的應(yīng)用場景。
在提出端到端的一體化方案后,百度AI將目光瞄向了芯片端。在2019年發(fā)布了首款針對遠(yuǎn)場語音交互研發(fā)的鴻鵠芯片,通過端到端的軟硬一體化框架,將所有語音交互任務(wù)集中到一顆低功耗語音交互芯片上,提取的語音特征直接在云端進(jìn)行高精準(zhǔn)識別。目前鴻鵠芯片的平均功耗只有100mw,完全滿足3C產(chǎn)品0.5W的待機(jī)標(biāo)準(zhǔn)。
和智能語音同時(shí)進(jìn)化的,還有百度AI的機(jī)器翻譯,過去十年中在大規(guī)模產(chǎn)業(yè)化機(jī)器翻譯模型、海量翻譯知識獲取、多語言翻譯統(tǒng)一框架、機(jī)器同聲傳譯等方面進(jìn)行了系統(tǒng)而深入的研究。特別是基于神經(jīng)網(wǎng)絡(luò)的多語言翻譯統(tǒng)一框架,在全世界范圍內(nèi)首次實(shí)現(xiàn)了203種語言的互譯。
百度AI圍繞智能語音和機(jī)器翻譯的戰(zhàn)略布局佐證了這樣一個(gè)事實(shí):技術(shù)賽道并非是閉門造車,百度AI對羅技的優(yōu)先賦能,正是精準(zhǔn)把握產(chǎn)業(yè)化需求的體現(xiàn)。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會
-
即日-5.15立即報(bào)名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?