左手握技術(shù),右手握需求,但聲紋識(shí)別依舊當(dāng)不了“獨(dú)行俠”
前段時(shí)間,OPPO意外上了熱搜。
因?yàn)橹悄蹵I語(yǔ)音助手“小歐”的語(yǔ)音喚醒、解鎖功能,用戶花了5000元買了一部OPPO的手機(jī)。這事沒讓用戶感到興奮,反而有點(diǎn)恐慌。
根據(jù)指示,在錄入聲音后,應(yīng)該只有聲音的主人能夠語(yǔ)音喚醒、解鎖,而現(xiàn)在,在用戶已經(jīng)提前錄入聲音的前提下,他的朋友竟然也通過語(yǔ)音成功喚醒小歐,并解鎖手機(jī)。
這其中究竟是哪一步出了問題?
答案是,語(yǔ)音識(shí)別。
說得更準(zhǔn)確一點(diǎn),是手機(jī)系統(tǒng)的聲紋識(shí)別不夠準(zhǔn)確。
聲紋識(shí)別很“低調(diào)”,但掩蓋不住市場(chǎng)利好
就像這個(gè)世界上沒有任何兩片樹葉的紋理是一樣的,即使是雙胞胎,他們的舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)等方面多多少少都會(huì)有些差異,即便是聲音聽起來相似,但聲紋圖譜總歸是不同的。
具體說來,聲紋識(shí)別是生物識(shí)別手段的其中一種,跟它屬于同一家族的還有指紋識(shí)別、人臉識(shí)別、虹膜識(shí)別等等。在現(xiàn)實(shí)生活中,識(shí)別技術(shù)通常都被用來作為交互或是安全認(rèn)證的一種手段,聲紋識(shí)別亦不能免俗。
目前,聲紋識(shí)別技術(shù)最大的市場(chǎng)在于安防和金融。其中,最為經(jīng)典、刺激的當(dāng)屬刑偵。最佳例子來自2017年的熱播劇《人民的名義》,針對(duì)陳海發(fā)生車禍一事,反貪局局長(zhǎng)侯亮平與京州公安局局長(zhǎng)趙東來在全場(chǎng)進(jìn)行探討分析,提到陳海在車禍前共接到兩個(gè)舉報(bào)電話,京州公安局將兩個(gè)電話交由不同技術(shù)部門進(jìn)行了兩次鑒定,最終得出結(jié)論,兩通電話舉報(bào)人的聲音并非蔡成功一人。
如何知道聲音不是同一個(gè)人的?這其中所使用的技術(shù)就是聲紋識(shí)別。更進(jìn)一步講,這是1對(duì)1的聲紋識(shí)別技術(shù),通過將電話中的聲紋與數(shù)據(jù)庫(kù)中蔡成功的聲紋特征進(jìn)行1對(duì)1比對(duì)。
而在金融領(lǐng)域,聲紋識(shí)別技術(shù)也被用于用戶身份確認(rèn)等方面,譬如銀行系統(tǒng)會(huì)要求用戶登錄時(shí)先行說出一段指定文字,從而進(jìn)行聲紋數(shù)據(jù)的比對(duì),以確認(rèn)用戶是否為本人?梢哉f,在安防/金融等領(lǐng)域,聲紋識(shí)別有著先天的落地場(chǎng)景和利好前景。
安防/金融等應(yīng)用場(chǎng)景之外,聲紋識(shí)別也逐步地在智能硬件、智能家居等產(chǎn)品或場(chǎng)景內(nèi)實(shí)現(xiàn)落地。
以智能家居場(chǎng)景內(nèi)的智能音箱為例。最初智能音箱并不具備聲紋識(shí)別的功能,這也就意味著任何人都可以喚醒它并對(duì)其下指令。而當(dāng)有多人同時(shí)發(fā)聲時(shí),智能音箱就會(huì)發(fā)生“指令混亂”的問題。如果任何人都可以通過智能音箱進(jìn)行全場(chǎng)景控制,那么無(wú)疑為不法分子提供了作案便利。因此,出于安全性、指令接收準(zhǔn)確性、個(gè)性化等因素,聲紋識(shí)別技術(shù)也漸漸在智能家居、智能硬件等場(chǎng)景中實(shí)現(xiàn)滲透。
目前,在聲紋識(shí)別技術(shù)的應(yīng)用方面,除了接入安防、金融等行業(yè),諸如長(zhǎng)虹等硬件廠商也研發(fā)并推出了具備聲紋識(shí)別功能的智能電視、智能手機(jī)等等。
從近幾年的情形可以看出,相比于指紋識(shí)別、人臉識(shí)別等生物識(shí)別技術(shù),聲紋識(shí)別是“低調(diào)”的,但市場(chǎng)需求是的確存在的,且市場(chǎng)熱度也有上升趨勢(shì)。
相比其他家族成員,聲紋識(shí)別的成長(zhǎng)過程有著許多“攔路虎”
此前,智研咨詢發(fā)布《2018-2024年中國(guó)聲紋識(shí)別技術(shù)行業(yè)市場(chǎng)運(yùn)營(yíng)態(tài)勢(shì)及發(fā)展前景預(yù)測(cè)報(bào)告》,內(nèi)容中指出,2017年聲紋識(shí)別技術(shù)的全球收入為1.32億美元,而這一數(shù)值在幾年將增至1.59,增速達(dá)到20.5%,預(yù)計(jì)到2021年,聲紋識(shí)別技術(shù)的全球收入將達(dá)到2.64億美元。僅從這一數(shù)值來看,聲紋識(shí)別的市場(chǎng)預(yù)期還是不小的。
但另一方面,這一市場(chǎng)預(yù)期又著實(shí)有點(diǎn)不夠看頭。國(guó)際權(quán)威調(diào)研機(jī)構(gòu)Gen Market Insights發(fā)布了《全球人臉識(shí)別設(shè)備市場(chǎng)研究報(bào)告2018》,報(bào)告稱,2017年全球人臉識(shí)別設(shè)備市場(chǎng)價(jià)值為10.7億美元,到2025年底將達(dá)到71.7億美元,在2018年至2025年期間將以26.8%的速度增長(zhǎng)。
一邊是個(gè)位數(shù),一邊是十位數(shù),這中間的差距之大十分明顯。
此外,我們?cè)倏戳硗庖唤M對(duì)比:
從易用性、準(zhǔn)確率、成本、用戶接受度等角度出發(fā),對(duì)各項(xiàng)生物識(shí)別技術(shù)做對(duì)比。我們可以直觀看到,綜合評(píng)判上,相比于指紋識(shí)別、掌型識(shí)別、人臉識(shí)別、虹膜識(shí)別等生物識(shí)別技術(shù),聲紋識(shí)別在各方面都占據(jù)優(yōu)勢(shì)。
那么,我們就疑惑了:市場(chǎng)存在需求,易用性、準(zhǔn)確率、成本、用戶接受度等方面又比其他生物識(shí)別技術(shù)更有優(yōu)勢(shì),緣何聲紋識(shí)別技術(shù)的市場(chǎng)占有率遠(yuǎn)遠(yuǎn)落后于人臉識(shí)別等技術(shù)?
問題就出在數(shù)據(jù)的采集和覆蓋范圍上。
在本文開始,我們就提到縱然是雙胞胎,他們的聲紋特征也是有所差異的,不過更為準(zhǔn)確地講,聲紋是一種“相對(duì)唯一”的生物特征。
在實(shí)際應(yīng)用中,聲紋識(shí)別受影響的因素比較多,首先注冊(cè)模型上,受限于環(huán)境、身體狀態(tài)等因素,一個(gè)人的聲音會(huì)發(fā)生不用的變化;其次在應(yīng)用中,也會(huì)受注冊(cè)環(huán)境跟驗(yàn)證環(huán)境不一致造成的失配問題,致使聲紋不能匹配;最后,聲紋也會(huì)隨著年齡的變化而變化。另外,雖然聲紋可以實(shí)現(xiàn)非接觸的,但是在入侵方面也增加了更多的風(fēng)險(xiǎn),比如錄音、合成器合成等。
其中針對(duì)某些問題,人工智能技術(shù)能夠給予一定的幫助,比如環(huán)境對(duì)聲紋收集和比對(duì)的影響。一般情況下,在語(yǔ)料覆蓋率足夠完整的前提下,將之用于模型的搭建和訓(xùn)練,在最終實(shí)際應(yīng)用場(chǎng)景中,即使面對(duì)嘈雜的環(huán)境,系統(tǒng)在提取聲紋特征時(shí)便會(huì)將這些因素“去掉”,從而確保聲紋特征的精準(zhǔn)。
什么是語(yǔ)料?是指一個(gè)人的聲紋數(shù)據(jù)。
不過,用極限元?jiǎng)?chuàng)始人兼CEO溫正棋的話來說,面對(duì)環(huán)境失配問題,現(xiàn)在更多的是通過語(yǔ)料的覆蓋率來解決。在其看來,技術(shù)的成熟度極大程度上也是依賴語(yǔ)料的積累度。
語(yǔ)料積累的全面與完整,這涉及到背后的聲紋數(shù)據(jù)庫(kù)是否全面覆蓋了不用環(huán)境、不同狀態(tài)等場(chǎng)景下的聲紋特征。對(duì)于一般企業(yè)而言,這是一個(gè)極具難度的工作。
語(yǔ)料的完整與否影響了模型訓(xùn)練的精確度,也影響了聲紋識(shí)別技術(shù)在實(shí)驗(yàn)室之外的商業(yè)化落地,尤其是面對(duì)1對(duì)N的“說話人辨認(rèn)”的情況,相對(duì)于1對(duì)1的“說話人確認(rèn)”,“說話人辨認(rèn)”會(huì)要求系統(tǒng)通過聲紋識(shí)別技術(shù)在多個(gè)人中找出一個(gè)人,這對(duì)系統(tǒng)的語(yǔ)料完整度、聲紋特征提取的準(zhǔn)確度等多個(gè)方面提出了要求。
未來,聲紋識(shí)別當(dāng)不了“獨(dú)行俠”
現(xiàn)如今,以智能手機(jī)為例,各大手機(jī)生產(chǎn)商、應(yīng)用開發(fā)商更樂意采用人臉識(shí)別技術(shù)來用于認(rèn)證解鎖、認(rèn)證支付。而在機(jī)場(chǎng)、高鐵等場(chǎng)地,人臉識(shí)別檢票等設(shè)備也應(yīng)較為常見。
在這些場(chǎng)景中,人臉識(shí)別技術(shù)被作為安全認(rèn)證技術(shù)獨(dú)立使用。那么,同樣是安全認(rèn)證技術(shù),聲紋識(shí)別有沒有機(jī)會(huì)來當(dāng)一回“獨(dú)行俠”?
嚴(yán)格說來,聲紋識(shí)別當(dāng)“獨(dú)行俠”的機(jī)會(huì)很少,微乎其微。只有在相對(duì)局限的場(chǎng)景中,譬如相對(duì)外來因素影響較小的家居環(huán)境等等,用戶只需要提前錄入自己多種狀態(tài)的聲紋并實(shí)時(shí)更新,系統(tǒng)將能夠獨(dú)立提供服務(wù)。
至于其他較為復(fù)雜的環(huán)境,現(xiàn)在的聲紋識(shí)別很多都是與語(yǔ)音識(shí)別和人臉識(shí)別等結(jié)合,譬如用戶讀出一段指定文字,以登錄銀行賬戶等,安全指數(shù)更高。也因此,從大趨勢(shì)來講,聲紋識(shí)別當(dāng)不了“獨(dú)行俠”。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?