從語(yǔ)音識(shí)別到語(yǔ)義識(shí)別,中間還有多長(zhǎng)的路要走?
單通道和多人會(huì)話
一個(gè)好的會(huì)話語(yǔ)音識(shí)別器必須能夠根據(jù)誰(shuí)在說(shuō)話對(duì)音頻進(jìn)行劃分,還應(yīng)該能弄清重疊的會(huì)話(聲源分離)來(lái)理解音頻。
一個(gè)人在一個(gè)有多個(gè)人說(shuō)話的環(huán)境中的時(shí)候,能夠很容易的分辨出自己要與某人說(shuō)話,并且能夠在同時(shí)與多個(gè)人交談。很明顯,目前的語(yǔ)音識(shí)別器并不能做到這一點(diǎn)。當(dāng)多個(gè)人對(duì)著麥克風(fēng)講話時(shí),它可能直接就“懵”了。
上下文理解
實(shí)際生活中我們會(huì)使用許多其他的線索來(lái)輔助理解別人在說(shuō)什么。
列舉幾個(gè)人類使用上下文而語(yǔ)音識(shí)別器沒(méi)有的情況:
歷史會(huì)話和討論過(guò)的話題;
說(shuō)話人的視覺(jué)暗示,包括面部表情和嘴唇動(dòng)作;
關(guān)于會(huì)話者的背景。
可以看到雖然目前語(yǔ)音識(shí)別技術(shù)的誤字率已經(jīng)低于5%,但想從語(yǔ)音識(shí)別轉(zhuǎn)變成真正的語(yǔ)義識(shí)別,是仍然面臨著很多挑戰(zhàn)。
語(yǔ)音識(shí)別到真正的語(yǔ)義識(shí)別
語(yǔ)音識(shí)別和語(yǔ)義識(shí)別合起來(lái)的語(yǔ)言識(shí)別雖然為人工智能的一大支系,但是比起語(yǔ)音識(shí)別,顯然語(yǔ)義識(shí)別要更加智能。在這里,與非網(wǎng)小編先給大家梳理一下人工智能,機(jī)器學(xué)習(xí),深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)這些術(shù)語(yǔ)之間的關(guān)系,大家或許就更加能理解從語(yǔ)音識(shí)別到真正的語(yǔ)義識(shí)別還有哪些路要走(目前市場(chǎng)上有很多做語(yǔ)義識(shí)別的公司,但是跟人類相比還存在一定的距離。)?
人工智能(AI)是一個(gè)大的概念,它是機(jī)器學(xué)習(xí)的父類。
除學(xué)習(xí)之外的人工智能可以歸納成了“邏輯/算法編程”,也就是通過(guò)編程將人類所知的知識(shí)和邏輯告訴機(jī)器,從而借助機(jī)器的高速計(jì)算和海量存儲(chǔ)等能力實(shí)現(xiàn)一些人類才能做的“弱智能”工作,像上世紀(jì)深藍(lán)計(jì)算機(jī),將國(guó)際象棋中所有可能的結(jié)果都通過(guò)預(yù)先編好的程序計(jì)算出來(lái)從而選擇最佳的下法(窮舉法)。從程序的實(shí)現(xiàn)上來(lái)說(shuō)恐怕就是無(wú)數(shù)的if…else…吧。
而另一類就是基于數(shù)據(jù)的自我學(xué)習(xí),把大量的數(shù)據(jù)告訴機(jī)器由機(jī)器自己去分析這些數(shù)據(jù)從而總結(jié)得出某種規(guī)律/邏輯,然后利用這種邏輯來(lái)處理新的數(shù)據(jù)。
毫無(wú)疑問(wèn),學(xué)習(xí)是人工智能中最為火熱和最有前途的方向,讓人去“學(xué)習(xí)”那么復(fù)雜的邏輯來(lái)告訴機(jī)器怎么做還不如讓機(jī)器自己來(lái)學(xué)習(xí)呢,畢竟人都是懶的嘛,而“懶”就是人類進(jìn)步的動(dòng)力!
學(xué)習(xí)是不斷的訓(xùn)練過(guò)程,其模型是在連續(xù)的優(yōu)化調(diào)整中,隨著訓(xùn)練數(shù)據(jù)越多其模型越準(zhǔn)確,但是人類的學(xué)習(xí)不僅僅是一個(gè)連續(xù)學(xué)習(xí)過(guò)程,還有一種跳躍式學(xué)習(xí),也就是常說(shuō)的“頓悟”,這點(diǎn)是機(jī)器學(xué)習(xí)目前所沒(méi)有的。
也就是說(shuō),要從語(yǔ)音識(shí)別成功轉(zhuǎn)變成真正意義上的語(yǔ)義識(shí)別,首先要獲得大量的數(shù)據(jù)(比如說(shuō)普通話,上海方言等),用過(guò)這些數(shù)據(jù)不斷訓(xùn)練,來(lái)提高識(shí)別的準(zhǔn)確率。
圖|語(yǔ)義識(shí)別市場(chǎng)
雖說(shuō)實(shí)現(xiàn)真正的語(yǔ)義識(shí)別不容易,但是就目前的市場(chǎng)分析來(lái)看,語(yǔ)義識(shí)別已經(jīng)滲透到了我們的生活之中,作為人工智能的基礎(chǔ)性技術(shù)之一,隨著技術(shù)的不斷成熟,語(yǔ)義識(shí)別將不斷地改變更多的傳統(tǒng)行業(yè)。
圖|人工智能各分支占比
在人工智能的整個(gè)領(lǐng)域里,自然語(yǔ)言處理無(wú)論是在創(chuàng)業(yè)熱度/獲投數(shù)量還是獲投金額都處于細(xì)分領(lǐng)域的前三名。據(jù)有關(guān)數(shù)據(jù)分析,預(yù)計(jì)到2024年,市場(chǎng)規(guī)模可達(dá)110億美元。并且在這個(gè)領(lǐng)域還沒(méi)有出現(xiàn)巨頭,這塊蛋糕還給創(chuàng)業(yè)者留有大量的余地?梢哉f(shuō)語(yǔ)音識(shí)別(在這里指的整個(gè)語(yǔ)言識(shí)別)未來(lái)的市場(chǎng)發(fā)展十分有看頭。
想象一下,當(dāng)語(yǔ)音識(shí)別發(fā)展到一定程度,我們坐在電視機(jī)前就可以語(yǔ)音遙控想看的節(jié)目。假如你要看英劇《神探夏洛克》,經(jīng)常會(huì)被人叫成《神探夏洛特》(因?yàn)橄穆逄馗樧旎蛘吒毡椋@時(shí)候如果不做語(yǔ)義理解,可能你搜出來(lái)的名字就是《夏洛特?zé)⿶馈罚驗(yàn)樗l度也很高。
圖|語(yǔ)義識(shí)別帶來(lái)的人機(jī)交互
專做語(yǔ)義識(shí)別的三角獸公司CTO亓超對(duì)以上現(xiàn)象如此解釋:當(dāng)你沒(méi)有辦法記住片子完整名字時(shí),語(yǔ)義識(shí)別需要給你做糾正,做更合適處理。其實(shí)用戶在看電視產(chǎn)生很大需求,當(dāng)用戶不知道要看什么,需要機(jī)器幫忙做推薦和引導(dǎo),而這個(gè)過(guò)程中精準(zhǔn)化程度、和人性化程度取決于智能化程度。
當(dāng)語(yǔ)音識(shí)別發(fā)展到一定的程度,語(yǔ)義識(shí)別或?qū)⒊蔀樾碌闹髁鳌?/p>

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?