精品久久久久久无码人妻色哟哟,国产ts系列变性ts阿茶

湯唯成了百度地圖的“AI算法官” 女神背后靠的就是這些語(yǔ)音技術(shù)

2019-01-02 08:28

在人機(jī)交互不再滿(mǎn)足于“聽(tīng)”時(shí)，“說(shuō)”的環(huán)節(jié)變得尤為重要，“怎么說(shuō)”、“誰(shuí)來(lái)說(shuō)”成了關(guān)鍵按鈕。

而目前語(yǔ)音產(chǎn)品賽道逐漸進(jìn)入了常規(guī)化模式，邀請(qǐng)明星出聲也成為了基本操作，相比傳統(tǒng)的機(jī)械式AI聲音，真人語(yǔ)音無(wú)論是在效果還是情感方面都是無(wú)可比擬的，再加上明星效應(yīng)，用戶(hù)的體驗(yàn)效果將來(lái)得更加直觀。

12月24日，百度地圖官方宣布湯唯正式簽約代言人，同時(shí)上線(xiàn)“湯唯導(dǎo)航語(yǔ)音”。在“說(shuō)”的領(lǐng)域，百度地圖這款“新一代人工智能地圖”又邁出了一步。

從語(yǔ)音導(dǎo)航到湯唯定制語(yǔ)音，百度地圖“AI＋女神”到底進(jìn)化了什么

傳統(tǒng)語(yǔ)音導(dǎo)航，是單調(diào)無(wú)聊的，定制語(yǔ)音將其變?yōu)榱诉^(guò)去式。擁有湯唯的柔美聲音作為導(dǎo)航，在體驗(yàn)上有什么差別？當(dāng)“前方路段交通擁擠，請(qǐng)小心駕駛”變成“前方行駛緩慢，慢慢欣賞路上風(fēng)景”，會(huì)不會(huì)覺(jué)得這才是“人性化”服務(wù)？

1、擺脫中性，湯唯帶給我們的不只是女神之聲

很多人會(huì)問(wèn)，一定要給AI加上性別嗎？不，AI不一定需要性別，但語(yǔ)音最好有。

以往我們聽(tīng)到的AI語(yǔ)音都是機(jī)械式的聲音，是“中性”或者說(shuō)是“無(wú)性”的聲音，帶來(lái)的問(wèn)題也很直接，就是太冰冷、沒(méi)個(gè)性。之前也有說(shuō)到，目前個(gè)性化、表現(xiàn)力正是語(yǔ)音合成所追求的方向之一，所以百度地圖帶來(lái)的湯唯語(yǔ)音也就不止是一款語(yǔ)音那么簡(jiǎn)單�？梢哉f(shuō)湯唯語(yǔ)音從一個(gè)功能點(diǎn)體現(xiàn)出結(jié)合了人工智能的百度地圖正在變得越來(lái)越強(qiáng)大。

聲音具有和視覺(jué)傳達(dá)一樣很強(qiáng)的感染力，甚至有時(shí)，以聲音為主的交互會(huì)帶來(lái)更好的沉浸感。

并且語(yǔ)音合成研究已開(kāi)始從文字到語(yǔ)音的轉(zhuǎn)換階段向概念到語(yǔ)音的轉(zhuǎn)換階段發(fā)展。所涉及的技術(shù)也更加復(fù)雜，百度地圖就是利用其深度神經(jīng)網(wǎng)絡(luò)技術(shù)、深度學(xué)習(xí)技術(shù)，再結(jié)合車(chē)內(nèi)應(yīng)用場(chǎng)景進(jìn)行打造。例如百度語(yǔ)音合成系統(tǒng)采用的全深度學(xué)習(xí)的框架，是在語(yǔ)音合成領(lǐng)域首次采用全深度學(xué)習(xí)框架，實(shí)現(xiàn)了語(yǔ)言合成上的個(gè)性化、口語(yǔ)化。

2、語(yǔ)音算法模型讓機(jī)器人性化

女神湯唯之所以能完成高質(zhì)量的語(yǔ)音包，語(yǔ)音合成技術(shù)功不可沒(méi)，在龐大的道路信息和交通數(shù)據(jù)之下，誰(shuí)也無(wú)法通過(guò)直錄的方式通通記錄，這時(shí)就需要靠語(yǔ)音系統(tǒng)來(lái)支撐。

以湯唯語(yǔ)音包來(lái)說(shuō)，就是先錄制湯唯聲音特點(diǎn)的第一手資料，錄制的語(yǔ)句包含一些常見(jiàn)的導(dǎo)航提示語(yǔ)句和一些覆蓋到常見(jiàn)的中文發(fā)音的句子。

其實(shí)無(wú)論語(yǔ)音還是文字，在計(jì)算機(jī)看來(lái)都是數(shù)字化的，語(yǔ)音合成模型的任務(wù)就是要建立這兩組數(shù)字之間的關(guān)系，通過(guò)一系列的計(jì)算，將文本的輸入轉(zhuǎn)化為語(yǔ)音的輸出。首先需要建立一個(gè)神經(jīng)網(wǎng)絡(luò)的模型，去學(xué)習(xí)湯唯錄制的語(yǔ)音和錄音文字之間的映射關(guān)系，就好比讓一個(gè)不會(huì)發(fā)音的孩子學(xué)湯唯說(shuō)話(huà)。而在合成時(shí)，它就可以讀取導(dǎo)航語(yǔ)句，并大聲朗讀出來(lái)了。

AI浪潮之下，語(yǔ)言合成才是語(yǔ)音技術(shù)的高地

使電腦具有類(lèi)似于人一樣的說(shuō)話(huà)能力，是當(dāng)今時(shí)代信息產(chǎn)業(yè)的重要競(jìng)爭(zhēng)市場(chǎng)，不過(guò)大家的注意力多集中在語(yǔ)音合成之外。

1、差點(diǎn)被忽略的“黃金”場(chǎng)景

目前，語(yǔ)音技術(shù)的應(yīng)用多為了語(yǔ)音喚醒和交互，在智能硬件和軟件上都有很多典型應(yīng)用——智能音箱、智能電視、智能掃地機(jī)器人、百度地圖、百度輸入法等等。但不可否認(rèn)的是，智能硬件的側(cè)重仍在于“語(yǔ)音識(shí)別”，對(duì)于“語(yǔ)音合成”的應(yīng)用有，可還不夠深。

語(yǔ)音合成本是把文本經(jīng)一系列計(jì)算處理后輸出對(duì)應(yīng)音頻，通過(guò)機(jī)械的、電子的方法產(chǎn)生人造語(yǔ)音技術(shù)。因?yàn)橥昝赖娜藱C(jī)交互體驗(yàn)無(wú)法忽略“說(shuō)”的環(huán)節(jié)，所以語(yǔ)音合成的重要性日益凸顯。

從早期的機(jī)械化語(yǔ)音合成開(kāi)始發(fā)展至今，語(yǔ)音合成的應(yīng)用場(chǎng)景也經(jīng)歷了較大的轉(zhuǎn)變，以前語(yǔ)音合成應(yīng)用都是在相對(duì)單調(diào)的場(chǎng)景，現(xiàn)在應(yīng)用場(chǎng)景更加復(fù)雜，對(duì)于語(yǔ)音合成技術(shù)的要求自然變得更高。

例如，在有聲讀物方面，用戶(hù)需求越來(lái)越個(gè)性化，單調(diào)的機(jī)械聲已經(jīng)完全不夠；在機(jī)場(chǎng)、車(chē)站廣播等服務(wù)行業(yè)，需要的是溫柔、甜美的音質(zhì)；在辦事機(jī)構(gòu)、窗口機(jī)關(guān)又需要嚴(yán)謹(jǐn)、有力的聲音。而百度地圖上線(xiàn)湯唯語(yǔ)音，也是給在路上的用戶(hù)更加磁性、知性的嗓音。

在外部，車(chē)內(nèi)空間顯然是一塊“寶地”，車(chē)內(nèi)空間的交互可以說(shuō)是市場(chǎng)剛需，截止到2018年9月，全國(guó)機(jī)動(dòng)車(chē)保有量已經(jīng)達(dá)到了3．22億輛，機(jī)動(dòng)車(chē)駕駛?cè)藬?shù)超過(guò)了4億人，交互價(jià)值巨大。

百度地圖等加速車(chē)內(nèi)空間交互，是將傳統(tǒng)的“室內(nèi)交互”做了外延，給百度帶來(lái)的也不僅僅是用戶(hù)層面的拓寬，更體現(xiàn)出百度搜索之外的野心。

2、技術(shù)上，語(yǔ)音合成一直是語(yǔ)音技術(shù)的高山和壁壘

語(yǔ)音合成可以說(shuō)是人工智能的“嘴”，是人機(jī)交互的基礎(chǔ)，一個(gè)沒(méi)有“嘴”的人工智能何談什么交互？

就現(xiàn)階段而言，語(yǔ)音識(shí)別已經(jīng)不再是語(yǔ)音技術(shù)的關(guān)鍵問(wèn)題，很多產(chǎn)品的語(yǔ)音識(shí)別率都到達(dá)了95％以上。但在語(yǔ)音生成上，能讓機(jī)器說(shuō)的話(huà)與人類(lèi)說(shuō)出來(lái)的話(huà)相近依舊很難，即便是一些簡(jiǎn)單的詞組，你我也能一耳就聽(tīng)出是機(jī)器合成的還是真人播報(bào)。

如果將語(yǔ)音合成技術(shù)拆解，可以分為文本分析、韻律分析和聲學(xué)分析三個(gè)部分，每一個(gè)部分都是技術(shù)難點(diǎn)。首先需要對(duì)文本進(jìn)行解析，對(duì)文本的語(yǔ)言、字符進(jìn)行分析，提取出文本特征；接著在文本信息的基礎(chǔ)上，要判斷文本信息字符間奏、長(zhǎng)度、頻率等多種特征；然后通過(guò)聲學(xué)模型實(shí)現(xiàn)從前端參數(shù)到語(yǔ)音參數(shù)的映射，最后通過(guò)聲碼器合成語(yǔ)音。

而且，目前主流的語(yǔ)音合成方法為統(tǒng)計(jì)參數(shù)語(yǔ)音合成和波形拼接的語(yǔ)音合成，統(tǒng)計(jì)參數(shù)語(yǔ)音合成由前端文本分析、統(tǒng)計(jì)參數(shù)模型和聲碼器三個(gè)部分組成，對(duì)語(yǔ)料庫(kù)的時(shí)長(zhǎng)要求較低且在合成目標(biāo)波形時(shí)具有較高靈活性，但重建出來(lái)的語(yǔ)音比較機(jī)械，缺乏自然度。主要為聲碼器在對(duì)語(yǔ)音信號(hào)建模時(shí)舍棄了語(yǔ)音細(xì)節(jié)，合成的語(yǔ)音相比原始語(yǔ)音丟失部分信息。

而百度地圖采用的百度語(yǔ)音合成系統(tǒng)，可以將很多模塊用深度神經(jīng)網(wǎng)絡(luò)去實(shí)現(xiàn)，有效解決了使用統(tǒng)計(jì)參數(shù)合成時(shí)所帶來(lái)的問(wèn)題。

波形拼接的語(yǔ)音合成不使用聲碼器，直接通過(guò)拼接原始錄制語(yǔ)音片段來(lái)合成目標(biāo)語(yǔ)音，相比參數(shù)法，合成的語(yǔ)音更加自然真實(shí)。由于直接面向語(yǔ)料庫(kù)操作，故對(duì)語(yǔ)料時(shí)長(zhǎng)和基元種類(lèi)具有較高要求。

當(dāng)然，當(dāng)語(yǔ)音流暢度達(dá)到人們預(yù)期時(shí)，也并不是完結(jié)，音質(zhì)、自然度和情感等要素也依舊需要攻克。

就拿漢語(yǔ)語(yǔ)音合成來(lái)說(shuō)，目前在單字和詞組一級(jí)上，合成語(yǔ)音的可懂度和自然度已基本解決，但是到句子乃至篇章一級(jí)時(shí)其自然度問(wèn)題就比較大。

比如，國(guó)內(nèi)外大多數(shù)語(yǔ)音合成研究是針對(duì)文語(yǔ)轉(zhuǎn)換系統(tǒng)，且只能解決以某種朗讀風(fēng)格將書(shū)面語(yǔ)言轉(zhuǎn)換成口語(yǔ)輸出，缺乏不同年齡、性別特征及語(yǔ)氣、語(yǔ)速的表現(xiàn)，更不用說(shuō)賦予個(gè)人的感情色彩。

3、比起聽(tīng)得清和聽(tīng)得懂，“說(shuō)得好”要求的是更懂人

正如上文所提到過(guò)的，目前大部分產(chǎn)品的語(yǔ)音識(shí)別率都達(dá)到了95％以上，卻無(wú)法像人類(lèi)一樣表達(dá)，其根本原因就是還“不懂人”。

何為“懂人”？我們?nèi)伺c人之間可以從對(duì)方的音量、聲調(diào)、語(yǔ)速、用詞等方面聽(tīng)懂對(duì)方的要求、情緒、心情、狀態(tài)，這就是所謂的“懂人”。

說(shuō)得直白點(diǎn)就是“情感表達(dá)”，這是目前而言語(yǔ)音合成技術(shù)需要攻克的關(guān)鍵要素。

想要達(dá)成這一目標(biāo)，針對(duì)普通生活場(chǎng)景的語(yǔ)音合成是提高情感表達(dá)的最佳方式。目前使用語(yǔ)音合成技術(shù)播報(bào)下天氣或者閱讀簡(jiǎn)訊，無(wú)疑能合成出完美的語(yǔ)音，但遇到生活化的場(chǎng)景，或者在特定氛圍之下，語(yǔ)音合成的效果就會(huì)降低很多。一方面由于系統(tǒng)對(duì)韻律信息的捕獲不準(zhǔn)確，另一方面由于生成的聲學(xué)參數(shù)存在誤差。當(dāng)語(yǔ)音合成可以完美消化各類(lèi)生活化的語(yǔ)境時(shí)，其應(yīng)用場(chǎng)景將得到極大的拓寬。

另外，在語(yǔ)音合成的應(yīng)用中，大多都是單人、單語(yǔ)言、單語(yǔ)音，如何能由單變多也是語(yǔ)音合成應(yīng)用中的一大困擾。在“3單”語(yǔ)境的限制下，語(yǔ)言合成技術(shù)難以完成應(yīng)用突破，而目前一些解決“3單”語(yǔ)境的解決方案也不夠完美，或多或少都存在瑕疵，并且也沒(méi)有足夠的語(yǔ)料素材來(lái)進(jìn)行支撐。

如何使計(jì)算機(jī)算法能夠自適應(yīng)技術(shù)實(shí)現(xiàn)任意說(shuō)話(huà)人、不同風(fēng)格的高質(zhì)量語(yǔ)音合成，如何充分挖掘不同語(yǔ)言的發(fā)音空間，在語(yǔ)料受限條件下實(shí)現(xiàn)多語(yǔ)言語(yǔ)音合成，也是語(yǔ)音合成現(xiàn)階段的一大挑戰(zhàn)。

百度地圖在深度神經(jīng)網(wǎng)絡(luò)技術(shù)的支撐下，已經(jīng)開(kāi)始對(duì)“3單”語(yǔ)境作出反應(yīng)，并已收到成效，百度語(yǔ)音合成開(kāi)始支持中文英文混讀，可以提供數(shù)十種不同音色，更支持語(yǔ)速、音調(diào)、音量設(shè)置。這些技術(shù)活功能上的增加，無(wú)疑將給語(yǔ)音合成帶來(lái)更加廣闊的想象空間。

近年來(lái)，在語(yǔ)音技術(shù)行業(yè)中開(kāi)始流行一句話(huà)：“得語(yǔ)音合成者得天下”，百度地圖此時(shí)牽手國(guó)民女神，導(dǎo)航語(yǔ)音全量上線(xiàn)似乎也在卡這個(gè)時(shí)間點(diǎn)。

1 2 下一頁(yè)>