訂閱
糾錯(cuò)
加入自媒體

藏在機(jī)器嗓音里的賽車(chē)場(chǎng):我們離完美的AI之聲還有多遠(yuǎn)?

人類(lèi)與AI的對(duì)話頻率,正在進(jìn)入一個(gè)前所未有的大爆炸時(shí)代。

無(wú)論是智能手機(jī)里的語(yǔ)音助手、有買(mǎi)有送的智能音箱,還是千嬌百媚的智能機(jī)器人或者地圖導(dǎo)航,總有一款聲音萌動(dòng)你心。

這些生活中隨處可見(jiàn)的聲線,背后其實(shí)都是靠一項(xiàng)核心技術(shù)來(lái)支撐的:語(yǔ)音合成TTS( Text-To-Speech),即將文字轉(zhuǎn)化為聲音。

在一般情況下TTS并不受到廣泛關(guān)注。很多智能語(yǔ)音相關(guān)產(chǎn)品的發(fā)布會(huì)上,它甚至不會(huì)占用超過(guò)一頁(yè)P(yáng)PT的篇幅。但實(shí)際上,TTS對(duì)于整個(gè)AI語(yǔ)音交互的體驗(yàn)觸發(fā),起到了決定性的作用:用戶聽(tīng)到什么聲音,直接影響到AI在他心中的“三次元化”形象。

比如我一個(gè)朋友就是因?yàn)橹玖峤憬汔青堑呐湟,成為了地圖導(dǎo)航的死忠粉。而在經(jīng)典的AI電影《Her》里,人工智能系統(tǒng)OS1就擁有斯嘉麗約翰遜的迷人聲線,讓男主人公為之傾倒,一段人與AI的虐戀就此展開(kāi)。

語(yǔ)音合成,為機(jī)器注入了一種人格化的魅力,也讓人類(lèi)更愿意與之建立親密關(guān)系。這也意味著,在商業(yè)價(jià)值都要靠黏住用戶來(lái)實(shí)現(xiàn)的當(dāng)下,TTS能力將成為各個(gè)語(yǔ)音場(chǎng)景輸贏的命脈。

盡管企業(yè)對(duì)TTS的需求是如此迫切,但從學(xué)術(shù)到產(chǎn)業(yè)應(yīng)用之間,TTS依然存在著大片的技術(shù)空白。相近的技術(shù)原理和前沿算法探索之后,每家公司的解決方案、解決能力都千差萬(wàn)別。二者疊加之下,導(dǎo)致TTS變成了一個(gè)巨大的賽場(chǎng)。

本文希望剖析這個(gè)并不為大眾熟知的賽道,透視一下是什么決定了機(jī)器如何說(shuō)話,決定了用戶耳朵的體驗(yàn)與舒適度,又有哪些玩家憑借TTS撬開(kāi)了智能語(yǔ)音的富礦。

那場(chǎng)極速的溫柔:讓機(jī)器聽(tīng)上去像人,是AI公司的首要奔跑方向

最近,網(wǎng)上流行起了一種新的搞笑玩法:扮演機(jī)器。比如,用百度翻譯的語(yǔ)音包跟游戲中的隊(duì)友說(shuō)話,濃烈的機(jī)械味怕是會(huì)被隊(duì)友忍不住一槍爆頭。

與此同時(shí),一個(gè)娘化的AI形象“絆愛(ài)”也迅速走紅,被粉絲們親切地稱(chēng)為“愛(ài)醬”。它有著少女一樣的形象,能夠像人類(lèi)一樣交流,言語(yǔ)之間還會(huì)時(shí)不時(shí)流露出作為AI的志得意滿。

對(duì)過(guò)度機(jī)械的語(yǔ)音無(wú)情調(diào)侃,為高度人性化的語(yǔ)音瘋狂打call,可以說(shuō)是普通人對(duì)TTS的下限與上限最為直接的反應(yīng)了。

從中不難看出,TTS的核心賽道,就在于如何讓機(jī)器的聲音聽(tīng)上去韻律自然、情感充沛。說(shuō)白了,就是如何在機(jī)器聲音中注入人性。

這個(gè)聽(tīng)起來(lái)很模糊的需求,現(xiàn)實(shí)中只能通過(guò)TTS多個(gè)技術(shù)層次的逐步通關(guān)來(lái)實(shí)現(xiàn)。

綜合整個(gè)流程來(lái)看,目前有兩方面的工作是AI公司努力的核心方向:

用心的語(yǔ)料庫(kù),正在成為T(mén)TS發(fā)動(dòng)機(jī)

如何用更少的語(yǔ)料合成更自然的高質(zhì)量語(yǔ)音,可能是未來(lái)TTS的技術(shù)攻堅(jiān)方向。

目前看來(lái),更有情感表現(xiàn)力和精準(zhǔn)韻律的聲音,一定是通過(guò)龐大精準(zhǔn)的語(yǔ)料庫(kù)直接拼接產(chǎn)生的。

這背后隱藏的,是AI公司正在比拼構(gòu)建語(yǔ)料庫(kù)的投入成本與產(chǎn)品精神。

比如蘋(píng)果就請(qǐng)來(lái)了專(zhuān)業(yè)配音員蘇珊·貝內(nèi)特(Susan Bennett)為Siri錄制原始語(yǔ)料,而微軟小娜Cortana的聲音則來(lái)自演員簡(jiǎn)·泰勒(Jen Taylor),曾為《光暈》游戲中的角色Cortana配音。

國(guó)內(nèi),高德則邀請(qǐng)了林志玲、郭德綱、TFBOYS、羅永浩、黃曉明、高曉松等眾多流量擔(dān)當(dāng)來(lái)錄制導(dǎo)航語(yǔ)音包。

而為小米音箱、喜馬拉雅音箱、美的音箱等智能硬件提供服務(wù)的AI女聲“小雅”,則是獵戶星空從300個(gè)女聲中投票海選出來(lái)的。為了能讓“小雅”更為流暢自然地進(jìn)行中英文混說(shuō),獵戶專(zhuān)門(mén)找了一個(gè)和中文聲源發(fā)音很像的女孩子來(lái)錄制英語(yǔ)語(yǔ)料包。

從大量發(fā)音人的挑選,語(yǔ)料的精心打磨,以及對(duì)用戶場(chǎng)景的深度適配,好的TTS前端數(shù)據(jù)處理能力,是今天區(qū)分這個(gè)細(xì)分領(lǐng)域產(chǎn)業(yè)地位的核心。

用算法探索“聽(tīng)著舒服”的邊界

解決了基礎(chǔ)音源和龐大語(yǔ)料庫(kù)還遠(yuǎn)遠(yuǎn)不夠。今天的TTS領(lǐng)域,普遍前進(jìn)方向是基于相似的模型,在細(xì)節(jié)上帶來(lái)TTS效果優(yōu)化。

這個(gè)領(lǐng)域構(gòu)成了AI技術(shù)公司在TTS上的算法優(yōu)勢(shì),百度、微軟等都在重磅押注。

簡(jiǎn)單來(lái)說(shuō),就是通過(guò)系統(tǒng)對(duì)輸入的文本進(jìn)行分析,獲得合成語(yǔ)音的基本單元信息,從標(biāo)注好的語(yǔ)音庫(kù)中挑選出最合適的語(yǔ)音單元,根據(jù)需求進(jìn)行一定的修改和調(diào)整后,經(jīng)過(guò)波形拼接的方式獲得合成的語(yǔ)音。

目前,DeepMind 最新的深度生成模型 WaveNet ,改變了傳統(tǒng)的拼接法,而是選擇直接對(duì)音頻信號(hào)的原始波形進(jìn)行建模,一次處理一個(gè)樣本,來(lái)產(chǎn)出更為自然的聲音。

目前,WaveNet已經(jīng)能夠模擬任何人類(lèi)的語(yǔ)音,并且將機(jī)器語(yǔ)音合成的表現(xiàn)與人類(lèi)之間水平的差距至少縮減了 50%。

中國(guó)這邊,百度正在研究用講話人編碼(speaker encoding)技術(shù)來(lái)進(jìn)行自然語(yǔ)音的生成。

簡(jiǎn)單來(lái)說(shuō),講話人編碼器已經(jīng)學(xué)會(huì)了把不同人說(shuō)的話分別聚類(lèi),更好地模仿講話人的聲音特點(diǎn)。比如,機(jī)器能從口音判斷出,講話者是一個(gè)來(lái)自北美的男性還是來(lái)自英國(guó)的男性,從而更逼真地還原出原音。

獵豹?jiǎng)t是通過(guò)更多層級(jí)的標(biāo)注體系,來(lái)進(jìn)行語(yǔ)音特征單元的提取。目前可以從聲韻母層、音節(jié)層、詞層、韻律詞層、短語(yǔ)層和語(yǔ)句層等6個(gè)層級(jí),讓合成后的語(yǔ)音在上下文韻律信息及準(zhǔn)確度上更加完善,聽(tīng)起來(lái)也就更符合真人的發(fā)音習(xí)慣。

總而言之,好的TTS算法,正成為如今區(qū)分語(yǔ)音合成領(lǐng)域產(chǎn)業(yè)地位的核心。

訓(xùn)練成本之爭(zhēng):AI界的另一個(gè)方法,是讓機(jī)器用你的聲音開(kāi)口

TTS的另一個(gè)賽道,是如何讓機(jī)器低成本地學(xué)習(xí)用戶的聲音。

讓更多的明星,甚至普通人的聲音都可以在終端設(shè)備中蘇醒,這個(gè)技術(shù)能力具有廣泛的市場(chǎng)想象力。但是,采用明星的聲音,往往需要大量語(yǔ)料的錄入和拼接。

錄入時(shí)間過(guò)長(zhǎng)不說(shuō),還需要在專(zhuān)業(yè)指導(dǎo)下完成。合作的明星要錄制幾千句,時(shí)間跨度動(dòng)輒1-2個(gè)月,耗資不菲。

即便如此折騰,也難以覆蓋全部細(xì)分應(yīng)用領(lǐng)域。在某些銜接處,往往會(huì)出現(xiàn)機(jī)械拼湊的生澀感。不但阻礙了明星聲音進(jìn)入泛化設(shè)備場(chǎng)景,更讓普通人對(duì)錄入自己的聲音望而卻步。

所以如何降低訓(xùn)練成本,用更少的語(yǔ)料達(dá)成聲音學(xué)習(xí)和語(yǔ)音生成,是這條賽道的關(guān)鍵。

最近,百度就發(fā)布了自己在語(yǔ)音合成方面的最新成果,可以通過(guò)“語(yǔ)音克隆”模仿數(shù)千個(gè)不同的聲音,每個(gè)說(shuō)話者只需要不到一個(gè)半小時(shí)就能完成數(shù)據(jù)訓(xùn)練。

核心方法是講話人適配(speaker adaptation),使用數(shù)個(gè)語(yǔ)音克隆樣本,讓機(jī)器從幾秒長(zhǎng)度的短句中學(xué)習(xí)說(shuō)話者的聲音特點(diǎn),然后通過(guò)反向傳播的優(yōu)化方法對(duì)多講話人語(yǔ)音生成模型做精細(xì)調(diào)節(jié)(fine-tune)。講話人只需提供少量的語(yǔ)料,余下的語(yǔ)音復(fù)制所需的素材都可以通過(guò)克隆來(lái)完成。

獵豹移動(dòng)的獵戶星空語(yǔ)音OS,用戶花費(fèi)20分鐘錄制10段話,系統(tǒng)就能自動(dòng)用2個(gè)星期合成一個(gè)覆蓋常用領(lǐng)域的語(yǔ)音包,并且音色自然。

簡(jiǎn)單來(lái)說(shuō),是用深度學(xué)習(xí)TTS模型TACOTRON,將文本分析、聲學(xué)模型、音頻合成等模塊進(jìn)行大語(yǔ)料庫(kù)的打包訓(xùn)練,以這樣的語(yǔ)音庫(kù)作為基礎(chǔ)模型,就可以在10句話中提取出發(fā)音人的語(yǔ)音特征,然后通過(guò)聲碼器合成出音色相同的語(yǔ)音。

總結(jié)一下,目前TSS領(lǐng)域的現(xiàn)狀是,傳統(tǒng)的語(yǔ)料對(duì)數(shù)據(jù)的要求太大,往往需要消耗大量人力物力,短期內(nèi)根本無(wú)法被大規(guī)模復(fù)制。但個(gè)性化語(yǔ)音背后隱藏的,又是一個(gè)龐大的交互需求。

一旦音源采集成本能夠大大降低,普通人也可以輕松生成獨(dú)屬于自己的個(gè)性化語(yǔ)音包。試想一下,如果一個(gè)聊天機(jī)器人具有了真人的語(yǔ)氣、生動(dòng)的表達(dá),是不是能訓(xùn)練出一個(gè)很高仿的AI?它可以是一位好久不見(jiàn)的朋友、一個(gè)會(huì)講故事的媽媽?zhuān)蛘呤且晃患磳⑹湃サ挠H人最后的剪影。

這個(gè)技術(shù)的“處女地”一旦被撬動(dòng),很多智能語(yǔ)音軟硬件體驗(yàn)上的困擾都將迎刃而解。

因此,建立在數(shù)據(jù)與算法優(yōu)勢(shì)上的少語(yǔ)料分析能力,也成為T(mén)TS賽場(chǎng)上重要的彎道技巧,只把少數(shù)企業(yè)推向更廣闊的市場(chǎng)。

工程化與商業(yè)入口:TTS的產(chǎn)業(yè)地緣爭(zhēng)奪

說(shuō)了這么多不難看出,TTS是一項(xiàng)“可甜可鹽”的技術(shù)。

它看似存在感很低,卻讓許多站在金字塔頂端的高科技企業(yè)操碎了心;要用最前沿的技術(shù)矩陣才能攻克,最終還是要到真實(shí)瑣碎的人間煙火中千錘百煉。

而它的終極目標(biāo),還是通過(guò)智能設(shè)備與生活場(chǎng)景相聯(lián)接,建立服務(wù)市場(chǎng)。

所以一場(chǎng)圍繞TTS的爭(zhēng)奪戰(zhàn),不僅僅是技術(shù)競(jìng)速。最重要的競(jìng)爭(zhēng)指標(biāo),是企業(yè)的工程化完成能力與市場(chǎng)信賴(lài)度。

比如說(shuō),如果某些新技術(shù)只停留在實(shí)驗(yàn)室階段,放到真實(shí)的音箱、電視產(chǎn)品上根本不是那么回事兒,或者說(shuō)優(yōu)化程度很有限,不但合作伙伴要背鍋,“狼來(lái)了”聽(tīng)多了,消費(fèi)者的熱情也會(huì)被消耗殆盡。

目前百度和科大訊飛在國(guó)內(nèi)難解難分,微軟憑借具有號(hào)召力的技術(shù)表現(xiàn)力占得一席之地,谷歌則是遠(yuǎn)在天邊的“技術(shù)明燈”。但普通人能在哪里用到它們,還真是個(gè)謎。重技術(shù)突破而輕應(yīng)用、輕市場(chǎng),恐怕是當(dāng)前TTS升級(jí)階段的主要矛盾。

這或許也顯露出了TTS目前最急需的,不是“居廟堂之高”,反而應(yīng)該將技術(shù)突破盡快投擲于現(xiàn)實(shí),與用戶共舞,與產(chǎn)業(yè)磨合。

從大環(huán)境來(lái)看,TTS的應(yīng)用場(chǎng)景非常豐富。出行、購(gòu)物、娛樂(lè)、育兒、智能手機(jī)等等等等,都是能夠大顯身手的地方。用戶的耐心也還在培養(yǎng)期,體驗(yàn)不盡如人意,也只會(huì)被友善的調(diào)侃一下。

一些技術(shù)廠商之所以無(wú)法跑通這條康莊大道,一方面是產(chǎn)業(yè)下沉能力,習(xí)慣了在技術(shù)上九天攬?jiān)拢瑢?duì)工程化產(chǎn)品缺乏耐心細(xì)致的打磨;

另一方面是大眾認(rèn)知斷層,在消費(fèi)層面缺乏有力的品牌支持和心智保障,出現(xiàn)了“叫好不叫座”的局面。

TTS的應(yīng)用價(jià)值,決定了它是一個(gè)非常泛在的通用型技術(shù),但并不是所有AI企業(yè)都能憑借TTS在泛AI交互市場(chǎng)成功“吃雞”,它考驗(yàn)的是企業(yè)無(wú)短板的綜合能力。

目前看來(lái),想要擁有不尷尬的TTS,從實(shí)驗(yàn)室到產(chǎn)業(yè),還需要長(zhǎng)期的應(yīng)用突破和商業(yè)迭代,才能迎來(lái)真正的破曉。

文/腦極體

聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問(wèn)題的,請(qǐng)聯(lián)系我們。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)