Facebook工程師創(chuàng)建了比爾·蓋茨的AI語(yǔ)音克隆體
近年來(lái),人工智能技術(shù)的發(fā)展已經(jīng)讓我們覺(jué)得有些可怕,而如何防止 AI 這把雙刃劍不被錯(cuò)誤地使用,也引發(fā)了越來(lái)越激烈的探討。比如 2017 年底冒出的 DeepFakes 視頻換臉技術(shù),就讓許多名人遭遇了虛假色 情 片的困擾。 現(xiàn)在,F(xiàn)acebook 工程師們又創(chuàng)造出了一個(gè)能夠惟妙惟肖地模仿比爾·蓋茨的語(yǔ)音 AI 。
事實(shí)上,蓋茨只是 MelNet 可以模仿的多位人物中名氣最大的,其他“被克隆”的包括喬治·武井(George Takei)、珍·古德(Jane Goodall)、史蒂芬·霍金等人。
在下列剪輯中,你可以聽(tīng)到一系列無(wú)害的句子,比如:
游泳時(shí)抽筋不是鬧著玩的( A cramp is no small danger on a swim )
同樣的話他說(shuō)過(guò)三十遍( He said the same phrase thirty times )
摘下沒(méi)有葉子的鮮亮玫瑰( Pluck the bright rose without leaves )
2 加 7 小于 10( Two plus seven is less than ten )
上述每一段語(yǔ)音,都是由 Facebook 工程師設(shè)計(jì)創(chuàng)建的一個(gè)名為 MelNet 的機(jī)器學(xué)習(xí)系統(tǒng)生成的。 那么,用來(lái)訓(xùn)練這套 ML 系統(tǒng)的數(shù)據(jù),又是哪里來(lái)的呢?
據(jù)悉,MelNet 分析了 452 小時(shí)的 STEM-y 類 TED 演講數(shù)據(jù)集,以及其它有聲讀物。
顯然,對(duì)機(jī)器學(xué)習(xí)系統(tǒng)來(lái)說(shuō),模仿這些人物慷慨激昂的演講方式,確實(shí)是一個(gè)不小的挑戰(zhàn)。
近年來(lái),語(yǔ)音克隆的質(zhì)量一直在穩(wěn)步提升。 比如近期播放的 Joe Rogan 復(fù)制品,就是一個(gè)極好的證明。
不過(guò)這一進(jìn)展的大部分工作,可以追溯到 2016 年的 SampleRNN 和WaveNet 。
后者是由位于倫敦的人工智能實(shí)驗(yàn)室 DeepMind 創(chuàng)建的機(jī)器學(xué)習(xí)(ML)文本轉(zhuǎn)語(yǔ)音(TTS)轉(zhuǎn)換程序,該實(shí)驗(yàn)室同時(shí)為 Google Assistant 智能助理提供支持。
WaveNet 和 SampleRNN 之類的方案,就是 為 AU 系統(tǒng)提供大量的數(shù)據(jù),并用它來(lái)分析人生中的細(xì)微差別。
這些舊式 TTS 系統(tǒng)無(wú)法生成音頻,但可以重構(gòu) —— 將語(yǔ)音樣本切割成各種音頻元素,然后將之拼接到一起,來(lái)創(chuàng)建新的單詞。
不過(guò)當(dāng) WaveNet 等團(tuán)隊(duì)利用音頻波形進(jìn)行訓(xùn)練時(shí),F(xiàn)acebook 的 MelNet 卻用上了信息更加密集的格式 —— 頻譜圖。
在一篇隨附的論文中,F(xiàn)acebook 研究人員指出, 雖然 WaveNet 輸出的音頻保真度更高,但 MelNet 在捕捉“高級(jí)結(jié)構(gòu)”方面更勝一籌。
MelNet 能夠模仿演講者聲音中包含的某種微妙的一致性,遺憾的是我們無(wú)法用文字來(lái)描述,但人耳聽(tīng)起來(lái)確實(shí)更舒服。
Facebook 工程師稱, 這是因?yàn)轭l譜圖中捕獲的數(shù)據(jù),較音頻波形中的數(shù)據(jù)更加緊湊。 這種密度使得算法能夠生成更加一致的語(yǔ)音,而不是波形記錄中被極端分散和磨練出來(lái)的細(xì)節(jié)。
當(dāng)然,MelNet 也有一些限制,最總要的是無(wú)法復(fù)制人聲在較長(zhǎng)一段時(shí)間內(nèi)的變化,比如在文本段落上構(gòu)建出來(lái)的戲劇性張力。
有趣的是,這類似于我們?cè)?AI 生成的文本 中見(jiàn)到的約束性,其只能實(shí)現(xiàn)表層、而非長(zhǎng)期結(jié)構(gòu)上的一致性。
撇開(kāi)這些瑕疵不談,MelNet 已經(jīng)足夠證明其強(qiáng)大的系統(tǒng)功能。它不僅可以生成逼真的人聲,還可以用于生成音樂(lè)(示例 1 2 )。不過(guò)想要商業(yè)應(yīng)用的話,還需要經(jīng)過(guò)長(zhǎng)時(shí)間的雕琢。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 6 2025年8月人工智能投融資觀察
- 7 8 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 9 Manus跑路,大廠掉線,只能靠DeepSeek了
- 10 地平線的野心:1000萬(wàn)套HSD上車