Facebook工程師創(chuàng)建了比爾·蓋茨的AI語音克隆體
近年來,人工智能技術(shù)的發(fā)展已經(jīng)讓我們覺得有些可怕,而如何防止 AI 這把雙刃劍不被錯誤地使用,也引發(fā)了越來越激烈的探討。比如 2017 年底冒出的 DeepFakes 視頻換臉技術(shù),就讓許多名人遭遇了虛假色 情 片的困擾。 現(xiàn)在,F(xiàn)acebook 工程師們又創(chuàng)造出了一個能夠惟妙惟肖地模仿比爾·蓋茨的語音 AI 。
事實上,蓋茨只是 MelNet 可以模仿的多位人物中名氣最大的,其他“被克隆”的包括喬治·武井(George Takei)、珍·古德(Jane Goodall)、史蒂芬·霍金等人。
在下列剪輯中,你可以聽到一系列無害的句子,比如:
游泳時抽筋不是鬧著玩的( A cramp is no small danger on a swim )
同樣的話他說過三十遍( He said the same phrase thirty times )
摘下沒有葉子的鮮亮玫瑰( Pluck the bright rose without leaves )
2 加 7 小于 10( Two plus seven is less than ten )
上述每一段語音,都是由 Facebook 工程師設(shè)計創(chuàng)建的一個名為 MelNet 的機器學(xué)習(xí)系統(tǒng)生成的。 那么,用來訓(xùn)練這套 ML 系統(tǒng)的數(shù)據(jù),又是哪里來的呢?
據(jù)悉,MelNet 分析了 452 小時的 STEM-y 類 TED 演講數(shù)據(jù)集,以及其它有聲讀物。
顯然,對機器學(xué)習(xí)系統(tǒng)來說,模仿這些人物慷慨激昂的演講方式,確實是一個不小的挑戰(zhàn)。
近年來,語音克隆的質(zhì)量一直在穩(wěn)步提升。 比如近期播放的 Joe Rogan 復(fù)制品,就是一個極好的證明。
不過這一進展的大部分工作,可以追溯到 2016 年的 SampleRNN 和WaveNet 。
后者是由位于倫敦的人工智能實驗室 DeepMind 創(chuàng)建的機器學(xué)習(xí)(ML)文本轉(zhuǎn)語音(TTS)轉(zhuǎn)換程序,該實驗室同時為 Google Assistant 智能助理提供支持。
WaveNet 和 SampleRNN 之類的方案,就是 為 AU 系統(tǒng)提供大量的數(shù)據(jù),并用它來分析人生中的細(xì)微差別。
這些舊式 TTS 系統(tǒng)無法生成音頻,但可以重構(gòu) —— 將語音樣本切割成各種音頻元素,然后將之拼接到一起,來創(chuàng)建新的單詞。
不過當(dāng) WaveNet 等團隊利用音頻波形進行訓(xùn)練時,F(xiàn)acebook 的 MelNet 卻用上了信息更加密集的格式 —— 頻譜圖。
在一篇隨附的論文中,F(xiàn)acebook 研究人員指出, 雖然 WaveNet 輸出的音頻保真度更高,但 MelNet 在捕捉“高級結(jié)構(gòu)”方面更勝一籌。
MelNet 能夠模仿演講者聲音中包含的某種微妙的一致性,遺憾的是我們無法用文字來描述,但人耳聽起來確實更舒服。
Facebook 工程師稱, 這是因為頻譜圖中捕獲的數(shù)據(jù),較音頻波形中的數(shù)據(jù)更加緊湊。 這種密度使得算法能夠生成更加一致的語音,而不是波形記錄中被極端分散和磨練出來的細(xì)節(jié)。
當(dāng)然,MelNet 也有一些限制,最總要的是無法復(fù)制人聲在較長一段時間內(nèi)的變化,比如在文本段落上構(gòu)建出來的戲劇性張力。
有趣的是,這類似于我們在 AI 生成的文本 中見到的約束性,其只能實現(xiàn)表層、而非長期結(jié)構(gòu)上的一致性。
撇開這些瑕疵不談,MelNet 已經(jīng)足夠證明其強大的系統(tǒng)功能。它不僅可以生成逼真的人聲,還可以用于生成音樂(示例 1 2 )。不過想要商業(yè)應(yīng)用的話,還需要經(jīng)過長時間的雕琢。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-6.16立即報名>> 【在線會議】Solution Talks |Computex 2025關(guān)鍵趨勢深讀
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機器人及智能工廠展
-
7月31日免費預(yù)約>> OFweek 2025具身機器人動力電池技術(shù)應(yīng)用大會
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 9 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單
- 10 “搶灘”家用機器人領(lǐng)域,聯(lián)通、海爾、美的等紛紛入局