英偉達(dá)發(fā)布全新 AI 音頻模型 Fugatto
編譯/前方智能
英偉達(dá)近日推出了一款名為 Fugatto(全稱為 Foundational Generative Audio Transformer Opus 1)的 AI 音頻模型。這款模型不僅能通過文字提示生成音樂和音效,還能對(duì)現(xiàn)有音頻進(jìn)行修改和轉(zhuǎn)換,創(chuàng)造出前所未有的聲音組合。
圖源:英偉達(dá)
據(jù)英偉達(dá)介紹,F(xiàn)ugatto 具備多項(xiàng)獨(dú)特功能,比如可以將鋼琴演奏的音樂轉(zhuǎn)換為人聲演唱,能夠調(diào)整語音的口音和情緒,甚至可以創(chuàng)造出"尖叫的薩克斯"或"犬吠般的小號(hào)聲"等超現(xiàn)實(shí)音效。該模型采用了創(chuàng)新的 ComposableART 技術(shù),能夠?qū)⒂?xùn)練過程中分別出現(xiàn)的音頻特征進(jìn)行組合,從而產(chǎn)生全新的聲音效果。
在技術(shù)層面,研究團(tuán)隊(duì)使用了來自全球多個(gè)開源數(shù)據(jù)集的約 2000 萬個(gè)音頻樣本進(jìn)行訓(xùn)練,形成了一個(gè)擁有 25 億參數(shù)的大規(guī)模模型。該項(xiàng)目由來自印度、巴西、中國(guó)、約旦和韓國(guó)等多個(gè)國(guó)家的研究人員共同開發(fā),這種多元化的團(tuán)隊(duì)構(gòu)成也使得模型在處理多語言和多重口音方面表現(xiàn)出色。
英偉達(dá)應(yīng)用深度學(xué)習(xí)研究副總裁 Bryan Catanzaro 表示,生成式 AI 技術(shù)將為音樂、游戲和普通創(chuàng)作者帶來全新的創(chuàng)作可能性。不過,考慮到生成式技術(shù)可能帶來的潛在風(fēng)險(xiǎn),英偉達(dá)目前尚未計(jì)劃對(duì)外發(fā)布這項(xiàng)技術(shù)。
原文標(biāo)題 : 英偉達(dá)發(fā)布全新 AI 音頻模型 Fugatto

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬億刺激”計(jì)劃來了
- 6 2025年8月人工智能投融資觀察
- 7 8 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 9 Manus跑路,大廠掉線,只能靠DeepSeek了
- 10 地平線的野心:1000萬套HSD上車