英偉達發(fā)布全新 AI 音頻模型 Fugatto
編譯/前方智能
英偉達近日推出了一款名為 Fugatto(全稱為 Foundational Generative Audio Transformer Opus 1)的 AI 音頻模型。這款模型不僅能通過文字提示生成音樂和音效,還能對現(xiàn)有音頻進行修改和轉(zhuǎn)換,創(chuàng)造出前所未有的聲音組合。
圖源:英偉達
據(jù)英偉達介紹,F(xiàn)ugatto 具備多項獨特功能,比如可以將鋼琴演奏的音樂轉(zhuǎn)換為人聲演唱,能夠調(diào)整語音的口音和情緒,甚至可以創(chuàng)造出"尖叫的薩克斯"或"犬吠般的小號聲"等超現(xiàn)實音效。該模型采用了創(chuàng)新的 ComposableART 技術(shù),能夠?qū)⒂柧氝^程中分別出現(xiàn)的音頻特征進行組合,從而產(chǎn)生全新的聲音效果。
在技術(shù)層面,研究團隊使用了來自全球多個開源數(shù)據(jù)集的約 2000 萬個音頻樣本進行訓練,形成了一個擁有 25 億參數(shù)的大規(guī)模模型。該項目由來自印度、巴西、中國、約旦和韓國等多個國家的研究人員共同開發(fā),這種多元化的團隊構(gòu)成也使得模型在處理多語言和多重口音方面表現(xiàn)出色。
英偉達應用深度學習研究副總裁 Bryan Catanzaro 表示,生成式 AI 技術(shù)將為音樂、游戲和普通創(chuàng)作者帶來全新的創(chuàng)作可能性。不過,考慮到生成式技術(shù)可能帶來的潛在風險,英偉達目前尚未計劃對外發(fā)布這項技術(shù)。
原文標題 : 英偉達發(fā)布全新 AI 音頻模型 Fugatto

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風翻身?