訂閱
糾錯
加入自媒體

首個基于LLM的開源音頻大模型!階躍星辰重磅開源Step-Audio-EditX:P聲音如此簡單!

作者:Chao Yan等

解讀:AI生成未來

亮點(diǎn)直擊

首個開源的 LLM 音頻編輯模型:Step-Audio-EditX,首個基于大語言模型(LLM)的開源音頻模型,不僅擅長表現(xiàn)力豐富和可迭代的音頻編輯(涵蓋情感、說話風(fēng)格和副語言特征),還具備強(qiáng)大的零樣本文本到語音(TTS)能力。

創(chuàng)新的大邊距數(shù)據(jù)驅(qū)動方法: 模型的核心創(chuàng)新在于僅使用大邊距(large-margin)的合成數(shù)據(jù)進(jìn)行訓(xùn)練,避免了對嵌入先驗(yàn)或輔助模塊的依賴。這種方法實(shí)現(xiàn)了對聲音屬性的解耦和迭代控制。

范式轉(zhuǎn)變: 該工作代表了從傳統(tǒng)的在表征層面進(jìn)行解耦的方法,轉(zhuǎn)向通過數(shù)據(jù)驅(qū)動實(shí)現(xiàn)控制的根本性轉(zhuǎn)變,證明了僅通過大邊距數(shù)據(jù)進(jìn)行后訓(xùn)練,就能實(shí)現(xiàn)情感和風(fēng)格的有效控制。

圖 1:Step-Audio-EditX 與閉源模型的比較。(a) Step-Audio- EditX 在零鏡頭克隆和情感控制方面的性能均優(yōu)于 Minimax 和豆包。(b) Step-Audio-EditX 的情感編輯僅在一次迭代后就顯著改善了所有三個模型的情感控制音頻輸出。隨著迭代次數(shù)的增加,它們的整體性能繼續(xù)提高圖 1:Step-Audio-EditX 與閉源模型的比較。(a) Step-Audio- EditX 在零鏡頭克隆和情感控制方面的性能均優(yōu)于 Minimax 和豆包。(b) Step-Audio-EditX 的情感編輯僅在一次迭代后就顯著改善了所有三個模型的情感控制音頻輸出。隨著迭代次數(shù)的增加,它們的整體性能繼續(xù)提高

解決的問題

零樣本 TTS 的控制性不足: 盡管零樣本 TTS 在生成高質(zhì)量語音方面取得了巨大進(jìn)展,但合成語音的情感、風(fēng)格、口音等屬性仍然直接源自參考音頻,導(dǎo)致無法對這些屬性進(jìn)行獨(dú)立和精細(xì)的控制。

語音屬性解耦困難: 現(xiàn)有的方法雖然嘗試通過在輸入文本前添加風(fēng)格指令來控制輸出,但在解耦語音屬性方面面臨挑戰(zhàn),克隆出的聲音往往難以有效遵循給定的風(fēng)格或情感指令。

數(shù)據(jù)收集成本高昂: 傳統(tǒng)方法需要大量高質(zhì)量、標(biāo)注精細(xì)的數(shù)據(jù)來訓(xùn)練表現(xiàn)力豐富的 TTS 系統(tǒng),數(shù)據(jù)收集和標(biāo)注的成本非常高。

提出的方案及應(yīng)用的技術(shù)

1 模型架構(gòu): Step-Audio-EditX 采用統(tǒng)一框架,包含三個核心組件:

雙碼本音頻分詞器 (Dual-codebook Audio Tokenizer): 將音頻轉(zhuǎn)換為離散的 token 序列。頻大語言模型 (Audio LLM): 一個 3B 參數(shù)的 LLM,處理文本和音頻 token,并生成目標(biāo)音頻的 token 序列。該模型由文本 LLM 初始化,并在文本與音頻數(shù)據(jù)的混合數(shù)據(jù)集上進(jìn)行訓(xùn)練。音頻解碼器 (Audio Decoder): 由 Flow Matching 模塊和 BigVGANv2 聲碼器組成,將 LLM 生成的 token 序列轉(zhuǎn)換回高質(zhì)量的音頻波形。

2 大邊距合成數(shù)據(jù): 提出了一種高效的數(shù)據(jù)構(gòu)建方法。通過零樣本語音克隆技術(shù),為同一個說話人生成在情感或風(fēng)格上有顯著差異(即“大邊距”)但語言內(nèi)容相同的音頻對。這種對比鮮明的樣本對能讓模型在訓(xùn)練中專注于學(xué)習(xí)情感和風(fēng)格本身的變化。

3 兩階段后訓(xùn)練策略:

監(jiān)督微調(diào) (SFT): 使用構(gòu)建的大邊距數(shù)據(jù)對模型進(jìn)行微調(diào),使其具備零樣本 TTS 和多樣化的音頻編輯能力。強(qiáng)化學(xué)習(xí) (RL): 采用 PPO 算法,結(jié)合人類標(biāo)注和 LLM-as-a-Judge 生成的偏好數(shù)據(jù),進(jìn)一步提升模型在零樣本 TTS 上的穩(wěn)定性以及在處理高難度編輯任務(wù)(如從快樂提示音生成悲傷語音)時的表現(xiàn)力。

達(dá)到的效果

超越閉源模型: 在情感編輯和細(xì)粒度控制任務(wù)上,Step-Audio-EditX 的性能優(yōu)于 MiniMax-2.6-hd 和 Doubao-Seed-TTS-2.0 等先進(jìn)的閉源模型。迭代編輯的有效性: 模型的編輯能力可以通過迭代來增強(qiáng)。實(shí)驗(yàn)表明,經(jīng)過一輪編輯后,音頻的情感和風(fēng)格準(zhǔn)確率就得到顯著提升,后續(xù)迭代可以進(jìn)一步優(yōu)化效果。強(qiáng)大的泛化能力: Step-Audio-EditX 不僅能編輯自身生成的音頻,還能有效編輯來自其他閉源 TTS 系統(tǒng)(如 GPT-4o-mini-TTS, ElevenLabs-v2 等)生成的音頻,表現(xiàn)出強(qiáng)大的泛化能力。多功能擴(kuò)展性: 該方法可以輕松擴(kuò)展到其他編輯任務(wù),如語速調(diào)節(jié)、語音降噪和靜音裁剪,展示了其框架的靈活性和廣泛的應(yīng)用前景。

架構(gòu)

概述

之前的工作 Step-Audio中,引入了一個 Audio-Edit合成模型,用于生成具有細(xì)致情感表達(dá)和多樣化說話風(fēng)格的數(shù)據(jù)。在本報告中,保留了先前的模型以及相同的音頻分詞器。關(guān)鍵的修改包括擴(kuò)展了情感和說話風(fēng)格的范圍,增加了零樣本 TTS 和副語言編輯功能,并將模型參數(shù)從 130B 減少到 3B。利用大邊距合成數(shù)據(jù),3B 模型展示了比先前版本更優(yōu)越、更穩(wěn)定的性能。

本系統(tǒng)包含三個主要組件:(1)一個雙碼本音頻分詞器,它將參考或輸入音頻轉(zhuǎn)換為離散的 token;(2)一個音頻 LLM,它生成雙碼本 token 序列;以及(3)一個音頻解碼器,它使用流匹配(flow matching)方法將音頻 LLM 預(yù)測的雙碼本 token 序列轉(zhuǎn)換回音頻波形。這種集成架構(gòu)使 Step-Audio-EditX 能夠在統(tǒng)一的框架內(nèi)執(zhí)行零樣本 TTS 和多樣化的編輯任務(wù)。因此,它可以直接利用為文本 LLM 開發(fā)的豐富的后訓(xùn)練技術(shù)生態(tài)系統(tǒng)。

圖 2:Step-Audio-EditX 架構(gòu)概覽圖 2:Step-Audio-EditX 架構(gòu)概覽

音頻分詞器

通過保留先前 Step-Audio 模型中的雙碼本分詞框架來研究 LLM 在使用大邊距數(shù)據(jù)進(jìn)行后訓(xùn)練的效果。該框架以 2:3 的交錯比例使用并行的語言學(xué)(16.7 Hz, 1024-codebook)和語義學(xué)(25 Hz, 4096-codebook)分詞器;谝幌盗邢掠我纛l分詞器重建實(shí)驗(yàn),我們觀察到雙碼本分詞器保留了大量的情感、韻律和其他非語言信息,這表明其解耦效果并非最佳。這一缺點(diǎn)使其特別適合用于驗(yàn)證我們的 LLM 后訓(xùn)練策略和所提出的大邊距數(shù)據(jù)驅(qū)動方法的有效性。

音頻 LLM

音頻 LLM 使用與先前 Audio-Edit 模型相同的架構(gòu),僅在參數(shù)規(guī)模上有所不同,減小為 3B。為了利用預(yù)訓(xùn)練文本 LLM 強(qiáng)大的語言能力,這個 3B 模型首先由一個基于文本的 LLM 初始化,然后在一個文本數(shù)據(jù)與音頻雙碼本 token 的 1:1 混合數(shù)據(jù)集上進(jìn)行訓(xùn)練。音頻 LLM 以聊天格式處理文本 token 及其對應(yīng)的音頻雙碼本 token,隨后生成雙碼本 token 作為唯一輸出。

音頻解碼器

音頻解碼器由一個流匹配(Flow Matching)模塊和一個 BigVGANv2聲碼器組成。給定輸出的音頻 token、參考音頻和說話人嵌入作為條件,流匹配模塊生成梅爾頻譜圖,而 BigVGANv2 聲碼器則進(jìn)一步將梅爾頻譜圖轉(zhuǎn)換為波形。對于流匹配模塊,我們采用擴(kuò)散變換器(DiT)作為其骨干網(wǎng)絡(luò),并在 20 萬小時的高質(zhì)量語音數(shù)據(jù)上進(jìn)行訓(xùn)練。這一增強(qiáng)顯著提升了其梅爾頻譜圖的重建能力,從而在發(fā)音準(zhǔn)確性和音色相似度方面都取得了實(shí)質(zhì)性的提升。

數(shù)據(jù)

與先前關(guān)于 StepAudio 預(yù)訓(xùn)練數(shù)據(jù)集和方法論的工作保持一致,本報告聚焦于后訓(xùn)練數(shù)據(jù)集及其相應(yīng)的方法。

SFT 數(shù)據(jù)

采用 SFT(監(jiān)督微調(diào))來使 Step-Audio-EditX 模型能夠執(zhí)行零樣本 TTS 和多樣化的音頻編輯任務(wù)。SFT 數(shù)據(jù)可分為幾個部分:零樣本 TTS、情感編輯、說話風(fēng)格編輯和副語言編輯。值得注意的是,大邊距數(shù)據(jù)集主要針對編輯任務(wù),特別是在情感和說話風(fēng)格方面。

零樣本文本到語音

我們使用一個高質(zhì)量、經(jīng)過專業(yè)標(biāo)注的內(nèi)部數(shù)據(jù)集進(jìn)行零樣本 TTS 訓(xùn)練,該數(shù)據(jù)集主要包含中文和英文。此外,我們還使用了少量的粵語和四川話數(shù)據(jù)來引導(dǎo)模型的方言能力。為確保合成語音具有多樣化且高度表現(xiàn)力的風(fēng)格和情感,并具備強(qiáng)大的零樣本性能,該數(shù)據(jù)集捕捉了單個說話人內(nèi)部以及廣泛說話人群體之間的聲音變化,總共包含約 60,000 個獨(dú)特的個體。

情感和說話風(fēng)格編輯

由于在定義類別特征和收集高質(zhì)量數(shù)據(jù)方面都存在固有困難,情感和說話風(fēng)格對表現(xiàn)力豐富的文本到語音系統(tǒng)構(gòu)成了重大挑戰(zhàn)。我們提出了一種直接且高效的大邊距合成數(shù)據(jù)方法,該方法可以在同一說話人的不同情感和說話風(fēng)格之間執(zhí)行零樣本語音克隆,同時確保對比樣本對之間有足夠大的差異。每個情感或說話風(fēng)格只需要一個提示音頻片段,從而無需進(jìn)行昂貴的數(shù)據(jù)收集。此外,該方法巧妙地將復(fù)雜的情感和風(fēng)格描述轉(zhuǎn)換為基于比較對的數(shù)據(jù)構(gòu)建格式。接下來,我們介紹所提出的方法:

配音演員錄制。 配音演員錄制了富有表現(xiàn)力的情感和說話風(fēng)格。對于每位演員,每種情感和風(fēng)格的組合都錄制了一個約 10 秒的音頻片段。

零樣本克隆。 對于每種情感和說話風(fēng)格,通過從同一說話人中選擇相應(yīng)的情感音頻片段和中性音頻片段作為提示音頻,并使用描述目標(biāo)屬性的文本指令,通過 StepTTS 語音克隆接口處理它們,構(gòu)建一個三元組 。

邊距評分。 為了評估生成的三元組,我們使用一個小型的人工標(biāo)注數(shù)據(jù)集開發(fā)了一個評分模型。該模型以 1-10 分的等級評估音頻對,更高的邊距分?jǐn)?shù)對應(yīng)于更理想的結(jié)果。

邊距選擇。 樣本是基于一個邊距分?jǐn)?shù)閾值來選擇的。這個閾值為不同的情感和風(fēng)格進(jìn)行了調(diào)整,通用下限設(shè)定為 6 分。

值得注意的是,每個三元組中的音頻片段都是使用相同的情感或風(fēng)格文本提示生成的,這鼓勵模型在 SFT 訓(xùn)練過程中僅關(guān)注情感和風(fēng)格本身的變化。

副語言編輯

副語言線索,如呼吸、笑聲和填充停頓(例如,“uhm”),對于增強(qiáng)合成語音的自然度和表現(xiàn)力至關(guān)重要。我們通過采用一種“半合成”策略實(shí)現(xiàn)了副語言編輯能力,該策略利用了 NVSpeech 數(shù)據(jù)集。這是一個高度表現(xiàn)力的語音語料庫,其對多種副語言類型的豐富標(biāo)注使得為模型訓(xùn)練構(gòu)建比較四元組成為可能。這個四元組的構(gòu)建方式與三元組不同,它使用 NVSpeech 的原始音頻和轉(zhuǎn)錄作為目標(biāo)輸出,而使用移除副語言標(biāo)簽后的原始轉(zhuǎn)錄合成的 StepTTS 語音克隆音頻作為輸入。

由于副語言編輯是在時域上執(zhí)行的編輯任務(wù),并且表現(xiàn)出顯著的內(nèi)在邊距差異,因此不需要使用邊距評分模型進(jìn)行數(shù)據(jù)篩選。一小部分四元組數(shù)據(jù)足以有效激發(fā)模型的副語言編輯能力。

強(qiáng)化學(xué)習(xí)數(shù)據(jù)

為了使我們的模型與人類偏好對齊,我們使用兩種不同的方法構(gòu)建了兩類偏好數(shù)據(jù)集:一類基于人類標(biāo)注,另一類采用 LLM-as-a-Judge 的方法。

人類標(biāo)注。 首先從用戶那里收集了真實(shí)世界的提示音頻和相應(yīng)的文本提示,并使用 SFT 模型生成了 20 個候選響應(yīng)。然后,我們讓標(biāo)注員根據(jù)正確性、韻律和自然度等標(biāo)準(zhǔn),在 5 分制上對這 20 個響應(yīng)中的每一個進(jìn)行評分,從而構(gòu)建了“選擇/拒絕”對。只有得分差距大于 3 的配對才被選中。

LLM-as-a-Judge。 由一個理解模型對情感和說話風(fēng)格編輯的模型響應(yīng)進(jìn)行 1-10 分的評分。然后根據(jù)這些分?jǐn)?shù)生成偏好對,最終數(shù)據(jù)集中只保留分?jǐn)?shù)差距大于 8 分的配對。

這些被選中的大邊距配對將用于訓(xùn)練獎勵模型和 PPO。

訓(xùn)練

后訓(xùn)練過程將模型的輸出與零樣本 TTS、各種編輯任務(wù)以及人類偏好對齊。這一對齊通過一個兩階段方法完成:首先是 SFT,然后是近端策略優(yōu)化(PPO)。

監(jiān)督微調(diào)

SFT 階段通過在聊天格式中使用不同的系統(tǒng)提示,增強(qiáng)了模型的零樣本文本到語音合成和編輯能力。在零樣本 TTS 任務(wù)中,提示波形被編碼為雙碼本 token,隨后被反分詞為字符串格式,并整合到系統(tǒng)提示的說話人信息中。待合成的文本作為用戶提示,以聊天形式輸入,生成的雙碼本 token 則作為系統(tǒng)的響應(yīng)返回。對于編輯任務(wù),所有操作都在一個統(tǒng)一的系統(tǒng)提示下定義。用戶提示包括原始音頻和描述編輯操作的指令,系統(tǒng)響應(yīng)則提供編輯后的音頻 token。模型使用從 1 × 10 到 1 × 10 的學(xué)習(xí)率進(jìn)行了一個 epoch 的微調(diào)。

強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)進(jìn)一步增強(qiáng)了模型在零樣本 TTS 中的穩(wěn)定性,以及在執(zhí)行編輯指令時的能力和表現(xiàn)力。當(dāng)源提示波形與目標(biāo)編輯輸出在情感和風(fēng)格特征上存在顯著差異時,例如從一個快樂的提示生成悲傷的語音,或者將大聲說話轉(zhuǎn)換為耳語時,這些增強(qiáng)效果尤其明顯。這種強(qiáng)化學(xué)習(xí)方法為解決這些挑戰(zhàn)提供了一個新穎的視角,它將焦點(diǎn)從實(shí)現(xiàn)理想的語音表征解耦,轉(zhuǎn)移到改進(jìn)大邊距配對的構(gòu)建和獎勵模型評估的有效性上。

獎勵模型訓(xùn)練。 獎勵模型從一個 3B 參數(shù)的 SFT 模型初始化,并使用人類標(biāo)注和 LLM-as-a-Judge 生成的大邊距數(shù)據(jù)進(jìn)行組合訓(xùn)練,采用 Bradley-Terry 損失進(jìn)行優(yōu)化。該模型是一個直接在大型邊距雙碼本 token 對上訓(xùn)練的 token 級獎勵模型。這種方法避免了在獎勵計算過程中需要使用音頻解碼器將 token 轉(zhuǎn)換回波形的需要。模型微調(diào)一個 epoch,學(xué)習(xí)率采用余弦衰減策略,初始值為 2 × 10,下限設(shè)為 1 × 10。

PPO 訓(xùn)練。 在獲得獎勵模型后,我們采用 PPO 算法進(jìn)行進(jìn)一步訓(xùn)練,使用與獎勵模型訓(xùn)練中相同的提示種子,但只選擇 SFT 模型最具挑戰(zhàn)性的提示。在 PPO 訓(xùn)練階段,評論家(critic)模型比演員(actor)模型提前預(yù)熱 80 步。優(yōu)化器使用 1 × 10 的初始學(xué)習(xí)率,并遵循余弦衰減計劃,下限為 2 × 10。PPO 的裁剪閾值 ε = 0.2,KL 散度懲罰系數(shù) β = 0.05。

評估

準(zhǔn)確全面地評估一個模型在合成情感、風(fēng)格和副語言語音方面的性能,是一項巨大的挑戰(zhàn)。為了解決這個問題,我們首先在 5.1 節(jié)中介紹一個全面且可復(fù)現(xiàn)的基準(zhǔn)測試的構(gòu)建。然后,我們在 5.2 節(jié)中利用這個基準(zhǔn)來展示我們的 Step-Audio-EditX 模型的優(yōu)勢。

評估基準(zhǔn)

引入Step-Audio-Edit-Test,這是一個利用 LLM-as-a-judge 模型來評估模型在情感、說話風(fēng)格和副語言方面性能的基準(zhǔn)。所有評估音頻都通過零樣本語音克隆生成,并隨后使用 Gemini-2.5-Pro¹ 模型進(jìn)行評分。

說話人選擇。 用于零樣本克隆的說話人集合包括八位說話人(中文和英文各 2 男 2 女)。中文說話人來自 Wenet-Speech4TTS語料庫,而英文說話人則分別來自開源的 GLOBE-V2和 Libri-Light數(shù)據(jù)集。

情感。 情感測試集涵蓋五個類別:快樂、憤怒、悲傷、恐懼和驚訝。每個類別包含 50 個中文和 50 個英文提示,每個提示的文本內(nèi)容都設(shè)計為與其對應(yīng)的目標(biāo)情感一致。

說話風(fēng)格。 測試集包括七種說話風(fēng)格:童聲、年邁、夸張、吟誦、熱情、嬌媚和耳語。每種風(fēng)格包含 50 個中文和 50 個英文提示,內(nèi)容與其目標(biāo)風(fēng)格相匹配。

副語言。 副語言測試集包括每個說話人的十個副語言標(biāo)簽:呼吸、笑聲、驚訝-哦、確認(rèn)-嗯、沉吟、驚訝-啊、驚訝-哇、嘆氣、疑問-誒和不滿-哼。每個標(biāo)簽包含 50 個相關(guān)的 LLM 生成的中文樣本和 50 個英文樣本。

情感和說話風(fēng)格評估。 為了評估情感和說話風(fēng)格,我們在提示中為 Gemini-2.5-Pro 模型提供了預(yù)定義的類別集(5 種情感和 7 種風(fēng)格),并指示它對音頻進(jìn)行分類。每個類別的最終準(zhǔn)確率是根據(jù)所有說話人的平均值計算得出的。

副語言風(fēng)格評估。 為了評估副語言編輯的性能,我們?yōu)?Gemini-2.5-Pro 模型設(shè)計了一個專門的評估提示,采用嚴(yán)格的 1-3 分評分標(biāo)準(zhǔn)(3 = 完美,2 = 有缺陷,1 = 失敗)。該提示引導(dǎo)模型主動檢查音頻中的特定評估點(diǎn)——例如,像 [笑聲] 或 [嘆氣] 這樣的標(biāo)注是否被準(zhǔn)確插入。特別強(qiáng)調(diào)了最常見的失敗模式——“遺漏”,即音頻可能聽起來流暢,但缺少指令中指定的必要副語言元素。最后,模型在副語言編輯任務(wù)中的性能通過計算 Gemini-2.5-Pro 模型生成的總體平均分來評估。

評估結(jié)果

本節(jié)詳細(xì)介紹了我們的模型在 Step-Audio-Edit-Test 基準(zhǔn)測試上的表現(xiàn),并展示了其在編輯由各種閉源 TTS 系統(tǒng)生成的音頻時,所具備的卓越編輯準(zhǔn)確性和可擴(kuò)展性。

情感和說話風(fēng)格編輯結(jié)果

該評估采用迭代方法進(jìn)行音頻的情感和說話風(fēng)格編輯。該過程以零樣本克隆作為初始音頻 iteration,然后進(jìn)行 N 輪迭代編輯。第 N 輪的輸出表示為 iterationN。在此特定設(shè)置中,N 配置為 3。對于大多數(shù)用例,兩次編輯迭代足以滿足期望的標(biāo)準(zhǔn)。

迭代編輯結(jié)果。 如表 1 所示,在對 Iter 音頻進(jìn)行初次編輯后,情感和說話風(fēng)格的準(zhǔn)確性都有了顯著提升。此外,隨著編輯迭代次數(shù)的增加,情感和說話風(fēng)格的準(zhǔn)確性都得到了進(jìn)一步增強(qiáng)。

提示音頻消融研究。 由于后續(xù)迭代(從 Iter 開始)的性能提升歸因于雙碼本和提示音頻的共同作用。為了分離提示音頻的影響,我們進(jìn)行了一項消融研究,其中提示音頻在所有迭代中保持不變。如表 1 的“提示固定(Prompt-Fixed)”部分所示,隨著編輯迭代次數(shù)的增加,情感和說話風(fēng)格的準(zhǔn)確性持續(xù)提高。這清楚地證明了我們大邊距方法的有效性。

在閉源模型上的泛化能力。 Step-Audio-EditX 模型的情感和說話風(fēng)格泛化能力在一系列領(lǐng)先的閉源 TTS 系統(tǒng)上進(jìn)行了評估,包括 GPT-4o-mini-TTS¹、Eleven_Multilingual_v2²、Doubao-Seed-TTS-2.0³ 和 MiniMax-speech-2.6-hd。對于每個 TTS 系統(tǒng),選擇了一個男性和一個女性的內(nèi)置聲音,用于直接合成源文本的語音。隨后,對生成的音頻輸出應(yīng)用了三次迭代編輯。如表 2 所示,這些閉源系統(tǒng)的內(nèi)置聲音具備相當(dāng)強(qiáng)的上下文能力,使它們能夠部分傳達(dá)文本中的情感。在使用 Step-Audio-EditX 進(jìn)行單次編輯后,所有語音模型的情感和風(fēng)格準(zhǔn)確性都表現(xiàn)出顯著改善。在接下來的兩次迭代中觀察到進(jìn)一步的增強(qiáng),有力地證明了我們模型的強(qiáng)大泛化能力。

對閉源模型的情感控制。 由于閉源系統(tǒng)在情感和說話風(fēng)格控制方面的可用性有限,這里對 Doubao-Seed-TTS-2.0 和 MiniMax-speech-2.6-hd 的比較評估,這兩者因其在零樣本克隆和情感控制方面的能力而被選中。為了滿足閉源模型的最小音頻長度限制并確保公平評估,Step-Audio-Edit-Test 中所有說話人的提示音頻都延長了時長。這些擴(kuò)展后的音頻被用于零樣本克隆,隨后進(jìn)行兩次情感編輯迭代。此外,克隆的聲音被用來通過每個閉源模型的原生情感控制功能生成情感語音。這個原生情感控制的輸出隨后又用我們的模型進(jìn)行了一輪編輯。從表 3 中可以觀察到:

與另外兩個模型相比,我們的 Step-Audio-EditX 在其零樣本克隆能力中表現(xiàn)出更高的情感準(zhǔn)確性。所有音頻樣本的情感準(zhǔn)確性在僅僅一次編輯迭代后就得到了顯著提高。       對零樣本克隆音頻應(yīng)用一次情感編輯迭代的效果,優(yōu)于閉源模型原生情感控制功能所產(chǎn)生的結(jié)果。副語言結(jié)果

副語言編輯可以被認(rèn)為是一種時域操作。使用 Step-Audio-EditX 評估了單次編輯迭代的效果,并評估了其在其他閉源模型上的泛化能力。

副語言編輯結(jié)果。 如表 4 所示,通過在單次編輯迭代中添加副語言標(biāo)簽,可以獲得顯著的性能提升。

在閉源模型上的泛化能力。 泛化評估與前述評估完全相同。對于每個閉源模型,使用一個女性和一個男性的內(nèi)置聲音,從移除了副語言標(biāo)簽的文本中合成語音。然后對生成的音頻進(jìn)行單次編輯迭代。此外,為了進(jìn)行比較,我們通過將副語言標(biāo)簽替換為擬聲詞(例如,“[笑聲]”→“哈哈”)來合成額外的音頻樣本。在使用 Step-Audio-EditX 進(jìn)行一次副語言編輯迭代后,副語言再現(xiàn)的性能與閉源模型在直接合成本地副語言內(nèi)容時達(dá)到的水平相當(dāng)。

跨情感、說話風(fēng)格和副語言編輯任務(wù)的評估結(jié)果證實(shí),本文簡單而強(qiáng)大的方法——大邊距學(xué)習(xí)結(jié)合強(qiáng)化學(xué)習(xí)增強(qiáng)——能夠提供高準(zhǔn)確性和強(qiáng)大的泛化能力。這種方法論為推進(jìn)研究和實(shí)現(xiàn)實(shí)際應(yīng)用都展示了相當(dāng)大的前景。

擴(kuò)展

這種大邊距學(xué)習(xí)方法可以直接擴(kuò)展到各種下游應(yīng)用。通過在配對的數(shù)據(jù)樣本之間強(qiáng)制一個足夠大的邊距,模型可以通過 SFT 快速獲得目標(biāo)編輯能力。然后,可以無縫集成強(qiáng)化學(xué)習(xí),以在具有挑戰(zhàn)性的情況下進(jìn)一步提升性能。本節(jié)詳細(xì)介紹兩個實(shí)際的擴(kuò)展:(1)用于語速控制的語速編輯,以及(2)降噪和靜音裁剪。

語速編輯 (Speed Editing)

語速編輯解決了在不同說話人和場景下調(diào)節(jié)語速的需求。這是通過構(gòu)建  (文本, 源音頻, 加速/減速音頻) 三元組來實(shí)現(xiàn)的,其中針對給定說話人的速度修改版本是通過使用 SoX-toolkit進(jìn)行受控的速度擾動生成的。由于語速變化直接導(dǎo)致 token 序列長度的巨大差異,因此即使僅靠 SFT 也足以實(shí)現(xiàn)有效的語速編輯。

降噪和靜音裁剪 (Denoising and Silence Trimming)

提示音頻中的背景噪音和靜音片段會極大地影響零樣本語音克隆的性能。模型傾向于將這些聲學(xué)特征解釋為說話人特征的一部分,并隨后在合成音頻中復(fù)現(xiàn)它們。雖然這種模仿在某些用例中是可取的,但在其他情況下則不然。為了解決這個問題,我們采用了一種生成式方法,集成了降噪和靜音裁剪功能,這使得能夠?qū)μ崾疽纛l和合成音頻進(jìn)行定向編輯。

降噪 (Denoising) 。 用于降噪的三元組被構(gòu)建為  (文本, 帶噪音頻, 源音頻),其中 audiosource 作為真值參考,而 audioaugment 是通過加性噪聲和混響模擬生成的。

靜音裁剪 (Silence Trimming) 。 三元組被定義為  (文本, 源音頻, 裁剪后音頻),其中  對應(yīng)包含靜音片段的源音頻,而  指的是根據(jù) Silero-VAD 產(chǎn)生的時間戳,通過提取和拼接語音片段生成的處理后版本。

結(jié)論

Step-Audio-EditX,這是一個基于大語言模型的音頻模型,它通過大邊距數(shù)據(jù)進(jìn)行訓(xùn)練,并通過強(qiáng)化學(xué)習(xí)進(jìn)行增強(qiáng)。該模型支持零樣本 TTS、情感和說話風(fēng)格的迭代編輯,以及副語言編輯。本文發(fā)現(xiàn),LLM 的能力和對大邊距數(shù)據(jù)的使用——這在以前的研究中常常被忽視——使得模型能夠克服音頻表征的局限性。此外,所提出的框架可以輕松擴(kuò)展到各種任務(wù),包括方言編輯、口音編輯、聲音編輯和模仿。最后,需要指出的是,我們的音頻編輯過程并非傳統(tǒng)意義上嚴(yán)格的“編輯”。相反,它起到一種條件性重新生成或遷移的形式。對于需要部分修改同時保留其余內(nèi)容不變的任務(wù),本方法提供了一種直接而有效的基于掩碼的編輯方法,通過重構(gòu)配對數(shù)據(jù)來確保只有編輯過的 token 的特定部分與原始序列不同。

參考文獻(xiàn)

[1] Step-Audio-EditX Technical Report

       原文標(biāo)題 : 首個基于LLM的開源音頻大模型!階躍星辰重磅開源Step-Audio-EditX:P聲音如此簡單!

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號