博客專欄

EEPW首頁 > 博客 > 字節(jié)跳動這項研究火了:基于殘差UNet架構 ,一鍵分離伴奏和人聲

字節(jié)跳動這項研究火了:基于殘差UNet架構 ,一鍵分離伴奏和人聲

發(fā)布人:機器之心 時間:2021-10-07 來源:工程師 發(fā)布文章

字節(jié)跳動的這項研究,可以完美將混合音頻分離成單個源任務。

音樂源分離 (MSS) 是將混合音頻分離成單個源的任務,例如人聲、鼓、伴奏等。MSS 是音樂信息檢索 (MIR) 的重要內容,因為它可用于多個下游 MIR 任務,包括旋律提取、音高估計、音樂轉錄 、音樂混音等。MSS 也有可以直接應用的程序,例如卡拉 OK 和音樂混音。

基于深度神經網絡的方法已成功應用于音樂源分離。這些方法通常用于學習從混合聲譜(spectrogram)到一組源聲譜的映射,所有聲譜圖都只有幅度。但是,這種方法會受到一定的限制:

1)不正確的相位重構降低了性能;

2)將掩碼的幅度限制在 0 和 1 之間,而我們平時觀察到有 22% 的時頻 bin 的理想比率掩碼值超過 1;

3) 在深架構上的潛力尚未得到充分探索。

字節(jié)跳動的研究者提出了解決了上述問題的方案。這項研究在 Reddit 上引來眾多網友討論:

1.png

論文一作孔秋強本科和碩士都畢業(yè)于華南理工大學,于英國薩里大學獲得博士學位,主要研究領域包括機器學習、音頻信號處理等。此外,他還是 GiantMIDI-Piano(鋼琴轉譜)研究項目的牽頭人。

孔秋強于 2019 年加入字節(jié)跳動的 Speech, Audio and Music Intelligence 研究小組,主要負責音頻信號處理和聲音事件檢測等的研究。

2.png

該研究的貢獻包括以下:

首先,該研究通過估計復數(shù)理想比率掩碼 (cIRM,complex ideal ratio masks) 來估計相位,其中他們將 cIRM 的估計解耦為幅度和相位估計; 

其次,該研究擴展了分離方法,以有效地允許掩碼的幅度大于 1;

最后,該研究提出了一個高達 143 層的殘差 UNet 架構 。他們提出的系統(tǒng)在 MUDB18 數(shù)據(jù)集上實現(xiàn)了 SOTA MSS 結果,尤其是人聲(vocals)的 SDR(signal-to-distortion ratio,信號失真率) 為 8.98 dB,優(yōu)于之前 7.24 dB 的最佳性能。

3.png

論文地址:https://arxiv.org/pdf/2109.05418.pdf

Github 地址:https://github.com/bytedance/music_source_separation

試玩地址:https://huggingface.co/spaces/akhaliq/Music_Source_Separation

方法介紹

與之前直接預測掩碼的實部和虛部不同,該研究建議將 MSS 的幅度和相位估計進行解耦,以便可以分別優(yōu)化它們的設計。研究者將要估計的復雜掩碼表示為4.png。作為解決方案的一部分,系統(tǒng)輸出一個有界幅度掩碼5.png,其值在 [0, 1] 之間。在實際應用中,它是通過 sigmoid 函數(shù)來實現(xiàn)的。此外,該系統(tǒng)還輸出另外兩個張量,6.png。這里,7.png分別是8.png實部和虛部。 

9.png

然后,估計 cIRM 的實部和虛部:

10.png

殘差 UNet

在本節(jié)中,該研究為 MSS 引入了具有數(shù)百層的深度殘差 UNet,其深度至少是之前 UNet 模型的 4 倍 。首先該研究引入了一個包含 33 層的基準 UNet。這個 33 層的 UNet 由 6 個編碼器和 6 個****層組成。每個編碼器層由兩個卷積層和一個下采樣層組成。每個****層由一個上采樣轉置卷積層和兩個卷積層組成。最后,在****層之后添加了三個額外的卷積層,總共有 33 個卷積層。

接下來,該研究介紹了一個具有 143 層的殘差 UNet。在構建具有數(shù)百層的殘差 UNet 時,他們使用殘差編碼器塊 (REB) 和殘差****塊 (RDB) 來增加網絡深度。圖 3 顯示了殘差 UNet 架構,其中使用了 6 個 REB 和 6 個 RDB。每個 REB 由 4 個殘差卷積塊(RCB)組成,如圖 4(a)所示。每個 RCB 由兩個卷積層組成,卷積核大小為 3×3,如圖 4(c)所示。在 RCB 的輸入和輸出之間添加了一個快捷連接(shortcut connection)。在遵循預作用殘差網絡配置的卷積層之前,應用批量歸一化和具有 0.01 負斜率的 leaky ReLU 非線性函數(shù)。在每個 REB 之后應用 2 × 2 平均池化層以減小特征圖大小。每個 REB 由 8 個卷積層組成。

11.png

圖 3:帶有殘差塊的 MSS 系統(tǒng), REB、RDB 和 RCB 的詳細信息見圖 4 。

**** (RDB) 中的塊與編碼器 (REB) 中的塊對稱。每個 RDB 由一個轉置(transposed)卷積層組成,其卷積核大小為 3 × 3,stride 為 2 × 2 ,用來對特征圖進行上采樣,然后是四個 RCB,如圖 4(b)所示。每個 RDB 由 9 個卷積層組成,包括 8 個卷積層和 1 個轉置卷積層。為了進一步提高殘差 UNet 的表示能力,該研究在 REB 和 RDB 之間引入了中間卷積塊 (ICB),如圖 3 所示。該研究使用 4 個 ICB,其中每個 ICB 由 8 個卷積層組成。

12.png

圖 4:(a) 殘差編碼器塊 (REB),(b) 殘差****塊 (RDB),(3) 殘差卷積塊 (RCB)

實驗

該研究在 MUDB18 數(shù)據(jù)集上進行了實驗。MUDB18 數(shù)據(jù)集包括獨立的人聲、伴奏、貝斯、鼓和其他樂器。其訓練 / 驗證集分別包含 100/50 個完整立體聲音軌。此外,該研究還將訓練集進一步分解為 86 首訓練歌曲和 14 首用于開發(fā)和評估的歌曲。

與以往方法的比較

表 2 顯示了不同方法的比較。第一行顯示了 Open-Unmix 的性能,它由三個雙向長短期記憶層組成,實現(xiàn)了 6.32 dB 的人聲 SDR。第二行顯示,在時域中訓練的 Wave-U-Net 系統(tǒng)實現(xiàn)的 SDR 略低于其他時頻域系統(tǒng)。第三行之后顯示了 Demucs、Conv-TasNet、Spleeter 和 D3Net 的結果。 

在比較的方法中,D3Net 分別實現(xiàn)了 7.24 dB 和 7.01 dB 的最佳人聲和鼓聲 SDR。Demucs 達到了 5.83 dB 的最佳低音 SDR,而 Spleeter 在之前的研究中達到了 4.55 dB 的其他最佳 SDR。

如表 2 的最后一行所示,ResUNetDecouple 系統(tǒng)在分離人聲、貝斯、其他和伴奏方面明顯優(yōu)于其他方法。

13.png

消融實驗

此外,該研究還展示了所提系統(tǒng)的性能。此外還將其與 [25] 中的 UNetPhase 系統(tǒng)進行了比較。

表 3 中,UNet、UNetDecouple 和 UNetDecouple+ 是 33 層 UNet 的變體,而 ResUNet、ResUNet Decouple、ResUNetDecoup+ 是 143 層殘差 UNet 的變體。UNet 和 ResUNet 是只有幅度掩碼的模型,即模型中不考慮相位。 

首先,僅預測掩碼大小的 UNet 表現(xiàn)略遜于 UNetPhase。其次,實驗還比較了第 2-4 行或第 5-7 行內的變化趨勢。對于 UNet 和 ResUNet,幅度和相位的解耦提高了性能——使用 UNet 平均提高 0.35 dB,使用 ResUNet 平均提高 0.45 dB。「+」模型顯示使用 UNet 和 ResUNet 分別提高了 0.2 dB 和 0.196 dB。該結果表明,結合有界掩碼估計和直接幅度預測可以提高 MSS。當其他條件固定時,對于所有源儀器,ResUNet 始終優(yōu)于 UNet。該研究還展示了 MSS 中非常深的架構的有效性。ResUNet 相對于 UNet 的平均改進為 0.7 dB。 

14.png

參考鏈接:

https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/

*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。

隔離器相關文章:隔離器原理
電機保護器相關文章:電機保護器原理


關鍵詞: AI

相關推薦

技術專區(qū)

關閉