字節(jié)跳動這項研究火了：基于殘差UNet架構，一鍵分離伴奏和人聲

發(fā)布人：機器之心時間：2021-10-07 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

字節(jié)跳動的這項研究，可以完美將混合音頻分離成單個源任務。

音樂源分離 (MSS) 是將混合音頻分離成單個源的任務，例如人聲、鼓、伴奏等。MSS 是音樂信息檢索 (MIR) 的重要內容，因為它可用于多個下游 MIR 任務，包括旋律提取、音高估計、音樂轉錄、音樂混音等。MSS 也有可以直接應用的程序，例如卡拉 OK 和音樂混音。

基于深度神經網絡的方法已成功應用于音樂源分離。這些方法通常用于學習從混合聲譜（spectrogram）到一組源聲譜的映射，所有聲譜圖都只有幅度。但是，這種方法會受到一定的限制：

1）不正確的相位重構降低了性能；

2）將掩碼的幅度限制在 0 和 1 之間，而我們平時觀察到有 22% 的時頻 bin 的理想比率掩碼值超過 1；

3) 在深架構上的潛力尚未得到充分探索。

字節(jié)跳動的研究者提出了解決了上述問題的方案。這項研究在 Reddit 上引來眾多網友討論：

論文一作孔秋強本科和碩士都畢業(yè)于華南理工大學，于英國薩里大學獲得博士學位，主要研究領域包括機器學習、音頻信號處理等。此外，他還是 GiantMIDI-Piano（鋼琴轉譜）研究項目的牽頭人。

孔秋強于 2019 年加入字節(jié)跳動的 Speech, Audio and Music Intelligence 研究小組，主要負責音頻信號處理和聲音事件檢測等的研究。

該研究的貢獻包括以下：

首先，該研究通過估計復數(shù)理想比率掩碼 (cIRM，complex ideal ratio masks) 來估計相位，其中他們將 cIRM 的估計解耦為幅度和相位估計；

其次，該研究擴展了分離方法，以有效地允許掩碼的幅度大于 1；

最后，該研究提出了一個高達 143 層的殘差 UNet 架構。他們提出的系統(tǒng)在 MUDB18 數(shù)據(jù)集上實現(xiàn)了 SOTA MSS 結果，尤其是人聲（vocals）的 SDR（signal-to-distortion ratio，信號失真率）為 8.98 dB，優(yōu)于之前 7.24 dB 的最佳性能。

論文地址：https://arxiv.org/pdf/2109.05418.pdf

Github 地址：https://github.com/bytedance/music_source_separation

試玩地址：https://huggingface.co/spaces/akhaliq/Music_Source_Separation

方法介紹

與之前直接預測掩碼的實部和虛部不同，該研究建議將 MSS 的幅度和相位估計進行解耦，以便可以分別優(yōu)化它們的設計。研究者將要估計的復雜掩碼表示為。作為解決方案的一部分，系統(tǒng)輸出一個有界幅度掩碼，其值在 [0, 1] 之間。在實際應用中，它是通過 sigmoid 函數(shù)來實現(xiàn)的。此外，該系統(tǒng)還輸出另外兩個張量，。這里，分別是實部和虛部。

然后，估計 cIRM 的實部和虛部：

殘差 UNet

在本節(jié)中，該研究為 MSS 引入了具有數(shù)百層的深度殘差 UNet，其深度至少是之前 UNet 模型的 4 倍。首先該研究引入了一個包含 33 層的基準 UNet。這個 33 層的 UNet 由 6 個編碼器和 6 個****層組成。每個編碼器層由兩個卷積層和一個下采樣層組成。每個****層由一個上采樣轉置卷積層和兩個卷積層組成。最后，在****層之后添加了三個額外的卷積層，總共有 33 個卷積層。

接下來，該研究介紹了一個具有 143 層的殘差 UNet。在構建具有數(shù)百層的殘差 UNet 時，他們使用殘差編碼器塊 (REB) 和殘差****塊 (RDB) 來增加網絡深度。圖 3 顯示了殘差 UNet 架構，其中使用了 6 個 REB 和 6 個 RDB。每個 REB 由 4 個殘差卷積塊（RCB）組成，如圖 4（a）所示。每個 RCB 由兩個卷積層組成，卷積核大小為 3×3，如圖 4（c）所示。在 RCB 的輸入和輸出之間添加了一個快捷連接（shortcut connection）。在遵循預作用殘差網絡配置的卷積層之前，應用批量歸一化和具有 0.01 負斜率的 leaky ReLU 非線性函數(shù)。在每個 REB 之后應用 2 × 2 平均池化層以減小特征圖大小。每個 REB 由 8 個卷積層組成。

圖 3：帶有殘差塊的 MSS 系統(tǒng)， REB、RDB 和 RCB 的詳細信息見圖 4 。

**** (RDB) 中的塊與編碼器 (REB) 中的塊對稱。每個 RDB 由一個轉置（transposed）卷積層組成，其卷積核大小為 3 × 3，stride 為 2 × 2 ，用來對特征圖進行上采樣，然后是四個 RCB，如圖 4（b）所示。每個 RDB 由 9 個卷積層組成，包括 8 個卷積層和 1 個轉置卷積層。為了進一步提高殘差 UNet 的表示能力，該研究在 REB 和 RDB 之間引入了中間卷積塊 (ICB)，如圖 3 所示。該研究使用 4 個 ICB，其中每個 ICB 由 8 個卷積層組成。

圖 4：(a) 殘差編碼器塊 (REB)，(b) 殘差****塊 (RDB)，(3) 殘差卷積塊 (RCB)

實驗

該研究在 MUDB18 數(shù)據(jù)集上進行了實驗。MUDB18 數(shù)據(jù)集包括獨立的人聲、伴奏、貝斯、鼓和其他樂器。其訓練 / 驗證集分別包含 100/50 個完整立體聲音軌。此外，該研究還將訓練集進一步分解為 86 首訓練歌曲和 14 首用于開發(fā)和評估的歌曲。

與以往方法的比較

表 2 顯示了不同方法的比較。第一行顯示了 Open-Unmix 的性能，它由三個雙向長短期記憶層組成，實現(xiàn)了 6.32 dB 的人聲 SDR。第二行顯示，在時域中訓練的 Wave-U-Net 系統(tǒng)實現(xiàn)的 SDR 略低于其他時頻域系統(tǒng)。第三行之后顯示了 Demucs、Conv-TasNet、Spleeter 和 D3Net 的結果。

在比較的方法中，D3Net 分別實現(xiàn)了 7.24 dB 和 7.01 dB 的最佳人聲和鼓聲 SDR。Demucs 達到了 5.83 dB 的最佳低音 SDR，而 Spleeter 在之前的研究中達到了 4.55 dB 的其他最佳 SDR。

如表 2 的最后一行所示，ResUNetDecouple 系統(tǒng)在分離人聲、貝斯、其他和伴奏方面明顯優(yōu)于其他方法。

消融實驗

此外，該研究還展示了所提系統(tǒng)的性能。此外還將其與 [25] 中的 UNetPhase 系統(tǒng)進行了比較。

表 3 中，UNet、UNetDecouple 和 UNetDecouple+ 是 33 層 UNet 的變體，而 ResUNet、ResUNet Decouple、ResUNetDecoup+ 是 143 層殘差 UNet 的變體。UNet 和 ResUNet 是只有幅度掩碼的模型，即模型中不考慮相位。

首先，僅預測掩碼大小的 UNet 表現(xiàn)略遜于 UNetPhase。其次，實驗還比較了第 2-4 行或第 5-7 行內的變化趨勢。對于 UNet 和 ResUNet，幅度和相位的解耦提高了性能——使用 UNet 平均提高 0.35 dB，使用 ResUNet 平均提高 0.45 dB。「+」模型顯示使用 UNet 和 ResUNet 分別提高了 0.2 dB 和 0.196 dB。該結果表明，結合有界掩碼估計和直接幅度預測可以提高 MSS。當其他條件固定時，對于所有源儀器，ResUNet 始終優(yōu)于 UNet。該研究還展示了 MSS 中非常深的架構的有效性。ResUNet 相對于 UNet 的平均改進為 0.7 dB。