MIT像素級聲源定位系統PixelPlayer：無監督地分離視頻中目標聲源

摘要：相比單模態信息，多模態信息之間的關聯性能帶來很多有價值的額外信息。在本文中，MIT
的研究員提出了
PixelPlayer，通過在圖像和聲音的自然同時性提取監督信息，以無監督的方式實現了對視頻的像素級

相比單模態信息，多模態信息之間的關聯性能帶來很多有價值的額外信息。在本文中，MIT
的研究員提出了
PixelPlayer，通過在圖像和聲音的自然同時性提取監督信息，以無監督的方式實現了對視頻的像素級聲源定位。該系統有很大的潛在應用價值，例如促進聲音識別，以及特定目標的音量調整、聲音移除等。

這個世界上存在視覺和聽覺信號的豐富資源。本文提出的視覺和聽覺系統可以識別目標、分割目標覆蓋的圖像區域，以及分離目標產生的聲音。雖然聽覺場景分析
[1] 在環境聲音識別 [2,3] 聲源分離 [4,5,6,7,8,9]
已被廣泛研究過，但實際上，圖像和聲音之間的自然同時性可以提供豐富的用於定位圖像中的聲音的監督信息
[10,11,12]。訓練系統從圖像或聲音中識別目標通常需要大量的監督信息。然而在本文中，研究者利用聲音-圖像的聯合學習來識別圖像中生成聲音的目標，並且不需要任何人工監督
[13,14,15]。

MIT
的研究表明：通過結合聲音和圖像信息，機器學習系統能以無監督的方式從圖像或聲音中識別目標、定位圖像中的目標，以及分離目標產生的聲音。該系統被稱為
PixelPlayer。給定一個輸入視頻，PixelPlayer
可以聯合地將配音分離為目標組件以及在圖像幀上定位目標組件。 PixelPlayer 允許在視頻的每個像素上定位聲源。

研究人員利用了圖像和聲音的自然同時性來學習圖像聲源定位模型。 PixelPlayer 以聲音信號為輸入，並預測和視頻中空間定位對應的聲源信號。在訓練過程中，研究者利用了自然聲音的可加性來生成視頻，其中構成聲源是已知的。研究者通過混合聲源來訓練模型生成聲源。

圖 1：圖中展示了 PixelPlayer 的一個應用案例（輸出視頻結果請查看補充材料）。

在這個案例中，該系統用大量的不同組合的人們彈奏樂器的視頻來訓練，包括獨奏和二重奏。所有視頻都不包含使用樂器的標籤、定位，以及音樂的聽覺性質。在測試時，輸入（圖
1 a）是多個樂器一起彈奏的視頻，其中包括圖像幀 I（x,y,t）和單聲道音頻 S（t）。 PixelPlayer
將執行聲音-圖像源分離和定位，分割輸入聲音信號來評估輸出聲音組件 Sout（x,y,t），每個組件對應視頻幀中空間定位（x,y）中的聲源。圖 1
c 展示了 11 個示例像素的複原聲音信號。平直的藍線對應沒有生成聲音的的像素。非平直的信號對應來自每個獨立樂器的聲音。圖 1 d
展示了每個像素的評估聲音能量，或聲音信號的音量。注意，系統準確地檢測到了聲音是來自兩個樂器，而不是來自背景。圖 1 e
展示了像素如何根據它們的組件聲音信號進行聚類。相同的顏色被被分配到生成非常相似聲音的像素。

將聲音整合到圖像中的系統將擁有很廣泛的應用，例如視頻識別和操控。 PixelPlayer 的分離和定位聲源的能力將允許更多對目標聲音的獨立操作，並可以促進聲音識別。該系統還可以促進視頻的聲音編輯，例如，特定目標的音量調整，或移除特定目標的聲音等。

與本研究平行的還有近期的兩篇論文
[16,17]，它們也展示了結合圖像和聲音來將聲音分解成組件的應用價值。 [16] 展示了人的外觀如何幫助解決語音領域中的雞尾酒會問題。 [17]
展示了一個聲音-圖像系統，其可以將屏幕場景產生的聲音和視頻中不可見的背景聲音分離。

論文：The Sound of Pixels

摘要：我們提出了

PixelPlayer，該系統通過大量無標籤視頻數據訓練，來學習定位圖像中生成聲音的區域，並將輸入聲音分割成一系列組件，以表徵源於每個像素的聲音。我們的方法利用了視覺和聽覺模態的自然同時性來學習模型，可在不需要額外人工監督的情況下，聯合解析聲音和圖像。在最新收集的
MUSIC 數據集上的實驗結果表明，我們提出的 Mix-and-Separate
框架在圖像的聲音定位任務上超越了基線方法。多項定性結果表明，我們的模型可以在視野中定位聲音，可應用於例如獨立地調整聲源的音量這樣的任務。

圖
2：生成像素關聯聲音的流程：像素級視覺特徵通過對擴張 ResNet 的輸出的 T 個幀進行時間最大池化得到。輸入聲音的頻譜傳遞到一個
U-Net 中，其輸出是 K
個音頻通道。每個像素的聲音由一個聲音合成器網絡計算得到。聲音合成器網絡輸出一個掩碼，其將被應用到輸入頻譜上，以選擇和該像素相關的頻譜組件。最後，將
inverse STFT 應用到頻譜上為每個像素計算並生成最終的聲音輸出。

圖 3：本文提出的 Mix-and-Separate 模型的訓練流程，以混合兩個視頻為例（N=2）。

虛線框表示圖
2
中詳細描述的模塊。來自兩個視頻的聲音將被加到一起來生成已知構成聲源信號的輸入混合體。該網絡被訓練來根據對應的視頻幀分離聲源信號；它的輸出是對兩個聲音信號的評估。注意：這裡並沒有假設每個視頻都包含了單個聲源。此外，這裡沒有提供任何標註。因此該系統可以學習分離獨立聲源，而不需要傳統方法中的監督信息。

圖 4：本研究使用的視頻數據集的示例幀和相關聲音。上行展示了獨奏視頻，下行展示了二重奏視頻。其中聲音以時頻域的聲譜展示，頻率以對數標度表示。

圖 5：數據集統計：（a）展示了視頻類別的分佈。其中有 565 個獨奏視頻和 149 個二重奏視頻。（b）展示了視頻時長的分佈。平均時長為 2 分鐘。

表 1：NMF 的和本文提出模型的不同變體的性能，在 NSDR/SIR/SAR 指標上評估。對數頻率標度的 Binary masking 在所有指標上獲得了最好的總體成績。

表 4：聲音分離性能的主觀評估。基於 Binary masking 的模型在聲音分離中超越了其它所有模型。

表 5：圖像-聲音關聯的主觀評估。基於 Binary masking 的模型的圖像-聲音關聯性最高。

本文僅代表作者觀點，不代表百度立場。
本文係作者授權百度百家發表，未經許可，不得轉載。

相關推薦