模型也能實現「雞尾酒會效應」：谷歌新型音頻-視覺語音分離模型

摘要：在嘈雜的環境中，人們非常善於把注意力集中在某個特定的人身上，在心理上「屏蔽」其他所有聲音。這種能力被稱為「雞尾酒會效應」，是我們人類與生俱來的技能。然而，雖然關於自動語音分離（將音頻信號分離為單獨的語

在嘈雜的環境中，人們非常善於把注意力集中在某個特定的人身上，在心理上「屏蔽」其他所有聲音。這種能力被稱為「雞尾酒會效應」，是我們人類與生俱來的技能。然而，雖然關於自動語音分離（將音頻信號分離為單獨的語音源）的研究已經非常深入，但該問題仍是計算機領域面臨的重大挑戰。谷歌今日提出一種新型音頻-視覺模型，從聲音混合片段（如多名說話者和背景噪音）中分離出單獨的語音信號。該模型只需訓練一次，就可應用於任意說話者。

在《Looking
to Listen at the Cocktail
Party》一文中，谷歌提出了一種深度學習音頻-視覺模型，用於將單個語音信號與背景噪聲、其他人聲等混合聲音分離開來。在這篇文章中，谷歌通過計算生成視頻，增強其中特定人員的語音，同時減弱其他人的聲音。研究者的方法用在具有單個音頻軌道的普通視頻上，用戶需要做的就是在視頻中選出他們想要聽到的說話人的面部，或者結合語境用算法選出這樣的人。這種方法用途廣泛，從視頻中的語音增強和識別、視頻會議，到改進助聽器，不一而足，尤其適用於有多個說話人的情景。

這項技術的獨特之處是結合了輸入視頻的聽覺和視覺信號來分離語音。直觀地講，人的嘴的運動應當與該人說話時產生的聲音相關聯，這反過來又可以幫助識別音頻的哪些部分對應於該人。視覺信號不僅在混合語音的情況下顯著提高了語音分離質量（與僅僅使用音頻的語音分離相比，正如在本文中所證明的），但是重要的是，它還將分離的干淨語音軌道與視頻中的可見說話者相關聯。

在谷歌提出的方法中，輸入是具有一個或多個說話人的視頻，其中我們需要的語音受到其他說話人和/或背景噪聲的干擾。輸出是將輸入音頻軌道分解成的干淨語音軌道，其中每個語音軌道來自視頻中檢測到的每一個人。

音頻-視覺語音分離模型

為了生成訓練樣本，我們首先從
YouTube 上收集 10
萬個高質量講座和演講視頻。然後從視頻中提取帶有清晰語音的片段（如沒有音樂、觀眾聲音或其他說話者聲音的片段）和視頻幀中只有一個說話者的片段。這樣得到了大約
2000
個小時的視頻片段，鏡頭中出現的是單個人，且說話的時候沒有背景干擾。之後，我們使用這些乾淨數據生成「合成雞尾酒會」——將人臉視頻、來自單獨視頻源的對應語音及從
AudioSet 獲取的無語音背景噪聲混合在一起。

使用這些數據，我們能夠訓練出基於多流卷積神經網絡的模型，將合成雞尾酒會片段分割成視頻中每個說話者的單獨音頻流。網絡輸入是從每一幀檢測到的說話者人臉縮略圖中提取到的視覺特徵，和視頻聲音的光譜圖表徵。訓練過程中，網絡（分別）學習視覺和聽覺信號的編碼，然後將其融合在一起形成一個聯合音頻-視覺表徵。有了這種聯合表徵，網絡可以學習為每個說話者輸出時頻掩碼。輸出掩碼乘以帶噪聲的輸入光譜圖，然後被轉換成時域波形，以獲取每位說話者的單獨、乾淨的語音信號。完整細節，請參考論文《Looking
to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual
Model for Speech Separation》。

多串流的基於神經網絡的架構。

以下是用谷歌的方法得到的語音分離和增強的結果展示（視頻見原文）。被選取的說話人之外的另一個人的聲音可以被完全消去，或抑製到所需的音量級別。

為了強調該模型對視覺信息的利用，研究者從谷歌
CEO Sundar Pichai
的同一個視頻中截取了不同的兩部分，並將它們並排展示。在這個場景中，僅適用音頻中的特徵語音頻率是很難實現語音分離的。然而，即使在這樣富有挑戰性的案例中，該模型也可以正確地分離語音。

在語音識別中的應用

該方法還有作為預處理應用到語音識別和自動給視頻加文字說明的潛力。處理語音重疊的說話人對於自動的文字說明系統來說是很有挑戰性的，並且將音頻分離為不同的來源可以幫助生成更加準確和易讀的文字說明：

谷歌認為該項技術有很廣泛的應用前景，目前正在探索如何將該技術整合到谷歌的產品中，敬請期待！

論文：Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation

論文鏈接：https://arxiv.org/pdf/1804.03619.pdf

摘要： 我們展示了一種聯合音頻-視覺模型，用於從聲音混合片段（如多名說話者和背景噪音）中分離出單獨的語音信號。僅使用音頻作為輸入來解決該任務難度非常大，且無法提供視頻中每個說話者單獨語音信號的組合。本論文展示了一種基於深度網絡的模型，該模型整合了視覺信號和聽覺信號來解決該任務。視覺特徵用於「聚焦」場景中目標說話者的音頻，以提高語音分離的質量。為了訓練聯合音頻-視覺模型，我們引入了新型數據集

AVSpeech，該數據集包含從網頁上收集的數千小時視頻片段。我們展示了該方法的可應用性，它可用於經典的語音分離任務，以及熱烈訪問、喧囂酒吧、尖叫孩童等現實場景，而用戶只需要指定視頻中的特定人臉即可。我們的方法明顯優於混合語音領域中當前最優的音頻語音分割。此外，我們的模型是獨立於說話者的（只需訓練一次，即可應用於任意說話者），生成的結果優於近期依賴於說話者的音頻-視覺語音分離方法（該方法需要為每個說話者訓練一個單獨的模型）。

本文僅代表作者觀點，不代表百度立場。
本文係作者授權百度百家發表，未經許可，不得轉載。

相關推薦