詳解SoundStream：一款端到端的神經(jīng)音頻編解碼器

板橋胡同37號 2021-10-27

展開全文

音頻編解碼器的用途是高效壓縮音頻以減少存儲或網(wǎng)絡(luò)帶寬需求。理想情況下，音頻編解碼器應(yīng)該對最終用戶是透明的，讓解碼后的音頻與原始音頻無法從聽覺層面區(qū)分開來，并避免編碼 / 解碼過程引入可感知的延遲。

在過去幾年中，業(yè)界已經(jīng)成功開發(fā)了多種音頻編解碼器來滿足這些需求，包括 Opus) 和增強語音服務(wù)（EVS）。

Opus 是一種多功能語音和音頻編解碼器，支持從 6kbps（千比特每秒）到 510kbps 的比特率，已廣泛部署在從視頻會議平臺（如 Google Meet）到流媒體服務(wù)（如 YouTube）的多種類型的應(yīng)用程序中。

EVS 是 3GPP 標(biāo)準化組織針對移動電話開發(fā)的最新一代編解碼器。與 Opus 一樣，它是一種支持多種比特率（5.9kbps 至 128kbps）的編解碼器。使用這兩種編解碼器重建的音頻質(zhì)量在中低比特率（12–20kbps）下表現(xiàn)很出色，但在以極低比特率（?3kbps）輸出時質(zhì)量會急劇下降。

雖然這些編解碼器利用了人類感知領(lǐng)域的專業(yè)知識以及精心設(shè)計的信號處理管道來最大限度地提高壓縮算法的效率，但最近人們開始將興趣轉(zhuǎn)向了用機器學(xué)習(xí)方法替換這些手工制作的管道。這些機器學(xué)習(xí)方法會使用一種數(shù)據(jù)驅(qū)動的方式來學(xué)習(xí)音頻編碼技能。

今年早些時候，我們發(fā)布了 Lyra，一種用于低比特率語音的神經(jīng)音頻編解碼器。在“SoundStream：一款端到端的神經(jīng)音頻編解碼器”論文中，我們介紹了一種新穎的神經(jīng)音頻編解碼器。

這種編解碼器是上述成果的進一步發(fā)展，提供了更高質(zhì)量的音頻并能編碼更多聲音類型，包括干凈的語音、嘈雜和混響的語音、音樂和環(huán)境聲音。

SoundStream 是第一個既能處理語音也能處理音樂的神經(jīng)網(wǎng)絡(luò)編解碼器，同時能夠在智能手機 CPU 上實時運行。它能使用單個訓(xùn)練好的模型在很大的比特率范圍內(nèi)提供最一流的質(zhì)量，這標(biāo)志著可學(xué)習(xí)編解碼器的一項重大進步。

從數(shù)據(jù)中學(xué)習(xí)的音頻編解碼器

SoundStream 的主要技術(shù)組成部分是一個神經(jīng)網(wǎng)絡(luò)，由編碼器、解碼器和量化器組成，它們都經(jīng)過了端到端的訓(xùn)練。編碼器將輸入的音頻流轉(zhuǎn)換為編碼信號，量化器壓縮編碼信號，然后解碼器將其轉(zhuǎn)換回音頻。

SoundStream 利用了神經(jīng)音頻合成領(lǐng)域最先進的解決方案，通過訓(xùn)練一個鑒別器來計算對抗性和重建損失函數(shù)的組合，使重建的音頻聽起來接近未壓縮的原始音頻，從而提供高感知質(zhì)量的音頻輸出。經(jīng)過訓(xùn)練后，編碼器和解碼器可以分別運行在獨立的客戶端上，以通過網(wǎng)絡(luò)高效傳輸高質(zhì)量的音頻。

SoundStream 的訓(xùn)練和推理過程。在訓(xùn)練期間，編碼器、量化器和解碼器參數(shù)使用重建和對抗性損失的組合進行優(yōu)化，并由鑒別器計算；后者經(jīng)過訓(xùn)練以區(qū)分原始輸入音頻和重建音頻。

在推理期間，發(fā)送器客戶端上的編碼器和量化器將壓縮過的比特流發(fā)送到接收器客戶端，然后接收器客戶端負責(zé)解碼音頻信號。

使用殘差向量量化學(xué)習(xí)可擴展的編解碼器

SoundStream 的編碼器生成的向量可以采用無限的數(shù)量值。為了使用有限數(shù)量的比特將它們傳輸?shù)浇邮掌?，必須用來自有限集（稱為碼本，codebook）的近似向量替換它們，這一過程稱為向量量化。

這種方法適用于大約 1kbps 或更低的比特率，但在改用更高的比特率時很快就會達到其極限。例如，即使比特率低至 3kbps，假設(shè)編碼器每秒產(chǎn)生 100 個向量，也需要存儲超過 10 億個向量的碼本，這在實踐中是不可行的。

在 SoundStream 中，我們提出了一種新的殘差向量量化器（RVQ）來解決這個問題。該量化器由多個層組成（在我們的實驗中多達 80 個）。第一層以中等分辨率量化碼向量（code vector），接下來的每一層都處理前一層的殘差。

將量化過程分成幾層可以大大減少碼本大小。例如，3kbps 時每秒 100 個向量，使用 5 個量化層，碼本大小從 10 億減少到了 320。此外，我們可以添加或移除量化層來輕松增加或減少比特率。

由于傳輸音頻時網(wǎng)絡(luò)條件可能會發(fā)生變化，理想情況下，編解碼器應(yīng)該是“可伸縮的”，這樣它可以根據(jù)網(wǎng)絡(luò)狀態(tài)改變其比特率。雖然大多數(shù)傳統(tǒng)編解碼器都是可伸縮的，但以前的可學(xué)習(xí)編解碼器需要專門針對每種目標(biāo)比特率進行訓(xùn)練和部署。

為了規(guī)避這個限制，我們利用了 SoundStream 中量化層數(shù)控制比特率的機制，提出了一種稱為“量化器丟棄”的新方法。

在訓(xùn)練期間，我們隨機刪除一些量化層來模擬不同的比特率。這會讓解碼器針對任何比特率的傳入音頻流都學(xué)到良好的表現(xiàn)，從而幫助 SoundStream 變得“可伸縮”，讓單個訓(xùn)練模型可以運行在任何比特率下，表現(xiàn)還能與專門針對這些比特率訓(xùn)練的模型一樣好。

SoundStream 模型的對比（越高越好）：在 18kbps 下訓(xùn)練，有量化器丟棄（Bitrate scalable）；沒有量化器丟棄（No bitrate scalable）并使用可變數(shù)量的量化器評估；或以固定比特率進行訓(xùn)練和評估（Bitrate specific）。加入量化器丟棄后，與針對特定比特率的模型（每個比特率專門訓(xùn)練一個模型）相比，比特率可伸縮模型（所有比特率使用一個模型）不會損失任何質(zhì)量。

最先進的音頻編解碼器

SoundStream 在 3kbps 下的質(zhì)量就優(yōu)于 12kbps 的 Opus，接近 9.6kbps 的 EVS 質(zhì)量，同時使用的數(shù)據(jù)量減少到了 3.2 到 4 分之一。這意味著使用 SoundStream 編碼音頻可以使用低得多的帶寬提供類似的質(zhì)量。

此外，在相同的比特率下，SoundStream 的性能優(yōu)于基于自回歸網(wǎng)絡(luò)的 Lyra 當(dāng)前版本。與已經(jīng)針對生產(chǎn)用途進行部署和優(yōu)化的 Lyra 不同，SoundStream 仍處于試驗階段。未來，Lyra 將整合 SoundStream 的組件，以提供更高的音頻質(zhì)量并降低復(fù)雜性。

3kbps 的 SoundStream 與最先進的編解碼器的質(zhì)量對比。MUSHRA分數(shù) 是主觀質(zhì)量的指標(biāo)（越高越好）。

這些音頻示例（https://google-research./seanet/soundstream/examples/）展示了 SoundStream 與 Opus、EVS 和原始 Lyra 編解碼器的性能對比。

聯(lián)合音頻壓縮和增強過程

在傳統(tǒng)的音頻處理管道中，壓縮和增強（去除背景噪聲）通常由不同的模塊執(zhí)行。例如，音頻增強算法可以應(yīng)用在發(fā)送端（在壓縮音頻之前），或接收端（在音頻解碼之后）。在這樣的設(shè)置中，每個處理步驟都會帶來端到端的延遲。

相反，SoundStream 的設(shè)計是壓縮和增強可以由同一模型聯(lián)合執(zhí)行，而不會增加整體延遲。在以下示例中，我們展示了通過動態(tài)激活和停用去噪（5 秒不去噪、5 秒去噪、5 秒不去噪，以此類推）來融合壓縮與背景噪聲抑制過程。（示例見原文）

結(jié)論

在需要傳輸音頻的場景，無論是在流式傳輸視頻時還是在電話會議期間，都需要高效的壓縮過程。SoundStream 是改進機器學(xué)習(xí)驅(qū)動的音頻編解碼器的重要一步。

它的表現(xiàn)優(yōu)于之前最先進的編解碼器，如 Opus 和 EVS；它可以按需增強音頻，并且只需部署一個（而非多個）可伸縮的模型即可處理多種比特率。

SoundStream 將作為 Lyra 下一個改進版本的組件發(fā)布。將 SoundStream 與 Lyra 集成后，開發(fā)人員可以在他們的工作中利用現(xiàn)有的 Lyra API 和工具鏈，從而兼顧靈活性和更好的音質(zhì)。我們還將發(fā)布一個單獨的 TensorFlow 模型用于實驗?zāi)康摹?/span>

致謝

本文介紹的工作由 Neil Zeghidour、Alejandro Luebs、Ahmed Omran、Jan Skoglund 和 Marco Tagliasacchi 完成。我們非常感謝谷歌的同事提供的關(guān)于這項工作的所有討論和反饋。

原文鏈接：