語音轉換(VC)和語音合成(TTS)模型算法

本文梳理了語音轉換(VC)和語音合成(TTS)領域的若干模型算法，下面簡要介紹各模型算法的概況。

1. One-shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization

目前，很多關於語音轉換的研究主要集中在並行語料集的基礎上，已經能夠實現將一種音色轉換成其他音色，但是這種方法對訓練數據要求較嚴格(並行數據)，且只能轉換訓練集內的人的音色。本文提出了一種one-shot音頻轉換方法，主要思想是通過 instance normalization等技術進行音色和內容分離，然後重組音色和內容，最終生成目標音色的音頻。

本文提出了支持one-shot的音頻轉換方案，操作起來更加便捷。通過各種主觀及客觀方法評估，證明本文方案效果較好。

2. AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

非並行多對多語音轉換以及零樣本語音轉換仍然是未充分探索的領域。生成對抗網絡 (GAN) 和條件變分自編碼器 (CVAE) 等深度風格遷移算法正被用作該領域的新解決方案。然而，GAN 訓練複雜且困難，並且沒有強有力的證據表明其生成的語音具有良好的質量。另一方面，CVAE 訓練很簡單，但沒有 GAN 的分布匹配特性。在本文中，我們提出了一種新的風格遷移方案，該方案僅涉及具有精心設計的自動編碼器。我們表明，該方案可以實現分布匹配風格遷移。基於此方案，我們提出了 AUTOVC，它在非並行數據的多對多語音轉換中取得了最先進的結果，並且是第一個執行零樣本語音轉換的方法。

在本文中，我們提出了 AUTOVC，這是一種非並行語音轉換算法，其性能明顯優於現有的技術，並且是第一個執行零樣本轉換的算法。與其性能優勢形成鮮明對比的是其簡單的自動編碼器結構。在風格遷移算法越來越複雜的年代，AUTOVC 的成功表明，是時候回歸簡單了。

3. Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

最近，去噪擴散概率模型和生成分數匹配在建模複雜數據分布方面顯示出巨大潛力，而隨機微分為這些技術提供了統一的觀點，允許靈活的推理方案。在本文中，我們介紹了 Grad-TTS，這是一種新穎的文本到語音模型，具有基於分數的解碼器。人類評估表明，Grad-TTS 與最先進的文本到語音轉換方法相比具有競爭力。

Grad-TTS是第一個利用擴散概率建模概念的聲學特徵生成器。Grad-TTS 的主要生成引擎是基於擴散的解碼器，它將編碼器輸出參數化的高斯噪聲轉換為梅爾譜圖，同時使用單調對齊搜索執行對齊。我們提出的模型允許在推理時改變解碼器步驟的數量，從而提供一種工具來控制推理速度和合成語音質量之間的權衡。儘管採用疊代解碼，但 Grad-TTS 能夠進行實時合成。此外，它生成梅爾譜圖的速度比 Tacotron2 快兩倍，同時保持較高的合成質量。

4. S2VC: A Framework for Any-to-Any Voice Conversion with Self-Supervised Pretrained Representations

人們已經提出了各種 any-to-any VC 方法，如 AUTOVC、AdaINVC 和 FragmentVC。AUTOVC 和 AdaINVC 使用源和目標編碼器來分離特徵的內容和說話人信息。Frag-mentVC 利用兩個編碼器對源信息和目標信息進行編碼，並採用交叉注意力將具有相似語音內容的源和目標特徵對齊。AUTOVC 使用 d-vector 提取說話人信息，FragmentVC 中使用 wav2vec 2.0 等自監督學習 (SSL) 功能提取語音內容信息。與之前的工作不同，我們提出了 S2VC，它利用自監督特徵作為 VC 模型的源和目標特徵。PPG被認為是獨立於說話人的，並廣泛用於 VC 中提取內容信息，被選為 SSL 的強大基線。客觀評價和主觀評價均表明，以 SSL 特徵 CPC 為源特徵和目標特徵的模型優於以 PPG 為源特徵的模型，表明 SSL 特徵在改進 VC 方面具有很大潛力。

我們研究了幾種 SSL 表示來改進 VC。我們發現以 CPC 作為源特徵和目標特徵的模型在主觀和客觀評估方面都優於基線模型，包括使用 PPG 作為源特徵和梅爾譜圖作為目標特徵的基線模型。結果表明，SSL 表示 CPC 適用於提供 VC 所需的內容和說話人信息。此外，消融分析表明，所提出的框架在客觀評估方面實現了與 SOTA 方法 FragmentVC 相當甚至更好的性能。如果我們將幾個不同的特徵（如 PPG 和 CPC）連接起來作為源特徵，並將其他表示的組合作為目標特徵，將會發生什麼還有待研究。

5. VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

最近提出了幾種支持單階段訓練和並行採樣的端到端文本到語音 (TTS) 模型，但它們的樣本質量與兩階段 TTS 系統的樣本質量不匹配。在這項工作中，我們提出了一種並行的端到端 TTS 方法，它能比當前的兩階段模型生成更自然的聲音。我們的方法採用變分推理，並通過歸一化流程和對抗性訓練過程進行增強，從而提高了生成模型的表達能力。我們還提出了一個隨機持續時間預測器來從輸入文本合成具有不同節奏的語音。通過對潛在變量和隨機持續時間預測器的不確定性建模，我們的方法表達了自然的一對多關係，其中可以以不同的音高和節奏以多種方式說出文本輸入。在LJ Speech數據集上的主觀人類評估（平均意見得分或 MOS）表明，我們的方法優於目前公開可用的 TTS 系統。

在這項工作中，我們提出了一個並行的 TTS 系統 VITS，它可以以端到端的方式學習和生成。我們進一步引入了隨機持續時間預測器來表達不同的語音節奏。由此產生的系統直接從文本合成自然發聲的語音波形，而無需經過預定義的中間語音表示。我們的實驗結果表明，我們的方法優於兩階段 TTS 系統並達到接近人類的質量。我們還想指出，儘管我們的方法在 TTS 系統中集成了兩個獨立的生成管道，但仍然存在文本預處理問題。研究語言表徵的自監督學習可能是去除文本預處理步驟的一個可能方向。

6. VARA-TTS: Non-Autoregressive Text-to-Speech Synthesis based on Very Deep VAE with Residual Attention

我們提出了一種非自回歸端到端的語音合成模型VARA-TTS。我們使用具有殘差注意力機制的VDVAE改進了文本到聲音的對齊。通過利用來自前一個注意力層的粗略全局對齊作為額外輸入，下一個注意力層可以產生一個精確的對齊版本。這分攤了在多個注意力層之間學習文本到聲音對齊的負擔，並且在魯棒性方面優於僅使用單個注意力層。語速因子由聯合訓練的語速預測器計算，該預測器將最粗層的均值池化潛在變量作為輸入，以確定推理時的聲學幀數。實驗結果表明，VARA-TTS 的語音質量略遜於Tacotron 2，但在推理時有一個數量級的加速，並且在語音質量方面優於類似的非自回歸模型BVAE-TTS。

在這項工作中，我們提出了一種新的非 AR 端到端 TTS 模型 VARA-TTS，它使用 VDVAE 和剩餘注意機制從文本生成梅爾譜圖。實驗結果表明，在相似的推理速度下，VARA-TTS 獲得了比 BVAE-TTS 更好的結果，並且比 Tacotron 2 的推理速度提高了 16 倍，但在自然性方面的性能略差。

7. DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism

歌聲合成 (SVS) 系統旨在合成高質量和富有表現力的歌聲。以前的歌聲合成模型採用簡單的損失（例如 L1 和 L2）或生成對抗網絡（GAN）來構建聲學特徵，但它們分別存在過度平滑和不穩定的訓練問題，這阻礙了合成歌聲的自然性。在這項工作中，我們提出了 DiffSinger，一種基於擴散概率模型的 SVS 聲學模型。DiffSinger 是一個參數化的馬爾可夫鏈，它疊代地將噪聲轉換為以樂譜為條件的梅爾譜圖。通過隱式優化變分邊界，DiffSinger 可以穩定地訓練並生成真實的輸出。為了進一步提高語音質量並加快推理速度，我們引入了一種淺層擴散機制，以更好地利用學習到的先驗知識。具體來說，DiffSinger 根據真實梅爾譜圖的擴散軌跡與簡單的梅爾譜圖解碼器預測的擴散軌跡的交集，以比擴散步驟總數小的淺步開始生成。此外，我們訓練了一個邊界預測網絡來定位交叉點並自適應地確定淺步。在中文歌唱數據集上進行的評估表明 DiffSinger 優於最先進的 SVS 模型。我們的擴展實驗也證明了 DiffSinger 在文本到語音任務上的泛化性能。

在這項工作中，我們提出了 DiffSinger，一種基於擴散概率模型的 SVS 聲學模型。為了進一步提高語音質量並加快推理速度，我們提出了一種淺層擴散機制。具體來說，我們發現當擴散步長足夠大時，擴散軌跡會交叉在一起。受此啟發，我們在兩條軌跡的交叉點（步驟 k）而不是在非常深的擴散步驟 T 處開始反向過程。因此可以明顯減輕反向過程的負擔。此外，我們提出了一個邊界預測器來定位交叉點並自適應地確定 k。在中文歌唱數據集上進行的實驗證明了 DiffSinger的優越性，以及我們新穎的淺層擴散機制的有效性。在 LJSpeech 數據集上進行的擴展實驗證明了 DiffSinger 在 TTS 任務上的泛化性能。

8. Natural TTS Synthesis By Conditioning Wavenet On Mel Spectrogram Predictions

本文介紹了一種直接從文本進行語音合成的神經網絡架構 Tacotron 2。該系統由一個循環Seq2Seq特徵預測網絡組成，該網絡將字符嵌入映射到梅爾頻譜圖，然後利用改進的WaveNet模型充當聲碼器，從這些頻譜圖合成時域波形。我們的模型實現了 4:53 的平均意見得分 (MOS)，與專業錄製語音的 MOS 得分 4:58 相當。

Tacotron 2 結合了Seq2Seq循環網絡和注意力機制，用改進的 WaveNet 聲碼器預測梅爾頻譜圖。該系統可以直接從數據中進行訓練，而無需依賴複雜的特徵工程，並實現了接近人類語音的音質。

關注微信公眾號「多模態人工智慧」：語音轉換(VC)和語音合成(TTS)模型算法