網易易盾 AI Lab 論文入選 ICASSP 2023！黑科技讓語音識別越「聽」越准

每個科幻迷都嚮往著在未來能像和老朋友對話一樣，用寥寥數語發動星際飛船，征服星辰大海；或者擁有鋼鐵俠的人工智慧管家賈維斯，幾句對話就能造出一套納米戰甲。其實這個畫面離我們並不遠——就像 iPhone 中的 Siri 一樣同我們觸手可及。它的背後是自動語言識別技術（Automatic Speech Recognition)。這項關鍵技術能將語音轉換為計算機可識別的文字或命令，實現便捷、高效、智能的人機互動體驗。

而隨著深度學習等 AI 技術的發展，語音識別技術已經取得了巨大的進步——不僅識別準確度大大提高，而且能夠更好地處理口音、噪聲和背景音等問題。但隨著技術在生活和業務中的不斷應用，仍會遇到一些瓶頸，畢竟從理論研究到實際應用，從論文到產品，需要考慮太多的現實因素。如何讓語音識別更好地輔助內容審核？如何讓識別動作本身也能像人腦一樣，根據對語境的理解，以更低的成本給出更準確的答案？網易智企旗下易盾 AI Lab 給出了新方法。

易盾又出黑科技，智企邁向全世界！

近日，全球語音、聲學會議ICASSP 2023 公布了論文入選名單，網易智企旗下易盾 AI Lab 提交的論文成功被錄用。今年是第 48 屆 ICASSP 大會，也是疫情後的第一屆線下大會，雖然大會官方還未公布最後錄用了多少篇論文，但論文投遞的數量相較往年上升了 50%，達到了驚人的 6,000+。

面對如此激烈的競爭，網易智企易盾 AILab 團隊憑藉一篇語音識別方向的論文《Improving CTC-based ASRModels with Gated Interplayer Collaboration（基於 CTC 的模型改進，實現更強的模型結構）》脫穎而出，成功拿到了前往希臘羅德島線下參會的門票。

「GIC」，助力語音識別更進一步

語音識別本質上是語音序列到文字序列的轉化，而要完成這樣的轉化，一般會用到三類模型，CTC、Attention-based 和 RNN-Transducer，它們在完成任務的時候採用了不同的路徑：

CTC：基於神經網絡模型，在訓練過程中通過反向傳播來更新模型參數以最小化損失函數。該算法引入了「空白符」來表示無意義字符或者間隔符號。CTC 適合處理輸入輸出長度相差較大的數據，如語音識別中將聲學特徵映射為文本；

Attention-based：注意力機制，也是基於神經網絡模型，並且使用一種稱為「注意力」的技術來對輸入進行加權匯聚。在每個時間步驟上，該模型會根據當前狀態和所有輸入計算出一個分布式權重向量，並將其應用於所有輸入以產生一個加權平均值作為輸出。這種方式可以使得模型更好地關注與當前預測相關的部分信息；

RNN-Transducer：轉錄器，這個算法結合了編碼器-解碼器框架和自回歸建模思想，在生成目標序列時同時考慮源語言句子和已生成部分目標語言句子之間的交互作用。與其他兩種方法不同，RNN-Transducer 沒有明確區分編碼器和解碼器階段，並且直接從源語言到目標語言進行轉換，因此可以同時考慮源語言句子和已生成部分目標語言句子之間的交互作用。

相比後兩者，雖然 CTC 具有天然的非自回歸解碼性質，解碼速度相對快很多，但依然有著性能劣勢：

1. CTC 算法設置了條件獨立性假設，即 CTC 假設每個時間步的輸出之間是獨立的。這對語音識別任務來說並不合理，假如說「ji rou」這個發音，在不同的上下文中預測的文字內容應該不一樣的。如果上文是「我喜歡吃」，接下來「雞」的概率應該更高，同理如果上文是「他手臂有」，接下來「肌」的概率應該更高。如果通過 CTC 訓練，很容易就會在忽略上文的前提下，輸出「我喜歡吃肌肉」這樣好笑的文本；

2.從建模的視角來看，Attention-based模型和 RNN-Transducer 模型根據輸入和之前時間步的輸出預測當前時間步的輸出，而 CTC 模型僅僅利用輸入來預測當下的輸出，在 CTC 模型的建模過程中，文本信息僅僅是作為一種監督信號回傳給網絡，並沒有作為網絡的輸入顯式促進模型的預測。

我們希望能在保留 CTC 解碼效率的同時，儘可能地解決以上兩點劣勢。於是，我們想從 CTC 模型本身出發，設計輕量級的模塊給基於 CTC 的模型引入文本信息，使得模型能夠整合聲學和文本信息，學習到文本序列上下文之間的相互作用，從而緩解 CTC 算法的條件獨立性假設。但過程中，我們碰到了兩個問題：如何在CTC模型（Encoder +CTC 結構）里注入文本信息？如何自適應地融合文本特徵和聲學特徵？

為了實現上述目標，我們設計了 Gated Interlayer Collaboration（簡寫為GIC）機制。GIC 模塊主要包含一個嵌入層（embedding layer）和一個門控單元（gate unit）。其中，嵌入層用於生成每一音頻輸入幀的文本信息，門控單元用於自適應地融合文本信息和聲學信息。

具體地，我們的方法基於多任務學習（Multi-taskLearning）框架，利用編碼器模塊（Encoder）中間層的輸出計算輔助 CTC loss，整個網絡的目標函數是最後一層的 CTC loss 和中間層輔助 CTC loss 的加權和。GIC 將網絡中間層的預測，即 Softmax 輸出的概率分布作為每一幀的軟標籤，點乘嵌入層矩陣之和作為每一幀的文本表徵。最後，生成的文本表徵和聲學表徵通過一個門控單元自適應地融合，成為一個新特徵輸入到下一層。此時的新特徵融合了文本特徵和聲學特徵，使得下一層的 Encoder 模塊可以學習到聲學序列上下文信息和文本序列上下文信息。整個模型的框架如下圖所示：

在 Conformer 和 Transformer 這兩個模型上的實驗表明：

1. GIC 同時支持漢語和英語的場景識別，同時準確度均取得了顯著的性能提升；

2. GIC 模型性能超過了同參數規模的Attention-based 和 RNN-transducer 模型，並且具有非自回歸解碼的優勢，帶來數倍的解碼速度提升；

3. 相對原始的 CTC 模型，GIC 在多個開源數據集有遠超 10% 的相對性能提升。

Conformer 模型下的結論

Transformer 模型下的結論

GIC 為 CTC 模型的性能帶來了很大的提升。相對原始的 CTC 模型，GIC 模塊大約帶來2M 的額外參數，其中，計算中間層輔助 CTC loss 所用的線性層與最後一層是共享的，不會帶來額外的參數。多個中間層共享嵌入層，帶來 256*5000 約等於 1.3M 的參數。除此之外，多個門控單元的參數是 256*256*2*k，合計約 0.6M 的額外參數量。

領先技術造就先進業務

論文中的 GIC 已經應用在了網易易盾的內容審核業務中。

作為網易智企旗下一站式數字內容風控品牌，易盾長期專注於數字內容安全風控和反垃圾信息的技術研發和創新。其中，針對以聲音作為載體的數字內容，易盾提供了多種音頻內容審核引擎，包括歌曲、廣播、電視節目、直播等各種類型的音頻內容，及時檢測和過濾含有敏感、違規、低俗，廣告內容的語音，從而減少不良內容的社會影響，營造良好的網絡環境。

針對有具體語義內容的音頻，易盾通過語音識別技術將音頻文件中的語音內容轉寫為文字內容，再利用檢測模塊分析和處理文本，從而實現對音頻內容的自動化審核和過濾。因此，語音識別的準確率與音頻內容的審核效率和準確性是息息相關的，會直接影響到客戶開展業務的安全與穩定。

論文中的 GIC 在內容審核中的應用取得了顯著的效果提升。在實際的應用過程中，需要調試的超參數有兩個，分別是多任務學習係數 lambda 和中間層層數 k。在18 層編碼器結構中我們發現 k=5，lambda=0.5 有較好的實驗效果。接著，我們會從這個設置開始嘗試，不斷微調以確定最優的超參數。

幕後英雄：網易智企易盾 AI Lab

這不是易盾 AI Lab 團隊第一次獲得這樣規格的榮譽。

作為網易智企下設的始終走在人工智慧研究前沿的技術團隊，易盾 AI Lab 致力於圍繞精細化、輕量化、敏捷化打造全面嚴謹、安全可信的 AI 技術能力，不斷提升數字內容風控服務水平。在這之前，團隊曾獲得多項 AI 算法競賽冠軍及重要獎勵榮譽：

2019 年第一屆中國人工智慧大賽旗幟識別賽道最高級 A 級證書

2020 年第二屆中國人工智慧大賽視頻深度偽造檢測賽道最高級 A 級證書

2021 年第三屆中國人工智慧大賽視頻深度偽造檢測和音頻深度偽造檢測賽道兩項最高級 A 級證書

2021 年中國人工智慧產業發展聯盟「創新之星」、「創新人物」

2021 年第十六屆全國人機語音通訊學術會議（NCMMSC2021）「長短視頻多語種多模態識別競賽」—漢語長短視頻直播語音關鍵詞（VKW）雙賽道冠軍

2021 年獲得浙江省政府頒發的科學技術進步獎一等獎

2022 年 ICPR 多模態字幕識別比賽（Multimodal Subtitle Recognition, 簡稱 MSR 競賽，國內首個多模態字幕識別大賽）賽道三「融合視覺和音頻的多模態字幕識別系統」冠軍

未來已來，AI 的 iPhone 時刻已至。今天，易盾成功登上了語音學的學術殿堂；未來，技術將成就業務的方方面面，而網易易盾將始終伴您左右。

(8197004)