前言

很明顯，聲音信息的電子格式要早於視覺信息的電子格式，用電子格式分發聲音信息的服務也是如此。同樣，音頻的數字格式與視頻數字格式的出現時間也不同。在上世紀80年代初，唱片公司可以通過CD（Compact Disc）向消費者市場發行數字音頻，而在80年代後期出現的D1數字磁帶則專用於錄音室的專業應用。但壓縮技術卻顛倒了它們的出現順序：壓縮數字視頻比壓縮數字音頻要早10年。所以和之前我所寫的文章《視頻編碼四十年》[1]不同，本文的標題是《音頻編碼三十年》。

如果音頻缺乏恰當的定義，那麼這篇文章有可能成為爭議來源。在本文中，我們所指的音頻是人類可聽範圍內的聲音，而非人類發聲系統所產生的聲音或者發聲模型不可用的其他音源。實際上，早在CD出現之前的20年，數字語音就已經存在於專業應用（trunk network，主幹網絡）中了。ITU-T G.721的「32 kbit/s ADPCM（adaptive differential pulse code modulation，自適應差分脈衝編碼調製）」可以追溯到1984年，同一年H.120被批准為推薦標準。

因此，本文的標題也可以是《音頻編碼四十年》。不過如果以此為標題的話，本文將充斥大量的語音壓縮標準，而使真正的音頻標準失去了關注。因此，本文將只關注音頻壓縮標準，其中的音頻並不包括語音。但其中有一個例外，我會在下文提到。

與視頻壓縮中ITU-T（國際電信聯盟電信標準化部門）這個非MPEG組織開發了視頻編碼標不同，音頻壓縮中MPEG占據主導地位。需要音頻壓縮用於數字音頻廣播標準的ITU-R（國際電信聯盟無線通信部門）也傾向於依賴外部資源，其中就包括MPEG。

MPEG-1 Audio

關於MPEG（專注於視頻壓縮領域的組織)如何以及為何會研究音頻壓縮，感興趣的人可以閱讀這篇文章（其中還包括許多其他內容）：https://ride.chiariglione.org/the-1st-mpeg-project/。MPEG音頻工作組成立活動於1998年12月1-2日舉行，當時最多元化的音頻編碼專家組在漢諾瓦（德國城市）會面（當時這一傳統還沒有完全確立）並啟動了這項工作，在大家的不懈努力下，最終MPEG在1992年11月推出了MPEG-1音頻標準。

MPEG中的音頻組常常是未來創新的先行者。比如，其一，廣播世界還在迴避低解析度的MPEG-1視頻壓縮標準時，它卻非常重視MPEG-1音頻壓縮標準；其二，與視頻主要依賴相同的編碼架構不同，音頻徵集提案需要產出兩類算法：一類充分成熟、易於實現、但是效果稍差；另一類算法更新、在當時卻比較難實現，但效果更好。將兩類算法合併的工作非常辛苦，但終於實現了使用這兩種技術的三層（3 Layers）標準。

Layer 1用於數字壓縮磁帶（DCC），這個產品在幾年以後停用了；Layer 2用於音頻廣播，以及作為Video CD（VCD）的音頻組件使用；第三層（MP3）就不需要特別介紹了。MP3在接下來的MPEG-2中進行修訂後，它在聽感上與原CD信號幾乎沒有差異的同時，提供128 kbit/s的碼率。這與原本CD信號1.44 Mbit/s的碼率相比，實現了11:1的壓縮。

MPEG-2 Audio

該標準於1994年批准，主要目的是用於多聲道音頻，其中的關鍵要求是MPEG-1音頻解碼器應能解碼MPEG-2音頻碼流的立體聲組件。向後兼容在廣播領域十分有用，因為運營商可以升級到多聲道服務，而不會失去只擁有MPEG-1音頻解碼器的客戶。

MPEG-2 AAC

人們希望提供最佳質量音頻而不受向後兼容約束，這種需求推動了MPEG-2 AAC的工作。這意味著Layer 2必須同時解碼Layer 1和Layer 2，而Layer 3必須解碼所有Layer。1997年4月所發布的MPEG-2 AAC就是構建在MP3技術之上，可以提供128 kbit/s 碼率聽感透明的立體聲信號和320 kbit/s 的5.1聲道信號（例如數位電視中的信號）。

MPEG-4 AAC

1998年，MPEG-4 AAC與其他兩個MPEG-4組件（Systems and Visual，系統和視覺）一同發布。MPEG-4 AAC也是構建在MPEG-2 AAC之上。2003年，Apple宣布旗下的iTunes和iPod將使用MPEG-4 AAC作為主要的壓縮格式，這一舉動動搖了MP3在音樂發行中的主導地位。大部分PC、智慧型手機和之後的平板都可以播放AAC歌曲。Apple沒有把AAC當作純粹的播放器技術使用，它推出的iTunes服務提供以MPEG-4 文件格式打包的AAC格式的歌曲，文件擴展名為「.m4a」。

AAC-LD

1999年，MPEG發布了包含AAC低延遲版本的MPEG-4 Amendment 1，被稱為AAC-LD（Low Delay AAC，低延遲AAC）。AAC編碼器/解碼器通常需要約55毫秒的單向延遲（轉換延遲+look-ahead處理），而AAC-LD通過簡化和替換某些AAC工具（更低延遲的新轉換和look-ahead處理的移除）達到了僅21毫秒的單向延遲。AAC可以作為通話編解碼器使用，同時具有音樂編碼器的信號帶寬和感知音質，並且可以對單聲道信號在64 kb/s碼率時實現卓越的音質。

MPEG-4 HE-AAC

2003年，作為MPEG-4的第一次修訂，MPEG發布了MPEG-4 HE-AAC（High Efficiency Advanced Audio Coding）。HE-AAC鞏固了移動手持設備作為高音質音頻獲取工具的地位，能夠以48 kbit/s接收高音質立體聲音樂（壓縮能力比AAC高出2.5倍）。與CD信號相比，它的壓縮比幾乎達到了30:1。

HE-AAC向核心AAC引擎添加了SBR（Spectral Bandwidth Replication，頻譜帶寬複製）。由於AAC已被廣泛部署，因此允許通過僅將SBR工具添加到現有AAC實現中而擴展為HE-AAC。

MPEG HE-AAC v2

同樣在2003年，9個月之後，MPEG 推出了MPEG HE-AAC v2。它源於MPEG-4二次修訂（Parametric coding for high-quality audio，高質量音頻的參數編碼）中所包含的工具。雖然核心參數編碼器並沒有被廣泛接受，修訂中的PS（Parametric Stereo，參數立體聲）工具可以將立體聲音樂高效編碼為單聲道信號加少量輔助信息（side information）。 HE-AAC v2——PS工具和HE-AAC的結合，能夠以32 kb/s傳輸具有優質音頻質量的立體聲信號。

3GPP也採用了HE-AAC v2，並將其命名為Enhanced aacPlus。3GPP的採用為HE-AAC v2技術集成到行動電話創造了條件。今天，超過百億的行動裝置支持HE-AAC v2格式歌曲的傳輸和播放。由於HE-AAC構建於AAC之上，所以這些設備也支持AAC格式歌曲的傳輸和播放。

ALS 和SLS

2005年，MPEG發布了兩種用於無損壓縮音頻的算法——ALS（Audio Lossless coding）和SLS（Scalable to Lossless coding）。這兩種算法都可以完美（即無損）重建標準的CD音頻信號，壓縮比接近2:1。具有可變的壓縮比是SLS的一個重要特性：它可以將立體聲信號壓縮到128 kb/s（11:1壓縮比），並達到和AAC編解碼器一樣的出色質量，但它是通過持續增加編碼碼率（即降低壓縮比）實現壓縮比為2:1的無損重建。

MPEG Surround（MPEG環繞聲）

ALS/SLS是MPEG-4中最後一批重要的標準，它們也是MPEG中「最長壽」的音頻標準。第一個版本於1999年發布，20年以後（2019年），MPEG才發布了第五個版本。

在MPEG-4退出歷史舞台之後，MPEG開發了MPEG-D系列音頻編碼標準。其中第一個就是MPEG Surround（MPEG環繞聲），於2007年發布。在某種意義上，這項技術是HE-AAC v2工具的通用PS（Parametric Stereo，參數立體聲），MPEG Surround可以被用作5-2聲道壓縮工具，或者M-N聲道壓縮工具。這個通用的PS工具其後就是HE-AAC編解碼器。因此，MPEG Surround構建在HE-AAC之上，正如HE-AAC構建在AAC之上。MPEG Surround為低碼率應用的立體聲和多聲道之間提供了連接。它具備良好的壓縮效果，同時保持了非常清晰的音質，且算力消耗較低。雖然HE-AAC能夠以48 kbit/s傳輸立體聲，但MPEG Surround可以在相同的48 kbit/s傳輸預算下傳輸5.1聲道音頻，且複雜度不超過立體聲 HE-AAC。因此，想要將立體聲服務拓展到5.1聲道音頻，可以使用MPEG Surround直接替代。

AAC-ELD

2007年，MPEG推出了AAC-ELD（Enhanced Low Delay AAC）技術。這項技術結合了來自其他標準的工具：HE-AAC v2和AAC-LD的SBR和PS。這個新的編解碼器在適度增加延遲的同時提供了更加強大的信號壓縮：AAC-ELD以48 kb/s的速度為單聲道信號提供出色的音頻質量（單向延遲僅為32毫秒）。

SAOC

2010年，MPEG發布了MPEG-D SAOC（Spatial Audio Object Coding，空間音頻對象編碼），它可以高效編碼多聲道信號（多個對象的混合，比如將各種單一樂器混合）。SAOC將多聲道信號下行混音（例如立體聲到單聲道），先將單聲道信號和一些輔助信息進行編碼和傳輸，然後將接收到的單聲道信號和輔助信息進行解碼然後上行混音到立體聲信號，以便用戶感知到樂器被放置在正確位置，且最終立體聲信號與原始信號相同。這是通過以下方法實現的：在任何時刻任何頻率區域，其中一種樂器將更傾向於主導其他樂器，所以此時/此頻率區域，其他信號（如果存在的話）將更難被感知到。SAOC分析輸入信號，將每個聲道分為時間「塊」和頻率「塊」，然後再確定每個「塊」的主導程度。這些信息都被編碼為輔助信息。

SAOC的一個應用是遠程會議，其中多個地點的會議電話可以在會議連接時被混合為單一聲道，並和SAOC的輔助信息一起傳輸給每個會議參與者。在用戶終端，單聲道被上行混音為立體聲（或者三聲道：左-中-右）並進行呈現，使得每個遠程會議參與者都處於前音場的不同位置。

USAC

2011年，MPEG推出了USAC（Unified Speech and Audio Coding），它將語音編碼和音頻編碼工具合併到一個算法中。USAC結合了MPEG AAC工具（利用人類感知音頻方法）和最先進的語音編碼工具（利用人類產生語音的方法）。因此，編碼器同時具備感知模型和語音激勵模型/聲道模型，可以每隔20毫秒動態地選擇音樂/語音編碼工具。使用這種方法，USAC在壓縮任何輸入信號（無論是音樂、語音還是音樂和語音的混合信號）時都達到了高水平的性能。

按照MPEG標準的傳統，USAC將立體聲信號的「良好」性能擴展到低至16 kb/s，並隨著碼率的提升提供更高的音質。128 kbit/s的立體聲信號質量稍好於MPEG-4 AAC，因此USAC可以代替AAC，因為在任何碼率下，USAC在性能上都能與AAC匹敵，或者優於AAC。類似地，USAC能夠編碼多聲道音頻信號，並且能夠以最佳方式編碼語音內容。

DRC

MPEG-D DRC（Dynamic Range Control，動態範圍控制）技術可以讓聽者能夠控制音頻水平。它可以作為每種MPEG音頻編碼技術的後處理器使用，並在播放時修改解碼信號的動態範圍。DRC可用來降低電影中音量最大的部分，這樣就不會打擾到你的鄰居。它可以在惡劣音頻環境下（汽車、公交車、房間裡有很多人）放大音頻中的安靜部分，還可以將音頻的動態與智慧型手機揚聲器的輸出（其動態範圍通常非常有限）匹配。在規範音頻輸出信號音量方面（在一些監管環境中可能會強制執行），DRC標準也發揮了非常重要的作用。DRC發布於2015年，並在2017年擴展為Amendment 1參數型DRC，增益映射和均衡工具。

3D Audio

MPEG-H 3D音頻發布於2015年，一如既往，它也是MPEG系列工具（系統、視頻和音頻）中的一部分。它提供了沉浸式音頻內容的高效編碼：編碼範圍通常在11~22個內容聲道。3D音頻算法可以處理任何聲道組合、對象以及HOA（Higher Order Ambisonics）內容。HOA中對象為單聲道音頻，具有動態的時間位置，HOA能夠將整個聲場編碼為多聲道「HOA係數」信號。

由於3D音頻內容是沉浸式的，所以可以將其看作是一部360度「電影（即視頻加音頻）」。用戶坐在360度球體中心（最佳聆聽地點），音頻被解碼和呈現給用戶，這樣用戶就會感知到來自周圍環境中某個地方的音頻。MPEG-H 3D音頻也可以通過耳機呈現，因為並不是每個用戶都擁有11或者22聲道的聆聽空間。除此之外，MPEG-H 3D音頻支持HRTF（Head Related Transfer Function，頭相關變換函數）的默認和個性化使用，以便使聽者感知音頻內容（仿佛來自聽者周圍的音源），就像使用揚聲器一樣。3D音頻在耳機中播放所添加的一個功能是：無論聽者如何轉動頭部，聽者所聽到的音頻可以一直保持在「正確位置」。也就是說，當用戶看向前方時，聲音是來自「前方」，而當用戶轉動頭部看向右側時候，聲音會被感知為來自用戶左側。因此，對於360度視頻應用來說，MPEG-H 3D音頻已經是一個接近完整的解決方案了。

結語

在這三十年中，MPEG的音頻組向市場輸入了一代又一代的音頻編碼標準。作為MPEG最佳傳統，這些標準在某種意義上是通用的，可用於純音頻或者音頻+視頻應用程式。隨著新一代音頻編碼標準構建在前代編碼標準之上，這些編碼標準通常可進行擴展。

下圖展示了這三十年的音頻編碼之路。

令人遺憾的是，MPEG組織已經不復存在了，但是關於MPEG的記憶都保存在了我的博客上：

https://mpeg.chiariglione.org/，歡迎大家閱讀。

注釋：

[1] https://blog.chiariglione.org/forty-years-of-video-coding-and-counting/

致謝：

本文已獲得作者Leonardo Chiariglione授權翻譯和發布，特此感謝。

原文連結：

https://blog.chiariglione.org/thirty-years-of-audio-coding-and-counting/

特別說明：

作者在原文基礎上進行了修改，並審閱了本篇中文譯文。

MPEG音頻編碼三十年

前言