對話MP3之父:MP3的成功源自高效的音樂壓縮技術和優秀的商業模式

livevideostack 發佈 2022-08-09T06:23:58.154988+00:00

上世紀90年代初期,有一種音頻技術憑藉其驚人的壓縮效率,迅速席捲全球,並徹底改變了人們聆聽音樂的方式。



策劃、翻譯:Alex

技術審校:王晶


人物對話#005#



上世紀90年代初期,有一種音頻技術憑藉其驚人的壓縮效率,迅速席捲全球,並徹底改變了人們聆聽音樂的方式。


這種技術就是MP3,全稱為MPEG Audio Layer III,是一種用於數字音頻和音樂的編碼格式。它在保留最佳音質的同時,可以將文件大小縮減75%~95%。


通過MP3,人們可以輕鬆地訪問全球各種音樂,它也因此迅速獲得了巨大成功。然而,這對於當年的音樂行業來說,卻並不是什麼好消息。


當時發生了什麼?MP3開發過程中又有哪些故事?


為了深入了解這項偉大發明,LiveVideoStack近期採訪到了被人們稱為「MP3之父」的Karlheinz Brandenburg教授。雖然教授本人並不喜歡「MP3之父」這個稱呼,但他無疑是參與開發這一流行格式的最重要的科學家之一。



在這次郵件採訪中,Brandenburg教授談論了他是如何開始MP3研究工作的,他與團隊在開發過程中所遇到各種挑戰、MP3獲得巨大成功的重要原因,以及MP3給音樂行業所帶來的毀滅性災難。


Brandenburg教授還跟我們談論了他的新目標——創立一家世界領先的音頻技術公司,以及他目前所關注的音頻項目。



回望過去,教授告訴我們,他深受父母影響,並在很小的時候就培養了對於數學和工程的興趣,而這些興趣也很自然地為他日後的職業生涯奠定了基礎。


以下是LiveVideoStack與Brandenburg教授的對話內容。


LiveVideoStack: Brandenburg教授,我們非常高興您能參加我們的訪談,在正式開始之前,您可以向我們的讀者介紹一下自己嗎?


Karlheinz Brandenburg:我是Karlheinz Brandenburg,目前是伊爾默瑙工業大學(Technische Universität Ilmenau)的一位資深教授。除此之外,我還是Brandenburg Labs GmbH的CEO,這是一家致力於通過耳機實現完美逼真的沉浸式音頻體驗的初創公司。如果你以前聽說過我的名字,很可能是因為MP3。從最開始的基礎研究和標準化到之後的技術推廣,我和我的團隊重度參與了MP3格式的開發。



早年生活


LiveVideoStack: 您當初是如何對數學和工程產生興趣的?


Karlheinz Brandenburg:小時候,我就經常玩那些兒童工程玩具,我不僅能重新組裝它們,還嘗試從零開始搭建一切。我非常喜歡擺弄電子器件,甚至在很小的時候就可以自己製作集成電路。除此之外,我的父母也非常擅長數學,雖然他們後來並沒有從事數學工作。因此,在學校的時候,數學對我來說就很容易。因為我喜愛這門學科,所以我可以做得非常好。




LiveVideoStack:在您年輕的時候,有沒有一個特別的人對您產生了很大影響?


Karlheinz Brandenburg:我很崇拜我的父母。成長期間,我如饑似渴地閱讀書籍來拓寬我的知識面,我還演奏樂器,並喜歡身處大自然之中。我記得我讀過很多關於著名發明家的書,並思考他們的偉大成就。但我從沒有想過自己有一天也能成為一名發明家。



LiveVideoStack:回望過去,您會給年輕的自己什麼樣的建議?


Karlheinz Brandenburg:我給年輕的自己的建議是:堅持前行。我在學校時就一直是最優秀的學生,並作為團隊領導者和組織者承擔責任。在進入大學後,我決定將電氣工程和數學作為我的專業。因此,我必須努力學習並深入其中的概念以便更好地理解它們。我曾經同時肩負好幾項工作和職責;回望過去,我給自己的另一條建議就是:需要明白自己的限制所在,不應該做過多嘗試。



MP3發明之路


LiveVideoStack: 您能跟我們說說,您是如何開始MP3研發工作的嗎?


Karlheinz Brandenburg:事實上,MP3背後並沒有什麼重大計劃。我完成了電氣工程碩士學位,所寫的論文課題正是電子信號處理。這項工作需要一個較快的處理器,但當時這樣的處理器價格昂貴,而且那時大學也沒有這種特殊的計算機可用。


後來,我的教授和博士生導師Dieter Seitzer希望通過ISDN(綜合服務數字網,Integrated Services Digital Network)傳輸高質量音頻,尤其是音樂。這種早期的數字電話網絡的速度是128 kbps,放在今天早就已經不能用了。Seitzer教授當時要申請一個系統專利(在電話線上使用該系統分發音樂),但專利審查員告訴他這個系統不可能實現,因為它需要高得多的碼率。


因此,教授決定找一個博士生來深入研究這個系統,並詢問我是否願意接受這一課題。對於博士項目來說,這個課題非常棒,所以我同意來檢查它。不過,我當時和專利審查員的想法一樣,這個系統是無法正常運行的。後來當然它的效果比預期要好得多。20世紀80年代初,我們準備好了第一個系統。它基本上是針對語音編碼而開發出來的,並以30 KHz的採樣頻率運行在一台特製計算機上。任何其他多餘操作都會讓這台在Erlangen(埃朗根,德國城市)的電腦崩潰。


我們在各種會議上展示了這一發現,然後真正的工作開始了。我們研究了為什麼系統(至少針對某些音樂)會向終端用戶傳輸糟糕的音頻質量。這個時候,有人向我們提議研究人類對於聲音的感知(心理聲學),我使用迷你計算機做了一些測試,但這些計算機剛剛推出且速度非常慢,處理20秒的音樂要花上數小時。很遺憾,那時我們的工作依然沒有任何進展,按照科學方法,我們不得不考慮其他出路。而這個過程持續了好幾年。


1986年,我的一個想法被證明有了突破。我閱讀了一些關於人們如何處理語音編碼的論文,並將它們與我們早期的音頻壓縮理念結合。我們因此獲得了更大的靈活性,尤其是之前很難編碼的音樂也可以實現更好的聲音質量。通過這種方法,我們系統的效果比以前好了很多。


1986年下半年,我給我的論文導師寫了一封信,告訴他我認為有一種新的算法將成為最佳音樂編碼系統。我們由於參與了一項重大合同——計劃和開發一種被稱為DAB(數字音頻廣播,Digital Audio Broadcasting)的數字無線電系統,而獲得了公共基金的資助。我當時還只是所在大學的博士生。那時,Seitzer教授在Erlangen成立了一個新的Fraunhofer科研團隊,而我的碩士論文導師Gerhaeuser博士是其中研究這些課題的部門負責人。很快,我們就有了一些開發和標準化MP3的研究人員和各類資源。


當我們和歐洲其他研究團隊積極參與這個項目時,義大利電信(Telecom Italia)的Leonardo Chiariglione博士(MPEG創始人)也開始努力開發用於編碼視聽信號的通用標準。最初的目標是使用音頻和視頻的數字低碼率編碼將電影放到CD-ROM上。我們當時的總碼率為1.5 Mbps,其中視頻占據了大部分碼率。我因此有機會參加於德國漢諾瓦舉行的MPEG內部音頻專家組的第一次會議。


此時,MPEG音頻專家組的發展正處於早期階段。基本上,所有活躍於這個領域的研究小組都參加了第一次會議。在漢諾瓦的會議上,我第一次接觸到AT&T的貝爾實驗室,該實驗室的James D. Johnston和我所做的工作非常相似,我們隨後便開始了合作。最終,有14個研究小組提交了提案。在擁有相似想法的公司應該合作的壓力下,我們和AT&T以及其他公司一起提交了一個被稱為ASPEC的提案,該提案後來成為了MP3音頻的基礎。這一模式在低碼率下可以獲得最佳音頻質量,但同時它也是最早的MPEG-1音頻標準中最複雜的模式。



LiveVideoStack: 開發MP3過程中遇到的最大挑戰是什麼?


Karlheinz Brandenburg: 當時最主要的挑戰是:我在1988年完成博士學業時,仍然有一個信號無法達到預期,那就是美國歌手Suzanne Vega的歌曲Tom’s Diner(出自其音樂專輯Solitude Standing)中的無伴奏清唱聲音,在壓縮後聽起來非常糟糕。找到其中的問題以及如何解決在當時是一個技術障礙。


隨後的一個困難就是來自標準委員會的權力鬥爭。其他競爭對手要麼獲得了行業的廣泛支持,要麼與主流廣播電視公司有關係,相比之下,我們小組都是領域內的新人。Seitzer教授曾向德國的廣播電視公司提議,請他們了解一下我們的demo技術時,甚至被告知「毫無興趣」。


此外,標準委員會被各種權力人物和有話語權的個人分裂,反對我們提出的任何提案。



LiveVideoStack:作為一種音頻壓縮方案,MP3當時面對很多強勁的競爭對手。它是如何從中脫穎而出,並大獲成功的?


Karlheinz Brandenburg:在專利許可方面,我們最初參考了其他技術的做法。後來我們找到一種方案,既可以使我們受益,同時終端用戶也能免費使用這項技術,而軟體解碼器公司不得不支付相對低的一次性費用。除了PC(包括行動電話),被許可人都必須為每件出售的硬體支付一小筆費用。這些費用加起來很豐厚,而且今天有數十億手機和電腦都採用了MP3技術。


在消費者電子行業的一位重要管理者後來告訴我,我們這個在Erlangen的團隊是領域內為數不多知道如何在網際網路上做生意的人。


MP3成功背後的一個主要原因是:1997年左右,無需版權所有者的授權,人們獲得CD後,就可以使用MP3在網際網路上發行新的音樂。對我而言,這與盜竊無異。我們從不支持這種傳播方式,也無法對這些行為負責。當然,這種做法確實幫助了MP3的普及。



LiveVideoStack:您以共同發明MP3聞名於世界,但您為音頻世界所做出的貢獻遠遠不止這些,您可以跟我們介紹一下您做過的其他事嗎?


Karlheinz Brandenburg:我們先後在埃爾朗根-紐倫堡大學,伊爾默瑙工業大學繼續研究用於不同目的的最佳音樂壓縮方案。我重度參與了AAC(Advanced Audio Coding,高級音頻編碼)的開發。眾所周知,Apple公司選擇了AAC作為其主要編解碼器。之後在伊爾默瑙工業大學,我們的工作集中在為環繞音環境提供更好的音頻再現。我們想為揚聲器創造完美幻響(perfect illusion),而由荷蘭的代爾夫特理工大學(Delft Technical University)最初開發的方法非常有效。我們便與他們合作,進一步發展了這些方法,並最終推向了世界。當然,我們自己的技術(現在被稱為SpatialSound Wave)現在還是一個小眾產品,但當時的一些基本概念現在到處都在使用。



LiveVideoStack: 在MP3之後,音頻世界中還有哪些技術創新令您印象深刻?在您看來,音頻壓縮領域中的的下一個里程碑技術會是什麼?


Karlheinz Brandenburg:我認為音頻壓縮問題已被解決。雖然,一些人仍然在努力提升音頻質量。在電話線上傳輸高質量音頻用於通信這一古老夢想已經通過早期團隊的大量工作而實現。今天,大部分最新手機都能理解EVS(Enhanced Voice System)。Erlangen的團隊為開發EVS標準做出了重要的貢獻。我們目前的工作是實現另一個古老的夢想: 當你帶上耳機,我們稱之為真正的沉浸式音頻會讓你沉浸在周圍的聲音世界中,聽起來非常逼真。



席捲世界


LiveVideoStack:為什麼MP3會在網際網路上傳播得如此之快?當時發生了什麼?


Karlheinz Brandenburg:在網際網路上分享音樂的想法在MP3廣泛傳播之前就已存在。問題是大的音樂公司不希望售賣黑膠唱片和CD的生意被破壞。有了MP3,人們像野火一樣傳播音頻,而不必擔心發行的合法性。Apple的創始人史蒂夫·賈伯斯曾告訴那些大的音樂公司,它們沒有太多選擇。隨後,在網際網路合法發行音樂的想法也流行起來。



LiveVideoStack:您是從什麼時候開始意識到MP3給音樂行業帶來的巨大災難?


Karlheinz Brandenburg:在1994年後期,一位企業家想要通過網際網路售賣歌手過往作品中的音樂,他拜訪了我們並向我們申請MP3技術的專利許可。他當時已經預測到了低碼率編碼將會摧毀音樂行業。我們考慮幫助音樂在網際網路上合法發行,因為很明顯,這些新技術不會消失,它們將一直存在。


因此,我們開始研究音樂加密,計劃是發行可以解密合法文件的解碼器(不會增加額外成本)。以加密格式發行音樂意味著這些音樂不會複製給其他人。那個時候,音樂行業內的人士都知道我們在做這件事,所以他們從沒有向我們直接表達過怨恨。事實上,RIAA(Recording Industry Association of America,美國唱片協會)的前主席曾在一次訪談中稱我為朋友,如果他認為問題是我們造成的,就不會這樣說。


1998年以來,我們曾多次被問到,是否認為我們有可能因為未經授權音樂的發行而被起訴。我的回答是:MP3是日內瓦的ISO(國際標準化組織)發布的標準,我們不對標準如何使用承擔法律責任。



LiveVideoStack:在您看來,MP3獲得巨大成功的最主要原因是什麼?


Karlheinz Brandenburg:我認為MP3之所以獲得巨大成功,主要因為它是一個非常棒的音樂壓縮技術解決方案,同時我們優秀的技術許可商業模式讓所有人都可以使用MP3。它的出現恰逢其時:當時的PC速度足夠快,而且被廣泛使用。我認為MP3是在正確時間出現的正確技術,我們很幸運。



LiveVideoStack: 對於MP3來說,您即是研發者,也是推廣者。如您所見,這兩個工作哪一個更具挑戰性?


Karlheinz Brandenburg:我雖然是一名工程師,但我認為人們應該接受挑戰,將自己的發明推向市場。我在SDMI(Secure Digital Music Initiative,安全數位音樂組織)遇到了很多其他公司。SDMI是一個匯集了眾多想要為音樂行業找到出路的公司和個人的國際組織,其會議涉及內容和技術。我記得在洛杉磯的一家機場酒店中,SDMI的第一次會議開了一整天。SDMI的工作毫無進展,但我們的技術卻成功了。眾所周知,人們可以通過MP3輕鬆訪問全球範圍內的大量音樂,它已經風靡世界。



新的目標


LiveVideoStack:2019年,您辭去Fraunhofer IDMT(弗勞恩霍夫數字媒體技術研究所)所長一職,並創立了Brandenburg Labs GmbH。您為什麼會創立一家新公司?您想要達成什麼樣的目標?


Karlheinz Brandenburg:當我離開Fraunhofer,我意識到這可能是一個絕佳的機會,可以讓我專注於那些心中醞釀已久的想法(但過去卻沒有足夠的資源來實現)。特別是通過耳機實現完美音頻幻響(perfect audio illusion)這一想法已存在幾十年,但是其他公司的所有早期嘗試都沒有達到應有的聲音質量。我們便開始鑽研這個課題,在大學我們和幾個博士生一起進行了基礎的研究,最終發現了其他科研人員早些時候所忽略的內容。



當然,作為一名科學家,我一直希望技術可以以這種方式進步。我的博士生和我的發現也意味著教科書需要重寫。現在的問題是,我們能將這些技術加入到下一代智能耳機中嗎?


在離開Fraunhofer之後,我將自己的MP3專利費份額中部分剩餘資金用作新公司的種子資金。我們已經有了概念驗證(POC,proof of concept),但前路漫漫,仍要做許多其他事情。所以,我的目標就是創立一家世界領先的音頻技術公司。



LiveVideoStack:您目前正在關注哪些項目?可以跟我們介紹一下嗎?


Karlheinz Brandenburg:我們的基本想法是:利用人類大腦處理聲音信號的信息來提升聽力:就像戴眼鏡的人有時尋找架在鼻樑上的眼鏡一樣,眼鏡只是提升了我們的視力。戴耳機也是如此,如果房間裡噪音太大,你可以進行智能降噪,但這種降噪不同於我們今天所使用的技術。比如,你可以過濾掉一群互相喊叫的人聲,同時能夠提高聲音與他人交談。這將為用戶提供個性化的音頻實現。



LiveVideoStack: 憑藉著超低壓縮能力,AI音頻編解碼器正在吸引人們的注意力。您如何看待AI音頻編解碼器的優勢和局限?它的最佳應用場景在哪裡?


Karlheinz Brandenburg:我並不相信這種編解碼器。它需要總是依賴所學習的內容。我們發現,音頻壓縮或者MP3最重要的特點就是它們適用於一切。我認為AI音頻編解碼器最基本的問題是:它可能只適用於某一類樂器和聲音,而無法適用於每個你向它發出的信號。



LiveVideoStack:最後一個問題,如果您有一個機會和一位數學家或者音樂家對話,您最想和誰對話?您想和他(她)談論什麼?


Karlheinz Brandenburg:非常有趣的問題!音樂和數學常常聯繫在一起,我很想和這兩個領域的專業人士交流。在數學領域,目前仍然有很多未解難題。數學的美妙之處在於它能幫忙我們更好地理解事物。所以我總是在想我可以向數學家們學習。你可能覺得很難相信,但我從不會稱自己為數學家。數學從來都是學無止境。


另一方面,我熱愛音樂,所以我總是很喜歡和音樂家聊天。



致謝

感謝高澤華老師、王喆老師、LiveVideoStack的讀者朋友SoundStudio提供問題線索;感謝王晶老師審校了本篇採訪;感謝Brandenburg Labs GmbH的Franciska Wollwert在整個採訪過程中所提供的幫助。


本次採訪中所有圖片由Brandenburg Labs GmbH提供。


往期人物對話:

  • 對話Justin Uberti:RTC的過去、現在和未來
  • 對話RTP作者Ron Frederick: 我非常期待QUIC的發展
  • 對話Robin Marx:HTTP/3和QUIC將帶來重大機遇和挑戰


▼識別二維碼或猛擊下圖訂閱課程▼

關鍵字: