對話騰訊天琴趙偉峰:當音樂與科技結合,會碰撞出怎樣的火花?

livevideostack 發佈 2022-09-30T18:59:47.080580+00:00

天琴座是北天銀河中最燦爛的星座之一,傳說這把「天琴」屬於古希臘音樂天才俄爾普斯,每每「撥動」它的琴弦,美妙的音樂便會流淌出來,飄散於世間的各個角落,令人們陶醉其中。騰訊音樂旗下的天琴實驗室正如這把精妙絕倫的天琴一樣,同樣為人們帶來了完美、流暢的音樂。

天琴座是北天銀河中最燦爛的星座之一,傳說這把「天琴」屬於古希臘音樂天才俄爾普斯,每每「撥動」它的琴弦,美妙的音樂便會流淌出來,飄散於世間的各個角落,令人們陶醉其中。騰訊音樂旗下的天琴實驗室正如這把精妙絕倫的天琴一樣,同樣為人們帶來了完美、流暢的音樂。近些年來,天琴實驗室一直致力於音頻技術的創新和研發,他們已經推出了聽歌識曲、哼唱識別、翻唱識別、智能字幕、智能修音、臻品音質、DMEE等音頻創新功能和產品。目前的研究方向包括歌曲識別、MIR音樂音頻理解、音頻合成和處理、歌聲ASR與歌詞時間戳技術、錄唱音質音效等。


背靠QQ音樂和全民K歌兩大app,天琴實驗室有著龐大的用戶群體,擁有最齊全的曲庫音視頻文件、歌曲歌詞數據、歌手數據、曲譜數據、歌曲版權等等,團隊目前申請的專利數達到300篇以上,獲得公司級技術突破獎與業務突破獎、優秀團隊獎等十多項,參與國際比賽與國際論文十多項,目前團隊正在持續發展壯大,開拓全新的更具備突破性的音樂技術能力領域。


近日,LiveVideoStack採訪到了騰訊音樂天琴實驗室的音頻技術負責人趙偉峰,請他來跟大家聊聊天琴實驗室在音頻技術上所取得的各類創新、與高校開展的研究合作、天琴所獲得的多項技術專利以及他對音頻技術發展的未來展望。另外,他還向我們講述了自己的音頻研發之路,並介紹了他自己比較滿意的工作成果。對於想要學習音頻技術的年輕人,他也給出了自己的獨家建議。

趙偉峰 騰訊音樂天琴實驗室 音頻技術負責人

趙偉峰,騰訊音樂天琴實驗室音頻技術負責人,T12級專家工程師,十餘年音頻行業從業經驗。畢業於寧波大學通信專業,2012年加入騰訊QQ音樂後一直負責音頻研發工作。目前負責歌曲識別算法、K歌錄唱算法、長音頻字幕和朗讀算法等3項核心技術,以及其他內外部合作的音頻算法研發。帶領團隊獲得國家專利獎、深圳市科技專利獎、公司級重大技術突破獎等多種獎項。先後牽頭和中國科技大學、西北工業大學、清華大學等高校成功完成專項技術合作。並在「聽見聽不見的聲音」歌單等公益項目中踐行科技向善。

文 / 趙偉峰

策劃、編輯 / Alex


LiveVideoStack:趙老師,您好。歡迎您來到LiveVideoStack,在正式開始之前,您能否向大家簡單介紹一下騰訊音樂天琴實驗室?

趙偉峰:天琴二字來自天琴座,寓意懸掛於北天的七弦琴,名字融合了音樂、科技、神話三重含義,可見公司對實驗室是有著極高的期望。天琴實驗室有非常多的明星產品,包括QQ音樂的聽歌識曲、哼唱識別、翻唱識別、智能字幕、公益歌單、臻品音質、DMEE,還有全民K歌的智能修音、歌聲合成、多維評分,另外還有歌聲ASR、智能音頻品鑑、MIRlab等中台系統建設。在視頻上有Music XR Maker、視頻指紋,以及其他40多項多媒體垂直方向上的技術研究,服務於各個產品和業務。天琴實驗室團隊成員由來自清華、中科院、港中文、愛丁堡、新加坡國立大學等國內外知名高校的碩博士組成。除了落地產品,天琴實驗室正積極探索多媒體和人工智慧技術方向上更多更前沿的技術,承載著騰訊音樂通往音樂元宇宙未來的希冀。


音頻之路

LiveVideoStack:您是如何對音樂以及音頻產生興趣的?又是如何走上音頻技術之路的?

趙偉峰:我讀研期間從事的是音頻方面的研究,一方面是我自覺資質愚鈍,所以就對自己說笨鳥就朝著一個方向飛,就一直選擇在垂直領域上持續投入研究下去;另一方面,因為我很早就看電子書,但一直覺得文字的信息傳遞有比較大的局限性,以後一定是有聲、圖文、視頻等多媒體信息的時代,所以當時就堅定地想投身在多媒體這一方向上。此外,以前行業裡面說的音頻其實是語音信號,英文叫speech,很多人說的音頻其實是這個方向。但是我個人覺得相對於語音信號,樂音信號,包括英文表示的music和singing voice等更有趣味和未來,而這方面空間也很大。而樂音的技術發展就在QQ音樂,所以當時聽說QQ音樂有崗位的時候,毫不猶豫買了機票背著全身家當飛來了深圳,這一路走來就是十年了。

LiveVideoStack:在您過去所做的音頻相關的工作中,哪些工作最令您滿意?

趙偉峰:有幾個點我覺得可以提一下。

第一,最早編碼了QQ音樂的笛音傳歌,通過聲波傳歌曲,雖然現在下線了,但是我覺得還挺新穎好玩,當時也有很多公司紛紛開始模仿。

第二,全民K歌的唱歌評分算法和調音台系統最初版本代碼。和客戶端同事一起完成核心錄唱系統,見證了一個產品從無到有做成功,並成為騰訊名品堂產品。

第三,QQ音樂的聽歌識曲和哼唱識別的優化,現在我們有專門請團隊幫忙做季度評測報告,對比多年前,效果提升很明顯。特別是翻唱識別的上線,以及加入歌聲ASR對哼唱等創新性的優化,在我們夯實產品基礎體驗的同時,加入技術創新實現了技術領先和用戶口碑。現在微信搖一搖和酷我音樂,小米Lite等都在使用我們的技術內核。

第四,在長音頻戰略開始時,快速完成篇章朗讀的技術布局,實現中英粵等多語言的篇章合成,節省成本的前提下還實現了營收。

另外還有和聯合團隊一起構建了QQ音樂和全民K歌的轉碼平台、音質檢測系統、歌曲入庫標準等一系列平台級的基建、標準化流程和文檔,這些系統和標準穩定運行至今,保障了兩個平台的音質核心體驗。

LiveVideoStack:如果有年輕人想學習音頻技術,您會給他/她什麼樣的建議?

趙偉峰:每個人都有他們自身的特點,結合自身特點,條條大路通羅馬。

如果是我的話,我給自己的建議是:

首先,系統地對音頻所有細分領域做一個盤點,了解學術界,擴大理論學習,做到心中有數。

其次,將各個大公司的音頻技術做一個盤點和功能試用,了解工業界,做到有實踐。

再次就是針對自己感興趣的點,看最新論文,多鑽研、多交流、多動手編碼實現,特別要重視技術指標,因為大的框架大部分人都能復現,主要看指標的差異。

最後一個其實我經常提到,練好基本功,在計算機基礎和代碼能力上多投入一些。研究員本身仍然是程式設計師,代碼能力要過硬。


天琴之美

LiveVideoStack:2022年至今,天琴在音頻技術上取得了哪些突破?克服了哪些技術障礙?

趙偉峰:1、我們開發了一套盜歌識別技術,能夠對於一些盜歌的公司或者個人的歌曲進行精準識別,然後歌曲下架、追責等。

2、我們開發了一套智能音頻品鑑技術,能夠對QQ音樂曲庫歌曲多維度評價,用於歌曲推薦,同時能夠用於全民K歌,挖掘優質用戶作品和優質歌手,用於推薦和識別有明星潛質的用戶。

3、全民K歌智能修音進行了技術優化,同時首次實現了外放可以修音的能力。

4、全民K歌上線了個性化歌聲合成,能夠3分鐘實現合成,不會唱的歌、唱上去有難度的歌都可以用合成實現,而且還可以用合成來修音。

5、我們上線了QQ音樂的DMEE、臻品音質、音量平衡等能力,實現音質音效升級。

6、長音頻的核心技術篇章合成,實現了中、英、粵三種語言技術能力,也實現了情感可控、情感遷移等比較難的技術突破。

LiveVideoStack:天琴實驗室與國內許多高校合作,這種合作能帶來哪些價值?怎麼實現學校、學生和企業多贏?

趙偉峰:我們現在和中科大、西北工業大學、清華大學等多個學校有合作,另外還有包括復旦大學、港中文等很多高校在持續接觸中。

這種合作高校可以帶給企業更前沿的研究,針對某一個關鍵技術實現突破,良好的合作也能給企業帶來更好的影響力和僱主品牌形象。

企業可以給高校帶來更多的工業界需求,更多的idea,促進工業界和學術界接軌,實現良性循環。

LiveVideoStack:據我們了解,天琴實驗室有很多專利,您能簡單介紹一下嗎?另外,除了專利,還有其他影響力建設嗎?

趙偉峰:騰訊音樂一向重視專利的申請,我個人大概寫了100多篇專利申請,天琴實驗室每年大概有60+專利立項,這些年持續有300+專利在國內外申請,另外在2021年和2022年分別獲得兩項深圳市科技專利獎,並在2022年獲得國家專利獎。

除了專利方面,我們還提倡大家發頂會論文、公眾號分享、外部交流、高校合作、國際比賽、公開數據集、行業標準等影響力建設。在過去幾年我們完成了3項行業標準立項,1項行業標準發布。當然還有科技向善,我們的《聽見「聽不見」的聲音公益歌單》項目、「心跳節拍」等都得到了很多有影響力的媒體轉載和傳播,贏得了不錯的口碑,未來我們會繼續在科技向善方面做更多的嘗試和投入,持續實現音樂向美,音樂向善。


展望未來

LiveVideoStack:前段時間,我們採訪了「MP3之父」Karlheinz Brandenburg教授,其中教授也談了他對AI音頻codec的看法,Brandenburg教授似乎不太看好這類codec,並認為它需要依賴於所學習的內容,有一定的局限性。您如何看待AI音頻codec的發展?

趙偉峰:我沒有讀過教授的原文,所以不太清楚前後背景和核心觀點,我接下來一定好好拜讀一下,一定會收穫非常多。這裡我說一些淺薄的想法吧。codec在傳統DSP時代有過很輝煌的歷史,有很多劃時代意義的codec被開發出來,到現在仍然是音樂使用的主流格式,對我們的研究和生活產生了重大影響。我們調研過目前的AI codec,仍然主要是在低碼率下的壓縮。對於有損壓縮來說,不管傳統codec還是AI codec,本質上都是提取一小部分數據,最終能夠將全部數據有損恢復出來。現在的AI codec也已經開始嘗試在語音上和遊戲上嘗試和驗證可行性。我理解教授說的局限性,仍然是在效果、運行速率等。另外我理解在無損codec上網絡也是有一些局限的。不過隨著技術的發展,一切都是有可能的。

LiveVideoStack:您如何看待近一年來元宇宙概念的爆火?您認為音頻將在元宇宙中發揮什麼樣的作用?

趙偉峰:我們非常積極地擁抱元宇宙,投入元宇宙的研究和落地。QQ音樂的音樂視界、全民K歌的TMELAND都在做元宇宙的嘗試,我們還有很多與元宇宙相結合的技術在持續研究中,音樂元宇宙,我們會在和音樂相結合的場景下做更多元宇宙技術的探索。元宇宙的音頻本身和傳統音頻一脈相承。語音上的編解碼、3A、ASR、TTS,音樂上的多軌編碼、MIR、音效、檢索、識別、合成等會仍然通用。不過未來可能會在空間音頻、聲源定位、人機互動等三個重要技術上有更高的指標要求和延伸出更多的應用場景。

LiveVideoStack:最後,還請您向大家介紹一下,在LiveVideoStackCon2022北京站的天琴技術專場上,來自騰訊音樂天琴實驗室的技術專家將會為觀眾帶來哪些技術分享?

趙偉峰:我們將主要分享四部分內容:

第一部分,介紹QQ音樂聽歌識曲、哼唱識別、翻唱識別,以及音色識別等歌曲識別相關的技術。

第二部分,全民K歌的唱歌評分以及智能音頻品鑑,如何從海量的用戶作品中篩選出優質作品呈現出來,打造一條平民走向明星的路。

第三部分,QQ音樂的銀河音效,會重點介紹空間環繞音效、音效製作工具等,並帶來更多我們在音效上的一些新思路。

第四部分和虛擬人相關,圍繞高精度的AI驅動模型還原真人歌舞表演等介紹我們的Music XR Maker系統的最新進展。

這四部分內容是我們在當前的眾多工作中精挑細選出來的,包含了QQ音樂和全民K歌,包括了前端功能,也涵蓋了作品內容,包括了當前落地,也涵蓋了探索研究,歡迎大家來現場或者線上一起交流,希望對大家有幫助。我們還有很多的技術在研究和落地,歡迎大家多使用QQ音樂和全民K歌體驗,也歡迎大家關注天琴實驗室公眾號來和我們做技術的交流和探討,互相學習。

*封面圖來自Unsplash,by Hanny Naibaho


▼掃描下圖二維碼或點擊閱讀原文

了解大會更多信息

關鍵字: