詩歌倒放後,奇怪的聲音增加了!

中科院物理所 發佈 2020-05-19T17:11:11+00:00

「我給你 37 美元,求求你把這桶油搬走吧」。 為什麼有 32 個關卡的超級馬里奧兄弟只要 64KB?10. 方程 E = mc² 中,m 的能量從何而來?

讓我們先來做一道聽寫題。放心,中文的那種!

仔細聽,默寫出該古詩:

什麼?剛聽完的你肯定是滿頭霧水,確定沒放錯碟?碟是沒放錯,我只是動了點手腳。看圖說話,你就應該明白我動了什麼手腳。

原始波形

更改波形

猜出來了嗎?沒錯!我僅僅是把原片段的波形完全反向播放了,聽起來中文朗誦的古詩變成了一段奇怪的聲音。那麼,我們原來的古詩是什麼呢?

沒想到吧!如此熟悉的一段古詩,經過小小的操作之後,竟然變成了我們完全不熟悉的味道,與此類似的我們還可以將原聲音反相操作,即聲音的波形上下顛倒。

反相波形

什麼?聽起來和原始的竟沒有什麼差別。事情開始變得有點意思了,為了搞清楚聲音這個淘氣鬼,我們得先了解一下聲音波形。

我們都知道聲音的產生是由於發聲體振動,帶動周圍介質振動形成的機械波,在氣體和液體中它以縱波的形式存在,而在固體中伴隨有橫波的出現。對於我們日常接觸到的,自然就是空氣中的聲波,它導致空氣形成疏密相間的排列,如果對某一點進行壓力測量,就可以得到時間為橫軸,壓力為縱軸的一維圖像。

空氣疏密相間的排列

聲波的一維圖像

採樣率和位深:自然界的聲波是模擬信號,對於連續變化的波形,計算機記錄的時候必須時間上間隔採樣,每個採樣點計算機將壓力信號轉化為電信號,進行數模轉化後,用於記錄振幅的二進位比特位數叫做位深。較高的位深度可提供更多可能的振幅值,產生更大的動態範圍、更低的噪聲基準和更高的保真度。

高採樣率更好重現原始波形

採樣率則表示每秒的數字採樣的數目。可以想見,採樣率越高,數字波形的形狀越接近原始模擬波形。低採樣率會限制可錄製的頻率範圍,這可導致錄音表現原始聲音的效果不佳。為了重現給定頻率,採樣率必須至少是該頻率的兩倍。例如,CD 的採樣率為每秒 44,100 個採樣,因此可重現最高為 22,050 Hz 的頻率,此頻率剛好超過人類的聽力極限 20,000 Hz。

聲音頻譜:世界上聲音如此美妙複雜,就是因為它們不是同一頻率、振幅的重複,而是不同頻率、振幅,甚至相位的疊加,我們以上討論的波形圖表達的是聲音在時間(振幅)上的特性,有沒有方法能讓我們看到聲音的頻率特性呢?你一定想到了一個人的名字——傅立葉。傅立葉變換正是將時間域的分布,轉化為頻率域的分布,即我們看到的複雜波形可以看做是無窮多不同頻率、振幅的簡諧波的合成結果。

聲音的幀:想要得到聲音的頻譜,我們首先要對音頻切片,通過傅立葉變換對一小段時間內聲波的分析,這是有效並且有意義的。這就是聲音的幀的概念,它一般是ms級別的片段。語音識別領域,語音的基本單位是音素,它表示語音的基本發聲單元,在漢語裡可以理解成聲母韻母。音素是由數幀組成的,不同音素進而組成單詞,完成識別。所以對幀的聲音模型分析,就至關重要。已編碼的音頻文件,幀的大小一般規定為1024個採樣點的時間間隔,對於44100Hz的採樣文件,它的時間長度為:1024*1000/44100ms,大約為23.2ms。

如果我們把一整段音頻的幀的頻譜按照橫軸展開,就可以得到語譜圖(spectrogram),它可以叫做聲音的時頻譜。它的橫軸代表時間,縱軸代表頻率大小,亮暗代表振幅大小。

貝多芬的《致愛麗絲》的某一幀的頻譜和時頻譜。

在我們解決開頭的問題前,我們還是得先明確一件事情,那就是一段音頻聽上去一樣意味著什麼?直覺告訴我們如果兩段音頻的波形相近,那它們聽起來應該是接近的。很幸運我們的直覺是對的,對一段波形上下顛倒的反相,沒有改變這段聲音。這基於自然產生的聲音波形一個很有趣的特點,那就是大尺度上,聲音的波形是對稱分布的,這是聲音起源於物體往復振動的結果。

然而,對於波形不一致的聲音,它們也有可能聽起來一樣。波形並不能作為判斷聲音一致的黃金法則。(關於這一點可以參考資料3)

聲音波形大尺度上對稱

波形不靠譜,看來我們得從頻譜上想想點子。我們已經提到了幀的概念,想一想兩段聲音聽起來一致,它應該意味著,每一幀的聽感是一致的,並且幀的排列順序是一致的。對於每一幀來說,頻譜有振幅和相位,參考3告訴我們人耳對相位是不敏感的,在滿足相位不敏感的情況下,決定一致與否的就是每一幀的振幅頻率譜和幀的排列順序,哎,這不就是語譜圖嘛。看來語譜圖的一致和聽感一致有著很大的關係。對於聲音的反向和反相操作,我們可以試著去解釋。

對過程感興趣的可以閱讀附言,這裡給出結論:

  1. 聲波反向操作後,對應的語譜圖也是反向的。聽起來自然會奇怪。

  2. 聲波反相操作後,對應的頻譜整體相位移動了180度,並未改變語譜圖。人耳對於這180度相移是不敏感的,所以聽起來是一致的。

對聲音採樣和頻譜有了簡單了解後,我們甚至可以做一些語音加密的小伎倆。比如對於雙通道的音頻文件,除去文件頭信息,它按左右左右順序存入的是波形採樣值,如果我們對原採樣值進行變換(不能超過位深),這就是一種簡單的加密編碼。

當然,倒放模仿也許是一種更輕鬆愉快的遊戲,錄製一段音頻,然後反向它。邀請別人去模仿反向後的音頻,二次反向後,不妨看他能不能猜出原始語音呢?不說了,我要去捉弄別人了!

參考:

1.部分圖片來源於網絡

2.Adobe 用戶指南

3.https://zhuanlan.zhihu.com/p/33554898

4.https://zhuanlan.zhihu.com/p/71582795

5.https://zhuanlan.zhihu.com/p/66117227

附言

從傅立葉變換的角度我們來解釋一下反向和反相後,對語譜圖和聽感的影響。實際上,聲音處理的傅立葉變換採取的是非周期的離散傅立葉變換(DFT)。通常用快速傅立葉變換(FFT)計算。為了說明,我們簡化成了連續傅立葉變換。(這裡僅僅從整體變換出發,結論是可靠的)對於原聲波,假設有變換:

1.對聲波反向播放,對應的時頻譜在時間上反向並不奇怪。我們需要說明的是,對於每一幀而言,它的幅度頻譜是完全確定的。時間反向,影響的是傅立葉變換中正負頻率的對應像函數,它們對調了。對最終所求振幅頻譜是沒有影響的。(某一頻率的振幅是正負頻率像函數相加的結果,在DFT的情況下,是對稱頻率分量的相加,參考4、5有相應的解釋)。相位頻譜因為需要將反向後頻譜平移到時間零點,根據時移特性,會移動。總而言之,每一幀的(幅度)頻譜未變化,整體時間反向,因而時頻譜呈現了反向的關係。

原頻譜

反向頻譜(已經水平鏡像)

2.對聲波反相的結果是:

反相變換後所有頻率像函數的相位移動了180度,語譜圖是振幅頻率譜,所以語譜圖是不變的。由於人耳對於整體180度相位改變是不敏感的(參考3),所以導致聽起來聲音也是一致的。在人耳對幀的相位不敏感的情況下,語譜圖一致和聽感一致是統一的。

原頻譜

反相頻譜

原標題:奇怪的聲音增加了

來源:中科院高能所

編輯:米老貓

↓ 點擊標題即可查看 ↓

1. 為什麼不倒翁小姐姐能搖一晚上不倒?

2. 如果在家考,作弊就很容易嗎?

3. 「我給你 37 美元,求求你把這桶油搬走吧」

4. 老師隔離後用射擊遊戲上網課,真不怕學生看完更想玩遊戲?

5. 被五步蛇咬,走幾步才最安全?

6. 我們從不騙你,除非……你不懂物理

7. 為什麼菜油倒海上能救命?這道題美國學霸國父也不會做

8. 為什麼有 32 個關卡的超級馬里奧兄弟只要 64KB?

9. 十大物理效應,一次看個夠!

10. 方程 E = mc² 中,m 的能量從何而來?

關鍵字: