動態隨機一般均衡模型(DSGE)會走向何方?

老雅痞 發佈 2022-11-10T04:10:45.442543+00:00

作者:Andy Preston事情並沒有想像的那麼糟糕自20世紀80年代開始,動態隨機一般均衡(DSGE)模型的使用在學術界的宏觀經濟學和中央銀行中已經變得無處不在了。這些模型是動態的,因為它們的特點是代理人會隨著時間的推移做出決定。

作者:Andy Preston

事情並沒有想像的那麼糟糕

自20世紀80年代開始,動態隨機一般均衡(DSGE)模型的使用在學術界的宏觀經濟學和中央銀行中已經變得無處不在了。這些模型是動態的,因為它們的特點是代理人會隨著時間的推移做出決定。它們是隨機的,因為它們以最終驅動模型的一系列變量波動的過程的不確定性為特徵。最後,它們是一般均衡模型,因為價格、利率和數量都是同時決定的,這意味著所有代理人都滿足他們的最優條件。在2007-09年的金融危機之後,這些模型受到了大量的批評。例如,見約瑟夫-斯蒂格利茨在2017年發表的非常有影響力的論文。在我看來,其中一些批評是有根據的,儘管很多批評是沒有根據的,而且應該注意到,在此後的十年中,許多更合理的批評已經被納入主流DSGE模型。然而,大多數批評都是針對DSGE模型的基本原則,例如,批評代表機構假設的有效性,或者強調這些模型沒有充分考慮到金融部門的作用以及由此產生的對整個宏觀經濟的摩擦。

Daniel J. McDonald和Cosma Rohilla Shalizi兩位統計學家在最近的一篇挑釁性的、有趣的論文中,將他們的批評指向DSGE文獻的另一個方面,即這些模型的估計過程。他們提出了兩個關鍵點,我將引用Shalizi關於這個問題的博文:

  1. 即使Smets-Wouters模型對經濟結構的判斷是完全正確的,而且它被賦予了幾個世紀的靜止數據,它的預測也會非常糟糕,而且許多 「深層」參數的估計仍然非常差。
  2. 在很多時候,隨機調換序列可以改善擬合效果,即使結果是實質性的廢話。

Smets-Wouters(2007)模型是一個大規模的DSGE模型,代表了文獻中的一個基準,因為它包含了大量宏觀經濟學家通常認為與實踐相關的摩擦。這是一個非常有影響力的模型,為中央銀行和金融機構使用的許多其他模型奠定了基礎。在他們的AER論文中,Smets和Wouters用美國的數據估計了他們的模型,並發現該模型在樣本中可以超過貝葉斯VARs(一種不同的宏觀技術,不對經濟世界的明確結構進行表態)的表現。這在一段時間內是對DSGE模型的嚴重打擊,也是私人部門大多對DSGE模型的目的持相當消極的看法的原因之一。

McDonald和Shalizi(以下簡稱MS)的批評表面上看非常令人擔憂。他們在上述兩點中的第一點基本上是說,如果我們採取一個DSGE模型,我們知道真實的參數集,使用參數化的模型來產生虛假的模擬數據,然後在模擬數據上估計模型,這個過程將不能可靠地獲得真實的參數。顯然,在實踐中,當我們估計這些模型時,我們並不知道真正的參數(否則我們就不會費心了),但這是在實驗室環境中測試估計性能的一種方法,我們知道真實的數據生成過程。如果在我們知道真相是什麼的情況下,模型不能找到真相,我們應該對在真實世界的數據上產生的估計結果持高度懷疑態度。因此,這是個低標準。然而,他們發現,模型無法通過這個低標準,許多參數估計值大大偏離了它們的真實值,而且隨著模擬樣本長度的增加,參數估計誤差也沒有下降。

這個結果讓我印象深刻,因為在我自己的工作中,我經常進行非常類似的練習,檢查一個模型在模擬數據上估計時是否能正確恢復參數,然後再將其用於真實數據。應該指出的是,這是在估計DSGE模型時的標準做法,與MS暗示的情況不同1。例如,Schmitt-Grohe和Uribe(2012)通過在與他們的經驗樣本相同長度的模擬數據上估計他們的模型,檢查他們的估計程序是否正確地恢復了真實參數。當我過去這樣做的時候,其表現通常是非常好的,與MS的發現形成鮮明對比。因此,我想對Smets-Wouters模型進行我自己版本的測試。我不會完全複製MS在他們論文中的做法,而是會嘗試做我認為典型的宏觀經濟學家在現實世界數據上估計他們的模型之前會做的事情。我將使用Matlab中的Dynare包來做一切,這在實踐中幾乎是普遍使用的。這是與MS的一個顯著區別:

「為了估計模型,我們最小化負對數可能性,並對先驗進行懲罰。這與在貝葉斯環境中尋找最大的後驗估計相同。由於可能性是不穩定的,有許多平坦的部分和局部最小值,我們使用R的optimr包。我們使用模擬退火法和共軛梯度技術來估計參數,模擬退火法以一種原則性的方式隨機地探索可能性表面。每個程序從5個隨機初始化(從先驗分布中抽取)開始,對每個起點運行50,000次疊代(可能性評價)」。

這一切都很好,使用R而不是Dynare也沒有錯,但Dynare的好處是它明確地設計用於解決和估計宏觀模型,並包括許多有用的診斷測試。例如,實踐中一個常見的問題是在估計過程中找到後驗密度的全局模式,如果不能做到這一點,就會在隨後的Metropolis Hastings算法中導致收斂性的重大問題。例如,Johannes Pfeifer表明,Jermann和Quadrini(2012)的原始估計就存在這個確切的問題,並且在修正後導致了明顯不同的參數估計和其他各種結論。Dynare內置了許多不同的模式搜索器,其中一些明確設計用於處理為多模態後驗密度尋找全局模式的問題,以及檢查以驗證全局模式確實被找到。該軟體包是通過一個豐富的開發者和用戶社區開發的,這意味著多年來已經發現了許多錯誤並隨後解決了這些問題。這讓我有信心,它能很好地進行估算,而任何仍然存在的問題都是真實的。

首先,我將對模型進行一些識別檢查,這是Dynare提供的另一個有用的功能。儘管MS將有關DSGE模型識別的文獻描述為 「相切」,但在現實中這是核心問題。如果一個參數的識別能力很差,增加數據量對其估計的準確性影響有限。眾所周知,這種弱識別是許多DSGE模型的問題,有許多關於這個主題的論文,如Canova和Sala(2009),Iskrev(2010),Komunjer和Ng(2011),以及其他許多人。這促使人們使用貝葉斯技術來估計宏觀模型,其中納入了關於可能不好識別的參數的先驗信息。上述後兩篇論文提出了診斷性測試,允許從業者評估參數集的識別程度,這些測試在Dynare中實現。讓我們看看在數據中使用的參數先驗集和觀測變量的情況下,SW中的估計參數集的識別程度如何:

看起來好像沒有確定四個參數,但正如Johannes Pfeifer在他的SW模型的Dynare文件中指出的,實際上不是這樣的。

「請注意,在先驗平均值上,cmap,crhopinf和cmaw,crhow是成對的。因此,在先驗均值上運行識別將返回一個警告。但這只是一個局部問題。這些參數只是在先驗均值處無法區分,但在不同的點上卻無法區分。」

其他參數大多都是相當好的識別。做這個識別測試絕對是好的做法,因為對於一些DSGE模型,會有一些參數識別得很差,或者完全沒有識別。

接下來,我將從SW模型中生成模擬數據,並將參數校準為他們在原始論文中發現的後驗模式。然後我將在模擬數據上估計模型,將每個估計的參數與它的 「真實 」值進行比較。我使用Dynare中的mode_compute = 9選項,這是一個旨在找到全局模式的模式搜索器,然後我將在用於評估後驗的Metropolis-Hastings算法中使用20,000次抽樣。我將對不同長度的模擬樣本進行操作,從300個季度的長度(N)開始,這大致相當於我們在實踐中考慮到數據可用性而通常使用的宏觀經濟數據的長度。然後我將增加到1000、2000和最後的5000個季度,評估估計誤差(估計參數和 「真實」參數之間的差異)是如何演變的。首先看一下300個季度的情況下的圖:

即使在這種現實的樣本長度情況下,估計的模型也能很好地恢復真實參數。當然,這些點並不完全落在45度線上,但誤差並不很大。這與MS的發現形成了鮮明的對比(引文已編輯,刪除了參數符號):

例如,勞動力供應對實際工資的彈性一直被低估了大約-93%。數據基本上沒有提供關于衡量實際工資對滯後通貨膨脹依賴性的參數的信息。其他估計不足的參數包括資本調整成本函數的穩態彈性。在所有這些情況下,估計都是有偏差的,所以使用真實數據的估計值來得出關於實體經濟的結論是不明智的。

在我對N=300的估計中,我發現勞動力供給對實際工資的彈性估計值為1.75,而真實值為1.95;實際工資對滯後通貨膨脹參數的依賴性估計為0.30,而真實值為0.32;資本調整成本函數的穩態彈性估計為0.23,而真實值為0.27。這些誤差顯然不大。全套參數的均方根誤差(RMSE)為0.09,無論如何也不會很誇張。

對全部模擬樣本長度的陣列重複這一練習:

參數集的RMSE隨著樣本長度的增加而下降,這與估計器的一致性概念相一致。這裡的結果表明,關於Smets-Wouters模型不能成功的批評是沒有道理的,即使在從自身產生的模擬數據上估計它,也是如此。我無法準確解釋為什麼我得到了如此不同的結果,這相當不令人滿意,但如果我必須猜測,我會把它歸結為Dynare與R的差異。就個人而言,我傾向於相信Dynare中產生的結果,原因如前所述。應該指出的是,Joshua Brault也進行了與我在這裡描述的非常類似的練習,並發現了非常類似的結果。

MS提出的第二點是,將用於估計模型的變量彼此重新標記,可以導致更好的擬合。我不太清楚該如何理解這一批評。值得提出的一點是,眾所周知,許多宏觀經濟變量之間顯示出非常高的相關性,因此,這可能會削弱變量之間互換對參數估計的影響。Otilia Boldea在Twitter上雄辯地提出了另外一個觀點,即這些變量交換產生了一個故意錯誤的模型,因此你估計的是錯誤的可能性。歸根結底,這意味著這個練習對模型的任何特定缺陷都沒有參考價值,純粹是一種統計練習。

我通常歡迎對宏觀範式的批評,包括那些不是來自內部人士而是來自另一個學科的批評,就像這裡的情況一樣。我的觀點是,這是一個重要的機制,通過這個機制,事情會得到改善。這方面的一個很好的例子是在大流行病期間,流行病學模型自然受到了大量的審查,這暴露出了「引擎蓋」下的一些緊迫問題。然而,Macdonald和Shalizi在這裡提出的這種特定的批評似乎充其量是誇大了。說Smets-Wouters模型即使作為數據生成過程也不能恢復真正的參數,這當然是不準確的,而且變量交換的批評可能並不像作者所說的那樣令人震驚。為了避免疑問,我絕不是說DSGE的估計完全沒有問題。事實上,在實踐中,識別是一個嚴重的問題,但這是宏觀經濟學家清楚地意識到的,並採取了措施來測試和解決。此外,模型的錯誤指定肯定是一個問題。Den Haan和Drechsel(2021)發現,Smets-Wouters模型存在這個問題,並提供了一些糾正措施。

跨學科的批評最終是一把雙刃劍。一方面,對一個根深蒂固的現狀的新視角無疑是有用的,應該受到歡迎。另一方面,我們不能指望一個不熟悉某個領域的人了解所有的相關文獻,因此,在這個過程中錯過一些既定的智慧也就不足為奇了。不幸的是,Macdonald和Shalizi對DSGE估計的批評似乎以犧牲前者為代價,大量採用後者。

注釋:1: 來自Shalizi的博文:「但是,『讓我們在模擬輸出上試試估計器 』是,或者說應該是一個完全標準的診斷方法,而且似乎也缺乏,儘管有大量關於DSGE的爭議性文獻」。

關鍵字: