使用變分原理改進正則化核回歸:推導和推廣Nadaraya-Watson估計

fans news 發佈 2021-12-03T22:06:49+00:00

核回歸技術是一組非參數方法,用於通過一組數據點擬合平滑的曲線。 Nadaraya-Watson 估計就是這樣一種方法。 它通常是在自變量分布的核密度估計以及因變量和自變量聯合分布的基礎上,通過計算因變量的條件期望得到的。

核回歸技術是一組非參數方法,用於通過一組數據點擬合平滑的曲線。 Nadaraya-Watson 估計就是這樣一種方法。 它通常是在自變量分布的核密度估計以及因變量和自變量聯合分布的基礎上,通過計算因變量的條件期望得到的。

在本文中,我將介紹推導 Nadaraya-Watson 估計(本篇文章中將其簡稱為「核回歸」)的另一種基本原理。 這個基本原理激發了一個變分原理,這將使我們能夠制定一個可以稱為「正則化核回歸」的修改。

許多回歸技術可以通過最小化關於二次損失函數的經驗風險或關於 N 個數據點 (x₁, y₁) 的殘差平方和 R[f] 推導出來,...:

相對於未知回歸函數 f 最小化問題,該表達式是不適定的,所以需要對 f 進行進一步的假設。 在參數化建模中,我們將 f 限制在某個假設空間中以使問題成為適定的。 例如,在線性回歸中,我們將 f 限制在仿射線性函數的空間,f(x) = m⋅ x + c。 確定斜率 m 和截距 c 使得上述殘差平方和最小,將產生最佳擬合曲線。 現在讓我們對上述公式應用一些數學變換,並逐步解釋這些:

第一個等式就是把平方展開,把y的平方展開作為它們自己的和。對於第二個等式,y的平方和對我們以後要應用的最小化過程沒有幫助因為它不依賴於我們想要最小化的函數f。因此,我們可以稱它為「const」。我們就不用管它了。

下一步至關重要。我們可以通過狄拉克δ函數來計算f在一個固定位置的值,就像這樣:

這將允許我們將整體損失 R[f] 寫成一個積分,並且經驗風險最小化變得可以通過變分計算的標準工具進行。

δ(delta)的正確定義需要對泛函分析有一定的了解,更準確地說是分布理論或「廣義函數」的理解。 但是根據我們的最終目標,可以將狄拉克δ函數想像為以原點為中心的非常窄的峰。我們可以通過新生 delta 函數的極限來近似狄拉克 δ 函數(新生成函數的度量在原點附近變得越來越集中)。

一般情況下這個名字就出現了 - 高斯:

這個函數族消失在 > 0的極限下,並在適當的意義上收斂於狄拉克函數。

最後,在用上述近似代替狄拉克函數之後,我們可以給出積分下的公式的名稱:L代表拉格朗日。(這個特定的拉格朗日函數實際上並不依賴於f '的導數,但我們稍後會用到它的通用性)

找到像這樣一個函數的平穩點——即一個用拉格朗日函數的積分表示的點——在數學和理論物理中有許多應用。例如,經典力學可以被重新表述為基於最小作用量原理的拉格朗日力學。另一個應用是對光線路徑的描述,它遵循費馬原理,也就是最小時間原理。

因此,這個問題有一個眾所周知的通解。在這裡我們感興趣的是最小化以下形式的函數:

函數f是若且唯若滿足以下歐拉-拉格朗日方程時的平穩點:

對於我們到目前為止導出的拉格朗日函數,通過最小二乘法 R[f] 的「抹去」和,所以右側消失了,因為導數 f ' 沒有依賴關係。

在這種情況下,歐拉-拉格朗日方程可以簡單地用代數方法求解f(x):

這正是 Nadaraya 和 Watson 提出的核回歸公式。

到目前為止,我們能夠推導出經過驗證的回歸技術。 現在可以進行更多的研究了,我們對變分原理進行一些修改。 例如,可以添加一個使模型正則化的項,並懲罰大導數:

λ > 0是一個正則化參數。我們還引入了常數因子「1 / N」,因此我們實際上是將平均經驗風險與正則化項進行比較。計算相應的歐拉-拉格朗日方程是一項簡單的任務:

當然,對於λ = 0,這個公式可以簡化為傳統的核回歸。這是一個二階線性微分方程一旦給出邊界條件或初始條件它就有唯一解。在R中,solve和bvpSolve包可以用於數值求解常微分方程。

讓我們模擬一些真實的數據。下圖顯示了Berkeley Earth (http://berkeleyearth.org/data/):)的1850年至2019年全球平均氣溫的時間序列

虛線是bandwidth h = 10.0的常規核回歸,實線是相同bandwidth 和正則化參數λ = 0.5的正則化核回歸的結果。歐拉-拉格朗日方程是通過施加一個邊界值問題來求解的,該邊界值是由前五年/最近五年的溫度中值給出的最早/最近的溫度。

本文提出的正則化核回歸有一些明顯的缺陷,例如:

  • 邊界條件需要被指定,這看起來像是一個特別的過程,
  • 嘗試應用初始條件似乎並不實際,而且會導致荒謬解決方案,
  • 在λ很小的情況下,數值可能不穩定。

但是該模型似乎也有一些理想的功能。例如,對於不同的bandwidth 選擇,它似乎相當健壯。下圖顯示了h = 1.0時使用相同的數據和回歸的函數,但bandwidth 更小:

傳統的核回歸似乎在很大程度上過度擬合了數據,但正則化版本「保持在正確的軌道上」。

該模型的另一個特點是:它可能更擅長處理丟失的數據。這裡有一個圖表,說明了同樣的回歸技術,但缺失1920年和1970年之間的數據:

我們可以利用這種健壯性來處理丟失的數據,並嘗試推斷出未來場景的時間序列。雖然傳統的核回歸在插值中肯定是有用的,但我們可以預期傳統的技術在這項任務中會失敗。

然而,正則化的核回歸可能會成功,因為增加了「慣性」λ。以下圖表顯示了對未來情景的先驗預測,即2040年全球平均氣溫將分別上升到15.2攝氏度、15.8攝氏度和16.4攝氏度:

對於每個外推,使用相同的模型超參數h = 10.0, λ = 0.5。儘管在擬合最終模型之前給出了先驗,但 2040 年 15.8 °C 的選擇並不是臨時的:推算到 2040 年的 15.8 °C 實際上是最好的預測,因為有了這個參數,(傳統的) 殘差平方和被最小化,這可以通過簡單的網格搜索來驗證。

核回歸是一種技術,可以通過最小化與二次損失函數相關的經驗風險的「平滑」或「塗抹」推導出來。 這種方法導致可以擴展的變分原理,例如通過添加正則化項。

對結果模型的一些實驗顯示了一些理想的特性,它可能會在預測時間序列中找到有用的應用。

作者:Matthias Plaue

關鍵字: