SPSS多元線性回歸分析流程

spssau 發佈 2024-04-10T23:13:36.592618+00:00

線性回歸分析流程圖如下:一、基本關係查看線性回歸分析是用於研究定量數據之間的影響關係的,通常先有相關關係,才會有回歸影響關係。所以一般在進行線性回歸分析之前,需要先查看一下數據之間的相關關係,可以通過查看變量之間的相關係數或者查看散點圖的方式進行。

線性回歸分析流程圖如下:

一、基本關係查看

線性回歸分析是用於研究定量數據之間的影響關係的,通常先有相關關係,才會有回歸影響關係。所以一般在進行線性回歸分析之前,需要先查看一下數據之間的相關關係,可以通過查看變量之間的相關係數或者查看散點圖的方式進行。

當前有一家公司,想要研究員工的初始工資、工作時間、教育程度、工作經驗是否會影響員工的當前工資,如果有影響,各個因素對當前工資的影響大小如何,故通過多元線性回歸進行分析(數據純屬虛構,僅做教學使用)。

首先查看數據之間的相關關係,分別使用散點圖和相關係數進行查看。

1、散點圖

散點圖用於直觀展示自變量X與因變量Y之間的關係情況,通常用於探索性研究階段。使用散點圖查看工資與初始工資、教育程度、工作時間、工作經驗之間的關係,利用SPSSAU可視化->散點圖得到分析結果如下:

上圖展示了分別以初始工資、教育程度、工作經驗為X軸,工資為Y軸得到的散點圖,從散點圖可以看出,工資與初始工資、教育程度、工作經驗之間關係為線性。

上圖為以工作時間為X軸,工資為Y軸繪製的散點圖,從上圖可以看到,工作時間與工資之間並沒有明顯的關係。但是散點圖的判斷比較主觀,不能說因為看起來沒有相關關係,就認為確實沒有相關關係,需要數據進行證實,故進行相關分析,查看變量間的相關係數,進一步進行數據關係查看。

2、相關分析

相關分析用於分析變量之間是否具有相關關係,回歸分析用於分析影響關係,通常先有相關關係,才會有回歸影響關係。所以在進行回歸分析之前,通常先進行相關分析,查看自變量與因變量之間的相關關係。

使用SPSSAU相關分析,得到工資與初始工資、教育程度、工作經驗、工作時間兩兩之間的相關係數表如下:

從上表可以看出,工資與工作時間之間的相關係數為0.101接近0,同時對應p值大於0.05沒有呈現出顯著性,而初始工資、教育程度、工作經驗與工資之間的p值均小於0.01,呈現出顯著性;所以將工作時間從回歸方程中剔除。

經過散點圖與相關分析得到,初始工資、教育程度、工作經驗都與工資之間具有顯著相關關係,而工作時間與工資之間並沒有相關關係,故將工作時間從線性回歸模型中移除。

接下來以工資作為因變量Y,初始工資、教育程度、工作經驗作為自變量X進行線性回歸分析。

二、總體顯著性檢驗

使用多元線性回歸分析過程中,顯著性檢驗應該包括兩部分內容:對多個自變量與因變量這個整體的顯著性檢驗(F檢驗),以及每個自變量對因變量影響的顯著性檢驗(t檢驗),二者都是對線性回歸的顯著性檢驗,但是檢驗目的不同。特別提示:僅僅在一元線性回歸分析過程中,F檢驗與t檢驗效果是等價的,因為此時只涉及到一個自變量。

首先進行總體顯著性檢驗,是使用F檢驗進行的,可以判斷多元線性回歸方程是否成立。SPSSAU多元線性回歸分析F檢驗輸出結果如下:

從上表可以看出,統計量F=4009.94,對應的p值小於0.05,所以多元線性回歸通過總體顯著性檢驗,回歸模型是有意義的,說明至少有1個X會對因變量Y產生影響。

接下來查看每個自變量對因變量影響的顯著性,即回歸係數顯著性檢驗。

三、回歸係數顯著性檢驗

回歸係數顯著性檢驗是指每個自變量對因變量影響的顯著性檢驗,使用t檢驗進行。SPSSAU輸出每個自變量對因變量影響的t檢驗結果如下:

從上表可以看出,初始工資、教育程度與工作經驗三個自變量對應t檢驗的p值均小於0.05,呈現出顯著性特徵。說明三個自變量X對因變量Y(工資)均呈現出顯著性。

多元線性回歸分析同時會輸出一些其他的指標,接下來將逐個進行說明。

四、其他指標解讀

(1)VIF值

VIF值用於共線性判斷,共線性是指在線性回歸分析時,出現的自變量之間彼此相關的現象。共線性出現的原因可能是由於多個自變量之間本身就存在很強的相關關係;或者由於收集的樣本量不足;再或者由於在回歸分析時錯誤的使用虛擬變量等都可能導致共線性問題的出現。

使用SPSSAU進行多元線性回歸時,分析結果會自動輸出VIF值,用來判斷是否存在共線性。一般VIF值大於10(嚴格大於5),則認為存在嚴重的共線性。SPSSAU輸出結果如下:

從上表可以看出,VIF值均小於10,說明不存在共線性問題。但有些文獻要求VIF值小於5才認為不存在共線性問題,嚴格來看,工作經驗的VIF=6.76>5,說明可能存在一定的共線性問題。如果認為數據存在共線性,可以手動移除相關性非常高的變量,或者改用逐步回歸、嶺回歸等方法進行分析。此處認為共線性可以忽略,故不再進行贅述。

(2)R方與調整後R方

R方用於分析模型的擬合優度,又稱決定係數。R方的值介於0~1之間,代表模型的擬合程度,一般認為越大越好。例如R方為0.5,說明自變量可以解釋因變量50%的變化原因。但是實際研究中並不會過多關注R方的大小,因為進行回歸分析更多的主要關注自變量對因變量是否具有影響關係。調整後R方並沒有實際意義,通常在進行模型調整(增加或者減少變量個數時)使用,用於判斷你的模型中該不該加入你想加入的變量。

SPSSAU輸出結果如下圖:

從上表可以看出,R方=0.973,說明自變量可以解釋因變量97.3%的變化原因,模型擬合較好。當進行模型調整時,可以關注調整後R方的變化。

(3)D-W值

模型的隨機干擾項相互獨立或不相關,是多元線性回歸模型的基本假設之一。隨機干擾項是數據本身的不確定性帶來的誤差。如果模型的隨機干擾項違背了相互獨立的基本假設,稱為存在自相關性。自相關性可以使用D-W檢驗進行分析。

D-W檢驗(杜賓-瓦特森檢驗),計量經濟,統計分析中常用的一種檢驗序列一階自相關最常用的方法。SPSSAU在進行線性回歸分析時,輸出D-W值如下:

一般認為,如果D-W值在2附近(1.7~2.3之間),說明不存在自相關性,模型構建比較好,反之如果D-W值明顯偏離2,說明模型具有自相關性,模型構建較差。

從上表得到,本次分析的D-W值=0.438,明顯偏離2,說明模型存在自相關性,模型構建較差。但是由於一般對於時間序列分析才會考慮DW值,本次分析數據並非時間序列,所以暫且忽略自相關性。如果在分析時需要自相關問題修正,可以使用廣義差分法,在此不再進行深入分析。

(4)殘差

在進行分析時,如果有需要,可以選擇勾選【保存預測和殘差值】選項,SPSSAU會輸出殘差值和預測值。

針對殘差值,一般會檢驗殘差值的正態性。如果殘差直觀上滿足正態性,說明模型構建較好,反之說明模型構建較差。SPSSAU利用殘差繪製直方圖,得到結果如下:

從直方圖可以看出,數據呈現出的分布並不對稱,但是從形狀來看,直方圖近似呈現「中間高,兩頭低」的鐘形分布形狀,說明數據為可接受的正態分布。即說明殘差符合正態分布,模型構建較好。如果殘差正態性非常糟糕,建議重新構建模型,比如對因變量Y取對數後再次構建模型等。

以上指標分析完成後,最後進行歸回分析結果解讀,判斷哪些自變量對因變量有顯著影響,影響方向、影響大小是怎樣的;構建回歸分析模型。

五、回歸分析模型

SPSSAU輸出回歸分析結果如下:

(1)模型公式

從上表可以看出,以初始工資、教育程度、工作經驗為自變量,工資為因變量進行多元線性回歸分析,得到回歸模型公式為:工資=18326.101 + 0.353*初始工資-280.300*教育程度 + 144.955*工作經驗。

特別提示:構建回歸模型使用非標準化回歸係數,它是方程中不同自變量對應的原始回歸係數,反映了在其他自變量不變的情況下,該自變量每變化一個單位對因變量作用的大小。通過非標準化回歸係數構建的回歸方程,才可以對因變量進行預測。

(2)影響大小比較

自變量對因變量影響大小的比較是通過標準化回歸係數進行比較的。標準化回歸係數的絕對值越大,說明該自變量對因變量的影響越大。

標準化回歸係數,是對自變量和因變量同時進行標準化處理後所得到的回歸係數,數據經過標準化處理後消除了量綱、數量級等差異的影響,是的不同變量之間具有可比性,因此使用標準化回歸係數比較不同自變量對因變量的影響大小。

從線性回歸結果可以看出,初始工資、教育程度、工作經驗的標準化回歸係數分別是:0.168、-0.046、0.881;所以工作經驗對工資的影響最大,其次是初始工資,影響最小的是教育程度,且初始工資與工作經驗對工資的影響是顯著正向的,而教育程度對工資的影響是顯著負向的。

(3)coefPlot

SPSSAU會輸出coefPlot圖,用於展示具體的回歸係數值和對應的置信區間,可直觀查看數據的顯著性情況,如果說置信區間包括數字0則說明該項不顯著,如果置信區間不包括數字0則說明該項呈現出顯著性。

具體數值還可通過SPSSAU輸出的回歸係數中間過程值表格查看,見下圖:

從上表可以看出,3個自變量回歸係數對應的置信區間均不包括0,說明3個自變量對因變量的影響均呈現出顯著性。

綜上所述,探究工資的影響關係,經過基本關係分析後,得到與因變量有相關關係的自變量後進行多元線性回歸分析,發現初始工資、教育程度、工作經驗對工資有顯著影響,其中工作經驗對工資的影響最大,多元線性回歸分析結束。

關鍵字: