多元統計分析期末複習筆記

智慧小刀愛分享 發佈 2022-07-07T04:30:51.350210+00:00

註:此筆記僅由個人根據老師給的期末考綱進行歸納第1章多元正態分布的基本概念一、多元分布的基本概念1. 隨機向量(概念)P22. 分布函數與密度函數(概念)P33. 隨機向量的數字特徵(公式)P4​二、統計距離1.

註:此筆記僅由個人根據老師給的期末考綱進行歸納

第1章多元正態分布的基本概念

一、多元分布的基本概念

1. 隨機向量(概念)P2


2. 分布函數與密度函數(概念)P3


3. 隨機向量的數字特徵(公式)P4

二、統計距離

1. 馬氏距離的定義

馬氏距離表示數據的協方差距離,是一種有效的計算兩個未知樣本集的相似度的方法。馬氏距離也可以定義為兩個服從同一分布並且其協方差矩陣為∑的隨機變量之間的差異程度。 是用坐標差平方除以方差(或說乘以方差的倒數),從而轉化為無量綱數的,推廣到多維就要乘以協方差陣∑的逆矩陣∑-1。

(歐氏距離是一個通常採用的距離定義,指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離)。在二維和三維空間中的歐氏距離就是兩點之間的實際距離。)

2. 歐氏距離與馬氏距離的差別

歐氏距離是馬氏距離的特例,馬氏距離考慮了數據的協方差,馬氏距離中協方差矩陣是單位矩陣時就是歐氏距離。

1)馬氏距離的計算是建立在總體樣本的基礎上的,這一點可以從協方差矩陣的解釋中可以得出,也就是說,如果拿同樣的兩個樣本,放入兩個不同的總體中,最後計算得出的兩個樣本間的馬氏距離通常是不相同的,除非這兩個總體的協方差矩陣碰巧相同;

2)在計算馬氏距離過程中,要求總體樣本數大於樣本的維數,否則得到的總體樣本協方差矩陣逆矩陣不存在,這種情況下,用歐氏距離計算即可。

3)還有一種情況,滿足了條件總體樣本數大於樣本的維數,但是協方差矩陣的逆矩陣仍然不存在,比如三個樣本點(3,4),(5,6)和(7,8),這種情況是因為這三個樣本在其所處的二維空間平面內共線。這種情況下,也採用歐氏距離計算。

4)在實際應用中「總體樣本數大於樣本的維數」這個條件是很容易滿足的,而所有樣本點出現3)中所描述的情況是很少出現的,所以在絕大多數情況下,馬氏距離是可以順利計算的,但是馬氏距離的計算是不穩定的,不穩定的來源是協方差矩陣,這也是馬氏距離與歐氏距離的最大差異之處。

三、多元正態分布

1. 多元正態分布的性質:P10

四、均值向量和協方差陣的估計

1. 離差陣的定義:P14

五、常用分布及抽樣分布

1. 分布之間的關係(不需要性質):P15~P18


第2章 均值向量和協方差陣的檢驗

一、均值向量的檢驗

1. 多元統計的檢驗(檢驗統計量):P22~P23

2. 多總體均值的檢驗(檢驗程序及分布)P25~P27

二、協方差陣的檢驗(這個看一下就好,均值檢驗公式才是重點)

協方差陣的檢驗:P27~P28

第3章 聚類分析(填空、問答)

註:聚類、判別、因子、主成分考很多問答題

1.聚類分析與判別分析的相關和區別(必考)

1. 聚類分析。根據研究對象特徵對研究對象進行分類的一種多元分析技術,把性質相近的個體歸為一類,使得同一類中的個體都具有高度的同質性,不同類之間的個體具有高度的異質性。根據分類對象的不同分為樣品聚類(Q聚類)和變量聚類(R聚類)。

2. 判別分析。根據一定量案例的一個分組變量和相應的其他多元變量的已知信息,確定分組與其他多元變量之間的數量關係,建立判別函數,然後便可以利用這一數量關係對其他未知分組類型所屬的案例進行判別分組。

判別分析中的因變量或判別準則是定類變量,而自變量或預測變量基本上是定距變量。依據判別類型的多少與方法不同,分為多類判別和逐級判別。判別分析的過程是通過建立自變量的線性組合(或其他非線性函數),使之能最佳地區分因變量的各個類別。

3. 區別與聯繫。

聯繫:都是研究分類的。(區別:聚類分析事先不知道研究對象的類別)

區別:(1)基本思想不同。

聚類分析的基本思想:根據相似性(親疏關係),具體找出一些能夠度量樣品或指標之間相似程度的統計量,把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些相似程度較大的樣品(或指標)又聚合為另一類;關係密切的聚合到一個小的分類單位,關係疏遠的聚合到一個大的分類單位,直到把所有的樣品(或指標)聚合完畢。

判別分析的基本思想:對已知分類的數據建立由數值指標構成的分類規則即判別函數,然後把這樣的規則應用到未知分類的樣本去分類。

(2)研究目的不同。

雖然都是研究分類的,但在進行聚類分析前,對總體到底有幾種類型不知道(研究分幾類較為合適需從計算中加以調整)。判別分析則是在總體類型劃分已知,對當前新樣本判斷它們屬於哪個總體。

(3)聚類分析分兩種:Q型聚類(對樣本的聚類),R型聚類(對變量的聚類)

聚類分析需要注意的是,一般小樣本數據可以用系統聚類法,大樣本數據一般用快速聚類法(K均值聚類法),當研究因素既有分類變量又有計量變量,可以用兩步聚類。

(4)判別分析。

有Fisher判別,Bayes判別和逐步判別。一般用Fisher判別即可,要考慮概率及誤判損失最小的用Bayes判別,但變量較多時,一般先進行逐步判別篩選出有統計意義的變量,再結合實際情況選擇用哪種判別方法。

聚類分析的基本思想(課本):

我們認為,所研究的樣品或指標(變量)之間存在程度不同的相似性(親疏關係)。於是根據一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間相似程度的統計量,以這些統計量作為劃分類型的依據,把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)聚合為另一類......關係密切的聚合到一個小的分類單位,關係疏遠的聚合到一個大的分類單位,直到把所有的樣品(或指標)都聚合完畢,把不同的類型一一划分出來,形成一個由小到大的分類系統。最後再把整個分類系統畫成一張分群圖(又稱譜系圖),用它把所有的樣品(或指標)間的親疏關係表示出來。聚類分析不僅可以用來對樣品進行分類,也可以用來對變量進行分類。對樣品分類常稱為Q型聚類分析,對變量的分類常稱為R型聚類分析。

2.系統聚類分析的基本思想

先將聚類的樣本或變量各自看成一群,然後確定類與類間的相似統計量,並選擇最接近的兩類或若干個類合併成一個新類,計算新類與其他各類間的相似性統計量,再選擇最接近的兩群或若干群合併成一個新類,直到所有的樣本或變量都合併成一類為止。

首先,將n個樣品看成n類(一類包含一個樣品),然後將性質最接近的兩類合併成一個新類,得到n-1類,再從中找出最接近的兩類加以合併,變成n-2類,如此下去,最後所有的樣品均在一類,將上述並類過程畫成一張圖(稱為聚類圖)便可決定分多少類,每類各有哪些樣品。

聚類分析的基本思想和功能是什麼?

聚類分析的核心思想是根據具體的指標(變量〉對所研究的個體或者對象進行分類,使得同一類中的對象之間的相似性比其他類的對象的相似性更強。聚類分析不僅可以用來對樣品進行分類,也可以用來對變量進行分類。對樣品的分類常稱為Q型聚類分析,對變量的分類常稱為R型的聚類分析。

聚類分析的目的或功能就是把相似的研究對象歸成類,即使類間對象的同質性最大化和類與類間對象的異質性最大化。

3.系統聚類分析的步驟P47

看課本

系統聚類分析法的基本步驟為(數據的正規化和標準化;正規化和標準化數據)、(數據分類尺度計算;計算數據分類尺度)、(分類樹形圖的繪製;繪製分類樹形圖)和(類別的劃分;劃分類別)。

4.相似性度量(幾個距離公式了解一下)P40-41

5.類和類的特徵(方法):P44~P46

6.K-均值聚類的過程,操作步驟(程序、過程、操作步驟):P56-P57

k均值聚類算法是一種疊代求解的聚類分析算法,其步驟是,預將數據分為K組,則隨機選取K個對象作為初始的聚類中心,然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。每分配一個樣本,聚類的聚類中心會根據聚類中現有的對象被重新計算。這個過程將不斷重複直到滿足某個終止條件。終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,沒有(或最小數目)聚類中心再發生變化,誤差平方和局部最小。

7.系統聚類法的原理和步驟P62

(1)系統聚類的基本思想是:距離相近的樣品(或變量〉先聚成類,距離相遠的後聚成類,過程一直進行下去,每個樣品(或變量)總能聚到合適的類中。

(2)系統聚類的具體步驟:假設總共有N個樣品(或變量)

第一步:將每個樣品(或變量)獨自聚成一類,共有N類;

第二步:根據所確定的樣品(或變量)「距離」公式,把距離較近的兩個樣品(或變量)聚合為一類,其他的樣品(或變量)仍各自聚為一類,共聚成N-1類;

第三步:將「距離」最近的兩個類進一步聚成一類,共聚成N-2類;。。。,以上步驟一直進行下去,最後將所有的樣品(或變量)全聚成一類。

第4章 判別分析(最核心的幾個方法類,流程、思想)

1. 判別分析的思想和步驟(必考)P82

1. 其基本原理是按照一定的判別準則,建立一個或多個判別函數,用研究對象的大量資料確定判別函數中的待定係數,並計算判別指標。據此即可確定某一樣本屬於何類。

基本思想:根據判別中的組數,可以分為兩組判別分析和多組判別分析;根據判別函數的形式,可以分為線性判別和非線性判別;根據判別式處理變量的方法不同,可以分為逐步判別、序貫判別等;根據判別標準不同,可以分為距離判別、Fisher判別、Bayes判別法等。

2. 步驟:已知某種事物有幾種類型,現在從各種類型中各取一個樣本,由這些樣本設計出一套標準,使得從這種事物中任取一個樣本,可以按這套標準判別它的類型。

判別分析的6個步驟過程:

(1) 判別分析的對象:這一步驟主要根據判別分析的研究目的定義觀測變量。

(2) 判別分析的研究設計:主要包括解釋變量和被解釋變量的選擇、估計判別函數所需的樣本量和為了驗證目的對樣本的分割。

(3) 假定:推導判別函數的關鍵假定是解釋變量的多元正態性和被解釋變量定義的各組的未知但相等的協方差結構。

(4) 估計判別模型和評估整體擬合:研究者必須確定估計的方法,然後確定保留的函數個數;根據估計的函數可用多種方法來評估模型擬合。

(5) 結果的解釋:這個過程主要介紹在判別分析中每個解釋變量的相對重要性,主要有標準化判別權重、判別載荷(結構相關係數)、偏F值三種方法確定重要性

(6) 結果的驗證:通常採用分割樣本或者交叉驗證法。

判別分析的流程:研究問題>設計要點>假定>估計判別函數>使用分類矩陣估計預測的精度>判別函數的解釋>判別結果的驗證。

2.距離判別:P84-P85

3.判別分析的上機步驟(例4-1)P90-P103

第5章 主成分分析

(考1個分析題,看下例題,解釋重點表,內容含義,涉及計算,如何保留主成分)

1.主成分分析的原理、基本思想、步驟:

對於原先提出的所有變量,將重複的變量(關係緊密的變量)刪去多餘,建立儘可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面儘可能保持原有的信息。 設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量儘可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。

2.基本思想:

保持原始變量儘可能多的信息的前提下達到降維的目的。

主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現在F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。

3.步驟:

1. 指標數據標準化(SPSS軟體自動執行);

2. 指標之間的相關性判定;

3. 確定主成分個數m;

4. 主成分Fi表達式;

5. 主成分Fi命名。

4.總體主成分及其性質:P110-P115

5.主成分分析的上機實現(計算):P120-P132

第6章 因子分析

1. 因子分析的基本思想及步驟(原理、思想、步驟):

基本原理是:為了從總體上把握兩組指標之間的相關關係,分別在兩組變量中提取有代表性的兩個綜合變量U1和V1(分別為兩個變量組中各變量的線性組合),利用這兩個綜合變量之間的相關關係來反映兩組指標之間的整體相關性。

2.基本思想:P135

3.步驟:P143

(1)確認待分析的原始變量是否適合作因子分析;(2) 構造因子變量;(3)利用旋轉方法使因子變量具有可解釋性;(4)計算每個樣本的因子變量得分。

4.因子載荷的求解:P139-142(主成分法、主軸因子法、因子旋轉法)

5.主成分分析與因子分析的區別與關聯、異同點(必考):P143

聯繫:兩者都常用於數據降維和信息濃縮,都是從一個協方差陣出發。生成的新變量均包括了原始變量的大部分信息(一般大於80%,可根據具體情況定)且新變量之間互相獨立,都可以用於後續的回歸分析、判別分析、聚類分析等。主成分分析是因子分析的一個特例。

區別

(1)原理不同

主成分分析(Principal components analysis,PCA)基本原理:利用降維(線性變換)的思想,在損失很少信息的前提下把多個指標轉化為幾個不相關的綜合指標(主成分),即每個主成分都是原始變量的線性組合,且各個主成分之間互不相關,使得主成分比原始變量具有某些更優越的性能(主成分必須保留原始變量90%以上的信息),從而達到簡化系統結構,抓住問題實質的目的。

因子分析(Factor Analysis,FA)基本原理:利用降維的思想,由研究原始變量相關矩陣內部的依賴關係出發,把一些具有錯綜複雜關係的變量表示成少數的公共因子和僅對某一個變量有作用的特殊因子線性組合而成。就是要從數據中提取對變量起解釋作用的少數公共因子(因子分析是主成分的推廣,相對於主成分分析,更傾向於描述原始變量之間的相關關係)。

(2)線性表示方向不同

因子分析是把變量表示成各公因子的線性組合;

主成分分析中則是把主成分表示成各變量的線性組合。

(3)假設條件不同

主成分分析:不需要有假設;

因子分析:需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子之間也不相關,共同因子和特殊因子之間也不相關。

(4)求解方法不同

求解主成分的方法:從協方差陣出發(協方差陣已知),因子從相關陣出發(相關陣R已知)。

(實際研究中,總體協方差陣與相關陣是未知的,必須通過樣本數據來估計)

注意事項:由協方差陣出發與由相關陣出發求解主成分所得結果不一致時,要恰當的選取某一種方法;一般當變量單位相同或者變量在同一數量等級的情況下,可以直接採用協方差陣進行計算;對於度量單位不同的指標或是取值範圍彼此差異非常大的指標,應考慮將數據標準化,再由協方差陣求主成分;實際應用中應該儘可能的避免標準化,因為在標準化的過程中會抹殺一部分原本刻畫變量之間離散程度差異的信息。此外,最理想的情況是主成分分析前的變量之間相關性高,且變量之間不存在多重共線性問題(會出現最小特徵根接近0的情況)。

求解因子載荷的方法:主成分法,主軸因子法,極大似然法,最小二乘法,a因子提取法。

(5)主成分和因子的變化不同

主成分分析:當給定的協方差矩陣或者相關矩陣的特徵值唯一時,主成分一般是固定的獨特的;

因子分析:因子不是固定的,可以旋轉得到不同的因子。

(6)因子數量與主成分的數量不同。主成分分析得到的主成分數等於原始變量數目;因子分析得到的因子數量一般由人為事先確定。

(7)解釋重點不同

主成分分析:重點在於解釋個變量的總方差;

因子分析:則把重點放在解釋各變量之間的協方差。

(8)算法上的不同

主成分分析:協方差矩陣的對角元素是變量的方差;

因子分析:所採用的協方差矩陣的對角元素不在是變量的方差,而是和變量對應的共同度(變量方差中被各因子所解釋的部分)。

(9)優點不同

因子分析:對於因子分析,可以使用旋轉技術,使得因子更好的得到解釋,因此在解釋主成分方面因子分析更占優勢;其次因子分析不是對原有變量的取捨,而是根據原始變量的信息進行重新組合,找出影響變量的共同因子,化簡數據。

主成分分析:

第一:如果僅僅想把現有的變量變成少數幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入後續的分析,則可以使用主成分分析,不過一般情況下也可以使用因子分析;

第二:通過計算綜合主成分函數得分,對客觀經濟現象進行科學評價;

第三:它在應用上側重於信息貢獻影響力綜合評價;

第四:應用範圍廣,主成分分析不要求數據來自正態分布總體,其技術來源是矩陣運算的技術以及矩陣對角化和矩陣的譜分解技術,因而凡是涉及多維度問題,都可以應用主成分降維。

(10)應用範圍不同

在實際的應用過程中,主成分分析常被用作達到目的的中間手段,而非完全的一種分析方法,提取出來的主成分無法清晰的解釋其代表的含義。而因子分析就是一種完全的分析方法,可確切的得出公共因子。

……主成分本質是一種線性變換,因子分析是描述原變量的相關陣結構的一種模型。……主成分的解是唯一的,而因子分析的解是不唯一的。……應用目的不同。

第8章 典型相關分析(1個問題,基本理論及方法)

1. 典型相關分析的基本理論及方法(必考)(核心表達式要寫,誰和誰相等):P188-P193

基本思想:在每組變量中找出變量的線性組合,使得兩組的線性組合之間具有最大的相關係數。選取和最初挑選的這對線性組合不相關的線性組合,使其配對,並選取相關係數最大的一對,如此下去直到兩組之間的相關性被提取完畢為止。

步驟:(1)確定典型相關分析的目標 (2)設計典型相關分析 (3)檢驗典型相關分析的基本假設 (4)估計典型模型,評價模型擬合程度 (5)解釋典型變量 (6)驗證模型 典型相關分析的用途很廣。

(核心表達式要寫,誰和誰相等!!!課本!!!)


第3章,聚類分析與判別分析的相關和區別(必考)

系統聚類,K-均值聚類

第4章,判別分析的思想和步驟(必考)P82

第56章,主成分分析與因子分析的區別與關聯、異同點(必考):P143

第8章,典型相關分析的基本理論及方法(必考)P188-P193


關鍵字: