白話統計與實驗分析

談談數據 發佈 2022-05-09T12:23:07.757854+00:00

最近準備公司內部的培訓,系統地整理了下實驗平台底層的統計學、數學基礎。以講歷史、說白話的方式介紹給大家。

最近準備公司內部的培訓,系統地整理了下實驗平台底層的統計學、數學基礎。以講歷史、說白話的方式介紹給大家。

實驗的歷史

實驗最早發生在農業領域(field experiment)之後在醫學領域中通過隨機雙盲實驗(Randomized double blind trial)進行藥品研發,2010年由Google引入了網際網路領域,標誌就是Google發表的重疊實驗框架論文(overlapping experiment Infrastructure-More, Better, Faster Experimentation)。

費希爾將科學實驗方法引入農業領域,在瑞士洛桑農業觀測站工作期間,通過方差分析對過去90年的農業觀測數據進行分析,並糾正了過去不合理、不易於分析的實驗方法,在收成研究、實驗設計等作品中引入了科學實驗的三個準則:

  1. 重複,通過不斷地重複獲取樣本
  2. 隨機化,實驗對象和策略採用隨機組合分配原則,通過隨機可以消除所有已知未知因素的干擾,聚焦到我們的實驗策略帶來的實驗效應
  3. 區組化,通過區組管理實驗對象(樣本),組間對比確認實驗效應

實驗分析

20世紀費希爾引入科學實驗方法,統計學尤其是推斷統計學中假設檢驗、參數估計在實驗分析中廣泛應用。

  1. 參數估計,卡爾·皮爾遜引入了均值、方差、峰度、偏度(皮爾遜發現了偏態分布)等統計參數並通過樣本估計總體的參數值,費希爾將參數簡化為均值和方差並引入了更多數學中概率論中的分布、概率密度等公式
  2. 假設檢驗,內曼和EG·皮爾遜整理前人發現系統提出了假設檢驗的方法,假設檢驗包括我們希望證偽的零假設,以及我們想證明的備擇假設,使用檢驗方法計算樣本的顯著性水平,通過小概率事件的發生推翻零假設/原假設
  3. 檢驗方法,主流的檢驗方法有戈賽特提出的T檢驗、費希爾的F檢驗、皮爾遜的卡方檢驗等,所有檢驗方法都有對應的概率分布、概率密度函數、概率累積函數等公式,通過樣本統計量計算統計分數,查詢概率表獲取當前實驗的置信度p-value

統計學的發展

20世紀,統計學的四大天王帶動了整個統計學的發展成熟:

  1. 卡爾·皮爾遜,在高爾頓的生物統計期刊和實驗室工作期間,定義了偏態分布,並引入了統計參數,主張通過大量樣本來估計總體;提出擬合優度檢驗,並發展為卡方檢驗用來計算觀測分布和預期分布的差異
  2. 羅納德·費希爾,將大量數學公式引入統計學,發表了《研究工作者的統計方法》;通過幾何公式解釋了相關係數;繼承孟德爾的遺傳學並發展為優生學;在洛桑農業實驗期間通過方差分析、實驗設計等大大提升了統計的科學性;發展了卡爾·皮爾遜的參數估計方法、卡方檢驗,引入了自由度,削減了統計參數;費希爾開宗立派弟子眾多,這些人發展出了極值統計學、毒理學、概率空間、隨機過程等
  3. 埃貢·皮爾遜,繼承了父親的衣缽和職位,疊代了父親的統計學觀點,並啟發同時代的統計學家,最為稱道的是和內曼一起提出來假設檢驗的方法
  4. 耶日·內曼,波蘭數學家系統的加固了統計學的數學根基,提出了假設檢驗的方法,使用微積分公式推導出置信區間,正式提出了假設檢驗、置信度、顯著性水平等概念;將統計方法引入醫學、氣象學、毒理學等各個領域;在加州伯克利開設了統計學系培育了一大批統計學家

其他人也為統計學的發展做出巨大貢獻,業餘統計學家高爾頓將統計和數學方法引入生物統計,開啟了統計學大發展的序幕;提出學生檢驗的戈賽特在吉尼斯啤酒釀造過程中引入統計方法大大提高了啤酒質量;林德伯格和列維論證中心極限定理的成立條件,條件下樣本均值符合正態分布大大拓展了統計學的應用範疇。

統計學也沒有停止發展,後續很多統計學家針對離群點提出非參統計方法,計算機的算力加持進一步促進了統計學的應用,費希爾提出的最大似然估計可以在不斷的疊代中解決真正的統計參數,最近興起的因果推斷正試圖將統計相關性推進到因果性,包括Pearl的因果圖模型和Rubin的虛擬事實模型。



統計學的數學基礎

20世紀統計學的大發展契機固然是生物統計、農業實驗、醫學、工業等領域遇到的問題,上面天才般的人物創新的將數學方法,尤其概率論引入統計學也非常關鍵,從16世紀開始,數學為統計學的發展打下哪些基礎呢:

  1. 微積分,牛頓和萊布尼茲分別發明了微積分的方法,通過符號表示、公里定理體系將科學從哲學體系裡面剝離出來;累積分布函數是概率密度函數的積分
  2. 線性代數,萊布尼茲發明的線性代數;均值、方差等統計參數使用了線性代數中的均值、二階矩等方式表示和計算
  3. 概率論,在伯努利家族、費馬、棣莫佛、帕斯卡等人的努力下概率論逐步完善,將統計分布用數學公式表達為統計模型
  4. 誤差理論,拉普拉斯提出了誤差函數用來表示隨機性帶來的偏差,所有的樣本觀測都可以表示為概率公式+誤差


以上內容參考

  1. wiki百科上統計學相關詞條
  2. 《20世紀統計怎樣變革了科學:女士品茶》以講故事的方式為大家介紹了統計學一百多年的歷史,書中沒有一個數學公式,但是卻把大師們面對的問題,在解決問題時創新的思考方式介紹的非常清楚


關鍵字: