終於有人把正態分布和二八法則講明白了

fans news 發佈 2022-01-24T15:33:45+00:00

導讀:在現實生活中,絕大多數的隨機不是均勻分布的。作者:徐晟來源:華章科技如果你是一位程式設計師,編程時就一定用過隨機(random)函數。它的功能是在特定取值範圍內隨機生成一些數。這個函數在很多程式語言中是預置的,可以直接調用。

導讀:在現實生活中,絕大多數的隨機不是均勻分布的。

作者:徐晟

來源:華章科技

如果你是一位程式設計師,編程時就一定用過隨機(random)函數。它的功能是在特定取值範圍內隨機生成一些數。這個函數在很多程式語言中是預置的,可以直接調用。

例如,要從1到100之間隨機生成一個整數,寫程序時就要事先定義一個1到100的取值範圍,然後調用隨機函數,得到一個該取值範圍內等概率的隨機數,就是說這100個數中出現任何數字的概率都是1/100。

用慣了隨機函數的程式設計師會誤以為「隨機」就代表了均勻分布的數據,即等概率事件。這是一個誤區。在現實生活中,絕大多數的隨機不是均勻分布的。

舉個例子,我們知道拋硬幣正反兩面朝上的概率各有一半,但如果你真的拋上10次硬幣,就會發現硬幣正好有5次正面朝上的概率既不是50%,也不是10%,而是在25%左右。因為在自然界中,最普遍的「隨機」是正態分布(也稱為高斯分布),其分布曲線呈「鐘形」,如圖1-1所示。

正態分布是一組數據在正常狀態下的概率分布。描述這種分布只需要兩個參數:一是這組數據的平均值,通常用希臘字母μ來表示,它位於函數圖像正中間的坐標位置。二是標準差,通常用希臘字母σ來表示,它代表了這組數據的離散程度。標準差越小,數據就越集中,反之說明數據越分散。

假如一組數據服從正態分布,根據分布特性,其中有68%的數會集中在平均值正負1個標準差區間內,有95%的數會集中在平均值正負2個標準差區間內,有99.7%的數會集中在平均值正負3個標準差區間內。由於3個標準差的區間幾乎涵蓋了大部分數據,因此它在數學中有著非常廣泛的運用,適用於很多場景下的推導和估計。

概括地講,正態分布說明了「一般的很多,極端的很少」的現象。這種現象生活中很常見。比如,大部分人的身高都在一個區間範圍內,太高或太矮的人不多。仔細觀察身邊的人,可以發現非常聰明或者非常愚笨的人很少。統計全社會範圍內的收入,中檔次收入的人比較多,特別貧窮和特別富裕的人較少。

人們常說的二八法則(也稱帕累托法則),只是換種方式來描述正態分布現象。二八法則告訴我們,20%的富人擁有世界上80%的財富;只要掌握字典中20%的文字就能理解文章80%的內容;20%的超大城市中居住了80%的人口,等等。

正態分布的特性還有其他廣泛應用。我們知道,利用多次抽樣可以從相對較少的數據中得出令人信服的總體結論。比如只要調研100個人,就能大致了解人類普遍的心理認知。只要抽查100件商品,就能得出這批次商品的質量結論。

這些民意調查、商品抽樣,都在運用抽樣樣本對總體進行估計,其背後的數學原理是中心極限定理。中心極限定理從理論上證明了,無論隨機變量總體呈現什麼分布,只要抽樣次數足夠大,樣本的平均值將近似服從正態分布。

也就是說,雖然每個人或者每件商品都會受到大量隨機因素的影響,這些因素會對最終狀態產生一定影響,但我們不必關心這些因素的細節,而只要把人或商品看成一個整體。該整體的統計規律服從正態分布。

而上述這些情況,才是真實世界中的「隨機」。

關於作者:徐晟,某商業銀行IT技術主管,畢業於上海交通大學,從事IT技術領域工作十餘年,對科技發展、人工智慧有自己獨到的見解,專注於智能運維(AIOps)、數據可視化、容量管理等方面工作。

本文摘編自《大話機器智能:一書看透AI的底層運行邏輯》,經出版方授權發布。(ISBN:9787111696193)

推薦語:AI是什麼?機器如何擁有「智能」?「智能」如何起作用?本書以通俗易懂的方式,勾勒人工智慧的全貌,展現AI的底層運行邏輯,即AI是如何工作的。

關鍵字: