優思學院|神奇的統計:從諸葛亮草船借箭說起

優思學院六西格瑪 發佈 2022-04-12T07:21:21.230083+00:00

統計起源於何時何地已經很難說清,有人說是古埃及,有人說是古巴比倫,也有史料記載是西元前二千年左右的夏朝,統治者為了徵兵和徵稅而進行了人口統計。

在抽象的意義下,一切科學都是數學;在理性的世界裡,所有的判斷都是統計學。─C. R. 勞

從城邦政情到統計學

統計學是透過搜集、整理、分析、描述資料等手段,以推斷所測量物的性質、本質乃至未來的一門學科,需要運用許多數學知識。統計起源於何時何地已經很難說清,有人說是古埃及,有人說是古巴比倫,也有史料記載是西元前二千年左右的夏朝,統治者為了徵兵和徵稅而進行了人口統計。

到了周朝,「司書」一職首次在中國歷史上出現,相當於今日的行政院主計總處處長。西方最早關於統計的記載則是《聖經.舊約》,引用了猶太人的人口統計結果。

人口統計若僅僅是小範圍的,即使包括了人數、年齡、收入、性別、身高、體重等多項指標,也派不上大用場。隨著統計人數的增加,例如一座城市的市民、一整個省的女性,以及統計指標的增加,例如健康狀況、家庭經濟狀況和壽命等,才能逐漸體現出統計的規律和價值。

西元前四世紀,亞里斯多德撰寫的「城邦政情」(matters of state)共包含了一百五十餘種紀要,內容涉及希臘各個城邦的歷史、行政、科學、藝術、人口、資源和財富等社會和經濟情況及其比較分析。

「城邦政情」式的統計延續了二千多年,直至十七世紀中葉才逐漸被「政治算術」(political arithmetic)這個頗有意味的名稱替代,並且很快演化為「統計學」(statistics)。最初,它只是一個德文詞彙 statistik,保留了城邦(state)的詞根,本義是研究國家和社會狀況的數量關係。後來,歐洲各國相繼翻譯,法文為 statistique,義大利文為 statistica,然後是英文。

值得一提的是,英語中的統計學家和統計員是同一個字,正如數學家和數學工作者是同一個單詞一樣。日語最初把「統計學」譯為「政表」、「政算」、「國勢」、「形勢」,一八八○年才確定為「統計」。一九○三年,橫山雅南的著作《統計講義錄》被譯成中文出版,「統計」一詞也從日本傳到了中國,與「數學」這個詞語的來歷相同。

既然統計學的主要工作是與資料打交道,資料通常又有隨機性,就涉及了另外一個統計學術語─概率。隨機意味著不確定性,但也並非沒有規律可循,這時就需要用概率來描述。例如,經驗告訴我們,投擲硬幣出現正面朝上結果的概率約為1/2,投擲骰子結果為六點的概率是1/6。

更多時候,我們需要進行大規模的統計才能知道一件事發生的概率。例如某航班的準點率、某地某日的降水概率。而我們在透過計算獲得概率的同時,也掌握了相應的統計規律。不過,統計與概率是有差異的。計算一個有四十位學生的班級是否有人同一天生日的概率,與具體統計他們的生日,兩者並不一樣,而且不同班級(即便人數相同)的統計結果也不相同。

草船借箭可有其事?

如同腳踏車的發明使得人們擴大了交流範圍,弓箭的發明也拓寬了人們的活動範圍。有了弓箭,人類便可走出山洞,離開茂密的森林,在廣闊的丘陵或平原安家。弓箭不但增強人們的安全防禦能力,也幫助他們獲取更多獵物,為人類的繁衍創造良好的物質條件。

弓箭大約誕生於三萬年前的舊石器時代晚期,它是冷兵器時代最可怕的致命武器。弓箭由弓和箭兩部分組成,其中的弓由有彈性的臂和有韌性的弦構成;箭則包括了箭頭、箭杆和箭羽,箭頭為銅或鐵製,杆為竹或木質,羽為鵰或鷹的羽毛。射手拉弓時,手指上還有保護工具。

恩格斯(Friedrich Engels)說過,「弓、弦、箭已經是很複雜的工具,發明這些工具需要長期積累的經驗和較為發達的智力。」弓箭的發明或許與音樂的起源有某種關係,二十世紀英國科學史家 J.D.貝爾納(J. D. Bernal)認為,「弓弦彈出的汪汪粗音可能是弦樂器的起源」。

在《詩經.小雅》裡有一首詩寫到了「角弓」,即弓箭。這首詩勸告周王不要疏遠兄弟親戚而親近小人,為民眾做出表率。首章四句是:「騂騂角弓,翩其反矣。兄弟昏姻,無胥遠矣。」騂騂指的是弦和弓調和的樣子,翩是彎曲,昏姻即婚姻或姻親,意為「把角弓調和繃緊弦,弦鬆弛的話會轉向。兄弟姻親是一家人,相互親愛可別疏遠」。

中國古代神話有「后羿射日」的故事。古典小說里一方面有許多神箭手,例如呂布轅門射戟、薛仁貴三箭定天下、養由基百步穿楊等,另一方面,打不贏就放箭的例子同樣比比皆是,清代如蓮居士的傳奇小說《說唐》裡的羅成武藝高強,最終卻陷於淤泥並死於亂箭。

一般士兵的射術可沒有神箭手那麼精準。假設單次射中目標的概率為 0.1,沒射中的概率就是 0.9,連續兩次射不中的概率為 0.9×0.9=0.81。依此類推,一百次都射不中的概率為 0.9100≈0.00003,那麼至少射中一次的概率為「1–0.00003=99.997%」。

即便要求至少射中目標三次,概率仍高達 98.41%。由此可見,與其費力去找神箭手,不如讓一百名士兵亂箭齊發,效果更好。在羅貫中的歷史小說《三國演義》裡,長坂坡(今湖北荊門)一役成就了趙子龍的傳奇,其實曹操下令不許放箭可能也發揮了不可或缺的作用。

再來看諸葛亮草船借箭,傳說中取到了十萬支箭。依據羅貫中的描述,當時江上大霧瀰漫,士兵放箭基本上是聞聲尋的,命中概率估計不到 0.1,中間還要調轉船身,用另一面接箭,自然會射空。即便射中概率不變,至少也需要射一百萬支箭。當時曹操的弓箭手僅一萬名,代表每人需射一百支,但專家分析這不太可能,因為古時一個箭壺通常只裝二十到三十支箭。

高斯的常態分布曲線

生活中偶有小機率事件發生。例如,據相關統計,飛機失事的機率約為三百萬分之一。這個機率聽起來很小,但每天都有無數乘客搭乘飛機,全世界的航班累計數量其實頗為驚人,因此偶爾還是會聽到飛機失事的消息。

再看另一個例子,二○一○年南非世界盃足球賽期間,生於英國養於德國的「章魚帝保羅」成為耀眼的明星。保羅八次預測,全部猜對比賽結果,尤其是西班牙戰勝荷蘭的那場決賽,更讓全世界球迷為之側目。假如沒有人為操縱,保羅猜對一次的機率是 0.5,連續八次猜對的機率是 0.0039。我們只能說,小機率事件又一次發生了。

在統計學中,樣本的選取也存在小機率事件。例如,從一個裝著紅球和藍球的缸中隨機拿出球來,哪怕缸中的球多半是紅球,取出的樣本仍可能是藍球占多數,由此導出錯誤的結論:缸中的球多數是藍色的。有鑑於此,統計學家想了一個辦法來提高由樣本推斷總體特徵的能力。

假設有一個裝了非常多球的缸,其中紅球、藍球的比例為P:(1–P),P(P≦1)是某個未知的比例。一次從缸中拿出五個球,這是一個樣本。設p是所有樣本(每個樣本均含五個球)中紅球比藍球多(即至少有三個紅球)的樣本所占比例(p≦1)。根據機率理論,可得 P 和 p 的關係如下:

P 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

p 0.01 0.06 0.16 0.32 0.50 0.68 0.84 0.94 0.99

這就說明,當缸中紅球比例為 0.1 時,在抽取的樣本中紅球占多數的樣本比例是很小的。確切地說,在一百個樣本中,可能只有一個樣本是如此。

如果只是加減和方冪運算,統計學恐怕成不了一門學科,更無法成為與數學並列的一級學科(機率理論是數學下面的二級學科)。幸好,統計學裡還有高斯的常態分布理論。

十九世紀下半葉,英國統計學家高爾頓(Francis Galton)和皮爾遜(Karl Pearson)在研究父母身高與子女身高之間的遺傳關係時,發現了朝平均數回歸的現象,也就是身高不會兩極分化。

高爾頓做了著名的釘板實驗,他在一塊平整的木板上均勻放置了二十排釘子,下排的每根釘子恰好位於上排兩根釘子的中間。然後他讓一顆小圓球從最頂層中間處滾下來,小圓球碰到釘子後往左或往右滾落的概率各為 0.5。由於釘子的間距正好略大於小圓球的直徑,小圓球會再次撞擊釘子並往左右滾落,概率同樣為 0.5。

高爾頓觀察到,小圓球雖然一路碰撞滾落底部,卻不會太偏離中心位置。大多數小圓球都集結在底部中心的位置,愈往兩邊數量愈少。最後,堆積的小圓球形成了一個鐘形曲線,這正是由法裔英籍數學家棣美弗(Abraham de Moivre)於一七三三年提出,後以德國數學家高斯(他首先將其應用於天文學研究)的名字來命名的常態分布曲線:


如果考慮滾落在中間6個釘距之間的小圓球,則其概率為上述函數在區間[–3, 3]上的定積分,大約是 99.73%。莎士比亞的詩文和忌日威廉•莎士比亞(W. Shakespeare)是英國大文豪,也被視為有史以來最偉大的文學家之一。 1985年秋天,有位莎翁研究專家在牛津大如果考慮滾落在中間六個釘距之間的小圓球,則其機率為上述函數在區間[–3, 3]上的定積分,大約是99.73%。



莎士比亞的詩文和忌日

莎士比亞是英國大文豪,被視為有史以來最偉大的文學家之一。一九八五年秋天,某位莎翁研究專家在牛津大學博多利圖書館裡發現了一首寫在紙片上的九節詩。這張紙片已被收藏近二百年,上面的詩歌會是莎翁寫的嗎?

兩年後,兩位統計學家研究了這首詩,並與莎士比亞的寫作風格進行比對,結果發現它們驚人的一致性。已知莎翁詩文著作中用詞總量為 884,647 個,其中 31,534 個是不同的,它們出現的頻率如下:

單詞使用的頻率 1 2 3 4 5 >100

不同的單詞數 14376 4343 2292 1463 1043 846

由此可見,莎翁喜歡用新詞,他使用一次就捨棄的詞高達 45.6%,僅用兩次的詞占 13.8%。倘若對莎翁的部分作品做同樣的統計,不同的詞出現的頻率會高一些。這首新發現的詩作共有四百二十九個單詞,其中有二百五十八個是不同的,觀測值與基於莎翁寫作風格的預測值相對接近。與此同時,統計學家也調查了與莎翁同時代的著名詩人詹森(S. Johnson)、馬婁(C. Marlowe)和鄧恩(J. Donne)的寫作風格,發現他們的預測值與這首詩的觀測值有著統計學上的顯著差異。

自此以後,莎士比亞的另外三部著作《羅密歐與茱麗葉》、《湯瑪斯.莫爾爵士》和《愛德華三世》也用同樣的方法加以驗證。因為《羅密歐與茱麗葉》寫的是義大利上流社會,而莎翁出身英國平民,過去三個世紀裡,包括狄更斯(Charles Dickens)和馬克.吐溫(Mark Twain)等人都曾懷疑它不是莎士比亞的作品。

蘇聯作家蕭洛霍夫(Mikhail Sholokhov)的傳世之作《靜靜的頓河》(And Quiet Flows the Don)也曾遭受類似質疑。這部小說讓蕭洛霍夫獲得一九六五年的諾貝爾文學獎。一九七四年,另一位流亡的蘇聯作家索忍尼辛(Aleksandr Solzhenitsyn,一九七○年諾貝爾獎得主)在巴黎公開提出質疑,主張蕭洛霍夫當時才二十多歲,不可能寫出如此廣度和深度的鴻篇鉅著,而且書中的內容和寫作技巧也不平均。

這場爭論一直持續到蕭洛霍夫暮年,有人懷疑他抄襲了已故作家克留科夫(F. Kryukov)的作品。一九八四年,一位挪威奧斯陸大學的統計學家率領了一個小組,將蕭洛霍夫無爭議的作品、《靜靜的頓河》和克留科夫的作品分為三組,利用統計方法進行分析。

第一,他們統計不同詞彙占總詞彙量的比例,三組分別為 65.5%、64.6%、58.9%。第二,選擇最常見的二十個俄語單詞,統計它們出現的頻率,三組分別為 22.8%、23.3%、26.2%。第三,統計出現不止一次的詞彙所占比例,三組分別為 80.9%、81.9%、76.9%。

無論哪一類統計結果都顯示,克留科夫的作品風格與《靜靜的頓河》之間存在著顯著差異,而蕭洛霍夫更像《靜靜的頓河》的作者。在中國,古典小說《紅樓夢》的作者同樣存有疑問,有紅學家認為後四十回與前八十回在風格上有很大差異,因此懷疑是另一個作者所寫。假如也使用統計學方法,或許可以幫助鑑別。

二十世紀印度裔美籍統計學家 C.R.勞(C. R. Rao)說過,「假如世上每件事情均不可預測地隨機發生,那我們的生活將無法忍受。反之,假如每件事情都是確定的、完全可以預測的,那我們的生活又將十分無趣。」他還指出,「在終極的分析中,一切知識都是歷史;在抽象的意義下,一切科學都是數學;在理性的世界裡,所有的判斷都是統計學。」

最後再回來說說莎士比亞。莎翁的生日與忌日都是四月二十三日,這一天也是西班牙語世界最偉大的作家、《唐吉訶德》作者塞萬提斯(Cervantes)的忌日,他們在一六一六年的同一天去世。中國歷史上最負盛名的戲劇家之一湯顯祖也在這一年去世。這個機率實在太小了,小到我們無法估測,甚至完全可以忽略不計。

【本文節錄自《數學的故事》,時報文化出版,作者蔡天新。】

關鍵字: