機器學習與統計學的爭論,有意義嗎?

ai科技評論 發佈 2020-02-05T23:55:05+00:00

JohnMcCarthy 在當時的達特茅斯會議上提出這個術語,並將人工智慧定義為:製造智能機器的科學和工程。也就 是說McCarthy當時想要創造一個術語來容納所有這些範式,而不是傾向於任何特定的方法。

作者 | Sam Finlayson編譯 | 蔣寶尚、叢末編輯 | 賈偉

統計學和機器學習之間是否涇渭分明一直是學界爭論的焦點。

有的學者認為機器學習只是統計學披了一層光鮮的外衣。而另一些討論則認為涉及使用邏輯回歸或者廣義線性模型(GLM)的可以稱作機器學習;否則就不是。還有一些觀點認為:是否執行元分析或許是區分兩個領域的一個標準。

但,爭論兩者之間的邊界,真的有意義嗎?如果對這個問題進行嚴肅地思考,或許我們會發現,答案是否定的。

麻省理工Sam Finlayson 博士指出「過去關於機器學習和統計學之間的討論很大程度上沒有切中要害,因為這些討論要麼忽略了歷史背景、要麼『回歸方法』歸屬模稜兩可」,因此這種爭論事實上毫無意義。

1、歷史背景的忽略:「機器學習」術語的誕生並不是為了區分統計學

達特茅斯會議期間合影

數千年來,研究者們一直夢想建造「智能」設備,但「人工智慧」一詞卻是到1956年才出現。John McCarthy 在當時的達特茅斯會議上提出這個術語,並將人工智慧定義為:製造智能機器的科學和工程。

至此之後,人工之智能術語使用併流行到了今天。

而McCarthy能在會議上說服參會者使用這一術語很大程度上因為這個定義本身就是非常模糊的。

在那個年代,致力於「智能」的科學家們的研究視角還未轉向「數據驅動」,而是專注於自動機理論、形式邏輯和控制論等東西。也就 是說McCarthy當時想要創造一個術語來容納所有這些範式,而不是傾向於任何特定的方法。

正是在這種情況下,Arthur Samuel(達特茅斯會議的與會者之一)在1959年提出了「機器學習」一詞,並將其定義為一種研究領域,即不進行顯式編程就可讓計算機進行學習的研究領域。

之所以有此定義是因為Samuels和他的同事們希望通過讓計算機擁有識別能力,並隨著時間的推移不斷改進這種能力來使得計算機變得更加「智能」。

在今天看來,這種研究方法似乎並不陌生,但先驅們卻花費了數十年才讓其成為AI研究的主導範式。

從當時研究者的意圖來看,機器學習是為了描述計算機的設計過程而創建的,該過程利用統計方法來改善性能。

也就是說該術語是旨在與構建智能機器的非數據驅動方法形成對比,不是為了與統計學形成對比。畢竟統計學重點使用數據驅動的方法為人類提供有效信息。

另一個被普遍認可的機器學習的定義來自於Tom M.Mitchell 在 1997年出版的教科書,他在書中提到:「機器學習領域涉及如何讓電腦程式通過經驗而自動改進的一類問題」。另外,書中還有一個半正式定義:

對於某類任務 T 和性能度量 P,電腦程式從經驗 E 中學習,然後它在任務 T 中的性能 P 隨著經驗 E 的提高而提高。

2、關於誰「擁有」回歸的爭論沒有抓住重點

當前許多人試圖在統計方法和機器方法之間用二分法強硬的劃定界限,但這顯然是一種獨裁的專制。有的人特別執著的認為:回歸驅動的研究方法是統計學專屬,無論如何不能稱作機器學習。

此類觀點其實比目前「邏輯回歸等於計量經濟學」的觀點還要愚蠢,兩者同樣挑起了激烈的爭論。

六十年來機器學習社區一直在致力於「更好的計算機」,而並不關心是奇妙的方法還是統計數據哪個更優。這也是為什麼大多數教授在機器學習課程教學的時候,花大精力來教授廣義線性模型及其變體。所以說統計學在機器學習和人工智慧的研究背景下是非常有意義的,機器學習術語涉及不同的方法,並致力於讓「程序」變得智能。

坦率地說,任何段位的統計學家都不能斷言「脫離實際研究背景的統計學方法是有用的」。

回歸方法歸屬之爭其實在很大程度上同時低估了機器學習和統計,原因大致可以歸納為以下四個:

  • 限制了經典統計方法在構建電腦程式方面所能發揮的核心作用;
  • 忽略了機器學習對統計學的影響,實際上人工智慧和計算機學科很大程度促進了統計學的復興。例如Judea Pearl的因果關係開闢了新的統計學範式;
  • 統計學和機器學習之間「強硬」的二分法在一定程度上弱化了建模決策中的重要信息,並且這種分類有時候毫無意義。
  • 當前機器學習和統計學的頂級研究學者大多同時屬於這兩個領域。

其實,當前有很多研究都突出了統計學家與機器學習研究人員的豐富互動,例如著名學者Rob Tibshirani和Trevor Hastie沒有糾結於方法論的邊界線,而是利用機器學習研究人員開發的工具,從而幫助完善統計學領域的研究。並不是說Hastie和Tibs發明了新方法,而是意味著這些方法已經影響了統計學家和機器學習研究人員的日常工作。

3、許多「爭論」在開始之前就已註定失敗

目標的不同導致了方法和文化的差異,這也是為什麼「機器學習」一詞的含義自誕生以來發生了如此大的變化。語言中的脫節讓許多「爭論」在開始之前就已註定失敗。

如上文所述,機器學習這一研究領域之所以得以創立,便是由於計算機科學家試圖創建和理解智能計算機系統,至今依舊如此。

主要的機器學習應用包括語音識別、計算機視覺、機器人/自動系統、計算廣告、監控、聊天機器人等等。在嘗試解決這些問題的過程中,機器學習研究者基本總是先從嘗試經典的統計學方法開始,例如相對簡單的廣義線性模型(GLM)。

當然,長年累月,計算機科學家也不斷提出了新的方法,讓機器學習這一工具日益強大。

與其他任意背景下的進化一樣,用於機器學習的統計學方法,其進化史也是在「物競天擇」的壓力下所形成的。

與統計學家相比,機器學習研究者往往很少關註:理解算法背後所執行的所有具體動作。這一點其實非常重要,並且越來越重要。

他們通常最關注的是模型誤差。這樣就導致機器學習研究者開發的方法往往會更加靈活,甚至不惜以犧牲可解釋性為代價來實現更高的靈活性。

這種離散式的進化,就很容易讓機器學習和完全基於方法的統計學研究之間的界限變得模糊。此外,也導致不少統計學家並不了解機器學習的歷史。因此毫不驚訝地,他們會熱衷於採用任何其他的術語來定義機器學習領域,即便這種做法毫無必要。

出於同樣的道理,基於「使用」的嚴格劃分現在變得非常複雜,實際上現在很多機器學習從業者,即便當他們僅僅是在應用機器學習方法來做純粹的數據分析,而不是驅動電腦程式時,他們依舊會稱他們是在做機器學習。雖然從嚴格的歷史意義上而言,這種說法並不對,但是我認為也無需指責這種做法,因為這可能是出於習慣、文化背景或者「認為這種說法聽起來來很酷」的綜合影響。

所以在現實中,人們用到「機器學習」這個術語時,往往指的與機器學習本身非常不同的其他事情。

人們可能用它來表達:「我正在用統計學方法來讓我設計的程序學習」或者「我正在設計可以部署到自動化系統中的數據分析」。又或者表達的意思是:「我正在使用一個最初由機器學習社區開發的方法,如隨機森林,來做統計學數據分析」。

而更普遍的情況是,他們使用這個詞是在說:「我自己是一個機器學習研究者,我就是在使用數據做機器學習研究,我怎麼高興就怎麼說。」

實際上,這一術語的不同用法並不令人驚訝也不成問題,因而這僅僅是由於語言的進化而導致的結果。然而當另一群人——數據科學家群起而辯「一個特定的項目是否能純粹地冠之以機器學習或者統計學,二者選其一」時,就非常滑稽了。在我看來,「數據科學家」這一術語原本就是由機器學習和統計學交匯而成的。

而當這一爭論發生時,大家往往都帶著各不相同、定義模糊、並且表達不清的假設參與爭論,一開場便是爭論這些詞的意思。而隨後他們幾乎不會花時間去了解這些詞的出處或者聽對方真正要表達的是什麼,而僅僅是相互之間隔空喊話,聲音大然而卻並不清晰。

4、這整場「爭論」差不多就是在浪費時間

現在,讓我們將這些真實的問題擺在桌面上來談:如今有很多機器學習研究者(或者至少是機器學習愛好者)對統計學的理解尚有不足。有一部分人確實就是一位機器學習研究者,然而也有許多專業的統計學家有時候也會認為自己是機器學習研究者。

而更嚴重的現實情況是,機器學習研究的發展走得如此之快,並且常常在文化上與統計學領域脫節得如此之遠,以至於我認為對於即便是非常傑出的機器學習研究者而言,對統計學的某些部分「重新發現」或者「重新發明」都非常普遍。

這是個問題,也是種浪費!

最後,由於大量第三方應用研究者非常喜歡用「機器學習」這個術語:為了讓論文顯得更時髦而在論文中大量應用這一術語,即便現實中他們所謂的「機器學習」既不是構建自動化系統也沒有使用機器學習領域提出的方法。

我認為,所有這些問題的解決方法,就是讓人們更多地意識到:大多數機器學習的數據方法實際上就存在於統計學中。無論這些方法是用到了數據分析中還是設計智能系統中,我們的首要任務是培養對統計學原理的深刻理解,而不是執拗於機器學習和統計學領域的劃分是正確還是錯誤。

關於很多工作是機器學習還是統計學的無休止的爭論,最終只會分散人們的注意力,讓他們無法花更多精力來進行「如何通過正確匹配問題和特定的工具來很好地完成工作」的必要對話和交流——相對而言,這才是更重要的事。

與此同時,人們固執己見地對統計學和機器學習方法錯誤的二分法,會讓很多研究者進一步養成沒有必要就不使用複雜方法的習慣,僅僅是為了讓自己感覺像是在做「真正的機器學習」。

這也會直接導致,人們會為了讓自己的工作在方法論上聽起來更時髦,就肆無忌憚地把自己的工作稱作機器學習。

統計計算的黃金時代,正在推動機器學習和統計學領域變得空前的緊密。當然,機器學習研究誕生於計算機科學體系,而當代的統計學家越來越多地依賴於計算機科學界幾十年來開創的算法和軟體棧。他們也越來越多地發現機器學習研究者所提出的方法的用處,例如高維度回歸,這一點尤其體現在計算生物學領域。

另一方面,機器學習社區也越來越多地關注可解釋性、公平性、可驗證的魯棒性等主題,這也讓很多研究者優先考慮讓機器學習輸出的數值更直接地與傳統的統計值一致。至少,即便是在儘可能地使用最複雜的架構來部署系統時,人們也普遍意識到,使用經典的統計學來測量和評估機器學習模型的性能很有必要。

5、總結

總而言之,學界關於機器學習和統計學的爭論是錯誤的,人們對於相關術語的使用也是超載的,方法論的二分法也並不正確,機器學習研究者越來越多地關注統計學,而統計學家們也越來越依賴於計算機科學和機器學習社區。

根本就不存在回歸和兼并陰謀論。

現在出現了很多炒作現象,但並不能改變的一個事實是:當其他人使用的術語與你不同時,那是因為他們來自不同的背景、有著不同的目標,而不是因為他們不誠實或者愚蠢。

關鍵字: