保守的機器學習如何拯救日新月異的我們

作者 | Cory Doctorow

編譯 | 楊曉凡

AI 科技評論按：熱熱鬧鬧的機器學習浪潮給學術研究和實際應用都帶來了很多新意，似乎我們可以就這樣樂觀地乘著機器學習的列車駛向未來。記者、科幻小說作者 Cory Doctorow 近期的一篇文章就提出了一種角度新穎且有趣的質疑。AI 科技評論編譯如下。

Cory Doctorow：

我成為一個現代科技的愛好者、宣揚者已經好幾十年了，我也閱讀過無數的發人深省的、影響深遠的科技批評觀點。不過，這幾年的機器學習要遠比其他的科技趨勢火熱許多。從大眾媒體報導、從企業宣傳上來看，許多曾經在理想中的高科技產品、高科技生活方式，都會藉助機器學習的力量來到我們身邊。

但在這所有美好的願景背後，也有一些質疑的聲音讓人反覆咀嚼。蒙特婁麥吉爾大學的 Molly Sauter 在 2017 年寫了一篇略微奇怪但富有詩意的文章《Instant Recall》，裡面有這麼一句「機器學習從本質上來講是保守的」。

機器學習從本質上來講是保守的，它沒法改變，它只能默認未來和過去是一樣的。如果你給你的伴侶發消息時候用過「Hey darling」這個開頭，那下次你一打出來「Hey」，「darling」就會出現在自動補全列表的第一個位置上，即便這次你可能是要提分手的。如果你打的某個詞是你自己此前從未用過的，那麼自動補全會根據所有用戶的輸入統計數據，把最經常出現的詞推薦給你。可能大多數時候這不會造成什麼問題，但是 2018 年 7 月我給看孩子的保姆（babysitter）發消息打到「Can you sit（帶）」的時候，它接下來推薦的自動補全是「on my face and」，這就非常糟糕了，我把這事發到網上以後還引起了不小的爭論。

這種保守性在每一個使用機器學習算法的推薦、推理系統裡面都能看到：當你在網上搜索「電冰箱」之後，算法就會給你打上「想買電冰箱」的標籤，然後一直關注著這個「想買電冰箱」的身份的活動，在各種廣告位給你介紹各種電冰箱，即便你已經買了也不會停止；或者在視頻網站純粹因為好奇搜索了某個冷門話題，大概了解了、覺得以後再不會看這個話題之後，它還是會反反覆復給你推薦這個話題，因為需要「強化推薦你感興趣的內容」；在社交平台上關注一個人之後，它會給你推薦「相似的人」，即便你自己很明白你為什麼沒關注他們。

不可否認，機器學習有很強的尋找關聯性的能力，比如機器學習可以自然地認為「在很長一段時間裡張三的通訊錄里都存了李四的電話號碼和家庭住址，所以他們肯定是好朋友」；但機器學習並不能學到因果關係，所以實際上更容易出現的事情是，張三的通訊錄里存了李四的電話號碼和家庭住址，這是因為張三在跟蹤、偷窺李四，然而 Facebook 掃描了張三的通訊錄以後，反而推薦李四把張三加為好友。

另外，機器學習也沒法提供可靠的推測意圖的工具——人類學的一條基礎定理就是，「如果沒有對話，那麼意圖就是不可知的」。Cliff Geertz 在 1973 年的《Thick Description》文章里是這麼說的，如果你在觀察某個人，但你不讓他知道你在觀察他、他也不知道你在觀察他，那你就分辨不出他到底是為了暗示什麼而「擠眼」還是只是累了所以「眨眼」。

說到底，機器學習所能做的，是找到和它現在就能建模的東西類似的東西。機器學習系統很擅長找到和它們見過的車長得類似的車，也擅長找到和它們見過的人臉長得類似的人臉——這順便也用非常簡單的到底解釋了為什麼面部識別系統對於白人的臉識別準確率更高，就是因為往往是白人圈子設計的系統、組織收集的數據，所以見白人的臉見得更多而已。

機器學習的有害之處就是從這樣的「保守」傾向里逐漸滲透出來的。如果你設計一個機器學習系統幫助警察預測他們應該抓誰，系統肯定會建議抓「和已經抓過的人類似的人」。人權數據分析組織的 Patrick Ball 是這樣說的：「給警察配備的預測系統預測不了犯罪，它只能預測警察會做什麼」。

不過，警察根據自己的判斷決定逮捕誰，和警察看到系統預測了一個人然後去逮捕他，兩者也有一些區別。對不願意了解其中細節的局外人來說，算法做出的決定更容易顯得公眾，畢竟「數學是沒有歧視的」、「數學是不會說謊的」。只可惜，機器學習里並不僅僅有數學而已，要說「算法能客觀地反應社會真實需求」，倒不如說「算法能真實反應設計它的人的觀念和習慣」。

英國有一個非醫療用藥分類的例子。David Nutt 是一位傑出的精神藥理學家，英國議會請他對非醫療用途的精神類藥品的危險性排一個序，方便政府制定對應的藥品管理政策。David Nutt 組織了一群專家做了詳細的討論，他們排了三個順序出來：對使用者自己的危害的排序，對使用者的家庭的危害的排序，以及對社會整體的危害的排序。然後他對議會說，你只需要告訴我你最想保護哪一類，我就能給你一個準確的排序。排序本身並不難，有很多基於實證的證據可以參考，得到準確的結果；但「最想保護哪一類」是人類需要做的價值判斷，沒有「是否準確」之分。

數據分析這件事由來已久，從第一種稅收的開始就需要分析數據；基於數據的科學和工具研究也為我們帶來了許許多多的便利。但是指望不可靠的黑盒子在來告訴我們應該要什麼、應該怎麼做，就會在「理智」和「進步」的表面之下，實際帶來更多的固定流程化處理、讓人文關懷消失。科學技術能做什麼當然重要，但更重要的是，它到底影響了誰、又是在誰的立場上做的這些決定。

via blog.lareviewofbooks.org，AI 科技評論編譯