作者：Ilja Moisejevs

編譯：ronghuaiyang

導讀

新功能不是免費的。

我們生活在一個瘋狂的時代。我記得當我還是個孩子的時候，我在看《星球大戰》的時候，我在想，要過多久我們的廚房裡才會有會說話的機器人。事實證明，這段時間並不長。實際上不到 10 年。

人工智慧，更具體地說，是機器學習將科幻小說變成了現實 —— 沒有其他的方式來表達它。每次我瀏覽技術評論或 TechCrunch 時，我都被我們現在可以「隨意」做的事情所震撼。

透視牆壁？很容易。通過視頻猜測材料的物理性質？實現了。從鍵盤聲音預測按了哪個鍵？如何生成逼真的面孔、身體或詩歌？或者教機器畫畫？或者教機器打《星際爭霸》遊戲？

還有，你見沒見過這種東西在街上晃來晃去？

瘋狂。

現在，如果你真的去和 AI/ML 領域工作的人聊一聊，你可能會得到兩種回答中的一種。要麼對於 AI 可以做什麼和下一個大的願景/ NLP /強化學習問題超級興奮，要麼他們對我們這些愚蠢的人類構件的人工智慧非常恐懼，相信不久人工總體智會將人類轉化為一個無用的東西。在我看來，這就像今天社區的普遍分裂 —— 50%的人認為人工智慧是我們的未來，50%的人認為它是我們的末日。

關於人工智慧和機器學習是什麼，我想提供第三種觀點 —— 或許是一種更世俗的觀點：為對手提供一個新的攻擊面。

讓我們探索一下。

新發明的黑暗面

每當一項新發明出現時，大多數人都傾向於認為這項發明帶來了新的驚人的能力。但是，哪裡有光明，哪裡就會有陰影，因此新功能不經意間就會帶來新的「漏洞」，供黑客利用。然後利用它們。

讓我們上一節歷史課，重訪 PC 市場。第一台個人電腦(Altair 8800)於 1975 年發布，隨後在接下來的 10 年裡進行了一系列的創新，最終在 1984 年推出了 Apple Macintosh。隨之而來的是一波爆炸性的採用浪潮，在整個 90 年代一直持續到 2000 年：

然而，大多數用戶並不知道，在惡意軟體或「惡意軟體」市場也發生了類似的爆炸。

1989 年，Robert Morris 嘗試使用 Unix sendmail，並構建了一個可以自我複製的蠕蟲，然後將其發送到 internet 上。一開始只是一個簡單的實驗，結果變成了第一次 DoS 攻擊，造成的損失估計在 10 萬到 1000 萬美元之間，並使整個網際網路慢了好幾天(當然現在是不可想像的)。隨後，1989 年發生了第一次勒索軟體攻擊，1996 年出現了第一個 Linux 病毒(「Staog」)，1998 年出現了第一個 AOL 木馬。

後來，同樣的事情也發生在移動領域：2007 年的 iPhone 時刻，隨之而來的是智慧型手機的爆炸式增長:

緊隨其後的是手機惡意軟體的爆炸式增長：

那麼，機器學習呢？

儘管如此，機器學習的產品化仍處於萌芽階段。許多真正前沿的工作仍然局限於研究實驗室和大學 —— 但即使是研究，我們也可以開始看到一些相同的趨勢出現。

機器學習研究論文按年份和地區分類：

…vs對抗機器學習(ML 的惡意軟體版本)研究論文計數：

事情正在發生。開始恐慌了嗎？

安全問題

還沒有那麼快。好消息是，隨著個人電腦占據了我們的日常生活，黑客開始入侵，另一個與之並行的市場開始發展 ——安全解決方案市場。

1987 年，Andreas Luning 和 Kai Figge 為 Atari ST 平台開發了第一個抗病毒產品。同年，McAffee、NOD、Flu Shot 和 Anti4us 都出生了 —— 在接下來的 20 年裡，更多的安全類產品誕生了：

很快，VCs 就意識到了大型網絡安全將會發生什麼，資本將開始流動:

Kleiner Perkins 對 Symantec 投資 3M
McAffee 從 Summit Partners 拿到了融資
BitDefender 融資 7 百萬美元

數百萬美元的收購：

McAffee700 萬美元買了 solomon
Symantec 同意以 787.8 億美元購買 Axent
微軟從 GeCAD 軟體中獲取殺毒技術

隨著手機惡意軟體的快速增長，安全玩家也出現了類似的爆炸式增長：

安全鄰域的融資：

Bluebox 從 Andreessen Horowitz 融資$9.5M
France Telecom 對 Lookout 投資達到$20M
Zimperium 在移動安全領域融資$8M

安全領域的收購:

移動安全初創公司被 Rapid7 收購
Apple 以$356M 購買了三星安卓安全合作夥伴
AVG 以$220M 購買了移動安全公司 Location Labs

那麼機器學習呢？

機器學習需要安全嗎？

在過去的某個時候，我曾為英國最大的金融科技公司之一進行過反欺詐和反洗錢工作。我的團隊每年監管的交易額超過 100 億美元，我們一直在努力阻止騙子進入 GC 的循環系統。很自然地——在某種程度上，我們屈服於這種炒作，決定嘗試機器學習。

令我當時感到驚訝的是，它居然奏效了。事實上，它很有效。從傳統的啟發式，我們設法減少了 80%的金錢損失到欺詐和提高了 20 倍的檢測可疑的帳戶洗錢。

只有一個問題。

我們在我認為「關鍵」的能力上部署了機器學習。我們給了這個算法一項任務，但這項任務不允許它失敗——如果失敗了—— 我們要麼損失大量金錢，要麼被吊銷金融執照。對我這個直接負責 GC 安全的產品經理來說，這兩者聽起來都不是什麼好事。

所以我需要知道 ML 如何以及何時會失敗。如何利用我們的模式？它內在的弱點在哪裡？我如何知道 GoCardless 是否受到攻擊？

在花了太多的夜晚閱讀 ML 的文件和在暗網上尋找之後，我終於找到了我所尋找的。我在 ML 上了解到中毒攻擊，攻擊者可以通過在訓練中注入損壞的數據來影響模型的思維。我發現了對抗性的例子，以及在測試時模型是如何容易被精心設計的擾動的輸入誤導的。最後，我了解到隱私攻擊，底層數據和模型本身都不是真正的私有。

然後，我發現了這個……

我嚇壞了。

到 2019 年底，1/3 的企業都將部署機器學習。這是你、我、我們的朋友和親人每天使用的所有產品的三分之一 —— 在任何知道 ML 工作原理的攻擊者面前全裸。

是的，機器學習需要安全。

邁出第一步

ML 安全是一個非常新興的領域 —— 到今天基本上還不存在。如果說我從上面的研究中學到了什麼，那就是任何沒有數學博士學位的人都很難弄清楚如何保證他們的 ML 的安全(現在幾乎沒有解決方案，只有大量的數學研究論文)。

考慮到我們的生活中有多少是要託付給算法的 —— 我認為這是我們的責任 —— 你、我和整個 ML 社區的責任是確保安全不被拋在腦後。今天有很多我們可以做的來構建更健壯的 ML 模型 —— 正如我解釋我的帖子逃稅，中毒和隱私攻擊。但更重要的是，我們需要轉變思維模式——從「不惜一切代價的準確性」轉向更平衡的準確性與穩健性：

C1和C2是兩個模型。很明顯，C1一開始並不是很準確，但是隨著攻擊強度的增加，它在抵抗攻擊方面也做得更好。你選擇C1還是C2作為ML模型？

這篇文章和上面的文章是我嘗試邁出的第一步，邁向一個更健壯的 ML 未來。確保每個人的安全。

英文原文： https://medium.com/@iljamoisejevs/what-everyone-forgets-about-machine-learning-974752543849

關於機器學習，我們忽視的東西

導讀

新發明的黑暗面

安全問題

機器學習需要安全嗎？

邁出第一步