關於機器學習,我們忽視的東西

ai公園 發佈 2020-01-16T20:21:19+00:00

在我看來,這就像今天社區的普遍分裂—— 50%的人認為人工智慧是我們的未來,50%的人認為它是我們的末日。很明顯,C1一開始並不是很準確,但是隨著攻擊強度的增加,它在抵抗攻擊方面也做得更好。

作者:Ilja Moisejevs

編譯:ronghuaiyang

導讀

新功能不是免費的。

我們生活在一個瘋狂的時代。我記得當我還是個孩子的時候,我在看《星球大戰》的時候,我在想,要過多久我們的廚房裡才會有會說話的機器人。事實證明,這段時間並不長。實際上不到 10 年。

人工智慧,更具體地說,是機器學習將科幻小說變成了現實 —— 沒有其他的方式來表達它。每次我瀏覽技術評論或 TechCrunch 時,我都被我們現在可以「隨意」做的事情所震撼。

透視牆壁?很容易。通過視頻猜測材料的物理性質?實現了。從鍵盤聲音預測按了哪個鍵?如何生成逼真的面孔、身體或詩歌?或者教機器畫畫?或者教機器打《星際爭霸》遊戲?

還有,你見沒見過這種東西在街上晃來晃去?

瘋狂。

現在,如果你真的去和 AI/ML 領域工作的人聊一聊,你可能會得到兩種回答中的一種。要麼對於 AI 可以做什麼和下一個大的願景/ NLP /強化學習問題超級興奮,要麼他們對我們這些愚蠢的人類構件的人工智慧非常恐懼,相信不久人工總體智會將人類轉化為一個無用的東西。在我看來,這就像今天社區的普遍分裂 —— 50%的人認為人工智慧是我們的未來,50%的人認為它是我們的末日。

關於人工智慧和機器學習是什麼,我想提供第三種觀點 —— 或許是一種更世俗的觀點:為對手提供一個新的攻擊面。

讓我們探索一下。

新發明的黑暗面

每當一項新發明出現時,大多數人都傾向於認為這項發明帶來了新的驚人的能力。但是,哪裡有光明,哪裡就會有陰影,因此新功能不經意間就會帶來新的「漏洞」,供黑客利用。然後利用它們。


讓我們上一節歷史課,重訪 PC 市場。第一台個人電腦(Altair 8800)於 1975 年發布,隨後在接下來的 10 年裡進行了一系列的創新,最終在 1984 年推出了 Apple Macintosh。隨之而來的是一波爆炸性的採用浪潮,在整個 90 年代一直持續到 2000 年:

然而,大多數用戶並不知道,在惡意軟體或「惡意軟體」市場也發生了類似的爆炸。

1989 年,Robert Morris 嘗試使用 Unix sendmail,並構建了一個可以自我複製的蠕蟲,然後將其發送到 internet 上。一開始只是一個簡單的實驗,結果變成了第一次 DoS 攻擊,造成的損失估計在 10 萬到 1000 萬美元之間,並使整個網際網路慢了好幾天(當然現在是不可想像的)。隨後,1989 年發生了第一次勒索軟體攻擊,1996 年出現了第一個 Linux 病毒(「Staog」),1998 年出現了第一個 AOL 木馬。

後來,同樣的事情也發生在移動領域:2007 年的 iPhone 時刻,隨之而來的是智慧型手機的爆炸式增長:

緊隨其後的是手機惡意軟體的爆炸式增長:

那麼,機器學習呢?

儘管如此,機器學習的產品化仍處於萌芽階段。許多真正前沿的工作仍然局限於研究實驗室和大學 —— 但即使是研究,我們也可以開始看到一些相同的趨勢出現。

機器學習研究論文按年份和地區分類:

…vs對抗機器學習(ML 的惡意軟體版本)研究論文計數:

事情正在發生。開始恐慌了嗎?

安全問題

還沒有那麼快。好消息是,隨著個人電腦占據了我們的日常生活,黑客開始入侵,另一個與之並行的市場開始發展 ——安全解決方案市場。

1987 年,Andreas Luning 和 Kai Figge 為 Atari ST 平台開發了第一個抗病毒產品。同年,McAffee、NOD、Flu Shot 和 Anti4us 都出生了 —— 在接下來的 20 年裡,更多的安全類產品誕生了:

很快,VCs 就意識到了大型網絡安全將會發生什麼,資本將開始流動:

  • Kleiner Perkins 對 Symantec 投資 3M
  • McAffee 從 Summit Partners 拿到了融資
  • BitDefender 融資 7 百萬美元

數百萬美元的收購:

  • McAffee700 萬美元買了 solomon
  • Symantec 同意以 787.8 億美元購買 Axent
  • 微軟從 GeCAD 軟體中獲取殺毒技術

隨著手機惡意軟體的快速增長,安全玩家也出現了類似的爆炸式增長:

安全鄰域的融資:

  • Bluebox 從 Andreessen Horowitz 融資$9.5M
  • France Telecom 對 Lookout 投資達到$20M
  • Zimperium 在移動安全領域融資$8M

安全領域的收購:

  • 移動安全初創公司被 Rapid7 收購
  • Apple 以$356M 購買了三星安卓安全合作夥伴
  • AVG 以$220M 購買了移動安全公司 Location Labs

那麼機器學習呢?

機器學習需要安全嗎?

在過去的某個時候,我曾為英國最大的金融科技公司之一進行過反欺詐和反洗錢工作。我的團隊每年監管的交易額超過 100 億美元,我們一直在努力阻止騙子進入 GC 的循環系統。很自然地——在某種程度上,我們屈服於這種炒作,決定嘗試機器學習。

令我當時感到驚訝的是,它居然奏效了。事實上,它很有效。從傳統的啟發式,我們設法減少了 80%的金錢損失到欺詐和提高了 20 倍的檢測可疑的帳戶洗錢。

只有一個問題。

我們在我認為「關鍵」的能力上部署了機器學習。我們給了這個算法一項任務,但這項任務不允許它失敗——如果失敗了—— 我們要麼損失大量金錢,要麼被吊銷金融執照。對我這個直接負責 GC 安全的產品經理來說,這兩者聽起來都不是什麼好事。

所以我需要知道 ML 如何以及何時會失敗。如何利用我們的模式?它內在的弱點在哪裡?我如何知道 GoCardless 是否受到攻擊?

在花了太多的夜晚閱讀 ML 的文件和在暗網上尋找之後,我終於找到了我所尋找的。我在 ML 上了解到中毒攻擊,攻擊者可以通過在訓練中注入損壞的數據來影響模型的思維。我發現了對抗性的例子,以及在測試時模型是如何容易被精心設計的擾動的輸入誤導的。最後,我了解到隱私攻擊,底層數據和模型本身都不是真正的私有。

然後,我發現了這個……

我嚇壞了。

到 2019 年底,1/3 的企業都將部署機器學習。這是你、我、我們的朋友和親人每天使用的所有產品的三分之一 —— 在任何知道 ML 工作原理的攻擊者面前全裸。

是的,機器學習需要安全。

邁出第一步

ML 安全是一個非常新興的領域 —— 到今天基本上還不存在。如果說我從上面的研究中學到了什麼,那就是任何沒有數學博士學位的人都很難弄清楚如何保證他們的 ML 的安全(現在幾乎沒有解決方案,只有大量的數學研究論文)。

考慮到我們的生活中有多少是要託付給算法的 —— 我認為這是我們的責任 —— 你、我和整個 ML 社區的責任是確保安全不被拋在腦後。今天有很多我們可以做的來構建更健壯的 ML 模型 —— 正如我解釋我的帖子逃稅,中毒和隱私攻擊。但更重要的是,我們需要轉變思維模式——從「不惜一切代價的準確性」轉向更平衡的準確性與穩健性:

C1和C2是兩個模型。很明顯,C1一開始並不是很準確,但是隨著攻擊強度的增加,它在抵抗攻擊方面也做得更好。你選擇C1還是C2作為ML模型?

這篇文章和上面的文章是我嘗試邁出的第一步,邁向一個更健壯的 ML 未來。確保每個人的安全。

英文原文: https://medium.com/@iljamoisejevs/what-everyone-forgets-about-machine-learning-974752543849

關鍵字: