茶壺馬桶分不清！Hinton：CNN存缺陷，膠囊網絡才是未來

人工智慧在經歷漫長的發展寒冬之後，得益於深度學習和人工神經網絡的進步，如今正炙手可熱。

更準確地說，如今深度學習的成功很大程度上要歸功於卷積神經網絡（CNN）。

但是深度學習的先驅之一Geoffrey Hinton卻在AAAI會議（主要的年度AI會議之一）上的主題演講中談到：CNN本身存在缺陷，膠囊網絡才是未來。

具體原因為何，以下是國外作者Ben Dickson整理的Hinton演講紀要，讓我們一起探尋答案：

自從人工智慧誕生之初，科學家就試圖製造能夠像人類一樣看到世界的計算機，這就催生了統稱為計算機視覺的領域。

計算機視覺的早期工作涉及符號人工智慧的使用，其中必須由人類程式設計師指定每條規則的軟體。問題在於，並非人類視覺設備的每個功能都可以在明確的電腦程式規則中分解。該方法最終獲得的成功和使用非常有限。

另一種方法是使用機器學習。與符號AI相反，機器學習算法具有一般結構，並通過檢查訓練示例來釋放它們自己的行為。但是，大多數早期的機器學習算法仍然需要大量的人工來設計檢測圖像中相關特徵的零件。

另一方面，卷積神經網絡是端到端的AI模型，它們發展了自己的特徵檢測機制。訓練有素的多層CNN會自動以分層的方式識別特徵，從簡單的邊角開始到複雜的對象（例如臉，椅子，汽車，狗等）。

CNN最早是在1980年代由LeCun提出的，當時LeCun是多倫多大學Hinton實驗室的博士後研究員。但是由於它們對計算和數據的巨大需求，當時對CNN的採用非常有限。經過三十年的發展，CNN的計算硬體和數據存儲技術取得了長足的發展。

如今，由於大型計算集群，專用硬體和大量數據的可用性，卷積網在圖像分類和對象識別中發現了許多有用的應用程式。

CNN和人類視覺之間的區別

「 CNN學會了端到端的一切。事實證明，如果一項功能在某個地方不錯，那麼在其他地方也很不錯，因此它贏得了巨大的勝利。 Hinton在AAAI演講中說：「但是它們與人類的感知有很大不同。」

計算機視覺的主要挑戰之一是處理現實世界中的數據差異。我們的視覺系統可以從不同角度，在不同背景下以及在不同光照條件下識別物體。當物體被其他物體部分遮擋或以偏心的方式上色時，我們的視覺系統會使用線索和其他知識來填充缺失的信息以及我們所見事物的原因。

實踐證明，創建可以複製相同對象識別功能的AI非常困難。

Hinton說：「 CNN旨在應付翻譯。」這意味著訓練有素的卷積網絡可以識別對象，而不管其在圖像中的位置如何。但是他們並不能很好地處理視點變化的其他影響，例如旋轉和縮放。

根據Hinton的說法，解決此問題的一種方法是使用4D或6D映射來訓練AI，然後再執行對象檢測。他補充說：「但這真是令人望而卻步。」

目前，我們最好的解決方案是收集大量圖像，以不同位置顯示每個對象。然後，我們在這個龐大的數據集上訓練我們的CNN，希望它能看到足夠多的物體實例以進行概括，並能夠在現實世界中以可靠的準確性檢測物體。 ImageNet之類的數據集旨在實現這一目標，該數據集包含超過1400萬個帶注釋的圖像。

Hinton說：「這不是很有效。」「我們希望神經網絡能夠毫不費力地進行泛化。如果他們學會了識別某些東西，並且將其放大10倍並旋轉60度，那麼這根本不會給它們帶來任何問題。我們知道計算機圖形就是這樣，我們希望使神經網絡更像那樣。」

實際上，ImageNet（目前是評估計算機視覺系統的首選基準）存在缺陷。儘管數據集龐大，但無法捕獲對象的所有可能角度和位置。它主要由在理想照明條件下以已知角度拍攝的圖像組成。

這對於人類視覺系統是可以接受的，它可以輕鬆地概括其知識。實際上，從多個角度看待某個對象後，我們通常可以想像它在新位置和不同視覺條件下的外觀。

但是，CNN需要詳細說明它們需要處理的具體情況，而且他們沒有人的創造力。深度學習開發人員通常嘗試通過應用稱為「數據增強」的過程來解決此問題，在該過程中，他們在訓練神經網絡之前翻轉圖像或旋轉少量圖像。實際上，CNN將在每個圖像的多個副本上訓練，每個副本略有不同。這將幫助AI更好地對相同對象進行泛化。數據擴充在某種程度上使AI模型更加魯棒。

然而，數據擴充無法涵蓋CNN和其他神經網絡無法處理的極端情況，例如，椅子翹起或躺在床上的T恤衫弄皺。這些是像素操縱無法實現的現實情況。

ImageNet與現實：在ImageNet（左列）中，對象放置整齊，處於理想的背景和光照條件下。在現實世界中，事情變得更加混亂

目前，已經通過創建更好地表示現實世界的混亂視覺的計算機視覺基準和訓練數據集來解決該泛化問題。但是，儘管它們可以改善當前AI系統的結果，但它們並不能解決跨視角泛化的根本問題。 這些新數據集始終不包含新的角度，新的照明條件，新的顏色和姿勢。那些新情況將使最大，最先進的AI系統困惑不已。

差異可能會很危險

從上面提出的觀點來看，CNN顯然以與人類截然不同的方式識別物體。但是，這些差異不僅限於泛化能力弱，而且還需要更多示例來學習對象。 CNN產生的對象的內部表示形式也與人腦的生物神經網絡非常不同。

「我可以拍攝一張圖像，並增加一點點噪點，而CNN會將其識別為完全不同的東西，作為人類我卻幾乎看不到它已經改變。這似乎真的很奇怪，我以此為依據證明CNN實際上是在使用與我們完全不同的信息來識別圖像，」Hinton在AAAI會議上的主題演講中說。

這些經過輕微修改的圖像被稱為「對抗性示例」，並且是AI界研究的熱門領域。

對抗性示例可能會導致神經網絡對圖像進行錯誤分類，而對人眼卻保持不變

Hinton說：「並不是說這是錯的，他們只是以一種完全不同的方式來做，而且他們的完全不同的方式在泛化方式上也有所不同。」

但是許多例子表明，對抗性干擾可能是極其危險的。當您的圖像分類器錯誤地將熊貓標記為長臂猿時，一切都變得可愛有趣。但是，當自動駕駛汽車的計算機視覺系統缺少停車標誌，邪惡的黑客繞過面部識別安全系統或Google Photos將人類標記為大猩猩時，您就會遇到問題。

關於檢測對抗性漏洞並創建可抵抗對抗性擾動的強大AI系統，已有許多研究。但是，對抗性的例子也提醒我們：我們的視覺系統經過幾代人的進化，可以處理我們周圍的世界，我們也創造了我們的世界來適應我們的視覺系統。因此，只要我們的計算機視覺系統以與人類視覺根本不同的方式工作，除非得到雷射雷達和雷達測繪等互補技術的支持，否則它們將是不可預測且不可靠的。

坐標系和整體關係至關重要

Hinton在AAAI主旨演講中指出的另一個問題是，卷積神經網絡無法根據物體及其部位來理解圖像。它們將圖像識別為以不同圖案排列的像素斑點。這些圖像沒有實體及其關係的顯式內部表示。

「當您將CNN定位在各個像素位置的中心時，您會越來越多地描述該像素位置上發生的情況，這取決於越來越多的上下文。最後，您獲得了如此豐富的描述，以至於您知道圖像中存在哪些對象。但是它們並沒有明確解析圖像。」Hinton說。

我們對物體組成的了解有助於我們了解世界並了解我們之前從未見過的事物，例如這個奇異的茶壺。

將對象分解為多個部分有助於我們了解其性質。這是馬桶還是茶壺？

CNN還缺少坐標系，這是人類視覺的基本組成部分。基本上，當我們看到一個物體時，我們會開發一個關於其方向的心理模型，這有助於我們解析其不同特徵。例如，在下面的圖片中，考慮右邊的臉。如果您將其倒置，則臉會在左側。但實際上，您無需實際翻轉圖像即可看到左側的面孔。只需在心理上調整坐標框，就可以看到兩個面孔，無論圖片的方向如何。

「根據所施加的坐標系，您會有完全不同的內部感知。卷積神經網絡確實無法解釋這一點。您給他們一個輸入，它們有一個洞察力，而洞察力與施加坐標系無關。我想這與對抗性例子有關，也與卷積網以與人完全不同的方式進行感知這一事實有關。」Hinton說。

從計算機圖形學中吸取經驗

Hinton在AAAI會議上的演講中指出，解決計算機視覺的一種非常方便的方法是製作逆圖形。3D計算機圖形模型由對象的層次結構組成。每個對象都有一個轉換矩陣，該矩陣定義了與其父對象相比的平移，旋轉和縮放比例。每個層次結構中頂級對象的變換矩陣定義了其相對於世界原點的坐標和方向。

例如，考慮汽車的3D模型。基礎對象具有4×4變換矩陣，該矩陣表示汽車的中心位於具有旋轉（X = 0，Y = 0，Z = 90）的坐標（X = 10，Y = 10，Z = 0）處。汽車本身由許多對象組成，例如車輪，底盤，方向盤，擋風玻璃，變速箱，發動機等。每個對象都有自己的變換矩陣，與母矩陣（中心點）相比，它們定義了位置和方向。汽車）。例如，左前輪的中心位於（X = -1.5，Y = 2，Z = -0.3）。左前輪的世界坐標可以通過將其變換矩陣乘以其父矩陣得到。

其中一些對象可能具有自己的子集。例如，車輪由輪胎，輪輞，輪轂，螺母等組成。這些子項中的每個子項都有自己的變換矩陣。

使用這種坐標系層次結構，可以非常輕鬆地定位和可視化對象，而不管它們的姿勢和方向或視點如何。當您要渲染對象時，將3D對象中的每個三角形乘以其變換矩陣及其父級的變換矩陣。然後將其與視點對齊（另一個矩陣乘法），然後在柵格化為像素之前轉換為螢幕坐標。

「如果你(對從事計算機圖形學工作的人)說，『你能從另一個角度給我展示一下嗎?』他們不會說，『哦，好吧，我願意，但我們沒有從那個角度進行培訓，所以我們不能從那個角度給你展示。』」「他們只是從另一個角度向你展示它，因為他們有一個3D模型，他們對空間結構建模，部分和整體之間的關係，這些關係完全不依賴於視角，」Hinton說。「我認為在處理3D物體的圖像時，不使用這種漂亮的結構是很瘋狂的。」

Hinton雄心勃勃的新項目Capsule Network嘗試製作逆計算機圖形。儘管膠囊應該有自己的一套文章，但其背後的基本思想是拍攝圖像，提取其對象及其零件，定義其坐標系並創建圖像的模塊化結構。

膠囊網絡仍在研發中，自2017年推出以來，它們經歷了多次疊代。但是，如果Hinton和他的同事們成功地使他們發揮作用，我們將更接近複製人類的視野。

參考連結：

https://bdtechtalks.com/2020/03/02/geoffrey-hinton-convnets-cnn-limits/