AAAI 2023 傑出論文 DropMessage:圖神經網絡隨機刪減方法的歸併統一

本文探究了隨機刪減方法在圖神經網絡（GNNs）上的應用。隨機刪減方法指的是在神經網絡模型上一層輸出和下一層輸入之間隨機刪除部分元素的一類方法。這類方法能夠廣泛提升模型的魯棒性和泛化性。幾乎所有的深度模型都會應用這一方法來提升模型性能。針對近年來得到廣泛研究的圖神經網絡（GNNs），很多隨機刪減方法的變體被提出，其中包括DropEdge[1]，DropNode[2]。這些變體與傳統的Dropout[3]一起，被眾多GNNs模型使用。本文針對圖神經網絡的消息傳遞機制（message-passing），提出了在消息層面進行隨機刪減的DropMessage方法。DropMessage是更加細粒度的圖上隨機刪減方法，現有的隨機刪減方法都是DropMessage的特殊形式。相比於現有方法，DropMessage的樣本方差更小，保留了圖上信息的多樣性。本文從理論和實驗上證明了DropMessage方法的優越性。

DropMessage示意圖

圖上的隨機刪減方法對比

DropMessage介紹

與現有的隨機丟棄方法不同，DropMessage直接在消息矩陣上執行，而不是特徵矩陣或鄰接矩陣。具體來說，DropMessage以的刪減率在消息矩陣上進行隨機刪減，這意味著消息矩陣中的個元素將被刪除。對於消息矩陣中的每個元素，我們根據伯努利分布生成一個獨立的掩碼來確定它是否會被保留。然後，我們通過將每個元素與其掩碼相乘來獲得擾動後的消息矩陣。最後，我們用對進行縮放，以保證消息矩陣規模不變。整個過程可以表示為:

不同隨機刪減方法的不同形式化表示

理論分析

隨機刪減方法有效性的理論分析

本文先分析了隨機刪減方法在GNNs上為何會起作用。

隨機刪減方法會在模型的損失函數中引入額外的正則約束，使得模型更加魯棒。以二分類節點分類任務為例，如果選擇交叉熵作為損失函數，那麼最終的優化目標將轉變為：

優化這個損失函數，後項將會使得分類概率接近0和1，這會讓模型得到更加明確的分類邊界。此外，這個損失函數也會要求表徵在不同擾動下儘量得到一致的最終結果，這增加了模型的魯棒性。

DropMessage相比於其他方法的優勢

A. 降低樣本方差

在相同隨機刪減率的情況下，DropMessage有著最小的樣本方差，這也意味著DropMessage將保證訓練過程的穩定。實驗中得到的曲線圖也證明了這一點。

不同隨機刪減方法的訓練曲線圖

B. 保證信息多樣性

DropMessage還有著信息多樣性上的優越性。首先給出信息多樣性的定義。

所有現有的隨機刪減方法（Dropout，DropEdge，DropNode）都會減小圖上的信息多樣性。而DropMessage在特定的隨機刪減率下，圖上的信息多樣性將在期望上不會降低。

從資訊理論的角度來講，DropMessage保留了更多的圖上的信息，它理應是其他隨機刪減方法性能的上限。

實驗分析

本文在多個數據上進行了性能實驗，結果表明DropMessage相比於其他方法有著一定的性能提升。

在過擬合實驗上的結果也表明DropMessage能夠更好地避免模型產生過擬合。

過擬合分析

總結

本文提出了一種基於message-passing圖神經網絡的隨機刪減方法——DropMessage。現有的隨機方法都可以看成是DropMessage的特殊形式。相比於現有方法，DropMessage還有收斂速度快，訓練過程穩定和保留更多信息的優勢。作者認為，應用DropMessage可以普適地提升基於message-passing的圖神經網絡的性能。

提

醒

論文連結：https://arxiv.org/abs/2204.10037

代碼連結：https://github.com/zjunet/DropMessage

[1] Rong, Y.; Huang, W.; Xu, T.; and Huang, J. 2019. Dropedge: Towards deep graph convolutional networks on node classification. In ICLR.

[2] Feng, W.; Zhang, J.; Dong, Y.; Han, Y.; Luan, H.; Xu, Q.; Yang, Q.; Kharlamov, E.; and Tang, J. 2020. Graph Random Neural Networks for Semi-Supervised Learning on Graphs. NeurIPS, 33.

[3] Hinton, G. E.; Srivastava, N.; Krizhevsky, A.; Sutskever, I.; and Salakhutdinov, R. 2012. Improving neural networks by preventing co-adaptation of feature detectors. ArXiv, abs/1207.0580.