登上Science子刊，神經科學再次啟發DNN設計！中科院揭秘介觀自組織反向傳播機制

作者 | 張鐵林，徐波

論文標題：A Mesoscale Plasticity for Efficient AI Learning

在人工智慧領域，目前人工神經網絡中被廣泛使用的反向傳播算法（Backpropagation，BP）採用全局優化策略，這種端到端的學習方法性能卓越，但學習過程能量消耗大，且缺乏靈活性。中科院腦智卓越中心徐波、蒲慕明聯合研究團隊近期藉助生物網絡中發現的介觀尺度自組織反向傳播機制（Self-backpropagation，SBP），在更具效率和靈活性的類腦局部學習方法方面取得了重要進展。

SBP的發現最早可以追溯到1997年。蒲慕明團隊在Nature雜誌上撰文發現海馬體內的神經元可以將長時程抑制（Long-term depression，LTD）可塑性自組織地傳播到三個方向，分別是突觸前側向傳播（Presynaptic lateral spread）、突觸後側向傳播（Postsynaptic lateral spread）、反向傳播（Backpropagation）[1]，這個發現就是自組織反向傳播神經可塑性機制（SBP）。後續研究證實，SBP現象具有普遍性，不僅覆蓋更多的神經區域如視網膜-頂蓋系統[2]，還覆蓋更多的可塑性類型[3]，如長時程增強（Long-term potentiation，LTP）。該機制的發生歸結於生物神經元內分子調製信號的天然逆向傳遞，被認為是可能導致生物神經網絡高效反饋學習的關鍵[4]。

研究團隊受到該機制的啟發，對SBP的反向傳播方向（第三個方向）單獨構建數學模型（圖1A），重點描述了神經元輸出突觸的可塑性可以反向傳播到輸入突觸中（圖1B），可塑性的發生可以通過時序依賴突觸可塑性（Spike timing-dependent plasticity，STDP），也可以通過人工局部梯度調節。在標準三層脈衝神經網絡（Spiking neural NETwork，SNN）的學習過程中，SBP機制可以自組織地完成前一層網絡權重的學習，且可以結合短時突觸可塑性（Short-term plasticity，STP）、膜電位平衡（Homeo-static membrane potential）等，形成更強大的SNN組合學習方法（圖1C）。

在一類人工神經網絡（Artificial neural network，ANN）如受限玻爾茲曼機網絡（Restricted Boltzmann machine，RBM）的學習中（圖2A），SBP機制也可以替換疊代過程中部分BP機制，實現交替的協作優化（圖2B-E）。針對SNN和RBM的不同，團隊又分別設置了兩種不同的能量函數約束，來保證訓練過程中網絡參數學習的平穩性。此外，研究團隊針對性地提出了一種統計訓練過程中能量消耗的新方法（圖3）。在圖片分類（MNIST）、語音識別（NETtalk）、動態手勢識別（DvsGesture）等多類標準數據集上，SBP機制通過組合其它可塑性機制，實現了更低能耗和更高精度的SNN局部學習（圖4）。在ANN-RBM的學習中，SBP機制也可以大量的替換BP機制實現全局和局部交叉學習，在降低計算能耗同時卻不損失精度（圖5）。

研究人員認為，SBP是一類介觀尺度的特殊生物可塑性機制，該機制同時在SNN和ANN中獲得了廣泛的組合優化優勢，對進一步深入探索類腦局部計算具有很大的啟示性。生物智能計算的本質，很可能就是靈活融合多類微觀、介觀等可塑性機制的自組織局部學習，結合遺傳演化賦予的遠程投射網絡結構，實現高效的全局優化學習效果。該工作可以進一步引導生物和人工網絡的深度融合，最終實現能效比高、可解釋性強、靈活度高的新一代人工智慧模型。

相關工作（Self-backpropagation of synaptic modifications elevates the efficiency of spiking and artificial neural networks）於2021年10月20日（美東時間）在線發表於《科學》子刊《Science Advances》上。中國科學院自動化研究所類腦智能研究中心張鐵林副研究員為第一作者，徐波研究員為通訊作者，程翔（博士生）、賈順程（博士生）、蒲慕明研究員和曾毅研究員為共同作者。相關研究工作得到了國家自然科學基金委、先導B等項目的資助。

相關論文地址見：https://www.science.org/doi/10.1126/sciadv.abh0146

圖1：SBP在SNN中的應用。

（A），SBP可塑性機制。（B），SBP在SNN中的局部反向傳播。（C），SBP和其它可塑性機制在SNN中的組合優化。

圖2：SBP在RBM中的應用。

（A），SBP和BP在RBM中的組合優化。（B），SBP和BP的交替協作流程。（C），RBM中的標準Sleep Phase。（D），含有SBP的Wake Phase。（E），含有BP的Wake Phase。

圖3：訓練能量消耗的計算方法。

（A），平均疊代次數。（B），每次疊代中的算法複雜度。

圖4：在MNIST、NETtalk、DvsGesture三個數據集上的性能對比。

（A,C,E），SBP分別取得了基於梯度和基於可塑性方法的SNN最優性能。（B,D,F），SBP分別取得了基於梯度和基於可塑性方法的SNN最低能耗。

圖5：SBP有助於RBM提升精度和降低能耗。

（A-C），在MNIST數據集中，SBP可以少量降低RBM的訓練誤差（A），可以同時平衡精度和能耗得到最優的Wake Phase次數（B），且可以顯著降低訓練能耗（C）。（D-I），在NETtalk和DvsGesture數據集中，SBP得到了和在MNIST中類似的結論。

參考文獻：

[1] Fitzsimonds, R. M., Song, H. J. & Poo, M. M. Propagation of activity-dependent synaptic depression in simple neural networks. Nature 388, 439-448, (1997).

[2] Du, J. L. & Poo, M. M. Rapid BDNF-induced retrograde synaptic modification in a developing retinotectal system. Nature 429, 878-883, (2004).

[3] Du, J. L., Wei, H. P., Wang, Z. R., Wong, S. T. & Poo, M. M. Long-range retrograde spread of LTP and LTD from optic tectum to retina. Proceedings of the National Academy of Sciences of the United States of America 106, 18890-18896, (2009).

[4] Bi, G. & Poo, M. Synaptic modification by correlated activity: Hebb's postulate revisited. Annual Review of Neuroscience, 24, 139-166, (2001).