中科院自動化所余山:對大腦的未知,並不阻礙借鑑大腦,成就智能

ai科技評論 發佈 2020-05-24T08:38:56+00:00

傳統計算機使用的是馮諾依曼架構,其基本架構如上圖所示,包括控制器、運算器、記憶單元、輸入系統和輸出系統等五個組成部分;

作者 | 蔣寶尚

編輯 | 賈偉

他山之石,可以攻玉。對於人工智慧研究,腦科學無異是最重要的「他山之石」了。

近年來,人工智慧在經歷過一波由深度學習帶來的火爆之後,已然進入深水區;如何通向強人工智慧,逐漸成為智能研究的各界人士共同關注的中心話題。

「類腦計算」正是智能研究人員嘗試以腦科學之「石」攻智能之「玉」的重要方向。

5月19日,在中國圖象圖形學學會主辦的「CSIG·雲講堂」上,中國科學院自動化研究所余山研究員作了「從腦網絡到類腦網絡計算」主題報告。余山研究員借鑑Marr對視覺體系的劃分,將類腦計算的研究分為四個層面:硬體、算法、計算、學習。針對每一層面,余山研究員做了或簡或詳的介紹,頗有啟發。

余山研究員認為,儘管當前人類對大腦的認知並不充分,但這並不阻礙智能研究的各界人士去借鑑已有的神經科學和腦科學的知識,從而來發展對智能系統的研究和設計。

1 硬體層面:存算一體設計結構

傳統計算機使用的是馮諾依曼架構,其基本架構如上圖所示,包括控制器、運算器、記憶單元、輸入系統和輸出系統等五個組成部分;其中控制器和運算器構成了處理單元(CPU)。

做數據處理時,計算機把數據從存儲單元調到處理單元,運算之後再返回到存儲單元。但這種操作方式,會導致存儲單元和處理單元之間進行非常高頻的數據搬運,從而帶來極高的能耗。

圖註:其中時鐘頻率代表數據在存儲單元和處理單元之間調用的速度。能量頻率代表功率。

儘管近年來計算機有高速的發展,GPU時鐘頻率不斷提升,但隨之而來的也是能量密度的逐年提升。

以IBM在2000年開發的一個用來做生物信息學研究的計算機為例,其包含了144TB的內存, 14萬個處理器,功耗高達1.4兆瓦。每當這台計算機運行時,就必須有一個專門的電站為其供能。

反過來,我們看人腦,具有如此高的智能,然而其功耗卻只有20瓦左右,僅相當於一顆黯淡的白熾燈的能耗。

如此大的差別,原因是什麼呢?

原因自然很多,但重要的一點是,不同於馮諾依曼機,人腦的計算是「存算一體」。在人腦的神經網絡中, 信息的存儲和處理並不分開,神經網絡本身即是存儲器,又是處理器。

借鑑人腦的這種特點,近年來,有越來越多的研究團隊加入了「存算一體」晶片研製中,其中IBM研製的TrueNorth和清華大學研製的Tianjic是這方面最出色的代表。這種晶片被稱為神經形態或神經擬態晶片,極大地解決了數據頻繁搬運所帶來的能耗問題。

2 算法層面:藉助突觸式信號傳遞

在算法層面,生物腦和人工神經網絡之間也有非常重要聯繫。余山研究員在報告中提了兩個例子。

第一個例子是突觸的機率釋放與Dropout算法之間的關係。

生物神經網絡中,神經元之間的連接是通過一個叫做突觸的結構進行的,這個結構也是兩個神經元之間進行信息交互的地方。當前神經元有一個動作電位時,它會釋放某種神經遞質,這種遞質被後神經元吸收之後便會轉化為電信號,從而實現電信號在神經元之間的傳遞。

這裡面兩個神經元之間信息傳遞的關鍵是:電信號促使化學物質釋放。

這種方式存在缺點,即神經衝動導致神經遞質釋放並不總是成功——成功機率的中位數僅在0.2~0.3之間,也即有80%左右的機率會出現信息傳輸失敗。

然而,如此低的成功率卻有它獨特的意義。低成功率,可以使神經網絡更快、更好地學習。

人工神經網絡訓練方法Dropout正是對這種現象最好的借鑑:在網絡訓練時,隨機關閉某些神經元;而在測試時,讓所有神經元都工作。結果顯示,利用這種方法,神經網絡的學習能力將有明顯地提高。

第二個例子是有關神經網絡的臨界狀態。

我們先介紹一個概念:神經元的傳播係數。簡單來理解,即一個神經元能夠激活的神經元個數。

我們看上圖,當傳播係數大於 1時,隨著時間的發展,系統中信號的傳播將會產生爆炸;而當傳播係數小於 1時,由於每一次傳播後激活神經元的個數都在變少,因此最終信號會呈指數消退;只有當傳播係數等於 1 時,系統才會保持相對的穩定。我們將這種傳播係數等於 1 的穩定狀態稱為臨界狀態,而>1的情況稱為超臨界狀態,< 1的情況稱為亞臨界狀態。

顯然無論是亞臨界還是超臨界,都不利於信息的傳遞和處理。只有在臨界狀態,信息才能夠通過神經元的活動把信息保持並傳播下去。

臨界狀態下,網絡錯誤率往往會比較低。但,從上圖中可以看出,臨界狀態是非魯棒的,稍微有一點擾動,其性能便會受到很大的影響。

如何解決這一問題,在保持高性能的情況下同時還具有較高的魯棒性?

大腦給了我們可以借鑑的答案:自適應機制。

神經科學家根據生物實驗,提出了模擬模型,讓網絡模型能夠自適應地學習傳播係數。結果如上圖所示,正常情況下,臨界狀態很窄;而採用自適應模型,臨界狀態的寬度便大大地增寬。

同樣的,在人工神經網絡中,也存在著信息傳輸所帶來的網絡爆炸或快速消失的問題,即所謂「梯度消散」。針對這一問題,目前主流的解決方案是用Batch Norm或 Layer Norm,也即在人工神經網絡中,每兩個處理層次之間添加一個專門的處理層;這個層的作用是把前面傳來的信號做增強或衰減的調整,從而使後面層的反應不至太強或太弱。

但新增層必然會帶來額外的計算負擔。大腦就沒有這種額外層。能否借鑑大腦的機制,通過某種方式,在不使用額外層的情況下,同時還能夠保持網絡的信息傳播平衡呢?

3 計算層面:情境相關

相較於算法層面,在計算層面的借鑑稍顯抽象。余山研究員結合他們近期發表在《Nature Machine Intelligence》上的一篇工作,做了相應的介紹。

人類作為智慧生物,最重要的特徵便是能夠"適應環境變化,實現自身目的"。人類大腦不僅可以在新的環境中不斷吸收新的知識,而且可以根據不同的環境靈活調整自己的行為。

作為對應,當前以DNN為代表的神經網絡,儘管可以建立輸入輸出之間非常複雜的映射關係,用於識別、分類和預測。但是一旦學習階段結束,它所能做的操作就固化了,既難以方便的學習新的映射,也不能對實際環境中存在情境信息(比如自身狀態,環境變化、任務變化等)做出靈活的響應,難以滿足複雜多變的需求,即缺少情境依賴學習(contextual-dependent learning)的能力。

那麼,我們如何借鑑腦科學知識呢?

據腦科學家的研究表明,大腦的結構,除了感覺輸入、運動輸出這個通路之外,還存在一個調控的通路(主要在大腦前額葉發揮作用,因此也可以說,前額葉區決定了人的隨機應變能力)。這個調控通路在很大程度上決定了人的靈活應變能力。

受此啟發,余山等人提到了一種PFC-like的新網絡架構,在輸入輸出之間加入了一個情境處理模塊(CDP)。

CDP模塊的作用便是在輸入輸出之間,根據Context對結果進行旋轉,從而能夠依據上下文動態調整網絡內部信息。

它包括兩個子模塊:1、編碼子模塊,其負責將情境信息編碼為適當的控制信號;2、「旋轉」子模塊,其利用編碼模塊的控制信號處理任務輸入(由於其功能上相當於將特徵向量在高維空間上進行了旋轉,故稱為「旋轉」子模塊)。

結果喜人!

圖註:同一個分類器對於同樣的輸入,連續學習40種不同人臉屬性的分類任務(藍色數據點),正確率與用40個分類器的系統(橙色線)幾乎一致。

他們在CelebA數據集上進行測試。按照傳統的模型,針對數據集上的40個類型,需要訓練40個模型才能完成任務,而採用CDP模塊後,一個模型能解決所有分類問題,且性能不降。

若想進一步了解這個奇妙的思想,可參看文章:《國內首發Nature子刊 Machine Intelligence論文:思想精妙,或對DNN有重大改進!》

4 學習層面:連續學習和情境依賴

學習層面,神經網絡面臨的一個重要問題是災難性遺忘,即神經網絡在學習不同的任務時,如果不是把不同任務的訓練樣本混在一起去訓練,往往在學習新的任務時候,網絡就會把從舊任務中學到的知識忘掉。

以上圖為例,先讓神經網絡識別「狗」,得到一個性能非常高的網絡;繼而再讓網絡去學習識別「貓」,這時網絡的權重就會重新調整;學完之後再拿來去識別「狗」,神經網絡的性能就會大幅下降,甚至不能使用。原因就在於,當學習「貓」的任務時,網絡把針對「狗」的任務學到的知識給忘了。

然而,人腦卻沒有這種所謂「災難遺忘」的問題。人類先後順序地學習不同的任務,最後識別能力還能不斷提升。

針對這一問題,余山研究員在上面提到的那篇文章中提出一種稱為「正交權重修改 (Orthogonal Weights Modification,OWM) 」的算法。

圖:OWM算法原理示意圖。(a): 在權重更新時,OWM算法只保留傳統BP算法計算的權重增量中與歷史任務輸入空間正交的部分;(b): 在新任務中,OWM算法將神經網絡對解的搜索範圍約束在舊任務的解空間中。

OWM算法的核心思想很簡單,即通過 P 映射之後,學習新任務的解仍然在舊任務的解空間當中。

正如其名「正交權重修改」,在學習新任務時,只在舊任務輸入空間正交的方向上修改神經網絡權重。如此,權重增量幾乎不與以往任務的輸入發生作用,從而保證了網絡在新任務訓練過程中搜索到的解,仍處在以往任務的解空間中。數學上,OWM通過正交投影算子P與誤差反傳算法得到的權重增量

作用來實現其目的,即最終的權重增量

,這裡k為係數。

OWM算法實現了對網絡中已有知識的有效保護,並可以與現有梯度反傳算法完全兼容。

如上圖所示,余山等人在ImageNet 上做了測試,選取 1000個類,特徵提取器使用ResNet152,在訓練分類器時:

1)當採用傳統的SGD方法,任務混合訓練時,準確率為78.31%;

2)在採用SGD,但所有任務順序訓練時,準確率直降到4.27%,這正是「災難性遺忘」的結果;

3)當採用OWM方法,任務順序訓練時,結合經過預訓練的特徵提取器,準確率能夠達到75.24%,性能媲美於SGD的混合訓練。

余山等人同樣在手寫字數據集HWDB上進行了測試,包含3755個類,特徵提取器選用ResNet18,同樣可以看到,採用OWM順序訓練分類器依然能夠保持較高的性能。

值得一提的是,算法具有優良的小樣本學習能力,以手寫體漢字識別為例,基於預訓練的特徵提取器,系統可以從僅僅數個正樣本中就能連續的學習新的漢字。上圖中顯示在3755個類(漢字)上,僅需要在10個類上進行連續學習,便能夠達到90%以上的性能。

OWM算法有效地克服了災難性遺忘的難題,使得單個神經網絡不僅可以先學「狗」再學「貓」,而且可以逐漸的學習多達數千個類型的識別。

這一新型學習算法和前面介紹的情境依賴處理 (CDP) 模塊配合,能夠使人工神經網絡具備強大的連續學習和情境依賴學習能力。其中,OWM 算法可以有效克服神經網絡中的災難性遺忘,實現連續學習;而受大腦前額葉皮層啟發的 CDP 模塊可以有效整合情境信息,調製神經網絡的信息處理過程。二者結合便有望讓智能體通過連續不斷的學習去適應複雜多變的環境,從而逐步逼近更高水平的智能。

5 先驗知識、語義理解和記憶

除了上面四個層次的借鑑之外,余山老師還介紹了如何將先驗知識壓縮並注入神經網絡、從符號計算到語義理解、從有監督的分類訓練到無監督的重構和預測等類腦計算的思路。

如何將先驗知識壓縮並注入神經網絡。認知學家曾經做過一個實驗,即從小教一個黑猩猩學習語言,發現黑猩猩在語言學習上遠遠不能達到人類的高度。這說明我們人類大腦有先天的神經結構能夠讓我們容易學習語言,這種先天結構即為先驗知識。作為對比,當前的神經網絡基本上沒有先驗知識,都得從頭學起。那麼我們是否可以借鑑大腦積累先驗知識的機制,來設計人工神經網絡呢?

從符號計算到語義理解。目前的自然語言處理系統訓練的材料是語料,純粹是文字或符號。以中文屋(Chinese Room)實驗為例,裡面純粹是做一些非常簡單的信息處理工作,只是一個符號到符號的處理過程,並沒有真正理解內在的含義。因此NLP的研究,若想克服這個問題,未來必然需要向大腦學習。

有監督的分類訓練到無監督的重構和預測。當前,訓練好的做分類任務的神經網絡在複雜環境下往往性能並不好。但對比一下,人類的視覺系統並沒有使用監督信號去訓練分類任務,例如小孩學習識別物體,完全是靠自監督的方式看這個世界的。因此,真正的強人工智慧可能並不是現在這種端到端的有監督訓練,而是採用類腦的分階段的、包含無監督或自監督的訓練方式。最近機器學習領域的進展,也說明了這一策略正逐漸受到人們的關注。

6 結語

余山研究員總結道,雖然我們對於大腦的了解尚不完備,生物腦和人工神經網絡的結構也有很大的差異,但是這並不是開展類腦計算研究的本質障礙。神經科學和認知科學的研究已經發現了大腦的很多機制性原理,這些知識足夠指導我們不斷改善智能系統的設計,最終有望實現在不同層面上受腦啟發的更加強大和高效的人工智慧系統。

ACL 2020原定於2020年7月5日至10日在美國華盛頓西雅圖舉行,因新冠肺炎疫情改為線上會議。為促進學術交流,方便國內師生提早了解自然語言處理(NLP)前沿研究,AI 科技評論將推出「ACL 實驗室系列論文解讀」內容,同時歡迎更多實驗室參與分享,敬請期待!

關鍵字: