英特爾和IBM押注的神經模態計算究竟是什麼

與非網 發佈 2020-03-05T12:24:51+00:00

所以,這是在面積、功率、性能和吞吐量方面的巨大勝利——關乎我們能夠以多快的速度完成這一切。IBM還在 IEDM 大會上展示了所謂的 8 位精度內存乘法與設計中的相變內存。

目前英特爾和IBM在內的企業正積極探索超低功耗神經模態晶片在不同領域的應用,在未來幾年內隨著 AI+IoT 的發展,神經模態計算將會迎來一波新的熱潮。

人工神經網絡的概念以及基本神經元模型於 1943 年就已提出,這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。

卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。深度神經網絡的層級構建是源於腦皮層的分層通路。

只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:

只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。

原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。

故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果。

而機器學習是目前人工智慧模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡為主要模型。

人工神經網絡由大量神經元通過突觸連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡。

相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。

而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。

神經模態計算的重要意義

①目前的深度學習僅能實現人類大腦極小一部分的功能,距離人類的智能還有非常遠的距離,而使用神經模態計算直接模仿神經元系統在人工神經元數量足夠多時,或將有希望能實現比起深度學習更好的效果,更接近人類大腦。

②目前深度學習計算在部署上遇到的困難是能效比和延遲問題,在對於功耗要求非常低的物聯網領域,以及對於延遲要求非常高的領域無人駕駛領域,部署深度學習會遇到很大的挑戰。

恰好神經模態計算則可以解決這兩大問題。

①神經模態計算的一大優勢就是其計算功耗與輸入有關,在輸入不會激活大量神經元的情況下,其功耗可以做到非常低。

②對於物聯網應用來說,神經模態計算可以利用這樣的規律,僅僅在需要的時候激活神經元消費能量來完成事件識別,而在其他沒有事件的時候由於神經元未被激活因此功耗很低,從而實現遠低於深度學習晶片的平均功耗。

③神經模態計算並非常規的馮諾伊曼架構,神經模態計算晶片一般也不會搭配 DRAM 使用,而是直接將信息儲存在了神經元里。這樣就避免了內存牆帶來的功耗和延遲問題,因此神經模態計算晶片的延遲和能效比都會好於傳統的深度學習。

國外技術寡頭優勢明顯

近日,英特爾發布了基於其神經模態計算晶片 Loihi 的加速卡 Pohoiki Beach,該加速卡包含了 64 塊 Loihi 晶片,共含有八百多萬個神經元。

繼 IBM 發布 TrueNorth、英特爾發布 Loihi 之後,PohoikiBeach 又一次讓神經模態計算走進了聚光燈下。

深度神經網絡壓縮技術,當前,深度學習領域目前面臨的一大挑戰是,主流 DNNs 都是計算和存儲密集型的,這導致在邊緣和嵌入式設備的部署面臨巨大的挑戰。

為此,英特爾研究院提出了從動態網絡手術 DNS、漸進網絡量化 INQ 到 MLQ 多尺度編碼量化的低精度深度壓縮解決方案。

通過這些布局可獲得百倍 DNN 模型無損壓縮性能。根據 AlexNet 測試結果,該項簡潔的解決方案能夠超越主流深度壓縮方案至少一倍,在 2/4-bit 精度下達到超過 100 倍的網絡壓縮。

IBM 研究人員在活動上詳細介紹了數字和模擬 AI 晶片的 AI 新方法,它的數字 AI 晶片首次採用 8 位浮點數成功訓練了深度神經網絡,同時在一系列深度學習模型和數據集上完全保持了準確性。

這些更廣泛的問題需要更大規模的神經網絡、更大的數據集和多模態數據集,為此 IBM 需要改變架構和硬體來實現這一切。

IBM 大膽預測,GPU 在 AI 中的主導地位正在結束。GPU 能夠為圖形處理進行大量的並行矩陣乘法運算,這種矩陣乘法碰巧與神經網絡所需的完全相同,這非常重要。

因為沒有那些 GPU,我們永遠無法達到我們今天在 AI 性能方面已經達到的性能水平。隨著 IBM 掌握的更關於如何實現人工智慧的知識,也在尋找設計出更高效硬體的方法和途徑。

對於 32 位計算來說,必須在 32 位上進行計算。如果可以在 16 位上計算,那基本上是計算能力的一半,或者可能是晶片面積的一半甚至更少。

如果可以降到 8 位或 4 位,那就更好了。所以,這是在面積、功率、性能和吞吐量方面的巨大勝利——關乎我們能夠以多快的速度完成這一切。

IBM 還在 IEDM 大會上展示了所謂的 8 位精度內存乘法與設計中的相變內存。IBM 發表了一項關於新型內存計算設備的研究,與當今的商業技術相比,該設備的計算能耗水平要低 100-1000 倍,非常適合於邊緣 AI 應用,例如自動駕駛、醫療監控和安全性。

IBM 的不同之處是相信完整的 AI 解決方案需要加速推理和訓練,其正在開發和逐漸發展成熟可用於推理和訓練的非易失性內存元件。

結尾

隨著英特爾和 IBM 在內的企業正積極探索超低功耗神經模態晶片在不同領域的應用,在未來幾年內伴隨 AI+IoT 的發展,神經模態計算將會迎來一波新的熱潮。

關鍵字: