NeurIPS 2022 | 一窺人工智慧大一統與理論研究的最新進展

微軟亞洲研究院 發佈 2022-11-09T19:37:59.483481+00:00

在對 gap 不做假設的情況下,研究員們證明了與 online setting 相同的 O 的極小化極大下界,揭示了一般情形下這個問題的困難度。

編者按:作為目前全球最負盛名的人工智慧盛會之一,NeurIPS (Conference on Neural Information Processing Systems) 在每年年末都是計算機科學領域矚目的焦點。被 NeurIPS 接收的論文,代表著當今神經科學和人工智慧研究的最高水平。今年的 NeurIPS 大會將於11月28日至12月9日舉行,本屆大會共收到10411篇有效投稿,其中2672篇獲接收,最終接收率為25.6%。相比去年,投稿數量繼續增加。


在本屆大會中,微軟亞洲研究院也有諸多論文入選,內容主要涵蓋人工智慧五大熱點話題:人工智慧走向大一統、計算機理論、賦能產業界的人工智慧、負責任的人工智慧、人工智慧賦能內容與設計生成。在接下來的幾周里,我們將按話題與大家分享相關領域的學術最前沿!今天,讓我們先從「人工智慧走向大一統」和「計算機理論」話題下的8篇論文精華開始。


人工智慧走向大一統

The Big Convergence of AI


01

針對強化學習的掩碼隱空間重建

論文連結:

https://www.microsoft.com/en-us/research/publication/mask-based-latent-reconstruction-for-reinforcement-learning/

視覺狀態表徵的質量對基於視覺的強化學習(vision-based reinforcement learning)至關重要。為了學習高效的狀態表徵,微軟亞洲研究院的研究員們創新性地將基於掩碼的建模技術(mask-based modeling)應用到強化學習中,以促進其狀態表徵學習。此前基於掩碼的建模技術已經在 CV 和 NLP 領域中大放異彩,而這項工作是將其應用到強化學習領域幫助策略學習的首次探索。

具體地,研究員們提出了一種簡單而有效的自監督方法,即基於掩碼的隱空間重建 (mask-based latent reconstruction,簡稱為 MLR)。MLR 通過從具有時空掩碼的視覺狀態中預測其在隱空間中的完整表徵,從而使神經網絡在學習狀態表徵時能夠更好地利用上下文信息,編碼更多策略學習所需要的語義信息。大量基準實驗表明,MLR 顯著提高了強化學習算法的樣本效率(sample efficiency),在多個連續和離散的強化學習環境中取得了 SOTA 的性能。


02

基於滑動語言模型的句子評分轉換器

論文連結:

https://www.microsoft.com/en-us/research/publication/transcormer-transformer-for-sentence-scoring-with-sliding-language-modeling/

句子評分旨在評估一個句子的最大似然估計,被廣泛應用於許多自然語言任務的場景中,包括重排序、語言可接受性等。過去用於解決句子評分的工作主要以兩種經典語言模型為主:因果語言模型(causal language modeling, CLM)和掩碼語言模型(masked language modeling, MLM)。然而,這些工作都存在一定的瓶頸:CLM 雖然只需要計算一次但卻只利用了單向信息;MLM 能夠利用雙向語義,但每次只能預測部分單詞而不得不需要多次推理。

因此,微軟亞洲研究院的研究員們提出了一種基於滑動語言模型的 Transformer 模型 Transcormer,並在其中設計了一種三流自注意力機制用於維護滑動語言模型。利用這樣的設計,Transcormer 可以確保模型能夠利用雙向信息進行預測的同時,只需一次計算即可得到所有單詞的概率。滑動語言模型在計算句子評分時,Transcormer 還可以避免 CLM 只能利用單向信息的缺點以及 MLM 需要多次計算的不足。實驗結果表明,Transcormer 在句子評分任務上能夠取得比其他方法更好的結果。

圖2:Transcormer 結構示意圖:左側為前向流,右側為後向流,中間為詢問流。其中,前向流用於收集前向語義,後向流用於收集後向語義,而詢問流用於捕獲當前位置在其之前的前向流語義和其之後的後向流語義


03

周邊視覺注意力網絡

論文連結:

https://www.microsoft.com/en-us/research/publication/peripheral-vision-transformer/

人類擁有周邊視覺這種特殊的視覺處理系統。具體來說,我們的整個視野可以根據到凝視中心的距離被劃分為多個輪廓區域,而周邊視覺使我們能夠感知不同區域的各種視覺特徵。受該生物學啟發,微軟亞洲研究院的研究員們開始探索在深度神經網絡中模擬周邊視覺進行視覺識別的方法。

研究員們所設計的 PerViT 網絡,可以將輪廓區域通過位置編碼結合到多頭自注意力機制中,使網絡掌握如何將視野劃分為不同輪廓區域的方法,並能夠從不同區域中提取相應的特徵。研究員們系統地研究了機器感知模型的內部工作原理,發現網絡學習感知視覺數據的方式與人類視覺相似。在 ImageNet-1K 上對 PerViT 網絡評估的結果顯示,PerViT 在不同模型大小上的圖像分類性能均優於基線,證明了該方法的有效性。


04

VRL3:由數據驅動的視覺深度強化學習框架

論文連結:

https://www.microsoft.com/en-us/research/publication/vrl3-a-data-driven-framework-for-visual-deep-reinforcement-learning/

在強化學習,尤其是機器人系統的訓練中,新數據樣本的採集往往十分昂貴。為了實現經濟,高效,服務於大眾的泛用性強化學習和機器人技術,研究員們嘗試結合利用多種數據來源,大幅提高訓練效率。研究員們設計了一個全新的數據驅動的學習框架 VRL3。VRL3 使用了三階段的訓練方式,整合了非強化學習的大規模圖像數據集,有限的人類專家示範以及在線強化學習數據,並加以充分利用,其可在基於視覺輸入的深度強化學習任務尤其是模擬機器人任務上,以驚人的樣本效率進行學習。

相比之前的最先進方法,在極富挑戰性的 Adroit 機械手基準測試中最難的任務上,VRL3 可極其顯著地將樣本效率提高24倍,並以10倍更快計算速度和3倍更少參數需求完成訓練。在達到極高性能的同時,VRL3 追求大道至簡的設計理念,用簡單易懂的設計思路和代碼實現。這項研究向實現高效、便攜、低成本可廣泛服務於大眾的強化學習和機器人系統邁出了關鍵一步。



人工智慧理論

Theory


05

組合多臂老虎機在隨機觸發臂或獨立臂場景下與最大觸發臂數量無關的損失分析

論文連結:

https://www.microsoft.com/en-us/research/publication/batch-size-independent-regret-bounds-for-combinatorial-semi-bandits-with-probabilistically-triggered-arms-or-independent-arms/

組合多臂老虎機(combinatorial multi-armed bandit)將傳統的組合優化和在線學習相結合,通過在線反饋機制不斷改進模型的優化效果。其應用涵蓋推薦系統、在線廣告、社交網絡、無線網絡等多個領域。在本文中,研究員們通過方差分析的方法降低了每個時刻可能被激活的臂數 K 對算法所承受損失的影響。

值得注意的是,研究員們找到了一種全新的光滑條件,稱為概率激活方差調節(TPVM)條件。首先,TPVM 被證明和既有的光滑條件在多數實際應用場景下(如在線廣告、社交網絡等)同樣成立。其次,通過 TPVM 條件,研究員們得以對帶概率和無概率激活臂的模型分別設計基於方差分析的新型算法,即 BCUCB-T 和 SESCB。在帶概率激活臂的模型下,BCUCB-T 算法可以將 K 對損失的影響從此前的 O(K) 降低為 O(log^2 K)或 O(log K)。而在無概率激活臂的模型下,SESCB 則將損失上界由此前的 O(log K)降低至 O(1)。最後,仿真實驗結果表明,研究員們所提出的算法在很多實際應用場景中都能超越現有算法的效果。


06

動量會改變優化器在可分數據上的隱式正則嗎?

論文連結:

https://www.microsoft.com/en-us/research/publication/does-momentum-change-the-implicit-regularization-on-separable-data/

為提升訓練速度,深度學習中的優化器廣泛採用動量加速技術。然而,目前學界仍未能釐清動量是如何影響深度學習模型的泛化能力的。本文從動量加速技術的隱式正則效應切入,探究了其對泛化能力的影響。尤其是,本文證明了在對線性可分數據上,帶動量的梯度下降法收斂到的點是 L^2 最大間隔問題的解 (L^2 max-margin solution),與不使用動量的梯度下降法相同。這意味著帶動量的梯度下降法將收斂到一個低複雜度的模型,從而保證了模型的泛化性質。

本文更進一步分析了動量梯度下降法帶隨機性和帶自適應學習率的變種(即隨機動量梯度下降法和確定性 Adam 算法),證明了它們也會收斂到 L^2 最大間隔問題的解。這首次證明了隨機動量梯度下降法在仿射噪聲假設下,將收斂到駐點。這一假設相比現有研究中有界方差噪聲的假設,適用範圍更為廣泛。與此同時,多個場景的數值實驗驗證了該理論結果,請查看論文原文了解更多細節。


07

穩定的神經元響應會提升模型泛化性能

論文連結:

https://www.microsoft.com/en-us/research/publication/neuron-with-steady-response-leads-to-better-generalization/

如何提高模型的泛化性能,一直是機器學習和深度學習的核心問題之一。隨著深度學習的不斷發展,各種各樣的網絡結構被應用在多種不同的任務中。能否探尋到統攝不同任務和網格結構的本質共性來提高多種網絡的泛化性能,是本文的研究切入點。

研究員們從神經元級別的細粒度出發,仔細分析了單個神經元在神經網絡訓練和測試中的響應特性,發現提升神經元對同類輸入樣本響應的穩定性能夠有效地提高神經網絡的泛化性能。據此,研究員們設計出了一種通用的正則項,用於控制神經元在激活狀態下響應的類內方差,並進一步分析了將此正則項應用在不同層神經元所帶來的效果差異。該正則項簡單高效,能在不同領域的多個數據集(ImageNet, CIFAR10, PubMed, WikiCS)以及多種網絡結構 (MLP, CNN, GNN)上普遍地提升模型的泛化性能。


圖7:MLP 模型在 MNIST 數據集上的訓練過程圖。其中,紅線表示原始模型的訓練曲線,藍線是加入全新正則化技術後的新模型訓練曲線。最右的圖片顯示,在原始模型中,神經元對同類樣本響應的方差會隨著訓練不斷增大,而研究員們所提出的正則化技術能夠大幅降低神經元響應的類內方差。相應地,原始模型的訓練損失雖然比新模型要低(見第二幅圖),但新模型在測試集上的識別準確率卻比原始模型有顯著提高(見第一幅圖),因此研究員們所提出的正則化技術有效地提高了模型的泛化性能。


08

等級強化學習:悲觀面對不確定性與「常數regret」

論文連結:

https://www.microsoft.com/en-us/research/publication/tiered-reinforcement-learning-pessimism-in-the-face-of-uncertainty-and-constant-regret/

強化學習(RL)在許多用戶交互型應用中都取得了成功,比如醫療領域、推薦系統等。其中,病人/客戶扮演的是環境的角色,治療方案/推薦算法則是強化學習中的決策,其具體做法就是部署決策、收集數據、並用強化學習算法提升直到接近最優。

由於訓練過程中算法不可避免地會給用戶提供錯誤的決策,但不同的用戶對於承擔或接收決策錯誤所造成的損失的能力也不同,故需具體情況具體分析。然而,現有框架忽略了決策錯誤對個體用戶影響的特殊性。因此,研究員們提出了「等級強化學習(Tiered RL)」的新框架,其根據風險的承受能力對用戶進行等級區分,承受能力越弱等級越高。

在對 gap 不做假設的情況下,研究員們證明了與 online setting 相同的 O(√(SAH^3 K)) 的極小化極大下界(minimax-lower bound),揭示了一般情形下這個問題的困難度。在引入最小 gap 假設的 gap-dependent setting 中,研究員們設計了新的算法,在保證低等級用戶的「regret」仍然是最優的前提下,高等級用戶承擔的「regret 與交互次數 K 無關,打破了普通 online learning 的 O(log K) 下界,從而證明了新框架和算法的優越性。

關鍵字: