ICLR 2023 | 負責任的人工智慧,守護機器學習的進階思考

微軟亞洲研究院 發佈 2023-04-30T20:21:26.458381+00:00

編者按:國際學習表徵會議 ICLR(International Conference on Learning Representations),被公認為當前最具影響力的機器學習國際學術會議之一。多個來自微軟亞洲研究院的最新研究成果被 ICLR 2023 大會接收。

編者按:國際學習表徵會議 ICLR(International Conference on Learning Representations),被公認為當前最具影響力的機器學習國際學術會議之一。多個來自微軟亞洲研究院的最新研究成果被 ICLR 2023 大會接收。跟隨上兩期文章領略過傑出論文與機器學習魯棒性方向的技術洞見後,本期將與大家分享負責任的人工智慧方向的三篇研究工作,它們分別拓展了差分隱私深度學習效率的邊界、時序圖的可解釋性研究以及預訓練語言模型在文本生成中的安全性。歡迎點擊論文連結,直達對負責任的人工智慧的進階思考!

近期,我們將在微信視頻號「微軟亞洲研究院」和 B 站「微軟科技」的直播間,安排微軟亞洲研究院入選 ICLR 2023 論文的特別直播,與你共話機器學習的前沿成果!更多直播細節,敬請期待。

01

T-GNNExplainer:時序圖上的解釋器

論文連結:

https://openreview.net/pdf?id=BR_ZhvcYbGJ

時序圖是一種基於時間的動態圖,其中的節點和邊都帶有時間戳,在線社交網絡和道路交通網絡等就是時序圖的典型例子。鑑於時序圖的廣泛應用,已經有許多時間圖模型被提出,例如 Jodie,TGAT 和 TGN。與靜態圖神經網絡相比,時序圖模型中每個節點的表徵都是一個時間的函數,用於預測未來演化趨勢,例如哪些邊將產生以及節點屬性何時改變。

儘管這些時序圖模型已被成功應用,但它們都是黑盒模型,缺乏透明度。信息如何在時序圖中聚合和傳播,以及歷史事件如何影響預測等問題仍不清楚。對於理解預測的基本原理以及模型特性而言,人工智慧的可解釋性至關重要。當時序圖模型應用於高風險場景時,如金融系統中的欺詐檢測和醫療健康中的疾病進展預測,解釋器都可以增加信任和可靠性。此外,解釋器還有助於檢查和減輕現實世界應用中的隱私、公平和安全問題。

目前的現有解釋器往往是專注於靜態圖模型的設計,對時序圖的預測解釋仍然需要進一步探索。因此,微軟亞洲研究院的研究員們提出了 T-GNNExplainer:首個為時序圖模型量身定製的解釋器。具體來說,T-GNNExplainer 將時序圖視為一系列節點之間的時間事件。對於給定的某次預測,T-GNNExplainer 的任務是找到導致預測的歷史事件的一個子集。歷史事件是先前發生的事件,所以同時滿足空間和時間條件:它們在基於消息傳遞機制的k-跳鄰域中,並且它們的時間戳應該接近目標事件的時間戳。

為了解決尋找子集的組合優化問題,T-GNNExplainer 包含探索和導航模塊。探索模塊採用蒙特卡洛樹搜索,搜集在候選事件集中找到的重要事件。導航模塊負責學習候選事件之間的關聯性,以幫助縮小搜索空間。值得一提的是,導航模塊是預訓練模塊,與探索模塊集成後,能夠大大加快搜索速度並提高結果質量。

研究員們基於兩個典型的時序圖模型(TGAT 和 TGN),同時在合成和真實的數據集上評估了 T-GNNExplainer 的性能。合成數據集採取了多元 Hawkes 過程和預定義的事件關係規則模擬產生事件,從而得到時序圖。通過與合成數據集的重要事件集對比,研究員們發現 T-GNNExplainer 可以精確找到一個重要的事件集。在真實數據集中,由於確切的導致某個事件發生的事件集不可知,因此研究員們採用保真度-稀疏度曲線來評估 T-GNNExplainer 的性能。結果表明,相對於基準模型,T-GNNExplainer 的改進率高達約50%。

02

基於推理階段自適應優化的語言模型統一去毒去偏

論文連結:

https://arxiv.org/pdf/2210.04492.pdf

預訓練語言模型(PLMs)在文本生成(NLG方面取得了長足進步,但卻會將預訓練語料中存在的有害內容(例如有毒語言和對少數群體的社會偏見等)內化、生成、傳播,甚至放大。隨著語言模型逐步成為各類 NLG 應用(如聊天機器人、文案寫作助手的基礎,其生成的有害內容也可能通過與終端用戶的頻繁交互,在人類社會中廣泛傳播,最終造成重大的負面影響,例如吸引仇恨、導致偏見、加劇不平等。同時,這些問題不僅沒有隨著語言模型規模的增大而解決,反而有逐步惡化的傾向,更加突顯了發展符合道德的語言生成方法的必要性和緊迫性。

現有的去毒和去偏見技術通常分為兩大範式。一種是特定領域微調(Domain-Specific Tuning),即使用精心獲取的乾淨無害的數據對模型進行進一步訓練。該方法有效,但數據構建及訓練大模型的成本太高且實效性差。第二種是約束解碼(Constrained Decoding),以過濾、對抗引導、輸出分布整流等方式來避免有害的文字生成,而無需重新訓練模型。然而,這類方法會嚴重降低生成文本的質量或減慢生成速度。此外,現有方法都是分別處理去毒和去偏問題,這往往導致經過去偏的模型依然存在毒性,同時經過去毒的模型反而放大了偏見。

為了應對這些挑戰,微軟亞洲研究院的研究員們首次提出了一個基於推理階段自適應優化的去毒和去偏見統一框架 UDDIA。UDDIA 將去偏見和去毒形式化為統一的輸出分布整流過程,以此來均衡不同群體相關內容的生成概率並最小化與毒性之間的關聯。該框架等價於學習一個多屬性(如性別、種族、毒性等混合的文本分布。此外,UDDIA 僅在推理(生成)階段通過優化極少量(~1%)參數進行干預,並動態地選擇何時干預、更新哪些參數。

實驗結果表明,UDDIA 能減少 GPT-2 模型約40%的毒性和偏見,並保持較小的生成質量損失和較高的生成效率。該框架方法標誌著在邁向道德和負責任的 NLG 方面取得了重要進展,並為未來不斷增大的語言模型的安全性提供了一種靈活可擴展且低成本的有效方案。

03

探索差分隱私深度學習的邊界


論文連結:https://arxiv.org/abs/2212.01539

近期的差分隱私(DP)深度學習研究已顯著提高計算效率和隱私-效用權衡,並在常見的隱私保證水平下實現了高效且具有良好效用的隱私保護學習流程。其中的差分隱私隨機梯度下降(DP-SGD)是一種實現差分隱私保護學習的通用算法。DP-SGD 會對每個樣本的梯度進行平裁剪(即先將梯度拉伸為一維向量,然後進行裁剪,接著再添加適當大小的噪聲擾動。

由於 DP-SGD需要對每個樣本梯度進行裁剪:1)首先實例化每個樣本梯度;2)對其按照 L2 範數進行裁剪,而這會導致較高的內存和時間開銷,所以使用 DP-SGD 的隱私機器學習在內存需求和速度方面比非隱私版本要高出許多。因此進行相關研究需要解決的首個問題是:隱私學習能否像非隱私學習一樣在內存和時間效率(每個epoch)上保持高效?只有在提高效率後,才有可能將其應用於訓練 GPT-3 等大型語言模型。

通過高效的逐層裁剪,微軟亞洲研究院的研究員們賦予了上述問題以肯定的回答。具體的逐層裁剪操作如下:在神經網絡進行反向傳播時,在某一層參數計算出每個樣本梯度後,立即進行裁剪並計算平均梯度,接著釋放每個樣本梯度的空間,並繼續向下一層參數進行反向傳播。逐層裁剪,在將裁剪操作嵌入到反向傳播的過程中,還允許梯度裁剪與反向傳播同時進行,從而極大地提高了效率。這使得在許多實際任務中,隱私學習在內存效率和每次訓練更新的時間效率上能夠媲美非隱私學習(參見圖3,圖4)。

第二個需要解決的問題是:該如何選取每層的裁剪閾值?通過簡單的實驗,研究員們發現使用固定閾值的逐層裁剪在性能上比平裁剪有明顯降低。自適應閾值是讓逐層裁剪突破性能瓶頸的關鍵(參見圖5)。自適應閾值只需要很少的隱私預算,就可以根據算出的樣本梯度 L2 範數自動估計出一個合適裁剪的閾值。多個任務證明,新方法在給定訓練 epoch 約束下與平裁剪的表現相匹配,或 epoch 約束優於平裁剪,從而可以在更短的實際時間內獲得相似或更好的任務性能。

DP-SGD 算法在性能和效率方面的提升也使得研究員們不斷探究差分隱私深度學習(預訓練)模型的極限。因此,研究員們在本文中探究了如何在機器學習中保護訓練數據的隱私,保證模型不能被反推出訓練樣本的個體信息。

研究員們對具有1750億參數的 GPT-3 進行了隱私微調。為了繞過與裁剪分布在多個設備上的梯度相關的擴展挑戰,研究員們在每個設備上對每個模型片段的梯度都進行了分組裁剪。在 ε=1 的情況下,使用隱私微調的 GPT-3 在摘要任務上可以獲得優於非隱私微調的最大 GPT-2 的任務性能。研究員們突破了 DP-SGD 的效率瓶頸,使其可以成功應用於超大語言模型的訓練中,經過多個測試,新方法幾乎能同時實現了性能與效率的最佳值。

關鍵字: