谷歌新研究:機器學習模型的不確定性還確定嗎?

將門創投 發佈 2020-01-23T06:09:47+00:00

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」:bp@thejiangmen.com

From:Google 編譯:T.R

理想情況下,像深度學習等機器學習模型都會被部署到與訓練數據相同分布的數據環境中工作,但現實情況卻與理想條件大相庭徑:相機對焦產生的離焦、傳感器的衰減、網絡社群流行話題的變遷都會使實際應用時的數據分布與模型訓練的數據大不相同,從而引起機器學習中著名的協變漂移(covariate shift)現象

例如一個用於從X胸透中檢測肺炎的深度學習模型在實際使用中精度發生的巨大的變化,究其原因則是由於新的數據來自於訓練時未見過的醫院數據,數據獲取和處理過程的細微不同造成了算法性能的巨大差距。

提醒大家最近一定要出門戴口罩、保護好自己、平安回家啊!

為了深入研究這一問題來自谷歌的研究人員在NeurIPS上發表了一項對模型在數據集分布漂移情況下不確定性進行評測的工作,細緻地分析了前沿的深度學習模型在數據分布漂移和處於分布外數據的作用下的不確定性。

在實驗中,研究人員綜合考量了圖像、文本、在線廣告數據等不同模態數。將深度學習模型暴露在漂移不斷增加的測試數據下,並仔細分析了這些深度學習模型預測機率的行為。此外在研究中還比較了不同的改善模型不確定性的方法,以尋找在數據分布發生漂移時的最佳策略。

分布外數據

深度學習模型為每一次預測提供了一個機率指標,代表了模型的置信度或不確定度。這使得模型可以對他們不知道的領域或者超出訓練數據範圍的輸入表達不確定性。在協變漂移中,不確定性會隨著精度的下降按比例的增加;在更極端的例子中,輸入數據根本就不是訓練數據中所表示的那樣,例如分布外(out-of-distribution,OOD)數據就是一種典型的極端條件。

想像一下如果給一個貓狗分類器輸入一張飛機的圖像模型會得到什麼樣的結果?模型是會得出錯誤的結果還是會為每個分類分配很低的機率呢?在研究人員相關的博客中討論過這樣的OOD問題,而這篇文章的重點則在於探討當模型面臨分布外數據或者分布漂移樣本時其預測的不確定性,詳細分析模型預測的機率是否能反映出它在類似數據上的預測能力。

不確定性的定量和定性度量

那麼一個模型相較於另一個模型具有更好的不確定性表達能力意味著什麼呢?這主要由下游任務的細微差別來決定,機率預測的質量有多種定量的方法來進行評測。例如在氣象學領域,科學家們針對這一問題進行了深入的研究並發展出了一系列適當的評定標準,機率性的天氣預報比較函數應該滿足這些評定準則,以便很好的對齊進行校準、同時提高預測的準確性。

在本研究中,研究人員使用了很多適當的評定準則,包括布萊爾分數(Brier Score)和負對數似然(Negative Log Likelihood, NLL)等,同時加入了像期望標定誤差(expected calibration error ,ECE)等啟發性的指標,來理解不同的機器學習模式是如何在數據集漂移的情況下處理不確定性的。

實驗結果

研究人員在不同數據模態上分析了數據集漂移對不確定性造成的影響,數據的形式包括圖像、文本、在線廣告數據和基因數據等。下圖中給出了對圖像進行數據漂移操作的例子,研究人員在著名的ImageNet數據上進行了不同的數據變換和擾動,通過16中不同的圖像損毀方法和5中強度調整方法來改變其數據分布。

dogs通過改變數據分布來分析模型不確定性的變化行為,例如增強圖像擾動的強度、改變圖像的對比度、模糊和噪聲情況。

基於上面的數據,研究人員詳細分析了深度學習模型在數據漂移強度增加的情況下不確定性的變化情況。下圖顯示了每個圖像損壞級別下模型的精度和ECE,並繪製了箱式圖對結果進行表示。其中不同的顏色代表了處理不確定性的方法,包括dropout,TemperatureScaling、網絡最後一層進行處理以及組合方式。

Boxplot 精度和期望標定誤差在數據漂移增大情況下的變化,研究人員觀察到了精度的下降並沒有反應不確定性的增加,這意味著精度和ECE都在數據漂移的情況下惡化了。

在上圖中可以看到,隨著數據漂移強度增強,在不同圖像損壞條件下的精度偏差逐漸增加,整體精度與預期相同都發生了下降。理想情況下這應該反映出模型不確定性的增長,因此期望標定誤差不變。然而在較低的ECE圖中可以看到這與標定通常遭受到的情況不太一樣,同時在布萊爾分數和負對數似然中也觀察到了相似的現象,模型的不確定性並沒有逐漸增長,而是對錯誤結果變得更加自信。

Temperature scaling方法進行精度標定

Temperature scaling是一種廣泛用於改善標定的方法,作為Platt scaling的變種它利用驗證集的表象將訓練後的模型預測結果變得更加平滑。在實驗中研究人員發現了一個神奇的現象,當這種方法在標準測試數據上改進標定時,常常會使遷移數據上的結果更糟糕。因此,應用這種方法的技術人員應該警惕數據分布的漂移。

但幸運的是,還有一種方法在不確定性下降時更為優雅,這就是Deep ensembles方法,在圖中用綠色進行了表示。它可以平均所選模型的預測值,由於每個模型具有不同的初始化狀態,通過平均這種簡單的策略,就可以顯著提高對於數據漂移的魯棒性。這種方法在實驗中超過了其他所有的測試方法。

總結與建議

在這篇文章中,研究人員在多模態數據上對模型不確定性隨數據分布漂移的退化進行了詳細的研究,雖然不確定性隨著數據分布的漂移不斷惡化,但還是有有效的方法處理這一問題。在訓練模型時不確定性需要科研人員和工程人員予以重視,必須對不確定性進行分析和處理:

1. 在分布內的測試集上改善標定和精度通常無法有效的改善漂移數據上的結果;

2. 實驗表明deep ensembles方法是應對數據漂移最魯棒的方法,通常來說很小的集成組合數(例如5)就足以實現魯棒的額結果,集成的有效性為改善其他方法提供了可能的方向;

3. 為了推動這一領域的研究,研究人員開放了所有的研究代碼和數據,希望能為深度學習預測不確定性的研究做出貢獻。

https://arxiv.org/pdf/1906.02530.pdf

也可以在下面的連結找到代碼:

https://github.com/google-research/google-research/tree/master/uq_benchmark_2019

ref:

covariate shife:

https://blog.csdn.net/LilyNothing/article/details/56284788

https://zhuanlan.zhihu.com/p/26352087

https://blog.csdn.net/guoyuhaoaaa/article/details/80236500

https://www.cnblogs.com/bonelee/p/8528722.html

DeepEnsembles for uncertainty:

https://arxiv.org/pdf/1612.01474.pdf

Corruptions ImageNet:

https://github.com/hendrycks/robustness

boxplot:https://blog.csdn.net/qq_39179446/article/details/80081509

https://www.mathworks.com/help/stats/boxplot.html;jsessionid=18bb9c2bca288f70de09f3134fff

TemperatureScaling:http://blog.sina.com.cn/s/blog_6e3db55f0102y1wc.html

-The End-

關於我門

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機互動、企業計算。在近四年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十家具有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」: bp@thejiangmen.com

關鍵字: