LeCun稱梯度下降是最優雅的 ML 算法，Marcus：我不同意

作者｜李梅

編輯｜陳彩嫻

前幾天剛跟馬斯克吵完架的Gary Marcus，又双叒叕跟人吵起來了，這次的吵架對象是Yann LeCun。

一向喜歡給深度學習潑冷水的Marcus，在今天發帖談了談與LeCun的「舊帳」和「新仇」，並給了LeCun一個白眼：

事情是這樣的。

幾天前，有人在推特上發帖問: 在機器學習中，最優雅美麗的idea是什麼？感覺數學家和物理學家經常談論美學，但我們卻很少，為什麼？

於是網友們都來認真答題：多重權重更新算法（multiplicative weights update）、核技巧（kernel trick）、降維（dimension reduction）、一些凸優化方法（convex optimization）、變分推理（variational inference）、熵和資訊理論等等。

大家還就機器學習研究的美學性討論了起來。有人認為，機器學習理論家其實也在談論優雅這個東西，尤其是那些具有理論計算機背景或者傳統物理學背景的人。也有人言語犀利：之所以很少有人談論美學，是因為機器學習重在應用，而不是像純粹數學那樣「毫無價值」。

谷歌大腦的研究員Chris Olah也來轉貼評論說：

ML的優雅是一種生物學的優雅，而非數學或物理的那種優雅。梯度下降創造了令人難以置信的結構和行為，正如進化創造了令人敬畏的自然複雜性。

LeCun表示：梯度下降？這我熟！

近4年來，我一直試圖讓我許多更注重理論的同事相信梯度下降所具有的不可思議的力量。

LeCun在1989年發表的那篇論文，就是通過使用梯度下降的方法訓練了CNN進行圖像識別，梯度下降後來成為計算機視覺研究的基礎理論。

LeCun還回憶了2000年丹佛NIPS會議上的一次經歷。當時一位非常傑出的ML研究人員在晚宴上問道：「我們在ML中學到的最重要的東西是什麼？」LeCun回答說：「梯度下降」。當時那位研究人員臉上目瞪口呆的表情表明他對這個回答嗤之以鼻。

LeCun這個「仇」記得還挺久......

那麼，「梯度下降」是最優雅的ML算法嗎？有人贊成有人反對。

毫無疑問GD是過去十年來我們在AI領域所看到的所有進步背後的核心驅動力。

GD很了不起，...但這並不是AI。

LeCun正忙著與網友進行友好交流，Marcus也來了。有討論深度學習的地方，怎能沒有我Marcus的身影？

的確。但重要的是，令人難以置信的力量≠無窮的力量。要意識到（梯度下降）的極限，才能知道下一步要做什麼來獲得進步。

LeCun一看：所以你的意思是要拋棄梯度下降了？？

1.基於梯度的優化是學習的一個要素，而不是人類級人工智慧的一整套組件。

2.未來會有什麼方案可能替代基於梯度的優化？你是相信（a）無梯度優化不好？，還是（b）優化本身不好？

對此，Marcus表示很委屈：我的意思是DL需要「補充」，而不是「替換」！

我感覺自己又被「稻草人謬誤」攻擊了，附上我的論點核心：我從未呼籲要替代深度學習/梯度下降。未來會出現的是「其他」工具，比如與SGD一起工作的符號處理操作。

Marcus還搬出發表於2018年的一篇文章「Deep Learning: A Critical Appraisal」作為證據：

儘管有我所描述的這些問題，但我認為我們不需要拋棄深度學習。相反，我們需要重新定義它：不是一種通用的辦法，而只是眾多工具的一種。

還有最近的一場keynote演講：

我們不需要捨棄深度學習，但我們需要找到辦法來作為對它的補充，因為智能本身是多方面的。

但是，LeCun並不買帳，他接著Marcus的話回覆：

所以「DL是辦法的一種，但我們需要新的推理組建」？歡迎來到我的世界！

這可把Marcus惹急了：

我給的引用是來自2018年，那篇你稱之為「大部分都是錯誤的」的文章。我的主張自1992年以來就沒變過，唯一遲到的是你「歡迎來到我的世界」這句話，而這句話其實是你對我實際立場的認可。

那就來翻翻舊帳，針對Marcus在2018年寫的那篇文章，LeCun的確曾這樣評論（蝦仁豬心）：

到這兒大家也能看出來，二人討論的對象和觀點是有錯位的。LeCun希望如果有新的方案，仍需要封裝在DL下，而Marcus的意思是新的方案需要圍繞著DL進行封裝，前者是關於規模的擴展，後者則是一種混合和補充。

大家怎麼看？