同行評議質量太差!ICML 2023全新實驗:我審我自己

新智元 發佈 2024-04-10T18:08:18.539925+00:00

近年來,以ICLR、NeurIPS、ICML等為代表的機器學習會議的文章投稿量呈指數級增長,投稿人數以及每人的投稿數量都在不斷增加,部分高產作者甚至會在單個會議投稿三十餘篇甚至四十餘篇論文。

作者:李朴恆

編輯:好睏

【新智元導讀】賓夕法尼亞大學蘇煒傑教授提出讓作者提供投稿文章質量排序以改善會議同行評議質量的新方法,該方法於今年的ICML會議中投入實驗。


近年來,以ICLR、NeurIPS、ICML等為代表的機器學習會議的文章投稿量呈指數級增長,投稿人數以及每人的投稿數量都在不斷增加,部分高產作者甚至會在單個會議投稿三十餘篇甚至四十餘篇論文。

如今的會議通常採用同行評議制度,一篇投稿論文通常有3位左右的審稿人進行審稿,給出評分以及修改意見。

一篇論文往往有至少幾個月甚至幾年的研究周期,在同行評議的審稿制度下,必須要求審稿人在短時間內閱讀大量文章並給出審稿意見,這一現象無疑是對於審稿質量的巨大衝擊。

同行評議的制度意味著審稿人具有一言九鼎的話語權,這已成為被眾多科學家所詬病的話題。

美國學Adam Mastroianni指出,同行評議這一起源於上世界60年代,長達60年的「科學實驗」已經以失敗告終。他對此發表的文章Things Could be Better受到了廣大學者的支持。

為什麼同行評議審稿質量越來越差?


據一項調查統計,2016年NeurIPS會議中,有70%的審稿人都是PhD在讀學生。(Nihar Shah, 2022)

也有出現學生代替老師審稿的情況。

甚至在頂級學術會議中還會出現本科生作為審稿人的情況,這令各行各業的學者們感到可笑又無奈。

對於本科生而言,大部分時間都用在了完成學校的課業任務上,有科研經歷的本科生少之又少,有非常成熟科研經歷的本科生幾乎不存在。對於PhD學生而言,他們的科研也大多是在起步和嘗試階段。

讓學生來審稿,無疑會使得審稿結果非常不可信,因為這些學生們面對的大多是自己還不太熟悉的領域的一篇新論文,要他們根據自己非常有限的科研經歷來給出一個詳實而可靠的審稿意見實在是太難了。

對於一些比較有經驗的審稿人,他們有時也會因為自身研究方向的利益關係而在審稿過程中加入一些主觀因素影響最終決定。

有人戲稱說現在的審稿在某種意義上甚至不如隨機審稿,說得也不無道理。

投稿量的激增,審稿人水平的下滑,審稿時間的減少,審稿人利益衝突,審稿報酬低下……這一系列問題造成了如今糟糕的同行評議質量。

諾獎獲得者Sydney Brenner曾說過:「我不相信同行評議,因為我認為這是非常扭曲的,這只是回歸到平均水平。我認為同行評議正在阻礙科學。事實上,我認為它已經成為一個完全腐敗的系統。」

那麼,在同行評議仍無法避免的今天,有什麼辦法挽救這一正危及整個科學界的現狀呢?

不少會議已採用公開審稿的制度,即將投稿和審稿過程完全公開,這既可以限制投稿人投稿一些「水文」,也可以讓審稿人對自己的審稿意見更加上心。

然而由於審稿人的匿名性以及自身專業水平的限制,公開審稿某種意義上來說「治標不治本」,對於審稿質量的改善並不大,大多是一些無關痛癢的改變。

為了進一步改善審稿質量問題,在2021年,來自賓夕法尼亞大學的蘇煒傑教授提出了一種讓投稿人自己「審稿」的方法,該論文已發表在NeurIPS 2021中。

值得一提的是,該方法並不是真的讓投稿人去審稿自己的論文,而是讓投稿人提供一個對自己投稿文章的質量排序,並使用保序回歸(Isotonic Regression)幫助審稿人提高審稿質量。

這篇文章證明了在一定條件下,作者必須匯報真實順序以最大化自身的利益,可以避免投稿人說謊的情況。

論文地址:https://arxiv.org/abs/2110.14802

為什麼作者的信息可以被利用?


對於一位審稿人來說,他在一次會議中可能被要求在短短十幾天內審稿十餘篇互不相關的文章,如果缺乏相關背景知識,這無疑是一項巨大的挑戰。

相對於審稿人,作者對於自己的文章的了解度肯定是更高的。如果有一種方案可以讓作者告訴審稿人自己對於自己的文章的真實看法,這些有效的信息無疑會給審稿過程提供一個另一維度的幫助。

該方法自提出以來受到了學界的廣泛關注,在今年的ICML會議上,該方法已被應用到實驗中。

值得一提的是,該方法原被設定用於處理一些處於「極端情況」的投稿(如審稿人與投稿人意見相差甚遠的情況)。

然而,該政策在國內外知乎、推特等平台上引起了一些爭議,不少人把這個方法誤解為讓投稿人給自己的文章提供真正的文字評價。

左右滑動查看全部

誠然,文字評價過於主觀,無法有效阻止作者將自己的文章誇得天花亂墜的情況,且在ChatGPT等工具的幫助下,大段的文字往往會對於審稿增加更多的阻礙,自然不會是一個很有效的方法。

為什麼讓作者提供排序是合理的?


首先,在會議投稿量大大增加的情況下,投稿人單次會議投稿量超過一篇的情況也會大大增加,這也意味著排序對於很多作者來說是可以實現的(投稿量大於一篇即可)。

其次,排序不同於實際打分,作者所要做的只要提供對自己投稿的文章的一個好壞優先級順序,這對於作者對自身的文章了解程度來說往往是容易的,所以讓作者提供排序是一個低成本且較為客觀的方式。而排序蘊含的信息量卻不少,假設作者提供了一個真實的5篇文章的排序,它所蘊含的就至少有5! = 120個兩兩比較的有效信息。

事實上,排序(ranking)有著廣泛的應用場景。以ChatGPT為例,它的訓練過程分為兩個步驟,首先是根據同一個問題生成不同的回答,其次是讓人類來對這些回答按照偏好進行排序。因為人類比機器更加懂得倫理與道德,且排序對人類來說非常容易,這樣的訓練過程是十分高效的。

在各平台上都有人對部分人群的誤解給出了澄清,說明了這只是一個實驗性質的嘗試,且只要求作者給出排序而並非實際評價。

左右滑動查看全部

然而可惜的是,最終該方法還是被ICML組委會為了避免爭議而修改為了」僅供實驗用途」,並不會影響到任何一篇文章的最終接收意見。


團隊建立了一個網站(https://openrank.cc)和OpenReview合作的形式實現了該實驗。

在ICML截止日1月26號當天,所有ICML作者收到了一封參加實驗的邀請郵件。實驗的最終目的是評估在未來的會議中將作者和審稿人的意見結合以提高審稿同行評議的質量的可行性,如果實驗成功,未來將進一步推廣並真正應用到實際審稿決策過程中。



以下是ICML2023實驗中投稿人所看到的畫面示例。

可以發現,界面中並沒有讓作者給自己的文章提供實際文字評價的部分,只要求作者給出投稿文章的排序。

目前ICML的投稿已經截止,實驗收集到近一萬位作者的提交數據。基於獨立倫理委員會和ICML程序委員會主席的要求,在ICML論文接收決定日4月22號之前不會進行數據分析。

如果該實驗取得了成功,它將成為學術會議同行評議制度的一個里程碑,它為審稿制度開拓了作者評審這一全新的維度。

對於如何讓作者的意見與價值觀加入審稿過程,比如是否有除了排序以外其他的形式,未來也會有更多的可能性值得被探索。

作者簡介


文章作者李朴恆現為北京大學數學科學學院大四本科生,即將赴史丹福大學攻讀博士學位。

該方法提出者蘇煒傑是賓夕法尼亞大學沃頓商學院統計與數據科學系和工學院計算機系副教授。任賓大機器學習研究中心聯合主任。分別於北京大學和史丹福大學獲得本科和博士學位。曾獲得NSF CAREER Award、斯隆研究獎、SIAM數據科學青年獎。

參考資料:

https://icml.cc

https://openrank.cc

https://arxiv.org/abs/2110.14802

https://arxiv.org/abs/2206.08149

https://www.zhihu.com/question/572146140

https://mp.weixin.qq.com/s/CmgHPLhVGnd1ifXdY5q3iw

https://zhuanlan.zhihu.com/p/599192947?utm_source=wechat_session&utm_medium=social&s_r=0

https://mp.weixin.qq.com/s/sLll4ZdNWoegSL_kykanBQ

關鍵字: