諾獎得主阿諾德宣布從《科學》撤回一篇論文，原因是結果無法被重複。"可重複性"對科研有多重要？科學界如何應對"重複性危機"？

記者/丁林新媒體編輯/呂冰心

1月3日，諾貝爾化學獎獲得者弗朗西絲·阿諾德（Frances Arnold）在社交媒體宣布，將她所在實驗室2019年5月發表在《科學》的一篇論文撤回。她寫到"該研究無法被重複。""文章提交時我有點忙，沒有做好自己的本職工作。"

阿諾德因"酶的定向進化"領域的開創性貢獻，獲得了2018年諾貝爾化學獎。她的突破性研究主要集中在上世紀90年代，本次撤稿的《科學》論文，與阿諾德獲2018年諾獎的成果並無直接的關聯。被撤論文中，研究者試圖用定向進化的方案，產生細胞色素P450的各種變體酶類，並用這些酶來催化合成各種環狀內醯胺分子（其中最有潛力的應用，是合成常見於抗生素分子的β-內醯胺）。

△β-內醯胺的催化實驗，好比讓一個線狀分子打結成環（動圖來源：加州理工學院）

在《科學》的撤稿聲明中，阿諾德團隊寫到："試圖重複該研究時，發現（研究中的）酶在反應中並沒有宣稱的催化活性和特異性。在隨後對其中一位第一作者實驗筆記的細緻檢查中發現，關鍵實驗的同期條目和原始數據缺失了。"

阿諾德告訴《撤稿觀察》博客，聲明中所提及的第一作者Inha Cho目前已經不在她的實驗室。

△阿諾德與本次撤稿文章的兩位共同第一作者，博士生Inha Cho（左）、博士後Zhi-Jun Jia（右）（圖片來源：加州理工學院）

撤下了論文，收穫了認同

根據2013年一篇《科學報告》研究的統計，近年來學術文章的撤稿率逐漸上升。其中，頂級期刊的撤稿率最高。該研究還發現，由於學術不端而撤稿會引起同行引用率的逐年下降。但這種尷尬不適用於主動撤稿的情況——主動承認錯誤，被認為是當事人學術誠信的體現。

△總體來說，主動撤稿的科學家撤稿後短期內被引用不但沒有下降，甚至有小幅上升（來源：《科學報告》）

的確，弗朗西絲·阿諾德宣布撤稿後，不但沒有成為千夫所指，還在社交媒體上受到了諸多讚揚（尤其是來自年輕學者）。人們紛紛表示她的行為"有勇氣"。

△《科學》總編輯Holden Thorp在社交媒體對此次撤稿決定表示肯定（來源：twitter）

但阿諾德認為，撤稿應該成為科學實踐的常態。在接受《福布斯》的郵件採訪時，阿諾德表示："撤回論文不應該像現在這麼困難，公開承認錯誤也不應該被認為是勇氣之舉……理想條件下，科學家應該在論文發表前就發現存在的問題，但有時候，那是做不到的。"

諾獎得主撤稿並不少

阿諾德並不是第一個撤稿的諾貝爾獎得主。

2008年3月，2004年諾貝爾生理學或醫學獎獲得者琳達·巴克（Linda Buck）發現其團隊2001年發在《自然》一篇論文的研究結果無法重複，並發現發表數據與原始數據不一致，因此主動要求撤稿。被暗示有主要責任的第一作者，曾在巴克實驗室做博後的鄒志華當時接受北京科技報採訪，表示巴克的撤稿決定過於草率。

但就在兩年後，巴克實驗室又撤回兩篇鄒志華擔任第一作者的研究（分別發表於《科學》和《美國科學院學報》）。2014年，美國研究誠信辦公室（ORI）發表了對該事件的調查結果：鄒志華在《自然》《美國科學院學報》兩項研究中有篡改細胞染色圖片的學術不端行為。

△諾獎得主兩年內接連撤下《自然》《科學》《美國科學院學報》三篇論文（來源：nature.com）

2009年，哈佛大學的傑克·紹斯塔克（Jack Szostak）在獲得諾貝爾生理或醫學獎前的幾個月，剛剛撤下一篇文章。獲獎後的2016年，紹斯塔克實驗室在《自然·化學》發表一篇重磅研究，稱一類多肽能夠幫助複製RNA，這可能與地球生命最初起源相關。

但文章發表後，該實驗室的一位研究者Tivoli Olsen發現，她試圖重複實驗卻不能得到相同結果——已經發表的結果是原始數據的分析出現錯誤導致的。2017年，紹斯塔克實驗室再次主動撤稿，諾獎得主表示"實在難為情"。

△傑克·紹斯塔克手持核酸模型（來源：harvardmagazine.com）

Olsen接受《撤稿觀察》博客採訪時說到："科學家的工作之一就是排查問題。你既不能左右，也不能忽略這個過程的結果。我盡了自己的職責，確保以後其他人不必再在同樣問題上浪費時間。"

此外，2017年的諾貝爾生理或醫學獎得主麥可·羅斯巴什（Michael Rosbash）也曾在2016年撤下一篇文章，因為該研究的結果不能被與他分享諾貝爾獎金的麥可·楊（Michael Young）所在的團隊重複。

曾在2016年引發滿城風雨的"諾獎級科學家"韓春雨，最終也從《自然·生物技術》主動撤稿了，但他並沒有獲得輿論的支持。人們更關注的，是其實驗成果"不可重複"的問題——國內外20家實驗室的負責人聯合署名，表示無法重複韓春雨的NgAgo實驗結果，對其論文結果提出質疑。

科學實驗結論"可重複"為何重要？

在上述案例中不難發現，"不可重複"成為撤稿關鍵詞之一。作為科學研究中的基本原則之一，"可重複性"目前並無公認的明確定義。簡單地說，另一位研究者用同樣的數據和分析方案，應該能達成與原作者相同的結論。

（圖片來源：world.edu）

為什麼諾獎得主也要因為"實驗結論不可重複"老老實實撤稿？因為人們對科學的信任，並不是基於學者的"權威性"（誰最權威聽誰的），而是建立在檢驗研究是否符合客觀事實的"可重複性"上。空口無憑的"假說"，聽起來再合理也沒有用，久經檢驗的"理論"更加接近真相。

科學並非一成不變，而是不斷進步的過程。科學理論可證偽、可被不斷檢驗（重複），是其有別於其他知識獲取方式的重要特徵。卡爾·薩根曾說："非凡的主張需要非凡的證據。"即便是諾獎得主在《科學》上發表的初步結果，在得到他人重複之前也不能當做板上釘釘的事實。科學家想 "站在巨人的肩膀上"，也得先確定所選的肩膀足夠結實。

通過多次重複實驗，研究者可以判斷自己的某個科學發現是"純屬偶然"還是真正的客觀規律；而不同實驗者用同樣（或儘量接近）的方法重複同一個實驗，不僅能排除學術造假、減少主觀偏見或實驗錯誤等因素導致的結果偏差，也是檢驗某個實驗方法能否被更大規模應用的途徑。

許多因素會導致"不可重複"

但的確許多因素會導致研究不可重複（或只能部分重複）：一些違背倫理的實驗不應該被重複；罕見的天文、地質現象無法被重複；實驗方法描述不清、細節缺失會導致其他研究者難以精準重複；實驗結果是假陽性、實驗設備出現了沒被發現的故障；實驗環境和研究對象存在差別，等等。

有些時候，一些研究的實驗設計本身不夠嚴謹，導致結論的不確定性或誤差較高。

2013年，哈佛醫學院的兩位研究者Jonathan Schoenfeld與John Ioannidis綜合了之前發表的264項營養學研究，發現各個獨立研究中的結論有的綜合之後趨勢保持一致（如"培根致癌"），有的在綜合考慮後效應就趨向微弱（如玉米在一些研究中致癌，在另一些研究中抗癌）。

所以，科學實驗不能重複，具體原因有時不太容易確定。當不同實驗者的結論不符，但原因尚不明確時，研究者不會第一時間撤稿——當類似的研究有所積累之後，真相的趨勢可能就會顯現出來。弗朗西絲·阿諾德團隊發現《科學》論文結果不能重複後，連部分原始記錄也找不到，因此選擇撤稿。

科學的"重複性危機"

科學家撤稿事件，引起的動靜總是不小。但是悄悄發生的"重複性危機"更值得被關注。

2015年，心理學家Brian Nosek領導的"開放科學中心"組織在《科學》發表的一項研究顯示，他們嘗試重複的97項已發表心理學研究中，只有36%能夠得到統計學上顯著的結果。重複實驗中觀察到的心理學效應，強度上平均也只有原始研究的一半左右。

心理學研究是"重複性危機"的重災區。迄今為止，不少廣為流傳的心理學效應，被發現不能重複。比如，1988年的"表情反饋假說"認為，通過牙齒咬筆等方式使面部呈現微笑表情，就能提升人的幸福感；1996年的"社會啟動"假說，宣稱向人們展示衰老相關的詞語，會讓他們有老齡化舉動如走得更慢；2010年的"權力姿態"假說認為，擺出強有力的體態幾分鐘，就會改變自身的激素水平，讓人更加自信。

2018年，"社會科學重複性計劃"的24位科學家對2010-2015年發表在《自然》《科學》的21篇社會科學論文進行了重複檢驗。他們招募了原實驗5倍數量的志願者，最終只有62%（即13篇）論文的結果可重複，而且結論的強度並未達到原論文宣稱的程度。

△能被重複的13篇論文中，發表後多數默默無聞。而不能被重複的8篇論文，其中4篇由於"結論驚人"在社交媒體獲得了更多轉發和傳播（圖片來源：univie.ac.at）

其他科學領域也沒能倖免"重複性危機"。

例如，2018年《公共圖書館·生物學》發表的一項分析發現，僅在美國，就有超過50%的臨床前醫學研究（每年280億美元）不可被重複。這意味著許多原本可以挑戰關鍵醫學問題的研究資源將被浪費在錯誤的基礎上。

△《自然》曾發動一項網絡問卷調查，參與調查的1500多名研究者中，超過一半（52%）認為重複性危機存在，而且"問題很嚴重"（圖片來源：nature.com）

"危機"塑造科學新常態

劍橋大學賽恩斯伯里實驗室的主管Dame Ottoline Leyser受BBC採訪時解釋：諸多實驗難以重複，學術造假只是其中一小部分，而且相對容易被識破。

Leyser 說："推崇研究影響力而不是實質、推崇漂亮結論而不是乏味、確認性工作的科學文化才是問題。"也就是說，科學基金組織追求"性價比"，學術期刊追求"突破"，學術機構通過發表文章來衡量科研成果的傾向，重複性的研究自然就受到冷遇，許多新研究發表後並未被嚴格檢驗，留下了隱患。

為了應對"重複性危機"。近年來，若干種應對方案被陸續提出、推廣。

例如，有學者提倡在開展研究之前，就"預註冊"整個實驗過程及分析手段。即便最終的實驗結果不符合預期，研究者也不能通過更改實驗設計來取得"更漂亮"的結果。

△"預註冊"方案讓研究從計劃階段開始，就接受外界批評和檢驗，讓研究"基礎"更加牢固（來源：nature.com）

還有對統計學方法的改善。一些科學家號召對"統計學顯著"的要求應該更加嚴格；另一些科學家向其他數學分析方案求助，例如用貝葉斯統計學（而不是傳統的p值）來檢驗數據的可靠性。

△有部分學者認為，過分強調統計學顯著是重複性危機的罪魁禍首。2019年3月，800名學者在一篇《自然》社論上簽名，號召讓傳統的"統計學顯著"檢驗方式"成為歷史"（來源：nature.com）

而隨著"可重複性"這個概念被越來越重視，學術期刊也要求研究者採用更大的樣本量、公開實驗數據，並採用更嚴謹的統計方案。

康乃狄克大學的教育心理學教授Eric Loken感慨，"二十年前，科學家只要說服三位審稿人和一位期刊編輯，發表論文的周期基本上就算完成了……今天，研究者知道自己的論文發表後，還要被網際網路上千萬個有想法的'審稿人'審閱，實驗本身還可能被'可重複性計劃'這樣的科學群體再次檢驗。"

2018年，《科學》雜誌的編輯分析了《撤稿觀察》資料庫中的一萬多篇撤稿文章。他們發現，近年來撤稿事件的大量增加，或許也並不是"危機"，而是科學群體更加自覺的體現。人們繼續將撤稿視為禁忌，反而會造成長遠的隱患。在臨床醫學等研究領域，及時糾錯不僅意味著大量研究資源和時間的節省，可能還意味著一些病人的生命能夠被拯救。

（圖片來源：sciencemag.org）

《撤稿觀察》的創始人之一Ivan Oransky表示：大量論文被撤稿，或許只是人們開始認真對待學術誠實的結果。這就好比有某種疾病一直存在，在大規模篩查技術出現後，其病例也隨之大量湧現——這不是應該驚慌的"疫情"，而是痼疾被攻克的開始。

參考資料：

retractionwatch.com/2020/01/02/nobel-winner-retracts-paper-from-science/

theconversation.com/retraction-of-a-journal-article-doesnt-make-its-findings-false-103829

scitech.people.com.cn/GB/7009519.html

plato.stanford.edu/entries/scientific-reproducibility/

www.sciencemag.org/news/2018/10/what-massive-database-retracted-papers-reveals-about-science-publishing-s-death-penalty

www.vox.com/science-and-health/2018/8/27/17761466/psychology-replication-crisis-nature-social-science

出品：科普中央廚房

監製：北京科技報 | 科學加客戶端

歡迎朋友圈轉發

公眾號、報刊等轉載

請發郵件至bjkjbeditor@163.com

未經授權謝絕轉載，違者必究

閱讀更多權威有用的科普文章、了解更多精彩科技活動，請下載「科學加」客戶端。蘋果用戶可以在App store搜索「科學加」下載安裝，安卓用戶可以在應用寶、３６０手機助手、豌豆莢、華為、小米等應用市場搜索「科學加」下載安裝。

諾獎得主從《科學》撤稿獲讚譽，「可重複性」對科學研究有多重要？