經不起推敲的哈佛研究:疫情嚴重,科研更需嚴謹

墨子沙龍 發佈 2020-06-13T06:53:38+00:00

新冠肺炎疫情在全球肆虐,各類研究新冠肺炎的論文也不斷出現。尤其在各種預印本平台上,相關研究呈現爆炸式增長,但質量參差不齊,泥沙俱下。

圖源:Mikhail Denishchenko


導讀

新冠肺炎疫情在全球肆虐,各類研究新冠肺炎的論文也不斷出現。尤其在各種預印本平台上,相關研究呈現爆炸式增長,但質量參差不齊,泥沙俱下。這些未經學術界同行評議的論文,充斥著各種各樣的錯誤。這些錯誤有些比較隱蔽,難以察覺;有些錯誤則比較明顯,讀上去讓人噴飯。

因為社會對學術界的尊重,這些學術論文,即使未經過同行評議,也會通過大眾傳媒和社交媒體,對普通民眾的認知和政策制定產生一定的影響。本文通過分析兩個存在邏輯漏洞和統計學偏差的研究案例,以提醒學術研究需要嚴謹和說服力。否則,受損的不僅僅是研究者個人的聲譽,更是整個學術界的公信力。


撰文 | 底騫 王雅琪

責編 | 陳曉雪


●  ●  ●


01

經不起推敲的哈佛研究


最近哈佛醫學院一項未經同行評議的研究引起社會廣泛關注,該研究宣稱新冠肺炎疫情早在2019年8月就已經在武漢開始傳播。

在研究方法上,這項研究使用了武漢多家醫院停車場的衛星影像數據,發現2019年夏秋季節醫院停車場的車輛明顯增加。同時,在百度搜尋引擎上「咳嗽」和「腹瀉」關鍵詞的搜索量也出現增加;而咳嗽和腹瀉是新冠肺炎的重要症狀。此外,這些關鍵詞搜索量的增加和衛星影像上停車場車輛數目的增加時間上重合。於是,作者得出結論,判斷出新冠肺炎疫情開始傳播的時間為2019年8月。

從研究方法上講,通過遙感衛星影像獲取信息,甚至判斷疾病發生的趨勢,是常見的方法。例如,研究人員曾用遙感衛星數據獲取植被覆蓋的信息,結合當地的濕潤程度,綜合判斷出一個區域釘螺適宜的分布範圍,從而估計血吸蟲病發病的風險[1]。

筆者也曾使用衛星遙感數據,估計地表的空氣污染濃度,研究低濃度空氣污染對人群健康的危害[2]。這些研究,首先對遙感數據的使用有著嚴格的要求,而且一般需要地表的實測數據對模型進行訓練和糾正。更重要的是,研究人員需要是領域專家,對相關研究題目熟悉,了解使用遙感衛星數據的局限和可能產生的偏差。


回到哈佛醫學院的這篇論文,停車場的數據是否能夠真實反映醫院就診人數的變化,醫院就診人數的變化是否能夠反映因為新冠肺炎疫情就診人數的變化?這兩個問題都要打大大的問號。另外,當地醫院是否有地下停車場?遙感圖像採集時間是否一致從而車流量是可比較的?天氣是否會影響停車場車輛的數量?從遙感衛星圖像估計新冠肺炎疫情屬於間接測量,中間依賴太多的邏輯假設。這些問題的回答,都會對這些邏輯假設是否成立產生影響,嚴重影響遙感衛星圖像在該研究問題中的正確使用。不知道是疏忽大意還是有意為之,這些使用遙感圖像做間接測量的重要邏輯假設,都被作者們忽略或者浮光掠影一筆帶過。


通過搜尋引擎中關鍵詞搜索量的變化,來估計甚至預測疾病發展的趨勢,是一種常見的研究方法。早在十年前,谷歌的研究人員就利用一系列關鍵詞搜索頻率的變化,預測全美國範圍內流感暴發的趨勢,甚至能比疾控中心的數據更早地發現流感暴發,相關的研究成果也被製作為「谷歌流感趨勢」放在網上供用戶免費使用[3]。使用類似的方法,人們還研究了登革熱發生的時空分布[4]。不僅是搜尋引擎關鍵詞的數據,推特等社交媒體上和疾病相關的關鍵詞數據,也可以用於預測疾病的流行[5]。


但是,這種使用搜尋引擎數據和社交媒體數據的方法,因存在嚴重缺陷而廣受詬病[6]:搜尋引擎數據和社交媒體數據,都不是臨床數據或者實驗室化驗數據,會存在嚴重的局限。例如,一個人在搜尋引擎中搜索「打噴嚏」可能因為他感染流感,也可能僅僅因為花粉過敏。更重要的是,感染流感的病人中有相當一部分不表現任何症狀。


關鍵詞選取是否恰當?是否有實際數據進行訓練?這些方面的諸多缺陷決定了哈佛醫學院的這項研究,僅僅使用百度搜尋引擎中極個別關鍵詞的數據來判斷武漢新冠肺炎疫情的暴發時間,存在方法上的嚴重缺陷。


另外,百度官方在6月10日的聲明中表示,武漢地區「咳嗽」的整體搜索量峰值與每年的流感季是吻合的,而「腹瀉」的搜索量與往年相比並沒有明顯變化。同時百度指數顯示,2019年12月左右 「腹瀉」搜索量還有輕微的下降。哈佛醫學院的論文數據和百度聲明的矛盾之處,還需要作者做出進一步的說明。

如果說哈佛醫學院所謂的相關研究讓人「吐槽無力」,一些看似嚴謹,但在統計學存在偏差,不仔細分析很難分辨出結論是否可靠的研究,在新冠肺炎疫情期間也吸引了不少的眼球。


02

統計學偏差影響結論


新冠肺炎發展趨勢的影響因素是研究人員關注的熱點。人們很容易從流感在秋冬季節暴發這一日常經驗中得到啟發,猜想新冠肺炎疫情和氣溫、濕度等天氣變量之間存在的相關性。


關於新冠肺炎疫情和環境因素之間的研究大量湧現:例如,新冠肺炎死亡病例數與空氣中的絕對濕度呈現負相關關係[7]。甚至空氣污染和新冠肺炎疫情之間也存在關聯:研究人員利用美國大約3000個縣的數據,發現新冠肺炎的死亡率與空氣中細顆粒物(PM2.5)的濃度顯著正相關[8]。在預印本網站MedRxiv上,可以找到許多類似的研究論文。


另有一些研究結果表明在強制接種卡介苗(一種預防肺結核的疫苗)的國家,新冠肺炎確診及死亡人數的上升速度較其他國家而言更為平緩[9],進而宣稱卡介苗在一定程度上可抑制病毒的傳播或減少其危害。


這些研究都是將環境因素和新冠肺炎疫情在城市、地區或者國家層面內整合,研究疾病與變量之間的統計學關係。


簡單來講,研究人員統計每個地區(例如各個省)的新冠肺炎死亡病例數/確診數,以及該地區的平均氣溫、濕度、空氣污染程度、卡介苗接種率等,然後將新冠肺炎死亡數/確診數和這些可能的影響因素之間做回歸分析,得出結論。


這種簡單直觀的統計方法,實際上存在著嚴重的統計學偏差,因為統計模型的結果依賴於我們如何劃分區域。

我們以一個簡單的例子來說明(圖 1)。下圖中,假設每個黑點代表一個確診病例,白點代表非確診病例,圖a的小方框代表5個不同的地區,可以發現確診病例只出現在0度的低溫區域。從個體數據出發可以發現:氣溫越低,患病率越高,氣溫和患病率是負相關。


圖1:個體層面的疾病和溫度數據(圖a),按照不同的區域劃分進行匯總(左圖,b-d),並繪製出相應的溫度和疾病發生之間的關係。在按照不同的區域劃分方式匯總疾病和溫度的數據之後,兩者之間的關係可以是正相關、負相關或者無關(右圖, b-d)。


但在實際操作中,疫情統計報告中經常將個體的數據匯總到市級別或者省級別,然後加以發布。我們將圖a中的個體層面的數據以三種不同的方式整合為2個大的區域(對應圖b-d),並計算每個大區域的患病率和平均溫度,用回歸模型考察患病率和平均溫度之間的關係。結果我們發現,患病率與氣溫之間可以是正相關、負相關或無關,完全依賴於如何劃分區域。


這樣一個簡單的例子向我們展示了不同的數據空間整合方式,會得出完全不同結論。類似地,在考察濕度、空氣污染、卡介苗接種率和新冠肺炎疫情之間關係的時候,也會面臨類似的統計學偏差。


我們可以用實際數據進一步證明,劃分區域的不同為何會影響新冠肺炎疫情和各種因素之間的統計學關係。我們通過使用湖北省新冠肺炎的死亡病例和當地二氧化氮空氣污染程度的數據,考察了兩者之間的關係如何隨著區域邊界的劃分而變化。


我們發現,隨著區域劃分方式的不同,二氧化氮污染程度和新冠肺炎疫情之間呈現不同的方向,可以是正相關也可以是負相關(圖 2)。也就是說,同一組湖北省的環境和疫情數據,只是在空間上採取了不同的區域劃分,兩者的關聯卻可以呈現完全相反的結果。這種因為區域劃分不同可能產生的統計差異叫做可變面元問題(Modifiable Unit Areal Problem,MAUP)。


圖2:湖北省新冠肺炎疫情的數據和二氧化氮污染程度的數據。按照不同的區域劃分匯總:將湖北省劃分為不同城市進行分析(圖a);將鄰近城市劃分為同一地區進行分析(圖b,圖c);將湖北省當作一個整體區域加以分析(圖d)。通過計算每個區域內部二氧化氮的平均污染程度和該區域內部新冠肺炎死亡病例數目,並用回歸方程考察兩者之間的統計學關係,我們發現,隨著區域劃分的不同,新冠肺炎疫情和二氧化氮污染程度之間呈現正相關或者負相關的關係。

新冠肺炎疫情和環境因素、卡介苗接種率等變量之間的關係,需要採用更加嚴謹的方法進一步研究,例如研究者們可以:(1)將流行病學分析建立在更精確的尺度上,比如在個人尺度上;(2)除統計學模型外,結合流行病學、生物學等實驗分析,使結果更具有說服力。

03

對學術界的啟示


學術研究是嚴肅認真的,需要確保研究成果的嚴謹性;同時,學術研究也需要對當下熱點問題做出及時回應,確保研究的時效性。優秀的研究多是針對重大的問題做出及時有力而且嚴謹客觀的回應。但是,學術研究嚴謹性和時效性在面對例如新冠肺炎疫情這種緊急事件的時候會存在矛盾:面對瞬息萬變的疫情和奔涌而來的新信息,研究人員很難在短時間內對所有信息進行處理和有效回應,做出一項完全嚴謹的研究。


在面對諸如新冠肺炎疫情等緊急事件的時候,及時發表意見是我們科研工作者責無旁貸的使命,它可以幫助社會各界更好應對危機。但同時,我們作為科學工作者,應該對科研保持敬畏之心,確保所做的科研成果是嚴謹的,經得起時間考驗的。一項不嚴謹的科學研究,可能會對社會正常秩序帶來嚴重影響,一個典型的案例便是疫情蔓延初期的雙黃連哄搶事件,民眾連夜排隊將大小藥房的雙黃連搶購一空,最後不僅發現雙黃連並未用於肺炎的預防或治療,反而人群聚集使感染風險進一步提升。


筆者之一也曾在哈佛長期工作學習,敬佩於哈佛的崇高的學術聲譽和紮實的學術作風。此次哈佛醫學院的論文一經媒體披露,作者也和其他哈佛研究人員一樣驚愕萬分。一個學術機構的聲譽建立是長久的過程,科研工作者發表的不嚴謹科學研究會讓自己和所在機構的學術聲譽蒙羞,帶來長期的影響。


科研工作者要能做出更多經得起推敲的、證據充分的科研成果,避免大眾、政府採取不必要的防疫措施,或對夏天高溫減緩肺炎傳播抱有幻想,對防疫掉以輕心;也需避免我們的研究成果成為政治集團的工具,繼續分化這個已經分崩離析的世界,阻礙全人類團結抗疫的努力。

註:本文的部分內容,已經在最新一期的《整體環境科學》(Science of the Total Environment)雜誌上刊文發表[10]。

作者簡介

底騫為清華大學萬科公共衛生與健康學院助理教授,王雅琪為清華大學醫學院研究實習員。本文責編郵箱:xiaoxue@zhishifenzi.com


參考資料

1. Yang, G.-J., et al., Remote sensing for predicting potential habitats of Oncomelania hupensis in Hongze, Baima and Gaoyou lakes in Jiangsu province, China. geospatial health, 2006. 1(1): p. 85-92.

2. Di, Q., et al., Air pollution and mortality in the Medicare population. New England Journal of Medicine, 2017. 376(26): p. 2513-2522.

3. Ginsberg, J., et al., Detecting influenza epidemics using search engine query data. nature, 2009. 457(7232): p. 1012-1014.

4. Gluskin, R.T., et al., Evaluation of Internet-Based Dengue Query Data: Google Dengue Trends. PLOS Neglected Tropical Diseases, 2014. 8(2): p. e2713.

5. Achrekar, H., et al. Predicting Flu Trends using Twitter data. in 2011 IEEE Conference on Computer Communications Workshops (INFOCOM WKSHPS). 2011.

6. Butler, D., When Google got flu wrong. nature, 2013. 494(7436): p. 155-156.

7. Ma, Y., et al., Effects of temperature variation and humidity on the death of COVID-19 in Wuhan, China. Science of The Total Environment, 2020. 724: p. 138226.

8. Wu, X., et al., Exposure to air pollution and COVID-19 mortality in the United States. 2020, medRxiv.

9. Berg, M.K., et al., Mandated Bacillus Calmette-Guérin (BCG) vaccination predicts flattened curves for the spread of COVID-19. medRxiv, 2020: p. 2020.04.05.20054163.

10. Wang, Y. and Q. Di, Modifiable areal unit problem and environmental factors of COVID-19 outbreak. Science of The Total Environment, 2020. 740: p. 139984.


關於「墨子沙龍」

墨子沙龍是由中國科學技術大學上海研究院主辦、上海市浦東新區科學技術協會及中國科大新創校友基金會協辦的公益性大型科普論壇。沙龍的科普對象為對科學有濃厚興趣、熱愛科普的普通民眾,力圖打造具有中學生學力便可以了解當下全球最尖端科學資訊的科普講壇。

關鍵字: