人大等實驗室使用深度度量學習對單細胞轉錄組數據進行批量比對

scienceai 發佈 2024-05-01T01:21:54.792173+00:00

編輯 | 蘿蔔皮scRNA-seq 揭示了以前未被重視的異質性水平。隨著 scRNA-seq 研究規模的擴大,校正批次效應和準確檢測細胞類型數量成為主要挑戰,這在人體研究中是不可避免的。

編輯 | 蘿蔔皮

scRNA-seq 揭示了以前未被重視的異質性水平。隨著 scRNA-seq 研究規模的擴大,校正批次效應和準確檢測細胞類型數量成為主要挑戰,這在人體研究中是不可避免的。大多數 scRNA-seq 算法都是專門設計的,首先去除批次效應,然後進行聚類,這可能會遺漏一些稀有的細胞類型。

在這裡,中國人民大學、中央財經大學以及昌平實驗室的研究團隊開發了 scDML,這是一種深度度量學習(Deep metric learning)模型,用於消除 scRNA-seq 數據中的批次效應,由初始簇和批次內和批次間的最近鄰信息指導。

跨越不同物種和組織的綜合評估表明,scDML 可以消除批次效應,提高聚類性能,準確地恢復真實細胞類型,並且始終優於流行的方法,如 Seurat 3、scVI、Scanorama、BBKNN、Harmony 等。

最重要的是,scDML 保留了原始數據中的細微細胞類型,並能夠通過單獨分析每個批次來發現難以提取的新細胞亞型。另外,scDML 可擴展到具有較低峰值內存使用量的大型數據集。

該研究以「Batch alignment of single-cell transcriptomics data using deep metric learning」為題,於 2023 年 2 月 21 日發布在《Nature Communications》。

單細胞 RNA 測序 (scRNA-seq) 技術已開發用於以單細胞解析度表徵基因表達譜,從而提高對已知和新型細胞類型的檢測,以及對異質組織內細胞特異性分子過程和疾病失調的理解。然而,scRNA-seq 的廣泛應用產生了許多龐大而複雜的數據集,這對整合來自不同批次和平台的數據集提出了新的計算挑戰。

scRNA-seq 數據分析的一項基本任務是將細胞聚類為不同的組,作為候選細胞類型或細胞狀態。這個任務對於單一來源的數據集來說可能很簡單,但由於批處理效應的挑戰性特點,對於多源數據來說就非常困難了,尤其是檢測一些小的集群。儘管已經開發了幾種方法來消除 scRNA-seq 分析中的批次效應,但大多數方法旨在消除嵌入空間中的批次效應,而沒有考慮數據集中的聚類結構或局部結構。

Seurat 和 MNN 等流行方法依靠相互最近鄰方法來消除批次效應,但是 MNN 一次只能分析兩個批次,因此它的性能會受到批次校正順序的影響,並且當批次數量增加時它很快變得在計算上不可行。因此,科學家引入了 fastMNN,從而顯著提高了計算速度和準確性。

另外兩種方法 Scanorama 和 BBKNN 也在降維空間中搜索 MNN,並以相似度加權的方式使用它們來指導批處理集成。此外,科學家還開發了兩種監督式 MNN 方法(SMNN、iSMNN)用於 scRNA-seq 的批次效應校正,但這兩種方法需要不同批次之間的細胞類型完全相同。

2021 年,Zou 團隊提出了基於殘差神經網絡的 DeepMNN,它最小化了批量損失,即 PCA 子空間中 MNN 對之間的歐氏距離之和。根據基準研究,由於運行時間明顯縮短,Harmony 被推薦為第一個嘗試的方法,其他方法作為可行的替代方法。

2022 年,Luecken 團隊的基準研究也建議在複雜的集成任務上使用 scANVI、scVI 和 scanorama,但 scANVI 的半監督模式和 scVI 的耗時問題阻礙了應用。

儘管 INSCT 可以擴展到大型圖譜並且可以進行半監督分析,使用戶能夠通過將未標記的細胞投影到帶有注釋標籤的參考中來對它們進行分類,但它的穩健性和可重複性較差。BERMUDA 的性能依賴於 MetaNeighbor,這限制了它的可擴展性和準確性。Liger 旨在使用綜合非負矩陣分解消除技術差異,但其過程需要選擇參考數據集(通常是單元格數量最多的集合)。scVI 和 CarDEC 也被設計用於同時去除批次效應和去噪基因表達,但是最近的一項研究表明,這兩種方法的解碼器層輸出的校正計數通常被過度去噪,這使得幾乎所有的零表達值都變成了非零。

大多數現有方法首先去除批次效應,然後聚集細胞。然而,此過程的缺點是消除批次效應可能會導致原始稀有細胞類型信息丟失。

因此,人民大學及昌平實驗室的研究人員,從原始數據的先驗聚類信息開始,然後在具有三元組損失的深度度量學習框架中利用批次內和批次間的最近鄰(NN)信息,通過學習數據的低維表示來正確恢復真實的細胞類型並消除批次效應。最重要的是,scDML 不受批量集成順序的影響。

在初始聚類中,該團隊首先以高解析度對細胞進行聚類,以保證初始聚類包括所有微妙的和潛在的新細胞類型,然後提出一個合併標準來優化最終的聚類數量。該算法結合了基於圖的聚類和層次聚類方法的優點,通過將具有相同標籤的點拉近並推開具有不同標籤的點來同時消除批處理效應。

圖示:用於在 scRNA-seq 數據中合併簇和去除批次效應的 scDML 概述。(來源:論文)

研究人員提出了一種考慮批次效應的連續合併初始簇的策略,通過計算批次內 KNN 對和批次間 MNN 對的數量,然後計算簇的相似度,最後構造一棵層次樹,樹的根是所有簇聚集後得到的唯一簇,葉子是要合併的簇。此後,研究人員使用上述 MNN 來指導信息以構建更好的低維嵌入。

通過這種方式,此過程保證 scDML 在合併相同細胞類型、分離不同細胞類型和保留某些批次特有的細胞類型方面優於現有方法。至於最終應該定義多少個聚類,研究人員提供了一種策略,可以自動推斷具有譜聚類啟發的相似矩陣特徵值的聚類數量,或者根據相似矩陣的熱圖手動設置聚類數量。

最重要的是,scDML 的一個顯著特徵是它不僅保留了原始數據集的稀有細胞類型信息,而且有可能像其他競爭方法一樣通過單獨分析每個批次來發現可能難以提取的稀有簇。

另外,scDML 可以恢復在比較方法中大多被忽略的數據底層的層次結構。更重要的是,scDML 可擴展到大型數據集,能夠處理多級批處理數據集並且對不同的超參數具有穩健性。相信未來 scDML 將成為生物醫學研究人員更好地解開複雜細胞異質性的寶貴工具。

此外,該團隊提出的合併規則不僅適用於具有多個批次的數據集,而且還提高了只有單個批次的數據集的性能。研究人員在三個不同的數據集上將 scDML 與兩種常用的聚類方法 Kmeans 和 Louvain 進行了比較。相對於 Kmeans 和 Louvain,scDML 改進了 ARI 和 NMI,這也證明了該方法的有效性和合理性。

圖示:即使只有一個批次,scDML 的框架也提高了聚類的性能。(來源:論文)

然而,該方法的一個限制是 scDML 可以應用於具有分類結構的 scRNA-seq 數據集,但不適用於具有差異化結構的數據集。此外,與大多數批量效應去除方法一樣,scDML 僅創建集成的低維嵌入,並不像 CarDEC 那樣提供校正的基因表達。未來,該團隊計劃擴展scDML的應用,直接在基因表達水平去除scRNA-seq的批次效應,從而進行下游差異表達分析。

總之,對真實數據集和模擬數據集的廣泛基準測試表明,scDML 不僅可以更好地恢復生物學差異並消除批次效應,而且可以保留稀有細胞類型結構並識別可能被單獨分析忽略的新細胞類型。因此,研究人員認為 scDML 將成為綜合分析多個 scRNA-seq 數據集的有價值的工具。

腳本連結:https://github.com/eleozzr/scDML_reproduce

論文連結:https://www.nature.com/articles/s41467-023-36635-5




關鍵字: