哈佛大學單細胞課程|筆記匯總 (一)

生信寶典 發佈 2022-05-25T13:22:56.508788+00:00

嗨像我這樣莫有耐心的小孩子,能完整看完的只有一個 —— Single-cell RNA-seq analysis workshop。如果無法避免:Do NOT confound your experiment by batch:

生物信息學習的正確姿勢

NGS系列文章包括NGS基礎、轉錄組分析 (Nature重磅綜述|關於RNA-seq你想知道的全在這)、ChIP-seq分析 (ChIP-seq基本分析流程)、單細胞測序分析 (重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內容。

哈佛大學單細胞課程|筆記匯總

為什麼做單細胞?

如何得到單細胞原始數據並轉換成分析需要的矩陣格式

質控前的數據準備

質控

歸一化和主成分分析

聚類分析與可視化

marker識別與注釋

哈佛大學單細胞課程|筆記匯總

單細胞轉錄組測序進展迅速,伴隨而來的是許許多多的內容與講義,很多課程都很長。。。嗨像我這樣莫有耐心的小孩子,能完整看完的只有一個 —— Single-cell RNA-seq analysis workshop(https://github.com/hbctraining/scRNA-seq)。我將把教程內容儘量匯總,你需要做的就是點擊收藏慢慢看!

撰稿人:協和 張虎

(一)Why single-cell RNA-seq

在整個人體組織中,細胞類型、狀態和相互作用非常多樣。為了更好地了解這些組織存在的細胞類型,單細胞RNA-seq(scRNA-seq)提供了在單細胞水平上表達基因的信息。

單細胞轉錄組測序可用於

  • 探索組織中存在哪些細胞類型
  • 識別未知/稀有的細胞類型或狀態
  • 闡明分化過程中或跨時間或狀態的基因表達變化
  • 識別在不同條件(例如治療或疾病)下特定細胞類型中差異表達的基因
  • 探索細胞類型之間的表達變化,同時納入空間、調控和/或蛋白質信息

常見方法包括:

Challenges of scRNA-seq analysis

在scRNA-seq之前,我們通常使用bulk RNA-seq進行轉錄組分析。bulk RNA-seq是一種直接比較細胞的平均表達值的方法,在尋找疾病生物標誌物,或者不關心樣品中大量細胞異質性的情況下,這可能是最佳方法。

儘管bulk RNA-seq可以探索不同條件(例如治療或疾病)之間基因表達的差異,但無法充分捕獲細胞水平的差異。例如,在下面的圖像中,如果進行bulk分析(左),我們將無法檢測到基因A和基因B的表達之間的正確關聯。但是,如果我們按細胞類型或細胞狀態正確地對細胞進行分組,我們可以看到基因之間的正確相關性。

scRNA-seq也有一定的局限性,除了制樣和建庫價格高昂外,它在數據分析中也具有一定的複雜性,包括:

  • 數據量大
  • 細胞的測序深度低
  • 細胞/樣品之間的技術差異
  • 跨細胞/樣品的生物變異性

數據量大

scRNA-seq實驗的數據來自捕獲的成千上萬甚至百萬個細胞,對應的測序數據也就有百千萬條reads,需要更多的內存和存儲空間。

細胞的測序深度低

基於液滴的scRNA-seq方法的測序深度較淺,通常每個細胞只能檢測到轉錄組的10-50% (生信寶典註:這主要是因為RNA捕獲率低)。這導致細胞中許多基因的計數為零 (可能是不表達,也可能是未捕獲到)。但是,在特定的細胞中,基因的零計數可能意味著該基因未表達或僅表示該轉錄本未被檢測到。在整個細胞中,具有較高表達水平的基因測到0值的機率較低。由於此特徵,在任何細胞中都不會檢測到全部基因,並且細胞之間的基因表達差異很大。

zero-inflated?:scRNA-seq data is often referred to as zero-inflated; however, recent analyses suggest that it does not contain more zeros than what would be expected given the sequencing depth (Valentine Svensson’s blog post:http://www.nxn.se/valent/2017/11/16/droplet-scrna-seq-is-not-zero-inflated).

跨細胞/樣品的生物變異性

我們不感興趣的某些生物差異可能導致細胞之間的基因表達比實際生物細胞的類型/狀態更為相似/不同,並掩蓋細胞類型。這些變異(除非實驗研究的一部分)包括(以下為原文):

  • Transcriptional bursting: Gene transcription is not turned on all of the time for all genes. Time of harvest will determine whether gene is on or off in each cell.
  • Varying rates of RNA processing: Different RNAs are processed at different rates.
  • Continuous or discrete cell identities (e.g. the pro-inflammatory potential of each individual T cell): Continuous phenotypes are by definitition variable in gene expression, and separating the continuous from the discrete can sometimes be difficult.
  • Environmental stimuli: The local environment of the cell can influence the gene expression depending on spatial position, signaling molecules, etc.
  • Temporal changes: Fundamental fluxuating cellular processes, such as cell cycle, can affect the gene expression profiles of individual cells.

Image credit: Wagner, A, et al. Revealing the vectors of cellular identity with single-cell genomics, Nat Biotechnol. 2016 (doi:https://dx.doi.org/10.1038%2Fnbt.3711)

細胞/樣品之間的技術差異

  • 細胞特異性捕獲效率:
  • 不同細胞捕獲的轉錄本數量不同,導致測序深度不同(例如,轉錄組的10-50%)。
  • 文庫質量:
  • 降解的RNA、低存活力/瀕死細胞、大量自由漂浮的RNA以及細胞定量不準確會導致質量指標降低。
  • 擴增偏差:
  • 在文庫製備的擴增步驟中,並非所有轉錄本都擴增相同次數。
  • 批次效應:
  • 對於scRNA-Seq分析,批次效應是一個重要的問題,因為看到的顯著差異表達可能只是因為批次效應引起的。

Image credit: Hicks SC, et al., bioRxiv (2015)(https://www.biorxiv.org/content/early/2015/08/25/025528)_

批次不良所產生的問題在這篇文章中有很好的介紹:https://f1000research.com/articles/4-121/v1,相關中文解讀見高通量數據中批次效應的鑑定和處理 - 系列總結和更新。

如何知道你的實驗中具有批次呢?

  • 是否在同一天進行了所有RNA的分離?
  • 是否在同一天進行了所有建庫工作?
  • 是否由同一個人對所有樣品進行RNA分離/文庫製備?
  • 是否對所有樣品使用相同的試劑?
  • 是否在同一位置進行RNA分離/文庫製備?

如果以上任一問題的答案為「否」,說明你的實驗中具有批次。

有關批次的最佳做法:

  • 儘可能避免以批次的方式設計實驗。
  • 如果無法避免:
    • Do NOT confound your experiment by batch:
  • 將不同樣品組的重複樣品分成多個批次:
  • 在實驗設計文件中加上批次信息,這樣可以在分析過程中退還批次引起的差異。

建議

  • 在實驗開始之前與專家討論實驗設計。
  • 同時從樣品中分離RNA。
  • 同時準備樣品庫或備用樣品組,以避免批次混淆。
  • 不要混淆性別、年齡或批次的樣本組。
關鍵字: