外顯子和基因組基本概念(一)

生信寶典 發佈 2022-12-28T19:12:45.433194+00:00

聊生信團隊近期梳理了一些外顯子和基因組相關的基本概念,便於理解後續的相關生信分析。基因組:分子生物學和遺傳學領域中指生物體所有遺傳物質的總和,包括DNA或RNA。

聊生信團隊近期梳理了一些外顯子和基因組相關的基本概念,便於理解後續的相關生信分析。


基因組(Genome):分子生物學和遺傳學領域中指生物體所有遺傳物質的總和,包括DNA或RNA(病毒)。DNA具體包含編碼DNA、非編碼DNA、線粒體DNA和葉綠體DNA。研究基因組的科學稱為基因組學


同源染色體(Homologous Chromosomes):一個物種中形態和結構基本相同的染色體。在二倍體生物細胞中,同源染色體在減數第一次分裂的四分體時期中彼此聯會(若是三倍體及其他奇數倍體生物細胞,聯會時會發生紊亂),最後分開到不同的生殖細胞中。子代的一對染色體其中的一條來自母方,另一條來自父方。



參考基因組(Reference Genome, REF):又稱參考(序列)組裝(A Reference Assembly),是一個電子化的核酸序列資料庫(A digital nucleic acid sequence database)。它由多個科學家和研究單位協作組裝、維護和更新,用以作為一個物種的一個理想化的個體的、全基因組序列的典型代表或案例(但不能保證可以精準地代表某個地球上存在過的生物體)。人類、病毒、細菌、真菌、植物和動物理論上都有各自的參考基因組,目前只有部分物種被測通和公布。NGS基礎 - 參考基因組和基因注釋文件



人類基因組由23對染色體、約60億個鹼基(或核苷酸)組成。正常人類基因組是以2個拷貝存在(是指同源染色體,而非姐妹染色單體),分別來自父母。人類的基因組有幾個不同的版本名,目前比較常用的有hg19、hg38、GRCh37、GRCh38。hg系列是UCSC的叫法,GRCh系列是NCBI和Ensembl的叫法。同一版本的序列是一樣的,hg19對應GRCh37,hg38對應GRCh38(坐標與hg19/GRCh37不同)。

參考基因組的實體是一個文本文件(.fasta),通常是個單倍體(除了性染色體),含有染色體號和核酸(A/T/G/C)序列,可壓縮與索引,且包含一系列的配套文件(例如:GTF文件,記錄每個基因名稱及其各種元器件的位置)。參考基因組可提供來自每個供體不同DNA序列的單倍體鑲嵌(A haploid mosaic of different DNA sequences from each donor)。


事實上,基因組學、高通量測序以及相關的生信分析技術,很大程度上得益於人類基因組計劃(Human Genome Project, HGP)。HGP是一項與曼哈頓原子彈計劃和阿波羅計劃相提並論的規模宏大、跨國跨學科的科學探索工程。旨在測定組成人類染色體(指單倍體)中所包含的30億個鹼基對組成的核苷酸序列,從而繪製人類基因組圖譜,並且辨識其載有的基因及其序列,達到破譯人類遺傳信息的最終目的。



全基因組測序(Whole Genome Sequencing, WGS):是指利用高通量測序平台對生物的不同個體(或群體)、同一個體的不同器官(或組織、細胞)進行全基因組測序,並進行生物信息學分析(主要是利用統計方法獲取影響表型或經濟性狀的候選基因或功能突變)。


高通量測序(High-Throughput Sequencing, HTS):是對傳統Sanger測序(也稱為一代測序技術)革命性的改變, 一次(一輪反應或拍照)對幾十萬到幾百萬條核酸分子進行序列測定,故又稱下一代測序技術(Next Generation Sequencing,NGS)。



高通量測序也被稱為深度測序(Deep Sequencing),是人類歷史上多學科、基礎研究、資本運作與商業化結合的成功案例之一,直接導致了高通量測序儀(當前世界最尖端的大型設備之一)的發明與革新,使得對一個物種的基因組和轉錄組進行高效、細緻、全貌的分析成為常規操作。高通量測序作為分子群體遺傳學和個人基因組學研究的有力工具,對21世紀前半葉的生命科學研究、生產、疾病的診斷和治療起到巨大作用,也對生物信息學的進一步發展起到重要的推動作用。



基因結構:真核生物的基因和基因調控大致分為4個區域,1)編碼區,包括外顯子與內含子;2)前導區,位於編碼區上游,相當於RNA 5』末端非編碼區(非翻譯區);3)尾部區,位於RNA 3』編碼區下游,相當於末端非編碼區(非翻譯區);4)調控區,包括啟動子和增強子等。基因編碼區的兩側也稱為側翼順序。一個典型的模式圖:


外顯子組(Exome):全部外顯子稱為「外顯子組」(Exome)。外顯子(Exon)作為真核生物基因的一部分,包含著合成蛋白質(生命活動的承擔者)所需要的核心信息。外顯子組約占全基因組序列的1%,大多數與疾病相關的變異位於外顯子區。與全基因組測序相比,外顯子組測序不僅費用較低,數據分析也更為簡單,廣泛應用於孟德爾遺傳病、罕見綜合徵及複雜疾病的研究中。


全外顯子組測序 (Whole Exome Sequencing, WES):是指利用序列捕獲技術(主要是核酸探針)將全基因組外顯子區域DNA捕捉並富集後進行高通量測序的基因組分析方法。產品主要由Agilent等幾家公司把控,不同公司的靶位點略有不同。


Read(讀段):高通量或二代測序平台產生的序列讀取(Sequence Read)。PEread(Pair-end read),雙末端測序讀段;SEread(Single-end read):單末端測序讀段。例如:PE250,就是讀長為250bp雙端測序。


變異(Variation):通常指在不同個體、或同一個體的不同細胞之間,基因組或外顯子組上的鹼基序列的不同。



研究變異的意義。變異位點作為分子遺傳標記,在人類複雜疾病、動植物經濟性狀和育種研究及物種起源、馴化、群體歷史動態等方面具有重大的指導意義。所謂指導意義,通常是「一項研究或機制研究的起點」。研究「變異」的一個哲學觀或方法論,請查看聊生信之前的一篇評述類文章(點我)。



單核苷酸多態性(Single Nucleotide Polymorphism, SNP):主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態性。多態性是群體基因組或比較基因組研究中的一個概念,有一定的發生和分布規律。因此SNP本身是針對「群體」而言的(within a population),應該在群體中占一定的比例(e.g. > 1%),即一般用來描述一個群體內不那麼罕見的鹼基突變。



「二態性」(biallelic)。即C>T,C>G,C>A等兩種「狀態」之間的變異。偶爾也存在三態或四態之間的變異(需要排除測序帶來的假陽性)。



SNV(Single Nucleotide Variant):即單核苷酸變異,但頻率沒有任何限制,可用於描述任意一個可以被測序檢測到的鹼基突變。除了整個個體或生殖細胞,SNV也可能出現在體細胞中。體細胞的單核苷酸變異(例如腫瘤組織)也可以稱為「Single Nucleotide Alteration」。對於少數變異位點的討論,可直接使用「點突變」(Point Mutation)。



SNP與SNV。二者概念的界限並不是非常明晰,日常交流時甚至一些高水平期刊上也會將這二者混用。SNP更偏向於群體研究,頻率可能也較高(但又不絕對,一些SNP的頻率也可能極低)。通常SNP資料庫的位點總數遠低於SNV。在存儲SNV的數據時,應儘可能地保留所有樣本的全部變異信息(如gVCF文件),這對數據的存儲帶來了極大的挑戰,但對於尋找有意義的罕見位點的變異非常重要。

利用轉錄組數據分析變異。事實上除了外顯子組或基因組,轉錄組也可以鑑定SNP或SNV等變異。這就要求在設計轉錄組的實驗方案時,小心地將「性狀」、「個體」、「器官、組織或細胞」等因素也納入,最終不僅可以獲得基因表達數據,也能獲得遺傳變異相關的分析結果,並可繼續做一些關聯分析(如eQTL)。最終測序數據能反映更多的組學信息,提高研究質量。



胚系突變(Germline Variant):又叫生殖細胞突變,是來源於精子或卵子的突變(父母的其它細胞也含有這樣的突變),因此通常個體的所有細胞都帶有突變。胚系突變可以遺傳,一般用於分析遺傳病。


新發突變(De novo Mutations):這種突變是指父母本身沒有的突變,大多是父母配子(精子、卵子)生成時產生並攜帶的變異,或受精卵發育過程中的自發突變。每個人身上都會有這樣的變異,一般不會帶來功能性的問題,但有一些先天的小兒疾病,部分新發突變剛好落在了一個重要的基因上。


體細胞突變(Somatic mutation):又叫獲得性突變,是體細胞(如肺、皮膚,肝臟,骨髓,眼睛等)在生長發育過程中或者環境因素影響下後天獲得的突變,通常身上只有部分細胞帶有突變。體細胞突變通常不會遺傳給後代,通常涉及在腫瘤研究中。單有腫瘤樣本時無法(直接)區分胚系突變和體細胞突變,只有加入健康樣本(健康組織、血液)才能過濾掉胚系突變。


克隆性造血(clonal hematopoiesis):是近幾年提出的概念,指造血幹細胞亞克隆所攜帶的突變,可能會對血液樣本的WGS或WES變異檢測帶來一定的影響。克隆性造血的負荷與年齡的增長呈正相關,但突變豐度較低(90%的克隆性造血豐度<1%),跟來源於生殖細胞的胚系突變具有顯著差異(胚系突變突變豐度一般在50%或者100%)。但對於腫瘤等體細胞突變研究影響較大,且具有個體特異性,因此必須通過同深度配對的白細胞進行過濾以及優化的生信算法等將其過濾,消除干擾。克隆性造血帶有的基因變異一般是非惡性的,且對靶向治療基因的影響很小,主要發生在DNMT3A、TET2等與靶向治療無關的基因。


插入缺失(Insertion/Deletion, InDel):是指基因組中小片段(核酸序列)的插入或缺失。


結構變異(Structure Variation, SV):通常指基因組上大長度的序列變化和位置關係變化。基因組結構性變異類型很多,包括長度在50bp以上的長片段序列插入或刪除、串聯重複、染色體倒位(Inversion)、染色體內部或染色體之間的序列易位(Translocation)、拷貝數變異(CNV)以及複雜的嵌合性變異等。SV也可以發生在兩條染色體之間,可使用Circos等軟體展示。


拷貝數變異(Copy Number Variation, CNV):是由基因組發生重排而導致的一種染色體結構變異,一般指長度為1 kb以上的基因組大片段的拷貝數增加或者減少(Can be as large as megabases or smaller than 1,000 base pairs), 主要表現為一個群體中的不同個體或同一個體的不同細胞之間亞顯微水平的缺失和重複,即數量上與參考基因組或對照組的拷貝數不同。CNV的概念提出只是高通量短序列測序(二代測序)數據分析時,發現有些區間的覆蓋度顯著高於其它區間(或者是顯著低於期望),但通常並不清楚他們被拷貝到了哪些地方,以及是作為整體還是被分段拷貝。

CNV的分類與分布:二倍體生物的CNV可分為:正常(2拷貝)、缺失(1或0拷貝)和重複(>2拷貝)。CNV在染色體上的存在形式主要有:2條同源染色體拷貝數同時出現缺失(或同時出現重複);1條同源染色體發生缺失,另1條正常(或重複);1條同源染色體出現拷貝數重複,另1條正常。



CNV的致病性。大約三分之二的人類基因組可能是由重複序列組成的,4.8-9.5%的人類基因組可以歸類為拷貝數變異。CNV在人類基因組中分布廣泛,是人類疾病的重要致病因素之一,可引起智力障礙、生長發育遲緩、自閉症、多種出生缺陷、白血病、腫瘤、遺傳性疾病和心血管疾病等。作為疾病的一項生物標誌,染色體水平的缺失、擴增等變化已成為許多疾病研究的熱點。傳統的方法(如FISH等)操作繁瑣,解析度和通量低,且難以提供變異區段的具體信息。

CNV的來源。第一種,母源性CNV(胎兒50%可能存在相同的CNV);第二種,父源性CNV;第三種,胎兒(新發)CNV。

CNV臨床諮詢與遺傳諮詢。對於母源或父源CNV,如果父母本身沒有任何表型,胎兒本身也不存在超聲結構異常,我們大多認為偏良性。但醫生會告知由於遺傳的異質性,即使胎兒的CNV來自表型正常的父母,也不能代表胎兒一定沒有表型,因為有很多具有相同CNV的家系成員表型可能從無表型到嚴重表型。可以通過介入性產前診斷,胎兒樣本做染色體核型分析和染色體微整列分析(或CNV-seq),來明確診斷CNV的大小和胎兒的具體情況(註:這裡討論的CNV大多是指臨床意義不明的,對於明確致病的CNV,相應的臨床建議不同)。

胎兒(新發)CNV。CNV按照現有的標準分為致病性、可能致病性、臨床意義不明、可能良性、良性。最難的諮詢的也是臨床最常見的是臨床意義不明的CNV。對於新發的臨床意義不明確的胎兒CNV,實際上很難諮詢的,只能通過現有的資料庫如decipher,OMIM,DGV等以及胎兒的超聲影像學綜合評估,查詢CNV包含的基因情況,是否存在單倍劑量不足或三倍劑量敏感,還要結合已有的病例報導。最終的決定權還在夫妻雙方,臨床醫生只能通過現有的資料和數據告知胎兒可能的預後情況。胎兒期的臨床表型有限,只能通過超聲影像評估胎兒結構方面的問題,對於出生的生長發育,智力情況無法預測。

胎兒CNV的檢測風險。不要輕易的決定胎兒的去與留,一定要進行介入性產前診斷明確CNV的來源、大小和致病性,並通過密切結合胎兒的超聲影像學等資料進行綜合評估。染色體CNV普遍存在於我們每個正常人,只是現有的知識和資料庫資料有限,因此有很多臨床不明的CNV難以解釋。CNV相關的診斷還有很多的路要走,很多時候即使是經驗豐富的臨床醫生也無法給出明確的臨床建議。產前診斷工作如履薄冰,如臨深淵,臨床醫生應盡最大可能給出相對準確的臨床建議。



InDel vs CNV。目前主流的相關分析工具(BWA,bowtie2等)和算法(Smith-Waterman的local-alignment等)能夠直接鑑定出來的插入和刪除(InDel),檢測的範圍一般是從1bp到50bp。至於更大尺度的丟失和獲得,主要是通過分析序列的覆蓋度鑑定為CNV。


拷貝數多態性(Copy Number Polymorphism, CNP):一個CNV在群體中的頻率超過1%時通常成為CNP。類似的比較可參考上文的SNP vs SNV


SD區域(Segment Duplication Region)或串聯重複區域(Tandem Repeat Region):串聯重複是由序列相近的一些DNA片段串聯組成。例如在人類染色體22號和Y染色體上的大量SD序列。

關鍵字: