臨床外顯子組測序分析中的那些坑（上）

大規模並行測序技術或下一代測序已成為基因診斷和研究的標準技術，尤其是外顯子組和基因組測序現在已經在世界範圍內廣泛應用於患者的分子診斷。在過去幾年中，許多實驗室都在努力應對基於全新技術建立基因檢測工作流程的挑戰。測序技術中持續引入新的儀器、化學和分析方法加劇了這些挑戰。

在過去十年中，新的測序技術已經上市，而其他技術已經消失，並且所有這些技術都經歷了快速的變化和升級。外顯子組捕獲試劑盒、配套設備和耗材也是如此。在這個不斷變化的領域，實驗室一直致力於生成高質量的測序數據。

各種研究報告了測序數據中的偏差如何導致外顯子組和基因組測序的敏感性降低或假陽性變異。例如，對於NGS而言，高測序錯誤率和PCR重複將導致潛在的假陽性calls，而不均勻的序列覆蓋或缺乏覆蓋可能會導致靈敏度降低。其他問題，如strand偏倚和插入大小分布也可能對測序結果產生不利影響。NGS技術比傳統的基因檢測方法更加數據密集，需要信息技術（IT）和生物信息學方面的專業知識，而這在許多實驗室最初是稀缺的。生物信息學已經解決了為測序數據建立嚴格質量控制的困難，但也解決了從測序數據中可靠識別變異的挑戰。例如，檢測插入和缺失、識別短片段擴增重複或低覆蓋區域的變異或區分單核苷酸變異（SNV）與測序錯誤相對困難。

此外，從外顯子組數據中檢測拷貝數變異（CNV）已成為一種標準程序，並帶來了自身特殊的挑戰。同樣，與測序儀器一樣，生物信息學需要處理來自軟體工具、基因Panel和其他注釋資源的持續更新，以確保分子遺傳學家擁有用於解釋最新數據的最新信息。這反過來要求實驗室實施自動測試其分析的策略以及重新分析現有數據的系統方法。

在新的測序可能性以及許多疾病的遺傳和表型變異的推動下，臨床基因檢測在過去十年中發生了巨大的變化。根據臨床表型，只有一個或幾個基因會被測序；從靶向基因測試來看，現在通常涉及對大量疾病基因的分析。與單基因分析相比，外顯子組或基因組測序中的大量變異的解釋明顯不同。這不僅需要對該技術有深入的了解，以便評估數據質量和已識別的變異，還需要新的變異解釋方法。

NGS變異的初始報告有時過於嚴格，從而忽略了與患者表型不完全匹配的變異，或過於寬鬆，導致許多意義不確定的變異（VUS）。隨著時間的推移，測序數據的質量有了很大的提高，並且開發具有不同變異頻率的大型公共可用資料庫，如GnomAD資料庫，極大地幫助開發了更高效的變異篩選選項。此外，在過去的幾年中，已經開發出各種建議和質量評估方案指導NGS變異的解釋、分類和報告。

現在有一些關於NGS測試的指南可以幫助NGS測試設計、優化、驗證、質量管理和生物信息學等方面。儘管如此，仍然存在許多挑戰，錯誤肯定會發生，即使在質量至關重要的受監管臨床基因檢測實驗室也是如此。這裡我們展示了我們實驗室在十年臨床外顯子組測序過程中犯下的一些錯誤的例子，以及我們從這些錯誤中吸取的教訓（補充表S1）。雖然濕實驗室有其特殊的挑戰，但在這裡，我們主要關注與數據分析和變異解釋相關的問題。我們希望通過分享這些例子，其他實驗室可以避免犯同樣的錯誤。

數據分析

對於許多診斷實驗室來說，數據管理和測序數據分析流程的開發已經變得非常重要。構建一個完整、高效和穩健的NGS分析流程是一項複雜的任務，包括多個微妙的步驟，包括從NGS讀取的比對到不同類型遺傳變異的調用和注釋，如SNV、小插入和缺失、CNV和短串聯重複序列（STR）。由於需要執行許多不同的處理步驟，並且數據量很大，因此相對容易犯一個小錯誤，對最終結果產生較大但不明顯的影響。在這裡，我們展示了自己在數據分析過程中犯下的五個錯誤的例子，這些錯誤到目前為止還沒有在文獻中得到充分強調。

1. 序列質量

「垃圾輸入，垃圾輸出」是計算機科學中的一句名言。它抓住了一個概念，即有缺陷的輸入數據會產生有缺陷的輸出或「垃圾」。這同樣適用於測序數據。我們的實驗室在測序結果方面遇到了許多問題，這些問題不是由於數據處理中的錯誤，而是由於初始數據生成本身存在問題。確定下游問題的根本原因可能是一項具有挑戰性的任務，因為測序數據中的細微質量問題可能會對後續突變檢測產生很大影響。一個相對常見的問題是數據中有許多虛假的變異，這種情況有時是由於意外的高測序錯誤率、樣本污染，或由於adapter序列的不正確修剪（補充圖S1）。

大多數質量問題可以通過檢查原始測序數據或變異的質量分數較低，並且偏離雜合子突變豐度50%來識別。相反，在大多數情況下，變異的數量減少是由於序列覆蓋率低。然而，靈敏度降低可能還有其他原因。在兩批外顯子組測序樣本中，我們注意到變異的數量較少，只是因為我們對幾批樣本進行了趨勢分析。最初，我們預計這是由於樣本的序列覆蓋率較低（補充圖S2），然而，這些樣本的序列覆蓋率與其他樣本沒有區別，最終我們發現這個問題是由於duplication reads的比例增加了10-20%。由於duplication reads可能是由於PCR擴增並可能引入假陽性變異。大多數變異的分析軟體不會考慮它們的變異調用。因此，許多區域的有效覆蓋率比這兩個批次的有效覆蓋率低10-20%（補充圖S2）。許多質量問題可以通過使用Qualimap等工具輕鬆識別，這些工具可以計算測序實驗的質量統計數據，如覆蓋率統計數據、測序錯誤率和重複讀取的百分比。

因此，我們強烈建議在生物信息流程的所有步驟中嵌入廣泛的質量控制，並遵循質量參數的趨勢，如重複讀取的百分比、覆蓋率分布、變異總數以及在gnomAD中未發現的罕見變異的百分比。應密切調查與預期值的偏差。在開發和測試期間確定質量閾值將有助於以後識別質量問題。當實驗室協議發生變化時，例如隨著新測序儀器的引入，這些閾值可能需要更新。對測序數據進行全面的質量控制分析可以防止數據解釋的許多下游問題。

2. 序列比對：alternate contigs

NGS數據最主要的處理步驟是將讀取數據與參考基因組對齊。然而，特定區域的基因組結構在不同的個體和群體之間可能存在很大差異。為了正確地表示這些位點，參考基因組使用alternate contigs，即基因組中特定區域的不同參考序列。這些交替重疊群包含基因組中的區域，這些區域以如此複雜的方式變化，以至於它們無法表示為單個參考序列。在我們最初的分析工作流程中，我們試圖儘可能全面，包括可能最大的參考基因組，其中包括alternate contigs。然而，默認情況下，大多數reads都會給與參考基因組中多個區域一致的比對質量分數。這些比對質量（MAPQ）等於零的讀數通常在集成基因組學查看器（IGV（Robinson等人，2011））中以空白讀數顯示（圖1A）。變異檢測算法反過來會忽略這種讀取，並且不會在讀取MAPQ分數較低的區域識別變異。這些區域變異雖然可以通過手動檢查看到，但不會被分析。這一錯誤是在實驗室專家的幫助下確定的，他們查看了比對後的測序數據，以確定隱性基因中是否存在潛在的第二個突變（見VI-3）。我們發現通過包含alternate contigs讀取無法明確對齊的編碼基數將增加三倍。

圖1A

最近，英國生物銀行（UK Biobank）的數據也報導了同樣的問題，在GRCh38參考基因組中引入了大量的替代性重疊群，導致數千種變異的缺失。有兩種方法可以避免這個問題。簡單的解決方案是在分析中簡單地排除替代重疊群，這是目前我們在GRCh37外顯子組分析中所做的。在沒有交替重疊的情況下分析數據，將正確對齊人類參考基因組主要組件中的reads（圖1B）。一個更複雜的解決方案是應用對齊算法，可以使用相應的索引文件處理交替重疊，我們現在使用參考基因組的GRCh38構建分析基因組。考慮到GRCh38極大地擴展了替代性接觸基因的種類（以及其他改進），行業開始向GRCh38過渡將是有利的，以便能夠正確地檢測和分析群體特異性單倍型中的基因組變異。

3. 變異檢測：捕獲目標文件

有許多不同的外顯子組試劑盒，它們都使用自己對「感興趣區域」的定義。從外顯子組檢測變異的最初方法是分析整個全基因組，而不考慮捕獲目標或編碼區域。然而，這在計算上很繁重，結果數據將包含許多來自不感興趣區域中非目標讀取的低質量變異。因此，將分析限制在可以合理預期可靠變異的充分覆蓋範圍區域似乎是合理的。儘管最初的外顯子組試劑盒試圖精確定位編碼區，但許多製造商開始移動捕獲探針，使其部分重疊或接近感興趣的外顯子，以優化富集效率。這背後的想法是：結合序列讀取長度（通常為100-150 bp）和基因組DNA片段的富集（延伸到目標之外但與目標重疊），不僅可以充分覆蓋捕獲目標本身，還可以覆蓋100-150個相鄰鹼基。這確實提高了許多「困難」外顯子的捕獲效率，但使決定在哪些區域檢測變異變得更加困難。

圖1C

在我們最初實施新的外顯子捕獲設計時，我們犯了一個錯誤：只在外顯子捕獲目標區域中檢測變異，沒有意識到任何捕獲目標都沒有直接覆蓋一部分外顯子，因此遺漏了相關的編碼變異（圖1C）。儘管我們在測試外顯子組試劑盒時進行了幾次質量檢查，但我們並沒有立即意識到我們丟失了多達5.4%（1897KB）的所有編碼區域（安捷倫SureSelect版本4）。同樣，當通過IGV在序列比對中發現可見的變異在vcf文件中不存在時，觀察到了這個錯誤。在最近的外顯子組試劑盒中，與捕獲目標相鄰的編碼鹼基數量較少，但仍然相當可觀（圖1D）。

大多數製造商保證在捕獲目標附近有足夠的覆蓋100bp，但我們目前將目標擴展為200bp，以平衡額外的計算時間和編碼區域中的額外變異。顯然，在全基因組範圍內分析變異將繞過這些問題，但我們已經判斷，額外的計算時間和低質量變異的增加並沒有使這足夠值得。我們估計，在全基因組範圍內調用變異將使分析時間加倍，並將產生更多的變異，其中一個重要部分是假陽性位點。在實施新的外顯子組捕獲設計時，強烈建議事先定義臨床目標或感興趣的區域，然後確定這些區域覆蓋的完整性。

譯者介紹

邊疆男 2010年畢業於中山大學婦產科生殖內分泌專業，獲博士學位。專業方向：女性生殖力保存、環境生殖毒理學。從事婦科內分泌疾病和女性生殖內分泌臨床20餘年