LSPpred套件,用於預測植物無領導分泌蛋白

乘風影像 發佈 2023-12-21T18:27:34.240962+00:00

LSPpred套件是基於計算機算法和生物信息學技術,能夠分析植物蛋白序列的特徵和模式,並預測其是否具有無領導分泌的潛力,我們經過實驗發現,LSPpred套件通過分析蛋白序列的物理化學性質、信號肽特徵和次級結構等信息,識別出潛在的無領導分泌蛋白。

前言

LSPpred套件是基於計算機算法和生物信息學技術,能夠分析植物蛋白序列的特徵和模式,並預測其是否具有無領導分泌的潛力,我們經過實驗發現,LSPpred套件通過分析蛋白序列的物理化學性質、信號肽特徵和次級結構等信息,識別出潛在的無領導分泌蛋白。

生成無領導分泌蛋白資料庫(LSPDB)

LSP分類器利用來自定製無領導分泌蛋白資料庫的精選訓練數據。

當擬南芥蛋白質組和蛋白質亞型中存在或缺乏經典分泌特徵(如信號肽),LSP分類器會預測與其相關的分泌特徵,以確定其進入常規分泌途徑、跨膜結構域或附著到細胞質膜上的GPI錨。

這些預測結果用於高通量地捕獲分泌物的所有相關特徵,而不考慮現有的注釋。

這些類別包括觀察到的經典分泌蛋白(SECs)、未觀察到的經典分泌蛋白(SPT/SP_THEORY)、觀察到缺乏分泌特徵的蛋白質(未分類)以及大多數未觀察到和缺乏分泌特徵的蛋白質(NONSEC)。

具有未分類標籤的蛋白質被認為是LSP的候選者,其與其他類別的相似性被用於將未分類蛋白質分層為高、中和低置信度的LSP,依據網絡相互作用、GO項和PFAM結構域等三個標準。

利用這些個體置信度分數的組合,為未分類數據分配總體高、中或低的LSP分數。

分類器的輸入數據

利用LSPDB分類構建隨機森林分類器模塊進行LSP預測,每個模塊使用不同的LSPDB數據和不同的方法來解決工廠中的LSP預測問題。

這些方法導致LSPDB數據的不同組合被選擇為正數據和/或負數據,輸入數據的選擇還可以指導預測器的操作方式,因此每個模塊都有多個版本。

LSPpred模塊使用未分類的高和中等類別的假定LSP作為正訓練數據,與經典(SEC)和非保密(NONSEC)數據相比,使用假定LSP特有的特徵作為預測的基礎,低置信度和剩餘的未分類蛋白質保留作為評估數據,不包括在訓練中。

修改是通過對蛋白質序列進行文本操作來完成的,在修改陰性數據的情況下,刪除注釋的SP區域或等於觀察到的SP平均值的等效長度,如果恢復了前導蛋氨酸殘基,則在去除SP後將其添加回蛋白質中。

對於每個預測模塊,以FASTA格式提取來自LSPDB基因類別的相關蛋白質,鑑於基因和蛋白質之間可能存在的「一對多」關係,選擇來自分類基因的所有蛋白質。

中等置信度列表中的幾種核糖體LSP被排除在外,因為在檢查中,單一的蛋白質-蛋白質相互作用(PPI)導致核糖體複合物被包括在內。

為了避免對相似序列(來自同一基因或基因家族)的偏倚和過度依賴,使用CD-hit來選擇每類中最大同一性高達40%的蛋白質序列。

這類似於將SecretomeP劃分為非相似集合,它們之間具有大約26%的同一性以進行交叉驗證。

選擇40%的閾值來平衡基於獨立數據的預測與有限的原始數據大小,序列相似性度量可確保數據集不同,並防止一個基元的準確性過度影響數據。

相似性選擇後,每類的輸入減少到322SEC,1178未分類,1439SPT和10,523NONSEC蛋白,這些選定的蛋白質被用作其類別的代表。

使用ProFET工具套件創建訓練序列特徵的數值表示,最初為輸入派生了一組203個類別,共有1170個比例要素。

這些類別包括序列長度、重量、等電點、水腫的總平均值(GRAVY,計算為胺基酸水病值之和除以長度)、胺基酸組成、基於壓縮胺基酸字母的組成,用單個值替換相關胺基酸、PTM的可能位點、自相關以及縮放和轉換的特徵。

在不平衡數據上訓練隨機森林模型

儘管LSPpred和SPLpred方法中的陽性和陰性數據是分開定義的,它們共同的目標是對LSP進行分類。

這兩種方法都使用相同的大量初始蛋白質特徵表示(ProFET),並且事先並不知道哪些特徵與生物學相關。

決策樹由一系列級聯節點組成,每個節點基於輸入特徵進行分類測試。

隨機森林對於LSP的一個有用特性是,它可以通過特徵的基尼重要性(或簡單重要性)來衡量這些特徵對樹的貢獻,從而推斷其生物學意義並提供未來實驗工作的建議。

另一個關鍵考慮因素是輸入數據的來源,對於LSPpred來說,LSP數據是從LSPDB中選擇的,LSPDB是基於實驗觀察和蛋白質特徵構建的,而不是從大量經過實驗驗證的LSP中選擇的。

通用的機器學習模型(如隨機森林)適合在這個空間中進行預測的探索,而不需要更複雜的方法。

隨機森林是使用Python的Scikit-learn庫實現的,在處理不平衡數據時,隨機森林可能會表現不佳。

為了解決這個問題,使用了一種名為平衡隨機森林分類器(BRF)的不平衡學習擴展方法。

BRF通過在訓練過程中對每個類別的樣本進行欠採樣或過採樣,以平衡不平衡數據集,這有助於提高隨機森林在處理不平衡數據時的泛化效果。

將每個版本的SPLpred/LSPpred的輸入數據分為訓練集和測試集,其中75%用於訓練,25%用於測試,並進行分層採樣以保持陽性和陰性樣本的相對比例。

使用5倍交叉驗證對BRF模型進行訓練以估計準確性,通過這種訓練和驗證過程,可以對BRF模型進行準確性評估,並選擇最佳的模型參數和特徵組合。

這樣可以提高在不平衡數據集上的預測性能,並增強對LSP的分類能力。

首選分類器模型選擇的指標

根據以假陽性率(FPR)為0.05的慣例作為目標,從交叉驗證的接收器操作特徵曲線(ROC)中,我們可以通過計算不超過5.0FPR的5個閾值的平均值來估計預測閾值。

我們也可以通過計算在相同閾值下的平均真陽性率(TPR)來估計該閾值下的真實陽性率。

交叉驗證還能確定最重要的特徵,對於每個預測變量,我們對這些特徵進行排名,並選擇上四分位數作為閾值,使用BRF模型在簡化的特徵集上對整個數據集進行訓練。

採用交叉驗證的閾值來計算完整模型在排除的測試數據上的準確性,這可以通過將超過該閾值的任何值作為陽性進行預測來實現。

對於置信度較低的分類,不受所需FPR限制,我們可以使用0.5作為閾值來進行預測。

為了處理每個版本中正數據點較少的類別不平衡問題,我們使用平衡精度對檢驗數據進行評估,該精度定義為正數據和負數據精度的平均值。

通過使用這個指標來比較不同版本,確保了對於稀缺的陽性數據和準確識別真陰性數據的性能同樣重要

為了評估SPLpred修改後的預測因子中的偏差,將每個經過訓練的模型應用於兩個版本的SPT數據集,一個是刪除了SP的版本,一個是保留了SP的版本。

使用兩種預測分布的核密度估計圖(KDE)來計算具有SP和沒有SP的蛋白質的預測分數的平均差異,對使用訓練數據進行了修改或未修改的版本進行類似的測試。

如果使用刪除了SP的數據作為訓練輸入,則使用序列的完整長度版本的分數進行比較。

由於模型已經接觸到這些數據,任何偏差都表明是由於輸入修改而導致的,這些偏差和準確性指標用於比較預測工具的替代設計,並選擇LSPpred和SPLpred的首選候選者。

結果

在目標將假陽性率(FPR)控制在0.05的慣例下,從交叉驗證的接收者操作特徵曲線(ROC)中估計預測閾值,取跨摺疊不超過5.0FPR的0.05個閾值的平均值作為預測閾值。

還可以通過取相同閾值下的平均真陽性率(TPR)來估計該閾值下的真實陽性率,通過交叉驗證,確定了最重要的特徵。

使用平衡隨機森林(BRF)模型在簡化的特徵集上訓練整個數據集,交叉驗證的閾值用於計算在排除測試數據上的完整模型的準確性,即對超過該閾值的值進行肯定預測。

因為LSPpred的底層模型基於假設的LSP,所以CSP不適合作為評估準確性的合適代理,為了評估準確性和假陽性率,需要增加來自擬南芥以外的經過驗證的植物LSP樣本。

LSPpred在預測這些獨立測試數據時,結合了內部交叉驗證的TPR為35%和FPR為5%的能力,這表明它可以識別出一些具有可接受誤差估計的植物LSP。

由於HeLa-S3不是植物LSP,它強調了使用來自其他系統的LSP可以塑造未來的實驗設計,以測試哪些LSP維持生物體之間的非常規分泌,並可能揭示常見的分泌機制。

LSPDB輸出的標準選擇也受到限制,GO術語和PFAM域的置信標準是基於排他性或多數性而不是統計富集來確定的。

NONSEC組可能包含未觀察到的LSP,而且這些類中的PFAM分布和層次結構GO項不均勻,導致了這些簡化的標準。

通過建立SEC蛋白之間的相互作用臨界值來評估PPI網絡,確定了網絡標準,許多蛋白質中沒有PPI可能意味著閾值不足以識別所有SEC蛋白質,因此在應用於其他類別時,預計也會受到限制。

將類似的統計框架應用於GO術語,使用PPI和PFAM域將CSP的「基線」與LSP候選進行比較,這是未來建立資料庫標準的疊代途徑。

LSPpred2和SPLpred3共有301個和289個特徵,其中99個是兩者共有的,基尼重要性總和為1,每個排名靠前的特徵對預測的貢獻最大。

每個預測變量,基尼重要性最高的特徵的貢獻仍然相對較低,在SPLpred中,"二級結構轉換23"對預測的貢獻僅為3.3%,"G熵"貢獻了1.5%。

剩餘的基尼重要性(96.7%和98.5%)來自其他特徵的長尾,這表明模型基於許多蛋白質元素的組合進行預測。

LSPpred中包含天冬醯胺和甘氨酸殘基的簡單胺基酸頻率和基於熵的特徵為LSP候選物提供了進一步研究分泌途徑的方向,這兩種胺基酸被認為是GPI錨切割位點的目標。

另一個與分泌途徑相關的方面可能是N-連接的糖基化,它從內質網開始並在高爾基體中繼續。

鑑於UPS作為一種可能的分泌途徑,研究這種糖基化和其他與天冬醯胺和甘氨酸相關的修飾(例如乙醯化、肉豆蔻醯化)可以進一步探索它們與LSP之間的關係。

結論

通過利用定製的無領導分泌蛋白資料庫和隨機森林分類器模塊,LSPpred能夠高效地預測植物蛋白是否具有分泌特徵,該套件使用多個LSPDB數據集和不同的方法來解決植物中LSP預測的挑戰。

通過將正數據和負數據組合起來,並結合相關蛋白質組學文獻的觀察結果和指定的類別,LSPpred能夠準確地分類植物蛋白為經典分泌蛋白、未觀察到的經典分泌蛋白、觀察到缺乏分泌特徵的蛋白和大多數未觀察到和缺乏分泌特徵的蛋白。

這種預測可以幫助研究人員更好地理解植物無領導分泌蛋白的功能和作用機制,通過LSPpred套件的應用,我們可以快速、準確地預測植物蛋白的分泌特徵,為進一步的研究和應用提供了有力的工具和指導。

參考文獻:

【1】丁英,《植物非常規蛋白質分泌(UPS)途徑》

【2】貝魯奇,《內質網是將蛋白質分選至非常規交通途徑和內共生細胞器的樞紐》

【3】崔瑩,《植物細胞外囊泡》

【4】尼爾森,《預測無信號的真核蛋白分泌》

關鍵字: