近日,軍事科學院軍事醫學研究院的伯曉晨、何松課題組在Nucleic Acids ReSearch雜誌發表了題為TOXRIC: a comprehensive database of toxicological data and benchmarks的文章,開發了一個全面且實用的化合物毒理學資料庫TOXRIC(https://toxric.bioinforai.tech/),提供全面的毒理學數據與基準測試結果。
化合物對環境、人類和其他生物產生的毒性效應包括多種類別,例如肝毒性、心臟毒性、致癌性、生態毒性等,這一直是藥物發現、生態學等許多研究領域的焦點問題。在化合物/藥物發現的早期階段評估其潛在的毒性效應至關重要。
為了加速毒理學、化合物/藥物發現與化合物毒性的計算預測研究,軍事醫學研究院的伯曉晨、何松課題組開發了化合物毒理學資料庫TOXRIC,提供全面的毒理學數據與基準測試結果。TOXRIC存儲的毒理學數據涵蓋113372個化合物,13種毒性類別,1474個體內、體外毒性終點與39種化合物屬性數據,均可通過TOXRIC在線網站(https://toxric.bioinforai.tech/)檢索與下載。所有毒性終點、化合物屬性數據集已整理成機器學習(ML)算法可直接使用的數據格式,可用作ML預測算法的輸出與輸入數據。此外,TOXRIC為每個毒性終點數據集提供了特徵數據基準測試、算法基準測試與分子表示可視化結果。基於這些結果,研究人員可以針對不同終點預測任務選擇最優的特徵類型、分子表示和基線算法。
1 方法
1.1 數據收集與整理
TOXRIC儲存了113372個化合物的13種毒性類別數據,包含急性毒性、致癌性、致突變性、發育和生殖毒性、肝毒性、心臟毒性、呼吸道毒性、內分泌紊亂、刺激性和腐蝕性、生態毒性、臨床毒性、ToxCast/Tox21 Assay、CYP450,涉及超過15種物種上測定的1474種體內、體外毒性終點。數據主要來源包括ToxCast/Tox21、LTKB、ChemIDplus數據集及Jain et al.等研究。數據整理過程包括化合物篩選、多源數據整合和單位標準化等。提供的毒性終點數據集已整理成ML算法可直接使用的數據格式,包括分類與回歸任務數據集。每個化合物分配唯一標識符TAID。
此外,TOXRIC提供化合物的39種屬性數據,包含7種分子指紋、靶標、3種藥物擾動的轉錄組數據、代謝反應、兩種藥物屬性與25種Chemical Checker(CC)描述符。上述數據可直接用作ML算法的輸入特徵數據。
1.2 基準建立
TOXRIC為所有終點數據集提供兩種基準測試結果,即特徵數據基準測試與算法基準測試,系統評估了36種特徵類型作為輸入、4種典型機器學習/深度學習算法的性能結果。分類數據集使用F1作為性能評估指標。回歸數據集使用RMSE與R2作為評估指標。RMSE值越小、或R2/F1值越高表示預測性能越高。使用五折交叉驗證測試,提供指標平均值與標準差結果。
在特徵數據基準測試中,測試了7種分子指紋、靶標數據、3種轉錄組數據、25種CC描述符分別作為輸入特徵數據,在XGB算法上的預測性能。在算法基準測試中,將PubChem指紋和RDKit2D描述符(具有最高平均預測性能)拼接作為模型輸入,評估了XGB、RF、SVM和DNN 4種典型算法的性能。
1.3 分子表示可視化
通過t-SNE散點圖展示了14種分子表示在分類數據集上的聚類效果與數據分布。分子表示包括11種原始特徵數據與3種ML算法生成的表示。原始特徵包括7個分子指紋、靶標和3個轉錄組數據。ML算法生成的表示指通過DNN、RF、XGB進行表示學習或特徵選擇得到的數據。
2 資料庫的內容與使用
TOXRIC包含8個頁面:
Home、Search頁面提供化合物檢索/批量檢索功能;
Data Collection頁面展示所有毒理學與屬性數據集的概況;
Statistics頁面提供數據集的統計結果;
Benchmark&Representation頁面展示基準測試與分子表示的可視化結果;
Download頁面提供所有數據集的下載連結;
用戶可以通過Contribute頁面上傳自己的毒理學數據;
Contact&About頁面提供網站所有功能的分步使用手冊。
2.1 數據瀏覽
1)瀏覽數據集概況:Home頁面提供TOXRIC數據集概況(圖1),用戶可通過點擊欄位連結到相應的數據集描述。
圖1 Home頁面的數據集概況
2)瀏覽數據集基本信息:Data Collection頁面提供了毒性類別、毒性終點、特徵空間數據集的基本信息,包括數據集描述、化合物數量、來源和特徵維度等。用戶可以點擊Details按鈕查詢數據集的詳細信息。在詳細信息頁面上,數據集中包含的所有化合物以分子圖的形式列出(圖2A)。點擊化合物將打開化合物信息頁面。
3)瀏覽數據集統計結果:Statistics頁面以餅圖和條形圖的形式展示數據集的多維度統計結果。
2.2 數據檢索
1)檢索方式:在Home頁面的搜索框或Search頁面可以通過TAID、化合物名稱、IUPAC名稱、PubChem CID、SMILES、InChIKey和InChI標識符檢索化合物,支持模糊搜索與批量搜索(Search頁面)。
2)檢索結果展示:化合物信息頁面由三個模塊組成,即化學信息、毒性類別和特徵空間。化學信息模塊提供了七種常用的標識符類型和化合物的物理化學性質(圖2B)。毒性類別模塊展示了該化合物在13個毒性類別下的毒性終點值(圖2C)。在特徵空間模塊(圖2D),化合物的靶標、類別和代謝反應以文本格式展示,靶標在KEGG通路、GOBP的富集結果以氣泡圖形式展示(圖2E),轉錄組、分子指紋和CC描述符的特徵向量需下載使用。用戶可以通過單擊右上角的Download按鈕下載化合物的毒性終點或特徵數據。
圖2 化合物檢索結果
2.3 基準測試結果與分子表示可視化展示
Benchmark&Representation頁面展示了特徵數據基準測試、算法基準測試和分子表示的可視化結果。
1)Benchmarks for Feature Types頁面以條形圖的形式展示了分別利用36種特徵類型作為輸入的性能評估結果(圖2F)。特徵類型包括7種分子指紋、靶標數據、3種轉錄組數據、25種CC描述符。
2)Benchmarks for Algorithms頁面展示了4種典型算法的基準測試結果,包括XGB、RF、SVM和DNN(圖2G)。
3)T-SNE Embedding of Molecular Representations頁面展示了14種分子表示在分類數據集上的聚類效果與數據分布(圖2H)。通過t-SNE散點圖展示結果。
2.4 數據下載
所有數據集下載無需註冊或登錄。各終點、特徵類型數據提供單獨下載。
2.5 數據貢獻
用戶可通過Contribute頁面或聯繫我們(hes1224@163.com)上傳毒理學數據。
3 案例分析
3.1 TOXRIC使用方法
本節以mouse_intraperitoneal_LD50終點數據集為例,介紹如何使用TOXRIC進行化合物毒性的計算預測(圖3)。
1)在Download頁面下載該終點數據集作為標籤數據(圖3A)。
2)在Benchmark&Representation頁面查看特徵數據基準測試結果,MACCS分子指紋在該終點上具有最優性能(RMSE指標)(圖3B)。
3)在Download頁面下載MACCS指紋數據集作為輸入特徵(圖3C)。
4)在Benchmark&Representation頁面查看算法基準測試結果,發現RF算法在該終點上具有最優性能(RMSE指標)(圖3D)。選擇RF為開發新ML算法的基線。
毒性預測的逐步應用示例請參閱補充數據和Contact&About頁面。
圖3 TOXRIC使用示例
3.2 基準測試結果分析
對於計算預測,根據基準結果選擇合適的特徵類型和基線算法至關重要,這兩種測試結果被提供在TOXRIC的Benchmark&Representation頁面。以回歸數據集為例,在特徵數據基準測試結果中,對每個特徵類型的RMSE值取平均,分子指紋特徵顯示出顯著的性能優勢。大多數情況下,RDKit2D描述符和PubChem指紋獲得最優性能。然而,在特定終點上,轉錄組數據可能取得最優。此外,算法基準測試結果顯示,XGB獲得了最優F1結果,RF獲得了最佳RMSE結果。但在某些特定的數據集中,SVM或DNN可以獲得最佳性能。研究人員應該根據基準測試結果為不同的終點選擇最優的特徵類型。
3.3 分子表示特徵分析
與ML模型訓練後生成的表示相比,原始特徵很難展示聚類效果。在將原始特徵映射到新的特徵嵌入空間之後,DNN可以更好地學習輸入數據中的規則。此外,靶標和轉錄組譜的特徵顯示出與分子指紋完全不同的分布,這可能為相關研究提供化合物表徵的新見解。
3.4 應用場景
1)單個化合物的毒性信息檢索和下載可用於毒理學研究、毒理學機制解釋和化合物/藥物發現。每種化合物的毒性值、化學信息、轉錄反應譜、代謝反應方程式、靶標及其通路富集結果等都可通過TOXRIC網站查詢與下載。
2)TOXRIC提供多種分子表示的可視化結果,便於研究人員更好地理解在不同空間的分子表示,包括原始特徵、靶標、轉錄組空間與經過ML算法學習後生成的表示空間。
3)TOXRIC提供了ML算法可直接使用的毒性終點、輸入特徵數據集和兩種計算基準測試結果,便於毒性計算預測算法的開發。終點、特徵類型數據集可下載並直接用作ML模型的輸出與輸入。兩種基準測試結果可以幫助研究人員為每個毒性終點預測任務選擇適當的特徵類型和基線算法。
4 與現有資料庫的對比
現有的毒理學資料庫可被劃分為四類:toxicity category-centric、toxic feature-centric、compound-centric、ML task-centric,統計結果如下表。本文與該四類涉及的20個毒理學及其相關資料庫進行了詳細對比,展示了TOXRIC的獨特優勢。
天津大學博士生武連蓮、復旦大學博士生顏博威為該論文的共同第一作者,軍事醫學研究院伯曉晨研究員、何松副研究員為該論文的共同通訊作者。
伯曉晨研究員/何松副研究員課題組一直致力於利用生物醫學大數據與人工智慧的多種計算模型研究癌症等複雜疾病的致病機理和藥物治療方案, 在Nature、Nature Microbiology、Molecular Cell、Nucleic Acids Research、Genome Biology、Briefings in Bioinformatics等雜誌發表多篇論文。
課題組長期招收碩士、博士研究生及博士後,歡迎感興趣的同學加入或來函諮詢,聯繫郵箱:hes1224@163.com。
製版人:十一
參考文獻
Lianlian Wu, Bowei Yan, Junshan Han, Ruijiang Li, Jian Xiao, Song He, Xiaochen Bo, TOXRIC: a comprehensive database of toxicological data and benchmarks, Nucleic Acids Research, 2022;, gkac1074, https://doi.org/10.1093/nar/gkac1074.