科學家打造空間組學資料庫,讓生物信息研究者告別重複「造輪子」

deeptech深科技 發佈 2023-03-25T08:07:09.218072+00:00

近年來,隨著高通量測序技術的快速發展,空間組學技術的關注度越來越高。

近年來,隨著高通量測序技術的快速發展,空間組學技術的關注度越來越高。


截止目前,空間組學領域已經誕生不少重要研究成果:


其中包括美國國家衛生院發布的大腦細胞普查網絡計劃(Brain Initiative Cell Census Network,BICCN), 項目目標旨在解析人、猴和小鼠大腦的單細胞時空動態圖譜;


美國國家癌症研究所則主導了人類腫瘤圖譜網絡計劃(The Human Tumor Atlas Network,HTAN),目的是為多種癌症各個時期的轉變過程建立時空動態圖譜。


一些中國高校和企業的研究團隊,也已經走在空間組學科研領域的世界前沿,代表成果有國內學界繪製的首個肝癌空間圖譜、以及國內業界研發的 Stereo-seq 系列技術。


與傳統基因組學和轉錄組學研究相比,空間組學研究可以提供組織和細胞之間的空間關係信息,幫助人們深入理解生物體內複雜的細胞相互作用、信號通路、以及調控機制等生物學問題。


然而,空間組學數據處理和分析的挑戰也隨之而來。由於數據維度高、噪聲多、複雜度大,傳統的數據處理和分析方法也變得不再適用。


此外,當下至少存在數十種不同空間組學技術,按照所測的分子類別可大致劃分為轉錄組、蛋白組、代謝組、基因組等。不同的空間組學技術也存在數據結構和數據類型上的差異,這增加了數據整合和交叉分析的難度。


對於這些快速產生的珍貴數據,科研人員面臨的最直接的問題就是數據的預處理,即從原始數據處理為標準格式例如 Anndata 等。


這裡的主要困難在於,不同數據類型和數據源所提供的原始數據格式並不相同,因此需要非常定製化的編程技巧。而對於特大規模數據例如 MERFISH 和 Stereo-seq 來說,更是需要大量的計算資源和時間消耗。


另一個問題在於,即使耗時耗力將某一批數據處理完畢,但在通過分析看到數據全貌之後,研究者往往會發現這個數據並非真正所需,從而導致做了無用功。


開發 SODB 資料庫,數據量覆蓋 5000 多萬個細胞,讓科研人員告別重複「造輪子」


為應對這些挑戰,復旦大學類腦人工智慧科學與技術研究院青年副研究員原致遠,和他博士期間導師——美國德州大學達拉斯分校張奇偉教授、以及騰訊 AI Lab 首席科學家姚建華博士,開發出一種名為 SODB(Spatial Omics DataBase)的資料庫,其目前數據量覆蓋 5000 多萬個細胞,來自 26 種不同的技術,並且這些數據均被統一地處理成標準格式,能讓研究人員告別重複勞動的局面。



更重要的是,通過瀏覽 SODB 資料庫,以及藉助本次研究里的 SOView 交互式算法,可以直接「看到」空間組學數據背後的組織全貌,這樣一來很容易就能判斷所瀏覽的數據是否符合研究需求。



打個不太恰當的比喻,對於數據使用者來說,以前空間組數據像被封在貨櫃中的貨物,從外面看不出裡面是什麼貨物,挑選自己所需的「商品」也非常麻煩,需要經過專業處理步驟查看貨櫃里的「商品」。逛 SODB 就像「逛超市」。琳琅滿目的數據就是「商品」,它們被一個個地放在「貨架」上。憑藉 SOView 交互式算法,用戶能夠看到每一個「商品」的全貌。如果滿足需求,即可直接「一鍵購買」(下載)。而當使用本次提出的數據讀取方法 pysodb 時,只需一行 Python 代碼即可獲取高質量數據。


概括來說,該成果的最大意義便是給空間組學領域搭建了「基礎設施」,它能提供快速的數據讀取和數據復用能力,滿足計算生物學家在開發算法時的 benchmark 需求。


這不僅能極大地節省科研人員的寶貴時間,還可避開以往研究中的 dirty work。具體來講,採用傳統方式處理一個標準的 slide-seq 數據時,從原始數據處理到標準格式,至少需要 19 分鐘的時間、以及 22GB 的峰值內存。而使用 SODB 提供的 pysodb 讀取方式,僅需 7 秒的處理時間和 0.04GB 的峰值內存。


作為一個資料庫,SODB 的最大意義在於能夠加速空間組學領域的發展,可以幫助生物學家們更好地驗證新的生物猜想,助力發現新的病理現象,降低因技術特性帶來的偏見和錯誤性發現。


同時,SODB 還能將不同的空間數據集合在一起,使用時可以按需進行快速搜索、定位和下載多模態數據,以便充分利用已發布的數據,避免在實驗上重複「造輪子」。


對於生物信息學家而言,SODB 支持多種計算方法的基準數據需求,讓他們可以專注於計算模型,免去數據處理之憂。


舉例來說,如果研究者只想進行簡單的數據加載,那麼他不僅無需提供額外的數據處理代碼或將數據上傳到 Figshare 等存儲庫中,也無需進一步研發計算方法,只需使用 pysodb 這款數據讀取方法即可。


面對來自不同批次、空間技術和分子分析的異質數據,要想把它們整合起來仍然存在一定挑戰。但是,之前在單細胞領域的研究已經表明,跨批次和技術整合數據具備一定可能性,並能帶來更多的好處。


最近,還有研究表明將不同空間組學數據進行集成和分析,也具有較大的可行性。而這正是 SODB 可以提供的功能。


另據悉,SODB 還將促進數據的可用性,刺激空間數據整合的計算方法的發展,助力於建設具有通用坐標框架的大規模空間圖譜。


當下,新興技術在給人類帶來便利性的同時,也增加了數據的複雜性。全球學界和業界都將面臨越來越多的新挑戰,而 SODB 可以存儲、查看和分析這些數據。


同時,本次研究也有望為藥物研發提供新思路。此前,空間組學技術已經被廣泛用於藥物研發,並在藥物靶點識別、藥物劑量確定和藥效評估等方面展現出較大的潛力。


作為一種新工具,SODB 可以幫助研究人員深入分析細胞類型和空間關係,藉此挖掘潛在的藥物靶點和機制,加速藥物研發的進程。


並且,SODB 還能幫助醫生深入挖掘患者體內的細胞類型和空間關係,藉此發現潛在的診斷標誌物和治療靶點,以便更準確地判定癌症類型和分級,從而為臨床醫學提供更精準的診療。



通過共享資料庫,讓更多人可以復用


擔任相關論文第一作者兼通訊作者的原致遠表示,本次課題要追溯到 5 年前。那時,他正在張奇偉教授的指導下開發一個名為 SEAM(spatial single nuclear metabolomics)的空間代謝組學分析方法,藉此機會接觸到了空間組學[1]。


在研究相關數據的過程中,他發現總得把它們挨個處理成 Anndata 格式,只有這樣才能獲悉每個數據的組織形態、所包含的細胞類型、細胞的分布方式等。


當手裡的數據越積越多,他覺得很有必要通過開發一款在線資料庫,來把這些數據共享出去,讓有需要的人可以復用。「於是在和導師張奇偉教授商討課題設計後,我跟騰訊 AI Lab 的姚建華老師和清華大學潘文韜師弟一起著手開發,並完成了數據準備工作。」原致遠說。



資料庫的初版 demo 由原致遠、潘文韜和趙軒(此次論文共同作者)完成,隨後部署在騰訊提供的雲伺服器中。


幾輪用戶反饋過後,資料庫也歷經了多次疊代。於是他們開始撰寫論文並投稿,在此過程中他們積極從同行研究者那裡得到不少建議,例如細胞類型標註、組織識別、基因比較等。課題組不僅按照這些修改建議逐一優化,甚至還新增了可視化模塊等額外功能。這些補充性開發經歷了數月左右。


接著,他們繼續修改論文。原致遠說:「論文撰寫是一個很痛苦的過程。好在在導師張奇偉教授和姚建華博士的幫助下,我們反覆修改,疊代出七八個論文版本,力求以最準確客觀、通俗易懂地方式讓大家理解我們的工作。」



在完成項目建設和論文修繕之後,他們打算投稿給 Nature Methods,沒想到期刊編輯在收到投稿郵件後一天之內就回郵件說論文即將進入同行評審環節。


「這讓我們感到非常驚訝,因為通常的投稿經驗得至少一周才能收到是否送審的回覆。審稿過程也非常順利,不到一個月就收到了所有審稿意見,基本都是建設性的意見,例如增加配套的 Python 分析工具。這讓我們覺得前期的紮實工作非常值得,得到了專業編輯和同行專家的認可。」原致遠說。


對於審稿人建議增加的 Python 分析功能,課題組非常認可其「妙處」——不僅適用於沒有開發基礎的生物學家,也滿足了有編程基礎的研發者的需求,擴大了適用人群,對於增加工作影響力大有裨益。後來才知道,這位審稿人是空間組學領域的一位奠基人,非常感謝這個建議讓 SODB 增色不少。


日前,相關論文以《SODB 促進空間組學數據的全面探索》(SODB facilitates comprehensive exploration of spatial omics data)為題發在 Nature Methods 上,原致遠是第一作者兼共同通訊,姚建華博士、張奇偉教授擔任共同通訊作者 [2]。



原致遠表示,研究中還有不少令人興奮的時刻。他說:「之前我們開發了一個空間組學可視化的算法 SIMS-View[1],但是只能產生靜態圖片。我將這個需求跟潘文韜師弟討論後,他很快地把這個功能整合到 SODB 里,讓用戶可以在組織空間圖譜上進行交互式探索,後來我們把它稱為 SOView。」


由於 SOView 能融合豐富的基因表達信息,並能展示在組織空間中,所以它能發現一些使用傳統形態學染色方法無法發現的空間域。


研究中,課題組在一個大腦數據中發現了一塊很小的區域,這塊區域無法被其他分析方法偵測到。而其背後存在的基因表達指紋,也被 SOView 所提供的交互式工具檢測了出來。


後續,他們將繼續優化 SODB 的工具性能。目前,SODB 已經可以有效處理和分析大規模的空間組學數據,但仍然存在一些性能上的瓶頸問題,因此其將進一步提高 SODB 的數據處理和分析能力。


同時,也將對數據質量加以控制。空間組學數據的質量會給分析結果帶來很大影響,所以他們計劃開發一套數據質量控制的工具,以用於識別和過濾低質量的數據,從而提高分析結果的準確性和可靠性。


此外,課題組也將開展應用推廣和示範,即在更多的空間組學數據集上測試和驗證 SODB,以證明它在實際應用中的有效性和適用性,進而開展應用示範,向目標用戶介紹 SODB 的功能和應用場景,以促進其在領域內的廣泛應用。


最後,該團隊針對空間組學數據還開發了通用分析框架 SOTIP(Spatial Omics mulTIPle-task analysis)[3],發現了三陰性乳腺癌亞型的空間指紋,可以預測病人預後。該團隊還將開展細胞類型的識別預測和功能預測。


鑑於空間組學數據中包含不同類型的細胞結構和組織結構,因此他們將進一步開發細胞類型識別和功能預測的算法,以揭示不同細胞類型的生物學功能和相互作用,從而更好地理解和闡釋特定數據里的生物學信息。


參考資料:

1.Yuan, Z., Zhou, Q., Cai, L. et al. SEAM is a spatial single nuclear metabolomics method for dissecting tissue microenvironment. Nat Methods 18, 1223–1232 (2021).

2.Yuan, Z., Pan, W., Zhao, X. et al. SODB facilitates comprehensive exploration of spatial omics data. Nat Methods 20, 387–399 (2023). https://doi.org/10.1038/s41592-023-01773-7

3.Yuan, Z., Li, Y., Shi, M. et al. SOTIP is a versatile method for microenvironment modeling with spatial omics data. Nat Commun 13, 7330 (2022).

關鍵字: