|
|
丁显廷/林关宁团队对CyTOF数据提出细胞分群方法的基准分析框架并给出方法选择决策树 | Genome Biology |
|
论文标题:A comparison framework and guideline of clustering methods for mass cytometry data
期刊:Genome Biology
作者:Xiao Liu, Weichen Song et al.
发表时间:2019/12/23
DOI:10.1186/s13059-019-1917-7
微信链接:点击此处阅读微信文章
CyTOF(单细胞质谱流式技术)是一项采用金属同位素标记抗体,避免了荧光重叠和自荧光消除等问题的先进技术,可在单细胞水平同时测量数百万细胞中多达55种蛋白的表达量,使生物学家能够在同一批实验中获得单细胞水平的高维蛋白分析。CyTOF日益成为免疫学、癌症研究、药物发现、疫苗、干细胞和临床转化研究的主要平台技术。
细胞分群是CyTOF数据分析的一个主要研究途径,迄今为止,可用于CyTOF数据细胞分群的聚类方法主要是基于欧美学者提出的Accense、PhenoGraph和Xshift等分析方法。虽然这些分析方法已在不同领域和临床研究中得到了广泛的应用,一些科学家也对这些方法做了比较说明,但在选用哪个方法能更好地分析个体化数据上,仍然没有一个具体的指导意见。
2019年12月23日,上海交通大学丁显廷教授和林关宁教授团队(刘晓博士、宋炜宸博士生是论文的第一作者)联合在Genome Biology上在线发表了题为“A Comparison Framework and Guideline of Clustering Methods for Mass Cytometry Data”的文章。该文章从准确性(precision)、一致性(coherence)和稳定性(stability)三个层面对CyTOF数据细胞分群方法开展了深度的基准分析工作。该工作根据每个方法的特性和应用场景,以及数据的特征,首次给出了具体的方法选择决策树,为单细胞质谱流式分析领域的研究者在数据分析上提供了方法指导。
在这篇文章中,研究人员在6个单细胞组学数据集上(涉及骨髓细胞、肌肉组织、结肠组织),对目前经典的无监督(Accense, Xshift, PhenoGraph, FlowSOM, flowMeans, DEPECHE, and kmeans)和半监督细胞分群方法(ACDC,LDA)进行了基准分析和深度比较。
在准确性(precision)上,研究人员将“manual gating”的细胞分群结果看作“ground truth”,利用四种外部评价指标(Accuracy,F-measure, NMI和ARI),对不同方法的分群准确性和效率进行了讨论。讨论发现,LDA是准确性比较高的半监督分群方法,无监督方法中FlowSOM和flowMeans的准确性较高,其次是PhenoGraph和DEPECHE方法。
在一致性(coherence)上,不再考虑“manual gating”的细胞分群结果,而是直接利用三种内部评价指标(DB,CH和XB),对每个方法揭示细胞数据内部本质结构的能力进行了探讨。经过探讨发现,DEPECHE,FlowSOM和PhenoGraph方法能更好地捕捉到CyTOF数据的内部本质结构。
在稳定性(stability)上,根据细胞采样数量的变化,研究人员对不同方法在分群准确性上的鲁棒性和不同方法识别出的细胞亚群数量的鲁棒性进行了深入研究。综合来说,PhenoGraph,DEPECHE和LDA具有相对较高的稳定性,而FlowSOM在分析较大的CyTOF数据时更加鲁棒。此外,这篇文章还研究了分群方法的分群分辨率,发现PhenoGraph和Xshifit能够对特定的细胞亚型细化分类(识别出更细粒度的亚群),而DEPECHE更倾向于忽略细胞亚型之间的差异,将不同的T细胞或B细胞合并到一个细胞亚群(识别粗粒度的亚群)。
综合上述分析结果,这篇文章为单细胞质谱流式分析领域的研究者,特别是那些没有计算基础的初学者,提供了细胞分群方法的选择决策树。
据悉,上海交通大学生物医学工程学院个性化医学研究院是中国最早建立起单细胞质谱流式技术的单位之一,并已初步实现技术向临床应用的转化,先后利用单细胞痕量蛋白分析技术完成了寄生虫耐药、银屑病、结肠癌、肺结核方面的相关临床应用研究。
摘要:
Background
With the expanding applications of mass cytometry in medical research, a wide variety of clustering methods, both semi-supervised and unsupervised, have been developed for data analysis. Selecting the optimal clustering method can accelerate the identification of meaningful cell populations.
Result
To address this issue, we compared three classes of performance measures, “precision” as external evaluation, “coherence” as internal evaluation, and stability, of nine methods based on six independent benchmark datasets. Seven unsupervised methods (Accense, Xshift, PhenoGraph, FlowSOM, flowMeans, DEPECHE, and kmeans) and two semi-supervised methods (Automated Cell-type Discovery and Classification and linear discriminant analysis (LDA)) are tested on six mass cytometry datasets. We compute and compare all defined performance measures against random subsampling, varying sample sizes, and the number of clusters for each method. LDA reproduces the manual labels most precisely but does not rank top in internal evaluation. PhenoGraph and FlowSOM perform better than other unsupervised tools in precision, coherence, and stability. PhenoGraph and Xshift are more robust when detecting refined sub-clusters, whereas DEPECHE and FlowSOM tend to group similar clusters into meta-clusters. The performances of PhenoGraph, Xshift, and flowMeans are impacted by increased sample size, but FlowSOM is relatively stable as sample size increases.
Conclusion
All the evaluations including precision, coherence, stability, and clustering resolution should be taken into synthetic consideration when choosing an appropriate tool for cytometry data analysis. Thus, we provide decision guidelines based on these characteristics for the general reader to more easily choose the most suitable clustering tools.
(来源:科学网)
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。