|
|
西安交大等进一步揭示癌症复杂性 |
首创多项面向全基因组大数据的高精度计算技术 |
癌症驱动突变全景图(是对研究的超过90%的癌症病人的汇总)
疑似癌化早期标志的多种基因组复杂变异情况
2月6日出版的《自然》集中发表了国际癌症基因组联盟(ICGC)泛癌全基因组分析协作组(PCAWG)完成的6篇论文,分别聚焦泛癌全基因组数据画像、肿瘤体细胞突变的路径图谱、非编码区的驱动突变特征、基因组结构突变的特征模式、复现肿瘤的演化历程和多组学荟萃的RNA变化规律六个方面。同日,PCAWG还在《自然—生物技术》《生物通讯》在线发表相关研究成果。另外,本期《自然》杂志在选取癌症分类作为当期封面的同时,还配发了新闻综述和科技评论,称赞上述研究在广度和深度上都实现了重大突破,首创了多项面向全基因组大数据的高精度计算技术,以前所未有的规模进一步揭示了癌症的复杂性,在癌症组学的多个领域都取得了一批重要发现和具有指南意义的结论,是迄今最全面的癌症多组学研究成果。
据西安交大相关论文作者介绍,综述和评论总结指出,6篇论文和PCAWG的其他重要成果将成为进一步探寻癌症的分子遗传学机制的钥匙,科学界从此获得了致癌分子遗传学机制的崭新视角和未来研究更加清晰的方向。
恶性肿瘤之所以复杂,主因之一是癌种、人种、族群等的多组学共性特征与千差万别的个体差异的耦合。系统、全面、透彻地探究恶性肿瘤的多组学共性特征,是全球科学界、医学界共同面临的世界性重大科学难题,需要国际携手合作实施大科学计划和大科学工程。
为此,目前多组学大数据驱动的肿瘤精准诊疗不仅是肿瘤学、计算机科学、管理决策科学等多学科交叉融合的研究热点和科技前沿,而且正在恶性肿瘤的临床诊疗实践、全周期卫生健康服务和管理中不断显现其重要价值。由美国、中国、加拿大、欧盟、日本等发起组建的国际癌症基因组联盟(ICGC)成为生物医学领域比肩乃至超越人类基因组计划的国际大科学计划和工程。2013年,ICGC设立泛癌全基因组分析协作组(PCAWG),由来自世界34个国家和地区的744家科研和医疗单位的研究人员组成。
PCAWG旨在规范化采集常见癌种的样本及其多组学大数据,通过研发和运用先进的生物信息计算技术,高精度、系统性地绘制常见癌症的多组学数据画像和风险图谱,以期获得能够指导临床实践的分子标识和决策基线。西安交通大学电信学部生物信息计算团队牵头,联合双聘院士、合肥工业大学杨善林教授团队和吉因加科技团队组成联合攻关组,全面参与了PCAWG的工作。
据了解,西安交通大学团队、华大基因杨焕明院士团队、空军军医大学樊代明院士团队,以及北京大学、上海交通大学、香港科技大学团队等近10家单位实质参与了PCAWG的工作。
经过近七年的努力,PCAWG系统地分析了38种常见癌症的2658例肿瘤—对照组织配对样本的较高深度全基因组测序数据,以及其中1222例样本的配对转录组测序数据。该研究首次全面报道了编码区和非编码区突变的综合分析结果,发现超过90%的癌症样本携带驱动突变,平均每个样本携带4-5个且在不同癌种之间呈现出较大的差异,同时仍有约5%的样本没有检测出任何驱动突变。研究标定了705个与肿瘤演化密切相关的高频突变,其中多数,特别是约100个位于编码区以外的高频突变是首次报告。研究在约22%的样本中观察到染色体碎裂等复杂变异模式,且呈现出与癌种关联的模式和频率。此结果提示,一方面传统的癌症驱动基因列表是不完整的,另一方面多种基因组复杂变异也可能是癌化的早期标志。
作者们又进一步通过深入分析4645个全基因组和19184个外显子组的84729690个体细胞突变,该研究绘制了比以往研究更全面的突变轨迹图谱,揭示了突变轨迹与多种外源和内源性因素的复杂关联。
该研究首次确认了10余个基因组结构变异的突变图谱,包括先前没有给予足够关注的多源、复杂串联重复、重排变异等。研究再次证实了包括常见和罕见的胚系变异,即遗传风险会影响体细胞突变的模式和轨迹。这些轨迹图谱能够为肿瘤筛查、组织溯源和精准诊疗提供指导。在此基础上,该研究运用信息技术重建了癌症突变的演化历程。在约40%的样本中,突变谱在整个演化历程中都出现了显著的变化:特别是驱动突变往往在诊断前的数年、甚至十数年就已经出现,且与其他因素共同决定着癌症的进化轨迹。这些结果为癌症体检和早诊提供了重要的科学依据,也强调了在癌症临床诊疗中使用更全面的如全外显子组测序等大数据的重要性和发展趋势。
此外,该研究系统地鉴定了649个体细胞突变与基因表达的关联关系,率先观察到近2000个与体细胞突变相关的剪接改变,75种称为“桥接”的新型融合基因。在信息技术层面,该研究首创了多种计算和统计模型、算法和流程,能够显著提高结果的敏感性和特异性。
据悉,上述研究成果与其他国际大科学计划相同,采用标志性论文唯一集体作者(又称机构作者)署名,分组成果论文集体作者和个人作者结合署名的形式。集体作者按分组编号和字母序排序,排名不分先后。上述8篇论文中西安交大生物信息计算攻关团队的署名作者包括王嘉寅教授、杨善林院士(双聘)、张选平教授、夏天教授(华中科技大学)、丁帅教授(合肥工业大学)、萧笑博士和黄毅博士。攻关团队参与了体细胞突变检测新技术组、驱动突变与功能解释组的工作,包括数据测试与质控、针对人群/种群数据的参数优化、高特异性检测等。
https://doi.org/10.10.1038/d41586-020-00308-w
https://doi.org/10.1038/d41586-020-00213-2