作者:Jinghui Zhang 来源:Quantitative Biology 发布时间:2022/1/14 13:10:00
选择字号:
QB | 纪念HGP20周年系列文章6:Jinghui Zhang教授回忆自己参加组装和分析首个人类基因组序列的故事

论文标题:Mapping genetic variations in the first assembled human genome(纪念HGP20周年系列文章6:Jinghui Zhang教授回忆自己参加组装和分析首个人类基因组序列的故事)

期刊:Quantitative Biology

作者:Jinghui Zhang

发表时间:01 Dec 2021

DOI:10.15302/J-QB-021-0277

微信链接:点击此处阅读微信文章

2001年2月16日,Science期刊上发表了“The Sequence of the Human Genome”的论文,这标志着首张人类基因组草图绘制已完成。这篇文章共有275位作者。为了方便读者阅读,全部工作内容共分为八个独立章节来展现科研人员对这张草图绘制和分析的全过程。八个章节分别是1. Sources of DNA and Sequencing Methods; 2.Genome Assembly Strategy and Characterization; 3. Gene Prediction and Annotation; 4. Genome Structure; 5. Genome Evolution; 6. A Genome-Wide Examination of Sequence Variations; 7. An Overview of the Predicted Protein- Coding Genes in the Human Genome; 8.Conclusions。

二十年后,QB期刊有幸邀请到了完成第六章节“A Genome-Wide Examination of Sequence Variations”工作的Jinghui Zhang教授来分享她参与组装和分析首部“人类天书”的故事 (点击“这里”下载PDF全文)。

Jinghui Zhang 教授

Profile

Jinghui Zhang教授,1989年本科毕业于复旦大学,1994年获得美国康涅狄格大学博士学位。现任美国圣裘德儿童研究院医院计算生物学部主任。

Jinghui Zhang教授是一位计算生物学家,她主要专注于大规模、多维基因组数据的整合分析,以期来了解疾病的发生和发展。在早期工作中,她不仅参与了BLAST算法的开发,还领导了首个人类基因组序列的遗传变异分析。她研究的另一个领域是开发用于整合基因组数据的可视化工具,其团队开发的用于遗传变异分析和体细胞突变的计算工具在NCI发起的两项重大癌症基因组研究项目TCGA和TARGET中发挥了重要作用。目前,Jinghui Zhang教授的团队主要集中在儿科癌症遗传起源的研究上面,开发的CREST、CONSERTING 和 CICERO算法可高精度发现癌症基因组中的结构变异和拷贝数的改变。

文章概要

2000年6月26日,比尔克林顿总统在白宫举办庆典,宣布人类基因组计划完成。20年后的今天,Jinghui Zhang教授作为一名曾积极参与NCI及Celera Genomics公司首个人类基因组测序项目的科学家,仍能感受到为完成这一具有里程碑意义的科学项目所带来的兴奋。

从湿实验到基因组和遗传变异

Jinghui Zhang教授从小学就对生物感兴趣,希望能像Edward Jenner(天花疫苗发明者)和Alexander Fleming(青霉素的发现者)一样在实验室里找到疾病的治疗方法。然而在中国复旦大学和美国康涅狄格大学读书期间,她意识到因为自己不具备进行复杂湿实验所需的“金手指”,梦想正在离她远去。虽然在动手方面的工作结果令人失望,但Jinghui Zhang教授在计算机科学课程上表现优异,尤其是在编程和数据分析项目上都名列前茅。于是她在1992年申请成为了美国国家生物技术信息中心(NCBI)软件工程处主任Jim Ostell教授的博士生。作为NCBI第一个研究生,她的工作是在基因组尺度上分析序列数据。

大肠杆菌作为生物学家首选的实验模型,也是Jinghui Zhang教授研究的第一个生物体。在1992年,唯一完整的基因组是只有数十或数百千碱基的细菌噬菌体,而具有4.6MB的大肠杆菌基因组被认为是为了实现对一个完整生物体进行测序而必须要翻过的第一座大山。Jinghui Zhang教授收集了世界各地独立研究实验室生成的大肠杆菌基因序列,并通过计算方法预测出这些序列的限制性酶酶切位点,然后与Yuji Kohara产生的基于限制酶的物理图进行比对,构建出了大肠杆菌的基因组序列。这项工作,加上用于动态探索不完整大肠杆菌基因组的基因组浏览器,帮助她于1994年获得了博士学位。

由于DNA是所有生物的遗传密码,Jinghui Zhang教授留在NCBI做博士后期间开始研究更高级生物-人类的DNA。而此时人类基因组计划(HGP)的主要测序中心已经开始向NCBI直接存储数据。Jinghui Zhang教授因此成了冷泉港实验室(Cold Spring Harbor Laboratory)年度人类基因组测序会议(Human Genome Sequencing Meeting)的常客(见图1),白天研究序列分析,晚上则在斯坦福大学David Cox的带领下跳舞。

图1. 1995年,Jinghui Zhang与华盛顿大学博士后Stephanie Chissoe在冷泉港基因组序列会议上和合影。Francis Collins博士(中)从她们面前走过。

基因组注释是有效利用HGP序列的先决条件,研究人员被分为基于证据和基于模型的两派。Jinghui Zhang当时的领导David Lipman教授是基于证据方法的坚定信徒。部分的cDNA序列,以EST (expressed sequence tag)形式,为基于证据的基因注释提供了丰富的资源。Jinghui Zhang与宾夕法尼亚州立大学Webb Miller教授实验室的博士后K. M. Chao合作,开发了几种将cDNA与 基因组序列对齐的算法。这些算法随后与她新编写的BLAST API结合写入PowerBLAST软件中,帮助科学家用最新版本的EST对原始人类序列进行快速注释。而随着PowerBLAST工具的流行,她也结识了Richard Gibbs (贝勒医学院人类基因组测序中心主任)和Jeff Trent(国家人类基因组研究所主任),从他们那里,Jinghui Zhang教授学会了如何使用遗传变异来发现参与孟德尔疾病和复杂疾病如糖尿病的基因。

Jinghui Zhang教授童年的梦想被重新点燃,她发现用电脑而不是培养皿也可以寻找疾病的治疗方法。更令人兴奋的是,她已经能够从PowerBlast的输出中识别出基因变异,包括EST数据与HGP序列比对中出现的不匹配或缺失。在听了Allen Roses博士关于用基因变异制造病人特异性药物的演讲后,Jinghui Zhang教授于1998年加入了他在葛兰素史克新成立的遗传学部。

在葛兰素史克,Jinghui Zhang教授专注于药物基因组学,通过分析8名志愿者的测序数据发现了DNA变异,并开发了基因分型分析方法,用于描述患者和对照组的疾病相关性的统计评估。之后,由J. Craig Venter博士领导的生物技术公司 Celera Genomics 又邀请她绘制出了人类第一张单核苷酸多态性(SNPs)全基因组图谱。

人类基因组测序:鸟枪法vs 克隆法

确定哪些测序方法最适合于组装人类基因组是私人公司与政府项目辩论和比赛的核心。政府的人类基因组计划采用克隆方法包括两个步骤:生成和绘制含有100-200kb人类基因组DNA片段的克隆,然后对选定的克隆进行单独的测序。相比之下,Celera公司使用的全基因组鸟枪法可以生成不同大小的插入文库(2kb、10kb 和50kb) ,并通过计算机进行组装。全基因组鸟枪测序法(WGSS)的概念是Jim Weber和Eugene Myers在1997年首次提出的,他们通过计算机模拟证明了其可行性。然而,包括人类基因组计划在内的学术研究团体并不认同这种方法,因为他们对生成的参考基因组质量以及进行组装所需的计算资源而感到担心。Jim Weber在1997年访问了 NCBI,Jinghui Zhang教授清楚地记得很少有人被他的大胆设想说服。但Celera宣布使用WGSS来处理整个人类基因组,并安排Eugene成为了负责开发组装基因组的副总裁。

开发全基因组SNP图谱

政府的人类基因组计划的DNA文库来自纽约州布法罗。相比之下,Celera公司的人类基因组测序的DNA是多种族的,包括一个非裔美国人、一个亚裔华人、一个西班牙裔墨西哥人和两个白种人,这也成为了发现新的遗传多态性的肥沃土壤。2000年,公开的高质量SNPs主要是由学术中心、包括葛兰素史克在内的制药公司和一个私人基金会组成的国际合作组织SNP Consortium (TSC)提供的。他们的目标是发现并发布至少30万个人类SNPs。在 Celera公司的shotgun测序完成的时候,TSC已经确定了148,459个SNP。

虽然Celera的注释和组装工作由大型团队负责,但参与SNP的发现工作的只有2个人:Jinghui Zhang教授和兼职顾问Andy Clark(著名的人口遗传学家)。Jinghui Zhang教授意识到并非所有的序列变异都是遗传多态性,绝大多数的序列变异是测序和装配错误。而且这些测序错误并不是随机分布的。根据这一点,她认为可以设计出一种计算过滤方法,以识别和消除测序错误。

Jinghui Zhang教授最终实现了她的算法并在最终得到了近300万个突变。之后Jinghui Zhang教授在捐献者A的序列上分析得到了关于心脏病和阿兹海默症风险的相关等位基因,并准备将结果投稿到Science杂志上。但这时,公司打算为这些突变申请专利,并将它们合并成一个商业产品。Jinghui Zhang教授不得不通过比较在Celera公司发现的序列和公共HGP序列来寻找新的实验结果。2001年2月16日Science发表了关于人类基因组草图的第一篇文章 “The Sequence of the Human Genome”,其中Jinghui Zhang教授利用自己开发的算法将发现的210万个SNP以“A genome - Wide Examination of Sequence Variations”为标题作为独立的章节写进了这一人类里程碑式的研究项目中。这些发现的SNP数据都存储在dbSNP中,比当时所有公开的SNP多了一倍多。

结尾

2000年,人类基因组计划的Francis Collins博士和Celera公司的J. Craig Venter博士最终握手。这场比赛使人类基因组计划草案提前3年完成。Jinghui Zhang教授考虑到从非疾病捐赠者那里建立SNP图谱的任务已经完成,她加入了国家癌症研究所(NCI),并继续寻找遗传变异和疾病治疗的旅程。在 NCI,Jinghui Zhang教授了解到了癌症的后天体细胞突变,以及如何开发格列卫等药物来特异性杀死包含这些突变的肿瘤细胞。2009年,Jinghui Zhang教授找到了自己的目标,一种影响JAK2激酶的激活突变,只存在于高危儿童白血病中,并可被JAK抑制剂靶向。这种抑制剂最初用于非癌症血液疾病,如真性红细胞增生症。源自对自己的研究如何在临床护理工作中应用的兴趣,Jinghui Zhang教授于2010年加入圣裘德儿童研究院,深入研究儿科癌症。Jinghui Zhang教授目前已经开发了计算工具,以分析医院每个小儿患者的全基因组测序数据,作为其标准临床护理的一部分。所以最终,Jinghui Zhang教授通过电脑而不是培养皿来实现了童年梦想。

QB期刊纪念HGP20周年系列文章

温馨提示:点击题目进入文章

1. 美国两院院士Michael S. Waterman教授分享HGP早期历史

2. 国际权威生信专家Michael Q. Zhang教授分享自己研究历程和学科发展思考

3. 陈润生院士回顾我国早期生物信息学的发展

4. 杨焕明院士讲述HGP发展的三个阶段、三大影响及中国对HGP的三个贡献

5. Andrew F. Neuwald教授对从基因组数据中获取生物学信息的思考

Quantitative Biology期刊介绍

Quantitative Biology (QB)期刊是由清华大学、北京大学、高教出版社联合创办的全英文学术期刊。QB主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为 与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。

《前沿》系列英文学术期刊

由教育部主管、高等教育出版社主办的《前沿》(Frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础科学、 、工程技术和人文社会科学四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中13种被SCI收录,其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。

中国学术前沿期刊网

http://journal.hep.com.cn

 
 
 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
首张另一星系中的恒星照片出炉 《自然》(20241121出版)一周论文导读
清华这位院士搭建了一座室外地质博物园 科学家完整构建火星空间太阳高能粒子能谱
>>更多
 
一周新闻排行
 
编辑部推荐博文
 
Baidu
map