生物信息学为大数据 “插上翅膀”—新闻

作者：张思玮来源：科学网 www.sciencenet.cn 发布时间：2019/8/6 23:10:55

选择字号：小中大

生物信息学为大数据 “插上翅膀”

图为陈润生院士正在做报告。

“如今，生物信息学正扮演着越来越重要的角色，它也是信息时代带给生物医学的巨大推动力。”8月3日，在第十四届国际生物信息学论坛（IBW 2019）上，哈佛大学教授刘小乐表示，生物医药领域产生了海量的数据，如何通过生物信息学与计算科学弄懂这些数据，成为领域专家共同关注的话题之一。

此次论坛共邀请国内外20位顶尖学者围绕表观遗传学、基因组学、转录组学、蛋白质组学、系统生物学等前沿科学领域的最新研究进展、技术发展和临床应用进行了主题报告。

越来越多的科学研究表明，不同个体携带的DNA信息差异可能成为探索生命奥秘的关键密码。也正是基于基因组研究在人类医药学领域和农业生产领域的潜在应用价值，世界上众多科研机构和商业公司在组学技术上展开了激烈的角逐。

中国科学院生物物理研究所研究员、中国科学院院士陈润生首先介绍了非编码基因领域的一些最新研究进展。他表示，部分非编码基因可以翻译成小肽，这个过程并不是随机的，而是受调控的。研究发现，约46%的小肽像编码基因一样，以AUG作为起始密码子，而对于非AUG起始的小肽，目前正借助离体的翻译体系作进一步研究。此外，非编码RNA还存在“过度翻译”现象，比如circRNA可以环绕自身多圈，翻译成更长的肽段。

“非编码基因有潜力成为很好的肿瘤标志物或药物靶点，如lncTCF7和lncKdm2b等。”陈润生说，随着DNA计算机的发展，如何突破液相反应体系中结果提取的速度限制将成为关键问题。

目前，国内外已经有100余种序列比对软件被开发出来，哈佛大学医学院助理教授李恒表示，新一代短序列比对软件在达到≧150bp的基础上会进一步提升速度，这在大数据时代有着重要意义。与此同时，参考基因组也需要进一步完善，为基因组在科学研究和临床工作中的应用打下更为坚实的基础。

宾夕法尼亚大学病理系副教授王凯指出，基因组上重复序列的变异与一系列疾病相关，如亨廷顿舞蹈症等，但是传统的短读长基因测序技术难以实现准确的鉴定，而长读长测序平台能够更好地鉴定重复串联变异。重复序列鉴定工具RepeatHMM在算法层面做了一系列改进，避免传统方法鉴定重复次数的误差。目前，他的团队开发的LinkedSV，就可以精准鉴定包括倒位、缺失在内的各种结构变异。

可以说，不断积累的组学大数据正在帮助科学家们越来越多地揭示一系列复杂疾病发生发展的机制。“如果将基因组学、转录组学等数据和化学反应结合在一起考虑，还能够帮助我们提升对于肿瘤等疾病的认识。”美国佐治亚大学教授徐鹰说。

与此同时，组学大数据的积累与挖掘给相关产业带来全新机会点，但随之而来的问题即是如何高效地对数据进行分析和解读。那么，近年来新兴的生物云计算平台将如何更好地提供助力呢？

中软国际科技服务有限公司云服务工程师表示，生物信息行业全年业务存在波峰和波谷，当业务处于波谷时，本地服务器集群等系统可满足业务对IT资源的需求，但面对业务波峰时，本地资源受规模限制而无法及时满足需求，此时就可以利用公有云资源弹性扩展资源规模，以此缩短分析时长和提升解读效率。同时，华为云将容器技术应用于生物信息领域并发布了基因容器服务（GCS），为广大生物信息人员提供“更省、更快、更轻松”的云计算平台。

其中，GCS由三层架构组成：底层是Docker层，主要解决软件的安装和升级的问题；中间层是Kubernetes层，主要解决大规模集群中部署和运行Docker的问题；顶层是流程管理层，主要负责业务流程控制并提供精细粒度的监控运维管理能力。

采访中，记者了解到，华为最新推出业界最高性能的ARM-based处理器-鲲鹏920以及TaiShan服务器。其中，TaiShan服务器主要面向大数据、分布式存储以及ARM原生应用等场景，发挥出了ARM架构在多核、高能效等方面的优势，为企业用户构建高性能、低功耗的新计算平台奠定了基础。并且，该款服务器在实际应用过程中，相比传统的x86服务器有较明显的性价比提升。

据悉，本届大会由北京大学生物信息中心承办，北京大学数学科学学院/统计科学中心、北京大学分子医学研究所、北京大学医学部基础医学院、北京大学肿瘤医院生物信息中心、蛋白质与植物基因研究国家重点实验室、上海嘉因生物科技有限公司、中软国际科技服务有限公司协办。

编辑部推荐博文
问答之间｜idea被别人做过，要转变方向吗？饮酒与戒酒（二）瓶子酒科学家解开自私的B染色体之谜植物写真\|“森林明珠” 银杉上海交大郭益平课题组：用于结构健康监测和机器人感知的超高灵敏度各向 ... 给课堂以想象的空间更多>>