|
|
绘制基因组的“谷歌地图” |
新工具帮科学家实现染色体复杂构象可视化 |
对于基因组生物学而言,可视化是关键因素。图片来源: Project Twins
染色体的功能远不止保持DNA整齐有序。这种基因组DNA和蛋白质组成的复合物有许多不同的结构和构象。这些结构和构象可能会影响周围基因的表达。在某些构象中,线性DNA中相距较远的两个序列可能实际上非常靠近,并影响彼此的活性;而在其他形式中,这两个序列又可能相距甚远。
美国麻省理工学院研究生Erez Aiden与同事共同开发了一种能在基因组水平上揭示染色体折叠方式的新工具。这种名为Hi-C的技术不仅能详细描述影响基因表达的DNA环和结构域,甚至还能将复杂的基因组拼接在一起。
灵感激发
虽然它只是以2D矩阵呈现的数据,记录了染色质的交互信息,但在2009年,Aiden还没能找到一种简单方法探索这些空间构象。所以,他自己开发了一种技术。
Aiden回忆道:“当时我只能打印出多个分辨率的Hi-C矩阵,而且需要用上百张纸。我还要找来最大的会议桌,把打印的所有矩阵都摆放上去,以查看大规模的空间构象。”
即便如此,Aiden也认为Hi-C是一个很好的界面。不过,他也承认需要一种更环保、可持续和共享的方法观察染色体构象。
最后,Aiden开发了Juicebox—— 一个基于Java的桌面应用程序。它可以提供Google Maps样式的染色质交互数据集,允许研究人员从基因组水平放大或缩小观察其结构特征。
2014年发布的Juicebox大约被下载了1.4万次,今年研究人员又推出了一个基于浏览器的版本。Juicebox只是一系列探索2D基因组交互数据的免费程序中的一个:一些程序专注于相对狭窄的染色体位点,而另一些则可以探索基因组。但这些程序的出现反映了染色质相互作用数据集的日益增长。事实上,4D核组项目等大项目更是大规模地促进了染色体交互数据集的爆炸式增长。
马萨诸塞州波士顿哈佛医学院生物信息学家Peter Park指出,“因为数据变得如此复杂,所以可视化尤为重要。”
目前,加州大学圣克鲁兹分校开发的Genome Browsers是最受欢迎的探索基因组数据的门户之一。像大多数基因组浏览器一样,它将序列数据呈现为一维“轨迹”,显示为表观遗传特征(如组蛋白修饰和甲基化位点)的线性字符阵列。
Aiden等人都从Google地图中获得了灵感。加州大学圣迭戈分校的James Robinso表示,有了Google地图,用户就可以从全球视图无缝切换到街道级视图。这样一来,整个数据集非常巨大,但Google并没有一次性提供所有数据。相反,软件“将世界划分成不同分辨率的瓦片”。在任何时间内,用户只能查看少量的瓦片。而这些瓦片被组织起来,使相邻的瓦片更易被获取。
类似的,Juicebox的hic文件能以多种分辨率存储每个可能的染色体对的图块集。软件的查询表可以直接检索数据,从而加快访问速度。因此,Juicebox用户可以无缝探索整个基因组的交互作用,然后放大以查看精细的功能。
基因组同步
今年3月,哈佛医学院生物医学信息学家Nils Gehlenborg开发了基于网络的2D基因组交互可视化工具——HiGlass,它也提供了类似Google地图的体验。
与Juicebox一样,在HiGlass中,研究人员可以导入基因组轨迹以便了解所看到的内容。此外,HiGlass还允许用户在一个浏览器窗口中打开多个HiGlass视图,并将它们同步起来,使其始终显示相同的区域。
Gehlenborg表示,这样研究人员就可以比较不同条件或实验中的染色体构象了。“我们在为研究者和分析师提供新猜想的灵感。”他说。
该团队已经建立了一个HiGlass服务器,以挖掘公开的数据。由于需要分析自定义数据集的研究人员必须在本地安装该软件,Gehlenborg团队为此提供了一个Docker容器。
实际上,Juicebox的Web版本和HiGlass都允许用户创建可分享的URL——指向数据的特定视图。Aiden把这个功能称为软件的“杀手级应用”。他认为,如果用户注意到基因组结构与特定的1D轨道完全重叠,“那么点击那个URL,复制它,就可以推送它了,而所有接收到该分享的人都可以点击它,随后便会得到相同的参数设置”。
另外两个可视化软件——3D基因组浏览器和WashU EpiGenome浏览器均能提供更多的本地化视图。用户可以选择感兴趣的区域,浏览器会显示该区域的基因组交互信息。
此外,Juicebox和HiGlass将热图映射成矩形的镜像,而这些浏览器则将热图显示为三角形。加州大学圣迭戈分校基因组生物学家Bing Ren说:“我们去掉了一半的冗余信息。”
也许,这种变化可能听起来不大,但宾夕法尼亚州立大学的Feng Yue认为,这种变化能让研究人员更容易识别功能区域。例如,3D基因组浏览器允许用户将来自两个物种的热图相叠,以评估折叠体系结构的情况。 “虚拟4C”模式允许用户查询与特定基因组位点相互作用的序列的Hi-C数据集,从而方便研究者观察基因调控区域之间的相互作用。
另一个流行的基因组交互可视化软件是由加州大学圣迭戈分校的Sheng Zhong等人开发的GIVE。GIVE允许研究人员使用几行HTML代码,将完整功能的基因组浏览器(包括2D交互数据查看器)纳入其个人或实验室网页。Zhong指出,研究人员可以与同事分享数据,发表文章时也可以附上链接,整个操作时间大约为20分钟。
意大利米兰FIRC分子肿瘤学研究所计算生物学家Francesco Ferrari则使用R编程语言和Bioconductor软件库显示其Hi-C数据。虽然这难与其他软件交互,但是由于该团队一直使用R和Bioconductor进行数据分析,“所以这样更方便”。
实现3D
最终,2D互动矩阵可以提示3D结构。毕竟,如果两个区域相互作用,它们可能距离非常接近。越来越多的研究人员正在使用他们的2D数据直接计算和可视化3D结构。
英国剑桥巴布拉汉研究所博士后Csilla Várnai,参与了今年早些时候单细胞Hi-C研究的3D模型构建工作。她使用一个名为Gromacs的通用分子建模包将染色体模拟成一条串珠——每个珠代表约10万个碱基,然后将串珠进行折叠,而Hi-C的交互数据则是折叠时的“约束条件”。
某些软件则专门被设计用于染色体结构的建模。挪威奥斯陆大学生物信息学家Jonas Paulsen开发的Chrom3D软件将Hi-C数据与核包膜距离的信息相结合,以模拟染色体在细胞核中的位置。Paulsen提到,“这对基因调控非常重要”。核外围附近的基因倾向于被抑制,而位于中心的基因通常是有活性的。
西班牙巴塞罗那基因组调控中心基因组分析中心的MarcMartí-Renom和Mike Goodstadt开发了另一个3D工具——TADkit。TADkit允许用户在相应的2D热图和1D轨迹旁边查看3D染色体模型。只要选中一个视图中的一个特征,那么软件就会自动点亮其他试图中的同一特征。
不过,由于大多数Hi-C数据集包含数百万个细胞,到底3D视图比2D视图能多提供哪些信息还有待观察。
对此,麻省理工学院生物信息学家Leonid Mirny打了个比方,你拍了一堆人的照片,然后将它们平均化,最后得到的照片会跟谁都不像。3D视图可能也会存在这种问题。Zhong指出,目前还不清楚哪个工具(如果有的话)将成为基因组可视化的黄金标准,现在这方面的争论已经很激烈了。
Ren则表示,对于基因组生物学而言,可视化是关键因素。他解释称,分析工具是在统计数据的基础上设计而成的。有时候它们会错过一些东西,有时它们会推断出一些压根不存在的功能。“因此,科学家还是要谨慎,自己检查分析数据非常重要。”(唐一尘编译)
《中国科学报》 (2017-09-14 第3版 国际)