|
让科学数据不再沉寂 |
新可视化工具使在线发表更具交互性再现性 |
|
Project Twins制图
当Benjamin Delory开始关于记录一种量化植物形态新方法的论文时,他意识到其中的一批数据可能会带来问题。该论文提出一个“持久性的条形码”来描述植物根系的分支结构。其中的挑战是如何解释它。德国吕讷堡大学博士后Delory说,该条形码的基础算法是“连续和动态的”。而表示动态的最佳办法“是让它动起来”。
科学数据被认为是典型的静态图像。但这些静态图像却与基础数据相互分离,这会阻碍读者更详细地探索它们,例如放大一些感兴趣的特征。对于那些需要将数百万个数据点填入仅有几厘米大的密集视觉效果的基因组学家来说,这会特别棘手。
对于计算机运算领域的研究人员来说也是如此。科学家经常会把软件放到开源程序库如GitHub等网站,但让该代码正常运行却是“说起来容易做起来难”。评审人以及感兴趣的人经常需要另外的软件和配置才能让这些算法运行。
一些期刊和平台正在通过支撑交互性数据和代码在弥补这一鸿沟。其中之一是F1000Research(F1000Research是针对
研究者的开放研究发表平台),该平台去年曾与加拿大蒙特利尔计算机企业Plotly和美国纽约的一个机构代码海洋合作。正是因为这些功能以及F1000Research开放获取的思想,才让Delory及合作者把论文递交到那里。该成果已在1月发表。
交互出版
让读者可以深入到一篇文章中的基本数据的交互式图表是很多网站上频繁出现的特征,比如《纽约时报》和fivethirtyeight.com等网站,但这类图表在科学出版中却不常见。
F1000Research高级出版编辑Thomas Ingraham说,该期刊的“活数据”——2014年引入的可持续用新数据升级的交互性图表不仅制作起来耗时耗力,而且不可伸缩。而Plotly则可让用户创建和共享从散点图和线图到等高线图和地图等可视化内容。其得到的图像可让用户放大数据、平移图像和移动鼠标鼠查看所绘值。学生订阅费用从每年59美元起步。开源程序库可让研究人员创建从R、MATLAB、Python到Julia代码等免费Plotly图表。
代码海洋每月向学者免费开放10小时和50吉字节的存储空间;付费类则从每月19美元起步。它把代码、数据、结果和计算环境融合在一起,该计算环境可在一个含有复制作者计算配置的“计算胶囊”中执行任务。其他用户则可从代码海洋网站或是论文中的一个部件来下载、修改和运行该代码。
F1000Research现已经发表了6篇含有Plotly“活图表”的论文以及含有代码海洋小部件的5篇论文。今年,该期刊计划增加对交互式“蛋白质—蛋白质相互作用”地图的支持,这些地图是利用网络制图工具Cytoscape生成的。
研究人员不必为感受到的复杂性困扰。据布鲁金斯南达科他州立大学计算生物学家Xijin Ge说,他在自己的一篇论文中就包含了交互式Plotly图表,创建相关数据仅需要一个额外代码行数。西澳大利亚大学海洋研究所和地球科学系珊瑚学者Tom DeCarlo已经为多个期刊创建了6个代码海洋项目,其中包括《古海洋学期刊》《古气候学期刊》和《生物地球科学杂志》。“我认为它对于科学交流和再现性非常重要。”他说。
开源方法
对于那些寻求开源计算替代方案的人来说,一个叫作Binder的工具可将任何包含Jupyter记事本(交错文档、代码和数据的文档)或R代码的公共GitHub存储库转换为一个包裹,从而可以让用户从其浏览器一端运行。用户只需在mybinder.org网站上把记事本存储库的地址输入到搜索栏中,该程序就能创建一个可共享的交互式工作区。圣路易斯奥比斯波加州州立理工大学Binder项目团队的Carol Willing说:“它真的适用于再现性,并且易于使用。”
瑞士苏黎世Binder项目团队成员Tim Head说,类似工具还可以简化同行评审。Head有点沮丧,因为此前他受邀审阅一篇期刊文章时不能使用该软件。“如果他们当时给我发送了Binder的连接,那么我们现在已经完成了。”他说。
开源选择方案也可用于创建交互式图像,包括bokeh、htmlwidgets、pygal和ipywidgets等。这些大多数都是以编程方式使用的,通常在R或Python代码中使用,这在科学中应用地很普遍。例如,程序员可以使用ipywidgets将交互的三维绘图、地图和分子可视化到Jupyter记事本中。另一个用JavaScript编写的选择是Vega-Lite。由于该语言在科学上的使用度不那么广泛,加州州立理工大学的Brian Granger和西雅图华盛顿大学的Jake VanderPlas开发了一个叫作“Altair”的Python接口,使它变得更易访问。
这些工具中大多数都倾向于为特定的图表类型提供函数,Vega-Lite和Altair都类似于灵活的“语法”,它们可用于描述变量如何映射不同的视觉特性,如颜色或形状等。它们还让图表产生关联,如此一来当用户选择一个绘图区域时,其附近的显示就会相应地更新。华盛顿大学计算机学家Jeffrey Heer(其所在团队开发出Vega-Lite)说:“实际上,它可以让我们以多维方式探索相关性。”
另外两款产品则可以让研究人员创建可利用小部件的互动应用程序,如可用于混合数据、图表和代码的下拉菜单和滑块控件,包括马萨诸塞州波士顿的RStudio制作的用于R编程的Shiny以及Plotly的用于Python编程的Dash。它们通过把用户的小部件的动作传递给一台远程服务器起作用,远程服务器可运行基础代码并更新页面。
由此产生的应用程序可让那些不喜欢编程的研究人员获得相关数据和工具。例如,以色列特拉维夫大学研究生Tal Galili与同事合作,开发了一个基于Plotly的工具箱,并据此从上传的数据集中构建交互式热地图,Shiny的一个界面可在幕后运行该代码。北卡罗莱纳州杜克大学统计学家Mine Cetinkaya-Rundel为本科统计学课程建立了Shiny资源,以帮助其在课堂上解释一些有难度的概念。“这种感觉非常好,把它停下来然后说,‘好,现在我们已经介绍完了,当我们移动小部件时会发生什么呢?’”她说。
在期刊网页上发表这样的集成需要对编辑工具、编辑流程和基础设施做改变。它还涉及到把科学数据交付给不能永远保证其表现的第三方。
为了解决这一问题,开放获取出版商eLife产品开发负责人Giuliano Maciocci说,eLife的“可再现文档堆栈”项目旨在创建一个端到端工具包,用于编辑、提交和发表在计算上可再现的文档。他说,该计划旨在把一篇论文的多个核心科学“产品”——其文本、数据、代码、图表和计算环境等——压缩到一个可下载的对象中。为了鼓励使用,该期刊已将堆栈设置为开放资源。
大步向前
其他若干家杂志和出版商也在支持代码海洋的集成,包括GigaScience、IEEE、SPIE、剑桥大学出版社和Taylor&Francis等。《细胞生物学期刊》的JCB DataViewer基于开源性OMERO软件,可让读者探索原始的显微镜图像,而非通常看到的经过处理的压缩文件。一个相关的工具——图像数据资源,可为发表在任何期刊的论文提供类似功能。《自然》杂志也发表了交互性的数据,例如一篇描述“DNA元素百科全书”项目的论文。一位发言人称,该杂志正在研究若干其他交互代码和数字的选择方案。与此同时,研究人员经常从其文章链接到外部的可视化效果。
得克萨斯州休斯敦贝勒医学院的Erez Lieberman Aiden说,随着越来越多的期刊拥抱交互性,科学信息的在线呈现方式很可能会从根本上发生变化,它代表着可再现性的胜利。Aiden近日在《细胞》杂志的一项成果中发表了交互性的核染色质互动地图,他表示静态图标只是数据的一个方面。“有洞察力的读者需要具备能力得出自己的结论。”他说,“1974年阅读一篇论文的行为不应该与2017年阅读一篇论文的行为相同。”(晋楠编译)
更多阅读
《自然》相关报道(英文)