论文标题:Cross-Linguistic Data Formats, advancing data sharing and re-use in comparative linguistic
期刊:Scientific Data
作者:Robert Forkel, Johann-Mattis List, Simon J. Greenhill, Christoph Rzymski, Sebastian Bank, Michael Cysouw, Harald Hammarström, Martin Haspelmath, Gereon A. Kaiping, Russell D. Gray
发表时间:2018/10/16
数字识别码: 10.1038/sdata.2018.205
原文链接:http://t.cn/EGZVPb0
关于全世界不同语言的电子化数据正在不断增加。可惜的是,这些数据中的大多数都以不同的格式呈现,因此难以进行比较和重复使用。近日,《科学数据》发表的一项研究Cross-Linguistic Data Formats, advancing data sharing and re-use in comparative linguistics提出了“跨语言数据格式倡议”。
过去的二十年中,语言数据数量急剧增加。不仅是世界几大主要语言的单语数据,跨语言数据集的量也大幅增加,目的是为了覆盖尽可能多的语言。创建语言学数据集目前十分流行,除了词源词典、用户词典和语法调查等传统收集方式外,越来越多的数据以在线数据库的形式被发表(最完整的数据库列表:http://languagegoldmine.com/)或者以论文的在线附录或补充材料的形式被发表。
随着数据量的增加,人们对语言问题的兴趣也在不断增加。来自语言学和非语言学(如考古学、人类学、生物学、经济学和心理学)的学者现在都在尝试使用语言学数据以解决其各自学科的问题。例如,语言是如何传输的,颜色术语是如何演化的,某些特定的语言家族是如何分化的,气候、人口、基因等因素是如何影响语言的。
尽管大量学术论文的发表反映了建立并应用语言数据的热潮,媒体对这一主题的热情也日益高涨,但语言数据仍远未达到Wilkinson等人提出的“FAIR”标准。所谓“FAIR”标准即可找寻(Findable)、可访问(Accesssible)、可互操作(Interoperable)、可重复使用(Reusable)。由于语言学期刊通常没有补充材料方面的政策,也缺乏能够实现服务器数据托管的资源,因此目前想要找到某一特定语言学数据集仍非常困难。语言学数据的访问目前也存在困难,许多基于原始数据的论文发表时并未公布其原始数据,向作者索要数据也比预想的困难得多。由于格式特殊,语言数据集通常缺乏互操作性,因而也难以重复使用。
在本文中,来自德国马克斯-普朗克人类历史科学研究所的Robert Forkel、Johann-Mattis List及其团队提出了语言的历史和类型比较中两个基本数据类型(单词列表和结构数据)的新标准,并且提出了一个可纳入更多数据类型(如并行文本、词典)的框架。除了跨语言数据格式的新规范,研究还提供了用于验证和操作的软件包,以及可关联到通用框架的基本本体论和几个优秀的实用范例。
摘要:The amount of available digital data for the languages of the world is constantly increasing. Unfortunately, most of the digital data are provided in a large variety of formats and therefore not amenable for comparison and re-use. The Cross-Linguistic Data Formats initiative proposes new standards for two basic types of data in historical and typological language comparison (word lists, structural datasets) and a framework to incorporate more data types (e.g. parallel texts, and dictionaries). The new specification for cross-linguistic data formats comes along with a software package for validation and manipulation, a basic ontology which links to more general frameworks, and usage examples of best practices.
阅读论文全文请访问:http://t.cn/EGZVPb0
期刊介绍:Scientific Data(https://www.nature.com/sdata/) is a peer-reviewed, open-access journal for descriptions of scientifically valuable datasets, and research that advances the sharing and reuse of scientific data. Scientific Data welcomes submissions from a broad range of research disciplines, including descriptions of big or small datasets, from major consortiums to single research groups. Scientific Data primarily publishes Data Descriptors, a new type of publication that focuses on helping others reuse data, and crediting those who share.
The 2017 journal metrics for Scientific Data are as follows:
•2-year impact factor: 5.305
•5-year impact factor: 5.862
•Immediacy index: 0.843
•Eigenfactor® score: 0.00855
•Article Influence Score: 2.597
•2-year Median: 2
(来源:科学网)
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。