微信链接:
https://mp.weixin.qq.com/s?__biz=MzI1MzEzNjgxMQ==&mid=2650048821&idx=3&sn=
86a569b4a734e124e2c1eeb64445d51a&chksm=f1d933f1c6aebae7472df1f4919fd4f730
2bfd469d362c0ce9f927a3f136b8abd46a0cf63ce0&token=711657153&lang=zh_CN#rd
期刊链接:
https://www.mdpi.com/journal/data
本期荐读内容精选Data期刊在2019年发表的6篇高关注度的文章,主要涉及机器学习在商业智能中的应用,生物医学数据及地理信息系统数据管理,欢迎大家阅读。
Machine-Learning Models for Sales Time Series Forecasting
用于时间序列销售预测的机器学习模型
Bohdan M. Pavlyshenko
DOI:10.3390/data4010015
本文阐述了机器学习模型在销售预测分析中的主要方法和案例研究。销售预测是一个回归问题,而不是一个时间序列问题。与时间序列方法相比,使用回归方法进行销售预测通常能带来更好的结果。回归方法的主要假设之一是,历史数据中的模式将在未来重复。验证集的精度是选择机器学习算法最佳迭代次数的重要指标。在新产品推出,特定销售时间序列的历史数据较少时,机器学习泛化可用于进行销售预测。在叠加方法中,验证集上多个模型预测的结果被视为下一级模型的输入回归。作为下一级模型,可以使用套索回归。使用叠加可以考虑具有不同参数集的多个模型的结果差异,并提高验证和样本外数据集的准确性。
Reinforcement Learning in Financial Markets
强化学习在金融市场中的应用
Terry Lingze Meng et al.
DOI:10.3390/data4030110
自2016年AlphaGo击败韩国围棋九段棋手Lee Sedol以来,强化学习已经成为金融交易员特别关注点。本文系统回顾了近年来所有使用强化学习作为主要机器学习方法的股票/外汇预测或交易文章。所有被审查的文章都有一些不切实际的假设,例如没有交易成本,没有流动性问题,也没有买卖价差问题。与测试的基线算法相比,交易成本对强化学习算法的盈利能力有显著影响。尽管在许多研究中,与基线模型相比,强化学习在统计上显示出显著的盈利能力。然而,特别是在系统培训和测试数据之间的价格模式发生较大变化的情况下,一些研究并没有显示出有意义的盈利水平。此外,在强化学习和其他复杂的机器/深度学习模型之间很少进行性能比较。本文还评估了交易成本 (包括买卖价差) 对盈利能力的影响。综上,股票/外汇交易中的强化学习仍处于早期发展阶段,需要进一步研究使其成为该领域的可靠方法。
A High-Resolution Map of Singapore’s Terrestrial Ecosystems
新加坡陆地生态系统高分辨率地图
Leon Yan-Feng Gaw et al.
DOI:10.3390/data4030116
城市内的自然和半自然区域为生物多样性提供了重要的庇护所,通常小而高度分散,因此,绘制城市生态系统地图是一项挑战,需要利用高分辨率卫星图像作为辅助。本文描述了热带城市国家新加坡的高分辨率土地覆盖地图,使用WorldView和QuickBird卫星图像,利用随机森林机器学习和补充数据集,将这些图像分类为12个陆地类别。新加坡近50%的土地被植被覆盖,而淡水约占6%,其余为裸露或建筑,地图的总体准确率为79%。像新加坡这样的热带地区一年四季都有大量云层覆盖,这使得利用卫星图像绘制地图的过程变得复杂。本文所提供的土地覆盖图可用于城市生物多样性研究、生态系统服务量化和自然资本评估。
Towards Sentinel-1 SAR Analysis-Ready Data: A Best Practices Assessment on Preparing Backscatter Data for the Cube
迈向Sentinel-1 SAR分析就绪数据:为立方体准备后向散射数据的最佳实践评估
John Truckenbrodt et al.
DOI:10.3390/data4030093
本研究的总体目标是评估Sentinel-1数据在几何和软件方面的互操作性。调查了不同公开可用数字高程模型 (DEM) 的分析准备情况,以及SNAP和GAMMA等软件解决方案在总体可用性和后向散射数据质量方面的处理能力。为了实现这一点,该研究以Python库的pyroSAR为基础,提供了工作流实现测试平台,并提供了一个Jupyter notebook,用于透明性和未来执行分析的再现性。试验点分别设在阿尔卑斯山和斐济,以便能够评估区域差异,并分别支持建立瑞士和共同传感开放的数据立方体。
On-Demand Processing of Data Cubes from Satellite Image Collections with the gdalcubes Library
利用gdalcubes库按需处理卫星图像采集的数据立方体
Marius Appel et al.
DOI:10.3390/data4030092
目前,大多数数据立方体的处理工具 (包括Rasdaman、SciDB、xarray和stars) 多是在假设数据已经以立方体的形式呈现。然而,卫星地球观测数据集多是一组图像,往往缺少用于从图像集合中构建数据立方体的通用的、跨语言工具。本文提出“按需数据立方体”作为数据用户如何处理地球观测图像的接口,支持动态构建数据立方体的交互式分析以及立方体属性,包括时空分辨率、时空范围、重采样或聚合策略,目标空间参考系可以由用户定义,并提出了GDALCUBES C++库和相应的R包作为按需数据立方体构造的通用实现。
Electroencephalograms during Mental Arithmetic Task Performance
心算任务执行过程中的脑电图
Igor Zyma et al.
DOI:10.3390/data4010014
近年来,人类认知活动研究引起了不同领域研究者极大关注。主要关注点之一是研究与认知过程相结合的情绪状态下的大脑活动动力学。本文的研究目的是利用执行认知负荷任务的受试者的脑电图 (EEG) 数据收集大脑的电活动。在研究过程中,受试者在进行心理计算 (连续减法) 的同时参与了激烈的认知活动。为进行比较,同时记录了每个受试者的背景脑电图。收集该数据集的主要目的是对认知活动期间的EEG进行去趋势波动分析,并将结果与传统方法 (如傅立叶功率谱密度映射和相干性) 提供的数据进行比较。它还可用于研究不同脑区参与认知过程的时间尺度特征和脑动力学的非线性特征。作为这项工作的数据成果,36名受试者的脑电图记录已被登记并清除伪影,并提供给认知神经科学研究界。
Data期刊介绍
主编:Prof. Dr. Jamal Jokar Arsanjani
Aalborg University of Copenhagen, Denmark
Data 主要发表数据科学领域相关论文,旨在提高数据透明度和可重用性。期刊发表范围涵盖多学科数据集和描述,数据处理方法及数据应用等。自2016年创刊以来,Data已被ESCI-Web of Science和Scopus (2020 Citescore 3.5, Q2)等权威数据库收录。
2020 CiteScore:3.5
Time to First Decision:19.3 Days
Time to Publication:42 Days
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。