一堆毫无交集的数据,经过一番交融荟萃,催生出全新的应用,激发出全新的商业模式,孕育出新的产业,培育出新的经济增长点,颠覆着传统的经济活动…… 数据挖掘显现的这一系列价值,正在推出一个以数据挖掘为核心的大数据价值输出新时代。影响所及,无所不达。
日前,一场围绕数据挖掘的全球赛事——2017中国国际大数据挖掘大赛在我国首个大数据试验区贵州宣布启动。“相对于采集、储存,数据挖掘是大数据走向应用创造价值的关键。”大赛组委会一位负责人表示。
贵州只是全球大数据浪潮的缩影。无论中国的西部,还是美国的硅谷,“挖掘”的声音在全球同步响起,汹涌澎湃。数据资源的开放,挖掘工具的进步,商业前景的清晰,数据挖掘成为新一轮市场热点,愈发受到资本的追捧。
数据价值输出新时代
“如果把大数据比作石油,那么挖掘就是勘探、钻井、提炼、加工。核心是把数据资源变现成商用价值。”一位曾参与国家大数据行动计划纲要起草的专家表示,数据资源已经成为国家战略性资源,我国必须尽快在大数据挖掘这个关键点有所突破。
目前国际主流的做法是把大数据链条分为数据获取、预处理、存储、挖掘或分析、可视化五个关键环节,挖掘被认为是核心。“真正的大数据就体现在大数据的深度挖掘应用。”中科院院士、北京理工大学副校长梅宏在一次大数据论坛上表示。
“这实际上是数据价值在不断提升的体现。”上述国家大数据行动计划纲要起草专家分析说,以前是对于数据资源的利用,更多是信息的获取,例如企业通过经营数据的分析统计,总结过去的经营活动。而现在不再局限于信息获取,同时实时数据资源的挖掘,可以优化业务模块,可以催生新的业务模块,这是颠覆性的。
全球知名咨询公司德勤发布的《2016分析趋势报告》认为,数据挖掘的威力和价值正在凸显出,它帮助人们作出更明智的决策,优化企业和社会运转。“商界正在积极寻找可以让他们赢得优势的科学方法。”
“我们已经走进数据价值输出的时代。”该专家表示,“大数据依靠挖掘而呈现的巨大商业价值,正在成为推动经济变革的新引擎。”
挖掘需要更多的数据
丰富的数据源是进行大数据挖掘的前提。德勤最新发布报告《2017德勤技术趋势》指出,数据资源正在指数级的增长,到2020年,全球的数字预计将达到44泽字节(zetta bytes)。”尽管数据资源在全球呈指数级增长,但是数据资源的开放和共享程度却亟待提升。“从国际上看,政府数据开放还处于初期阶段,主要通过制定战略或政策文件形式指导开放。”中国信息通信研究院互联网法律研究中心主任工程师杨筱敏说。
杨筱敏说,2015年我国密集发布了多个相关文件,其中最主要的是国务院《促进大数据发展行动纲要》。纲要对相关政策进行了梳理,提出在开放前提下加强安全和隐私保护,在数据开放的思路上增量先行,提出在2018年底前建成国家统一的数据开放平台。
“目前我国信息数据资源80%以上掌握在各级政府部门手里,‘深藏闺中’是极大浪费。”2016年5月9日的全国推进简政放权放管结合优化服务改革电视电话会议上,国务院总理李克强要求尽快实现政府数据开放。
实际上,嗅觉灵敏的贵州、宁夏等省份,早在几年前就开始布局大数据。贵州甚至是全国第一个大数据综合试验区,政府数据开放是其重要的试验内容。贵州在2014年开始大数据行动,第一步就是打造一个数据开放共享的“聚通用”云上贵州平台。到了2016年下半年时候,贵州突然加大了推进力度,启动“数据‘聚通用’攻坚会战”。
贵州省大数据发展管理局副局长康克岩介绍,2017年元旦前夕,贵州省法人单位、人口、空间地理、宏观经济四大基础数据库数据汇入共享平台,贵州率先实现50%以上政府数据“云上”开放共享。
记者梳理发现,北京、上海、浙江、青岛、武汉地已建立了专门的政府数据开放平台。最近,河北省和安徽省均表示要在2018年底前初步建成政府数据开放平台。
在此次大赛启动会上,来自贵阳、北京、上海、深圳、广州、杭州等17个国内政府数据开放先行城市的代表,共同发布了《共同促进数据开放及应用行动宣言》,呼吁共同努力促进政府数据开放。
“新矿工”挖掘新未来
随着数据资源越来越多,数据形态越来越丰富。康克岩在分享贵州数据开放经验时表示,在进行海量数据汇集过程中,有一个难题就是数据格式不统一、标准不统一。形态各异的数据正是大数据的显著特征。海量的图片、声音和视频甚至互联网上的闲言碎语——《2017德勤技术趋势》将这种非结构化的数据称之为暗数据。
德勤在报告里宣称,这些暗数据是比以往任何时候都更有价值的数据源,当然,对挖掘技术的要求也越来越高。不过这并没有阻挡市场的热情,越来越多大数据企业和数据科学家加入到“暗数据挖掘”战。移动信息化研究中心2月10日发布的《2016中国大数据市场研究报告》显示,国内大数据企业此前主要聚焦在技术壁垒较低的应用、可视化等环节,而在存储和挖掘等环节,极少有企业切入。但是到了2016年,看到了利好消息。
该报告显示,从2013年到2016年,数据挖掘在大数据产业链中的分布情况从4.1%上升到9.2%。该报告也显示,从大数据主要产业链市场份额占上看,数据存储约占12.5%,存储14.7%,应用7.9%,挖掘占比最高,为17.3%。报告认为产业链纵向各环节均属蓝海市场,而挖掘高风险与高收益并存。麦肯锡更是对数据挖掘大唱赞歌。麦肯锡全球研究所一份报告指出,到2025年,物联网11.1万亿美元的年产值中60%将来自于对数据的整合和挖掘。
事实上,国内资本看好大数据挖掘这片市场,多数大数据创新企业在A轮或A轮以前可以融到数千万的启动资金,极大程度的催熟创新企业的成长。知名风投看好,作价千万提前布局,这其中不乏有IDG资本、经纬中国、达晨创投的身影。聚焦于数据挖掘的昆仑数据曾获得达晨创投数千万元的A轮融资。资本的热捧下,人工智能(AI)、深度学习等大数据挖掘技术和工具的概念也烈焰高涨。时代呼唤新的“矿工”,寻找新的挖掘技术和工具,成为抢占大数据风口的制高点,关于数据挖掘的赛事也成为外界观察大数据脉动的风向标。“2017年大赛将聚焦数据挖掘及应用,清晰展现大数据价值路径。”上述大赛组委会负责人士表示,“以贵阳为代表的贵州,在政府数据开放领域形成领先全国的态势,为大数据挖掘大赛提供了很好的基础和支撑。(彭科峰)