■朱扬勇
McKinsey公司预测到2018年,仅在美国本土就可能面临缺乏19万名具备深入分析数据能力人才的情况,同时具备通过分析大数据并为企业作出有效决策的数据的管理人员和分析师也有150万人的缺口。大数据时代,最热门的职业是数据科学家(Data Scientist),而不是传统的
家,也不是大数据工程师,为什么呢?数据科学家的知识结构和培养体系是怎样的?目前,被称为数据科学家的大致有三类人:从事商业数据分析的人、从事科学数据分析的人、研究数据的人。但在解决一个大数据分析问题时,常常是来自数学与统计、计算机和业务领域的一个数据科学家团队来完成。这说明,目前在大学没有什么专业具备了数据科学家所需要的知识,这是一个新问题。
数据科学家的知识体系结构,主要应由三方面构成:
数据科学基础理论:数据科学的基础理论和方法。包括数据相似性理论、数据测度论和计算理论,数据科学的基本研究方法,数据分类学与数据百科全书等等;科学研究的数据方法研究。探索各科学研究领域数据方法的共性问题,建立科学研究的数据方法;数据界探索。包括数据界的大小、数据的增长方式、数据真实性、数据增长对人类社会的影响等等,以及数据界数据安全、数据主权等等;大数据的复杂性研究,包括大数据本身的复杂性、大数据处理过程的复杂性以及处理大数据所涉及的知识体系的复杂性。
数据技术:大数据计算技术。设计适应大数据的计算模型、分布式架构等;大数据处理技术;数据获取与整合、数据存储与管理、数据访问、数据展现、数据质量与价值分析、数据安全和隐私、数据溯源等技术;大数据分析技术。这是大数据的核心技术研究内容,主要包括先前数据挖掘与机器学习技术的改进和新技术的研究。新技术研究如数据网络挖掘(社会网络挖掘、异质网络挖掘等)。
领域业务知识:特定业务领域知识,并与数据技术有效结合。根据领域创新数据分析方法、提升应用技能,解决实际应用问题。因此,数据科学家应该是具备多种能力的跨界人才,数据科学人才培养体系应该是多层次多类型的。
2010年起,各国大学开始了数据科学人才培养工作。哥伦比亚大学从2011年起开设《数据科学导论》课程,并从2014年起设立硕士学位,2015年起设立博士学位;复旦大学从2010年开始招收数据科学博士研究生,并从2013年起开设研究生课程《数据科学》,2015年开始正式招收数据科学专业研究生以及本科第二专业学位。2015年10月,复旦大学大数据学院、大数据研究院正式成立。清华大学于2014年成立数据科学研究院,推出大数据硕士项目。
尽管国内大数据人才的培养已经起步,但值得注意的是,当前的数据科学家培养的基础条件缺乏,需要重视数据科学人才培养的基础条件建设,主要包括:计算条件——建设数据科学人才培养所需的计算能力,包括软硬件环境;数据条件——数据是资源,也是数据科学人才培养的核心,需要建设丰富的数据资源环境;师资条件——这是目前相当缺乏的数据科学人才培养资源,也是影响未来数据科学人才培养成果的关键。
复旦大学数据科学家培养体系建设已初见成效,具体包括:系统化的培养体系——建立了包括青年数据科学家交流计划、数据科学家博士后计划、数据科学家研究生计划、数据科学家本科第二专业计划、软件工程硕士大数据方向培养计划和数据科学家训练营计划、数据科学FIST课程计划,涵盖了数据科学家培养的各个方面,是目前国际上最系统化的数据科学家培养计划。
多学科的课程和师资队伍——利用实验室多学科团队优势,组织数据科学家培养课件编写,内容涵盖数学、计算机、金融、医疗、生物、管理、经济、新闻等多学科领域,围绕数据科学家所需要的数学基础、计算机技能、领域知识和实践经验,设置课程和配置老师,使学生对数据科学的基本原理、方法、技术及领域应用具有深入的理解。
雄厚的基础设施——建设形成了166TB的各类数据资源,涵盖常用的科研实验数据集,世界主要语种语料库,以及交通、医疗、生物、证券期货、社交网络与舆情、互联网营销、公共设施安全、天文和遥感等应用领域数据资源以及相应的计算资源和网络资源。
(作者系复旦大学计算机科学技术学院教授,上海市数据科学重点实验室主任)
《中国科学报》 (2015-10-08 第8版 专题)