资源预览内容
第1页 / 共14页
第2页 / 共14页
第3页 / 共14页
第4页 / 共14页
第5页 / 共14页
第6页 / 共14页
第7页 / 共14页
第8页 / 共14页
第9页 / 共14页
第10页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
日本大数据时代的人才培养倡议:制定背景、研究方向、计划及举措 刘大北 贾一苇 国家信息中心公共技术服务部 摘 要: 2014 年 9 月 11 日举办的日本学术会议第 198 次干事会提出了名为大数据时代的人才培养倡议。该倡议介绍了大数据在世界各国、社会各领域中的应用,列举了大数据在医疗保健、社会基础设施、灾害应对等方面的应用实例;对比日本的现状,提出了大数据时代人才培养需要面对的课题及所需的关键技术大数据处理、数据可视化、数据分析法等,给出了能适应时代发展的统计学科设置要求,及成为数据科学家的必要条件和数据科学家的培养方法;最后提出了“设置以数据为中心的科学专业教育机构”“在骨干研究机构内常设数据分析部门”“尽快制定日本版数据透视研究员计划”“制定数据科学家资格标准”四项倡议。该文不仅能帮助我们了解日本和世界的大数据相关动向,也对中国的大数据时代人才培养有实际的借鉴价值。关键词: 大数据; 大数据人才; 大数据素养; 数据透视; 统计学; 数据科学; e-科学; 数据科学家; 作者简介:刘大北,国家信息中心工作人员。作者简介:贾一苇,博士,国家信息中心高级工程师,研究方向:电子政务、信息化工程规划与投资。收稿日期:2015-08-31基金:国家信息中心“电子政务前沿研究”课题Received: 2015-08-31一、日本制定大数据时代人才培养战略的背景随着信息技术的飞速发展,社会领域和学术研究领域时时刻刻都在产生并积累着大数据。怎样活用潜藏在大数据中的丰富知识及价值,是今后学术及产业发展的关键。为此,激烈的国际竞争已经开始。2012 年 3 月,美国总统奥巴马发表了大数据研究和发展倡议(Big Data Research and Development Initiative),旨在提高利用大量复杂数据集合获取知识和提升洞见能力,投入金额高达 2 亿美元,用于大数据收集、管理的最新技术的构建。1过去超级计算机及互联网都因为美国政府投资而得到飞速的发展,同样可以预计,此次投资也将使科学发现、环境/生命医学研究、教育以及国家安全保障方面的大数据活用情况完全改变。信息社会的发展产生了巨大的可能性和挑战,这在 21 世纪开始已经逐渐显现,以此为契机,无论是在学术界还是产业界,大数据都一跃登上历史舞台。美国以大数据研究和发展倡议为契机开始了大数据的战略性研究投资;欧盟也在第七科技框架计划(FP7)的后续项目中,决定对大数据相关项目投入巨额研究资金。受这些政策影响,美国和英国在 2013 年夏季后半年的时间里,相继设立了多个大数据或数据科学研究所。但另一方面,从事大数据活用的研究者却越发不足。据麦肯锡全球研究院的报告,预计到 2020 年,数据科学家将有 14 万-19 万人的缺口。在此背景下,欧美及亚洲诸国统计学等与大数据相关的教育机构及学位授予数量快速增长。日本学界认为,“以数据为中心的科学”在学术界的普及及落实,应是今后日本科学技术研究发展及产业革命需要面对的重大问题,需及早应对。 因此,日本大数据时代的人才培养倡议认为,为了应对新的科学所需要的新的人才,即数据科学家的培养是极其重要的。数据科学家的培养在海外已经飞速推进,如果不抓紧开展培养,学术研究及产业领域的大数据活用将严重落后。二、大数据的定义及应用领域介绍日本大数据时代的人才培养倡议对大数据的定义、特性及应用领域作了系统总结介绍。(一)大数据的定义、特性、数据源大数据的一般定义是“通过目前主流数据库及数据处理工具,难以处理的巨大的、复杂的数据集”,其本质与其说是数据量的庞大,不如说是导入所有信息的大规模性。因此,大数据是具有各种各样的形式、构造、计量频度、精度、非稳定性等特点的多样化、不统一的事物。以往的科学研究中所分析的数据都是为了明确的目的而严密设计的,但随着互联网及数据库等的飞速发展,为其他目的或没有目的而产生的数据也可以通过整合加以利用,以往不可想象的科学发现、预测及新知识的获得都在逐步成为现实。科学研究中由于观测仪器、网络及超级计算机的发展,基因组学、气象学、地球环境、天文学、高能物理学等领域,积蓄了每天产生的大量、大规模的观测数据和计算数据。另一方面,个人及社会领域也由于信息通信技术的发展,从经济活动到日常生活的各个方面,精细反映人类活动的各项指标也在逐渐数字化。目前,随着传感器技术的提高及价格下降,互联网、传感器、防灾、遥感、POS 机、RFID(射频识别)标签、视频监控等领域,也如科学研究领域一样,积蓄了每天产生的大量的、大规模数据。如此精细记录所有研究活动过程和人类活动产生的数据化结果就是大数据。大数据包含了创造巨大价值的可能性,但另一方面,大数据不仅是非结构化的,而且它的价值密度低,数据形式、观测频度、精度不统一, 具有非稳定性。传统的信息处理机制主要是为了明确的目的而输入数据,再对此数据进行计算处理,最后将用户需要的信息输出。但是如今人们通过识别监控自然现象、生命活动及日常社会所产生的庞大数据,并加以活用,对社会、经济及市民生活产生了很大的影响。在这里信息处理主要通过对数据的深刻理解和正确建模,提取出信息和知识。其中,采用数据取得、数据活用、机器学习、 统计模型等新的信息处理技术的“以数据为中心的科学”变得非常重要。和数据有关的科学,包括概念在内,过去 20 年间有了巨大的变化,以数据为中心的研究在许多领域变得十分重要。(二)大数据开拓的世界大数据正在对社会体系的革新产生巨大冲击。根据大数据的活用方法和对象领域的不同组合,在社会、科学等多个领域产生了不同的活用案例。其中主要活用方法是标准化服务向个性化服务转变,离线计算向在线计算转变,数据驱动型产业的实现,智能化,稀少事件的发现,等等。个性化服务、数据驱动型产业的创立20 世纪的产业特点是,应用科学技术发展所得到的知识,实现大量生产和大量消费的效率化。但是随着大数据的登场,适合每个人特性及需求的医疗、教育、信息提供等定制型服务正在成为可能。在市场活动、供应链效率化、风险管理等领域中,代替标准化,基于数据的个性化对应及个性化决策正在逐步实现。在这种潮流中,目前日本总务省提出“期望通过促进公共数据的活用,暨开放数据的推进,增强行政的透明性、信赖性;推进国民参与、官民协作;提高经济活力、行政效率;三位一体地推进”,作为信息通信 (ICT)政策的一环,发表了“开放数据战略的推进”。第一产业、第二产业的效率化大数据让与人类历史等长的第一产业,以及 20 世纪支撑日本经济发展的第二产业都发生了巨大的变化。农业中活用大量监测数据后,可以减轻天气所带来的影响,保证粮食产量稳定。2在最先进的半导体工厂里,通过分析数千台制造设备产生的庞大的变量数据可以提高产品质量,抑制残次品的产生。由此我们可以得到世界最高水准产品的口碑,同时可以获得巨大的利益。在新材料研发领域中也是如此,通过利用材料数据库、知识(经验)库以及庞大的实验结果等,可以快速设计出更加有效率的实验方法。正因如此,人们已经认识到,大数据在第一产业、第二产业中也是提高品质和效率及增强竞争力的关键。医疗保健领域的大数据活用基因组高速测序技术可以说是这 10 年中最先进的技术。日、美、欧等国联合于1990 年开始用了 13 年完成了个人的基因测序工作,而如今个人基因测序费用已经下调到几十万日元的程度。可以预见,全部基因测序如抽血般简单,费用降低到 1 万日元的时代即将到来。基因序列的异变是产生癌症等疾病的主要原因,这已经得到了广泛的认知,但2013 年好莱坞女星安吉丽娜朱莉为预防疾病切除乳房的新闻,使得很多人惊讶并认识到“科学技术已经发展到基因组测序直接导致医疗行为的程度”。社会基础设施的智能化通过活用交通系统、电力供给系统、大厦管理等领域配置的大量传感器产生的大数据,社会基础设施将实现智能化。作为更积极的尝试,基于“模仿人类社会活动的计算模型”的社会系统需要实现智能化。监测都市内的人流、交通流,建立模型,模拟之后一段时间的状态,可实现交通系统的实时化、高效化(公交及出租车按需运行, 导航系统的最优路线指示,电车延时的快速恢复等)。基于数据的决定、决策在公共投资、观光政策、环境对策等领域,正在摸索基于数据的科学的政策制定方法。过去的做法一般是召集一些专家成立委员会,根据专家们过去收集的事例的经验来讨论、制定政策,也就是所谓的基于事实的政策制定。但目前基于大数据的,基于比实际数据更进一步的实证而讨论、制定政策,即“基于实际、基于实证”的研究方法正在迅速普及。数据驱动型的新闻调查报道方法也被提倡。通过开源工具对开放数据的分析,可以构筑数据发现、过滤、 可视化、出版、散发、评价的全过程方法,找出至今为止无法发现的现象和规则,为消费者、商业人士、政策当局、政治家等的决定、决策提供帮助。稀少事件的发现及风险监测大数据分析的意义,与其说是对对象的平均特性或表面化的关系进行精密的推定,不如说是发现抽样调查中忽略的稀少事件及隐藏的关系性。由此可期待实现故障或灾害的事前预测、列车等的安全运行、金融风险管理等。又如,所谓市场中的长尾,事件发生的频度虽然很低,但可以带来优良的回头客,产生巨大的价值和利益,发现这样的稀少事件将成为巨大革新的源泉。经济高速成长期间集中建设的隧道、桥梁、水坝等大型社会基础设施已出现老化问题。通过对传感监测系统得到的大数据进行解析,制定经济的、高效的守护国民生命安全的基础设施管理政策已迫在眉睫。灾害对应在 2011 年的东日本大地震时,灾害地的车载导航系统向系统中心发出“通行实时信息”,与平均速度信息同时在地图上聚集,形成“可通行道路地图”,在网页上每天进行更新和公开,为后续的志愿者提供了有效的信息。应对灾害突发事件中事先无法预案的问题时,如何实时处理不断得到的空间不均衡的数据是重要课题。在福岛核电站事故的例子里,从灾害现场实时获得各种各样的信息,同时也积蓄了大量可能解决问题的技术、专家的背景信息,如何让这两者结合,果断制定更好的对策的必要性就凸显出来。人文科学领域的数据活用像文献计量学及历史典籍的数据库化一样,文学、 绘画、语言及文化遗产等人类相关的所有现象,都可以根据数据,用科学的方法产生新的发现或获得新的解释。历史遗迹的激光 3D 测量、木乃伊的 CT 扫描、通过基因解析的血缘认定、绘画的 X 光摄影、通过测定画材物质认定年代的真赝判定、用 3D 打印的重要文化财产的高精度复制品进行的实证实验等,通过分析这些先进的计算测量技术得到的数据,正在开创令人惊异的人文科学新世界。(三)大数据活用必要的课题在过去的半世纪中,计算速度和存储容量等信息处理技术的革新遵循摩尔定律,以每 5 年约 10 倍的速度前进。但是在近年来的大数据领域,用最先进的序列检测技术进行基因解读的速度在 5 年间约增加了 1 万倍,这大大超过了摩尔定律所说的速度。这反映了单靠信息处理机器性能数量的发展,不能应对大数据的要求。因此, 为了处理价值密度低的大数据,需要在数据取得现场用流计算进行初次处理,用与现在不同数量级的速度进行分类、探索。这种超越以往信息处理能力的数据库技术和算法,在数据处理技术的革新中是不可或缺的。以前的科学研究是由有长时间历史沿袭的经验科学和理论科学的方法论支撑的。从 20 世纪后半叶开始,以模拟技术为主的计算科学确立,对复杂非线性系统及多粒子系统运动的理解和预测技术飞速进展,在气象预测、车体形状设计、发动机设计等领域取得巨大成果。 现在,随着大数据的到来,最大限度活用数据所带来的信息,从而推动研究的“以数据为中心的科学”的重要性开始凸显。与实验科学和理论科学中靠研究者个人才智的归纳法和演绎法相对,计算科学是靠计算机开拓新的演绎法,而“以数据为中心的科学”是使信息通信技术和大规模数据成为可能的新的归纳法。近年来,在大学和研究机构中,与不正当研究行为相关的重大事件时有发生。特别是,在大数据活用及数据驱动型研究的推进过程中,研究道德的确立是必不可
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号