资源预览内容
第1页 / 共111页
第2页 / 共111页
第3页 / 共111页
第4页 / 共111页
第5页 / 共111页
第6页 / 共111页
第7页 / 共111页
第8页 / 共111页
第9页 / 共111页
第10页 / 共111页
亲,该文档总共111页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
,大数据与安全生产综述,张瑞新 博士、教授,国家安全监管总局通信信息中心 主任 国家安全监管总局信息办 副主任 2015年5月12日,2014年12月12日,总局党组书记、局长杨栋梁主持召开党组(扩大)会议,提出“建立安全生产统一数据库,实现来源可查、去向可追、责任可究、规律可循”。,贯彻落实总局栋梁局长的指示,2015年4月2日,国务院办公厅印发关于加强安全生产监管执法的通知(国办发201520号)。,要大力提升安全生产“大数据”利用能力,加强安全生产周期性、关联性等特征分析,做到检索查询即时便捷、归纳分析系统科学,实现来源可查、去向可追、责任可究、规律可循。,贯彻落实国办20号文件精神,云计算,移动互联网,智慧城市,大数据,物联网,社交网络,社会管理,大数据时代已经到来,互联网思维、大数据等信息技术正在改变 ,汇报提纲,3,云计算、移动互联网、物联网、社交网络、电子商务、即时通信等技术形式的涌现,推动人类从现实社会快速切换到网络社会形态,形成了人类不同于传统生活方式的虚拟生活方式。,(一)信息时代的特征,移动 互联网,社交 网络,社交网络,网上教学,门户网站,网游,网上购物,互联网金融,三、大数据时代,(一)信息时代特征,1PB=1024T一年国产电视剧(1.7万部)容量,1EB=1024PB;5EB 相当于至今全世界人类所讲过的话语 1ZB=1024EB;全世界海滩上的沙子数量总和,1TB=1024G 一家大型医院 X光图片,1GB=1024M 一部广播级电影,1MB=1024K50万个汉字,1KB=1024B 500个汉字,Megabyte(MB),Kilobyte(KB),Gigabyte(GB),Terabyte(TB),Petabyte(PB),三、大数据应用,(二)数据的概念,上传30小时视频 130万人评论,200万条搜索,27.7万人登录 600万条信息发布,2.04亿封邮件,全球产生7.5PB数据,互联网上一分钟,三、大数据应用,(二)数据的概念,(三)互联网、互联网+,新的媒体形式的出现,起源上世纪90年代中后期应用领域 邮件、门户网站、电子商务 政府、企业大规模信息化建设,新的商业模式的出现,互联网开始颠覆 传统产业之旅,互联网 + 让传统行业插上互联网的翅膀!,互联网可以 + ?,互联网正在改变物质之上的所有组织形态、改变物质生产的组织方式。,信息技术不是在融合,而是在融化、重构和颠覆其他产业形态。,(三)互联网、互联网+,传统模式:每个业务需要配备独立的设备(服务器、存储等)计算资源难以共享、孤岛现象、资源浪费,办公,人事,财务,网站,虚拟机,虚拟机,虚拟机,虚拟机,云计算模式:把计算资源合并成一个大的计算资源池(云计算中心)云计算中心根据各个业务需要,提供相应的计算能力,(四)云计算、云服务,云计算的目标是让用户像用电、用水一样使用信息基础设施,各自配备小发电机,电厂集中发电,云计算的本质是把计算能力的专用服务变为了公用服务,电网集中供电,(四)云计算、云服务,虚拟化 “一拆多”,分布式 “多合一”,虚拟拆分,物理计算机,虚拟机,虚拟整合,物理计算机,虚拟机,(四)云计算、云服务,(五)物联网,物联网(The Internet of things)的概念是在1999年提出的,又名传感网,物物相连的互联网。把所有物品通过射频识别(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备与互联网连接起来,进行信息交换和通讯,实现智能化识别、定位、跟踪、监控和管理。,国际电信联盟曾描绘“物联网”时代的图景:当司机出现操作失误时汽车会自动报警;公文包会提醒主人忘带了什么东西;衣服会“告诉”洗衣机对颜色和水温的要求等等。,人类的网络社会行为,包括聊天、购物、搜索、点赞等,产生了诸如日志、图片、音频、视频等规模巨大、类型多样的存贮在各类介质上的数据。 人类由此进入大数据时代!,(六)大数据,单日信息产生量超过50TB,存储量40PB,淘宝,国家电网,到2012年10月资讯系统累计产生大资料2PB,第一医院所存资讯2008年130TB,预计2015年1PB,高峰期每秒100万次回应请求,联通,用户上网记录83万条/秒,对应信息量3.6PB/年,每天产生信息超过10TB,现已存20PB,预计该基因库最终将达1EB,每天1千亿次服务调用、55万亿次计算、300TB存储量,公交一卡通每天刷卡4000万次地铁1000万次,每秒产生2千元的交易额,累计各种信息达到PB,中山大学,新浪微博,华大基因,每天约处理60亿次搜索请求几十PB数据,百度,腾讯,交通银行,北京公交,每日约处理600G数据。存量信息超过70TB,京东商城,农夫山泉每天从销售其矿泉水的超市回传10张照片,每月3TB,三、大数据应用,(六)大数据,核心技术:自然语言处理 语义分析 机器学习 垂直搜索,综合门户,新闻门户,交友社区,娱乐网站,音乐网站,体育网站,网上购物,旅行网站,网上招聘,网络游戏,新闻评论 博客博文 讨论话题 音视点播 网购记录 网上简历 .,交互信息 痕迹信息,民生民意,生活习惯,网民喜好,关注焦点,人群分类,人性分析,行为分析,全民记录 记录全民,(六)大数据,大数据技术:在海量、无序的数据中,洞察规律,发现价值!,数据的价值不在于数据本身 在于数据之间的关联关系,大数据将成为国家竞争力的重要标志,与矿产、土地、石油一样成为国家的基础性战略资产。提高国家治理体系和治理能力现代化要靠大数据。,(六)大数据,汇报提纲,3,*,(一)大数据概念溯源,http:/blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf,2001年,Meta Group(Gartner的前身)指出,随着网络及其应用(电子商务等)发展,数据将呈现出爆炸式增长的趋势,并提出3D Data Management的技术预测,即 Data Volume、Data Velocity 和 Data Variety,2012年,Gartner的IT技术发展趋势战略报告指出:大数据正在逼近“Tipping Point”(爆发点),40%以上的企业开始大数据方面的投资。,*,(一)大数据概念溯源,2008年9月4日自然(Nature)刊登了一个名为“Big Data”的专辑,从互联网技术、网络经济学、生物医药等多个方面探讨了大数据的挑战与机遇,2009年7月OReilly Media出版了名为“Beautiful Data”,介绍大数据相关的技术,2009年10月微软为纪念Jim Gray, 出版了“第四范式数据密集的科学发现”,认为科学研究范式的发展 “理论科学 实验科学计算机仿真数据科学”,2011年2月11日:Science刊登了一个名为“Dealing with Data”的专辑,联合Science: Signaling、Science: Translational Medicine和Science Careers推出相关专题,讨论数据对科学研究的重要性,2012年4月,欧洲信息学与数学协会会刊ERCIM News出版专刊“Big Data”讨论了数据管理、数据密集型研究等问题,*,21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,(二)大数据概述,想驾驭这庞大的数据,我们必须了解大数据的特征。,地球上至今总共的数据量:在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。市场研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!,随着信息不断膨胀与爆炸,已经积累到了引发变革的程度。更多的信息增长速度也在指数级加快。,1TB=1024GB 1PB=1024TB 1EB=1024PB 1ZB=1024EB,(二)大数据概述,大数据无法在容许的时间内,用常规软件工具对其内容进行抓取、管理和处理的数据集合; 大数据规模的标准是持续变化的; 大数据当前泛指单一数据集的大小在几十TB和数PB 之间- 维基百科定义,三、大数据应用,(二)大数据概述,2008年9月美国自然杂志刊登了一个名为“Big Data”的专辑,首次提出大数据(Big Data)概念。大数据,或称巨量资料,是指由数量巨大、结构复杂、类型众多的数据所构成的数据集合,必须通过特殊化处理分析才能形成有规律、可预测的信息服务能力。,(二)大数据概述,(二)大数据概述,4V 特征,数据类型繁多 Variety,V,数据体量巨大 Volume,V,处理速度快Velocity,V,价值密度低 Value,v,数据存储量大、计算量大(Volume),预计到2020年,中国产生的数据总量将是8.5ZB,全球的数据总量预计将达到40ZB。若以光盘存储,其总重量相当于424艘满载的尼米兹航空母舰。,2020年 35ZB,光盘重量=43,078,400吨,424艘尼米兹号航母重量,(101,600吨),数据来源多、格式多(Variety),大数据类型分为结构化数据和非结构化数据,结构化数据是指用数据或统一的结构加以表示,如数字、符号;非结构化数据是指无法用数字或统一的结构表示,如文本、图像、声音、网页、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。,大数据的来源,互联网快速发展,社交网络成熟 移动终端普及 物联网、传感器、监控设备 云计算 主要三类:人和人之间、人和物(机器)之间、物和物之间 数据量骤增,数据来源多样。 主动、被动和自动方式产生数据,数据产生方式的巨大变化导致大数据的产生。,移动互联网,智慧城市,物联网,电子商务,社交网络,iPhone,iPad,NoteBook,PC,条码,RFID,视频采 集设备,GPS终端,二维码,淘宝,微博,百度,腾讯,华大基因,国家电网,联通,北京公交,价值密度低(Value),浪里淘沙又弥足珍贵。一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。,监控卡口1,监控卡口2,监控卡口3,监控卡口4,1亿/天车行轨迹,2300万车辆信息,9000千万人口,3000万驾驶员,卡口信息: 牌号:鲁F123* 车型:解放j6p 颜色:蓝色 位置:济南经十山大路口 方向:自西向东 时间:2013.2.5 8:45:30,山东省17地市交通卡口每天采集行车记录数将近1亿条,根据牌号比对一天的车辆行驶信息,耗时30分钟,查出4000多辆嫌疑车辆,监控卡口.,套牌车查找 - 大数据的分析计算,车牌号,车型,颜色,距离,.,卡口信息,卡口信息,卡口信息,卡口信息,卡口信息,数据调取,数据调取,计算 结果,数据增长、处理速度快Volecity,利用各种大数据分析工具,比如Hadoop、SPSS和R,可从各种类型的数据中快速获得高价值的信息,这一点和传统的数据分析技术有着本质的区别。,(二)大数据概述,大数据正在改变人类的思维方式,?,随机样本,精确求解,因果关系,全体数据,近似求解,关联关系,传统思维,大数据思维,(三)大数据国内外应用现状,1.国外现状,2012 年3 月,美国奥巴马政府宣布推出“大数据的研究和发展计划”。该计划承诺将投资两亿多美元,大力推动和改善与大数据相关的收集、组织和分析工具及技术,以推进从大量的、复杂的数据集合中获取知识和洞见的能力。,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号