资源预览内容
第1页 / 共79页
第2页 / 共79页
第3页 / 共79页
第4页 / 共79页
第5页 / 共79页
第6页 / 共79页
第7页 / 共79页
第8页 / 共79页
第9页 / 共79页
第10页 / 共79页
亲,该文档总共79页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
大数据技术和标准化科学、公正、诚信、服务科学、公正、诚信、服务2内 容 大数据发展背景 标准化工作现状 下一步工作重点3一、大数据催生了信息化3.0(智慧化阶段)信息化1.0-1995 以单机应用为特 征的数字化阶段-2015 以联网应用为特 征的网络化阶段2015- 以数据的深度挖掘 与融合应用为特征 的智慧化阶段经历基础性变革 后的未来信息技 术支撑的信息化信息化2.0信息化3.0?金税工程n数据规模更大,来源更丰富,类型更复杂,变化更快4一、 大数据催生了信息化3.0(智慧化阶段)技术廉价化、互联网发展、 信息化建设长期积累,形成 了规模巨大的数据资源,且 仍将加速增长大数据应用的成功案例,激 发了基于数据,萃取知识、 指导实践的巨大需求大数据 现象出现数据应用 需求激增以数据的深 度挖掘与融 合应用为特 征的智慧化 阶段信息化3.05二、 大数据的战略意义大数据正在改变 人类的思维方式随机样本精确求解因果关系全体数据近似求解关联关系传统思维大数据思维6二、 大数据的战略意义GDP 改善民生:优化资源配置,健康医疗、就业、社保、教育、公共交通 产业转型,创新业态:颠覆传统产业,提高运行效率和决策能力,催生智能制造、互联网金融等新业态大数据时代,信息技术不仅是行业发展的“倍增 器”、“催化器”,甚至会成为行业的颠覆者7二、 大数据的战略意义美国棱镜计划:电邮、即时消息、 视频、照片、语音、文件传输、视 频会议、社交网络等数据的收集与 综合分析自主可控的大数据技术体系是不 可或缺的基础!8三、 大数据产业生态链(技术)大数据采集大数据存储、 管理和处理大数据呈现 和应用大数据分析 和挖掘9三、 大数据产业生态链(商业)10四、 我国大数据产业发展现状基础设施和分析方法方面: 主要依赖国外技术和产品,核心技术方面仍是学习者和追随者应用方面: BAT在网络大数据具有优势:网站、微博、微信、搜索、交易数据等,互联网企业的技术优势难以顺畅地扩散到各行业 部门、地方和一些行业开始关注大数据资源建设 初级发展阶段,缺少典型性、共识性强的大数据应用;数据资源开放方面: 我国数据资源主要来源于互联网,业务、政务数据共享开放程度低急需标准化,保证有序发展、开放共享11内 容 大数据发展背景 标准化工作现状 下一步工作重点12一、大数据工作组概况(一)组织架构组长:梅 宏 上海交通大学 副校长(院士) 副组长: 车品觉 阿里巴巴集团副总裁吴建明 华为IT技术开发部部长杜小勇 中国人民大学信息学院院长秘书长:高 林 工业和信息化部信软司 副司长联络员:刘大山 国家标准化管理委员会工业二部 处长孙文龙 工业和信息化部信软司 处长侯建仁 工业和信息化部电子信息司 处长进一步扩大工作组规模申请报名的成员单位170+家成员单位管理统一邮箱:bigdatacesi.cn微信公众平台建立联络关系贵州省贵阳市政府、中关村大数据产业联盟建立大数据专家团队一、工作组概况13一、工作组概况(二)组织管理n 2014年12月2日,工作组成立大会n 2015年7月14日,工作组第二次全会,正式成 立7个专题组n 2015年12月17日,工作 组第三次全会(2015年年终总结)n 工作组开展了一系列调 研活动,组织线下活动 5次,召开专题组会议 18次二、标准体系框架1516n 基础标准为整个标准体系提供包括总则、术语和参考模型、元数据等基础性标准。n 技术标准该类标准主要针对大数据相关技术进行规范。包括数据治理和数据质量两类标准。其中,数据治理标准主要针对数据的收集、预处理、分析、可视化、访问、能力成熟度评价模型等方面进行规范。数据质量标准主要针对数据质量提出具体的管理要求和相应的指标要求,确保数据在产生、存储、交换和使用等各个环节中的质量,为大数据应用打下良好的基础,包括质量评价、数据溯源、质量检测等标准。二、标准体系框架17n 产品和平台标准该类标准主要针对大数据相关技术产品和应用平台进行规范。包括关系型数据库产品、非结构化数据管理产品、智能工具、可视化工具、数据处理平台和测试规范六类标准。其中关系型数据库产品标准针对存储和处理大数据的关系型数据库管理系统,从访问接口、技术要求、测试要求等方面进行规范,为关系型数据库管理系统进行大数据的高端事务处理和海量数据分析提供支持;非结构化数据管理产品标准针对存储和处理大数据的非结构化数据管理系统,从参考架构、数据表示、访问接口、技术要求、测试要求等方面进行规范;智能工具用来帮助用户对大数据进行分析决策,包括ETL、OLAP、数据挖掘等工具,智能工具标准对智能工具的技术及功能进行规范;可视化工具是对大数据处理应用过程中所需用到的可视化展现工具的技术和功能要求进行规范;大数据平台标准是针对大数据存储、处理、分析系统从技术架构、建设方案、平台接口等方面进行规范;测试规范针对大数据的产品和平台给出测试方法和要求。二、标准体系框架18n 大数据安全标准数据安全作为数据标准的支撑体系,贯穿于数据整个生命周期的各个阶段。抛开传统的网络安全和系统安全,大数据时代下的数据安全标准主要包括通用要求、隐私保护两类标准。n 应用和服务标准应用和服务类标准主要是针对大数据所能提供的应用和服务从技术、功能、开发、维护和管理等方面进行规范。主要包括开放数据集、数据服务平台和领域应用数据三类标准。其中开放数据集标准主要对向第三方提供的开放数据包中的内容、格式等进行规范;数据服务平台标准是针对大数据服务平台所提出的功能性、维护性和管理性的标准;领域应用数据指的是各领域根据其领域特性产生的专用数据标准,包括工业、电子商务等领域。二、标准体系框架二、大数据参考模型19二、大数据标准化白皮书V2.020二、研究报告4、加强研究 (英国)开放数据白皮书 NIST在大数据领域的相关研究报告:大数据互操作性框架:第一卷:定义、大数据互操作性框架:第二卷:大数据分类、大数据互操作性框架:第四卷:安全与隐私、大数据互操作性框架:第六卷:参考架构、NIST大数据互操作性框架:第七卷:大数据标准路线图。 为了更好的开展政府大数据开放共享和数据资产管理方面的标准化工作,工作组正在开展政府大数据分类分级和数据资产管理的相关研究工作,目前已经形成两份研究报告的初稿。21(二)标准化工作进展 已立项标准三、标准研制序号计划号标准名称状态120141191-T-469 信息技术 大数据 术语审定会220141190-T-469 信息技术 大数据 技术参考模型完成草案320141184-T-469 数据能力成熟度评价模型完成草案420141172-T-469 多媒体数据语义描述要求完成草案520141194-T-469 信息技术 科学数据引用完成草案620141200-T-469 信息技术 数据交易服务平台 交易数据描述完成草案720141201-T-469 信息技术 数据交易服务平台 通用功能要求完成草案820141202-T-469 信息技术 数据溯源描述模型完成草案920141203-T-469 信息技术 数据质量评价指标草案大纲1020141204-T-469 信息技术 通用数据导入接口规范草案大纲23共定义了28个术语,该标准目前处于征求意见阶段。重点介绍: 大数据 大数据参考体系结构 大数据生命周期模型 大数据工程化 读时模式 数据科学家三、标准研制Volume24大数据 big data具有数量巨大、来源多样、生成极快且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。注:国际上,大数据的4个特征普遍不加修饰地直接用volume、 variety、 velocity和variability予以表述,并分别赋予了它们在大数据语境下的定义:数量 VolumeVolume多样性Variety 多变性variabilityVolume构成大数据的数据集的规模。速度Velocity数据可能来自多个数据仓库、数据领域或多种数据类型。Volume单位时间的数据流量。大数据其他特征,即数量、速度和多样性等特征都处于多变状态。三、信息技术 大数据 术语25三、信息技术 大数据 术语大数据参考体系结构 big data reference architecture 一种用作工具的、便于对大数据内在要求、设计结构和运行进行开放性探讨的高层概念模型。注:比较普遍认同的大数据参考体系结构一般包含系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据消费者等5个逻辑功能构件。26大数据生命周期模型 lifecycle model for big data用于描述大数据的“数据 信息 知识 价值”生命周期和指导大数据相关活动的模型;这些活动主要由收集、准备、分析和行动等阶段覆盖。注:几个阶段的主要活动如下:a.收集阶段采集原始数据并按原始数据形式存储;b.准备阶段将原始数据转化为干净的、有组织的信息;c.分析阶段利用有组织的信息产生合成的知识;d.行动阶段运用合成的知识为企业生成价值。三、信息技术 大数据 术语27大数据工程化 big data engineering为适应大数据对于有效存储、操作和分析的需求而运用治理独立资源的先进技术构建可伸缩数据系统的过程。读时模式 schema-on-read一种数据模式应用;按此应用,在从数据库读取数据时,先经过诸如转换、净化、整合之类准备步骤。数据科学家 data scientist数据科学专业人员;他们具有足够的业务需求管理机制方面的知识、领域知识、分析技能、以及用于管理数据生命周期中每个阶段的端到端数据过程的软件和系统工程知识。三、信息技术 大数据 术语28该技术参考模型展示了一个通用的、由逻辑功能构件组成的大数据系统,该模型独立于供应商、实现技术和基础设施。三、信息技术 大数据 技术参考模型29n 大数据价值链的两个维度组织:三、信息技术 大数据 技术参考模型30n 五个角色+两个重要的逻辑构件:安全和隐私管理代表大数据系统中存在的不同技术角色能够为大数据系统的其他五个主要构件提供服务和功能三、信息技术 大数据 技术参考模型 已上报申请立项标准 序号已申请国家标准名称牵头单位1信息技术 大数据 基于参考架构下的接口框架华为2信息技术 大数据 分类指南中科院信工所3信息技术 大数据 系统通用规范电子四院4信息技术 大数据 系统运维和管理功能要求华为5信息技术 大数据 存储与处理系统功能要求华为6信息技术 大数据 存储与处理系统功能测试规范华为7信息技术 大数据 分析系统功能要求浪潮电子8信息技术 大数据 分析系统功能测试规范浪潮电子9信息技术 大数据 面向应用的基础计算平台基本性能要求浪潮电子10信息技术 大数据 开放共享 第1部分:总则电子四院11信息技术 大数据 开放共享 第2部分:政府数据开放共享基本要求国家信息中心12信息技术 大数据 开放共享 第3部分:开放程度评价电子四院13信息技术 工业大数据 术语数码大方14信息技术 工业大数据 参考架构数码大方15信息技术 工业大数据 工业订单元数据数码大方16信息技术 工业大数据 产品核心元数据规范电子四院17信息技术 电子商务大数据 采集规范京东18信息技术 电子商务大数据 仓库建设模型京东19信息技术 电子商务大数据 应用指标体系 第2部分:电子商务大数据 京东开放程度形式许可证数据在网站上可用(任意格式)开放许可证作为结构化数据可用(比如Excel,而不是表的扫描图 )开放许可证以一种开放的、非专属的形式可用(比如,CSV、XML 而不是Execl)开放许可证除了使用开放的
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号