资源预览内容
第1页 / 共62页
第2页 / 共62页
第3页 / 共62页
第4页 / 共62页
第5页 / 共62页
第6页 / 共62页
第7页 / 共62页
第8页 / 共62页
第9页 / 共62页
第10页 / 共62页
亲,该文档总共62页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
大数据技术与应用 目录 引言 电影 点球成金 基于历史数据 利用数据建模定量分析不同球员特点 合理搭配 重新组队 打破传统思维 通过分析比赛数据 寻找 性价比 最高球员 运用数据取得成功 布拉德 皮特主演的 点球成金 是一部美国奥斯卡获奖影片 所讲述的是皮特扮演的棒球队总经理利用计算机数据分析 对球队进行了翻天覆地的改造 让一家不起眼的小球队能够取得巨大的成功 数据本质是生产资料和资产 仅供开采162年 仅供开采45年 仅供开采60年 不可再生资源VS数据 数据不再是社会生产的 副产物 而是可被二次乃至多次加工的原料 从中可以探索更大价值 它变成了生产资料 数据爆炸式增长 每分钟 数据资产管理的挑战 数据资产管理的挑战 需要不同 看 数据的方式 7 可视 结构化资料15 未视 半 非结构化数据85 DB DW 主管们看的战情数位仪表板 其实是残缺的 10万GB 10万TB 需要更高性价比的数据计算与储存方式 8 数据库 数据仓库 计算更快存储更省 需要不同的数据管理策略 当我们想要扩充时 才发觉 架构只能scale up scale out不易处理时间过长 time to value受限成本过高 cost efficiency受限 15 结构化的DB DW 遗憾 残缺 每天几百GB 几TB的资料 且持续成长中 储存Storing 在收数据的同时做必要的前置处理 pre processing 并区分数据处理的优先等级 prioritizing 计算Processing 如何有效的避免因硬件毁坏所导致的资料损毁 管理Managing 如何从中挖掘出所关注事件的pattern或behavior 分析Analyzing 超越企业现有IT的数据解决能量 10 中央政府对大数据的重视程度 目录 二 什么是大数据 一 大数据的来源 13 SocialMedia Machine Sensor DOC Media WebClickstream Apps CallLog Log 什么是数据 半结构化 非结构化数据 3 13 2012 4 什么是大数据 何为大 数据度量1Byte 8Bit1KB 1 024Bytes1MB 1 024KB 1 048 576Bytes1GB 1 024MB 1 048 576KB 1 073 741 824Bytes1TB 1 024GB 1 048 576MB 1 099 511 627 776Bytes1PB 1 024TB 1 048 576GB 1 125 899 906 842 624Bytes1EB 1 024PB 1 048 576TB 1 152 921 504 606 846 976Bytes1ZB 1 024EB 1 180 591 620 717 411 303 424Bytes1YB 1 024ZB 1 208 925 819 614 629 174 706 176Bytes 3 13 2012 6 什么是大数据 红楼梦 含标点87万字 不含标点853509字 每个汉字占两个字节 1汉字 16bit 2 8位 2bytes1GB约等于671部红楼梦1TB约等于631 903部1PB约等于647 068 911部美国国会图书馆藏书 151 785 778册 2011年4月 收录数据235TB 中国国家图书馆 2631万册1EB 4000倍美国国会图书馆存储的信息量600美元的硬盘就可以存储全世界所有的歌曲MGI估计 全球企业2010年在硬盘上存储了超过7EB 1EB等于10亿GB 的新数据 同时 消费者在PC和笔记本等设备上存储了超过6EB新数据 3 13 2012 7 数据没有办法在可容忍的时间下使用常规软件方法完成存储 管理和处理任务 什么是大数据 大数据的解释 大数据是需要新处理模式才能具有更强的决策力 洞察发现力和流程优化能力的海量 高增长率和多样化的信息资产 大数据就是 未来的新石油 大数据带来的思维变革 更好不是因果关系而是相关关系 更多不是随机样本而是全部数据 更杂不是精确性而是混杂性 大数据带来的思维变革 更多 人口大普查全数据模式 随机采样样本模式 大数据应用全数据模式 是指在国家统一规定的时间内 按照统一的方法 统一的项目 统一的调查表和统一的标准时点 对全国人口普遍地 逐户逐人地进行的一次性调查登记 主要特点是调查组织高度集中性 普查对象的全面完整性 人口大普查耗时耗费 一般来讲是十年一次 新中国成立以来共进行了6次人口大普查 人口大普查是一种典型的全数据模式 大数据时代 小数据时代 大数据带来的思维变革 更多 人口大普查全数据模式 随机采样样本模式 大数据应用全数据模式 人口大普查是一种耗时耗费的工程 一般是以十年为单位 各国每年需要进行几百次的小规模人口调查 采取随机采样分析的方式 这是一种样本模式 源于实用并且很好的创新 随机采样分析是小数据时代的产物 大数据时代 小数据时代 大数据带来的思维变革 更多 人口大普查全数据模式 随机采样样本模式 大数据应用全数据模式 我们已具备了大数据的各种技术能力 思维需要转换到大数据的全数据模式 样本 全部 大数据不用随机分析法这样的捷径 而采用所有数据的方法 这里的 大 是相对的 相扑比赛所有数据存储还不需要一个TB 但是是所有的数据 在大数据时代采用随机采样法 就像在汽车时代骑马一样 虽然特定情况下仍可采样随机采样法 但是慢慢地我们会放弃它 大数据时代 小数据时代 大数据带来的思维变革 更多 大数据带来的思维变革 更杂 从皮尺到哈勃望远镜 人类一直在追求测量的精确性 一方面源于对未知世界的认知 一方面也源于收集信息的有限性 大数据的简单算法比小数据的复杂算法更有效 IBM的机器翻译VSGoogle的机器翻译 纷繁的数据越多越好 大数据时代要求我们重新审视数据精确性的优略 大数据不仅让我们不再期待精确性 也让我们无法实现精确性 错误不是大数据固有的问题 而是一个需要我们去解决的问题 而且会将长期存在 混杂性 不是竭力避免 而是标准途径 大数据带来的思维变革 更好 Kaggle 一个为所有人提供数据挖掘竞赛的公司 在一次关于二手车的数据分析比赛中得到 橙色汽车有质量问题的可能性是其它颜色汽车的一半 为什么 探寻事物的因果关系是人类的本性 但是大数据时代可以做某种程度的妥协 可以只需要关注 是什么 而忽略 为什么 大数据的4V特征 BigData大数据 TBPBEB StreamsRealtimeNeartimeBatch StructuredUnstructuredSemi structuredAlltheabove 大数据的4V特征 Volume 1Bity 1KB 1MB 1GB 1TB 1PB 1EB 1ZB 1YB 大数据的4V特征 Velocity 大数据的4V特征 Variety 大数据的4V特征 Value 挖掘大数据的价值类似沙里淘金 从海量数据中挖掘稀疏但珍贵的信息 价值密度低 是大数据的一个典型特征 大数据不仅仅是技术 关键是产生价值可以从各个层面进行优化 更要考虑整体 13 大数据商业价值 大数据商业价值 大数据为 未来的新石油 2013年 世界上存储的数据预计能达到约1 2泽 约12亿TB 字节 如果把这些数据全部印刷成书 这些书可以覆盖整个美国52次 如果将之存储于标准的光盘 这些光盘可以堆成五堆 每一堆都可以伸到月球 2012年3月22日 奥巴马政府宣布投资2亿美元拉动大数据相关产业发展 将 大数据战略 上升为国家战略 奥巴马政府甚至将大数据定义为 未来的新石油 大数据商业价值 企业经营决策 某商店卖牛奶 通过数据分析 知道在本店买了牛奶的顾客以后常常会再去另一店买包子 人数还不少 那么这家店就可以考虑与包子店合作 或直接在店里出售包子 大数据商业价值 个性化营销 银行与客户的交流渠道进行了整合 只要某个客户在网上点击查询了有关房贷利率的信息 系统就会提示呼叫中心在电话交流时推荐房贷产品 如果发现顾客确实对此感兴趣 销售部门就会发送推介信息给客户 如果这位顾客到银行网点办事 业务人员就会详细介绍房贷产品 开始只有少量的线索 但通过多渠道的与顾客交互接触 在这个过程中 令顾客体验了银行精准 体贴的服务 其结果是营业收入大为增加 成本大幅降低 大数据商业价值 互联网金融的核心是大数据 互联网金融并非简单的把传统金融业务搬到网上去 而是充分利用大数据来颠覆银企之间信息不对称的问题 数据是一个平台 因为数据是新产品和新商业模式的基石 推动互联网金融发展的核心正是大数据的价值 大数据商业价值 所有互联网公司都将是大数据公司 大数据商业价值 数据列入企业资产负债表只是时间问题 用资产的要素来盘点一下什么样的数据符合资产的要求 1 从拥有和控制的角度来看 数据可以分为第一方数据 第二方数据和第三方数据 2 对于数据资产的货币计量 可以参照无形资产的计量规则 3 目前直接利用数据为企业带来经济利益的方法主要有数据租售 信息租售 数据使能三种模式 4 要实现数据的保值增值 就要从扩大数据规模 提高数据活性 提升收集运用数据的能力 大数据改变生活 大数据对政府 金融机构 企业来说 象空气一样不可或缺 软件是大数据的引擎 和数据中心 DataCenter 一样 软件是大数据的驱动力 软件改变世界 IBMC PIndustry 需求海量数据存储技术实时数据处理技术数据高速传输技术搜索技术 描述分布式文件系统流计算引擎服务器 存储间高速通信文本检索 智能搜索 实时搜索 技术Hadoop x86 MPPMapReduceStreamingDataInfiniBandEnterpriseSearch 数据分析技术 TextAnalyticsEngine自然语言处理 文本情感分析 VisualDataModeling机器学习 聚类关联 数据模型第10页 大数据涉及的关键技术 基于SQL语言 面对OLAP的传统行和列 不基于SQL或map reduce的 由谷歌率先发起 数据流 基于运行商数据直接生成任意图形 数据入口 汇聚 数据平台 分析 传统交付模式 单片或基于设备的解决方案 云 能够充分利用物理设施的弹性 以实现处理快速增长数据的能力 数据库将演变成一个虚拟的 基于云计算 超级可扩展的分布式平台 ForresteranalystJimKobielus 大数据涉及的关键技术 Copyright 2012 Oracleand oritsaffiliates Allrightsreserved 11 大数据涉及的关键技术 大数据的安全威胁 大数据基础设施安全威胁 大数据存储安全威胁 隐私泄露问题 数据访问安全威胁 针对大数据的高级持续性攻击 其他安全威胁 大数据挑战 目录 三 大数据的应用 一 大数据的来源 大数据业务战略 大数据建设目标 大数据架构设计 大数据实施 大数据运维 企业战略目标业务目标业务模式 大数据目标服务对象服务模式应用场景 大数据服务定义大数据信息模型大数据管理定义技术选择 容量规划安装 配置验收测试系统上线 大数据服务管理系统监控资源调度生命周期管理 服务性能管理 验证测试大数据持续改进 架构优化 技术升级 服务改进 企业大数据建设方法 逐步扩展现有架构 满足大数据要求 第1步 更深入地分析当前数据第2步 针对数据多样性和数据量进行设计第3步 针对高数据速度设计第4步 发现新模式 提高 业务价值 企业大数据建设方法 信息分析 信息供应 In Database 数据挖掘 文本挖掘 统计分析 语义分析 空间地理分析 In DB MapReduce 说明性分析预测分析 报告 仪表板 用户层 最终客户 供应商 市场营销 管理人员 客户服务 业务流程 合作伙伴 应用系统 数据沙箱 Sandbox DistributedFileSystems NoSQL Relational DataStreams 文档 多媒体 网络和社交媒体 机器生成 大数据处理 大数据处理 发现海量非结构化数据 流数据处理 信息发现
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号