资源预览内容
第1页 / 共62页
第2页 / 共62页
第3页 / 共62页
第4页 / 共62页
第5页 / 共62页
第6页 / 共62页
第7页 / 共62页
第8页 / 共62页
第9页 / 共62页
第10页 / 共62页
亲,该文档总共62页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
大数据技术与应用 2 目录 一 大数据的来源 二 什么是大数据 三 大数据的应用 四 成功案例 3 引言 电影 点球成金 基于历史数据 利用数据建模 定量分析不同球员特点 合理 搭配 重新组队 打破传统思维 通过分析比赛 数据 寻找 性价比 最高球 员 运用数据取得成功 布拉德 皮特主演的 点球成金 是一部美国奥斯卡获奖影片 所讲述的 是皮特扮演的棒球队总经理利用计算机数据分析 对球队进行了翻天覆地 的改造 让一家不起眼的小球队能够取得巨大的成功 4 数据本质是生产资料和资产 仅供开采162年 仅供开采45年仅供开采60年 不可再生资源VS数据 过去3年数据总量被以往4万年还多 2013年 10分钟的信息总量将达1 8ZB 2010年全球数据总量1 2ZB 年增长50 数据不再是社会生产的 副产物 而是可被 二次乃至多次加工的原料 从中可以探索更大 价值 它变成了生产资料 5 数据爆炸式增长 每分钟 Twitter上发 布98000 新 微博 13000 个 iPhone 应用下载 Skype上 37万 分钟的 语音通话 上传6600张 新照片到 flickr 发出1 68亿 条Email YouTube上 上传600 新 视频 淘宝光棍节 10680 个新 订单 Facebook上 更新69 5万 条新状态 12306出票 1840 张 6 数据资产管理的挑战 7 数据资产管理的挑战 8 需要不同 看 数据的方式 8 可视 结构化资料 15 未视 半 非结构化数据 85 DB DW 主管们看的 战情数位仪表板 其实是残缺的 9 10万 GB 10万 TB 需要更高性价比的数据计算与储存方式 9 数据库数据仓库 计算更快 存储更省 10 85 半 非结构化的 Log Web page Email PDF Image Full text MS Office file 需要不同的数据管理策略 当我们想要扩充时 才发觉 架构只能 scale up scale out 不易 处理时间过长 time to value 受限 成本过高 cost efficiency 受限 15 结构化的 DB DW 遗憾 残缺 11 每天几百 GB 几 TB 的资料 且持续成长中 储存储存 StoringStoring 在收数据的同时做必要的前置处理 pre processing 并区分数据处理的优先等级 prioritizing 计算计算 ProcessingProcessing 如何有效的避免因硬件毁坏所导致的资料损毁 管理管理 ManagingManaging 如何从中挖掘出所关注事件的 pattern 或 behavior 分析分析 AnalyzingAnalyzing 超越企业现有 IT 的数据解决能量 11 12 中央政府对大数据的重视程度 习近平政府管理不仅要讲究策略 还要讲究手段 比如大数据技术 的应用 2014年3月8日 大数据 首次写入政府工作报告 奥巴马 将投入巨资拉动与大数据相关的产业 数据为 未来的 石油 是美国综合国力的一部分 是与陆权 海权 空权 同等重要的 国家核心资产 李克强 加快推进全国中小企业征信系统建设 通过大数据等技术优化 中小企业征信资质 李克强经济数据和目标的进一步调整 中小企业将面临更大的压力 互联网金融除了解决便利性问题外 更重要的是如何围绕 特有的大数据资源展开对实体经济的服务 汪洋数据为王 财政工作离不开大数据 13 目录 二 什么是大数据 三 大数据的应用 四 成功案例 一 大数据的来源 14 14 Social MediaMachine SensorDOC MediaWeb Clickstream AppsCall Log Log 什么是数据 半结结构化 非结结构化数据 15 3 13 20124 什么是大数据 16 何为大 数据度量 1Byte 8 Bit 1KB 1 024 Bytes 1MB 1 024 KB 1 048 576 Bytes 1GB 1 024 MB 1 048 576 KB 1 073 741 824 Bytes 1TB 1 024 GB 1 048 576 MB 1 099 511 627 776 Bytes 1PB 1 024 TB 1 048 576 GB 1 125 899 906 842 624 Bytes 1EB 1 024 PB 1 048 576 TB 1 152 921 504 606 846 976 Bytes 1ZB 1 024 EB 1 180 591 620 717 411 303 424 Bytes 1YB 1 024 ZB 1 208 925 819 614 629 174 706 176 Bytes 3 13 20126 什么是大数据 17 红楼梦 含标点87万字 不含标点853509字 每个汉字占两个字节 1汉字 16bit 2 8位 2bytes 1GB 约等于 671部红楼梦 1TB 约等于 631 903 部 1PB 约等于 647 068 911部 美国国会图书馆藏书 151 785 778册 2011年4月 收录数据235TB 中国国家图书馆 2631万册 1EB 4000倍 美国国会图书馆存储的信息量 600美元的硬盘就可以存储全世界所有的歌曲 MGI估计 全球企业 2010 年在硬盘上存储了超过 7EB 1EB 等于 10 亿 GB 的新数据 同时 消费者在 PC 和笔记本等设备上存储了超过 6EB 新数据 3 13 20127 数据没有办法在可容忍的时间下使用常规软件方法完成存储 管理和处 理任务 什么是大数据 18 大数据的解释 大数据是需要新处理模 式才能具有更强的决策力 洞察发现力和流程优化能力 的海量 高增长率和多样化 的信息资产 大数据就是 未来的新石油 19 大数据带来的思维变革 更好 不是因果关系而是相关关系 更多 不是随机样本而是全部数据 更杂 不是精确性而是混杂性 20 大数据带来的思维变革 更多 人口大普查 全数据模式 随机采样 样本模式 大数据应用 全数据模式 是指在国家统一规定的时间内 按照统一的方法 统一的项目 统一的调查表和统一的标准时点 对全国人口普遍地 逐户逐人地进行的一次性调查登记 主要特点是调查组织高度集中性 普查对象的全面完整性 人口大普查耗时耗费 一般来讲是十年一次 新中国成立以来共进行了6次人口大普查 人口大普查是一种典型的全数据模式 大数据时代小数据时代 21 大数据带来的思维变革 更多 人口大普查 全数据模式 随机采样 样本模式 大数据应用 全数据模式 人口大普查是一种耗时耗费的工程 一般是以十年为单位 各国每年需要进行几百次的小规模人口调查 采取随机采样分析的方式 这是一种样本模式 源于实用并且很好的创新 随机采样分析是小数据时代的产物 大数据时代小数据时代 22 大数据带来的思维变革 更多 人口大普查 全数据模式 随机采样 样本模式 大数据应用 全数据模式 我们已具备了大数据的各种技术能力 思维需要转换到大数据的全数据模式 样本 全部 大数据不用随机分析法这样的捷径 而采用所有数据的方法 这里的 大 是相对的 相扑比赛所有数据存储还不需要一个TB 但是是所有的数据 在大数据时代采用随机采样法 就像在汽车时代骑马一样 虽然特定情况下仍可采样随机采样法 但是慢慢地我们会放弃它 大数据时代小数据时代 23 大数据带来的思维变革 更多 Google利用网络大数据预测流感 基于全数据进行相扑比赛 的作弊分析 埃齐奥尼的Farecast有10 万亿条数据预测机票价格 乔布斯的癌症抗争 自身所有 DNA和肿瘤DNA排序 24 大数据带来的思维变革 更杂 从皮尺到哈勃望远镜 人类一直在追求测量的精确 性 一方面源于对未知世界的认知 一方面也源于 收集信息的有限性 l 大数据的简单算法比小数据的复杂算法更有效 IBM的机器翻译 VS Google的机器翻译 l 纷繁的数据越多越好 大数据时代要求我们重新审视数据精确性的优略 大数据不仅让我们不再期待精确性 也让我们无法实现精确性 错误不是大数据固有的问题 而是一个需要我们去解决的问题 而且会将长期存在 l 混杂性 不是竭力避免 而是标准途径 25 大数据带来的思维变革 更好 佛教 三世因果经 主要讲 一是人的 命是自己造就的 二是怎样为自己造一 个好命 三是行善积德与行凶作恶干坏 事的因果循环报应规律 佛教关于因果报应的解释 原因和结果是揭示客观世界中普遍联系 着的事物具有先后相继 彼此制约的一 对范畴 原因是指引起一定现象的现象 结果是指由于原因的作用而引起的现 象 哲学范畴的因果关系 大数据的相关关系 而不强调因果关系 舍恩伯格 其实这个只是一种对 无法探究因果的妥协 人类应该去探寻 因果 因为世界存在客观的运转规律 舍恩伯格对大数据的相关性解释 Kaggle 一个为所有人提供数据挖掘竞赛的公司 在一次关于 二手车的数据分析比赛中得到 橙色汽车有质量问题的可能性是 其它颜色汽车的一半 为什么 探寻事物的因果关系是人类的本性 但是大数据时代可以做某种 程度的妥协 可以只需要关注 是什么 而忽略 为什么 26 大数据的4V特征 Volume 非结构化数据的超大规模和增长 总数据量的80 90 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 Value 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析 机器学习 人工 智能Vs传统商务智能 Velocity 实时分析而非批量式分析 数据输入 处理与丢弃 立竿见影而非事后见效 Variety 大数据的异构和多样性 很多不同形式 文本 图像 视 频 机器数据 无模式或者模式不明显 不连贯的语法或句义 Big Data 大数据 TBTB PBPB EBEB StreamsStreams Real timeReal time Near timeNear time BatchBatch StructuredStructured Unstructured Unstructured Semi structuredSemi structured All the aboveAll the above 27 大数据的4V特征 Volume 1Bity 1K B 1 M B 1G B 1T B 1P B 1E B 1Z B 1Y B 1PB相当于50 的全美学术研究图书馆藏书信息内容 5EB相当于至今全世界人类所讲过的话语 1ZB如同全世界海滩上的沙子数量总和 1YB相当于7000位人类体内的微细胞总和 一般情况下 大 数据是以PB EB ZB为单位 进行计量的 28 大数据的4V特征 Velocity 8 22 54 132 215 327 现在及未来几年内美国的移动网络数据流量增长 PB 月 源自英国Coda研究咨询公司 大数据的增长速度快大数据的处理速度快 实时数据流处理的要求 是区别大数 据引用和传统数据仓库技术 BI技术 的关键差别之一 1s 是临界点 对于大数据应用而言 必须要在1秒钟内形成答案 否则处 理结果就是过时和无效的 29 大数据的4V特征 Variety 行业 企业内 数据 互联网数据 物联网数据 大数据 数据来源多 企业内部多个应用系统的数据 互联网 和物联网的兴起 带来了微博 社交网 站 传感器等多种来源 数据类型多 保存在关系数据库中的结构化数据只占 少数 70 80 的数据是如图片 音频 视频 模型 连接信息 文档等非结 构化和半结构化数据 关联性强 数据之间频繁交互 比如游客在旅行途 中上传的图片和日志 就与游客的位置 行程等信息有了很强的关联性 30 大数据的4V特征 Value 挖掘大数据的价值类似沙里淘金 从海量数据中挖掘稀疏但珍贵的信息 价值密度低 是大数据的一个典型特征 大数据不仅仅仅仅 是技术术 关键键是产产生价值值 可以从各个层面进行优化 更要考虑整体 31 行业数据处理方式价值 银行 金融 贷款 保险 发卡等多业务线 数据
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号