资源预览内容
第1页 / 共36页
第2页 / 共36页
第3页 / 共36页
第4页 / 共36页
第5页 / 共36页
第6页 / 共36页
第7页 / 共36页
第8页 / 共36页
第9页 / 共36页
第10页 / 共36页
亲,该文档总共36页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 从说到做大型企业智能运维的360度解析 孙杰 运维专家 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 目录 构建一个全面科学的IT运维管理体系 1 全景业务服务管理 2 基于大数据平台的日志分析和多维报表 3 统一展现事件及监控告警平台 4 知识库及故障自治管理 5 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 IT部门面临的挑战 运维人员工作负荷大,工作 模式不被员工认可 基于基本的被动式响应处理模式, 没有客户自助服务,没有主动干预 服务,价值认可度低 运行态势相关信息掌握不足 运行态势相关指标不成体系,很难 作出决定 确保运行态势保持合理水平的能力 不足 依据业务需求调整服务和设 置资源的能力不足 调整和设置所需的业务流程在大多 数客户处并不具备 调整和设置所需的技术手段也在很 多客户处并不具备 IT部门的整体认可不足 运维有效性的业务衡量方法与工具 较少,业务层面很难体现运维改进 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 实现目标 统一的资源管理 通过IT运维平台可以统一的把所有 的资产进行统一的管理、统一的分派 等。 及时的故障告警管理 提供对多种网络故障和告警进行 实时分析和告警的能力,网管人员 可监视并处理各级网元的各级实时 告警,对相关告警网元进行告警确 认、故障处理、告警清除等操作。 统一集中展现管理 提供集中展现平台,对于各个分 中心进行统一的报表及业务的监控, 提供实时的监控数据和运维报表。 全面的性能管理 提供对各种服务器设备、设备间 直连链路、链路服务质量等性能指 标进行实时监测并提供阈值告警。 设备指标包括CPU、内存、环境指 标等;链路指标包括流入流出速率、 时延、抖动、丢包率和错包率等。 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 核心问题: 跨地域跨平台、支持异构的IT综合运维平台 深入监控并进行集中统一的可视化管理 有效预防问题的产生及快速定位故障,降低运维成本 采用丰富的多维度报表为用户决策提供数据支撑。 全局业务服务的视角、平台化扩展兼容以及大数据融合 满足企业对业务的高效和快速迭代的需求,实现IT对业务的有效支撑 保护优化IT资产投资,实现IT资产价值的最大化 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 聚焦 数数据据化化主主动动性性 可可控控性性规规范范化化 规规范范化化运运行行维维护护管管 理理,提提高高自自动动化化监监 测测水水平平,避避免免消消耗耗 大大量量人人力力和和时时间间 实实现现IT成成本本控控制制, 提提高高资资源源利利用用率率, 发发现现各各种种运运行行瓶瓶颈颈, 降降低低业业务务运运营营成成本本 轻松应对云计算、 大数据的技术浪潮, 全面管理,并从技 术架构上向大数据 转型,进行基于海 量数据的决策分析。 从被动响应式工作 方式转变成主动服 务,提高IT部门的 工作质量和服务能 力,真正实现IT部 门的服务价值 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 创建现代化、智能的运维管理模式 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 目录 构建一个全面科学的IT运维管理体系 1 全景业务服务管理 2 基于大数据平台的日志分析和多维报表 3 统一展现事件及监控告警平台 4 故障管理及自治自愈 5 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 在互联网“大爆炸”的年代 , 您的 IT 系统是否能快速响应业务 的变化且为您的业务保驾护航 ? 思考 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 IT业务服务管理特点 监控的粒度细 面向业务管理 面向用户管理 易用性 数据全面 扩充性 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 建立以业务为导向的综合监控平台 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 业务视角管理资源的视图 从业务的视角进行 IT 基 础资源的管理与维护,一 旦某个资源发生故障或者 问题,都可以从业务视图 中直观地了解到这个资源 的故障将影响什么业务, 影响哪些服务,进而了解 到影响哪些用户。 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 问题的整体诊断分析 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 业务监控管理系统的总体结构 建立综合、统一的业务视图 建立综合的业务指标分析, 涵盖:IT基础设施、中间件、 应用服务、网络等。 实现业务监测的统一管理、 统一展现、统一调度。 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 目录 构建一个全面科学的IT运维管理体系 1 全景业务服务管理 2 基于大数据平台的日志分析和多维报表 3 统一展现事件及监控告警平台 4 故障管理及自治自愈 5 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 大数据平台的日志分析 基于大数据平台,提供日志采集和聚合处理 日志关联分析帮助准确全面定位,提升效能和满意度 智能预测与预警,为精细管理,科学决策提供量化依据 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 数据大集中-PMDB G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 数据统一分析引擎和智能阈值 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 日志处理的2个维度 日志没有集中处理 登陆每一台服务器,使用脚本命令或程序查看 日志被删除 磁盘满了删日志 黑客删除日志,抹除入侵痕迹 日志只做事后追查 没有实时监控、分析 使用数据库存储日志 无法适应TB级海量日志 数据库的schema无法适应千变万化的日志格式 无法提供全文检索 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 事件和时序关联分析 事件诊断一直是 运维领域一个很 重要的工作,事 件和时序数据的 相关性不仅可以 为事件诊断提供 很好的启发,而 且在帮助进行根 因分析等都能提 供很好的线索。 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 数据汇聚处理:高性能事件分析引擎 高高性性能能规规则则引引擎擎: 3600条事件/分 数数据据导导入入通通道道: 全量HDFS 增量Kafka 数数据据分分析析的的应应用用: 开源算法的选择 DataIDE 阿里云数加(MaxCompute) StreamCompute G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 提供可用性报表、性能报表、分析报表、趋势报表、综合报表等 多种报表,为资源分配、管理决策提供量化的依据。 可根据自己的需要,按照日、周、月订阅自己关心的运维报告, 订阅的报告会按时通过邮件等方式发送给指定人员。可提供基 于大数据综合分析平台给出基于业务发展的决策和关联分析报表。 基于大数据平台的多维报表 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 综合展示 性能分析 容量分析 自动化配置 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 目录 构建一个全面科学的IT运维管理体系 1 全景业务服务管理 2 基于大数据平台的日志分析和多维报表 3 统一展现事件及监控告警平台 4 故障管理及自治自愈 5 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 监控系统作为企业IT信息化管理部门重要的管理工具,自上世纪90年代至今,管理理念和 监控核心经历的多次变革: 第一代监控:以网络为中心,网络速度等于应用速度。提供网络监控和故障发现、带宽管 理、数据分析和服务水平等级协议等支持。 第二代监控:以IT基础设施为中心,实现对主机、存储、操作系统、中间件、数据库、虚 拟化、存储、动力环境等各类基础资源的监控。 第三代监控:以IT应用为中心,针对高度复杂交易为核心,实现面向用户体验、面向应用 可用性的实时监测和故障智能诊断。 IT监控管理发展历程 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 目录 构建一个全面科学的IT运维管理体系 1 全景业务服务管理 2 基于大数据平台的日志分析和多维报表 3 统一展现事件及监控告警平台 4 故障管理及自治自愈 5 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 短信告警8000条/天 单人最高750条/天 邮件最多900封/天 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 如何从错综复杂的运维监控数据中得出我们需要的信息和结果? G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 目标: 简 智 深 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 IT运维管理化繁为简 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 数据 标注 工具 应用 机器学习智 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 策略知识库的构建深 分析 判断 自决 知识库 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 减少对人的依赖,信任机器,实现自判自断自决 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 Thanks 高效运维社区 开放运维联盟 荣誉出品 G O P S 全 球 运 维 大 会 2 0 1 7 上 海 站 想第一时间看到 高效运维社区公众号 的好文章吗? 请打开高效运维社区公众号,点击右上角小人,如右侧所示设置就好
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号