资源预览内容
第1页 / 共28页
第2页 / 共28页
第3页 / 共28页
第4页 / 共28页
第5页 / 共28页
第6页 / 共28页
第7页 / 共28页
第8页 / 共28页
第9页 / 共28页
第10页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
DataOps-数据驱动的智能运维 对运维的初始印象 背锅侠消防员7*24守卫 echo pssh /usr/local Shell程序员 阿里巴巴大数据运维 阿里云大数据计算平台 10万+台世界最大的计算平台 单日数据处理量超过600PB 大规模全球布局 遍布全球19个地理区域的数据中心 实时性 实时产出的双十一大屏 阿里巴巴大数据运维 阿里云大数据计算平台 大规模全球布局 实时性海量任务 日均运行任务 2万+ 5000万+ 数据工程师 数据助力运维智能化 阿里云大数据计算平台 大规模全球布局实时性海量任务 世界级 挑战 DataOps ? 稳定性 效率成本 01 稳定性 稳定性 效率成本 01 稳定性 【GOC】监控告警 * * * 【GOC】监控告警 * * * 【GOC】监控告警 * * * 传统监控 噪音多 规模化 多种异常类型 01 稳定性 智能算法 异常检测 稳定准确 可解释 无监督 实时 统计分布原理 配置门槛低 周期性问题 窄脉冲问题 大小规模问题 01 稳定性 智能算法 异常检测 指标接入 ? ? ? ? ? ? 噪音黄金指标 方差(抖动频率)变化 检测尖峰 (深谷) 断崖式跌落 均值变化 趋势预测 告警线 01 稳定性 智能算法 异常检测 指标接入 评价反馈 有效率+覆盖率 01 稳定性 智能算法 异常检测 指标接入 评价反馈 根因分析 实体A 实体B 实体C 指标事件日志 维度下探 关联分析 01 稳定性 智能算法 异常检测 指标接入 评价反馈 根因分析 维度下探 关联分析 集群诊断 基于图模型的推断 自愈闭环 感知决策执行 02 成本 稳定性 效率成本 02 成本宏观视角 地域X 集群A 集群 资源要素 计算 存储 文件数 应用A1 应用A2应用An 集群B 应用B1 应用B2应用Bn 带宽资源 地域Y 集群C 应用C1 应用C2应用Cn 跨域带宽资源 数据依赖 数据依赖数据依赖 02 成本宏观视角 地域X 集群A 集群 资源要素 计算 存储 文件数 应用A1 应用A2应用An 集群B 应用B1 应用B2应用Bn 带宽资源 地域Y 集群C 应用C1应用C2 应用Cn 跨域带宽资源 数据依赖 02 成本宏观视角 运筹优化模型 优化目标最小化跨域带宽资源消耗 约束条件集群资源、带宽资源 节省长途带宽 *Tb, 减少*PB存储冗余 决策变量应用a是否迁往集群X 02 成本微观视角 公共云客户 预付费 预付费 资源池 运筹优化 二级资源组的划分各资源组配额分配 时序预测 客户资源使用用户满意度 等待时长 满足率 不公平度 反馈调整 02 成本微观视角 等待时长 资源满足率 不公平度 机器数 用户满意度 资源申请量 资源申请量 03 效率 稳定性 效率 成本 03 效率运维侧智能答疑提效 人工答疑 ChatOps机器人 海量作业 报错日志 解决方案 日志聚类 03 效率运维侧智能答疑提效 海量作业 报错日志 结构化特征 Log Parser 实体提取 语义特征 Log Clustering 自然语言处理 专家标注解决方案智能答疑 实时在线聚类 03 效率用户侧同步任务提效 ? ?1?2 两个BU同步速度分布 占比 同步速度 用户经验 参差不齐 算法赋能? 同步任务 属性 聚类算法 参数推荐 0 2 4 6 8 10 12 14 16 18 12 ? 平均速度提升7倍 03 效率用户侧同步任务提效 同步速度真的越快越好吗? 流量尖峰提升错峰运行同步任务 DataOps智能运维实践 稳定性 效率成本 异常检测根因分析集群诊断 感知决策执行 宏观微观 跨域 应用排布 公共云 资源管理 运维侧用户侧 日志聚类 智能答疑 任务聚类 参数推荐 DataOps背后的数据链路 数据规范 DWS/ADS层 (汇总应用级数据) DWD层(明细层) ODS层(度量)DIM层(维度) 数仓建设 计算存储 离线 在线 MaxCompute RealtimeCompute MaxCompute OSS AnalyticsDB RDSTSDB 数据采集 SLSDataHubTT 数据服务 CMDB (实体管理) PMDB (指标、事件、日志) 知识图谱 (实体+关系) 数据工具 数据地图 质量管理 开发IDE 数据分析算法部署 实时算法Alink离线大规模算法PAI 深度学习PAI on Tensorfl ow DataOps背后的数据中台 阿里云公共服务 MaxcomputeRealtimeComputeDataworksOTSSLS日志服务 通用分析层 异常检测日志聚类通用诊断运筹优化 运维业务层 流式计算通用计算算法平台数据工厂数据通道交互式分析 大数据运维中台 作业平台 自愈平台ChatOps 流程平台 运筹优化机器学习统计分析 算法层 深度学习 CMDBPMDB 数据服务层 统一数仓 数据规范知识图谱 抽象数学问题 业务需求沟通 算法模型 数据ETL 算法性能评估和运作机制 解决方案产品化 研发流程 系统架构设计 数据服务化 业务落地 运维 PD 架构师 研发 用户 DataOps落地挑战 业务理解鸿沟 算法性能 架构稳定性 可解释性泛化能力 用户体验 产品设计 数据获取
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号