资源预览内容
第1页 / 共48页
第2页 / 共48页
第3页 / 共48页
第4页 / 共48页
第5页 / 共48页
第6页 / 共48页
第7页 / 共48页
第8页 / 共48页
第9页 / 共48页
第10页 / 共48页
亲,该文档总共48页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
中国金融期货交易所China Financial Futures Exchange 系统监控方法及Host Monitor 系统监控软件使用说明- 2 -l内容提要n 第一部分:系统监控方法及内容系统监控的作用、范围及实际应用n 第二部分: HostMonitor系统介绍介绍HostMonitor系统监控软件 的主要功能与使用方法- 3 -l第一部分:系统监控方法及内容n 系统监控能带给我们什么n 系统监控的范围及实际应用n 如何制定相应的监控策略l系统监控能带给我们什么?(一)n 系统运维从“被动管理”向 “主动管理” 转变n 第一时间发现系统异常,避免问题向事故转化n 对系统运行状态的集中化管理n 辅助系统管理员快速判断问题及解决问题- 4 -l系统监控能带给我们什么?(二)n 提供多种故障告警方式,及时通知相关责任人,避免故障 发生n 收集系统及应用的运行日志,分析发现其中的异常,预测 系统可能出现的问题,将问题消灭在萌芽状态- 5 -l系统监控的范围n 网络: 网络设备(支持SNMP指令的)、联通性、路由等n 主机:CPU利用率、内存使用、IO性能、网络流量等n 数据库:可用性、性能、空间、连接数、死锁等n 应用:可用性(OA、邮件)、CPU利用率、内存使用、 网络资源占用、进程资源、网络资源、磁盘访问资源等- 6 -l监控的实际应用(一)n 外联单位链路、主机、路由、应用端口 交易所 银行 保证金监控中心 营业部 拨号备份线路- 7 -l监控的实际应用(二)n 服务器主机 CPU 利用率(10-30秒采样) 磁盘可用空间(10-30分钟采样) 内存使用(10-30秒采样) 网络连通情况(5-10秒采样)- 8 -l监控的实际应用(三)n 数据库服务 连接及登录检查 监听端口检查 数据库可用空间检查 死锁检查 无效的对象检查 连接数检查 LOG文件检查 核心参数检查- 9 -l监控的实际应用(四)n 核心应用监控 应用端口检查(可用性、响应时间) 运行环境检查(CPU、磁盘、内存、网络) 进程数检查 进程资源占用检查 应用日志文件检查(定时增长、异常输出等) 配置文件检查 核心参数检查- 10 -l监控的实际应用(五)n 周边应用 OA系统 报表系统 邮件系统 FTP系统等- 11 -l如何制定相应的监控策略n 了解应用特性,制定相应的监控策略 避免和应用冲突 避免影响应用性能 根据具体应用规划监控时间及监控频率 无人值守时通过短信等方式报警 涉及到性能的监控应采用多级监控及报警 如CPU、内存、空间占用等 核心应用应从多方面、多角度进行监控- 12 -l制定监控策略应注意的问题n 不能影响现有系统的正常工作n 监控对系统资源的占用上不对系统产生较大影响CPU资源占用应该在5%以下n 监控策略不是越多越好,应注意逻辑控制,防止异常时多 个监控项同时报警,不利于问题查找- 13 -l监控与巡检的关系n 系统监控是既有运维经验的提炼n 系统监控是高效的巡检方式n 系统监控是运维的辅助工具,为系统运维提供帮助n 定期对系统重要运行环节的检查是不可替代的- 14 -l巡检注意事项n 巡检应该在关键时间节点进行 开盘前,交易小结前后,午盘前后,收盘等关键的业务节点n 巡检注意事项 巡检中不应该夹杂操作内容 尽量避免可能的误操作 在不同的时间点,检查项目有所偏重- 15 -l性能指标的收集n 巡检和监控中定期性能指标的采集 CPU、内存、磁盘等性能容量采集n 性能指标用途 容量管理基础数据积累 容量指标异常时,可能预示故障- 16 -l监控系统奠定基础n 监控系统建设的基础 IT系统风险点的识别 监控指标的识别 配置的识别 容量的识别从运维辅助工具作起,逐步完善日常系统运维体系- 17 - 18 -l第二部分: HostMonitor系统介绍n HostMonitor软件主要功能特点 n HostMonitor主要监控方法介绍网络监控 磁盘空间、文件监控 服务器主机监控 数据库监控 Text Log 检查 n 灵活的监控时间控制 n 远程监控Host Monitor软件主要功能特点n 58 种检测方法,能检查主机及应用的各种参数 n 全面的异常报警方法 n 多种格式的日志记录 n 灵活的监控时间控制 n 内置报表管理器,可生成各类自定义监控报表 n 可使用RMA(Remote Manage Agent)监控远程网络 n 支持Web 、Telnet、Remote Control 等多种远程管理方式- 20 -l系统主要功能介绍58种检测方法n 17项网络相关监控(Ping、TCP、UDP) n 8项磁盘、文件相关监控 n 7项数据库相关监控 n 6项Windows 相关监控 n 3项常规监控 n 15项UNIX相关监控 n 2项其他监控l系统主要功能介绍 30种报警方式n 弹出窗提示、声音报警 n EMAIL 通知 n 发送HTTP、TCP、UDP 数据到指定地址 n 输出到Syslog 日志服务器 n 外部程序或者脚本调用 n 启动、停止指定服务 n 重启远程计算机- 21 -l系统主要功能介绍强大的报表管理和日志分析工具n 可将测试结果生成不同类型的日志文件TXT、HTML、DBF、ODBCn 可针对不同的岗位定制特定的日志报告如 主机管理、数据库管理、OA管理、IT 管理人员等n 可针对不同的测试根据时间周期产生图形化的报表- 22 -l系统主要功能介绍跨平台支持的远程监控代理n 可 通过Remote Monitor Agent(RMA)监控在其他网络 的远端主机n 可支持Windows、Linux、Unix等多种平台- 23 -l系统主要功能介绍支持多种远程管理方式n 可通过Web方式进行远程管理n 可通过Telnet方式进行远程管理n 可通过 RCC 远程控制远端的Host Monitor- 24 - 25 -l Host Moniter 常用监控方法介绍n 网络监控:Ping、Trace、TCP n 磁盘空间、文件检查:UNC n Windows 相关监控:Process、CPU Usage、Performance Counter n Txt Log 检查 n Db Server 检查 n Ras 检查 n 外部程序调用检查l 网络监控Ping 监控- 26 -原理: 发送ICMP报文到目的地址,根据对方回应进行检测 用途: 检查远端主机、路由或者其它网络设备的连接状态 报警: 指定时间内X%的回应报文丢失 显示: 响应时间、丢包百分比、收包百分比l网络监控Ping Test 设置界面- 27 - 28 -l网络监控Trace 监控(一)原理: 发送ICMP报文到目的地址,根据对方回应进行检测 用途: 用于路由检测 报警: 1、路由改变 2、总跳点数不等于指定值 3、总跳点数大于指定值l网络监控Trace 监控(二)4、总跳点数小于指定值 5、应答超时 6、路由通过指定IP 7、路由没有通过指定IP 显示: 1、总响应时间 2、平均响应时间 3、最大响应时间- 29 -l网络监控Trace 监控(三)4、总跳点数 5、没有响应的节点数 6、路由信息(只显示IP) 7、路由信息(显示跳点、IP、响应时间)- 30 -l网络监控TCP 监控n 可监控所有基于TCP的应用,如 FTP(21) Telnet(23)SQLSERVER(1433),ORACLE(1521) 等 n 可发送测试报文,检查指定端口的应答报文n 可根据收到的回应报文报警有/无应答 应答报文的内容进行匹配包含/不包含指定字符串或等于/不等于指定字符串- 31 -l磁盘、文件相关监控UNC 检查n (Universal Naming Conversion) 通用命名约定 检测本地或者网络共享资源的磁盘空间检测 类似 servershare 描述方式 需指定连入用户及密码 报警: 1、资源不可用 2、可用空间小于指定值(登录用户) 3、总可用空间小于指定值- 32 -lRAS(Remote Access Service)n 通过RAS的连接进行远程监控访问,可用于拨号链路、 ISDN的检测n 可用于拨号备份、公司内部的ISDN的检测- 33 -lWindows 相关监控Process 监控n 检查本地或者远端进程数,当进程数不在指定的区间内则 报警Windows:需要用指定帐号连接到远端机器,且远端主机的 Remote Registry Service 服务必须打开 也可通过RMA for win 实现UNIX: 使用RMA 进行监控- 34 -lWindows 相关监控 CPU Usage 检测n 检查本地或者远端主机的CPU利用率,当利用率大于指定 值时报警Windows:需要用指定账号连接到远端机器,且远端主机的 Remote Registry Service 服务必须打开 也可通过RMA for win 实现UNIX: 使用RMA 进行监控- 35 -lWindows 相关监控 Performance Counter 监控n 监控目标主机的性能计数器n 可监控内存、处理器、磁盘、进程等各项资源n 可设定多种报警方式及提示n 通过登录用户或者RMA进行连接- 36 -lText Log 检查n 检查指定文件中的指定特征串(文件可使用日期宏) n 可使用表达式进行查找 如(error or warning) and not 16550 n 可全字匹配、大小写不敏感、可使用全局的宏定义n 报警时可定义错误行的显示内容(按单词拆分),也可显 示指定特征串在文件中的位置或者提示文件长度- 37 -l DB Server 检查n 检查 SQL Server、Sybase、Oracle 连接n 通过 指定用户进行登录验证- 38 -l 外部程序调用检查n 加载外部可执行程序(exe、bat)n 检查程序的退出参数(errorlevel)来进行报警n 可设定应用程序的运行模式n 可设定指定时间无响应则kill 相关应用- 39 -l灵活的监控时间控制定时执行控任务(一)n 定义自己的监控时间表 n 724 监控(主机、链路、数据库、邮件系统) n 周一到周五(OA) n 交易时间(应用) n 指定时间,每天一次或者每周一次- 40 -l灵活的监控时间控制定时执行控任务(二)- 41 - 42 -l远程监控RMA(Remote Manage Agent)使用(一 )n RMA 的使用提高了网络的安全性 n 降低了网络数据的流量 n 简化了网络的管理 n 通过RMA,可以实现非WIN32平台下不能完成的功能n RMA 与 Host monitor的数据是加密传输的。 n RMA 有 监控站点限制 n 通过RMA MANAGER 可以配置、重启、升级 RMA- 43 -l远程监控RMA(Remote Manage Agent)使用(二 )- 44 -l远程监控 Telnet service 的使用及特点n 以Telnet Server的方式运行,提供Telnet 管理接口 n 通过指定端口(1054)连接远端或者本地的 HostMonitor(需要打开RCI支持) n 客户端与Server点通讯数据加密传输 n 可以以服务(Service)方式运行 n 客户端权限控制,不同的用户拥有不同的管理及操作 权限lTelnet Service 设置界面- 45 - 46 -lWeb service 的使用及特点n 以HTTP Server的方式运行,提供Web 管理接口 n 通过指定端口(1054)连接远端或者本地的 HostMonitor(需要打开RCI支持) n
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号