资源预览内容
第1页 / 共54页
第2页 / 共54页
第3页 / 共54页
亲,该文档总共54页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
十四、服务方案十四、服务方案 一、机房及设备维护方案与计划机房及设备维护方案与计划 1、预防性检查 1.1 巡检时间 每个工作日上午 9 点 1.2、巡检地点 计算机机房、精密空调、UPS 1.3、巡检目的 进行机房检查,对机房设备及供电系统、UPS 系统、精密空调系统、录像系统等设备进行检查, 及时发现设备隐患,排除故障。 1.4、巡检要求 1.4. 1.巡检期间,进行状态检查,若发现问题,如计算机机房物理环境异常、精密空调异常、UPS 及配电系统异常等,应按照应急预案及操作流程进行处理。 (1)电源、UPS:检查机房供电状况,UPS 工作情况、指示状态。检查 UPS 蓄电池使用状态,确保 蓄电池无松动。并使用温度枪进行检测物理温度。确保配电柜及 UPS、蓄电池无温度过高现象。 (2)机房环境:检查机房卫生状况及物理环境。 (3)机房温度:检查温湿度,将温湿度控制在一定范围内。温度:225,湿度 60%. (4)机房空调:空调运行状态、空调内部有无漏水现象、空调噪音、空调风量等。 (5)机房照明:机房照明系统是否正常,有无异常状况。 (6)机房 PDU:PDU 市电或 UPS 是否正常,使用温度枪进行检测外部物理温度。 (7)机房整体:检查机房其余设备运行状态,有无报警及指示灯异常状态。 1.4. 2.如果故障按恢复规程无法有效恢复,特别是当发生机房环境(动力、空调)故障、关键的 设备、网络、系统、服务如无法及时恢复时,应立即通知甲方相关领导,由相关领导协调资源进行 故障处理。 1.4.3.故障处理过程必须在机房日常巡检表的备注栏中详细记录,以备查阅。 1.5、计算机机房现场管理要求 1.除工作人员外,其他工作人员进出机房,需签字后方可进入,同时计算机机房人员要在现场, 检查监督其人员工作,避免其他人员未经授权擅自接触机房物理设备。 2.机房的机柜、线缆、设备等的标签管理; 3.机房环境清理。 1.6 每日检查内容列表 项目项目性能检查内容性能检查内容脆弱性检查内容脆弱性检查内容 空调系统 高压压力、低压压力(风冷系统) ,冷冻 水压力、温度,冷却水压力、温度(水 冷系统) ,风机运行情况,滤网、内机排 水系统、灰尘情况等。 机房热点情况、室内机漏水检 查、室外风机运转情况、加湿 罐阳极棒检查、过滤网检查等。 供配电系统 输入输出功率,输入输出电流、断路开 关、接地电阻、零序电流、器件发热情 况等。 导线、器件发热情况,断路开 关、防浪涌器件情况等。 UPS 系统 负载功率情况、器件发热情况、电池情 况(外观、液位、接线柱)等。 器件、导线发热情况,电池放 电时间等。 安全系统 录像备份管理、出入机房登记、器件灵 敏度、画面清晰度(不同照度情况下) 、 云台运行等。 器件灵敏度、监控死角问题等。 设备运行 查看设备运行指示灯、机房照明运行情 况、机房环境 设备运行是否有报警情况、照 明是否正常、机房卫生是否整 机房环境洁等 2、现场故障维修 每日巡检过程中,如有发现设备及环境系统有故障状态,需进行记录并恢复故障状态。如不能立 即恢复故障状态,则需进行应急预案处理。具体如下: 2.1 环境故障:卫生、温湿度、照明。 (四级故障) 2.2 交换机故障:交换机蜂鸣,交换机启动不正常,指示灯异常。 (三级故障) 2.3 空调故障:空调压缩机故障、空调冷凝水故障、空调漏水故障、空调制冷故障、空调加湿器故 障等。 (二级故障 2.4 UPS 故障:UPS 逆变故障、UPS 旁路、UPS 蓄电池温度、UPS 蓄电池外观鼓包现象、UPS 蜂鸣报警 等(一级故障) 2.5 配电柜故障:配电柜内温度过高、配电柜打火现象等。 (一级故障) 在解决故障时,最大限度做好故障恢复的文档,力争恢复到故障点前的业务状态。对于“系统瘫 痪,业务系统不能运转”的故障级别,如果不能于 30 分钟内解决故障,应立即提出应急方案,确保 业务系统的运行。故障解决后 24 小时内,提交故障处理报告。说明故障种类、故障原因、故障解决 中使用的方法及故障损失等情况。故障类型、级别及相应标准列表: 故障级别响应时间 故障解决 时间 I 级:属于紧急问题;其具体现象为:机房出现电力 事故等意外情况导致业务停止、UPS 系统崩溃导致业 务停止、空调系统崩溃导致业务停止。 电话立即响应, 5 分钟内人 员抵达现场,30 分钟内恢 复业务使用, 2 小时内提交 故障处理方案。 12 小时以 内 II 级:属于严重问题;其具体现象为: 出现部分部件失效、系统性能下降但能正常运行,不 影响正常业务运作。 电话立即响应, 5 分钟内抵 达现场, 1 小时内提交故障 处理方案 24 小时以 内 III 级:属于较严重问题;其具体现象为:出现系统 报错或警告,但业务系统能继续运行且性能不受影 响。 电话立即响应, 5 分钟内抵 达现场, 2 小时内提交故障 处理方案 48 小时以 内 IV 级:属于普通问题;其具体现象为:系统技术功能、 安装或配置咨询。 电话立即响应,30 分钟内 抵达现场, 2 小时内提交故 障处理方案 3 天内 3、后台故障维修 后台故障状态维修,需要在甲方允许的情况下,对设备进行维护及维修。 3.1 质保期内的设备由我方查找故障原因并填写故障申请单,交由甲方进行协调处理,并协助 甲方进行故障排除及维修。如需联系厂商,则由我方负责。 3.2 三级及四级故障状态,我方可自行进行维护和维修的设备,报由甲方同意后,我方自行进 行设备维修,更换零配件部件等,并将维修记录保存文档交由甲方及我方双方管理。 3.3 质保期外的设备出现故障,则由我方统一进行维修,费用由我方负责。并将维修记录报由 甲方确认并存档。 3.4 设备更换 对于无法修复的设备,在合同有效期内,经甲方审核,由乙方负责整体更换同型号或类似型号 的产品,无法维修的设备交由甲方。更换单个备品备件费用大于等于 500 元时,报甲方审核同意,备 品备件费用由甲方承担; 更换单个备品备件小于 500 元时,备品备件费用由乙方承担, 质保期内由供 货商(厂商)进行更换的除外。 4、资产管理 4.1 对硬件设备型号、数量、版本等信息统计记录 4.2 对软件产品型号、版本和补丁等信息统计记录 4.3 对机房设施设备连接统计记录 4.4 对综合布线系统结构图的绘制 4.5 对机房更换设备连接统计记录 4.6 每月向甲方上报低值易耗品记录,包括仓库存储情况、耗材使用情况。 4.7 机房更新及更换设备的统计 4.8 机房维护设备及备品备件的管理及记录 5、应急处理 随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突 发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常 运行为宗旨, 按照 “预防为主, 积极处置” 的原则, 本着建立一个有效处置突发事件, 建立统一指挥、 职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程 度减轻到最低,确保员工安全,特制定本应急处置预案。 本预案共分为应用系统故障应急流程和机房突发事件应急流程 系统故障应急流程 一、系统故障应急流程说明 1、故障发生 系统运维服务小组可从以下途径得知故障的发生: 1.1、运维服务中心通过网管告警发现故障 1.2、维护站点通过维护巡检发现故障 1.3、用户发现故障,报给呼叫中心 1.4、驻场工程师发现故障 2、报障受理 监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障 情况。 3、信息研判 运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立 即启动系统突发故障应急处理预案。 4、预案启动 如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启动应急预案,对系 统突发故障应急事件进行全面管控处理。 5、资源确认 系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备 品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源: 我公司技术支持人员; 相关厂家技术支持人员; 我公司聘请的技术专家 6、预案执行 按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急领导小组汇报。 7、预案终止 预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后 报系统突发故障应急领导小组决定。 8、结果上报 预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案。 然后集中上报至系统突发故障应急领导小组。 二、 系统故障应急处理流程图 机房突发事件应急流程 一、机房突发事件分类 1、自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。 2、事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。 3、人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络 与信息系统的损坏。 二、 应急处理人员组织机构 三、 应急机构人员岗位职责 1、应急总指挥职责 1.1、保证在任何时间,及时协调应急行动所有涉及的岗位人员; 1.2、提供必须的紧急响应设备; 1.3、在紧急情况下全面负责紧急行动; 1.4、在必要时向外界求救,例如:119、110、120 等。 2、应急副总指挥职责 2.1、在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责; 2.2、根据获得的应急信息下达命令。 3、各相关设备负责人职责 3.1、负责尽快收集信息向应急总指挥汇报事故情况; 3.2、负责现场临时设备抢救和对事态的控制; 3.3、听从上级指挥人员的指挥。 四、突发事件处理原则 1.预防为主。立足安全防护,加强预警,重点保护基础信息网络和关系信息安全、稳定的重要 信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施 充分发挥各方面的作用,共同构筑安全保障体系。 2.快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判, 果断决策,迅速处置,最大程度地减少危害和影响。 3.分级负责。按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制。根据 各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。 4.以人为本。把保障人员以及公共利益的安全作为首要任务。 5.常备不懈。加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预 案切实有效,实现网络与信息安全突发公共事件应急处置的科学化、程序化与规范化。 五、机房应急开关机具体措施 机房各设备关闭顺序如下: 六、机房日常维护 1、建立健全机房管理制度 1.1 在正常工作日内,信息技术部人员负责对机房进行监控,主要职责是:巡视网络设备及系 统的运行情况,发生异常情况及时处理,消除网络故障隐患。 1.2 节假日期间技术人员轮流值班,负责处理有关异常情况。 1.3 机房采取来人来访登记制度,未经允许,无关人员不得进入公司机房区域。 2、机房内严格采取防雷、防火、防尘、防静电等措施以及机房 24 小时监控等措施。 3、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。 4、对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况 应及时进行处理,确保整个网络的正常运行。 七、服务器及存储设备故障处理 1、排错流程 2、应急处置具体措施 2.1 机房漏水应急预案 (1)发生机房漏水时,第一目击者应立即通知运维服务小组,并及时报告监控系统突发故障应 急领导小组。 (2)若空调系统出现渗漏水,运维服务小组负责人应立即安排停用故障空调,清除机房积水, 并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用备用空调对服务器进行降温。 (3)若为墙体或机房门渗漏水
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号