资源预览内容
第1页 / 共30页
第2页 / 共30页
第3页 / 共30页
第4页 / 共30页
第5页 / 共30页
第6页 / 共30页
第7页 / 共30页
第8页 / 共30页
第9页 / 共30页
第10页 / 共30页
亲,该文档总共30页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据中心应急预案V1.02017年11月修改记录:*A 新增 M 修改 D 删除版本下发日期影响范围修订人审批人概 要 描 述目录一、总则5二、术语5三、适用范围5四、应急通讯录5五、现场应急指挥领导小组6六、应急事件汇报流程7七、操作安全注意事项9八、应急处理预案流程9(一)市电双路供电中断9(二)UPS故障处理11(三)机柜空开掉电13(四)风冷精密空调故障高温处理13(五)水冷空调高温报警处理14(六)局部高温处理16(七)空调供电中断多台16(八)空调高压报警17(九)空调低压报警及制冷剂泄漏处理17(十)机房低温报警处理18(十一)机房湿度过低的处理19(十二)机房湿度过高的处理19(十三)气流故障处理20(十四)漏水应急处理20(十五)环境监控故障处理22(十六)消防系统应急处理22(十七)公共卫生事件处理25(十八)防汛应急处理27(十九)治安应急处理32(二十)地震应急处理34九、应急操作指引维护35一、 总则为提高运维人员对各种险情及紧急情况的应对能力,以防突发性事件对公司和客户造成重大损失,结合运维实际,制定各种应急事件处理预案。应急预案遵循以防为主、防救结合的方针,坚持以人为本、避免伤亡原则,做到责任明确、程序简洁、分工合理、反应灵敏,以应对可能出现的各类险情及紧急情况。为加强对突发性事件(事故)应急反应的组织领导工作,在数据中心成立现场应急指挥领导小组,组织指挥重特大突发性事件(事故)的救援、抢险工作,确保救援、抢险工作反应迅速、组织有序、效果突出。二、 术语防护用品:劳动者在生产过程中为免遭或减轻事故发生和职业病危害的个人随身穿(佩)戴的用品。防护设施:在生产过程中为免遭或减轻事故发生和职业病危害的公共防护设备。操作资格:特种作业人员必须经专门的安全技术培训并考核合格,取得中华人民共和国特种作业操作证(以下简称操作资格证)后,方可上岗作业。三、 适用范围数据中心。四、 应急通讯录应急通讯录应定时更新,对供应商值班电话应按月度抽查有效性。各职位A/B角互换,当第一负责人A角联络不上时,B角人员担当行使第一负责人职权。应急通讯录应打印成册放置在数据中心值班电话旁的明显位置。五、 现场应急指挥小组数据中心成立现场应急指挥小组,小组成员履行规定的应急职责。现场应急指挥小组架构图中应有明确的小组人员姓名和联系方式,并打印张贴在数据中心明显位置。运维管理部门应急指挥机房(机房运维经理)机房配电应急组长(机房配电工程师)机房暖通应急组长(机房暖通工程师)机房监控应急组长(机房消安防工程师) 应急总指挥总指挥、协调,向上级汇报应急现场指挥现场总指挥、协调人员,实时向上级汇报应急配电组变配电系统应急现场操作、人员调配、现场情况汇报应急暖通组暖通系统应急现场操作、人员调配、现场情况汇报应急安防组消安防系统应急现场操作、人员调配、现场情况汇报应急成员现场所有各专业人员六、 应急事件汇报流程(一) 在应急事件中的汇报遵守如下流程: 突发事件发现人报告给数据中心值班人员 数据中心值班人员报告到数据中心应急总指挥; 应急总指挥根据反馈信息,对整体的事件初步情况报告做出判断,组织人员初步评估事件严重程度和事件等级,决策启动相应应急程序。 各相应应急组组长接受到通报后,根据应急流程实施应急指挥。(二) 事件通报机制:内部通报机制客户通报机制供应商通知机制5分钟响应处理电话、短信、邮件通知数据中心总经理、数据中心主管、运维(DC)经理、基础设施条线经理、相关部门负责人根据SLA要求确定通报机制立即通知相关设备/维保服务商/物业立即通知CSC/ADMCSC/ADM立即通知客户根据服务协议约定到场时间2小时未修复,升级至厂商管理层二级事件:5分钟响应处理电话、短信、邮件通知数据中心总经理、数据中心主管、运维(DC)经理、基础设施经理、相关部门负责人根据SLA要求确定通报机制立即通知相关设备/维保服务商/物业立即通知CSC/ADM5分钟内CSC/ADM通知客户根据服务协议约定到场时间4小时未修复,升级至厂商管理层三级事件:5分钟响应处理电话、短信、邮件通知数据中心运维经理、数据中心运维人员根据SLA确定客户沟通机制根据服务协议约定到场时间5分钟内通知CSC/ADM5分钟内CSC/ADM通知客户24小时未修复,升级至厂商管理层四级事件:5分钟响应处理电话、短信、邮件通知数据中心运维经理、数据中心运维人员根据SLA确定客户沟通机制根据服务协议约定到场时间5分钟内通知CSC/ADM5分钟内CSC/ADM通知客户48小时未修复,升级至厂商管理层七、 操作安全注意事项以下的内容列出了基本的安全注意事项,但它不能包含所有的情况,应时刻警惕!1. 没有数据中心经理许可,严禁任何人员触及各供电设施开关。2. 油罐区、柴油发电机组及配电间和UPS 间应急电源系统设备所在区域,此区域严禁明火和电焊操作,非工作人员或未经上级部门许可人员,严禁入内。3. 所有操作运行人员必须有操作职格证及公司内部安全培训,否则不能执行操作,安全培训包含在应急电源系统的培训内。4. 操作运行人员必须完全熟悉相关设备的安全信息,并且知道操作步骤。5. 在机组周围要时刻注意机组的状态,安全隐患包括机械运动、电气伤害、高电压、烫伤等。6. 注意警告标牌并且在操作之前要确认无人在机器周围工作。八、 应急处理预案(一) 市电双路供电中断 值班工程师1. 值班人员接到故障报警的信息后,查看监控报警平台影响范围,包含UPS后备时间,空调运行状况,向设施工程师及数据中心经理汇报。2. 短信平台发出告警短信通知基础设施工程师及数据中心主管现场处理。3. 巡检人员查找断电原因,查看发电机是否自动或人员手动投入(发电机投入时间应在10分钟内投入)。4. 值班人员在电脑上查看UPS的输出电压和备份时间,上报设施工程师及DC经理,同时观察机房环境温升情况。5. 发电机供给正常后,检查冷机及配电、UPS运行状况,根据温升情况,开启机房备用空调,并全面巡检空调及日常设施(CCTV、门禁等)。 6. 根据设施工程师安排进行应急处置。7. 待处理结束将处理过程、处理结果录入Remedy。 基础设施工程师1. 根据故障信息,现场进行处理。2. 向DC主管进行汇报事件处理进程及影响评估。3. 根据机房温升判断,不可控情况下,在室外气温25度以下,开启消防排烟进行降温。4. 根据电路供给情况,对空调配电进行手动切换。5. 指挥关闭一些不必要设备,节约电力资源。 数据中心主管1. 第一时间向ADM及客户当值人员汇报当前故障信息及后续发展评估,建议客户评估并关闭非关键IT设备。2. 协助现场处理及资源协调(干冰采购等)。3. 关注发电机油料储备情况,向数据中心经理及ADM及时汇报事件处理进展。 注: 一路供电中断1. 一路市电供给故障后,低压配电系统母联自动投入运行,接替失压段的负荷。 当现场自动启动无效时, ,需要手动分别启动失压段的所有低压母联开关 ATS转换失败1. 因市电供给故障,柴油机组启动正常,但ATS故障不能完成切换,需要及时通知上级主管。2. 需要手动投入备路开关。(二) UPS故障处理 值班工程师1. 向基础设施工程师汇报故障信息及影响范围。2. 通知巡检人员现场查看有异常有烟雾时及时通知中控室。3. 通知厂商驻厂工程师到现场维维修。4. 全面巡检机房客户设备有无报警。5. 办理厂商人员进出手续,录入Remedy事件单。 基础设施工程师1. 信息判断:查看UPS故障信息,一台还是多台故障,一台故障是否影响到整体运行(正常:并机UPS一台故障会退出运行,负载转移至其它UPS。异常:UPS整体退出,全部负荷自动向另一路进行切换。2. 根据故障情况评估事件发展,向领导汇报。3. 协助厂商进行维修,了解操作步骤是否对数据中心产生风险。 数据中心主管1. 向ADM及数据中心经理汇报,故障情况,严重程度。2. 向客户建议2N供电系统单电源设备业务进行评估。3. 跟进后续故障原因及解决方案。(三) 机柜空开掉电 值班工程师1. 现场查看空开对应设备信息向基础设施工程师汇报。2. 向电气工程师、数据中心经理及ADM汇报。3. 办理厂商人员进出手续,录入Remedy事件单。 基础设施工程师1. 查找故障点分析掉电原因。查看机柜内PDU保护开关是否动作。有动作拔开此设备电源线进行万用表进行检查是否短路。没有保护开关拔开所有电源线,逐台设备电源进行检测。拔开工业联接器进行检查PDU是否短路接地。检查插座是否短路接地。2. 因某台设备故障引发掉电,向客户汇报故障点基本判定是否可以对此机柜其它正常设备进行送电。等待厂商进行现场维修。3. PDU故障,使用数据中心备用PDU给客户及时更换。4. 总结分析故障原因,出具故障报告。(四) 风冷精密空调故障高温处理 值班工程师1. 接到故障报警的信息后,第一时间到达现场,开启备用空调。2. 电话通知基础设施工程师现场处理、数据中心主管。3. 一台空调故障,备机开启后,温度恢复正常。4. 二台空调出现时故障,联系紧急运送干冰至数据中心并加开应急排风机。5. 对机房高热区域设备打开机柜前后门及通风地板,利于设备散热。6. 关闭机房工作中不必要负荷,工作中的加湿设备,机房部分照明。7. 根据设施工程师安排进行其它故障处理操作。8. 待处理结束将处理过程、处理结果录入Remedy。(五) 水冷空调高温报警处理 值班工程师1. 现场查看供水温度(高于16度以上为异常)。2. 开启备用空调。3. 通知值班室了解情况及是否启用其它冷机。如无备用冷机,紧急联系将干冰运送至数据中心加开应急排风机。4. 向数据中心设施工程师汇报。 基础设施工程师1. 安排指导资深操作员,进行相关操作。2. 根据故障信息,现场进行处理。3. 向DC主管进行汇报处理情况,机房温度变化。4. 根据机房温升判断,在室外气温25度以下。加开应急排风机。5. 协助厂商进行故障处理。 数据中心主管1. 第一时间向项目经理(客服)及客户当值人员汇报当前故障信息及后续发展评估,建议客户评估并关闭非关键IT设备。2. 协助现场处理及资源协调(干冰采购等)。3. 向数据中心总
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号