资源预览内容
第1页 / 共20页
第2页 / 共20页
第3页 / 共20页
第4页 / 共20页
第5页 / 共20页
第6页 / 共20页
第7页 / 共20页
第8页 / 共20页
第9页 / 共20页
第10页 / 共20页
亲,该文档总共20页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
运营商长期、最佳、合作伙伴ITIT应急容灾应急容灾系统建设系统建设可行性论证可行性论证北京神州数码思特奇信息技术股份有限公司运营商长期、最佳、合作伙伴2目录第一部分:容灾系统建设背景第二部分:业界容灾方案分析第三部分:容灾系统建设方案运营商长期、最佳、合作伙伴国际:IT系统业务中断原因分析根据国际IT风险评估数据显示,引起IT系统业务中断的原因构成为:软硬件 故障占60% ,人为因素占13% ,计划内(上线、割接等)中断占14% ,机房环 境占10% ,自然灾害占3% 。可以看出软硬件故障、人为因素以及计划内作业 是业务中断的主要原因。运营商长期、最佳、合作伙伴国内:中移动客户投诉原因分析从2009年中国移动集团公司支撑网投诉分析数据中可以看出,系统故障 在客户投诉原因中位居第二。系统故障不但影响客户满意度,同时也加大了 公司收入流失的风险。如何采取业务保障策略,规避系统运行风险带来的客户负面感知,是所 有运营商面临的挑战。系统类型可修复时间影响评估开关机系统1小时大面积投诉,群体事件营业系统2-15小时大面积投诉,群体事件计费系统36小时千万级收入损失,投诉账务系统60-80小时亿级收入损失,投诉数据来源:2009年集团公司支撑网投诉原因分析中移动中等规模省份重大故障影响分析运营商长期、最佳、合作伙伴5目录第一部分:容灾系统建设背景第二部分:业界容灾方案分析第三部分:容灾系统建设方案运营商长期、最佳、合作伙伴业界运营支撑业务连续性保障四种模式根据容灾系统建设方案的综合分析,容灾系统建设模式可以总结为业务连续 性保障“四种模式” 。生产中心生产中心应急中心应急中心容灾中心容灾中心关键业务和关键业务和 数据镜像数据镜像完整业务和完整业务和 数据镜像数据镜像 数据备份中心数据备份中心关键数据镜像关键数据镜像数据级关键业务级全业务级双节点双节点 双路由双路由容灾模式保障方法风险防范响应机制建设模式投资成本资源复用率生产中心双节点双路由负载均衡部分设备单点故障短暂中断最高应急中心关键业务和数据镜像部分设备故障分钟级本地应急小高容灾中心全业务和数据镜像机房环境、系统故 障小时级与生产互备 或多个生产大低数据备份 中心关键数据镜像自然灾害 数据丢失小时或天备份较大最低运营商长期、最佳、合作伙伴他山之石:中移动容灾方案概况项目山东辽宁四川河北浙江江苏重庆吉林内蒙江西用户规模6900万3500万5000万4500万5200万5800万1800万2100万2000万2000万容灾模式三个生产 中心互备+ 应急两个生产 中心互备 +应急两个生产 中心互备 +应急多个生产 中心互备 +应急三个生产 中心互备+ 数据备份三个生产 中心互备 +数据备 份三个生 产中心 互备主备+应 急(关键 业务)主备双中心 、双活数据复制 技术智能存储 复制技术智能存储 复制技术智能存储 复制技术智能存储 复制技术智能存储 复制技术智能存储 复制技术智能存 储复制 技术智能存储 复制技术智能存 储复制 技术新智能 存储复 制技术 传输距离 (公里)15异地3020140;异步 方式230;中 转中心3015220,虚 拟带库30应用场景系统故障+ 上线+割接系统故障 +出账系统故障 +出账系统故障系统故障+ 上线+割接系统故障 +上线+割 接系统故 障系统故障系统故 障+出账生产+故 障切换时间计划内: 30分钟 故障:2小 时计划内: 30分钟 故障:2 小时计划内: 30分钟 故障:2 小时计划内: 30分钟 故障:2 小时计划内: 15分钟 故障:2小 时计划内: 30分钟 故障:2 小时计划内 :30分 钟 故障:2 小时计划内: 20分钟 故障:2 小时计划内 :30分 钟 故障:2 小时分钟级优缺点整体效果:浙江在容灾管理方面有其独特的经验值得借鉴,在技术创新上值得借鉴;江西公司在2009年建成双中心,引入 了新技术,采用新的存储复制技术实现了“双中心双活”容灾模式,达到容灾和生产都实时在线运营。优点:1、部分省份通过容灾系统解决了部分计划内业务中断的问题,值得借鉴。 2、底层智能存储复制技术提高了复制速度,保证数据的一致性; 缺点:1、生产和容灾都采用主备方式作业,资源利用率不高; 2、生产和容灾都采用主备方式作业,故障切换时间不确定; 3、采用底层存储复制技术无法解决系统逻辑错误,且受生产和容灾传输距离的影响; 4、全部采用底层存储复制技术,投资较大,应用不灵活;运营商长期、最佳、合作伙伴容灾系统成功应用的关键因素影响容灾建设和运维成效的几个关键因素,具体如下:要树立容灾系统就是生产系统的观念。 容灾系统从建设成功后,基本没有发挥作用,主要用于 工程割接的测试使用,其主要原因就是没有将容灾系统 作为生产系统管理,在投资和运维上没有高度重视。要建立标准的IT运维体系。 容灾系统运维效果非常好,主要原因就是其运维管理的 理念到位、制度完善、执行严格。如:控制系统变更次 数、建立严密的变更同步流程等。1、数据同步技术。容灾技术的选择决定了容灾切换时 间和数据同步完整率。 2、必须引入自动容灾切换技术。 3、提升资源利用率技术。利用技术创新将部分生产任 务迁移到容灾系统。关键因素树立一个 观念建立一套 体系解决几个 关键技术运营商长期、最佳、合作伙伴9目录第一部分:容灾系统建设背景第二部分:业界容灾方案分析第三部分:容灾系统建设方案运营商长期、最佳、合作伙伴异地数据备份中心=生产中心、备份中心生产中心1业务终端WEB层应用层数据层生产 BOSS库备份中心2BOSS 异地容灾库异地数据中心方案概述:考虑对地震等自然灾 害风险的防范,建议 建设异地数据备份中 心.可确保自然灾害发生 时,客户资料、客户 账单详单等客户信息 不丢失,即:数据级 灾备中心;同时可以逐步演进 为生产中心或备份中 心;资源共享资源共享业务终端节约型实用型运营商长期、最佳、合作伙伴复制技术分析复制技 术分类代表产品传输速度理论传输 距离要求优点缺点适用 场景应用层软件开发商 专门编写交易数据无明确要求1、对主机存储无要求; 2、可实现双活1、对数据库存储的数据无法保障 一致性; 2、性能无法满足高业务量需求计费帐 务系统数据库 层Oracle quest24倍交易 数据量无明确要求1、对主机存储无要求; 2、可实现双活;1、性能无法满足高业务量需求; 2、文件系统数据无法复制;非核心 数据库服务器 卷管理 层IBM、HP都 有对应产品48倍交易 数据量20公里1、对应用和数据透明; 2、复制效率高1、占用主机资源高,2030; 2、须同构主机; 3、对传输距离有要求不建议 推荐赛门铁客公 司的Veritas Volume Rep48倍交易 数据量20公里1、对应用和数据透明; 2、复制效率高; 3、可实现双活1、须同构主机; 2、对传输距离有要求; 3、异步方式无法保证数据一致性核心数 据库存储层IBM、EMC 、HP公司都 有对应产品48倍交易 数据量1、同步方 式40公里; 2、异步方 式无要求1、对应用和数据透明; 2、复制效率高1、须同构主机存储; 2、对传输距离有要求; 3、异步方式无法保证数据一致性 4、无法保证双活(无商用新技术 )核心数 据库通过下表复制技术的分析,可以发现复制技术的选择,对系统资源、设备选型、业务 保障、容灾选址等都有影响,建议:采用多种复制技术组合的方式建设容灾系统,核心系 统和关键业务采用智能存储或卷管理,计费系统等话单处理采用应用软件复制方式,非核 心数据库采用数据库复制技术。同时,考虑生产容灾系统数据一致性,不推荐采用异步复 制方式。运营商长期、最佳、合作伙伴应急容灾系统定位在BOSS支撑系统出现异常、或者系统需要停机维护升级等情况下,为了保证用户 基本使用不受影响有必要建立应急机制,保障关键业务连续性:通过开户、缴费、充值应急功能 ,减少收入损失;通过停开机、换卡等应急功能,保障关键客户服务,减少用户投诉;通过客服 查询等应急功能,提供持续客户服务,减少用户不良感知。 重点建设:面向前台的营业受理、服务开通功能不建设:面向后台的计费、帐务功能应急容灾系统填补系统服务 盲点正常运行正常运行系统故障时间系统维护时间系统修复切换容灾系统系统正常运营商长期、最佳、合作伙伴应急容灾系统关键业务列表普通开户普通缴费用户充值补换卡申请报停报停重开套餐变更营业查询语音受理资料查询资料修改余额查询积分查询增值业务退订密码变更预销、销户投资曲线 (主要是系统复杂度和数据存储量)一级关键业务二级关键业务(可选)建议:关键业务边界可根据业务热点统计分析结果分期建设可扩展接入平台客服充值平台电子渠道运营商长期、最佳、合作伙伴应急容灾系统建设要素能够应对生产系统遇到的软件和 硬件故障,提供持续业务能力。在故障发生后,能够提供手工或 自动切换,实现分钟级响应机制。建设mini型生产系统,从系统复杂 度和存储量方面考虑合理投资。在生产系统恢复后,实现方便回切 到生产系统,并保证业务完整。能够将业务数据准确恢复到故障前 合理的时间点,起到应急保护作用。应对风险快速切换方便回切精确恢复合理投资运营商长期、最佳、合作伙伴应急容灾系统体系架构接入层业务层数据层生产系统应急容灾系 统 BOSS一级关键业务二级关键业务BOSS库应急库数据同步功能再造切换接口业务恢复运营商长期、最佳、合作伙伴应急容灾系统功能架构后台模块 前台模块工单生成工单发送服务开通工单处理业务恢复业务工单关键业务可选关键业务系统登录用户充值普通开户普通缴费资费变更申请报停报停重开补换卡语音受理余额查询资料查询密码变更增值业务退订特服变更详单查询数据管理 接口管理业务恢复数据同步外部接口数据清洗应急容灾系统门户应急库运营商长期、最佳、合作伙伴应急容灾系统物理架构营业前台Web服务器应急中间件 服务器应急数据库生产中间件 服务器生产数据库前台营业员登录WEB server IP地址不变, 对营业前台屏蔽系统登录差异性u接入层WEB server IP地址不变,前台营业员登录IP地址不变,对营业前台屏蔽系统登录差异性 u正常状态下:WEB server 连接生产系统的中间件、生产系统数据库;关键数据通过Shareplex准实时向应急数据库做同步;应急系统 不启动 u生产系统故障状态下:应急系统启动,WEB Server断开与生产系统中间件的连接,通过应用程序,指向应急中间件、应急数据库 u生产系统修复状态下:应急系统停止,通过应用程序使WEB Server连接生产系统中间件,在应急系统中读取相关工单,进行自动补录, 同时,清理应急数据库,为从生产系统数据同步做好准备运营商长期、最佳、合作伙伴应急容灾系统数据流图BOSS基础数据三户数据资源数据数据同步基础数据三户数据资源数据紧急登录缴费停开机紧急开户业务恢复业务工单服务开通生产系统 业务工单应急业务 数据同步紧急换卡应急系统22应急操作应急状态,应急系统数据库承担 关键业务的数据存储。33业务工单记录在关键业务执行中,应急系统单 独生成对应业务工单,记录业务 操作信息,为业务恢复时业务重 做提供数据源。44业务恢复业务恢复模块解读业务工单信息 ,转化生成生产系统正式业务工 单,生产系统进行业务重做。5数据清洗对应急系统数据进行清洗 ,并同生产系统重新进行 全部数据同步,保证应急系 统和生产系统数据一致性 。5数据清洗账户数据11数据同步日常中,生产系统和应急系统数 据库核心业务数据同步(全量、 增量、同步、异步)。运营商长期、最佳、合作伙伴应急系统启用场景营业前台Web服务器应急中间件 服务器应急数据库生产中间件 服务器生产数据库1生产系统发生故障(数据库、主机、中间件、系统)2启动应急,与生产服务器断开3连接到应急系统4应急回切后,业务恢复运营商长期、最佳、合作伙伴
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号