灾备设计方案

1 数据中心容灾备份解决方案 随着社会的发展和科技的进步 政府日常工作越来越依赖于数据处理来进行 政务系统的连 续性依赖于数据中心系统的稳定运行 然而 灾难就像灰尘一样伏击在运营环境周围 政务 系统的数据中心可能正在一个充满风险和威胁的环境下运行 如果不能对这些风险采取有效 治理 一旦数据由于某种原因丢失 就很有可能对政府的日常工作造成严重的影响 如果核 心数据丢失 将会使得某些核心功能陷入瘫痪 造成不可估量的损失 因此 保证政务的连 续性和数据的高可靠性和可用性 已经成为政府部门在数据中心建设中 必须要考虑的问题 1 1 灾备解决方案原则 首先 在制定容灾系统方案的过程中要考虑的就是容灾系统建设对原有业务系统带来的影响 比如 采用数据复制技术对系统I O 带来的延迟 应用数据同步对日常业务处理系统带来的 压力等 因此 企业要通过周密的测试和分析来规避容灾系统建设时带来的这些风险 以保 证业务系统不会因容灾系统的建设而出现在处理性能上下降的问题 第二 数据状态要保持同步 为保证在灾难发生时 业务可以成功地切换到备份中心 就必 须保证容灾系统数据同步机制的可靠性 因此 建立可靠的数据同步校验机制是必须的 同 时 还要考虑建立定时的 自动的数据同步核查对比机制 以检验两个中心数据的一致性 这是数据容灾工作中非常重要的一部分 第三 容灾系统的日常维护工作要尽可能轻 并能承担部分业务处理和测试的工作 容灾系 统的维护和管理是容灾切换成功的重要保证 在系统建设中 就必须要考虑系统的维护管理 流程 生产中心任何业务处理过程的改变都必须完整地复制到备份中心 所有新业务系统上 线时 必须通知备份中心 并在备份中心配置好数据同步机制 对原程序的改动也必须保证 两个中心同时上线 第四 系统恢复时间要尽可能短 容灾系统主要是为了实现在主中心系统发生灾难时 可以 在规定时间切换到备份中心 保证数据不会丢失 并且继续向用户提供服务 但往往在灾难 发生时 主要技术人员不能及时到达现场 为了顺利实现系统间的切换 应该让系统切换操 作尽可能地简单 并建立固定化的 标准化的切换流程 要求维护人员在切换演习时严格按 照流程的指导步骤进行操作 第五 可实现部分业务子系统的切换和回切 当人事变动 业务变化 IT 设施变化以及其 他可能引起恢复规划文档失效的变化发生时 应及时更新各恢复规划文档 并在必要时启动 模拟测试或演习 确保业务连续性系统的工作能力 第六 技术方案选择要遵循成熟稳定 高可靠性 可扩展性 透明性的原则 目前 国际上 比较成熟的容灾技术包括 SAN NAS 技术 远程镜像技术 虚拟存储 基于IP 的 SAN 互 连技术以及快照技术等 其中基于IP 的 SAN 远程数据容灾备份技术应用比较广泛 其是利 用基于 IP 的 SAN 的互连协议 将主数据中心SAN 中的信息通过现有的TCP IP 网络 远程 复制到备份中心的SAN 中的 当备份中心存储的数据量过大时 可利用快照技术将其备份 到磁带库或光盘库 这种基于IP 的 SAN 远程容灾备份 可以跨越LAN MAN 和 WAN 成 本低 可扩展性好 基于IP 的互连协议主要包括FCIP iFCP InfiniBand iSCSI 等 第七 构建系统方案可以选择多种技术组合方式 目前 业内应用较多的容灾方案是基于智 能存储系统的远程数据复制技术 它是由智能存储系统自身实现的数据远程复制和同步 即 智能存储系统将对该系统中的存储器I O 操作请求复制到远端的存储系统中并执行 由于在 这种方式下 数据复制软件运行在存储系统内 因此较容易实现主中心和容灾备份中心的操 作系统 数据库 系统库和目录的实时拷贝及维护能力 且不会影响主中心主机系统的性能 如果在系统恢复场具备了实时数据 那么就可以做到在灾难发生时 及时开始应用处理过程 的恢复 但这种方案也有开放性差 不同厂家的存储设备系统一般不能配合使用 对于主 备中心之间的网络条件 稳定性 带宽 链路空间距离 要求较苛刻等缺点 1 2 灾备解决方案设计需要考虑的因素 1 2 1 RTO和 RPO RTO RecoveryTime Object 是指灾难发生后 从IT 系统宕机导致业务停顿之刻开始 到 IT 系统恢复至可以支持各部门运作 业务恢复运营之时 此两点之间的时间段成为RTO RTO 是反映业务恢复及时性的指标 表示业务从中断到回复正常所需要的时间 RTO 值越 小 代表容灾系统的数据恢复能力越强 各种容灾解决方案的RTO 有较大差别 基于光通 道技术的同步数据复制 配合异地备用的业务系统和跨业务中心与备份中心的高可用管理 这种容灾解决方案具有最小的RTO RPO Recovery Point Objective 是指从系统和应用数据而言 要实现能够恢复至可以支 持各部门业务运作 系统及生产数据应恢复到怎样的更新程度 RPO 是反映恢复数据完整 性的指标 在同步数据复制方式下 RPO等于数据传输延迟的时间 在异步数据复制下 RPO 基本为异步传输数据排队的时间 在实际应用中 考虑导数据传输的因素 业务数据 库与容灾备份数据库的一致性 SCN 是不同的 RPO 表示业务数据库与容灾备份数据库 SCN 的时间差 发生灾难后 启动容灾系统完成数据恢复 RPO 就是新恢复业务系统的数 据损失量 设计容灾系统不能只看RTO 和 RPO 对于不同的业务系统和用户特殊的要求 其它一些指 标有可能成为选择容灾解决方案的主要因素 例如 某些地区为了防范一些特定自然灾害的 风险 要求容灾备份中心与业务中心保持足够的距离 在这种情况下 容灾备份中心与业务 中心的距离要求就是容灾系统的重要指标 1 2 2数据安全 数据的完整性 一致性是保证业务连续的关键 在本地 数据安全需要使用RAID 技术来保 证 在灾备方案的设计中 数据复制方案的设计是整个设计的基础 目前业界主流的数据复 制技术有 基于数据库本身的复制技术 基于操作系统的数据复制 基于虚拟存储的复制技 术和基于存储的复制技术 在方案所用技术的选择时 应当根据客户的预算 现场的条件 综合来进行考量 后续在1 6 1 数据同步章节 将会有这4 类数据复制技术的综合对比 可 以作为选择的参考 1 2 3网络安全 通信网络是容灾系统的组成部分 通信线路的质量也是容灾系统的性能指标之一 其中包括 网络的数据传输带宽 网络传输通道的冗余和网络服务商的服务水平 网络年中断率 如 果容灾系统使用的通信网络是确定的 为了比较不同容灾解决方案 可以用单位存储容量的 数据库在同一通信网络上的数据完全恢复时间作为一项设计指标 1 2 4业务连续性 业务连续性是灾备方案的最终目标 是方案的价值所在 为了保证业务的连续 首先需要数 据的连续 之前我们讨论了数据安全相关的内容 其次 在数据连续的基础上 出现灾难时 系统需要能够满足 1 网络切换 2 应用切换 以此 来保证系统能够顺利切换到灾备 地 继续安全运营 最大化保证客户利益 1 3 国标系统灾备等级划分及应对措施 国家 信息系统灾难恢复规范 GB T 20988 2007 规定了六个级别的容灾 下表分别针 对每个级别给出了相应的应对措施 级别内容措施 Level6数据零丢失和远程集群支持实现远程数据实时备份 实现零丢失 应用软件可以实现实时无缝切换 远程集群系统的实时监控和自动切换能力 Level5实时数据传输及完整设备支持实现远程数据复制技术 备用网络也具备字哦那个或集中切换能力 Level4电子传输及完整设备支持配置所需要的全部数据和通讯线路及网络设备 并处于就绪状态 7 24 运行 更高的技术支持和运维管理 Level3电子传输和部分设备支持配置部分数据 通信线路和网络设备 每天实现多次的数据电子传输 备用场地配置专制的运行管理人员 Level2备用场地支持预定时间调配数据 通信线路和网络设备 备用场地管理制度 设备及网络紧急供货协议 Level1基本支持每周至少做一次完全数据备份 制定介质存取 验证和转储的管理制度 完整测试和演练的灾难恢复计划 1 4 容灾技术分析 1 4 1备份方式 1 冷备份 备份系统未安装或未配置成与当前使用的系统相同或相似的运行环境 应用系统数据没有 及时装入备份系统 一旦发生灾难 需安装配置所需的运行环境 用数据备份介质 磁带或 光盘 恢复应用数据 手工逐笔或自动批量追补孤立数据 将终端用户通过通讯线路切换到 备份系统 恢复业务运行 优点 设备投资较少 节省通信费用 通信环境要求不高 缺点 恢复时间较长 一般要数天至1 周 数据完整性与一致性较差 2 温备份 将备份系统已安装配置成与当前使用的系统相同或相似的系统和网络运行环境 安装了应用 系统业务定期备份数据 一旦发生灾难 直接使用定期备份数据 手工逐笔或自动批量追补 孤立数据或将终端用户通过通讯线路切换到备份系统 恢复业务运行 优点 设备投资较少 通信环境要求不高 缺点 恢复时间长 一般要十几个小时至数天 数据完整性与一致性较 差 3 热备份 备份处于联机状态 当前应用系统通过高速通信线路将数据实时传送到备份系统 保持备份 系统与当前应用系统数据的同步 也可定时在备份系统上恢复应用系统的数据 一旦发生灾 难 不用追补或只需追补很少的孤立数据 备份系统可快速接替生产系统运行 恢复营业 优点 恢复时间短 一般几十分钟到数小时 数据完整性与一致性最好 数据丢失可能性最 小 缺点 设备投资大 通信费用高 通信环境要求高 平时运行管理较复杂 在计算机服务器备份和恢复中 冷备份服务器 cold server 是在主服务器丢失的情况下才 使用的备份服务器 冷备份服务器基本上只在软件安装和配置的情况下打开 然后关闭直到 需要时再打开 温备份服务器 warm server 一般都是周期性开机 根据主服务器内容进行更新 然后关 机 经常用温备份服务器来进行复制和镜像操作 热备份服务器 hot server 时刻处于开机状态 同主机保持同步 当主机失灵时 可以随 时启用热备份服务器来代替 对于关键的业务 Primeton 建议采用同城热备 异地热备的方式进行部署 对于一般性的 业务 建议采用同城热备 异地温备 应用不启动 数据保持异步复制 的方式进行部署 1 4 2数据复制技术 目前数据复制技术主要有如下表所列4 种 基于红色字体部分的要求 结合客户的需要 Primeton 推荐采用基于存储或者基于应用程序的数据复制技术来进行数据同步 存储系统数据复制 操作系统层数据复 制 应用程序层数据复制基于存储的 数据复制 虚拟存储技术 基 本 原 理 数据的复制 过程通过本地 的存储系统和远端的存储 系统之间的通信完成 复制技 术是伴随着存 储局域 网的出 现引入的 通过构建虚 拟存储上实现数据复制 通过操作系 统或者 数据卷管理器来 实 现对 数据的 远程复 制 数据库的异地复制技 术 通常采用日志复 制功能 依靠本地和 远程主机 间的日志 归 档与传递来实现两端的数据一致 平 台 要 求 同构存储 与平台无关 需要增加 专有的复制服 务器 或带有复制功能的 SAN 交换 机 同构主机 异构存 储 与平台无关 复 制 性 能 高高高较高 资 源 占 用 对生产系统存储性能有影 响 对网络要求高 对生产系统主机性 能有影响 占用部分生 产系统数据库资源 技 术 成 熟 度 成熟 成熟度有待提高 非主流复制 技术 成熟成熟 投 入 成 本 高 需要同构存 储较高 需要 专有设备较高 需要同构主机 一般 部分软件免费 如 DataGuard 复 制 软 件 IBM PPRC EMC SRDF HP CA Continues Access HDS TrueCopy Brocade Tapestry DMM UIT SVM EMC VSM 原厂技 术 IBM AIX LVM HP UINX MirrorDisk Sun Solaris SVM 专业 的复制 软件 Symantec SF VVR Oracle DataGuard O