珠海市讯毅网络技术有限公司

数据容灾/备份解决方案

发表时间:2015-09-23

     现代的企业已经变得越来越依赖数据处理中心进行业务处理,对于如金融、电信这类的电子化程度很高的行业,对其数据处理中心的完整性和可用性提出了很高的要求。在企业电子化进程中,新一代的业务处理系统大多采用数据集中存放、集中处理的大集中先进模式替代原有的多分区多中心、数据分散式存储和处理的方式,这种新模式对于加强企业帐务监管、数据共享、新业务的开发和降低计算中心的运营成本有极大的好处。然而这种大集中模式对系统稳定性提出了更高的要求:一旦电脑中心灾难发生,受到影响的将是全国或全省范围的全部分支机构和几乎所有业务,这必将对企业造成巨大的经济损失,客户流失,声誉受损,甚至有可能引起社会的不安定。 
  据调查显示,一般公司如果在灾难过后两个星期内无法恢复完全信息系统的使用, 75%的公司业务将会完全停顿,43%的公司将在也无法开业。对于依赖信息系统进行日常运作的金融、保险、销售和制造业而言,他们对于系统停机的最大可忍受时间分别是2天,5.6天,3.3天,4.9天,而金融业在此期间所遭受的损失将高达日营业额的50%. 
  全球各个企业不断认识到灾难防范保护的重要性。某些大型金融机构之所以能够在两天内恢复营业,其主要原因是它们不仅象一般公司那样在内部进行数据备份,而且在数英里外的新泽西州的备份数据中心也保留着数据备份。这些备份是通过数据备份软件和数据复制软件进行的。采取这种措施后,一旦工作现场发生意外,企业可以立即使用另一套数据。华尔街的金融机构重新对灾难恢复的步骤做了重新的评估,并且认识到灾难恢复只是技术手段之一,开始强调 Business Continuity - 业务连续性而不仅仅是 Disaster Recover - "灾难"恢复。因为过去的"灾难"恢复计划没有强调全局性及对整个市场的影响。而如何维持业务连续运作成为企业运营风险评估中至关重要的一环。事实证明,只有数据存储备份制定完备、持续可执行的业务连续计划才能为人们提供万无一失的数据安全保护。 
灾难备份系统的关键技术
  为了确保企业应用所需要的 99.999%的正常运行时间,存储设计必须在每个级别考虑高可用性因素。所有企业都应指定一个灾难恢复计划,这个计划需能够解决可能会扩大的问题,并且在发生大规模中断时无缝地转移到某个备份中心。除了磁带备份以外,企业通常需要在它们的容灾备份计划中,使用复制技术来远程复制整个数据中心。因此,恢复计划现在除了从磁带恢复数据以外,还应当包括在发生故障时将数据中心转移到一个远程备份中心。灾难可能由多种因素导致,并且很难预测。下列列出了一些主要的因素: 
 ● 设备故障 
 ● 应用故障 
 ● 人为错误 
 ● 自然和非自然灾害 
  每个企业必须都必须找出所有需要保存、以实现连续访问的关键性数据,为从灾难中恢复做好充分的准备。必须进行业务影响和风险分析,以确定对企业最重要的地点、职能或者应用。一个远程数据中心——即主数据中心的镜像,可以用于在发生大规模灾难之后继续提供完整的访问。很多容灾备份解决方案都需要在将数据备份到磁带的同时,保存数据的实时镜像。复制技术还可以提供适用于不同应用需求的选项。 
  灾难备份解决方案是在主生产中心数十至上千公里范围内设立灾难恢复中心,然后通过网络设备将主生产中心和灾难恢复中心连接起来,以实现实时的数据同步。灾难备份解决方案以网络为基础,在主数据中心存储网络与远程备份中心的存储网络之间采用光纤通道交换机来实现连接。生产中心和灾难恢复中心运行同样的系统,包括操作系统、基础数据库和应用软件,并配备数据复制管理器。假如生产中心发生灾难,不能再工作,这时备份中心会将业务数据及时恢复到备用服务器上,并自动将业务切换到备用服务器,然后实现业务的远程切换,恢复系统不间断地运行,在备份中心实现应用的异地备份恢复,这个过程需要很短的时间完成。 
  灾难备份系统的关键技术包括网络技术、存储技术与解决方案。从网络层面而言,无论是 TCP/IP网络还是光纤网络,都已经在世界各地得到了广泛的应用;在存储技术方面,RAID、磁盘等基础技术已经成熟,磁盘阵列的应用已经遍布全球每一个角落;存储网络(SAN)在全世界各地得到了全面的认同,同时正在向开放性存储网络方面发展。数据远程复制应用提供了基于主机或存储设备的数据复制、在线和实时的本地数据复制,通过光纤通道SAN经过波分复用设备(DWDM)到同城距离、FCIP至远程的复制,支持同步和异步的容灾镜像,支持全面的磁盘同步,当出现很大的灾难时,确保这些数据在另外一个地点的在线复制是可用的,以支持尽快恢复在另一台机器上的关键处理。 
  同时容灾备份对数据中心中的存储网络提出了更高的要求,对原有的各个应用单独的存储系统形成的 SAN“孤岛”整合至统一的交换架构中,实行统一管理,统一分配空间,同时通过虚拟SAN(VSAN)的功能把各个应用系统逻辑的分隔起来,减少相互之间的影响,提高从主机系统到存储系统的高效管理功能。 
  现今主要使用的远程复制应用,即基于主机的软件和基于存储系统的专用应用技术。常见的远程复制方案有 IBM的FlashCopy, PPRC(对等远程复制) ,eXtended Remote Copy (XRC)扩展远程复制等。 
基于存储系统的同步 /异步远程复制应用 
  基于存储系统的同步 /异步远程复制应用,具有在主副存储子系统之间同步数据镜像的能力,而不需要主机环境。主机软件用来启动、监控并控制远程复制操作。 
  在远程复制设置中,本地与远程存储系统由光纤通道相连接。当数据安全写入到第二个存储系统的缓存,并且第一个存储系统接受到确认命令后才将主卷的更新数据传递给应用主机。这样做的优点是:远程卷可以总是与生产卷实现同步或最少时间内达到同步,由于第一个卷能够保证数据连续更新的完整性,并且不会因遭受灾难而丢失数据,第二个卷也总是以精确的顺序更新。因而,可以保证数据是最新的,并且绝对可靠,应用的重启也只需很少的延时。 
同步恢复 
  同步恢复是真正的关键所在。当生产卷发生故障时,备份卷停止接受数据而马上运行使业务得以继续。但是,当主生产系统恢复起来时,必须将两个卷上的数据库恢复为同步的记录,而不是系统停机时的记录。 
  另外,同步在每天的操作中是必不可少的,一些公司把灾难恢复当成了一项日常工作来完成。这就意味着公共数据中心和数据备份中心的变动管理和版本控制能够很好地联系在一起。比如,对关键应用系统进行了内部升级从而影响到了需要恢复的数据。除非备份站点知道有这样的变化,否则你不得不花费更多的时间努力去找灾难引起的变化。 
利用 SAN进行容灾备份的主要优势
  企业已经开始部署基于专用光纤通道的存储网络,以解决共享局域网的性能瓶颈问题。存储网络的其他优势包括: 
◆提高数据可用性 
  存储网络基础设施可以为存储子系统(包括磁盘和磁带)提供多条路径,以提高可用性和可扩展性。客户可以部署经过改进的灾难恢复解决方案,尤其是在开放的系统环境中更是如此。在存储网络模式中,数据可以在两个存储子系统之间建立镜像连接,而无需使用价格昂贵的服务器和局域网资源。将备份流量移植到一个存储网络会减少每个域中可能出现的故障,并可以防止备份受到局域网数据流量的影响。 
◆降低总体拥有成本 (TCO) 
  存储整合让多个服务器可以共享相同的存储设备,减少数据中心所需要的磁带库的数量。整合还让用户可以更加方便地重新分配所有服务器中未被使用的容量,从而提高资源的利用率和使用效率。客户可以部署一个企业级备份 /恢复解决方案,从而降低由连接到服务器上的磁带驱动器所带来的管理和维护成本,从而节约大量的资金。管理每个组件的成本会因为手动流程中经常出现的人为错误而大大增加。很多机制能减少这些错误,例如远程磁带库,即通过部署自动备份系统,避免在两地间手工运输磁带。由于不需要运输那些用于恢复的数据,这种机制可以避免由于操作不当而导致的损坏,降低数据流失的可能性,以及提高数据的可用性,从而提高系统的可靠性。存储网络将备份资源整合到一起,供每个服务器使用,同时降低由于某一个备份设备发生故障而造成的影响。总体拥有成本(TCO)还可以通过共享备份资源的增强可扩展性、可用性、性能和可管理性而得到大幅度的降低。 
◆灵活的备份选项 
  很多金融企业目前都延长了营业时间和提供自动化金融业务的 24小时服务,并支持来自全球各地的客户,这推动了对于全天候运营的需要。现有的两种备份选项包括热备份和冷备份。冷备份是指在备份期间应用数据停止更新。而热备份是指在系统进行备份的过程中,应用仍然继续更新数据。 
◆热备份技术 (例如写时复制和分离镜像快照)
  利用在某个特定时刻创建的原始数据镜像,在不影响应用正常工作的情况下进行在线备份。写时复制和分离镜像选项都会将数据区块复制到未被使用的存储上,以创建某个时间点的复本,大多数数据库都支持这两种技术。写时复制和分离镜像选项可以管理物理数据区块的映射流程,以及它们与某个文件系统或者数据库的关联。 IBM企业存储服务器(ESS)或者模块化存储服务器(MSS)中的FlashCopy均支持这两个选项。 
灾难备份和恢复方案 
  在灾难备份和恢复的解决方案中,基本可分为两种模式: (一)可实现同步数据复制、切换时间快速的同城灾备模式;(二)以异步为数据复制手段、切换时间较长但防范灾难的范围更广泛的异地远程灾备模式。但这两种模式不是相互排斥的,而是满足不同灾难防范级别的分类。随着对业务连续的要求越来越高,许多大型企业把这两种模式混合实施,以建立多级的风险防范标准。 
  在建立了同城的灾备和不同城市之间的远程灾难备份之后,不同城市的灾难备份中心所能实现的功能,是同城灾备中心所实现的功能的全部,但是时间要求可能会稍微宽松一点。比如在灾难发生之后要求两个小时之内必须把同城的灾难备份运行起来,而在做异地灾备的时候,这个时间将被允许延长到 12小时或者是6个小时。由于时间要求越短,投入需要越大,企业要找到一个最佳的比例关系。 
同城容灾备份解决方案 
  建立同城灾备中心的最大的优势是可以利用在同城范围,即 60至100公里以内可以租用裸光纤来实现两个数据中心之间的互连。随着裸光纤的租用价格越来越便宜,使企业可以按照业务的需求来部署两个数据中心之间的带宽,而不是按照租用的带宽来部署业务。这两者的差别使前者可以按照真正的业务需求及未来的扩展来规划企业级的业务连续方案,而不是仅仅限制在几个核心的应用系统。有了高带宽在两个数据中心之间的SAN相连接,使数据的同步复制成为了可能,可以实施高速数据复制和恢复的业务连续策略。 
  由于 SAN 具有很大的灵活性,允许将存储设备与服务器连接在一起,所以它也方便了灾难备份解决方案作用的发挥。使用SAN 基础结构,在一个城域范围内实现灾难恢复备份的具体要点如下: 
 ● 在常规情况下,一个企业可以在两个交换机之间通过双互联交换链路 (ISL),把相距10公里以上的两个站点以单模光纤连接起来,ISL是使用E_Port进行连接的,E_Port是个把两个交换机连接成一个架构的扩展端口; 
 ● 当两个站点之间的连接端口数量增加或同时有其他的连接接口如 GE/ESCON/FICON等需求时,使用DWDM是一个非常灵活的方式,同时降低了对裸光纤的依赖和物理线路的故障切换难度,提高了租用光纤的利用率和管理的方便性; 
 ● 可用点对点的方式或者环路方式配置 DWDM设备。一旦主链接不能访问,Cisco的DWDM设备ONS15540/15530均支持自动失效转接到冗余物理链接。在环形拓扑结构中,节点之间仅需要一条链接。如果链路失效,激光将朝相反的方向传输来达到目标; 
 ● 在光纤通道交换机和 DWDM设备之间的ISL连接提供了更大的带宽(达到多个2 Gbps,而非以往的1 Gbps的限制),在端口汇集方面,SAN交换机可以提供多达16端口,32Gbps带宽的ISL汇集,称为PortChannel; 
 ● 当在 SAN环境里实施虚拟SAN(VSAN)时,可在ISL中把多个VSAN同时传输(Trunking)至远程站点,则ISL使用TE_port进行连接。


远程容灾备份解决方案 
  当需要更长距离的备份时,更多的连接线路会是 SDH或IP骨干网,SAN 可以使用网关和 WAN 连接。在这种远程连接环境下,尽管备份的数据量有时可能很小,但因为数据传输的时延比同城以裸光纤连接的时延要大,会造成系统的性能严重下降,同步复制的方案较难实施,因此绝大部分企业采取了异步数据复制技术。异步数据复制带来的是具有一定的时间差异,可能是以秒计算,也可能是以分钟或小时计算的,在做异地灾难切换时,需要在应用一级上以流水交易记录来确保数据的完整性。 
  为了支持在远距离上传输光纤通道,任何一端的扩展连接上的光纤通道端口必须支持高等级的缓存-缓存信用点 (Buffer-Buffer Credit)。B2B信用点让发送端有权发送一个数据帧。当数据帧到达远端时,发送端会再发送一个数据帧。但是,如果距离或者相关延时过长,用户可能得到有限的有效带宽,这是因为损失了等待确认的时间。因此,在较长的距离上传输光纤通道的关键是为发送端提供大量的B2B信用点。这种方法让发送端可以在等待返回确认信息的过程中,不断地在发送通道中装满大量的数据帧。根据光速计算,通常情况下每两公里距离就需要一个B2B信用点,以避免限制带宽。 
  使用 SAN 基础结构,在远程范围实现灾难恢复备份的具体要点如下: 
 ● 在常规情况下,一个企业可以在两个远程 SAN之间通过FCIP或FC over SDH的方式互连,该连接方式在光纤通道环境里是透明的,因为IP或SDH的封装均不会破坏光纤通道的帧结构;反之,FC的帧及内部的数据对IP或SDH网络也是透明的,IP或SDH网络只是作为传输线路的封装,不会对要传输的数据做任何修改,这可以在IP网络上同时实施IPSec封装后实现SAN远程传输的安全保障; 
 ● 两个 SAN之间远程连接的FC端口使用E_Port的端口类型,在FCIP或FC Over SDH网关设备上的端口使用 B_Port(Bridging)的端口类型; 
 ● 在 FC端口上设置较大的B2B信用点值,使FCIP的传输可以达到最高的有效带宽。

珠海市讯毅网络技术有限公司LOGO  版权所有  (©)  2015  珠海市讯毅网络技术有限公司  粤icp备11050809号-2