上海热线扩容数据存储系统解决方案

  张坚平 ◎ 2005-03-25 17:52 存储在线

    一.上海热线数据存储系统背景与需求
  
    "上海热线"自1996年正式开网运行以来,至今已拥有信息资源站点176个,各类应用服务逾300个;主页面累积访问人次达1亿多;目前每天主页面访问人次在50万左右,拥有固定用户80余万户。经过这几年的发展,总投入近5亿的"上海热线"已成为上海地区乃至国内最大的城域信息网。
  
    随着"上海热线"规模的扩大, 为满足日益扩大的业务处理需求, 原有的系统需要再次进行扩容. 该扩容方案由Software.com负责采用InterMail Mx软件设计, 分别在漕溪路、凉城两个计算中心搭建了整套系统. 后台采用3台Sun E5500服务器作为Oracle数据库服务器, 通过光纤接到外围硬盘阵列上, 前台采用若干台Sun E420 作为SMTP、POP和IMAP服务器, 所有服务器都通过Catalyst5500连接在一起. 前端服务器通过两个交换机以千兆带宽连接到骨干网上. 该套扩容方案的实施对系统的数据可用性的要求也越来越高, 要求系统首先有一套高效稳定的备份方案, 能够对服务器上的Oracle数据文件和InterMail的相关文件进行备份; 其次, 希望具有本地HA的能力, 当一台服务器宕机时, 其它服务器能够接管它的任务,保证关键业务的24X7服务; 最后, 为了还要具有异地容灾的能力, 综上所述, 上海热线需要一套完整的数据存储系统解决方案, 能够满足可用性,高可靠性和可扩展性的需求. 
  
    二.方案分析
  
    根据上面的需求, 上海热线采用了Symantec公司的全套企业级数据存储系统解决方案:
  
    1.备份方案
  
    首先,Symantec公司为上海热线建立一个能够快速备份邮件系统和操作系统的备份方案。前端InterMail服务器和Queue服务器主要需要日志备份,后台服务器需要备份Oracle数据文件, Archive Log, Log文件,InterMail消息文件和日志. 由于已有的Sun服务承担着繁重的Mail主要业务, 功能重要, 希望备份方案能尽量少地干扰主机的运行和占用系统资源. 因此在原有方案中增加一台Sun E450作为备份的Master服务器,连接一台L1000磁带库.整个备份结构采用备份主服务器, Media服务器和客户端三层结构, 备份的管理采用在主服务器上集中备份管理的方式,尽可能提高各主机数据的安全性和可管理性.为此安装企业级的Symantec NetBackup 软件,实现对所有数据的统一集中备份管理. 在每台需要备份的主机上安装NetBackup的Agent软件, 能够按照预定的备份策略对数据文件,Oracle数据库和其它数据进行备份, 传输到Media服务器的存储设备上. NetBackup所提供的广泛操作系统和数据库支持, 业务应用的联机备份, 快速灾难恢复, 先进介质管理等功能能够极大地优化性能. 如在业务数据的全自动备份上, NetBackup减少了系统管理员的工作量, 该系统支持多个服务器的多个数据流同时对磁带的读写, 提高了备份效率, 每小时能备份百兆级到千兆级数据,缩短了备份时间.NetBackup采用了集中管理方式, 管理员从当一的平台上可以管理整个系统的备份工作, 极大地方便了管理工作.在灾难恢复方面, 当自然或人为因素造成的灾难发生后, 系统能够在尽可能短的时间内恢复重建. 在利用网络进行备份时Netbackup还能设置备份数据流的带宽,使用户在进行备份作业时,对业务的影响降低到最小。上海热线准备在第五期的扩容方案中采用SAN技术来提高存储访问速度, NetBackup支持SAN的结构, 能够采用Lan-free的方式直接通过存储设备连接的光纤交换机备份数据, 备份数据流不经过以太网, 节约了带宽资源.

    2.高可用性方案
  
    上海热线邮件系统是关键业务系统,需要不间断为客户提供服务。即使发生短暂的业务中断,也会导致难以估量的经济和名誉损失。然而, 由于系统磁盘,网卡等硬件故障,待人为误操作或自然灾害导致系统服务的无法访问, 为此,在满足系统对关键数据备份的要求之外, Symantec公司还提供了高可靠性的方案.
  
    上海热线建立高可用的计算机处理系统,首先在硬件上做到了各部件的冗余,三台Sun E5500组成集群结构,使整个系统不存在单点故障, 三台Sun 服务器连接共享外接存储设备;将服务器上的两个网口通过HUB等互连,实现服务器间冗余的心跳链路;最后,每台服务器均有高速网口与Catalyst 5500连接,保证用户对主机资源的冗余高效访问。在此基础上,每台服务器各安装一套Symantec的Cluster Server软件,组成多机集群高可用系统。VCS会在两条心跳链路上传输高效的通信数据包,实时监测其他主机系统和各种软硬件资源的运行情况,如Oracle进程、网卡、IP、磁盘、文件系统等,当任何一种资源失效时,VCS即会按照预先定义的规则快速实行相应的硬件或应用切换。

    为有效使用VCS, 上海热线采用Symantec Volume Manager(VxVM)、Symantec File System(VxFS)和Quick I/O(QIO)软件来对关键计算机系统进行强化和改进,从而为整个系统的高可靠性和高性能打下结实的基础。在此基础上, 利用VCS进行自动化管理和使用,数据库系统中三台主机间的切换对用户透明,故障发生时,不需要人为干预,而且切换的速度为秒级,速度快,采用了统一的Java GUI界面, 配置和管理简单方便.

    VCS的管理流程比较简单:
  
  •当一台机器上的工作网卡发生故障时,VCS会自动地切换到另一块网卡;
  •当一台主机发生故障或关机时,VCS会自动地将其上的应用切换到另一台机器;
  •当应用服务进程非正常终止时,VCS会自动重起相关进程,或将服务进程切换到其他机器上
  •当系统需要进行维护时,可手工将应用从一台机器切换到其他机器。
  
    VCS不仅可以实现系统级的服务器切换能力,而且提供强大的应用级服务器切换能力,表现在对任意应用可以进行检测如数据库,当一台服务器的数据库发生故障时,系统便会自动切换到另一台服务器上的数据库,由此服务器接管业务,并且还可以分为不同的资源组切换到不同的服务器,而且切换的速度很快,这一点对于应用是至关重要的。
  
    3.容灾系统
  
    高可用系统虽然能够做到计算中心系统的高可用,但有一个问题,如果一些不可抗拒的因素如地震、雷击等把整个中心的一些关键系统破坏了,还是会导致应用系统的长时间中断。而对于上海热线邮件系统的24X7的关键业务,任何原因的短时间停顿都是不允许的,因此,上海热线在凉城建立了一个具有容灾功能的备份中心,当计算中心发生故障时,可由备份中心接管部分或所有的业务处理。

    上海热线首先构建了凉城备份中心主机网络存储系统,安装了相应的应用系统,这些可基本上与漕溪节点的环境一致.其次, 为保证远程数据同步复制的实现, 两个节点间通过DDN专线互连, 两个节点之间采用Symantec的优秀的数据复制管理软件Storage Relicator for Volume Manager(SRVM)。通过广域网远程连接,SRVM可向远程备份系统同步进行逻辑卷复制,确保系统数据的高度可用。SRVM采用可靠的连接和监听协议,保证远程备份站点与本地逻辑卷数据的一致性,为用户关键应用的灾难备份和恢复提供了有效的手段。该软件能容忍网络延迟:在同步模式下,若网络发生堵塞,可自动切换到异步模式,当网络恢复后,再重新同步.
  
    为了能够监测应用系统的运行情况,并能够在灾难发生时实现应用系统从漕溪中心到备份中心的切换,上海热线选用专门的Symantec 的Global Cluster Manager广域网集群管理软件来实现多集群的管理和应用系统的容灾。
  
    该容灾方案的工作原理如下:
  
    1.正常情况下,漕溪中心和凉城中心的系统均处于运行状态,但Mail业务处理系统只在漕溪凉城中心运行;同时,业务系统对数据的任何修改,会实时同步地复制到凉城漕溪中心
  
    2.当漕溪中心的某些部件发生故障,如进程出错、内存损坏等情况发生时,产生故障的机器上的应用系统会自动地由VCS快速切换到漕溪中心的其他机器,整个系统正常运行
  
    3.当灾难发生,导致漕溪中心整个系统瘫痪时,Global Cluster Manager会马上监测到这种异常情况,及时向管理员发送各种警报,并按照预定的规则在凉城中心启动整个业务应用系统
  
    4.漕溪中心的计算机网络系统修复后,SRVM可将凉城中心的当前数据复制回漕溪中心,然后将应用系统从凉城中心切换回漕溪中心,凉城中心的系统重新回到备份状态。
  
    这种系统结构,能很好应付各种软硬件故障、人为或自然灾害对计算机处理系统的影响,保护业务系统的不简断运行,是一个真正具有容灾功能的高可用系统,能够保证上海热线邮件系统的业务在任何情况下都能高效稳定地运行。通过使用SRVM和VCS软件, 可以保证备份中心与漕溪数据中心的数据同步,数据中心与备份中心的应用切换快速可靠,并可进行自动和手工切换,与高可用性方案有机集成,从单控制台管理多个VCS集群系,实时监测每个VCS Cluster的运行状况,并可管理修改每个Cluster的配置,可根据用户应用要求制定多种切换策略,使用与VCS一致的图形界面,使系统的管理和维护非常简单,当某个地域发生故障或灾难而导致该地域的Cluster终止时,GCM会马上监测到,并可根据策略自动或手工快速地将应用切换到远程的Cluster。配置和使用都及为方便.
  
    三.应用效果
  
    现在上海热线五期扩容和异地容灾工程已经完成. 新改造好的系统可以满足服务发展的需要. 自系统投入运行以来, 运行正常, 系统性能良好, 达到了预期目标. 通过Symantec数据存储解决方案,不但提高了数据的存储性能, 系统可以达到7X24小时不间断工作, 满足了高可靠性的原则. 该方案的顺利实施, 成功地解决了系统应用数据量大, 数据安全和可靠性不高的问题,开拓了市场,产生了巨大的社会效益和经济效益.

......
  
下载完整文章
  
首页 | 产品 | 下载 | 论坛 | 联系我们
请阅读有关 Symantec 对您隐私权的保护政策:Privacy Policy
© Copyright 2005 Symantec Software & Dostor.com. All rights reserved