一、高可用性需求
随着信息化建设的不断推进,企业的信息化已经非常普遍,各个企事业单位的活动越来
越多的依赖于其关键的业务信息系统,这些业务信息系统对整个机构的运营和发展起着至关
重要的作用。如果一些关键应用一旦发生宕机故障或应用停机,将给企业带来巨大的经济损
失,并且由于业务的不可用而影响了企业的信誉,致使客户对企业失去信任,所造成的危害
是致命的。
非正常的服务终止时间的长短会对用户造成不同的损失,或者说用户对服务停止所能承
受的时间是不同的。通常取决于应用的类型,如果能够在几秒钟内修复错误,不会对一个在
线联机事务(OLTP)处理系统构成影响,但是对火箭发射等实时应用,哪怕只停止一秒都是
不可忍受的。
由于系统的任何一个部件都可能发生故障,因此系统设计师在构建系统时需要能够预见
到系统可能会发生的各种故障,并进行软硬件的部署,在这些故障后发生能够迅速纠正。
可见,对那些需要保障信息安全和提供不间断的信息服务的企业而言,业务系统的容错
性和不间断性显得尤为重要。如何保障各种关键应用持续运营,达到永续经营的良性循环,
已成为当今企事业单位和IT 领域急需解决的关键问题。
二、服务宕机的必然性
通常企业构造服务的硬件环境为单一服务器配置模式,一旦因为计划中宕机和计划外宕
机,便会引起服务终止。
计划中的宕机通常指完成系统升级、应用迁移、部件更换等操作引起的宕机,这些计划
中的宕机是企业维护服务正常工作不可避免的工作项目,虽然可以人为地采取一些措施减少
损失,但依然会造成服务的终止。
计划外宕机通常是由于系统出错造成的。错误包括硬件、软件、系统和网络,或是系统
运行外部环境原因等,这些情况包含了:硬件故障、操作系统崩溃死机、硬盘满、电压不稳、
跳电、电源损坏、网络故障、软件漏洞(Bug)、应用出错。同样人为失误造成的故障也称
为出错。当然,并非所有的出错会造成宕机,也不是所有的意外宕机都是由于部件出错造成
的,灾难或其他意外情况同样会造成服务终止。计划外宕机通常会导致非常严重的后果,比
如酒店的入店和结帐系统故障,所有的客户将无法check-in 和check-out;医院的电脑系统
出错,将导致患者无法结账、医生无法得到患者信息,甚至无法进行手术;银行的记帐系统
因电脑出错,客户将无法提现和存款。总之,机会外宕机所造成的损害将非常大。有些环境
下,系统停止服务将导致事务处理无法进行,必将导致客户对企业信任度降低,甚至会给客
户带来不可挽回的损失。