14小时前
双机 最大限度的减少硬件损坏对数值的影响
热备 一般用于不能终止的关键营业,就是备份的时候生产机的营业也要运转。
双机热备带来的是高质量的数值安全,也带来了冗余的华侈。如果生产机在淘汰前一直不挂,备份机就平淡一辈子了。
从广义上讲,双机热备(双机容错)就是对于重要的服务,使用两台服务器,互相备份,配合执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务
双机热备由备用的服务器解决了在主服务器故障时服务不中断的问题。但在实际应用中,有可能会出现多台服务器的情况,即服务器集群
双机热备一般情况下需要有同享的存储设备。但某些情况下也可以使用两台独立的服务器
实现双机热备,需要通过专业的集群软件或双机软件
从狭义上讲,双机热备特指基于active/standby方式的服务器热备。服务器数值包括数值库数值同时往两台或多台服务器写,或者使用一个同享的存储设备。在同一时间内只有一台服务器运行。当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会通过双机软件的诊测(通常为通过心跳诊断)将standby机器激活,保证应用在短时间内纯粹恢复正常使用
集群(高可用)概述
A 什么是高可用(High Availability)
B 高可用是哪些营业环境的需求
C 高可用的标准
D 实现高可用的难点
E 高可用系统实现的准备
F 高可用系统准备的关键点
G 高可用实现
高可用的基本概念
高可用技术中的几个术语
在我们进修高可用概念前,先定义一些术语,就
像’Availability’, ‘High Availability’, ‘High Available
Computing’等。
A、可用性 (Availability):
是指按照需要提供一定级别服务的系统。这个概念是体此刻我们生活、事情中,在计算机范畴,可用性通常看成是系统提供服务的时间段(如一天16 小时, 一周5天)或是系统的响应时间(如:1秒钟的响应时间)。任何的服务丢掉,包括规划中或规划外(意外)的,都被定义为损耗(OUTAGE)。宕机时间(Downtime)是指系统从停止服务到重新提供服务的时间(以时间单位计量,如分、小时、天等)。
B、高可用性(High Available):
High Available指定义一个系统,使之能够通过减少或对错误的控制以减低系统宕机时间来尽有可能避免服务丢掉。我们能够健康、快乐的生活、公司的正常运作,这些需要能够有一个安全的、可靠的环境作为保障。例如,我们但愿供电系统可靠,哪怕一点儿点、短暂的停
电都是不可接受的,因为我们的生活已离不开电力了,像冰箱、空调、微波炉、照明等,停电意味着生活无法正常进行。甚至当非常可靠的服务突然非正常停止,我们还是非常
但愿能够马上恢复。 当供电系统不正常时,我们指望电力公司的抢修车能够以最快的速度修好。
C、高可用计算
(High Available Computing) :
在一些营业系统中,计算机的可靠性几乎同供电系统的可靠性具有一样重要性。 高可用计算(High AvailableComputing) 是被设计成只容许有极短的规划和非规划宕机时间的计算机系统。需要说明的是高可用(High Availability)也不是绝对的,不同的营业系统对高可用的需求是不一样的。 例如银行的信用卡系统、轮班制的企业(24 小时不停的流水线)和一些提供服务的网站,要求系统24 小时不停止运行; 一些金融单位(证券交易所)系统要求一周5天,天天白日或夜间交易时间内不能停机,其它时间可以停机做维护等;同时一些零售企业(商场)仅仅需要系统天天运行18小时,可是要求具有很短的响应时间来进行物质处置惩罚。
D、服务级别(Service Levels):
系统的Service Level 是指系统提供给用户的服务级别。通常,服务级别在有关专业技术文档中有相关描写,但并不是十分严酷。这里可以简单的理解为:服务级别是对提供服务的系统服务能力的量化。高可用环境可以提供一个服务级别的服务,使得系统的规划及规划外宕机时间不超过一个特定的时间。
E、连续可用(Continuous Availability):
”连续可用”意味着永不停止的服务,包括规划内和意外服务的终止。这是一个比高可用要求更加难于实现的环境,意味着服务不能够有任何意外发生。实际上连续可用的系统在实际中是不有可能存在的。是以这个概念通常指运行的系统要求只能有少少的服务终止时间,即指非常高的可用系统。高可用不意味着就是连续可用。
F、容错 (Fault Recovery):
容错系统不是可用性级别中定义的一种,而是实现更高级别可用性的要领。容错系统是硬件冗余的概念,该系统通常使大大都部件硬件冗余,包括CPU、MEM、I/O系统及其他部件。容错系统能够保证在硬件、软件出现故障时,系统可以继续提供服务。可是容错系统不能避
免人为掉误造成的服务终止。高可用系统同样不意味着容错。这样的系统像Stratus这样的厂商提供的产品就是容错机产品。
G、容灾 (Disaster Recovery):
容灾系统是可以容许灾难发生的运行系统。可以容许系统发生多点故障甚至整个系统损坏的情况下,服务不受影响。通常,容灾系统中的服务器分别运行在不同地点,通过网络线路连结数值的相符,在运行主机故障或灾难发生时,其他容灾服务器可以接管其服务。容灾系统中服务器节点有可能分布在校园不同的建筑内、都会的不同区域、甚至跨越海洋,在不同的洲运行,可见这样的系统需要大量的投资和大量的维护事情。只有非常关键的营业系统会接纳这类方式保证数值的安全和系统的可用。
H、5nines:5minutes(五个九:五分钟):
早在1998 年,惠普针对其推出的服务器系统提出了99.999%可用性,指的是系统的宕机时间一年不会超过5分钟。这个定义使系统的可用性、可靠性具有一定的数值参考的标准,同时大大促进了集群技术的成长。不是所有的用户要求所有的设备和工具提供99.999%的
可用。不是所有的用户愿意有这样的投入。可是所有的用户都在可用性技术的成长中获益。好比你不但愿家里的轿车具有赛车的引擎,可是赛车的引擎技术成长的确促进了家庭轿车引擎的进步。
分析用户的可用性需求
非正常的服务终止时间的长碰头会对用户造成不同的损掉,或者说用户对服务停止所能承受的时间是不同的。通常取决于应用的类型,如在一秒钟内修复错误,不会对一个在线联机事务(OLTP)处置惩罚系统构成影响,可是对于一个科学计算应用运行在实时环境下,则停止哪怕一
秒都是不可忍受的。由于系统的任何一个部件都有可能发生故障,是以挑战是在设计系统时能够预判哪些故障将要发生,并且能够最快的纠正将要发生的错误。选择一个解决方案用户系统可用性的要求决定方案的选择。例如:如果系统停机多个小时不会影响营业,那样你就不需要采办带有热插拔硬盘的存储系统。另外如果你不能忍受硬盘更换造成的停机,则可以选择用热插拔的磁盘阵列、并且可以通过硬盘的Mirror(镜像)达到硬件容错效果。我们关心的是基于各种操作系统环境的高可用系统,因为在PC服务器硬件环境被广泛接纳的情况下,更多具有高可用要求的系统在运行,那么如何更好的餍足用户的需求相当重要。
高可用是营业的需求
目前的很多营业,高可用系统是实实在在的需求,而不是华而不实的概念了。从某种意义上讲,高可用系统是对系统宕机造成数值丢掉的一种保障;从另外一点儿看,通过它,企业可以为用户提供更好、更具竞争力的服务,增强了企业的竞争力。高可用是一种保障高可用系统在以下损害情况下,提供了系统的保障:
A 收益减少
B 客户不对劲
C 丧掉时机
对于商业计算,高可用方案是必需的,因为丢掉系统服务意味着利润的损掉。对于这样的营业,我们通常称之为关键营业(mission-critical),对于所有的关键营业,系统宕机意味着收益的减少,高可用是必要的。对于银行,如自动取款机24小时提供服务,其应用系统是典型的关键营业。对于一些像证券交易这样有着安全需求的关键营业,高可用环境保证系统在交易时间内不停机运行,在交易结束后,可以将服务器关闭。
方案
双机热备方式-主从方式(智慧模型)
简单双机双机是目前大多用户接纳的高可用环境,简单的说就是两台服务器加一台磁盘阵列,通过双机软件实现主从事情方式的双机环境。
* 支持各种切换策略:主备切换标准样式、回切标准样式、手动切换、任务负载均衡标准样式
* 单机高可用,能够实时监测本机,并对影响用户系统运作的情况实施自动修复,令用户单机系统同
样得到高级别保障
* 支持平滑扩展至集群高可用
* 通过强大的执行树功效,可自定义集群系统发生切换时各种资源停止及启动的执行顺序
*支持主流存储构架,如FC、ISCSI、SCSI及EXP等
*支持集群资源动态监控,第一个接纳”健康系统安全评价系统”作为衡量集群可用性的方式,转变传
统集群系统非”活”既”死”的二元化判断要领,可根据故障的紧张程度,做不同级别的事件响应
*强大的Event Analyzer技术,可管理所有的任务调度和事件触发,具有人工智能
*专业深度监控插件,是目前独一能对数值库系统的并发用户数、表空间使用率以及进程占用CPU百分
比等进行可用性定义的集群系统
*支持网格化多点镜像集群,与网格化复制模块结合,可实现广域网环境的异地高可
用容错;与容灾模块结合,可实现异地应用级容灾
*完美的集群自我监控,应用进程互锁机制,最大程度保障集群系统自身健壮,避免集群丢掉
*集群运行状态以直观的图形方式显示,管理员轻松应对大范围系统环境
*通过LanderVault先进C/S构架,系统管理员可轻松实现远程管理集群资源,并可针对集群组内大量资
源统一分配及调整
*应用RSA的1024位密钥加密,确保用户核心计值万无一掉
*支持多种报警方式(Mail、Vioce、SMS);
*支持中、英文语言界面,拥有完美的系统日志查看器,详细的系统帮助文档及手册
主从方式:
简单双机集群是目前大多用户接纳的高可用环境,简单的说就是两台服务器加一台磁盘阵列,通过第三方软件软件实现主从事情方式的双机环境。这样的环境不一定是十分严酷的集群,需要考虑的问题太多,包括硬件配置、单点故障等。主从就是热备事情方式,容错软件作为不可缺少部分起到监控系统状态并在系统故障时,自动做出相应的反应,保证整个系统提供服务的不间断。
双主方式:
这个环境下,有两套不同的应用运行在集群环境中,每台服务器运行各自的应用,在其中一台出现故障时,另外服务器将接管其服务。这类配置可以大大提高设备的利用率,缺点是增加了系统的庞大度,而且对于某些特殊应用环境有可能无法实施。
双主方式是真实的双机互备,要求服务用具有较强的处置惩罚能力,来餍足两个应用的需求。在配置双主双机时,硬件的配置与主从双机略有不同,主要在网卡上。对等需要至少两片网卡,每个网卡对应一个应用,可所以相同或不同网段的网络地址。
第三方软件在双主方式下,餍足的是对两个独立的应用实现高可用的需求。我们可以将多个不同应用分布在两台服务器上,使得多个应用可以在高可用环境下运行,这样可以达到多应用互相备援的目的。因为第三方软件可以对进程监控、对进程数量监控,对第三方软件来讲,本身不区分进程的类型,仅仅把进程作为监控的对象而已。
镜像方式:
在传统高可用性双机系统中需要通过同享存储来实现数值的同享提升性能,但这也增加了可用性系统的成本。镜像方式允许用户将数值保留在本地硬盘,通过镜像软件(如Replicator)、以太网络基础环境、 TCP/IP 协议,在两台主机之间实现了数值的实时镜像,不需要分外的存储投资。另外,加之第三方软件-DN双机高可用软件,实现纯软的高可用性系统。
双机双柜:
双机容错系统的无上境界是纯粹避免单点故障,而没有单点故障的系统是几乎不存在的。可是,双机环境中的存储部分的重要程度我们前边有大量描写,是以,双机双柜作为一种可选方案在某些环境下是行得通的,而且具有很多的优点。
下面针对第三方软件环境下,一个Windows双机双柜系统,系统没有物理单点故障(存储部分)。第三方软件环境经过测试,在任何一种情况下都能保证系统的不间断运行。运行主机不宕机,有一个磁盘掉效。此时运行主机上数值库能正常运行,运行主机也能正常运行,而备机也不受干扰。此时,整个系统环境能正常运行。当运行主机宕机,一个磁盘掉效时。备机能顺遂接管数值库的应用。接管后,数值库能正常运行。在此情况下,整个系统环境也能正常运行。
所以,在接纳双机双柜用数值库作镜像的应用情况下,基本达到了能够保证数值库应用不会由于单点故障(单个磁盘柜或单个主机掉效)而造成整个系统环境的掉效。
异地双机(容灾双机):
是利用光纤存储技术或ISCSI技术的特点实现的一种双机环境。这类方式简单的说是将集群的两台服务器放置在距离较远的地方,使之具有一定的容灾功效。这类情况不是任何应用环境均可以实施的。硬件上首先需要的是SAN结构或ISCSI的存储环境,因为SAN存储结构有很好的扩展性、灵活性,同时一般接纳光纤作为传输介质,光纤可以在很长的距离内传输数值,使得服务器、存储可以分别放置在距离很远的地点。
容灾和高可用是不同的需乞降概念,同时是一个安全的系统应该具备的特点。在能够达到高可用的情况下,如果能在不增加投资的情况下,解决容灾问题,将一举两得。
双机热备方式-纯软方式
纯软标准样式就是我们双机热备的另一种形式,他同过软件实现双机热备而不需要阵列柜,结构如下图
支持超大范围的计算机节点,最大可达256个;
创新的智能故障预警,提高了主机系统的可靠性;
初次提出健康系统安全评价系统,提高了营业系统的可用性;
集成镜像、同步、异步等数值容错技术,为关键营业提供多重数值保护;
”字节级”数值粒度,带宽占用极低;
独创”Data Push”技术,数值推送速度更快;
独创”Data Funnel”技术,变化的数值被保存在数值漏斗中,可对误操作回滚;
基于网格化的复制架构,可餍足任意庞大的商业应用需求;
支持局域网、广域网及各种宽带网络,部署方便;
支持数值压缩、加密功效,数值在传递过程中安全高效;
支持对主流数值库系统的数值容灾;
支持远程主机系统的集群保护;
可对持续的数值变化进行备份及恢复;
1. 以OO为核心,将集群的核心封装成”Execute Object”、”Monitor Object”和”Event
Object”,架构合理,扩展性强;
2. 用Java开发集中管理平台,可实现跨平台操作;
3. 接纳MLDC多链路数值交换协议,支持多达5条冗余链路,支持多达256个活动节点,确保通讯可
靠;
4. 可应用于局域网、广域网环境,增加了CheckPoint;
5. 接纳Storage Agent存储控制引擎,支持各类存储标准,如FC、ISCSI、SCSI及EXP等;
6. 接纳RSA的1024位密钥加密,数值通讯安全;
7. 灵活的应用自定义接口(MObject),可餍足所有应用的监控需求,可定义各种行业软件的侦测
代理;
8. 强大的Event Analyzer技术,可管理所有的任务调度和事件触发,具有人工智能;
9. 定义了执行对象的”五阶段模型”,统一了各类资源接口,使资源包的配置近似于自然语言;
10. 接纳字节级的复制粒度,带宽占用极低,可适应于广域网环境;
11. 接纳”Data Push”技术,数值推送速度极快,平均迟延毫秒级;
12. 接纳”Data Funnel”技术,可将数值回滚到任意时刻;
13. 网格化的复制架构,可支持1―>N,N->1,N->M;
14. 接纳多线程并行传输,支持断点续传;
15. 支持多种压缩和加密要领,数值流转过程安全可靠;
比力项 纯软双机
磁盘阵列双机
维护要求
要求高,维护较庞大
要求低,维护简单
数值存储
主和备用服务器均有一份营业数值
营业数值只存储在同享存储阵列上
应用切换
切换快(与同步压力有关)
切换快<30妙
适用系统
数值增长缓慢或者服务器距离跨度大的系统
数值增长快或者要求故障切换快的应用系统
远距离支持
可适应广域网环境,实现异地双机
无法实现远距离环境
对主机性能影响
CPU占用0-30%(与同步压力有关)
CPU占用<5%
对网络的影响
带宽使用<20%
带宽使用<1%
对存储的要求
要求主备机有足够的磁盘空间,可存放营业数值和事务日志
要求有同享存储阵列,可餍足营业数值存取就行
对网络的要求
主备机均要求至少1块网卡
主备机均要求至少2块网卡
对距离的要求
只要求确保TCP/IP连通,距离无限定
除TCP/IP连通畅达外,还需考虑存储设备的距离限定
总成本
除2台服务器外,其他均通过软件实现,总体成本低
需要另购存储阵列,成本较高
对主机的要求
主机性能基本相符
主机性能可不相符
神州消费者指南,神州博客日报等知名网站由乐拓数值中心提供了双机热备服务.欢迎广大客户来电咨询!免费德律风400-820-8808 www.letuo.com 田先生