集群，服务器集群和一台服务器有什么区别(两台服务器集群配置步骤)

谢谢邀请备案域名集群！集群，服务器集群和一台服务器有什么区别(两台服务器集群配置步骤)服务器集群(英文一般简称Cluster)，一般由若干台（一般3台以上）服务器组成。服务器集群解决一台服务器存在潜在问题：1、单台服务器如果由于硬件故障、网络通讯异常、性能受限、软件故障、宕机等情况，那个所运行的业务就会中断，且业务恢复起来非常麻烦、时间周期长；而服务器集群解决了这个问题，在集群中某一台服务器出现故障时，业务不会中断，故障服务器上的业务会自动切换到集群中的其它服务器上，保证用户无感知到业务中断的体验。2、单台服务器性能有限，而服务器集群能够通过软件聚合多台服务器的硬件性能，对外提供超强的硬件性能，这是单台服务器所不具备的条件。因此，服务器集群不是简单的若干台服务器组合一起，它是运算能力的聚合！高可用集群技术下面针对高可用性集群，介绍一下它的工作原理。在微软的MSCS（Microsoft Cluster Server）术语中，所有的应用程序、数据文件、磁盘、网络IP地址等都被称为资源，一些资源可以组成一个资源组，一个资源组存在于一个节点上，但同时只能在一个节点上，它是MSCS可以进行故障切换（FailOver）的最小单元。在MSCS中，所有的资源都处于资源监视器的监视之下，资源监视器通过资源动态链接库文件与资源进行通信，这些资源动态链接库会侦测对应资源的状态，并通知资源监视器，之后，监视器再把信息提供给集群服务（Cluster Service），缺省情况下，集群服务会启动一个资源监视器来监视节点中的全部资源。 MSCS用依赖性来定义不同资源彼此之间的关系，MSCS会根据资源间的相互依赖关系来决定把这些资源变为在线或者是离线的顺序。举一个WEB服务器文件共享的例子，文件共享的资源需要硬盘驱动器来存储数据，把这些有关系的资源一起放在MSCS组中，要实现共享，就必须先把硬盘准备好。同时，为了完成文件共享，我们还需要准备好网络名称以及IP地址。500)this。width=500;” border=0>从上图可以看出，文件共享资源依赖于硬盘资源，网络名称资源依赖于IP地址资源，而对应的WEB服务刚依赖于文件共享和网络名称。资源的存在可以分为五种状态1、Offline，资源不能被别的资源或者客户机使用2、Offline Pending，资源正处于Offline的过程中3、Online，资源处于可用的状态4、Online Pending，资源正处于Online的过程中5、Failed，资源出现了MSCS无法解决的问题前面已经提到，MSCS可以从一个节点故障切换到另一个节点的最小单元是资源组。被定义好的相关的资源放在同一个组中，并建立对应的依赖关系。以下图为例，如果节点A中的资源组1要移到节点B上的话，资源组1中的资源（资源A，资源B，资源C）也必须从节点A移到节点B才行。500)this。width=500;” border=0>在MSCS的资源中，有一个非常重要的资源，Quorum，它是一个可以被两个节点访问的物理硬盘，用来保存集群的信息。这些信息是用来维护集群的完整性以及使节点保持同步，特别是当节点不能与另一个节点通信的时候。Quorum盘在某一时刻只能被一个节点所拥有，并用来决定由哪个节点来拥有集群的所有资源。Quorum必须位于共享的磁盘子系统中，一般都是使用外接的磁盘柜。一般情况下，不建议把应用程序和数据保存到包含Quorum的硬盘上。故障切换（Failover）是指把出现故障的节点上的资源重新定位到另一个可用的节点上。负责监视资源的资源监视器一旦发现资源出现故障，它就会通知集群服务，集群服务会根据事前定义好的策略触发对应的事件。虽然发现的是个别资源的故障，但是，集群还是会把整个资源组进行故障切换。故障切换会在三种不同的情况下发生：人工（一般是因为管理员的请求），自动，或者在特定的时间（由集群管理软件设定）。自动故障切换又包含了三个阶段：1、故障发现。2、资源重新定位。 3、重新启动应用程序（一般是故障切换过程中最耗费时间的）。当达到资源组的故障切换阀值时，自动的故障切换才会发生，阀值是可以设定的，一般由管理员来设定。故障恢复（Failback）是一种故障切换的特例，是指发生故障切换之后，把部分或者全部资源组移回它们首选的节点的过程。首选的节点，就是指集群中指定的运行资源组的道选的节点，如果是多个节点的高可用性方案，就会有多个首选的节点。当首选的节点出现故障后，对应的资源组就切换到另外的可用节点上，当出现故障的节点恢复正常后，资源组可以自动的切换回首选节点。如果没有定义首选节点，资源组就不会自动切换回来。要检查资源是不是可用，资源监视器会向对应的动态链接库发送状态信息的请求，一般会有两种级别的检查，LooksAlive和IsAlive。LooksAlive级别的检查相对比较简单，每隔一段时间（相对比较短的时间，缺省是5秒），资源监视器会进行一次LooksAlive级别的检查，如果资源没有响应，监视器会向集群服务报告。 IsAlive级别的检查是非常完整的检查，它会彻底检查资源是不是工作正常，IsAlive检查的时间间隔比LooksAlive要长，缺省是1分钟。

相关文章