CN1336589A

CN1336589A - 数据管理应用程序的故障恢复方法和系统

Info

Publication number: CN1336589A
Application number: CN01124663A
Authority: CN
Inventors: C·博利克; P·格斯杰格; K·施罗伊夫
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-07-28
Filing date: 2001-07-27
Publication date: 2002-02-20
Anticipated expiration: 2021-07-27
Also published as: US6990606B2; DE10134492A1; CN1190733C; US20020073354A1; SG99917A1; KR100423687B1; US7523345B2; JP4204769B2; DE10134492B4; KR20020010490A; JP2002091938A; US20060010338A1

Abstract

这里公开的是在具有提供服务的松耦合节点集群的分布式计算环境下,用于处理共享磁盘文件系统的一种数据管理应用程序的故障恢复的机制。根据这种机制,定义集群中的某些节点为故障恢复候选节点。所有故障恢复候选节点的配置信息最好存储在一个中央存储器中。在故障恢复候选节点间分发包括但不局限于故障信息的至少一个故障恢复候选节点的消息信息。通过分析所分发的消息信息和存储的配置信息来决定是否由一个故障恢复候选节点接管故障节点的服务。一个故障恢复候选节点接管服务后要在中央存储器中更新该配置信息。

Description

数据管理应用程序的故障恢复方法和系统

技术领域

本发明和管理分布于一个集群信息技术环境中的数据存储资源中的共享信息的领域有关，更特别地和一种用于这种松耦合节点集群的共享磁盘文件系统的数据管理中处理故障恢复的方法和系统有关。

背景技术

拥有大规模的或连网的计算环境的企业通常使用分布式文件系统。近年来，存储高分辨率图象、科学数据等的需求引起了数据输入/输出(I/O)与存储系统的性能和功能之间的严重不平衡。因此当前大容量存储系统的性能和容量必须按照量级增长。

为了在这种密集存储的计算环境中提供费效合理的数据存取，大容量存储系统必须与下层分布式文件系统集成。于是，大容量存储系统和这些文件系统的结合提供了该文件系统的无缝形式。

日益增长的对数据存储容量的需求意味着管理分布式存储系统的成本已经明显地高于存储系统本身的成本。因此对以数据管理(DM)应用程序的方式去实现智能而有效的存储管理的需求日益强烈。

DM应用程序在有限存储容量的快速在线存储器和第三级大容量外存储器之间转移数据。此外，它还为所有存储在第三级大容量外存储器的数据提供在线语义，即用户不必为了访问数据而要去执行任何管理操作。而且，DM应用程序能识别任何对存档数据的访问并自动将这些数据传送到用户。由于这个原因，必须提供一些监测功能，使得当一个用户试图从一个数据文件中读取一块数据时，需要通知DM应用程序。

前面描述的概念，即通过将数据转移到远程存储设备来空出本地存储空间的概念，就是通常所知的分级存储管理(HSM)。该存储管理对用户来说是透明的，即，在他看来数据好象仍在本地。

在基于文件的HSM中，DM应用程序产生所谓的‘存根文件’作为仅仅保存该文件属性的占位符。当访问该存根文件或相应地穿孔的磁盘区域时，该文件的数据(或一个磁盘区域)再一次从远程存储设备被再调用。典型地HSM被安装在一个文件服务器上，该服务器存储了大量的很少被访问的数据(比如存档的气象图，视频表象)。

另外已知道，如果该存储系统的一部分可以接管发生错误的存储系统的服务，这通常被叫做故障恢复，那么前面描述的分布式集中存储系统的可用性，即下面的数据存储设备和DM应用程序的组合的可用性可以得到提高。

因此，已经知道有管理多主机间磁盘共享的文件系统，例如在已由本申请人开发和出售的AIX SP(基于UNIX的可扩展的强大并行计算机)上运行的通用并行文件系统(GPFS)。

为了允许将DM应用程序开发成类似于普通的软件应用程序，建议了一种数据管理应用程序接口(DMApi)(由数据管理接口组(DMIG)协会规定)，它由文件系统实现并由数据管理(DM)应用程序使用，以执行以下功能：

—分级存储管理(HSM)

—数据备份和恢复

该DMApi的目标是提供适合于实现鲁棒的、商业级的DM应用程序的环境。在共享磁盘环境中，该DMApi可以特别地包括用于恢复DM应用程序的崩溃的设备和对文件系统对象的正式控制。

在本发明特别针对的松耦合计算机节点的集群中，每一个节点包括一个DM应用程序，它提供存储管理支持，这种支持要求所谓‘DMApi事件’，这些事件可以是同步或异步的。DMApi事件是只要在集群的某个节点中实现的下层操作系统里发生某个特定操作，就让一个DM应用程序得到通告的机制。通过这些机制，DMApi会话可以被另一个产生单点故障的节点接管。DMApi会话是DM应用程序和下层操作系统中实现的DMApi核心组件之间的主要通信通道。

在典型的单个节点/计算机环境中，文件系统服务在发生系统故障时将会终止。在集群环境中，最有可能的是单节点故障不会影响到系统內的其他(独立)节点。如果DM应用程序位于故障节点，将无法访问存根文件，这很可能中断在活动集群节点上运行的进程。因此，为了不使其他集群节点受到初始节点故障的影响，希望将DM应用程序转移到一个活动集群节点来恢复HSM功能。

发明內容

因此本发明的一个目的是在分布式计算环境下，为用于共享磁盘文件系统的一种数据管理应用程序提供一种处理故障恢复的方法和系统。

还有一个目的是在具有提供数据访问服务的松耦合节点集群的分布式环境下，为处理故障恢复提供这种方法和系统。

另一个目的是在这样一种集群环境下提供这样一种方法和系统，它允许基于DMApi的HSM应用程序的故障恢复处理。

这些目的通过独立权利要求的特征加以解决。本发明的有利的实施方案是从属权利要求的主题內容。

依据本发明的方法通过下列步骤实现上述目的：定义集群中的某些节点为故障恢复候选节点，为所有故障恢复候选节点存储配置信息，在故障恢复候选节点间分发包括但不局限于故障信息的至少一个故障恢复候选节点的消息信息，分析所分发的消息信息和存储的配置信息以决定是否要由一个故障恢复候选节点接管故障节点的服务，在至少一个故障恢复候选节点接管故障节点的服务的情况下更新配置信息。

一般而言，在集群环境下有两种故障类型。第一种类型是一个节点认识到其不再能够提供数据访问服务，并因此为了在一个不同的节点上恢复数据访问服务而触发故障恢复请求。而在一个节点发生完全故障的情况下，集群服务将故障事件分发到各个故障恢复候选节点。本发明针对这两种故障类型但只提供一种机制。

支撑本发明的特定概念是提供一种结合一个文件系统的机制，该机制允许在发生故障时移动DMApi会话，从而使得DM应用程序的故障恢复级联进行。那种机制以唯一的方式向分布式大容量存储系统的用户提供更高级别的可用性。

松耦合系统的特征在于，由于缺乏共享主存储器(RAM)而引起的集群节点的明显的独立性。该集群的功能性是基于在硬件方面的几类高速互连和提供例如节点到节点通信和共享数据存储功能的集群软件的。

和单块集成电路(多处理器)系统相比，关于松耦合节点之间的同步存在两个问题：

—缺少类似于系统互斥的同步锁定机制

—故障节点上的本地配置信息的丢失

本发明通过使用辅助存储器和一组替换对象锁定机制模拟这个功能，解决了这些问题。

此外，本发明有利地提供了对存根文件的访问保证。

在本发明的一个优选实施方案中，如果第一故障恢复候选节点只从故障节点接管文件系统的一个子集，那么至少要对第二故障恢复候选节点执行故障恢复请求。那样的级联执行机制相当大地提高了松耦合计算环境下故障恢复的鲁棒性。

附图说明

结合附图，从下面的详细描述更容易理解本发明，从附图中，本发明的其他特征和优点变得明显。在图中

图1是一个示意性数据流图，它说明依据现有技术读取非驻留文件的DMApi模型数据流；

图2是一个示意性框图，它表明依照本发明的一个节点集群的初始状态；

图3是一个时间图表，描述了本发明的第一个实施方案，该方案提供了在接管故障节点服务的几个故障恢复候选节点之间同步的同步化；

图4是类似于图3的一个时间图表，描述了一个提供异步的同步化的实施方案；

图5是一个图解了依据本发明的一个远程数据恢复请求的接管的框图；以及

图6是另一个描述了本发明的一个典型的实现过程的框图。

具体实施方式

图1显示了依据现有技术随时间过去(“时间线”)读取非驻留文件的DMApi模型数据流。在分布式和集群计算环境下的一个被描述的节点100包括运行DM应用程序110的一台主机，该程序提供几种方法来控制用户对存储在本地(在这里没有显示)，例如在本地磁盘或辅助存储器的文件数据的存取，辅助存储器可以是和该显示节点相连接的磁盘。在节点100上，正运行着带有DMApi执行程序130的操作系统內核120。

在远程节点140中，提供了包含存储容量巨大但数据访问或存储性能低的存储设备的第三级存储器150，用于很少被访问的数据。第三级存储器150通常是自动的磁带库或一个光盘自动换片器，并通常被连接到该网络上的其他一些主机上。在第二级和第三级存储器150之间移动数据的过程160通常被称作数据转移。

文件系统数据(常驻数据)存在于本地磁盘上并且可能在第三级存储器150上加以复制。任何对常驻数据所做的本地变动，在有第三级存储器上的复本的情况下必须使其失效。非常驻型数据只能存在于第三级存储器150上，而且在用户可以访问之前必须被复制到本地磁盘上。应该指出如果数据没有首先被复制到本地磁盘上的话，DMApi数据流模型不会允许访问该数据。

为了将数据从第三级存储器150转移到本地存储器上的文件中，在设置被管理的区域时，该DM应用程序110要能够写到该文件中。DMApi提供特殊接口(在这里没有显示)用于存取‘隐藏的’数据，而绕过事件生成代码。这些接口通常被称作不可见I/O。它们的语义与正规的读(2)和写(2)系统调用相似，不过它们并不产生数据事件而且它们不会改变文件的时间戳。

为了将文件数据发送到第三级存储器150，该DM应用程序110需要获得对目标文件的访问权限。使用专用的DMApi调用，可以同时从服务器中读取文件属性以及文件数据，并将它们发送到服务器。其后，数据段可以被释放(穿一个数据孔)以获得本地存储。‘数据孔’即是所谓的被管理的区域。在这个过程之后，释放该DM的访问权限。

为了从该文件系统中接收消息，该DM应用程序110需要定义一组为给定的文件系统接收消息的DM事件。这样的事件尤其可以是对一个文件的读/写/截断等的存取或是关于安装或存储空间(例如空间溢出通告)的文件系统状态事件。

如果一个用户应用程序170读取一个打孔的文件(-＞其管理的区域)，则该DMApi挂起该应用程序并且向消息队列发送一个事件。一个带有相应的DM事件部署的DM应用程序可以读取该事件并且从远程存储器恢复该文件数据。其后，该事件得到响应，即重新激活(消除阻塞)引起该读取事件的原来的应用程序。

象Tivoli空间管理器这样的HSM执行程序通常自动地管理本地存储的空间。于是如果一个文件系统超过所定义的使用比率例如大约70％，或产生空间溢出事件，则DM后台程序基于生成的候选列表开始将符合条件的文件转移到远程服务器上，直到达到规定的低限阈值。

图2显示了依照本发明的一个4-节点集群200的初始状态。节点2正为称作“gpfs1”的一个指定的通用并行文件系统(GPFS)提供DM服务。节点1和3是用于接管节点2服务的潜在的候选节点(故障恢复候选节点)。在节点4上还没有实行共享文件系统，因此它是不符合条件的。配置数据被存储在IBM AIX SP范围的“系统数据库”(SDR)210中。节点间的通信通过SP组服务(GS)220来实现，该服务在所定义的一组节点(这里是指参加集群的这些节点)內跟踪节点故障并提供通信协议以分发消息。

在集群200內统一的配置是通过将所有故障恢复候选节点230-250的配置数据存储于安排在集群200內的SDR210中而得以保证的。

共享的环境需要知道：

、在集群200內所管理的文件系统的列表，包括文件系统特定设置

、当前正管理一个或更多文件系统的节点

、其他的配置信息，例如对远程存储服务器的存取信息

此外，提供一个通信接口用于将消息(例如一个节点的故障报告)分发到参与故障恢复环境中的各个节点(见图3的适当故障恢复通信协议)。

通信实例(如AIX SP组服务)提供了一个允许参加的集群节点形成一个管理组的API。在该通信结构中，每一个节点是该组服务实例(服务器)的一个客户端(所谓在SP组服务范畴的‘服务提供者’)。发送到接口的客户消息被自动地分发到各参加的组成员中。该AIX SP GS消息通告是事件驱动的(-＞回叫功能)。

如果节点上的DM应用程序不再能够提供其服务，必须将这个故障通知到故障恢复组里的其它成员。通知既可以由故障节点主动发出，也可以在所有节点出现整体故障(崩溃)时由集群通信服务(例如SP GS)来报告。

基于故障通告，在故障环境中的潜在的各接管节点就要同步它们的工作来为以前由该故障节点管理的文件系统恢复DM服务。每一个节点需要分析存储在中央数据库210中的共享配置数据来决定它是否符合条件去接管故障节点的服务。这个过程的结果可以是如下：

1、没有候选节点：不做任何事—服务不能被恢复

2、一个候选节点：服务可以被恢复，没有其他附加的同步工作

3、超过一个候选节点：服务可以被恢复，但要求同步

关于结果选项3，如果节点的集群200不通过共享存储器(例如，类似IBM SP的独立机器的一个集群)进行通信，那么它要采取额外的工作来同步不同的节点。用于接管故障节点的文件系统的几个候选节点之间的同步可以通过以下方式来实现：

a)同步或

b)异步

图3显示了在类似图2所描述的4-节点集群中按照本发明的方法的第一实施方案。它在几个故障恢复候选节点之间提供了同步的即基于通信的同步来接管一个故障节点300的服务。

为了在集群的不同节点之间提供故障恢复功能，DM应用程序需要被安装到所有将参与故障恢复过程的节点上。在初始的配置中，这些节点中至少有一个节点为特定的文件系统提供数据管理(DM)服务。潜在的故障恢复候选节点310，320在后台保持睡眠状态或者为不同的文件系统提供服务。

符合条件的节点310，320通过由专门的集群通信服务330(例如前面描述的组服务)所管理的集群通信机制发送一条消息，以将其分发到组里的其它成员310，320，350上。这条消息包括优先级关键字340(例如基于该节点的工作负载360)。

该方法最好提供了一种阻塞机制，该机制基于由AIX SP中使用的系统数据库(SDR)所提供的命令接口。该SDR允许为给定的数据记录类型创建和修改持续稳固的数据对象。可以在很简单的操作中检查和修改一个数据对象，因此在共享的HSM资源上设置一个锁(类似于系统互斥)，在本发明中，该资源按照以下的如果-则的条件步骤来执行，即

如果(锁＝＝0)则(锁＝1)

如果该检查失败，则调用方在重试之前要等待片刻。除了该锁以外，后续的节点还需要更新锁的特定时间戳(基于集群范围內的同步时钟)。如果一个持有该锁的节点崩溃，则等待节点将试图一直访问该锁，这显然是不希望的。

一次服务的接管可能长达约60秒。现在如果一个锁的时间戳旧于60秒，一个候选节点就可以假设持有该锁的这个节点将不能恢复，并且将自由地来强制接管该锁(又一次更新时间戳)。在完成共享HSM资源的存取之后，该锁被重新设置为零。

前面描述的优先级关键字是基于UNIX的‘uptime’(正常工作时间)命令的。除了其它数据之外，uptime还报告前面最近15分钟的系统工作负载。报告的工作负载越高，则优先级关键字的值越低。

接收消息的节点可以用自己的关键字来匹配进来的关键字。最佳关键字380赢得接管服务的权力。由于不知道发送关键字的潜在备份节点的数目，因此该表决过程需要在一定的超时370之后完成。

赢得服务权力的节点可以将一个或更多的文件系统加入到它当前活动的HSM配置中，或者开始启动HSM服务380。对于基于DMApi的应用系统的典型情况是，需要设置事件掩码来接管为目标文件系统而产生的所有进来的事件。接管服务的节点需要在中央数据库中更新配置文件来保证一致性。为了避免竞态情况，更新机制必须通过锁定机制(见上面描述)而存在。其他则仍保持或者是睡眠备份或者继续在它们自己的HSM文件系统上提供服务。如果一个节点在表决的过程中被延迟，它可以将在所有者文件中定义的活动节点与故障节点相匹配。如果不匹配，则放弃进行控制的企图，因为接管已经发生了。

通过前面描述的同步多阶段信息交换机制来处理这种状况需要将状态信息保存一段时间，还要加上相当一段通信开销。每一个文件系统还必须进行表决，这是因为初始的接管节点也许不能够管理故障节点的所有文件系统(例如没有被装上的文件系统)。

图4显示一个不同的实施方案，在该方案中故障恢复候选节点之间的同步是通过一个异步(以数据锁定为基础)协议来完成的。该实施方案是在带有三个节点的情况下说明的。每一个节点可以简单地通过对配置文件的上锁、更新和解锁来竞争接管文件系统。能够解锁和修改集群数据库中的配置文件的节点赢得从故障节点接管文件系统的权力。故障恢复请求还将级联到被延迟的节点，该节点可能依然能够接管不能被前面接管节点所服务的剩余的文件系统。和图3描述的同步方法相对比，前面描述的异步故障恢复机制不要求故障恢复组中节点之间的明确消息。

在发生故障的时候，故障节点可能正在处理从文件系统来的数据管理(DM)事件。产生这样事件的进程被DMApi环境所阻塞，直到DM应用程序在一个文件的数据被远程存储服务器再调用之后释放该事件为止。接管服务的节点使用一个现有的或者—如果没有—则创建—个新的DMApi会话。此外，该节点承担来自故障节点的会话。来自故障节点的挂起的事件被转移到临时的DMApi会话并且依赖事件的不同类型而以各种不同的方式加以管理。这样保证被阻塞的进程可以被重新释放。

图5描述的例子说明了远程数据再调用请求的接管。如果GPFS后台程序死去(异常地，由于节点崩溃，通过用户请求)的话，该DMApi在GPFS HSM上支持这种类型的事件接管。

取决于通信事件处理的类型，DM应用程序也许同样需要一种队列来避免并发线程的难题。原则上，所有进程/线程由于中央数据库中被锁定的数据对象而阻塞，但这样将引起不希望的繁忙等待。在单线程的环境中，进来的请求被存储在单FIFO列表中。在多线程环境中，能够通过系统互斥或条件变量来实现同步。

最后，图6描述在GPFS HSM中用于IBM SP上AIX的本发明的组服务的实现。

说明的SP环境特征有：

、组服务(GS)600，它为节点崩溃提供了集群范围內的通信协议加上一组跟踪机制

、用于存储集群范围内的配置文件的系统数据库(SDR)610。

这个SP组服务提供一组机制来形成一个通信组，该组包括分布地在任何SP节点上运行的进程。参与的进程可以向组里的所有成员分发消息。另外可以命令组服务去检测各成员进程的生存状态—这是一个特点，它可以被用来向触发故障恢复机制的各组成员报告进程(-＞所有节点)故障。

在AIX SP上的GPFS HSM的任务被划分为3类后台程序：

、dsmwatchd620，630，640，这是所有故障恢复/恢复活动的焦点

、dsmrecalld680，690，700，负责从远程存储服务器再调用回转移的数据

、dsmmonitord650，660，670注意文件系统的空间溢出状态和向远程存储服务器自动进行数据转移。

dsmwatchd基本上完成两项任务：

—由主进程(DM线程)720执行的已崩溃的dsmmonitord和dsmwatchd的恢复

—管理由GS回调线程730触发的故障恢复环境，包括

● 在本地环境被破坏的情况下(GPFS后台程序崩溃/关闭，节点崩溃，HSM后台程序被破坏)主动的故障恢复

● 对远端故障节点文件系统的主动替换。

根据第一个任务，dsmwatchd通过一个DM调用侦听dsmrecalld以检测DM服务是否启动并确定dsmrecalld正在运行。如果dsmwatchd不再能侦听到dsmrecalld，将尝试重启dsmrecalld一次，如果重启未成功则将基于DM环境已破坏的假设，启动故障恢复到不同的节点。此外dsmwatchd跟踪该进程ID，以便如果该PID不再存在时重启目标后台程序。

根据第二个任务，SP组服务(GS)操作依照以上描述实现。替换机制最好是异步工作，因为同步操作经常由于特定GS限制的原因而不能发生。多个故障恢复请求要通过线程互斥排队。

Claims

1.在具有提供服务的松耦合节点集群的分布式计算环境下，用于处理共享磁盘文件系统的一种数据管理应用程序的故障恢复的方法，包括以下步骤：

定义集群中的某些节点为故障恢复候选节点；

为所有的故障恢复候选节点存储配置信息；

在故障恢复候选节点间分发包括但不局限于故障信息的至少一个故障恢复候选节点的消息信息；

分析所分发的消息信息和存储的配置信息以决定是否要由一个故障恢复候选节点接管故障节点的服务；

在至少一个故障恢复候选节点接管故障节点的服务的情况下更新配置信息。

2.根据权利要求1的方法，其中如果第一个故障恢复候选节点只从故障节点接管文件系统的一个子集，则故障恢复请求将继续进行到至少第二故障恢复候选节点。

3.根据权利要求1或2的方法，其中配置信息存储于安排在集群內的中央数据存储器。

4.根据权利要求1到3中任何一个的方法，其中所分发的消息信息包括至少一个节点的故障报告。

5.根据前述任一权利要求的方法，其中故障恢复候选节点计算和每一个故障恢复候选节点的工作负载有关的优先级关键字，该关键字作为被分发的消息信息的一部分被分发。

6.根据权利要求5的方法，其中接收优先级关键字的故障恢复候选节点将其接收到的优先级关键字与它们自己的优先级关键字相比较，由此，拥有最佳优先级关键字的节点赢得接管服务的权力。

7.根据前述任一权利要求的方法，其中依靠锁定机制来处理配置信息的更新。

8.一种包括计算机可用媒介的制造的产品，该产品具有在其內实施的计算机可读程序代码装置，用于在具有提供服务的松耦合节点集群的分布式计算环境下，处理共享磁盘文件系统的一种数据管理应用程序的故障恢复，该包括计算机可读程序代码装置的制造的产品中的计算机可读程序代码装置用于使计算机实现：

定义集群中的某些节点为故障恢复候选节点；

为所有的故障恢复候选节点存储配置信息；

9.在具有提供服务的松耦合节点集群的分布式计算环境下，用于处理共享磁盘文件系统的一种数据管理应用程序的故障恢复的系统，包括

用于为故障恢复候选节点存储配置信息的数据存储装置；

用于在故障恢复候选节点之间分发消息信息的通信接口装置；

用于分析消息信息和配置信息以便决定是否要由一个故障恢复候选节点接管故障节点的服务的装置；

在至少一个故障恢复候选节点接管故障节点服务的情况下，用于更新配置信息的装置。

10.根据权利要求9的系统，还包括用于级联故障恢复处理的装置，由此如果第一故障恢复候选节点只从故障节点中接管文件系统的一个子集，则故障恢复请求将继续进行到至少第二故障恢复候选节点。

11.根据权利要求9或10的系统，这里数据存储装置是安排在集群內的中央数据存储器。

12.根据权利要求9到11中任何一个的系统，这里用于更新配置信息的装置位于接管故障节点服务的故障恢复候选节点中。