CN100562852C

CN100562852C - 在hpc环境下的拓扑认识作业调度和回填的系统和方法

Info

Publication number: CN100562852C
Application number: CNB2005100922363A
Authority: CN
Inventors: S·V·戴维森; A·N·里舒克斯
Original assignee: Raytheon Co
Current assignee: Raytheon Co
Priority date: 2004-04-15
Filing date: 2005-04-15
Publication date: 2009-11-25
Anticipated expiration: 2025-04-15
Also published as: TW200617694A; US9904583B2; WO2005106663A1; US20160132361A1; US20170177418A1; EP3267309A1; US20130311998A1; JP2005310139A; US9189278B2; US8336040B2; US8984525B2; IL178606A; MY150399A; US20130304895A1; US9928114B2; CA2503777A1; CA2503777C; US20140047092A1; CN1770109A; WO2005106663A8

Abstract

在HPC环境下作业管理的方法包括从多个HPC节点中确定未分配子集，每一个未分配HPC节点包括集成结构。使用至少一部分节点的未分配子集，从作业队列中选出并执行HPC作业。

Description

在HPC环境下的拓扑认识作业调度和回填的系统和方法

技术领域

本技术方案通常涉及数据处理领域，更具体的说，涉及一种在HPC环境下的拓扑认识作业调度和回填的系统和方法。

背景技术

高性能计算(HPC)通常具有科学家和工程师们用于模仿、模拟和分析复杂的物理和算法现象的计算系统的特点。目前，HPC机器通常是通过使用至少一个称之为节点的处理器的许多HPC集群设计而成。对于大部分科学和工程应用来说，性能主要通过并行的可量测性而不是每个节点的速度来确定；因此可量测性一般是建造或构造这种高性能集群的限制因素。可量测性通常认为基于：i)硬件，ii)存储器，I/O及通信带宽，iii)软件，iv)体系结构和v)应用程序。在大部分传统HPC环境中的处理程序、存储器和I/O带宽通常都不易平衡，因此就不容易量测。许多HPC环境没有I/O带宽来满足高速终端数据处理的需求，或用安装了太多不需要元件的刀片来构造，往往会会显著地降低系统的可靠性。相对应地，在面向生产的环境中，许多HPC环境并不为高效的操作提供耐用的集群管理软件。

发明内容

本技术方案提供了一种在HPC环境下的作业管理系统和方法，此方法包括从多个HPC节点中确定未分配的子集，每个未分配的子集包括集成结构。使用至少一部分节点的未分配子集，从作业队列中选出并执行HPC作业。

本发明有许多重要的技术特点。例如，本发明一个可能的特点就是通过至少部分减少、分配或排除集中转换的功能性，来提供更好的输入/输出(I/O)性能，或许是传统HPC带宽的四到八倍。当然，在某些实施例中，I/O性能与处理器性能可几乎相当。这种平衡好的方法或许对通信开销(overhead)不太灵敏。相对应地，本发明可提高刀片和整个系统的性能。进一步可能的特点是减少了互连的等待时间。更进一步，本发明比传统刀片更易缩放、可靠和容错。然而另一特点是减少制造HPC服务器的费用和/或执行HPC程序的费用，此HPC服务器可传给大学或工程师的实验室。至少部分基于平衡的体系结构，本发明进一步考虑了更耐用高效的管理软件。本发明的许多实施例可没有、有一些或所有这些特点。本发明的其它技术特点对于本领域的技术人员将非常明显。

附图说明

为更完全地理解本发明的技术方案和其特点，现在参考下面相关附图进行描述，其中：

图1是表示依照本技术方案的一个实施例的高性能计算系统的例子的图；

图2A-D是表示在图1的系统中栅格的不同实施例和其用法的图；

图3A-C是表示在图1的系统中的单个节点的不同实施例的图；

图4A-B是表示依照图1中的系统，图形用户界面的不同实施例的图；

图5是表示依照图1中的系统，集群管理软件的一个实施例的图；

图6是表示依照图1中的高性能计算系统，提交批作业方法的流程图；

图7是表示依照图1中的高性能计算系统，栅格的动态回填方法的流程图；和

图8是表示图1中的高性能计算系统，动态管理节点差错方法的流程图。

具体实施方式

图1是表示使用HPC技术，执行软件应用和处理，例如大气、天气或爆炸模拟，的高性能计算(HPC)系统100的方框图，。系统100提供给用户在不同计算节点115中动态分配的HPC功能性，不同计算节点115具有与处理性能完全类似的I/O性能。通常，由于其中这种提高的输入/输出(I/O)性能和减少的结构等待时间，这些节点115易于量测。例如，在分布式结构中，节点115的可量测性可通过Amdah1定律的微分来表示：

S(N)＝1/((FP/N)+FS)＊(1-Fc＊(1-RR/L))

其中S(N)＝N处理器的加速，Fp＝并行编码的分数，Fs＝非并行编码的分数，Fc＝专用于通信处理的分数，及RR/L＝远程/本地存储器带宽比率。因此，通过提供与处理性能完全相同或近似似的I/O性能的HPC系统100，HPC系统100提高了HPC应用程序的综合有效性，并虑及更容易的系统管理。

HPC系统100为分布式客户端/服务器系统，此系统允许用户(如科学家和工程师)在HPC服务器102上提交处理作业150。例如，系统100包括通过网络106与至少一个管理工作站或本地客户端120相连接的HPC服务器。但是系统100可能是一独立计算环境或任意其它合适的环境。简而言之，系统100是任何包括较高可量测的节点115并允许用户提交作业150、为作业150动态分配可量测节点115，并利用分配节点115自动执行作业150的HPC计算环境。作业150可能为通过任意灵活用户使用HPC技术处理或提交的任意批或在线的可操作作业。例如，作业150可能是模拟、模仿或为其它高性能请求的需要。作业150也可能为运行数据中心应用程序的需求，如集群数据库、在线事务处理系统或集群应用程序服务器。这里使用的术语“动态”，通常表示至少部分基于至少一个变量的运行时间来确定某些处理。这里使用的术语“自动”，通常表示通过至少部分HPC系统100主要执行的适当处理。应该理解的是，“自动”进一步期望任意合适的用户或管理员与系统100交互作用，而没有脱离本技术方案的范围。

HPC服务器102包括用于使用多个平衡节点115和集群管理引擎130处理作业150的任意本地或远程计算机。通常，HPC服务器102包括分布式计算机，如刀片服务器或其它分布式服务器。然而在这种结构中，服务器102包括多个节点115。节点115包括任意计算机或处理装置，如举例来说，刀片、通用个人计算机(PC)，客户机、工作站、基于Unix的计算机或任意其它合适的装置。通常，图1提供的只是与本技术方案一起使用的计算机的一个例子。例如，尽管图1中表示的是一个与本技术方案一起使用技术方案的服务器102，但是系统100能够使用计算机而不是服务器、服务器池来执行。换句话讲，，本技术方案设想的计算机不是通用的计算机，以及没有传统操作系统的计算机。如在本文献中使用的一样，术语“计算机”往往包括个人计算机、工作站、网络计算机或其它任何合适的处理装置。HPC服务器102或元件节点115，可适合于执行任意操作系统包括Linux、UNIX、Windows Server或任意其它操作系统。根据一个实施例，HPC服务器也可包括或可传递地与远程站点服务器相偶接。因此，在任意适合动态分配节点115以处理HPC作业150的组合中，服务器102可包括具有软件和/或硬件的任何计算机。

在高电平下，HPC服务器102包括管理节点105、具有许多节点115的栅格110，和集群管理引擎130。更具体的说，服务器102可为包括有部分或所有下列元件的多个刀片(节点115)的标准19机架：i)双处理器；ii)大容量且高速带宽存储器；iii)双主机信道适配器(HCAs)；iv)集成构造交换机；v)FPGA支架；和vi)冗余电源输入或N+1个电源。这些不同的元件允许差错限制在节点电平内。但可以理解的是，HPC服务器102和节点115不包括所有这些元件。

管理节点105包含至少一个实质上用于管理或协助管理员的刀片。例如，管理节点105包括两个刀片，其中两个刀片之一为冗余的(如主动/被动结构)。在一实施例中，管理节点105或许为同一类型的刀片或计算装置如HPC节点115。但是，只要它仍至少对于部分管理栅格110是可操作的，管理节点105可为包括任意数量电路并配置在任意合适方式中的任意节点。通常，管理节点105物理或逻辑地从多个HPC节点115中分离出，共同在栅格110中表示出来。在图示的实施例中，管理节点105通过链路108可通信地与栅格110连接在一起。链路108可包括执行任意合适通信协议的任何通信通道。在一个实施例中，链路108在管理节点105和栅格110之间提供GB或10GB的以太网通信。

栅格110是为提高处理功率而互连的一组节点115。典型的是，栅格110是3D圆环，但是也可为网状、超立方体或其它任意不脱离本技术方案范围的形状或结构。栅格110中节点115间的链路可为串行或并行的模拟链路、数字链路或其它任意类型的链路，这些链路能够传输电或电磁信号，如举例来说光纤或铜。每个节点115配置有集成交换机。这就允许节点115更容易使3D圆环成为基础结构，并帮助其它节点115间的XYZ距离达到最小化。更进一步，这就使铜线工作在较大的系统中直到GB速率，在某些实施例中，最长的电缆小于5米。简而言之，节点115通常为最近邻居通信和提高的I/O带宽而进行最优化。

每个节点115包括可通信地与集群管理引擎130连接在一起的集群代理132。通常，代理132接收来自管理节点105和/或集群管理引擎130的请求和命令。代理132可能包括任何硬件、软件、固件或其结合，用于确定节点115的物理状态和通信处理过的数据都，如通过“心跳”来管理节点105。在另外的实施例中，管理节点105可周期性地查询代理132来确定相关节点115的状态。只要它仍与至少部分集群管理引擎130兼容，代理132可用任意合适的计算机语言写入如，举例来说，C、C++、汇编程序、Java、Visual Basic、及其它或其任意组合。

集群管理引擎130能够包括任意硬件、软件、固件或其结合，用于动态分配管理节点115和使用节点115执行作业150。例如，集群管理引擎可用任意合适的计算机语言来写或描述，包括C、C++、Java、Visual Basic、汇编程序、4GL的任意合适版本及其它或其任意组合。可理解的是，虽然集群管理引擎130在图1中是作为单个多任务模块来表示的，但是由本引擎执行的特点和功能可由多模块执行，如举例来说，物理层模块、虚拟层模块、作业调度程序和显示引擎(如图5中的更详细表示)。更进一步，虽然如图中所示的是作为管理节点105的外部，但是管理节点105通常执行至少一个与集群管理引擎130相关的处理器，并可存储集群引擎130。此外，集群管理引擎130可为不脱离本技术方案的范围的另外软件模块的子代或子模块。因此，集群管理引擎130包括至少一个软件模块，用于智能化地管理节点115和作业150。

服务器102可包括接口104，用于通过在客户端-服务器或其它分布式环境中的网络106与其它计算机系统，如客户端120通信。在某些实施例中，为了存储在特大容量磁盘140上，服务器102接收来自网络106的作业150或作业策略。使用同样连接节点的宽带接口，特大容量磁盘140也可直接与计算队列相连。通常，在合适的组合中，接口104包括软件中的逻辑编码和/或硬件，并且用于与网络106通信。更具体的说，接口104可包括支持至少一个与通信网络106相关的通信协议的软件，或用于通信物理信号的硬件。

网络106易于实现计算机服务器102和其它任意计算机如客户端120间的无线或有线通信。实际上，虽然如图中所示的是位于服务器102和客户端120间，但是网络106也可位于不同节点115间而不脱离本技术方案的范围。换句话讲，网络106包括任意网络、网络、或对于使不同计算元件间的通信更易操作的子网络。网络106可通信，例如Internet协议(IP)包、帧中继帧、异步传输模式(ATM)信元、语音、视频、数据和网络地址间的其它合适信息。网络106可包括一个和更多局域网(LANs)、无线传输网络(RANs)、城域网(MANs)、广域网(WANs)，所有或部分作为互联网为人所知的全球计算机网络，和/或任意其它通信系统或在至少一个区域的系统。

总的来说，特大容量磁盘140为任意存储器、数据库或为存储作业150、文件、开机图像或其它HPC信息的存储区域网络(SAN)。根据图中所示的实施例，特大容量磁盘140包括至少一个存储客户端142。根据任意数目的通信协议，特大容量磁盘140可处理和发送数据包。例如，无限带宽(IB)、千兆以太网(GE)或光纤信道(FC)。数据包主要用于传输特大容量磁盘140中的数据。数据包可包括具有源标识符和目的标识符的报头。源标识符，例如源地址，识别信息的发送者，目的标识符，例如目的地址，识别信息的接收者。

客户端120为任意装置，它用于通过图形用户界面(GUI)126给用户传送作业提交屏幕或管理。在高电平下，图示的客户端120至少包括GUI126，并包括电子计算装置，用于接收、传输、处理和存储任意与系统100相关的合适数据。可理解的是，任意数目的客户端120与服务器102可通信地相连。更进一步，“客户端120”和“客户端120的用户”可适当交换而不脱离本技术方案的范围。此外，为便于举例说明，每一客户端按照由一个用户使用来描述。但是，本技术方案预计许多用户使用同一个GUI126来使用一台计算机与作业150通信。

如本技术方案中所使用的，客户端120倾向于包括个人计算机、接触屏终端、工作站、网络计算机、信息站、无线数据端口、信元电话、个人数字助理(PDA)、至少一个在这些或其它装置中的处理器，或任意其它合适处理装置。例如，客户端120可包括包含输入装置的计算机，如小键盘、接触屏、鼠标或其它可接收信息的装置，和传送与服务器102或客户端120操作相关信息的输出装置，包括数字数据、虚拟信息或GUI126。输入装置和输出装置都包括固定的或可移动的存储介质如磁盘、CD-ROM或其它合适介质，通过称作GUI126的管理和作业提交显示屏，接收客户端120用户的输入，并为其提供输出。

GUI126包括图形用户接口，用于允许i)客户端120的用户与系统100接口以提交至少一个作业150；和/或ii)使用客户端120的系统(或网络)管理员为任意合适的管理目的与系统100接口。通常，GUI126将由HPC系统100提供的高效、用户界面友好的数据显示提供给客户端120的用户。GUI126可包括许多具有交互式区域、下拉菜单或用户可操作的按钮的定制帧或图像。在一实施例中，GUI126显示作业提交屏幕，它表示不同作业参数区域，并通过其中一个输入装置接收客户端120用户的命令。如图4A-B中所示，GUI126可选择的是或组合地将节点115的物理和逻辑状态显示给系统管理员，并且接收管理员的不同命令。管理员命令可包括作为(不)可得到的标记节点、为维护而关机的节点、重新启动节点或其它任何适当命令。此外，应该明白：特定图形用户接口可用于单数或复数中来描述至少一图形用户接口和特殊图形用户接口的每个显示器。因此，GUI126包括任意图形用户接口，如通用的万维网浏览器，它处理系统100中的信息，并将结果有效地传于用户。服务器102能够通过万维网浏览器(如微软网络浏览器或Netscap公司的网络浏览器)接收来自客户端120的数据，并使用网络106返回合适的HTML或XML响应。

在操作的另一方面，HPC服务器102最先初始化或开机。在此过程中，集群管理引擎130确定栅格110中的节点115的存在、状态、位置，和/或其它特征。如上面所描述的，这是以与每一节点初始化的通信或管理节点105的近且快速的下拉的“心跳”为基础的。下一步，集群管理引擎130，例如在预先确定的策略的基础上，可动态分配栅格110的不同部分给至少一个虚拟集群220。在一个实施例中，为可能出现的差错，集群管理引擎130连续地监控节点115，一旦确定其中一个节点115出现差错，就使用任何种类的恢复技术有效地管理差错。集群管理引擎130也可管理和为虚拟集群220的每一分配节点提供唯一运行环境。此运行环境可由主机名、IP地址、操作系统、配置服务、本地或共享文件系统和一系列已安装的应用程序和数据组成。根据相关策略和根据内在集群策略如优先级，集群管理引擎130可从虚拟集群220中动态地增加或减少节点。

当用户从客户端120注销时，他可通过GUI126由作业提交屏幕来显示。一旦用户输入作业参数和提交作业150，集群管理引擎130处理作业提交、相关参数和任何与作业150、用户或用户群相关的预先确定的策略。然后，集群管理引擎130至少部分根据此信息确定合适的虚拟集群220。然后，引擎130动态地分配虚拟集群220中的作业空间230，并使用HPC技术通过分配节点115执行作业150。基于至少部分提高的I/O性能，HPC服务器102可更快地完成作业150的处理。当完成时，集群管理引擎通过通信将结果160传给用户。

图2A-D表示了在系统100中的栅格210的不同实施例及其使用或拓扑。图2A表示了一种称作使用多种节点类型的栅格210的3D圆环结构。例如，图中所示的节点类型为外I/O节点、FS服务器、FS元数据服务器、数据库服务器和计算节点。图2B表示栅格210“折叠”的例子。折叠通常允许栅格215的一个物理边缘与相应的轴向边缘相连接，于是提供了更加耐用或无边缘的拓扑。在此实施例中，通过节点链路216，节点215被环绕以提供近乎无缝的拓扑连接。节点链路216可为任意合适的硬件，为连接两个或更多节点215，此硬件执行任意通信协议。例如，节点链路216可为铜线或执行千兆以太网的光纤电缆。

图2C是表示在其中分配的一个虚拟集群220的栅格210。虽然只表示了一个虚拟集群220，但是在栅格210中可有任意数目(包括0)的虚拟集群220而不脱离本技术方案的范围。虚拟集群210是为处理相关作业150的一逻个辑组节点215。例如，虚拟集群220可与研究组、部门、实验室或任意其它可能提交相似作业150的组用户相关联。虚拟集群220可为任意形状，并在栅格210中包括任意数目的节点215。实际上，虽然图中所示的虚拟集群220包括多个物理上相邻的节点215，但是集群220可为逻辑上相关的节点215的分布式集群，此节点215用于处理作业150。

虚拟集群220可在任意合适的时间分配。例如，集群220可在初始化系统100时分配，例如基于启动参数上，或可动态地分配，例如基于更改服务器102的需要。此外，虚拟集群220可超时改变其形状和大小，以更快地与变化的需求、命令和条件相对应。例如，对应于原来一部分集群220的第二节点215的差错，虚拟集群220可动态地改变以包括自动分配的第一节点215。在某些实施例中，当处理需要时，集群220可共享节点215。

图2D表示不同的作业空间，分别为230a和230b，它们分配在虚拟集群220的实例中。通常，作业空间230为在动态分配的虚拟集群220中的一系列节点215以完成接收作业150。典型的是，每次执行作业150有一个作业空间230，反之亦然，但是作业空间230可共享节点215而不脱离本技术方案的范围。作业空间230的维数可由用户或管理者人工输入，或者基于作业参数、策略和/或其它适当特征来动态地确定。

图3A-C表示栅格110中的独立节点115的不同实施例。在图中所示，除了实例、实施例，节点115用刀片315表示。刀片315包括任意位置上的任意计算装置，用于处理所有或部分，如作业150的线程或进程。例如，刀片315可为标准Xeon64^TM母板、标准PCI-Express Opteron^TM母板，或任意其它合适的计算卡。

刀片315为集成构造结构，它将构造交换机元件均匀分布在栅格110中的节点115上，于是就可能降低或消除任何集中交换功能，提高容错，并允许信息并行传递。更具体的说，刀片315包括集成交换机345。集成交换机345包括任意数目的虑及不同拓扑的端口。例如，交换机345可为八个端口交换机，它启动更紧密的三维网或3D圆环拓扑。这八个端口包括两个沿着X轴上链路相邻节点115的“X”连接，两个沿着Y轴上链路相邻节点115的“Y”连接，两个沿着Z轴上链路相邻节点115的“Z”连接，和两个链路管理节点105的连接。在一个实施例中，交换机345可为标准八个端口Infiniband-4x的交换机集成电路，因此可容易的提供嵌入式的结构交换机。交换机345也可包括24端口交换机，它允许多维拓扑，如4-D圆环或其它比三维更大的非传统拓扑。此外，节点115可沿着对角线轴进一步相互连接，因此减少了相对远距离节点115间通信的跨接或跳跃。例如，第一节点115可与第二节点115连接，此第二节点115物理上安装于“跳”过了沿着若干三维的东北轴。

图3A表示了刀片315，在高电平下，包括至少两个处理器320a和320b、本地或远程存储器340和集成交换机(或结构)345。处理器320运行指令和处理数据以执行刀片315的操作，如举例来说，中央处理器(CPU)。参考处理器320，意味着当应用时包括多处理器。在一个实施例中，处理器320可包括Xeon64^TM或Intaium^TM处理器或其它类似处理器或其衍生物。例如Xeon64^TM处理器可为具有2MB的高速缓冲存储器和超线程的3.4GHz芯片。在本实施例中，双处理器模块可包括可提高效率的本机的PCI/Express。相对应地，处理器320有高效的存储器带宽，通常使存储控制器嵌入处理器芯片中。

刀片315也可包括北桥321、南桥322、并行通信接口信道325、双主机适配器335和存储器340。北桥321与处理器320通信并控制着与存储器340、并行通信接口总线、二级高速缓存和其它任何相关元件的通信。在一个实施例中，北桥321使用前端总线(FSB)与处理器320通信。南桥322控制刀片315的许多输入/输出(I/O)功能。在另外的实施例中，刀片315可执行Intel网络集线器结构(IHAtm)，它包括图形和加速图形接口存储控制器网络集线器(GMCH)和输入/输出控制器网络集线器(ICH)。

并行通信接口信道325包括任意设计为提高集成元件间的通信速度的高速、低延迟链路。这样有助于减少了刀片315中总线的数目，它能够降低系统瓶颈。在服务器102中，双主机适配器335包括提供基于信道的I/O的任意元件。每一双主机适配器335可提供2.65GB/sec的总带宽，因此允许1.85GB/sec的处理单元给交换机345，即800GB/sec的处理单元给I/O，如举例来说BIOS(基本输入输出系统)、以太网管理接口及其它装置。这就进一步允许为了13.6Gigaflops/sec的顶峰或0.27Bytes/Flop，将要达到3.7GB/sec的I/O速率的总交换机345带宽，每Gigaflop为50M/sec。

存储器340包括任意存储器或数据库模块，并可采取易失性或非易失性的存储器，在没有限制时，包括磁性介质、光学介质、闪存、随即存取存储器(RAM)、只读存储器(ROM)、可移动介质或其它任意合适的本地或远程的存储元件。在图示的实施例中，存储器340由操作速率至少为6.4GB/s的双主机双数据速率(DDR)的8GB存储元件。存储器340可包括任意适当的管理或运行HPC作业150的数据而不脱离本技术方案的范围。

图3B表示了包括刀片315，它包括两个处理器320a和320b、存储器340、超传输/外围元件互连(HT/PCI)桥330a和330b、及两个双主机适配器335a和335b。

例中的刀片315包括至少两个处理器320。处理器320运行指令和处理数据来执行刀片315中的操作，如举例来说，中央处理器(CPU)。在图示的实施例中，处理器320可包括Opteron处理器或其它类似处理器或派生物。在本实施例中，Opteron处理器设计为栅格110的正常构造模块的开发提供支持。尽管，双主机处理器模块可提供四到五Gigaflop可用性能，并且接下来的生成技术帮助解决了存储器带宽的限制。但是刀片315可包括多于两个处理器而不脱离本技术方案的范围。相对应地，处理器320具有高效的存储器带宽，通常使存储器控制器嵌入在存储器芯片中。在本实施例中，每一处理器320具有至少一个超传输^TM(或其它类似管道类型)链路325。

通常，超传输链路325包括任何高速、低延迟链路，它们设计为提高集成元件间的通信速度。这样有助于减少了刀片315中的总线数目，它们减少了系统瓶颈。为使高速缓存与多处理器刀片315相干，超传输链路325支持处理器到处理器的通信。使用超传输链路325，在刀片315上可放置到八个处理器。如果得到使用，超传输可提供6.4GB/sec，12.8或更大的带宽，因此比在PCI主线继承中的数据传输提供好于四十折叠的增长。超传输技术可进一步与I/O标准的继承相兼容，如PCI和其它技术，如PCI-x。

刀片315进一步包括HT/PCI桥330和双主机适配器335。PCI桥330可设计为与PCI本地总线特定版本2.2或3.0或PCI说明基础规范1.0或任何其派生物相一致。在服务器102中，双主机适配器335包括任意提供了基于信道的I/O元件。在实施例中，双主机适配器335包括Infiniband的双主机适配器。Infiniband信道主要通过依附于主机信道适配器和目标信道适配器而形成的，它们能够远程存储与网络互连到Infiniband的结构中，在图3B中将更详细描述。PCI-Express桥330和双主机适配器335的超传输325可为每一处理器320生成全双工2GB/sec的I/O信道。在某些实施例中，这就为支持在分布式HPC环境下的处理器到处理器的通信提供了高效的带宽。更进一步，这就为刀片315提供了与处理器性能几乎或完全平衡的I/O性能。

图3C表示了包括子板的刀片315的另一实施例。在此实施例中，子板可支持3.2GB/sec或更高的高速缓存相干接口。子板对于包括至少一个现场可编程门阵列(FPGAs)350是可操作的。例如，图示的子板包括两个FPGA350，分别表示为350a和350b。通常FPGA350提供给刀片315无标准接口、处理习用算法的能力、信号、图形或加密/解密处理应用程序的向量处理器和高带宽。例如通过提供十到二十倍的为特殊功能的通用处理器的性能的加速度因子，如举例来说低精度的快速傅立叶变换(FFT)和矩阵算术函数，FPGA可增补刀片315的功能。

前述的例子和相应的描述为实现不同可量测节点115(如例子刀片315的图示)提供了可模仿的图。然而，这些图仅仅是说明性的，并且为执行不同的可量测性而配置，系统100预期使用部件的任何合适的组合和排列。尽管本发明已经部分地图示和描述了有关刀片服务器102，但是，对于本领域中的普通技术人员将认识到，本发明的教义将应用于任意的集群HPC服务器环境。相对应地，这种包含这里描述的技术的集群服务器102可为本地或分布式而不脱离本技术方案的范围。于是，当降低I/O延迟时，为提供高性能计算能力，这些服务器102可包括合并了部件任意合适的组合和排列的HPC模块(或节点115)。此外，如果适当时，不同图示的HPC模块的操作可组合和/或分离。例如，栅格110可包括许多完全类似的节点115或执行不同硬件或体系结构的不同节点115。

图4A-B表示根据系统100的管理图形用户界面400的不同实施例。通常，管理图形用户界面400使用GUI126显示给客户端120。总的来说，图形用户界面400将多种管理交互屏幕或显示屏呈现给管理员和/或将多种作业提交或提问文件屏幕呈现给用户。这些屏幕或显示屏由装配在所收集信息的不同图面中的图形元素组成。例如图形用户界面400可呈现栅格110(图4A所示)的物理状态的显示或栅格110中节点115的逻辑分配或拓扑(图4B所示)。

图4A表示了显示屏400a的例子。为高效管理节点115，显示屏400a可包括呈现给管理员的信息。图示的实施例包括有栅格110的逻辑“图像”或屏幕射击的标准网页浏览器。例如，这种图像可提供栅格110和元件节点115的物理状态。每一节点115可为任意数目颜色之一，每一颜色代表不同的状态。例如，差错节点115可为红色，有用的或已分配节点115可为黑色，未分配节点可为暗色。更进一步，显示屏400a可允许管理员在节点115之一上移动指示器，并观察它不同的物理特征。例如，管理员可用包括“节点”、“有效性”、“处理器利用”、“存储器利用”、“温度”、“物理位置”和“地址”的信息来表示。当然，这些仅仅是实例的数据字段，任意适当的物理或逻辑节点信息都可显示给管理员。显示屏400a也可允许管理员旋转栅格110的图形或实现任何其它合适的功能。

图4B表示了显示屏400b的例子。显示屏400b表示了栅格100的逻辑状态的图像或图形。图示的实施例呈现了分配在栅格110中的虚拟集群220。为执行至少一个作业150，显示屏400b进一步显示了分配在集群230中的作业空间230的两个例子。显示屏400b可允许管理员在图形虚拟集群220上移动指示器，以观察由不同状态(如分配或未分配)分组的节点115的数目。更进一步，管理员可在其中一个作业空间230上移动指示器，于是就呈现出合适的作业信息。例如，管理员可观察作业名称、开始时间、节点数目、预计结束时间、处理器用法、I/O用法和其它等。

可以理解的是，管理GUI126(分别由上述显示400a和400b的例子表示)只是为了解释说明用，并可包括没有、一些或所有图示的图形元素以及未图示的额外管理元素。

图5表示了根据系统100的集群管理引擎130的一个实施例，这里作为引擎500表示。在本实施例中，集群管理引擎500包括许多子模块或元件：物理管理器505、虚拟管理器510、作业调度程序515和本地存储器或变量520。

物理管理器505为任意软件、逻辑学、固件或其它模块，用于确定不同节点115的物理状态，并基于此确定状态高效管理节点115。物理管理器可使用这些数据来高效确定并对节点115的差错作出反应。在一个实施例中，物理管理器505与多个代理软件132通信连接，这些代理软件每一个都安装在一节点115中。如上面所描述的，代理软件132收集并与管理器505通信至少的物理信息。通过网络106，物理管理器505可进一步与客户端120的系统管理员通信警报。

虚拟管理器510为任意软件、逻辑学、固件或其它用于管理虚拟集群220和节点115的逻辑状态的模块。通常，虚拟管理器510用节点115的物理状态连接节点115的逻辑表示。基于这些连接，虚拟管理器510可生成虚拟集群220并为这些集群220处理多种变化，如对应于与节点差错或为提高HPC处理的(系统或用户)要求。虚拟管理器510也可与作业调度程序515通信虚拟集群220的状态，如未分配节点115，以动态回填未运行或队列中的HPC处理器或作业150。虚拟管理器510可进一步确定作业150与特定节点115的兼容性，并将信息通信给作业调度程序515本。在某些实施例中，虚拟管理器510可为表示独立虚拟集群220的对象。

集群管理引擎500也可包括作业调度程序515。作业调度程序子模块515为处理系统资源方面的拓扑-认识模块，最好与处理器和时间分配一起，确定最优作业空间230和时间。经常需要考虑的因素包括处理器、步骤、存储器、互连、磁盘、可视引擎和其它等。换句话讲，作业调度程序515主要与GUI126互动以接收作业150，与物理管理器505互动以确保不同节点115的正常，及与虚拟管理器519互动以在某一虚拟集群220中动态分配作业空间230。这种动态分配通过不同的算法来完成，这些算法通常合并栅格110的当前拓扑知识，当适当时为虚拟集群220。作业调度程序515操作串行和并行程序的批处理或交互执行。调度程序515也提供了对选择和执行作业150所提出的不同问题执行策略524的方式。

集群管理引擎500，如通过作业调度程序515，可进一步用于执行有效的点校验。重新转储主要包括写入磁盘中的百分之七十五以上的数据。此I/O通常这样做以至不会丢失对平台故障的处理。基于此，文件系统的I/O能被隔离为两部分，生产I/O和防卫I/O。生产I/O是写入用户为科学所需要的数据如，举例来说，可视存储、超时的关键物理变量踪迹及其它。防卫I/O运行以管理超过重要时间的大量模拟。相对应地，提高的I/O带宽大大减少了包括在点校验中的时间和风险。

回到引擎500，本地存储器520包括系统100多个特征的逻辑描述(或数据结构)。本地存储器520可存储在任何物理或逻辑的数据存储器中，这些存储器用于被兼容代码定义、处理或重新取出。例如，本地存储器520可包括至少一个可扩展标记语言(XML)表或文档。不同元素可根据SQL语句或脚本、虚拟存储访问法(VASM)文件、平面文件、二进制数据文件、Btrieve程序文件、数据库文件或逗号分离数据(CSV)文件来描述。可以理解的是，每一元素包括变量、表或其它任意合适的数据结构。本地存储器520也可包括许多存储在一服务器102上或经过多个服务器或节点的表和文件。此外，虽然如图中所示的安装在引擎500内部中，但是某些或所有本地存储器520可为内置或外置的而不脱离本技术方案的范围。

图示的本地存储器520包括物理列表521、虚拟列表522、组文件523、策略表524和作业队列525。但是，尽管未图示时，然而本地存储器520可包括其它的数据结构，包括作业表和审计记录而不脱离本技术方案的范围。回到图示的结构，物理列表521用于存储节点115的标识符和物理管理信息。物理列表521可为多维数据结构，它包括每一节点115的至少一条记录。例如，物理记录可包括字段如“节点”、“有效性”、“处理器利用”、“存储器利用”、“温度”、“物理位置”、“地址”、“引导图像”及其它。可以理解的是，每一记录可包括没有、一些或所有举例字段。在一个实施例中，物理记录可为另一表提供外关键字如，举例来说虚拟列表522。

虚拟列表522用于存储节点115的逻辑或虚拟管理信息。虚拟列表可为多维数据结构，它包括每一节点115的至少一条记录。例如，虚拟记录可包括字段如“节点”、“有效性”、“作业”、“虚拟集群”、“二级节点”、“逻辑位置”、“兼容性”及其它。可以理解的是，每一记录可包括没有、一些或所有举例字段。在一个实施例中，虚拟记录可包括与另一表的连接，如举例来说，组文件523。

组文件523包括至少一个表或记录，它们用于存储用户组和机密信息，如存取控制列表(或ACLs)。例如，每一组记录可包括可用服务、节点115或用户作业的列表。每一逻辑组可与商用组或单元、部门、项目、或机密组或任何其它的至少一个可提交作业150或至少为系统100一部分管理的用户相关。基于此信息，集群管理引擎500可确定提交作业的用户是否为有效用户，并且如果是，作业执行最优参数。更进一步，组文件523可使每个用户组与虚拟集群220，或与至少一个物理节点115，如安装在特定组域中的节点相关联。这就允许每一组有独立的处理空间而不会有资源竞争。然而，如上面所描述的，虚拟集群220的形状和尺寸可为动态的，并可根据需要、时间或任意其它参数来改变。

策略表524包括至少一个策略。可以理解的是，如果适当时，策略表524和策略524可互换使用。策略524通常存储作业150和/或虚拟集群220的处理和管理信息。例如，策略524可包括任意数目的参数和变量，这些变量包括问题大小、问题运行时间、时间损失、抢先、节点115或虚拟集群220的用户分配共享等。

作业队列525表示至少一个等待执行的作业150流。通常，为了存储任意数目(包括零)的作业150或另外作为参考，队列525包括任意合适的数据结构，如冒泡队列、数据库表或指示器队列。可能存在与栅格110或多个队列525相关的一个队列525，每一队列525与栅格110中的其中一个独特虚拟集群220相关连。

在操作的一方面，集群管理引擎500接收由N个任务组成的作业150，这些任务通过执行计算和交换信息150协同解决问题。集群管理引擎500分配N个节点115，并使用任何合适的技术指定N个任务给一个特定节点515，因此使问题得以高效地解决。例如，集群管理引擎500可利用作业参数，如用户提供的作业任务布置策略。尽管，集群管理引擎500试图开发服务器102的结构，它可为用户轮流提供更快的周转，并可能提高系统100的整体吞吐量。

在一个实施例中，根据下面例子中的任何一个拓扑，集群管理引擎500选择和分配节点115：

指定的2D(x，y)或3D(x，y，z)-节点115被分配，并且任务可在指定维数上排序，因此保持高效地邻域对邻域的通信。指定的拓扑管理许多作业150，其中希望物理通信拓扑与问题拓扑相匹配，此问题拓扑允许作业150的合作任务与邻域任务经常通信。例如，将2×2×2维(2，2，2)中的8个任务请求分配在立方体中。为了最合适的目的，当保持高效地邻域对邻域的通信时，2D分配能够“折叠”到3D(如在图2D中所讨论的)中。集群管理引擎500可在任意方向自由分配指定维数形状。例如，2×2×8的盒可垂直或平行地分配在可用的物理节点中。

最合适的立方体-集群管理引擎500在立方容量中分配N个节点115。这种拓扑高效地处理作业150，它通过最小化任意两个节点115间的距离，允许合作任务与任意其它任务交换数据。

最合适的球体-集群管理引擎500在球形容量中分配N个节点115。例如，用余下的放置在环绕中心节点115的节点115上的任务，第一任务可放置在球体的中心节点115中。可以理解的是，剩余任务的放置顺序通常不是关键的。这种拓扑可最小化第一任务和所有其它任务间的距离。这就高效地处理了大部分问题，其中任务2-N与第一任务通信，但是彼此间并不通信。

随机-集群管理引擎500用减少的事项来分配N个节点，因为其中节点115都已被逻辑或物理分配。在一个实施例中，为了回填的目的，这种拓扑鼓励积极使用栅格110，而几乎不对其它作业150产生影响。

可以理解的是，前面的拓扑和相应的描述都只是为了图示的目的，并且不描述实际使用的拓扑或分配这种拓扑的技术。

集群管理引擎500可利用作为作业150参数或策略524参数存储的置放权重权重。在一个实施例中，置放权重为位于0和1之间的可变数值，它们根据请求的任务(或处理)置放测略，表示集群管理引擎500如何积极地尝试去置放节点115。在此例子中，只有当最优策略(或维数)是可能的时，为0的数值就表节点115，并且只要有足够自由或其它可得到的节点115来处理此请求，为1的数值直接地表示置放节点115。典型地，为了防止大作业150不足并保持HPC系统100的作业吞吐量，置放权重没有拒绝管理策略524如资源保留。

为管理节点115和作业150，前面的图示和相应的描述为执行逻辑调度的引擎500提供了示范性的模块图。然而，此图仅仅是图示性的，并且为了执行这些和其它算法，系统100预期使用逻辑部件的任意合适的组合和排列。于是，为高效管理节点115和作业150，这些软件模块可包括部件的任意合适的组合和排列。此外，如果合适时，可合并和/或分离不同图示的模块的操作。

图6是表示根据本技术方案一个实施例的动态处理作业提交的实例方法600的流程图。通常，图6描述了方法600，它接收批作业提交、基于作业参数和相关策略524动态分配节点115，并使用分配空间执行作业150。下面的描述集中在执行方法600中的集群管理模块130的操作。但是系统100预期使用逻辑部件的任意适当的组合和排列，只要功能仍是适当的，这些部件实现一些或所有上面描述的功能。

方法600开始于步骤605，其中HPC服务器102接收来自用户的作业提交150。如上面所描述的，在一个实施例中，用户可使用客户端120提交作业150。在另外的实施例中，用户可直接使用HPC服务器102来提交作业150。下一步，在步骤610中，集群管理引擎130基于用户来选择组523。一旦验证了用户，集群管理引擎130在步骤615中将用户与组存取控制列表(ACL)相比较。但是可以理解的是，集群管理引擎130可使用任何适当的机密技术来验证用户。基于确定的组523。集群管理引擎130确定用户是否已经访问请求的服务。基于此请求的服务和主机名称，集群管理引擎130在步骤620中选择虚拟集群220。典型地，虚拟集群220可在作业150的提交前被识别和分配。但是，结果是虚拟集群220还没有被建立，集群管理引擎130可使用上面描述的任何技术，自动地分配虚拟集群220。接下来，在步骤625中，集群管理引擎130基于作业150的提交重新得到策略524。在一个实施例中，集群管理引擎130可确定与用户、作业150或任意其它适当标准相关的合适策略524。那么在步骤630中，集群管理引擎130确定或另外计算作业150的维数。可以理解的是，此合适维数包括长度、宽度、高度或任意其它适当的参数或特征。如上面所描述的，这些维数用于在虚拟集群220中确定合适的作业空间230(或节点115的子集)。当完成参数的初始化后，从步骤635到665中，集群管理130试图在HPC服务器102上执行作业150。

在判断步骤635中，集群管理引擎130使用已建立的参数，确定是否有足够的可得到的节点来分配所需的作业空间230。如果没有足够的节点115，那么在步骤640中，集群管理引擎130确定在虚拟集群220中的节点115的最先可用的子集230。然后，集群管理引擎130将作业150增加到作业队列125中，直到在步骤645中得到子集230。然后处理返回到判断步骤635。一旦能够得到足够节点115，那么在步骤650中，集群管理引擎130动态地确定来自可得到的节点115的最优子集230。可以理解的是，最优子集230可使用任意合适的标准来确定，包括最快处理时间、最可靠节点、物理或虚拟位置或第一可用节点115。在步骤655中，集群管理引擎130从选出的虚拟集群220中选择确定的子集230。接下来，在步骤660中，集群管理引擎130使用选出的子集230，为作业150分配选择节点115。根据一个实施例，在虚拟节点列表522中，集群管理引擎130可更改节点115的状态从“未分配”到“已分配”。一旦子集230被适当分配，集群管理引擎130就在步骤655中使用基于作业参数、重新得到的策略524或任意其它合适的参数分配空间，来执行作业150。在任意合适的时间，集群管理引擎130可与用户通信或另外传送作业结果160。例如，结果160可格式化，并通过GUI126传给用户。

图7是表示根据本技术方案的一个实施例的动态回填栅格110中的虚拟集群220的实例方法700的流程图。在高电平下，方法700描述了在虚拟集群220中确定可得到的空间、确定与此空间兼容的最优作业150、并在此可得到空间中执行已确定作业150。下面的描述将集中在集群管理模块130在执行本方法中的操作。但是，与前述的实施例相同，系统100预期使用逻辑部件任意合适的组合和排列。这些部件实现某些或所有描述的功能。

方法700开始于步骤705，其中集群管理引擎130将作业队列525分类。在图示的实施例中，集群管理引擎130基于存储在队列525中的作业150的优先级，将队列525分类。但可以理解的是，集群管理引擎130可使用任意适当的特征来分类队列525，以便将执行合适或最优的作业150。接下来，在步骤710中，集群管理引擎130确定在虚拟集群220之一中的可得到节点115的数目。当然，集群管理引擎130同样可确定栅格110中或任意至少一个虚拟集群220中的可得到节点115的数目。在步骤715中，集群管理引擎130从已分类的作业队列525中选择第一作业150。接下来，在步骤720中，集群管理引擎130动态地确定已选择作业150的最优形状(或其它维数)。一旦确定了已选择作业150的最优形状或维数，那么在步骤725到步骤745中，集群管理引擎130确定它是否可回填在适当地虚拟集群220中的作业150。

在判断步骤725中，集群管理引擎130确定为已选择作业150是否有足够的可用节点115。如果有足够的可用节点115，那么在步骤730中，集群管理引擎130使用任意合适技术，为已选择作业150动态分配节点115。例如，集群管理引擎130可使用在图6中描述的技术。接下来，在步骤735中，集群管理引擎重新计算在虚拟集群220中的可用节点的数目。在步骤740中，集群管理引擎130对分配节点115执行作业150。一旦执行了作业150(或如果为已选择作业150没有足够节点115)，那么在步骤745中，集群管理引擎130选择分类作业队列525中的下一个作业150，并且处理返回到步骤720。可以理解的是，当作为环形图示时，集群管理引擎130可在任意适当的时间，初始化、执行并终止在方法700中图示的技术。

图8是表示根据本技术方案的一个实施例的动态管理栅格110中的节点115的差错的实例方法800的流程图。在高电平下，方法800描述了确定失败节点115、自动执行作业恢复和管理、并用二级节点115代替失败节点115。下面的描述将集中在在执行本方法中的集群管理模块130的操作。但是，与前面的流程图相同，系统100预期使用逻辑部件的任意合适的组合和排列，这些逻辑部件实现一些或所有已描述的功能。

方法800开始于步骤805，其中集群管理引擎130确定节点115出现差错。如上面所描述的，集群管理引擎130可使用任意适当的技术确定节点出现差错。例如，集群管理引擎130可在不同时期拉出节点115(或代理132)，并且可基于节点115的响应的缺乏来确定节点115出现差错。在另外的例子中，存在于节点115上的代理132与“心跳”通信，并且这种“心跳”的缺乏就可表示节点115的差错。接下来，在步骤810中，集群管理引擎130从虚拟集群220中去除差错节点115。在一个实施例中，集群管理引擎130可改变在虚拟列表522中的节点115的状态从“已分配”到“已失败”。然后在判断步骤815中，集群管理引擎130确定作业150是否与差错节点115相关。如果没有与节点115相关的作业150，那么处理结束。如上面所描述的，在处理结束之前，集群管理引擎130可与管理员通信错误消息、自动确定代替节点115或任意其它适当的处理。如果存在与错误节点115相关的作业150，那么在步骤820中，集群管理引擎130就确定与作业150相关的其它节点115。下一步，在步骤825中，集群管理引擎130删除在所有适当节点115上的作业150。例如，集群管理引擎130可执行删除作业命令或使用任意其它适当的技术来结束作业150。接下来，在步骤830中，集群管理引擎130使用虚拟列表522重新分配节点115。例如，集群管理引擎130可改变在虚拟列表522中的节点115的状态从“已分配”到“可得到”。一旦作业已被终止，并且所有适当的节点115重新分配，那么在步骤835到850中，集群管理引擎130就使用可用节点115试图重新执行作业150。

在步骤835中，集群管理引擎130重新得到策略524和步骤835中的已删除作业150的参数。然后在步骤840中，基于重新得到的策略524和作业参数，集群管理引擎130确定虚拟集群220中的节点115的最优子集230。一旦确定了节点115的子集230，那么在步骤845中，集群管理引擎130动态分配节点115的子集230。例如，集群管理引擎130可更改虚拟列表522中的节点状态从“未分配”到“已分配”。可以理解的是，节点115的这个子集可与作业150正在执行的节点115的初始子集不同。例如，由于促进此执行的节点差错，集群管理引擎130可确定节点的不同子集是最优的。在另外的例子中，集群管理引擎130确定二级节点115用于代替已失败的节点115，并且新的子集230与旧作业空间230完全类似。一旦分配子集230被确定和分配，那么集群管理引擎130在步骤850中执行作业150。

前面的流程图和相应的描述表示了示范方法600、700和800。简而言之，为执行这些和其它任务，系统100预期使用任意合适的技术。相对应地，在本流程图的许多步骤可同时发生和/或以不同的顺序，而不是与图中所示的相同。此外，只要方法合适，系统100可使用额外的步骤、更少的步骤和/或不同的步骤。

尽管本技术方案已经根据某些实施例和通用的相关方法进行了描述，但是这些实施例及方法的变更和改变对于本领域的技术人员都是显而易见的。因此，上述实施例的描述没有限定或约束本技术方案。只要不脱离本技术方案的精神和范围，另外的改变、代替和变更同样是可能的。

Claims

1、一种在高性能计算环境中作业管理的方法，包括：

从分类的作业队列中选择要完成的高性能计算作业；

基于所选择的高性能计算作业，根据预定的策略，从多个高性能计算节点中确定一个虚拟集群的节点，每一高性能计算节点包括集成结构，所述多个高性能计算节点形成带无边缘拓扑的三维栅格；以及

使用所述虚拟集群的节点的至少一部分，执行选择出的高性能计算作业。

2、根据权利要求1所述的方法，其特征在于，选择高性能计算作业包括基于优先级从作业队列中选择高性能计算作业，选择出的高性能计算作业包括小于或等于所述虚拟集群的拓扑的维数。

3、根据权利要求2所述的方法，其特征在于，基于优先级从作业队列中选择高性能计算作业包括：

基于作业优先级分类作业队列；

从已分类作业队列中选择第一高性能计算作业；

用所述虚拟集群的拓扑确定所述第一高性能计算作业的维数；以及

响应于第一高性能计算作业的维数，从已分类作业队列中选择第二高性能计算作业，并将所述第一高性能计算作业返回到当前重构所述虚拟集群的所分类的作业队列，该第一高性能计算作业的维数大于所述虚拟集群的拓扑。

4、根据权利要求3所述的方法，其特征在于，所述第一高性能计算作业的维数，至少部分基于一个或多个作业参数和相关策略。

5、根据权利要求2所述的方法，其特征在于，所述方法进一步包括：

至少部分基于选择出的高性能计算作业的维数，从所述虚拟集群中动态分配作业空间；并且

其中，执行已选择高性能计算作业包括：使用动态分配的作业空间，来执行已选择的高性能计算作业。

6、根据权利要求1所述的方法，其特征在于，所述多个高性能计算节点包括第一组多个节点和第二组多个节点，所述第一组多个节点与所述虚拟集群相关，并且所述方法进一步包括：

确定已选择高性能计算作业的维数大于所述第一组多个节点的拓扑；

从所述第二组多个节点中选择一个或多个高性能计算节点，每一所述第二高性能计算节点包括集成结构；及

将从所述第二组多个节点中选择的高性能计算节点增加到所述虚拟集群中以满足已选择高性能计算作业的维数。

7、根据权利要求6所述的方法，其特征在于，所述方法进一步包括返回所述选择的高性能计算节点到所述第二组多个节点。

8、根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

确定在所述虚拟集群外侧的多个高性能计算节点上执行的第二高性能计算作业已失败；

将所述虚拟集群外侧的多个高性能计算节点增加到所述虚拟集群；以及

将已失败的第二高性能计算作业增加到分类的作业队列中。

9、一种用于在高性能计算环境中作业管理的系统，包括：

用于从分类的作业队列中选择要完成的高性能计算作业的装置；

用于基于所述高性能计算作业，根据预定的策略，从多个高性能计算节点中确定虚拟集群的装置，每一所述高性能计算节点包括集成结构，所述多个高性能计算节点形成带无边缘拓扑的三维栅格；以及

用于使用所述虚拟集群的节点的至少一部分，来执行已选择的高性能计算作业的装置。

10、根据权利要求9所述的系统，其特征在于，用于选择高性能计算作业的装置包括用于基于优先级从分类的作业队列中选择高性能计算作业的装置，已选择的高性能计算作业包括小于或等于所述虚拟集群的拓扑的维数。

11、根据权利要求10所述的系统，其特征在于，用于基于优先级从分类的作业队列选择高性能计算作业的装置包括：

用于基于作业优先级分类作业队列的装置；

用于从已分类作业队列中选择第一高性能计算作业的装置；

用于用所述虚拟集群的拓扑确定所述第一高性能计算作业的维数的装置；以及

用于响应于大于所述虚拟集群的拓扑的所述第一高性能计算作业的维数，从已分类作业队列中选择第二高性能计算作业，并将所述第一高性能计算作业返回到当前重构所述虚拟集群的所分类的作业队列的装置。

12、根据权利要求11所述的系统，其特征在于，所述第一高性能计算作业的维数至少部分基于一个或多个作业参数和相关策略。

13、根据权利要求10所述的系统，其特征在于，所述系统还包括：

用于至少部分基于选择的高性能计算作业的维数，从所述虚拟集群中动态分配作业空间的装置，并且

其中，用于执行已选择高性能计算作业的装置包括用于使用动态分配的作业空间来执行已选择高性能计算作业的装置。

14、根据权利要求9所述的系统，其特征在于，所述多个高性能计算节点包括第一组多个节点和第二组多个节点，所述第一组多个节点与所述虚拟集群相关，且

所述系统进一步包括：

用于确定已选择高性能计算作业的维数大于第一组多个节点的拓扑的装置；

用于从所述第二组多个节点中选择一个或多个高性能计算节点的装置，每个选择的高性能计算节点包括集成结构；以及

用于将从所述第二组多个节点中选择的高性能计算节点增加到所述虚拟集群中的装置，以满足已选择高性能计算作业的维数。

15、根据权利要求14所述的系统，其特征在于，所述系统进一步包括用于将选择的高性能计算节点返回到所述第二组多个节点的装置。

16、根据权利要求9所述的系统，其特征在于，所述系统进一步包括：

用于确定在所述虚拟集群外侧的多个高性能计算节点上执行的第二高性能计算作业已失败的装置；

用于将所述虚拟集群外侧的多个高性能计算节点增加到虚拟集群中的装置；及

用于将已失败的第二高性能计算作业增加到分类的作业队列中的装置。

17、一种在高性能计算环境中的作业管理系统，包括：

多个高性能计算节点，每一节点包括集成结构，所述多个高性能计算节点形成带无边缘拓扑的三维栅格；及

管理节点，用于：

从分类的作业队列中选择要完成的高性能计算作业；

基于所选择的高性能计算作业，根据预定的策略，从多个高性能计算节点中确定一个虚拟集群；及

使用所述虚拟集群节点的至少一部分，来执行已选择的高性能计算作业。

18、根据权利要求17所述的系统，其特征在于，用于选择高性能计算作业的管理节点包括基于优先级从分类的作业队列中选择高性能计算作业的管理节点，已选择的高性能计算作业包括小于或等于所述虚拟集群的拓扑的维数。

19、根据权利要求18所述的系统，其特征在于，用于基于优先级从分类的作业队列中选择高性能计算作业的管理节点包括的管理节点用于：

基于作业优先级分类作业队列；

从已分类作业队列中选择第一高性能计算作业；

用所述虚拟集群的拓扑确定第一高性能计算作业的维数；及

20、根据权利要求19所述的系统，其特征在于，所述第一高性能计算作业的维数至少部分基于一个或多个参数和相关策略。

21、根据权利要求18所述的系统，其特征在于，所述系统进一步用于：

至少部分基于高性能计算作业的维数，从所述虚拟集群中动态分类作业空间，并且

其中，用于执行已选择高性能计算作业的管理节点包括使用动态分配的作业空间来执行已选择高性能计算作业的管理节点。

22、根据权利要求17所述的系统，其特征在于，所述多个高性能计算节点包括第一组多个节点和第二组多个节点，所述第一组多个节点与所述虚拟集群相关，且

所述管理节点进一步用于：

从所述第二组多个节点中选择一个或多个高性能计算节点，每一选择的高性能计算节点包括集成结构；及

将从所述第二组多个节点中选择的高性能计算节点增加到所述虚拟集群中，以满足已选择高性能计算作业的维数。

23、根据权利要求22所述的系统，其特征在于，所述管理节点进一步用于将选择的高性能计算节点返回到所述第二组多个节点。

24、根据权利要求17所述的系统，其特征在于，所述管理节点进一步用于：

将所述虚拟集群外侧的多个高性能计算节点增加到所述虚拟集群中；及

将已失败的第二高性能计算作业增加到分类的作业队列中。

25.根据权利要求17所述的系统，其特征在于，所述管理节点用于：

从分类的作业队列中选择第二高性能计算作业；

确定所述第二高性能计算作业的最佳形状；和

根据所述第二高性能计算作业的最佳形状，确定所述虚拟集群是否有足够数目的可用节点来执行所述第二高性能计算作业。

26.根据权利要求25所述的系统，其特征在于，所述管理节点还用于：

从所述足够数目的可用节点分配用于执行所述第二高性能计算作业的节点。

27.根据权利要求26所述的系统，其特征在于，所述管理节点还用于：

响应于所述分配，重新计算在所述虚拟集群中可用节点的数目。

28.根据权利要求26所述的系统，其特征在于，所述管理节点还用于：

在所分配的节点上执行所述第二高性能计算作业。

29.根据权利要求25所述的系统，其特征在于，所述管理节点还用于：

响应于所述虚拟集群没有足够数目的可用节点来执行所述第二高性能计算作业，从分类的作业队列中选择第三高性能计算作业；

确定所述第三高性能计算作业的最佳形状；

根据所述第三高性能计算作业的最佳形状，确定所述虚拟集群是否具有足够的可用节点来执行所述第三高性能计算作业。