CN100562852C - 在hpc环境下的拓扑认识作业调度和回填的系统和方法 - Google Patents

在hpc环境下的拓扑认识作业调度和回填的系统和方法 Download PDF

Info

Publication number
CN100562852C
CN100562852C CNB2005100922363A CN200510092236A CN100562852C CN 100562852 C CN100562852 C CN 100562852C CN B2005100922363 A CNB2005100922363 A CN B2005100922363A CN 200510092236 A CN200510092236 A CN 200510092236A CN 100562852 C CN100562852 C CN 100562852C
Authority
CN
China
Prior art keywords
performance calculation
node
calculation operation
virtual cluster
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2005100922363A
Other languages
English (en)
Other versions
CN1770109A (zh
Inventor
S·V·戴维森
A·N·里舒克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Raytheon Co
Original Assignee
Raytheon Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=34887808&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN100562852(C) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Raytheon Co filed Critical Raytheon Co
Publication of CN1770109A publication Critical patent/CN1770109A/zh
Application granted granted Critical
Publication of CN100562852C publication Critical patent/CN100562852C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Abstract

在HPC环境下作业管理的方法包括从多个HPC节点中确定未分配子集,每一个未分配HPC节点包括集成结构。使用至少一部分节点的未分配子集,从作业队列中选出并执行HPC作业。

Description

在HPC环境下的拓扑认识作业调度和回填的系统和方法
技术领域
本技术方案通常涉及数据处理领域,更具体的说,涉及一种在HPC环境下的拓扑认识作业调度和回填的系统和方法。
背景技术
高性能计算(HPC)通常具有科学家和工程师们用于模仿、模拟和分析复杂的物理和算法现象的计算系统的特点。目前,HPC机器通常是通过使用至少一个称之为节点的处理器的许多HPC集群设计而成。对于大部分科学和工程应用来说,性能主要通过并行的可量测性而不是每个节点的速度来确定;因此可量测性一般是建造或构造这种高性能集群的限制因素。可量测性通常认为基于:i)硬件,ii)存储器,I/O及通信带宽,iii)软件,iv)体系结构和v)应用程序。在大部分传统HPC环境中的处理程序、存储器和I/O带宽通常都不易平衡,因此就不容易量测。许多HPC环境没有I/O带宽来满足高速终端数据处理的需求,或用安装了太多不需要元件的刀片来构造,往往会会显著地降低系统的可靠性。相对应地,在面向生产的环境中,许多HPC环境并不为高效的操作提供耐用的集群管理软件。
发明内容
本技术方案提供了一种在HPC环境下的作业管理系统和方法,此方法包括从多个HPC节点中确定未分配的子集,每个未分配的子集包括集成结构。使用至少一部分节点的未分配子集,从作业队列中选出并执行HPC作业。
本发明有许多重要的技术特点。例如,本发明一个可能的特点就是通过至少部分减少、分配或排除集中转换的功能性,来提供更好的输入/输出(I/O)性能,或许是传统HPC带宽的四到八倍。当然,在某些实施例中,I/O性能与处理器性能可几乎相当。这种平衡好的方法或许对通信开销(overhead)不太灵敏。相对应地,本发明可提高刀片和整个系统的性能。进一步可能的特点是减少了互连的等待时间。更进一步,本发明比传统刀片更易缩放、可靠和容错。然而另一特点是减少制造HPC服务器的费用和/或执行HPC程序的费用,此HPC服务器可传给大学或工程师的实验室。至少部分基于平衡的体系结构,本发明进一步考虑了更耐用高效的管理软件。本发明的许多实施例可没有、有一些或所有这些特点。本发明的其它技术特点对于本领域的技术人员将非常明显。
附图说明
为更完全地理解本发明的技术方案和其特点,现在参考下面相关附图进行描述,其中:
图1是表示依照本技术方案的一个实施例的高性能计算系统的例子的图;
图2A-D是表示在图1的系统中栅格的不同实施例和其用法的图;
图3A-C是表示在图1的系统中的单个节点的不同实施例的图;
图4A-B是表示依照图1中的系统,图形用户界面的不同实施例的图;
图5是表示依照图1中的系统,集群管理软件的一个实施例的图;
图6是表示依照图1中的高性能计算系统,提交批作业方法的流程图;
图7是表示依照图1中的高性能计算系统,栅格的动态回填方法的流程图;和
图8是表示图1中的高性能计算系统,动态管理节点差错方法的流程图。
具体实施方式
图1是表示使用HPC技术,执行软件应用和处理,例如大气、天气或爆炸模拟,的高性能计算(HPC)系统100的方框图,。系统100提供给用户在不同计算节点115中动态分配的HPC功能性,不同计算节点115具有与处理性能完全类似的I/O性能。通常,由于其中这种提高的输入/输出(I/O)性能和减少的结构等待时间,这些节点115易于量测。例如,在分布式结构中,节点115的可量测性可通过Amdah1定律的微分来表示:
S(N)=1/((FP/N)+FS)*(1-Fc*(1-RR/L))
其中S(N)=N处理器的加速,Fp=并行编码的分数,Fs=非并行编码的分数,Fc=专用于通信处理的分数,及RR/L=远程/本地存储器带宽比率。因此,通过提供与处理性能完全相同或近似似的I/O性能的HPC系统100,HPC系统100提高了HPC应用程序的综合有效性,并虑及更容易的系统管理。
HPC系统100为分布式客户端/服务器系统,此系统允许用户(如科学家和工程师)在HPC服务器102上提交处理作业150。例如,系统100包括通过网络106与至少一个管理工作站或本地客户端120相连接的HPC服务器。但是系统100可能是一独立计算环境或任意其它合适的环境。简而言之,系统100是任何包括较高可量测的节点115并允许用户提交作业150、为作业150动态分配可量测节点115,并利用分配节点115自动执行作业150的HPC计算环境。作业150可能为通过任意灵活用户使用HPC技术处理或提交的任意批或在线的可操作作业。例如,作业150可能是模拟、模仿或为其它高性能请求的需要。作业150也可能为运行数据中心应用程序的需求,如集群数据库、在线事务处理系统或集群应用程序服务器。这里使用的术语“动态”,通常表示至少部分基于至少一个变量的运行时间来确定某些处理。这里使用的术语“自动”,通常表示通过至少部分HPC系统100主要执行的适当处理。应该理解的是,“自动”进一步期望任意合适的用户或管理员与系统100交互作用,而没有脱离本技术方案的范围。
HPC服务器102包括用于使用多个平衡节点115和集群管理引擎130处理作业150的任意本地或远程计算机。通常,HPC服务器102包括分布式计算机,如刀片服务器或其它分布式服务器。然而在这种结构中,服务器102包括多个节点115。节点115包括任意计算机或处理装置,如举例来说,刀片、通用个人计算机(PC),客户机、工作站、基于Unix的计算机或任意其它合适的装置。通常,图1提供的只是与本技术方案一起使用的计算机的一个例子。例如,尽管图1中表示的是一个与本技术方案一起使用技术方案的服务器102,但是系统100能够使用计算机而不是服务器、服务器池来执行。换句话讲,,本技术方案设想的计算机不是通用的计算机,以及没有传统操作系统的计算机。如在本文献中使用的一样,术语“计算机”往往包括个人计算机、工作站、网络计算机或其它任何合适的处理装置。HPC服务器102或元件节点115,可适合于执行任意操作系统包括Linux、UNIX、Windows Server或任意其它操作系统。根据一个实施例,HPC服务器也可包括或可传递地与远程站点服务器相偶接。因此,在任意适合动态分配节点115以处理HPC作业150的组合中,服务器102可包括具有软件和/或硬件的任何计算机。
在高电平下,HPC服务器102包括管理节点105、具有许多节点115的栅格110,和集群管理引擎130。更具体的说,服务器102可为包括有部分或所有下列元件的多个刀片(节点115)的标准19机架:i)双处理器;ii)大容量且高速带宽存储器;iii)双主机信道适配器(HCAs);iv)集成构造交换机;v)FPGA支架;和vi)冗余电源输入或N+1个电源。这些不同的元件允许差错限制在节点电平内。但可以理解的是,HPC服务器102和节点115不包括所有这些元件。
管理节点105包含至少一个实质上用于管理或协助管理员的刀片。例如,管理节点105包括两个刀片,其中两个刀片之一为冗余的(如主动/被动结构)。在一实施例中,管理节点105或许为同一类型的刀片或计算装置如HPC节点115。但是,只要它仍至少对于部分管理栅格110是可操作的,管理节点105可为包括任意数量电路并配置在任意合适方式中的任意节点。通常,管理节点105物理或逻辑地从多个HPC节点115中分离出,共同在栅格110中表示出来。在图示的实施例中,管理节点105通过链路108可通信地与栅格110连接在一起。链路108可包括执行任意合适通信协议的任何通信通道。在一个实施例中,链路108在管理节点105和栅格110之间提供GB或10GB的以太网通信。
栅格110是为提高处理功率而互连的一组节点115。典型的是,栅格110是3D圆环,但是也可为网状、超立方体或其它任意不脱离本技术方案范围的形状或结构。栅格110中节点115间的链路可为串行或并行的模拟链路、数字链路或其它任意类型的链路,这些链路能够传输电或电磁信号,如举例来说光纤或铜。每个节点115配置有集成交换机。这就允许节点115更容易使3D圆环成为基础结构,并帮助其它节点115间的XYZ距离达到最小化。更进一步,这就使铜线工作在较大的系统中直到GB速率,在某些实施例中,最长的电缆小于5米。简而言之,节点115通常为最近邻居通信和提高的I/O带宽而进行最优化。
每个节点115包括可通信地与集群管理引擎130连接在一起的集群代理132。通常,代理132接收来自管理节点105和/或集群管理引擎130的请求和命令。代理132可能包括任何硬件、软件、固件或其结合,用于确定节点115的物理状态和通信处理过的数据都,如通过“心跳”来管理节点105。在另外的实施例中,管理节点105可周期性地查询代理132来确定相关节点115的状态。只要它仍与至少部分集群管理引擎130兼容,代理132可用任意合适的计算机语言写入如,举例来说,C、C++、汇编程序、Java、Visual Basic、及其它或其任意组合。
集群管理引擎130能够包括任意硬件、软件、固件或其结合,用于动态分配管理节点115和使用节点115执行作业150。例如,集群管理引擎可用任意合适的计算机语言来写或描述,包括C、C++、Java、Visual Basic、汇编程序、4GL的任意合适版本及其它或其任意组合。可理解的是,虽然集群管理引擎130在图1中是作为单个多任务模块来表示的,但是由本引擎执行的特点和功能可由多模块执行,如举例来说,物理层模块、虚拟层模块、作业调度程序和显示引擎(如图5中的更详细表示)。更进一步,虽然如图中所示的是作为管理节点105的外部,但是管理节点105通常执行至少一个与集群管理引擎130相关的处理器,并可存储集群引擎130。此外,集群管理引擎130可为不脱离本技术方案的范围的另外软件模块的子代或子模块。因此,集群管理引擎130包括至少一个软件模块,用于智能化地管理节点115和作业150。
服务器102可包括接口104,用于通过在客户端-服务器或其它分布式环境中的网络106与其它计算机系统,如客户端120通信。在某些实施例中,为了存储在特大容量磁盘140上,服务器102接收来自网络106的作业150或作业策略。使用同样连接节点的宽带接口,特大容量磁盘140也可直接与计算队列相连。通常,在合适的组合中,接口104包括软件中的逻辑编码和/或硬件,并且用于与网络106通信。更具体的说,接口104可包括支持至少一个与通信网络106相关的通信协议的软件,或用于通信物理信号的硬件。
网络106易于实现计算机服务器102和其它任意计算机如客户端120间的无线或有线通信。实际上,虽然如图中所示的是位于服务器102和客户端120间,但是网络106也可位于不同节点115间而不脱离本技术方案的范围。换句话讲,网络106包括任意网络、网络、或对于使不同计算元件间的通信更易操作的子网络。网络106可通信,例如Internet协议(IP)包、帧中继帧、异步传输模式(ATM)信元、语音、视频、数据和网络地址间的其它合适信息。网络106可包括一个和更多局域网(LANs)、无线传输网络(RANs)、城域网(MANs)、广域网(WANs),所有或部分作为互联网为人所知的全球计算机网络,和/或任意其它通信系统或在至少一个区域的系统。
总的来说,特大容量磁盘140为任意存储器、数据库或为存储作业150、文件、开机图像或其它HPC信息的存储区域网络(SAN)。根据图中所示的实施例,特大容量磁盘140包括至少一个存储客户端142。根据任意数目的通信协议,特大容量磁盘140可处理和发送数据包。例如,无限带宽(IB)、千兆以太网(GE)或光纤信道(FC)。数据包主要用于传输特大容量磁盘140中的数据。数据包可包括具有源标识符和目的标识符的报头。源标识符,例如源地址,识别信息的发送者,目的标识符,例如目的地址,识别信息的接收者。
客户端120为任意装置,它用于通过图形用户界面(GUI)126给用户传送作业提交屏幕或管理。在高电平下,图示的客户端120至少包括GUI126,并包括电子计算装置,用于接收、传输、处理和存储任意与系统100相关的合适数据。可理解的是,任意数目的客户端120与服务器102可通信地相连。更进一步,“客户端120”和“客户端120的用户”可适当交换而不脱离本技术方案的范围。此外,为便于举例说明,每一客户端按照由一个用户使用来描述。但是,本技术方案预计许多用户使用同一个GUI126来使用一台计算机与作业150通信。
如本技术方案中所使用的,客户端120倾向于包括个人计算机、接触屏终端、工作站、网络计算机、信息站、无线数据端口、信元电话、个人数字助理(PDA)、至少一个在这些或其它装置中的处理器,或任意其它合适处理装置。例如,客户端120可包括包含输入装置的计算机,如小键盘、接触屏、鼠标或其它可接收信息的装置,和传送与服务器102或客户端120操作相关信息的输出装置,包括数字数据、虚拟信息或GUI126。输入装置和输出装置都包括固定的或可移动的存储介质如磁盘、CD-ROM或其它合适介质,通过称作GUI126的管理和作业提交显示屏,接收客户端120用户的输入,并为其提供输出。
GUI126包括图形用户接口,用于允许i)客户端120的用户与系统100接口以提交至少一个作业150;和/或ii)使用客户端120的系统(或网络)管理员为任意合适的管理目的与系统100接口。通常,GUI126将由HPC系统100提供的高效、用户界面友好的数据显示提供给客户端120的用户。GUI126可包括许多具有交互式区域、下拉菜单或用户可操作的按钮的定制帧或图像。在一实施例中,GUI126显示作业提交屏幕,它表示不同作业参数区域,并通过其中一个输入装置接收客户端120用户的命令。如图4A-B中所示,GUI126可选择的是或组合地将节点115的物理和逻辑状态显示给系统管理员,并且接收管理员的不同命令。管理员命令可包括作为(不)可得到的标记节点、为维护而关机的节点、重新启动节点或其它任何适当命令。此外,应该明白:特定图形用户接口可用于单数或复数中来描述至少一图形用户接口和特殊图形用户接口的每个显示器。因此,GUI126包括任意图形用户接口,如通用的万维网浏览器,它处理系统100中的信息,并将结果有效地传于用户。服务器102能够通过万维网浏览器(如微软网络浏览器或Netscap公司的网络浏览器)接收来自客户端120的数据,并使用网络106返回合适的HTML或XML响应。
在操作的另一方面,HPC服务器102最先初始化或开机。在此过程中,集群管理引擎130确定栅格110中的节点115的存在、状态、位置,和/或其它特征。如上面所描述的,这是以与每一节点初始化的通信或管理节点105的近且快速的下拉的“心跳”为基础的。下一步,集群管理引擎130,例如在预先确定的策略的基础上,可动态分配栅格110的不同部分给至少一个虚拟集群220。在一个实施例中,为可能出现的差错,集群管理引擎130连续地监控节点115,一旦确定其中一个节点115出现差错,就使用任何种类的恢复技术有效地管理差错。集群管理引擎130也可管理和为虚拟集群220的每一分配节点提供唯一运行环境。此运行环境可由主机名、IP地址、操作系统、配置服务、本地或共享文件系统和一系列已安装的应用程序和数据组成。根据相关策略和根据内在集群策略如优先级,集群管理引擎130可从虚拟集群220中动态地增加或减少节点。
当用户从客户端120注销时,他可通过GUI126由作业提交屏幕来显示。一旦用户输入作业参数和提交作业150,集群管理引擎130处理作业提交、相关参数和任何与作业150、用户或用户群相关的预先确定的策略。然后,集群管理引擎130至少部分根据此信息确定合适的虚拟集群220。然后,引擎130动态地分配虚拟集群220中的作业空间230,并使用HPC技术通过分配节点115执行作业150。基于至少部分提高的I/O性能,HPC服务器102可更快地完成作业150的处理。当完成时,集群管理引擎通过通信将结果160传给用户。
图2A-D表示了在系统100中的栅格210的不同实施例及其使用或拓扑。图2A表示了一种称作使用多种节点类型的栅格210的3D圆环结构。例如,图中所示的节点类型为外I/O节点、FS服务器、FS元数据服务器、数据库服务器和计算节点。图2B表示栅格210“折叠”的例子。折叠通常允许栅格215的一个物理边缘与相应的轴向边缘相连接,于是提供了更加耐用或无边缘的拓扑。在此实施例中,通过节点链路216,节点215被环绕以提供近乎无缝的拓扑连接。节点链路216可为任意合适的硬件,为连接两个或更多节点215,此硬件执行任意通信协议。例如,节点链路216可为铜线或执行千兆以太网的光纤电缆。
图2C是表示在其中分配的一个虚拟集群220的栅格210。虽然只表示了一个虚拟集群220,但是在栅格210中可有任意数目(包括0)的虚拟集群220而不脱离本技术方案的范围。虚拟集群210是为处理相关作业150的一逻个辑组节点215。例如,虚拟集群220可与研究组、部门、实验室或任意其它可能提交相似作业150的组用户相关联。虚拟集群220可为任意形状,并在栅格210中包括任意数目的节点215。实际上,虽然图中所示的虚拟集群220包括多个物理上相邻的节点215,但是集群220可为逻辑上相关的节点215的分布式集群,此节点215用于处理作业150。
虚拟集群220可在任意合适的时间分配。例如,集群220可在初始化系统100时分配,例如基于启动参数上,或可动态地分配,例如基于更改服务器102的需要。此外,虚拟集群220可超时改变其形状和大小,以更快地与变化的需求、命令和条件相对应。例如,对应于原来一部分集群220的第二节点215的差错,虚拟集群220可动态地改变以包括自动分配的第一节点215。在某些实施例中,当处理需要时,集群220可共享节点215。
图2D表示不同的作业空间,分别为230a和230b,它们分配在虚拟集群220的实例中。通常,作业空间230为在动态分配的虚拟集群220中的一系列节点215以完成接收作业150。典型的是,每次执行作业150有一个作业空间230,反之亦然,但是作业空间230可共享节点215而不脱离本技术方案的范围。作业空间230的维数可由用户或管理者人工输入,或者基于作业参数、策略和/或其它适当特征来动态地确定。
图3A-C表示栅格110中的独立节点115的不同实施例。在图中所示,除了实例、实施例,节点115用刀片315表示。刀片315包括任意位置上的任意计算装置,用于处理所有或部分,如作业150的线程或进程。例如,刀片315可为标准Xeon64TM母板、标准PCI-Express OpteronTM母板,或任意其它合适的计算卡。
刀片315为集成构造结构,它将构造交换机元件均匀分布在栅格110中的节点115上,于是就可能降低或消除任何集中交换功能,提高容错,并允许信息并行传递。更具体的说,刀片315包括集成交换机345。集成交换机345包括任意数目的虑及不同拓扑的端口。例如,交换机345可为八个端口交换机,它启动更紧密的三维网或3D圆环拓扑。这八个端口包括两个沿着X轴上链路相邻节点115的“X”连接,两个沿着Y轴上链路相邻节点115的“Y”连接,两个沿着Z轴上链路相邻节点115的“Z”连接,和两个链路管理节点105的连接。在一个实施例中,交换机345可为标准八个端口Infiniband-4x的交换机集成电路,因此可容易的提供嵌入式的结构交换机。交换机345也可包括24端口交换机,它允许多维拓扑,如4-D圆环或其它比三维更大的非传统拓扑。此外,节点115可沿着对角线轴进一步相互连接,因此减少了相对远距离节点115间通信的跨接或跳跃。例如,第一节点115可与第二节点115连接,此第二节点115物理上安装于“跳”过了沿着若干三维的东北轴。
图3A表示了刀片315,在高电平下,包括至少两个处理器320a和320b、本地或远程存储器340和集成交换机(或结构)345。处理器320运行指令和处理数据以执行刀片315的操作,如举例来说,中央处理器(CPU)。参考处理器320,意味着当应用时包括多处理器。在一个实施例中,处理器320可包括Xeon64TM或IntaiumTM处理器或其它类似处理器或其衍生物。例如Xeon64TM处理器可为具有2MB的高速缓冲存储器和超线程的3.4GHz芯片。在本实施例中,双处理器模块可包括可提高效率的本机的PCI/Express。相对应地,处理器320有高效的存储器带宽,通常使存储控制器嵌入处理器芯片中。
刀片315也可包括北桥321、南桥322、并行通信接口信道325、双主机适配器335和存储器340。北桥321与处理器320通信并控制着与存储器340、并行通信接口总线、二级高速缓存和其它任何相关元件的通信。在一个实施例中,北桥321使用前端总线(FSB)与处理器320通信。南桥322控制刀片315的许多输入/输出(I/O)功能。在另外的实施例中,刀片315可执行Intel网络集线器结构(IHAtm),它包括图形和加速图形接口存储控制器网络集线器(GMCH)和输入/输出控制器网络集线器(ICH)。
并行通信接口信道325包括任意设计为提高集成元件间的通信速度的高速、低延迟链路。这样有助于减少了刀片315中总线的数目,它能够降低系统瓶颈。在服务器102中,双主机适配器335包括提供基于信道的I/O的任意元件。每一双主机适配器335可提供2.65GB/sec的总带宽,因此允许1.85GB/sec的处理单元给交换机345,即800GB/sec的处理单元给I/O,如举例来说BIOS(基本输入输出系统)、以太网管理接口及其它装置。这就进一步允许为了13.6Gigaflops/sec的顶峰或0.27Bytes/Flop,将要达到3.7GB/sec的I/O速率的总交换机345带宽,每Gigaflop为50M/sec。
存储器340包括任意存储器或数据库模块,并可采取易失性或非易失性的存储器,在没有限制时,包括磁性介质、光学介质、闪存、随即存取存储器(RAM)、只读存储器(ROM)、可移动介质或其它任意合适的本地或远程的存储元件。在图示的实施例中,存储器340由操作速率至少为6.4GB/s的双主机双数据速率(DDR)的8GB存储元件。存储器340可包括任意适当的管理或运行HPC作业150的数据而不脱离本技术方案的范围。
图3B表示了包括刀片315,它包括两个处理器320a和320b、存储器340、超传输/外围元件互连(HT/PCI)桥330a和330b、及两个双主机适配器335a和335b。
例中的刀片315包括至少两个处理器320。处理器320运行指令和处理数据来执行刀片315中的操作,如举例来说,中央处理器(CPU)。在图示的实施例中,处理器320可包括Opteron处理器或其它类似处理器或派生物。在本实施例中,Opteron处理器设计为栅格110的正常构造模块的开发提供支持。尽管,双主机处理器模块可提供四到五Gigaflop可用性能,并且接下来的生成技术帮助解决了存储器带宽的限制。但是刀片315可包括多于两个处理器而不脱离本技术方案的范围。相对应地,处理器320具有高效的存储器带宽,通常使存储器控制器嵌入在存储器芯片中。在本实施例中,每一处理器320具有至少一个超传输TM(或其它类似管道类型)链路325。
通常,超传输链路325包括任何高速、低延迟链路,它们设计为提高集成元件间的通信速度。这样有助于减少了刀片315中的总线数目,它们减少了系统瓶颈。为使高速缓存与多处理器刀片315相干,超传输链路325支持处理器到处理器的通信。使用超传输链路325,在刀片315上可放置到八个处理器。如果得到使用,超传输可提供6.4GB/sec,12.8或更大的带宽,因此比在PCI主线继承中的数据传输提供好于四十折叠的增长。超传输技术可进一步与I/O标准的继承相兼容,如PCI和其它技术,如PCI-x。
刀片315进一步包括HT/PCI桥330和双主机适配器335。PCI桥330可设计为与PCI本地总线特定版本2.2或3.0或PCI说明基础规范1.0或任何其派生物相一致。在服务器102中,双主机适配器335包括任意提供了基于信道的I/O元件。在实施例中,双主机适配器335包括Infiniband的双主机适配器。Infiniband信道主要通过依附于主机信道适配器和目标信道适配器而形成的,它们能够远程存储与网络互连到Infiniband的结构中,在图3B中将更详细描述。PCI-Express桥330和双主机适配器335的超传输325可为每一处理器320生成全双工2GB/sec的I/O信道。在某些实施例中,这就为支持在分布式HPC环境下的处理器到处理器的通信提供了高效的带宽。更进一步,这就为刀片315提供了与处理器性能几乎或完全平衡的I/O性能。
图3C表示了包括子板的刀片315的另一实施例。在此实施例中,子板可支持3.2GB/sec或更高的高速缓存相干接口。子板对于包括至少一个现场可编程门阵列(FPGAs)350是可操作的。例如,图示的子板包括两个FPGA350,分别表示为350a和350b。通常FPGA350提供给刀片315无标准接口、处理习用算法的能力、信号、图形或加密/解密处理应用程序的向量处理器和高带宽。例如通过提供十到二十倍的为特殊功能的通用处理器的性能的加速度因子,如举例来说低精度的快速傅立叶变换(FFT)和矩阵算术函数,FPGA可增补刀片315的功能。
前述的例子和相应的描述为实现不同可量测节点115(如例子刀片315的图示)提供了可模仿的图。然而,这些图仅仅是说明性的,并且为执行不同的可量测性而配置,系统100预期使用部件的任何合适的组合和排列。尽管本发明已经部分地图示和描述了有关刀片服务器102,但是,对于本领域中的普通技术人员将认识到,本发明的教义将应用于任意的集群HPC服务器环境。相对应地,这种包含这里描述的技术的集群服务器102可为本地或分布式而不脱离本技术方案的范围。于是,当降低I/O延迟时,为提供高性能计算能力,这些服务器102可包括合并了部件任意合适的组合和排列的HPC模块(或节点115)。此外,如果适当时,不同图示的HPC模块的操作可组合和/或分离。例如,栅格110可包括许多完全类似的节点115或执行不同硬件或体系结构的不同节点115。
图4A-B表示根据系统100的管理图形用户界面400的不同实施例。通常,管理图形用户界面400使用GUI126显示给客户端120。总的来说,图形用户界面400将多种管理交互屏幕或显示屏呈现给管理员和/或将多种作业提交或提问文件屏幕呈现给用户。这些屏幕或显示屏由装配在所收集信息的不同图面中的图形元素组成。例如图形用户界面400可呈现栅格110(图4A所示)的物理状态的显示或栅格110中节点115的逻辑分配或拓扑(图4B所示)。
图4A表示了显示屏400a的例子。为高效管理节点115,显示屏400a可包括呈现给管理员的信息。图示的实施例包括有栅格110的逻辑“图像”或屏幕射击的标准网页浏览器。例如,这种图像可提供栅格110和元件节点115的物理状态。每一节点115可为任意数目颜色之一,每一颜色代表不同的状态。例如,差错节点115可为红色,有用的或已分配节点115可为黑色,未分配节点可为暗色。更进一步,显示屏400a可允许管理员在节点115之一上移动指示器,并观察它不同的物理特征。例如,管理员可用包括“节点”、“有效性”、“处理器利用”、“存储器利用”、“温度”、“物理位置”和“地址”的信息来表示。当然,这些仅仅是实例的数据字段,任意适当的物理或逻辑节点信息都可显示给管理员。显示屏400a也可允许管理员旋转栅格110的图形或实现任何其它合适的功能。
图4B表示了显示屏400b的例子。显示屏400b表示了栅格100的逻辑状态的图像或图形。图示的实施例呈现了分配在栅格110中的虚拟集群220。为执行至少一个作业150,显示屏400b进一步显示了分配在集群230中的作业空间230的两个例子。显示屏400b可允许管理员在图形虚拟集群220上移动指示器,以观察由不同状态(如分配或未分配)分组的节点115的数目。更进一步,管理员可在其中一个作业空间230上移动指示器,于是就呈现出合适的作业信息。例如,管理员可观察作业名称、开始时间、节点数目、预计结束时间、处理器用法、I/O用法和其它等。
可以理解的是,管理GUI126(分别由上述显示400a和400b的例子表示)只是为了解释说明用,并可包括没有、一些或所有图示的图形元素以及未图示的额外管理元素。
图5表示了根据系统100的集群管理引擎130的一个实施例,这里作为引擎500表示。在本实施例中,集群管理引擎500包括许多子模块或元件:物理管理器505、虚拟管理器510、作业调度程序515和本地存储器或变量520。
物理管理器505为任意软件、逻辑学、固件或其它模块,用于确定不同节点115的物理状态,并基于此确定状态高效管理节点115。物理管理器可使用这些数据来高效确定并对节点115的差错作出反应。在一个实施例中,物理管理器505与多个代理软件132通信连接,这些代理软件每一个都安装在一节点115中。如上面所描述的,代理软件132收集并与管理器505通信至少的物理信息。通过网络106,物理管理器505可进一步与客户端120的系统管理员通信警报。
虚拟管理器510为任意软件、逻辑学、固件或其它用于管理虚拟集群220和节点115的逻辑状态的模块。通常,虚拟管理器510用节点115的物理状态连接节点115的逻辑表示。基于这些连接,虚拟管理器510可生成虚拟集群220并为这些集群220处理多种变化,如对应于与节点差错或为提高HPC处理的(系统或用户)要求。虚拟管理器510也可与作业调度程序515通信虚拟集群220的状态,如未分配节点115,以动态回填未运行或队列中的HPC处理器或作业150。虚拟管理器510可进一步确定作业150与特定节点115的兼容性,并将信息通信给作业调度程序515本。在某些实施例中,虚拟管理器510可为表示独立虚拟集群220的对象。
集群管理引擎500也可包括作业调度程序515。作业调度程序子模块515为处理系统资源方面的拓扑-认识模块,最好与处理器和时间分配一起,确定最优作业空间230和时间。经常需要考虑的因素包括处理器、步骤、存储器、互连、磁盘、可视引擎和其它等。换句话讲,作业调度程序515主要与GUI126互动以接收作业150,与物理管理器505互动以确保不同节点115的正常,及与虚拟管理器519互动以在某一虚拟集群220中动态分配作业空间230。这种动态分配通过不同的算法来完成,这些算法通常合并栅格110的当前拓扑知识,当适当时为虚拟集群220。作业调度程序515操作串行和并行程序的批处理或交互执行。调度程序515也提供了对选择和执行作业150所提出的不同问题执行策略524的方式。
集群管理引擎500,如通过作业调度程序515,可进一步用于执行有效的点校验。重新转储主要包括写入磁盘中的百分之七十五以上的数据。此I/O通常这样做以至不会丢失对平台故障的处理。基于此,文件系统的I/O能被隔离为两部分,生产I/O和防卫I/O。生产I/O是写入用户为科学所需要的数据如,举例来说,可视存储、超时的关键物理变量踪迹及其它。防卫I/O运行以管理超过重要时间的大量模拟。相对应地,提高的I/O带宽大大减少了包括在点校验中的时间和风险。
回到引擎500,本地存储器520包括系统100多个特征的逻辑描述(或数据结构)。本地存储器520可存储在任何物理或逻辑的数据存储器中,这些存储器用于被兼容代码定义、处理或重新取出。例如,本地存储器520可包括至少一个可扩展标记语言(XML)表或文档。不同元素可根据SQL语句或脚本、虚拟存储访问法(VASM)文件、平面文件、二进制数据文件、Btrieve程序文件、数据库文件或逗号分离数据(CSV)文件来描述。可以理解的是,每一元素包括变量、表或其它任意合适的数据结构。本地存储器520也可包括许多存储在一服务器102上或经过多个服务器或节点的表和文件。此外,虽然如图中所示的安装在引擎500内部中,但是某些或所有本地存储器520可为内置或外置的而不脱离本技术方案的范围。
图示的本地存储器520包括物理列表521、虚拟列表522、组文件523、策略表524和作业队列525。但是,尽管未图示时,然而本地存储器520可包括其它的数据结构,包括作业表和审计记录而不脱离本技术方案的范围。回到图示的结构,物理列表521用于存储节点115的标识符和物理管理信息。物理列表521可为多维数据结构,它包括每一节点115的至少一条记录。例如,物理记录可包括字段如“节点”、“有效性”、“处理器利用”、“存储器利用”、“温度”、“物理位置”、“地址”、“引导图像”及其它。可以理解的是,每一记录可包括没有、一些或所有举例字段。在一个实施例中,物理记录可为另一表提供外关键字如,举例来说虚拟列表522。
虚拟列表522用于存储节点115的逻辑或虚拟管理信息。虚拟列表可为多维数据结构,它包括每一节点115的至少一条记录。例如,虚拟记录可包括字段如“节点”、“有效性”、“作业”、“虚拟集群”、“二级节点”、“逻辑位置”、“兼容性”及其它。可以理解的是,每一记录可包括没有、一些或所有举例字段。在一个实施例中,虚拟记录可包括与另一表的连接,如举例来说,组文件523。
组文件523包括至少一个表或记录,它们用于存储用户组和机密信息,如存取控制列表(或ACLs)。例如,每一组记录可包括可用服务、节点115或用户作业的列表。每一逻辑组可与商用组或单元、部门、项目、或机密组或任何其它的至少一个可提交作业150或至少为系统100一部分管理的用户相关。基于此信息,集群管理引擎500可确定提交作业的用户是否为有效用户,并且如果是,作业执行最优参数。更进一步,组文件523可使每个用户组与虚拟集群220,或与至少一个物理节点115,如安装在特定组域中的节点相关联。这就允许每一组有独立的处理空间而不会有资源竞争。然而,如上面所描述的,虚拟集群220的形状和尺寸可为动态的,并可根据需要、时间或任意其它参数来改变。
策略表524包括至少一个策略。可以理解的是,如果适当时,策略表524和策略524可互换使用。策略524通常存储作业150和/或虚拟集群220的处理和管理信息。例如,策略524可包括任意数目的参数和变量,这些变量包括问题大小、问题运行时间、时间损失、抢先、节点115或虚拟集群220的用户分配共享等。
作业队列525表示至少一个等待执行的作业150流。通常,为了存储任意数目(包括零)的作业150或另外作为参考,队列525包括任意合适的数据结构,如冒泡队列、数据库表或指示器队列。可能存在与栅格110或多个队列525相关的一个队列525,每一队列525与栅格110中的其中一个独特虚拟集群220相关连。
在操作的一方面,集群管理引擎500接收由N个任务组成的作业150,这些任务通过执行计算和交换信息150协同解决问题。集群管理引擎500分配N个节点115,并使用任何合适的技术指定N个任务给一个特定节点515,因此使问题得以高效地解决。例如,集群管理引擎500可利用作业参数,如用户提供的作业任务布置策略。尽管,集群管理引擎500试图开发服务器102的结构,它可为用户轮流提供更快的周转,并可能提高系统100的整体吞吐量。
在一个实施例中,根据下面例子中的任何一个拓扑,集群管理引擎500选择和分配节点115:
指定的2D(x,y)或3D(x,y,z)-节点115被分配,并且任务可在指定维数上排序,因此保持高效地邻域对邻域的通信。指定的拓扑管理许多作业150,其中希望物理通信拓扑与问题拓扑相匹配,此问题拓扑允许作业150的合作任务与邻域任务经常通信。例如,将2×2×2维(2,2,2)中的8个任务请求分配在立方体中。为了最合适的目的,当保持高效地邻域对邻域的通信时,2D分配能够“折叠”到3D(如在图2D中所讨论的)中。集群管理引擎500可在任意方向自由分配指定维数形状。例如,2×2×8的盒可垂直或平行地分配在可用的物理节点中。
最合适的立方体-集群管理引擎500在立方容量中分配N个节点115。这种拓扑高效地处理作业150,它通过最小化任意两个节点115间的距离,允许合作任务与任意其它任务交换数据。
最合适的球体-集群管理引擎500在球形容量中分配N个节点115。例如,用余下的放置在环绕中心节点115的节点115上的任务,第一任务可放置在球体的中心节点115中。可以理解的是,剩余任务的放置顺序通常不是关键的。这种拓扑可最小化第一任务和所有其它任务间的距离。这就高效地处理了大部分问题,其中任务2-N与第一任务通信,但是彼此间并不通信。
随机-集群管理引擎500用减少的事项来分配N个节点,因为其中节点115都已被逻辑或物理分配。在一个实施例中,为了回填的目的,这种拓扑鼓励积极使用栅格110,而几乎不对其它作业150产生影响。
可以理解的是,前面的拓扑和相应的描述都只是为了图示的目的,并且不描述实际使用的拓扑或分配这种拓扑的技术。
集群管理引擎500可利用作为作业150参数或策略524参数存储的置放权重权重。在一个实施例中,置放权重为位于0和1之间的可变数值,它们根据请求的任务(或处理)置放测略,表示集群管理引擎500如何积极地尝试去置放节点115。在此例子中,只有当最优策略(或维数)是可能的时,为0的数值就表节点115,并且只要有足够自由或其它可得到的节点115来处理此请求,为1的数值直接地表示置放节点115。典型地,为了防止大作业150不足并保持HPC系统100的作业吞吐量,置放权重没有拒绝管理策略524如资源保留。
为管理节点115和作业150,前面的图示和相应的描述为执行逻辑调度的引擎500提供了示范性的模块图。然而,此图仅仅是图示性的,并且为了执行这些和其它算法,系统100预期使用逻辑部件的任意合适的组合和排列。于是,为高效管理节点115和作业150,这些软件模块可包括部件的任意合适的组合和排列。此外,如果合适时,可合并和/或分离不同图示的模块的操作。
图6是表示根据本技术方案一个实施例的动态处理作业提交的实例方法600的流程图。通常,图6描述了方法600,它接收批作业提交、基于作业参数和相关策略524动态分配节点115,并使用分配空间执行作业150。下面的描述集中在执行方法600中的集群管理模块130的操作。但是系统100预期使用逻辑部件的任意适当的组合和排列,只要功能仍是适当的,这些部件实现一些或所有上面描述的功能。
方法600开始于步骤605,其中HPC服务器102接收来自用户的作业提交150。如上面所描述的,在一个实施例中,用户可使用客户端120提交作业150。在另外的实施例中,用户可直接使用HPC服务器102来提交作业150。下一步,在步骤610中,集群管理引擎130基于用户来选择组523。一旦验证了用户,集群管理引擎130在步骤615中将用户与组存取控制列表(ACL)相比较。但是可以理解的是,集群管理引擎130可使用任何适当的机密技术来验证用户。基于确定的组523。集群管理引擎130确定用户是否已经访问请求的服务。基于此请求的服务和主机名称,集群管理引擎130在步骤620中选择虚拟集群220。典型地,虚拟集群220可在作业150的提交前被识别和分配。但是,结果是虚拟集群220还没有被建立,集群管理引擎130可使用上面描述的任何技术,自动地分配虚拟集群220。接下来,在步骤625中,集群管理引擎130基于作业150的提交重新得到策略524。在一个实施例中,集群管理引擎130可确定与用户、作业150或任意其它适当标准相关的合适策略524。那么在步骤630中,集群管理引擎130确定或另外计算作业150的维数。可以理解的是,此合适维数包括长度、宽度、高度或任意其它适当的参数或特征。如上面所描述的,这些维数用于在虚拟集群220中确定合适的作业空间230(或节点115的子集)。当完成参数的初始化后,从步骤635到665中,集群管理130试图在HPC服务器102上执行作业150。
在判断步骤635中,集群管理引擎130使用已建立的参数,确定是否有足够的可得到的节点来分配所需的作业空间230。如果没有足够的节点115,那么在步骤640中,集群管理引擎130确定在虚拟集群220中的节点115的最先可用的子集230。然后,集群管理引擎130将作业150增加到作业队列125中,直到在步骤645中得到子集230。然后处理返回到判断步骤635。一旦能够得到足够节点115,那么在步骤650中,集群管理引擎130动态地确定来自可得到的节点115的最优子集230。可以理解的是,最优子集230可使用任意合适的标准来确定,包括最快处理时间、最可靠节点、物理或虚拟位置或第一可用节点115。在步骤655中,集群管理引擎130从选出的虚拟集群220中选择确定的子集230。接下来,在步骤660中,集群管理引擎130使用选出的子集230,为作业150分配选择节点115。根据一个实施例,在虚拟节点列表522中,集群管理引擎130可更改节点115的状态从“未分配”到“已分配”。一旦子集230被适当分配,集群管理引擎130就在步骤655中使用基于作业参数、重新得到的策略524或任意其它合适的参数分配空间,来执行作业150。在任意合适的时间,集群管理引擎130可与用户通信或另外传送作业结果160。例如,结果160可格式化,并通过GUI126传给用户。
图7是表示根据本技术方案的一个实施例的动态回填栅格110中的虚拟集群220的实例方法700的流程图。在高电平下,方法700描述了在虚拟集群220中确定可得到的空间、确定与此空间兼容的最优作业150、并在此可得到空间中执行已确定作业150。下面的描述将集中在集群管理模块130在执行本方法中的操作。但是,与前述的实施例相同,系统100预期使用逻辑部件任意合适的组合和排列。这些部件实现某些或所有描述的功能。
方法700开始于步骤705,其中集群管理引擎130将作业队列525分类。在图示的实施例中,集群管理引擎130基于存储在队列525中的作业150的优先级,将队列525分类。但可以理解的是,集群管理引擎130可使用任意适当的特征来分类队列525,以便将执行合适或最优的作业150。接下来,在步骤710中,集群管理引擎130确定在虚拟集群220之一中的可得到节点115的数目。当然,集群管理引擎130同样可确定栅格110中或任意至少一个虚拟集群220中的可得到节点115的数目。在步骤715中,集群管理引擎130从已分类的作业队列525中选择第一作业150。接下来,在步骤720中,集群管理引擎130动态地确定已选择作业150的最优形状(或其它维数)。一旦确定了已选择作业150的最优形状或维数,那么在步骤725到步骤745中,集群管理引擎130确定它是否可回填在适当地虚拟集群220中的作业150。
在判断步骤725中,集群管理引擎130确定为已选择作业150是否有足够的可用节点115。如果有足够的可用节点115,那么在步骤730中,集群管理引擎130使用任意合适技术,为已选择作业150动态分配节点115。例如,集群管理引擎130可使用在图6中描述的技术。接下来,在步骤735中,集群管理引擎重新计算在虚拟集群220中的可用节点的数目。在步骤740中,集群管理引擎130对分配节点115执行作业150。一旦执行了作业150(或如果为已选择作业150没有足够节点115),那么在步骤745中,集群管理引擎130选择分类作业队列525中的下一个作业150,并且处理返回到步骤720。可以理解的是,当作为环形图示时,集群管理引擎130可在任意适当的时间,初始化、执行并终止在方法700中图示的技术。
图8是表示根据本技术方案的一个实施例的动态管理栅格110中的节点115的差错的实例方法800的流程图。在高电平下,方法800描述了确定失败节点115、自动执行作业恢复和管理、并用二级节点115代替失败节点115。下面的描述将集中在在执行本方法中的集群管理模块130的操作。但是,与前面的流程图相同,系统100预期使用逻辑部件的任意合适的组合和排列,这些逻辑部件实现一些或所有已描述的功能。
方法800开始于步骤805,其中集群管理引擎130确定节点115出现差错。如上面所描述的,集群管理引擎130可使用任意适当的技术确定节点出现差错。例如,集群管理引擎130可在不同时期拉出节点115(或代理132),并且可基于节点115的响应的缺乏来确定节点115出现差错。在另外的例子中,存在于节点115上的代理132与“心跳”通信,并且这种“心跳”的缺乏就可表示节点115的差错。接下来,在步骤810中,集群管理引擎130从虚拟集群220中去除差错节点115。在一个实施例中,集群管理引擎130可改变在虚拟列表522中的节点115的状态从“已分配”到“已失败”。然后在判断步骤815中,集群管理引擎130确定作业150是否与差错节点115相关。如果没有与节点115相关的作业150,那么处理结束。如上面所描述的,在处理结束之前,集群管理引擎130可与管理员通信错误消息、自动确定代替节点115或任意其它适当的处理。如果存在与错误节点115相关的作业150,那么在步骤820中,集群管理引擎130就确定与作业150相关的其它节点115。下一步,在步骤825中,集群管理引擎130删除在所有适当节点115上的作业150。例如,集群管理引擎130可执行删除作业命令或使用任意其它适当的技术来结束作业150。接下来,在步骤830中,集群管理引擎130使用虚拟列表522重新分配节点115。例如,集群管理引擎130可改变在虚拟列表522中的节点115的状态从“已分配”到“可得到”。一旦作业已被终止,并且所有适当的节点115重新分配,那么在步骤835到850中,集群管理引擎130就使用可用节点115试图重新执行作业150。
在步骤835中,集群管理引擎130重新得到策略524和步骤835中的已删除作业150的参数。然后在步骤840中,基于重新得到的策略524和作业参数,集群管理引擎130确定虚拟集群220中的节点115的最优子集230。一旦确定了节点115的子集230,那么在步骤845中,集群管理引擎130动态分配节点115的子集230。例如,集群管理引擎130可更改虚拟列表522中的节点状态从“未分配”到“已分配”。可以理解的是,节点115的这个子集可与作业150正在执行的节点115的初始子集不同。例如,由于促进此执行的节点差错,集群管理引擎130可确定节点的不同子集是最优的。在另外的例子中,集群管理引擎130确定二级节点115用于代替已失败的节点115,并且新的子集230与旧作业空间230完全类似。一旦分配子集230被确定和分配,那么集群管理引擎130在步骤850中执行作业150。
前面的流程图和相应的描述表示了示范方法600、700和800。简而言之,为执行这些和其它任务,系统100预期使用任意合适的技术。相对应地,在本流程图的许多步骤可同时发生和/或以不同的顺序,而不是与图中所示的相同。此外,只要方法合适,系统100可使用额外的步骤、更少的步骤和/或不同的步骤。
尽管本技术方案已经根据某些实施例和通用的相关方法进行了描述,但是这些实施例及方法的变更和改变对于本领域的技术人员都是显而易见的。因此,上述实施例的描述没有限定或约束本技术方案。只要不脱离本技术方案的精神和范围,另外的改变、代替和变更同样是可能的。

Claims (29)

1、一种在高性能计算环境中作业管理的方法,包括:
从分类的作业队列中选择要完成的高性能计算作业;
基于所选择的高性能计算作业,根据预定的策略,从多个高性能计算节点中确定一个虚拟集群的节点,每一高性能计算节点包括集成结构,所述多个高性能计算节点形成带无边缘拓扑的三维栅格;以及
使用所述虚拟集群的节点的至少一部分,执行选择出的高性能计算作业。
2、根据权利要求1所述的方法,其特征在于,选择高性能计算作业包括基于优先级从作业队列中选择高性能计算作业,选择出的高性能计算作业包括小于或等于所述虚拟集群的拓扑的维数。
3、根据权利要求2所述的方法,其特征在于,基于优先级从作业队列中选择高性能计算作业包括:
基于作业优先级分类作业队列;
从已分类作业队列中选择第一高性能计算作业;
用所述虚拟集群的拓扑确定所述第一高性能计算作业的维数;以及
响应于第一高性能计算作业的维数,从已分类作业队列中选择第二高性能计算作业,并将所述第一高性能计算作业返回到当前重构所述虚拟集群的所分类的作业队列,该第一高性能计算作业的维数大于所述虚拟集群的拓扑。
4、根据权利要求3所述的方法,其特征在于,所述第一高性能计算作业的维数,至少部分基于一个或多个作业参数和相关策略。
5、根据权利要求2所述的方法,其特征在于,所述方法进一步包括:
至少部分基于选择出的高性能计算作业的维数,从所述虚拟集群中动态分配作业空间;并且
其中,执行已选择高性能计算作业包括:使用动态分配的作业空间,来执行已选择的高性能计算作业。
6、根据权利要求1所述的方法,其特征在于,所述多个高性能计算节点包括第一组多个节点和第二组多个节点,所述第一组多个节点与所述虚拟集群相关,并且所述方法进一步包括:
确定已选择高性能计算作业的维数大于所述第一组多个节点的拓扑;
从所述第二组多个节点中选择一个或多个高性能计算节点,每一所述第二高性能计算节点包括集成结构;及
将从所述第二组多个节点中选择的高性能计算节点增加到所述虚拟集群中以满足已选择高性能计算作业的维数。
7、根据权利要求6所述的方法,其特征在于,所述方法进一步包括返回所述选择的高性能计算节点到所述第二组多个节点。
8、根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
确定在所述虚拟集群外侧的多个高性能计算节点上执行的第二高性能计算作业已失败;
将所述虚拟集群外侧的多个高性能计算节点增加到所述虚拟集群;以及
将已失败的第二高性能计算作业增加到分类的作业队列中。
9、一种用于在高性能计算环境中作业管理的系统,包括:
用于从分类的作业队列中选择要完成的高性能计算作业的装置;
用于基于所述高性能计算作业,根据预定的策略,从多个高性能计算节点中确定虚拟集群的装置,每一所述高性能计算节点包括集成结构,所述多个高性能计算节点形成带无边缘拓扑的三维栅格;以及
用于使用所述虚拟集群的节点的至少一部分,来执行已选择的高性能计算作业的装置。
10、根据权利要求9所述的系统,其特征在于,用于选择高性能计算作业的装置包括用于基于优先级从分类的作业队列中选择高性能计算作业的装置,已选择的高性能计算作业包括小于或等于所述虚拟集群的拓扑的维数。
11、根据权利要求10所述的系统,其特征在于,用于基于优先级从分类的作业队列选择高性能计算作业的装置包括:
用于基于作业优先级分类作业队列的装置;
用于从已分类作业队列中选择第一高性能计算作业的装置;
用于用所述虚拟集群的拓扑确定所述第一高性能计算作业的维数的装置;以及
用于响应于大于所述虚拟集群的拓扑的所述第一高性能计算作业的维数,从已分类作业队列中选择第二高性能计算作业,并将所述第一高性能计算作业返回到当前重构所述虚拟集群的所分类的作业队列的装置。
12、根据权利要求11所述的系统,其特征在于,所述第一高性能计算作业的维数至少部分基于一个或多个作业参数和相关策略。
13、根据权利要求10所述的系统,其特征在于,所述系统还包括:
用于至少部分基于选择的高性能计算作业的维数,从所述虚拟集群中动态分配作业空间的装置,并且
其中,用于执行已选择高性能计算作业的装置包括用于使用动态分配的作业空间来执行已选择高性能计算作业的装置。
14、根据权利要求9所述的系统,其特征在于,所述多个高性能计算节点包括第一组多个节点和第二组多个节点,所述第一组多个节点与所述虚拟集群相关,且
所述系统进一步包括:
用于确定已选择高性能计算作业的维数大于第一组多个节点的拓扑的装置;
用于从所述第二组多个节点中选择一个或多个高性能计算节点的装置,每个选择的高性能计算节点包括集成结构;以及
用于将从所述第二组多个节点中选择的高性能计算节点增加到所述虚拟集群中的装置,以满足已选择高性能计算作业的维数。
15、根据权利要求14所述的系统,其特征在于,所述系统进一步包括用于将选择的高性能计算节点返回到所述第二组多个节点的装置。
16、根据权利要求9所述的系统,其特征在于,所述系统进一步包括:
用于确定在所述虚拟集群外侧的多个高性能计算节点上执行的第二高性能计算作业已失败的装置;
用于将所述虚拟集群外侧的多个高性能计算节点增加到虚拟集群中的装置;及
用于将已失败的第二高性能计算作业增加到分类的作业队列中的装置。
17、一种在高性能计算环境中的作业管理系统,包括:
多个高性能计算节点,每一节点包括集成结构,所述多个高性能计算节点形成带无边缘拓扑的三维栅格;及
管理节点,用于:
从分类的作业队列中选择要完成的高性能计算作业;
基于所选择的高性能计算作业,根据预定的策略,从多个高性能计算节点中确定一个虚拟集群;及
使用所述虚拟集群节点的至少一部分,来执行已选择的高性能计算作业。
18、根据权利要求17所述的系统,其特征在于,用于选择高性能计算作业的管理节点包括基于优先级从分类的作业队列中选择高性能计算作业的管理节点,已选择的高性能计算作业包括小于或等于所述虚拟集群的拓扑的维数。
19、根据权利要求18所述的系统,其特征在于,用于基于优先级从分类的作业队列中选择高性能计算作业的管理节点包括的管理节点用于:
基于作业优先级分类作业队列;
从已分类作业队列中选择第一高性能计算作业;
用所述虚拟集群的拓扑确定第一高性能计算作业的维数;及
响应于第一高性能计算作业的维数,从已分类作业队列中选择第二高性能计算作业,并将所述第一高性能计算作业返回到当前重构所述虚拟集群的所分类的作业队列,该第一高性能计算作业的维数大于所述虚拟集群的拓扑。
20、根据权利要求19所述的系统,其特征在于,所述第一高性能计算作业的维数至少部分基于一个或多个参数和相关策略。
21、根据权利要求18所述的系统,其特征在于,所述系统进一步用于:
至少部分基于高性能计算作业的维数,从所述虚拟集群中动态分类作业空间,并且
其中,用于执行已选择高性能计算作业的管理节点包括使用动态分配的作业空间来执行已选择高性能计算作业的管理节点。
22、根据权利要求17所述的系统,其特征在于,所述多个高性能计算节点包括第一组多个节点和第二组多个节点,所述第一组多个节点与所述虚拟集群相关,且
所述管理节点进一步用于:
确定已选择高性能计算作业的维数大于所述第一组多个节点的拓扑;
从所述第二组多个节点中选择一个或多个高性能计算节点,每一选择的高性能计算节点包括集成结构;及
将从所述第二组多个节点中选择的高性能计算节点增加到所述虚拟集群中,以满足已选择高性能计算作业的维数。
23、根据权利要求22所述的系统,其特征在于,所述管理节点进一步用于将选择的高性能计算节点返回到所述第二组多个节点。
24、根据权利要求17所述的系统,其特征在于,所述管理节点进一步用于:
确定在所述虚拟集群外侧的多个高性能计算节点上执行的第二高性能计算作业已失败;
将所述虚拟集群外侧的多个高性能计算节点增加到所述虚拟集群中;及
将已失败的第二高性能计算作业增加到分类的作业队列中。
25.根据权利要求17所述的系统,其特征在于,所述管理节点用于:
从分类的作业队列中选择第二高性能计算作业;
确定所述第二高性能计算作业的最佳形状;和
根据所述第二高性能计算作业的最佳形状,确定所述虚拟集群是否有足够数目的可用节点来执行所述第二高性能计算作业。
26.根据权利要求25所述的系统,其特征在于,所述管理节点还用于:
从所述足够数目的可用节点分配用于执行所述第二高性能计算作业的节点。
27.根据权利要求26所述的系统,其特征在于,所述管理节点还用于:
响应于所述分配,重新计算在所述虚拟集群中可用节点的数目。
28.根据权利要求26所述的系统,其特征在于,所述管理节点还用于:
在所分配的节点上执行所述第二高性能计算作业。
29.根据权利要求25所述的系统,其特征在于,所述管理节点还用于:
响应于所述虚拟集群没有足够数目的可用节点来执行所述第二高性能计算作业,从分类的作业队列中选择第三高性能计算作业;
确定所述第三高性能计算作业的最佳形状;
根据所述第三高性能计算作业的最佳形状,确定所述虚拟集群是否具有足够的可用节点来执行所述第三高性能计算作业。
CNB2005100922363A 2004-04-15 2005-04-15 在hpc环境下的拓扑认识作业调度和回填的系统和方法 Active CN100562852C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/825,021 US8336040B2 (en) 2004-04-15 2004-04-15 System and method for topology-aware job scheduling and backfilling in an HPC environment
US10/825,021 2004-04-15

Publications (2)

Publication Number Publication Date
CN1770109A CN1770109A (zh) 2006-05-10
CN100562852C true CN100562852C (zh) 2009-11-25

Family

ID=34887808

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100922363A Active CN100562852C (zh) 2004-04-15 2005-04-15 在hpc环境下的拓扑认识作业调度和回填的系统和方法

Country Status (10)

Country Link
US (11) US8336040B2 (zh)
EP (2) EP3267309A1 (zh)
JP (1) JP2005310139A (zh)
KR (1) KR20070006906A (zh)
CN (1) CN100562852C (zh)
CA (1) CA2503777C (zh)
IL (1) IL178606A (zh)
MY (1) MY150399A (zh)
TW (1) TWI272502B (zh)
WO (1) WO2005106663A1 (zh)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1297894C (zh) * 2003-09-30 2007-01-31 国际商业机器公司 用于调度作业的方法、调度器以及网络计算机系统
US7711977B2 (en) * 2004-04-15 2010-05-04 Raytheon Company System and method for detecting and managing HPC node failure
US8190714B2 (en) * 2004-04-15 2012-05-29 Raytheon Company System and method for computer cluster virtualization using dynamic boot images and virtual disk
US20050235055A1 (en) * 2004-04-15 2005-10-20 Raytheon Company Graphical user interface for managing HPC clusters
US8335909B2 (en) * 2004-04-15 2012-12-18 Raytheon Company Coupling processors to each other for high performance computing (HPC)
US8336040B2 (en) 2004-04-15 2012-12-18 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US9178784B2 (en) 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
US7596788B1 (en) * 2004-05-11 2009-09-29 Platform Computing Corporation Support of non-trivial scheduling policies along with topological properties
US7788671B2 (en) * 2004-11-01 2010-08-31 International Business Machines Corporation On-demand application resource allocation through dynamic reconfiguration of application cluster size and placement
US7433931B2 (en) * 2004-11-17 2008-10-07 Raytheon Company Scheduling in a high-performance computing (HPC) system
US8244882B2 (en) * 2004-11-17 2012-08-14 Raytheon Company On-demand instantiation in a high-performance computing (HPC) system
US7475274B2 (en) * 2004-11-17 2009-01-06 Raytheon Company Fault tolerance and recovery in a high-performance computing (HPC) system
US7802257B1 (en) * 2005-06-20 2010-09-21 Oracle America, Inc. Mechanism for bridging a thread-oriented computing paradigm and a job-oriented computing paradigm
US20070061813A1 (en) * 2005-08-30 2007-03-15 Mcdata Corporation Distributed embedded software for a switch
US7926057B2 (en) * 2005-12-15 2011-04-12 International Business Machines Corporation Scheduling of computer jobs employing dynamically determined top job party
KR100730279B1 (ko) * 2005-12-16 2007-06-19 삼성전자주식회사 스타 토로스 토폴로지를 이용하여 칩 상의 디바이스를연결한 컴퓨터 칩
ES2325698B1 (es) * 2006-01-20 2010-10-19 Universidad De La Laguna Camara de fase para la medida de distancias y de aberraciones de frente de onda en diversos entornos mediante slice de fourier.
US8429663B2 (en) * 2007-03-02 2013-04-23 Nec Corporation Allocating task groups to processor cores based on number of task allocated per core, tolerable execution time, distance between cores, core coordinates, performance and disposition pattern
US8200738B2 (en) * 2007-09-30 2012-06-12 Oracle America, Inc. Virtual cluster based upon operating system virtualization
US8107466B2 (en) 2008-04-01 2012-01-31 Mitac International Corp. Flexible network switch fabric for clustering system
JP5402226B2 (ja) * 2009-05-13 2014-01-29 富士通株式会社 管理装置、情報処理システム、情報処理システムの制御プログラムおよび情報処理システムの制御方法
US9122538B2 (en) 2010-02-22 2015-09-01 Virtustream, Inc. Methods and apparatus related to management of unit-based virtual resources within a data center environment
US9027017B2 (en) * 2010-02-22 2015-05-05 Virtustream, Inc. Methods and apparatus for movement of virtual resources within a data center environment
US8473959B2 (en) 2010-02-22 2013-06-25 Virtustream, Inc. Methods and apparatus related to migration of customer resources to virtual resources within a data center environment
JP5035708B2 (ja) 2010-04-21 2012-09-26 日本電気株式会社 並列計算機システム、ジョブサーバ、ジョブスケジューリング方法及びジョブスケジューリングプログラム
US11449394B2 (en) 2010-06-04 2022-09-20 Commvault Systems, Inc. Failover systems and methods for performing backup operations, including heterogeneous indexing and load balancing of backup and indexing resources
US8504526B2 (en) 2010-06-04 2013-08-06 Commvault Systems, Inc. Failover systems and methods for performing backup operations
WO2012020474A1 (ja) * 2010-08-10 2012-02-16 富士通株式会社 ジョブ管理装置及びジョブ管理方法
CN102096655B (zh) * 2011-01-31 2013-02-20 中国科学院计算技术研究所 一种移动hpc系统及其实现方法
JP2012243224A (ja) * 2011-05-23 2012-12-10 Fujitsu Ltd プロセス配置装置、プロセス配置方法及びプロセス配置プログラム
US20120324456A1 (en) * 2011-06-16 2012-12-20 Microsoft Corporation Managing nodes in a high-performance computing system using a node registrar
EP2748705A4 (en) 2011-08-25 2015-05-20 Virtustream Inc SYSTEMS AND METHODS FOR HOST-RELATED RESOURCE MANAGEMENT WITH CLUSTER-BASED RESOURCE POOLS
US20130067069A1 (en) 2011-09-13 2013-03-14 International Business Machines Corporation Flow topology of computer transactions
US20140136553A1 (en) * 2012-11-13 2014-05-15 International Business Machines Corporation Appliance for accelerating graph database management and analytics systems
JP6191361B2 (ja) * 2013-09-25 2017-09-06 富士通株式会社 情報処理システム、情報処理システムの制御方法及び制御プログラム
JP6221588B2 (ja) * 2013-09-30 2017-11-01 富士通株式会社 情報処理システム、管理装置制御プログラム及び情報処理システムの制御方法
KR20150083713A (ko) * 2014-01-10 2015-07-20 삼성전자주식회사 자원 관리를 위한 전자 장치 및 방법
JP6364880B2 (ja) * 2014-03-31 2018-08-01 富士通株式会社 並列計算機システム,ジョブ管理装置の制御プログラム,及び並列計算機システムの制御方法
US9563518B2 (en) 2014-04-02 2017-02-07 Commvault Systems, Inc. Information management by a media agent in the absence of communications with a storage manager
JP2016004310A (ja) * 2014-06-13 2016-01-12 富士通株式会社 並列計算機システム、制御方法およびジョブ管理プログラム
JP6369257B2 (ja) * 2014-09-19 2018-08-08 富士通株式会社 情報処理システム、情報処理システムの制御方法、管理装置、及び制御プログラム
JP6446989B2 (ja) * 2014-10-16 2019-01-09 富士通株式会社 計算機システム,処理方法及びジョブ処理プログラム
US9430269B1 (en) 2015-02-09 2016-08-30 International Business Machines Corporation Feedback analysis for virtual machines manager scheduling
JP6428380B2 (ja) * 2015-03-02 2018-11-28 富士通株式会社 並列計算システム、ジョブ管理装置、ジョブ管理プログラム、およびジョブ管理方法
US10042410B2 (en) * 2015-06-11 2018-08-07 International Business Machines Corporation Managing data center power consumption
US20160381120A1 (en) * 2015-06-24 2016-12-29 Intel Corporation System for event dissemination
US10365915B2 (en) 2015-10-08 2019-07-30 Lightbend, Inc. Systems and methods of monitoring a network topology
KR101995056B1 (ko) * 2015-12-30 2019-07-02 한국전자통신연구원 분산 파일 시스템 및 이의 운영방법
US10747630B2 (en) 2016-09-30 2020-08-18 Commvault Systems, Inc. Heartbeat monitoring of virtual machines for initiating failover operations in a data storage management system, including operations by a master monitor node
KR102468686B1 (ko) * 2017-01-17 2022-11-22 한국전자통신연구원 대규모 토러스 네트워크에서의 분산 스토리지 시스템을 위한 ip 자동 할당 방법 및 이를 위한 장치
JP6885193B2 (ja) * 2017-05-12 2021-06-09 富士通株式会社 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム
US10261837B2 (en) 2017-06-30 2019-04-16 Sas Institute Inc. Two-part job scheduling with capacity constraints and preferences
EP3502890A1 (en) * 2017-12-22 2019-06-26 Bull SAS Method for managing resources of a computer cluster by means of historical data
US10310896B1 (en) 2018-03-15 2019-06-04 Sas Institute Inc. Techniques for job flow processing
CN110554912B (zh) * 2018-05-31 2022-05-20 杭州海康威视数字技术股份有限公司 调度设备执行任务的方法和装置
US11200124B2 (en) * 2018-12-06 2021-12-14 Commvault Systems, Inc. Assigning backup resources based on failover of partnered data storage servers in a data storage management system
US11099956B1 (en) 2020-03-26 2021-08-24 Commvault Systems, Inc. Snapshot-based disaster recovery orchestration of virtual machine failover and failback operations
CN112559155A (zh) * 2020-12-23 2021-03-26 平安银行股份有限公司 批量作业处理方法、系统、计算机设备及可读存储介质
US11645175B2 (en) 2021-02-12 2023-05-09 Commvault Systems, Inc. Automatic failover of a storage manager
KR20230156416A (ko) * 2021-03-19 2023-11-14 리제너론 파마슈티칼스 인코포레이티드 데이터 파이프라인
US11720348B2 (en) * 2021-04-28 2023-08-08 Red Hat, Inc. Computing node allocation based on build process specifications in continuous integration environments
TR2021022159A2 (tr) * 2021-12-31 2022-01-21 İstanbul Geli̇şi̇m Üni̇versi̇tesi̇ Fpga tabanli hi̇bri̇t sezgi̇sel arama algori̇tmalarina dayali i̇ş siralama ci̇hazi ve algori̇tmasi

Family Cites Families (208)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5969392A (ja) 1982-10-08 1984-04-19 株式会社 彦間製作所 クレ−ン車輌
JPS6224358A (ja) 1985-07-24 1987-02-02 Hitachi Ltd 信号ル−テイングテ−ブル方式
DE8521550U1 (de) 1985-07-26 1985-09-19 Mannesmann Kienzle GmbH, 7730 Villingen-Schwenningen Fahrtschreiber
US4885770A (en) * 1987-09-04 1989-12-05 Digital Equipment Corporation Boot system for distributed digital data processing system
US4868818A (en) * 1987-10-29 1989-09-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Fault tolerant hypercube computer system architecture
US5020059A (en) * 1989-03-31 1991-05-28 At&T Bell Laboratories Reconfigurable signal processor
WO1991014326A2 (en) 1990-03-05 1991-09-19 Massachusetts Institute Of Technology Switching networks with expansive and/or dispersive logical clusters for message routing
US5396635A (en) * 1990-06-01 1995-03-07 Vadem Corporation Power conservation apparatus having multiple power reduction levels dependent upon the activity of the computer system
US5301104A (en) * 1990-08-07 1994-04-05 Honeywell Inc. Method for allocating processing elements interconnected in a hypercube topology
US5590345A (en) 1990-11-13 1996-12-31 International Business Machines Corporation Advanced parallel array processor(APAP)
US5588152A (en) 1990-11-13 1996-12-24 International Business Machines Corporation Advanced parallel processor including advanced support hardware
US5495474A (en) 1991-03-29 1996-02-27 International Business Machines Corp. Switch-based microchannel planar apparatus
US5321813A (en) 1991-05-01 1994-06-14 Teradata Corporation Reconfigurable, fault tolerant, multistage interconnect network and protocol
US5280607A (en) * 1991-06-28 1994-01-18 International Business Machines Corporation Method and apparatus for tolerating faults in mesh architectures
JPH05274178A (ja) 1992-03-25 1993-10-22 Fujitsu Ltd 並列計算機デバッグ結果表示処理方式
US5459857A (en) 1992-05-15 1995-10-17 Storage Technology Corporation Fault tolerant disk array data storage subsystem
CA2106280C (en) * 1992-09-30 2000-01-18 Yennun Huang Apparatus and methods for fault-tolerant computing employing a daemon monitoring process and fault-tolerant library to provide varying degrees of fault tolerance
US5781715A (en) * 1992-10-13 1998-07-14 International Business Machines Corporation Fault-tolerant bridge/router with a distributed switch-over mechanism
US5513313A (en) * 1993-01-19 1996-04-30 International Business Machines Corporation Method for generating hierarchical fault-tolerant mesh architectures
US5729752A (en) 1993-02-19 1998-03-17 Hewlett-Packard Company Network connection scheme
JPH07141305A (ja) 1993-11-16 1995-06-02 Hitachi Ltd 並列計算機の実行制御方法
US5450578A (en) * 1993-12-23 1995-09-12 Unisys Corporation Method and apparatus for automatically routing around faults within an interconnect system
JP3541212B2 (ja) 1993-12-28 2004-07-07 富士通株式会社 プロセッサ割当て装置
DE69519426T2 (de) * 1994-03-22 2001-06-21 Hyperchip Inc Zellenbasierte fehlertolerante Architektur mit vorteilhafter Verwendung der nicht-zugeteilten redundanten Zellen
US6408402B1 (en) * 1994-03-22 2002-06-18 Hyperchip Inc. Efficient direct replacement cell fault tolerant architecture
JPH08227356A (ja) 1994-12-21 1996-09-03 Tec Corp データ処理装置
US5682491A (en) * 1994-12-29 1997-10-28 International Business Machines Corporation Selective processing and routing of results among processors controlled by decoding instructions using mask value derived from instruction tag and processor identifier
US5603044A (en) * 1995-02-08 1997-02-11 International Business Machines Corporation Interconnection network for a multi-nodal data processing system which exhibits incremental scalability
US5872928A (en) * 1995-02-24 1999-02-16 Cabletron Systems, Inc. Method and apparatus for defining and enforcing policies for configuration management in communications networks
US5889953A (en) * 1995-05-25 1999-03-30 Cabletron Systems, Inc. Policy management and conflict resolution in computer networks
JPH09496A (ja) 1995-06-23 1997-01-07 Canon Inc 眼底映像装置
US5805785A (en) * 1996-02-27 1998-09-08 International Business Machines Corporation Method for monitoring and recovery of subsystems in a distributed/clustered system
US6006242A (en) 1996-04-05 1999-12-21 Bankers Systems, Inc. Apparatus and method for dynamically creating a document
US5805786A (en) * 1996-07-23 1998-09-08 International Business Machines Corporation Recovery of a name server managing membership of a domain of processors in a distributed computing environment
US6393581B1 (en) * 1996-08-29 2002-05-21 Cornell Research Foundation, Inc. Reliable time delay-constrained cluster computing
US6009481A (en) 1996-09-30 1999-12-28 Emc Corporation Mass storage system using internal system-level mirroring
JPH10116261A (ja) 1996-10-14 1998-05-06 Hitachi Ltd 並列計算機システムのチェックポイントリスタート方法
KR100207598B1 (ko) 1997-01-27 1999-07-15 윤종용 상호연결망으로서 파이브 채널을 사용한 클러스터시스템
US5933631A (en) * 1997-03-17 1999-08-03 International Business Machines Corporation Dynamic boot filesystem selection
US6029246A (en) * 1997-03-31 2000-02-22 Symantec Corporation Network distributed system for updating locally secured objects in client machines
US5991877A (en) * 1997-04-03 1999-11-23 Lockheed Martin Corporation Object-oriented trusted application framework
US6012092A (en) * 1997-04-30 2000-01-04 International Business Machines Corp. Method and system for managing multi-user data flows in environments having minimal bandwidth and computational resources
US6088330A (en) * 1997-09-09 2000-07-11 Bruck; Joshua Reliable array of distributed computing nodes
US6167502A (en) 1997-10-10 2000-12-26 Billions Of Operations Per Second, Inc. Method and apparatus for manifold array processing
US6230252B1 (en) * 1997-11-17 2001-05-08 Silicon Graphics, Inc. Hybrid hypercube/torus architecture
US6633945B1 (en) * 1997-12-07 2003-10-14 Conexant Systems, Inc. Fully connected cache coherent multiprocessing systems
US5941972A (en) 1997-12-31 1999-08-24 Crossroads Systems, Inc. Storage router and method for providing virtual local storage
US6480927B1 (en) * 1997-12-31 2002-11-12 Unisys Corporation High-performance modular memory system with crossbar connections
US6477663B1 (en) * 1998-04-09 2002-11-05 Compaq Computer Corporation Method and apparatus for providing process pair protection for complex applications
JP3999353B2 (ja) 1998-05-29 2007-10-31 株式会社東芝 コンピュータネットワークにおける通信経路の決定方法ならびにシステム及び同方法がプログラムされ記録される記録媒体
JP3342665B2 (ja) 1998-06-17 2002-11-11 株式会社カスト 表示装置
US6189100B1 (en) * 1998-06-30 2001-02-13 Microsoft Corporation Ensuring the integrity of remote boot client data
US6195760B1 (en) 1998-07-20 2001-02-27 Lucent Technologies Inc Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US6466932B1 (en) * 1998-08-14 2002-10-15 Microsoft Corporation System and method for implementing group policy
JP2000112906A (ja) 1998-10-01 2000-04-21 Mitsubishi Electric Corp クラスタシステム
US6683696B1 (en) * 1998-10-27 2004-01-27 Hewlett-Packard Development Company, L.P. Filter based data imaging method for an image forming device
US6158010A (en) 1998-10-28 2000-12-05 Crosslogix, Inc. System and method for maintaining security in a distributed computer network
US6691165B1 (en) * 1998-11-10 2004-02-10 Rainfinity, Inc. Distributed server cluster for controlling network traffic
US6496941B1 (en) 1998-12-29 2002-12-17 At&T Corp. Network disaster recovery and analysis tool
US6468112B1 (en) 1999-01-11 2002-10-22 Adc Telecommunications, Inc. Vertical cable management system with ribcage structure
US6480972B1 (en) 1999-02-24 2002-11-12 International Business Machines Corporation Data processing system and method for permitting a server to remotely perform diagnostics on a malfunctioning client computer system
US6646984B1 (en) 1999-03-15 2003-11-11 Hewlett-Packard Development Company, L.P. Network topology with asymmetric fabrics
US6453426B1 (en) * 1999-03-26 2002-09-17 Microsoft Corporation Separately storing core boot data and cluster configuration data in a server cluster
US6622233B1 (en) 1999-03-31 2003-09-16 Star Bridge Systems, Inc. Hypercomputer
US6408326B1 (en) * 1999-04-20 2002-06-18 Microsoft Corporation Method and system for applying a policy to binary data
US6792605B1 (en) 1999-06-10 2004-09-14 Bow Street Software, Inc. Method and apparatus for providing web based services using an XML Runtime model to store state session data
KR20010000624U (ko) 1999-06-15 2001-01-15 윤외철 자전거용 절곡형 크랭크
US20040205414A1 (en) 1999-07-26 2004-10-14 Roselli Drew Schaffer Fault-tolerance framework for an extendable computer architecture
US6718486B1 (en) * 2000-01-26 2004-04-06 David E. Lovejoy Fault monitor for restarting failed instances of the fault monitor
US6597956B1 (en) * 1999-08-23 2003-07-22 Terraspring, Inc. Method and apparatus for controlling an extensible computing system
US6415323B1 (en) * 1999-09-03 2002-07-02 Fastforward Networks Proximity-based redirection system for robust and scalable service-node location in an internetwork
US6741983B1 (en) * 1999-09-28 2004-05-25 John D. Birdwell Method of indexed storage and retrieval of multidimensional information
US6571030B1 (en) 1999-11-02 2003-05-27 Xros, Inc. Optical cross-connect switching system
US6629266B1 (en) * 1999-11-17 2003-09-30 International Business Machines Corporation Method and system for transparent symptom-based selective software rejuvenation
US6748437B1 (en) * 2000-01-10 2004-06-08 Sun Microsystems, Inc. Method for creating forwarding lists for cluster networking
US20020103889A1 (en) 2000-02-11 2002-08-01 Thomas Markson Virtual storage layer approach for dynamically associating computer storage with processing hosts
JP3329804B2 (ja) * 2000-02-21 2002-09-30 株式会社東芝 監視制御装置
US6460149B1 (en) * 2000-03-03 2002-10-01 International Business Machines Corporation Suicide among well-mannered cluster nodes experiencing heartbeat failure
AU2001287250A1 (en) 2000-03-22 2001-10-03 Yotta Yotta, Inc. Method and system for providing multimedia information on demand over wide area networks
US6785713B1 (en) 2000-05-08 2004-08-31 Citrix Systems, Inc. Method and apparatus for communicating among a network of servers utilizing a transport mechanism
US6658504B1 (en) 2000-05-16 2003-12-02 Eurologic Systems Storage apparatus
US6865157B1 (en) 2000-05-26 2005-03-08 Emc Corporation Fault tolerant shared system resource with communications passthrough providing high availability communications
US20040034794A1 (en) * 2000-05-28 2004-02-19 Yaron Mayer System and method for comprehensive general generic protection for computers against malicious programs that may steal information and/or cause damages
US6591285B1 (en) 2000-06-16 2003-07-08 Shuo-Yen Robert Li Running-sum adder networks determined by recursive construction of multi-stage networks
US6820171B1 (en) 2000-06-30 2004-11-16 Lsi Logic Corporation Methods and structures for an extensible RAID storage architecture
JP4292693B2 (ja) * 2000-07-07 2009-07-08 株式会社日立製作所 計算機資源分割装置および資源分割方法
US6643764B1 (en) 2000-07-20 2003-11-04 Silicon Graphics, Inc. Multiprocessor system utilizing multiple links to improve point to point bandwidth
US6697914B1 (en) 2000-09-11 2004-02-24 Western Digital Ventures, Inc. Switched node comprising a disk controller with integrated multi-port switching circuitry
US6977927B1 (en) 2000-09-18 2005-12-20 Hewlett-Packard Development Company, L.P. Method and system of allocating storage resources in a storage area network
US7061907B1 (en) 2000-09-26 2006-06-13 Dell Products L.P. System and method for field upgradeable switches built from routing components
US7032119B2 (en) * 2000-09-27 2006-04-18 Amphus, Inc. Dynamic power and workload management for multi-server system
JP2002108839A (ja) 2000-09-28 2002-04-12 Mitsubishi Electric Corp 通信ネットワークシステム、ジョブ割当方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20010000624A (ko) 2000-10-10 2001-01-05 최은석 고성능 컴퓨터를 이용한 연산기능 제공방법
US7428583B1 (en) * 2000-10-31 2008-09-23 Intel Corporation Network policy distribution
US7055148B2 (en) * 2000-12-07 2006-05-30 Hewlett-Packard Development Company, L.P. System and method for updating firmware
US6792507B2 (en) 2000-12-14 2004-09-14 Maxxan Systems, Inc. Caching system and method for a network storage system
US6735660B1 (en) * 2000-12-21 2004-05-11 International Business Machines Corporation Sideband signal transmission between host and input/output adapter
WO2002065309A1 (en) 2001-02-13 2002-08-22 Candera, Inc. System and method for policy based storage provisioning and management
CN1311376C (zh) 2001-02-24 2007-04-18 国际商业机器公司 一种计算结构和计算系统
JP4524073B2 (ja) 2001-02-24 2010-08-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 動的再分割を介するスーパーコンピュータでのフォールト・トレランス
US7107337B2 (en) * 2001-06-07 2006-09-12 Emc Corporation Data storage system with integrated switching
US6728736B2 (en) 2001-03-14 2004-04-27 Storage Technology Corporation System and method for synchronizing a data copy using an accumulation remote copy trio
US6952766B2 (en) * 2001-03-15 2005-10-04 International Business Machines Corporation Automated node restart in clustered computer system
US7028228B1 (en) * 2001-03-28 2006-04-11 The Shoregroup, Inc. Method and apparatus for identifying problems in computer networks
US6918051B2 (en) 2001-04-06 2005-07-12 International Business Machines Corporation Node shutdown in clustered computer system
US6820221B2 (en) * 2001-04-13 2004-11-16 Hewlett-Packard Development Company, L.P. System and method for detecting process and network failures in a distributed system
US7231430B2 (en) * 2001-04-20 2007-06-12 Egenera, Inc. Reconfigurable, virtual processing system, cluster, network and method
US7035928B2 (en) 2001-04-25 2006-04-25 Hewlett-Packard Development Company, L.P. Allocating computer resources for efficient use by a program
US20020159456A1 (en) 2001-04-27 2002-10-31 Foster Michael S. Method and system for multicasting in a routing device
US6675264B2 (en) * 2001-05-07 2004-01-06 International Business Machines Corporation Method and apparatus for improving write performance in a cluster-based file system
US6996674B2 (en) 2001-05-07 2006-02-07 International Business Machines Corporation Method and apparatus for a global cache directory in a storage cluster
US6587921B2 (en) 2001-05-07 2003-07-01 International Business Machines Corporation Method and apparatus for cache synchronization in a clustered environment
US20030063839A1 (en) 2001-05-11 2003-04-03 Scott Kaminski Fault isolation of individual switch modules using robust switch architecture
US7155512B2 (en) 2001-05-23 2006-12-26 Tekelec Methods and systems for automatically configuring network monitoring system
US8010558B2 (en) * 2001-06-05 2011-08-30 Silicon Graphics International Relocation of metadata server with outstanding DMAPI requests
US6950833B2 (en) * 2001-06-05 2005-09-27 Silicon Graphics, Inc. Clustered filesystem
JP2003009412A (ja) 2001-06-27 2003-01-10 Meidensha Corp 積層型電気二重層キャパシタ用極性反転装置
US6988193B2 (en) * 2001-06-28 2006-01-17 International Business Machines Corporation System and method for creating a definition for a target device based on an architecture configuration of the target device at a boot server
US8032625B2 (en) * 2001-06-29 2011-10-04 International Business Machines Corporation Method and system for a network management framework with redundant failover methodology
US20030005039A1 (en) * 2001-06-29 2003-01-02 International Business Machines Corporation End node partitioning using local identifiers
GB0116310D0 (en) 2001-07-04 2001-08-29 New Transducers Ltd Contact sensitive device
SE0102405D0 (sv) 2001-07-04 2001-07-04 Software Run Ab A system and a method for selecting a preconfigured operating system for a server
US7139267B2 (en) 2002-03-05 2006-11-21 Industrial Technology Research Institute System and method of stacking network switches
US7065764B1 (en) * 2001-07-20 2006-06-20 Netrendered, Inc. Dynamically allocated cluster system
US6944785B2 (en) 2001-07-23 2005-09-13 Network Appliance, Inc. High-availability cluster virtual server system
US7016299B2 (en) * 2001-07-27 2006-03-21 International Business Machines Corporation Network node failover using path rerouting by manager component or switch port remapping
AU2002313583A1 (en) 2001-08-01 2003-02-17 Actona Technologies Ltd. Virtual file-sharing network
EP1283464A1 (en) * 2001-08-06 2003-02-12 Hewlett-Packard Company A boot process for a computer, a boot ROM and a computer having a boot ROM
US6922791B2 (en) * 2001-08-09 2005-07-26 Dell Products L.P. Failover system and method for cluster environment
JP2003099412A (ja) 2001-09-21 2003-04-04 Hitachi Eng Co Ltd 超並列コンピュータ
US6976134B1 (en) 2001-09-28 2005-12-13 Emc Corporation Pooling and provisioning storage resources in a storage network
US7185062B2 (en) 2001-09-28 2007-02-27 Emc Corporation Switch-based storage services
US7340555B2 (en) 2001-09-28 2008-03-04 Dot Hill Systems Corporation RAID system for performing efficient mirrored posted-write operations
US7073053B1 (en) * 2001-10-11 2006-07-04 Cisco Technology, Inc. Method and apparatus for a boot progression scheme for reliably initializing a system
GB2381713A (en) * 2001-11-01 2003-05-07 3Com Corp Failover mechanism involving blocking of access of a malfunctioning server and continuing monitoring to enable unblocking of access if server recovers
US7127633B1 (en) 2001-11-15 2006-10-24 Xiotech Corporation System and method to failover storage area network targets from one interface to another
US6904482B2 (en) * 2001-11-20 2005-06-07 Intel Corporation Common boot environment for a modular server system
US7055056B2 (en) 2001-11-21 2006-05-30 Hewlett-Packard Development Company, L.P. System and method for ensuring the availability of a storage system
JP2003162515A (ja) 2001-11-22 2003-06-06 Fujitsu Ltd クラスタシステム
US7574496B2 (en) 2001-11-30 2009-08-11 Surgient, Inc. Virtual server cloud interfacing
EP1318453A1 (en) 2001-12-07 2003-06-11 Hewlett-Packard Company Scheduling system, method and apparatus for a cluster
CA2365729A1 (en) * 2001-12-20 2003-06-20 Platform Computing (Barbados) Inc. Topology aware scheduling for a multiprocessor system
US7046687B1 (en) * 2002-01-16 2006-05-16 Tau Networks Configurable virtual output queues in a scalable switching system
US6918063B2 (en) * 2002-02-04 2005-07-12 International Business Machines Corporation System and method for fault tolerance in multi-node system
US7093004B2 (en) * 2002-02-04 2006-08-15 Datasynapse, Inc. Using execution statistics to select tasks for redundant assignment in a distributed computing platform
US7376693B2 (en) 2002-02-08 2008-05-20 Jp Morgan Chase & Company System architecture for distributed computing and method of using the system
US7640547B2 (en) * 2002-02-08 2009-12-29 Jpmorgan Chase & Co. System and method for allocating computing resources of a distributed computing system
JP2003237423A (ja) 2002-02-19 2003-08-27 Kubota Corp 農用作業車
DE10214067B4 (de) * 2002-03-28 2010-01-21 Advanced Micro Devices, Inc., Sunnyvale Integrierter Schaltkreischip mit Hochgeschwindigkeitsdatenschnittstelle sowie zugehöriges Southbridgebauelement und Verfahren
US7043539B1 (en) * 2002-03-29 2006-05-09 Terraspring, Inc. Generating a description of a configuration for a virtual network system
US7406038B1 (en) 2002-04-05 2008-07-29 Ciphermax, Incorporated System and method for expansion of computer network switching system without disruption thereof
US7139798B2 (en) 2002-05-17 2006-11-21 Groove Networks, Inc. Method and apparatus for connecting a secure peer-to-peer collaboration system to an external system
US20030233427A1 (en) 2002-05-29 2003-12-18 Hitachi, Ltd. System and method for storage network management
US7161904B2 (en) 2002-06-04 2007-01-09 Fortinet, Inc. System and method for hierarchical metering in a virtual router based network switch
JP4250919B2 (ja) 2002-06-21 2009-04-08 株式会社三洋物産 遊技機
JP3932994B2 (ja) 2002-06-25 2007-06-20 株式会社日立製作所 サーバ引継システムおよびその方法
US20040148376A1 (en) 2002-06-28 2004-07-29 Brocade Communications Systems, Inc. Storage area network processing device
DE10234992A1 (de) * 2002-07-31 2004-02-19 Advanced Micro Devices, Inc., Sunnyvale Retry-Mechanismus für blockierende Schnittstellen
US7765299B2 (en) 2002-09-16 2010-07-27 Hewlett-Packard Development Company, L.P. Dynamic adaptive server provisioning for blade architectures
US7127597B2 (en) * 2002-09-24 2006-10-24 Novell, Inc. Mechanism for controlling boot decisions from a network policy directory based on client profile information
JP2004126968A (ja) 2002-10-03 2004-04-22 Fujitsu Ltd 並列計算機のジョブスケジューリング装置
IL152676A0 (en) 2002-11-06 2003-06-24 Teracross Ltd Method and apparatus for high performance single block scheduling in distributed systems
US7219345B2 (en) 2002-12-17 2007-05-15 Hewlett-Packard Development Company, L.P. System and method for terminating processes in a distributed computing system
US7039765B1 (en) 2002-12-19 2006-05-02 Hewlett-Packard Development Company, L.P. Techniques for cache memory management using read and write operations
US7117306B2 (en) 2002-12-19 2006-10-03 Intel Corporation Mitigating access penalty of a semiconductor nonvolatile memory
JP4037257B2 (ja) 2002-12-26 2008-01-23 株式会社日立製作所 情報処理システムの制御方法、情報処理システム、及びプログラム
US7245617B2 (en) 2003-02-07 2007-07-17 Fujitsu Limited Queuing packets written to memory for switching
US6941396B1 (en) 2003-02-19 2005-09-06 Istor Networks, Inc. Storage controller redundancy using bi-directional reflective memory channel
US20040210656A1 (en) * 2003-04-16 2004-10-21 Silicon Graphics, Inc. Failsafe operation of storage area network
US7287179B2 (en) * 2003-05-15 2007-10-23 International Business Machines Corporation Autonomic failover of grid-based services
US7287137B2 (en) 2003-06-06 2007-10-23 Hewlett-Packard Development Company, L.P. Batched, asynchronous data redundancy technique
US7007125B2 (en) 2003-06-24 2006-02-28 International Business Machines Corporation Pass through circuit for reduced memory latency in a multiprocessor system
US7379983B2 (en) * 2003-06-25 2008-05-27 International Business Machines Corporation Merging scalable nodes into single-partition merged system using service processors of nodes
US7299334B2 (en) 2003-07-15 2007-11-20 Xiv Ltd. Storage system configurations
US7644153B2 (en) * 2003-07-31 2010-01-05 Hewlett-Packard Development Company, L.P. Resource allocation management in interactive grid computing systems
US7483374B2 (en) 2003-08-05 2009-01-27 Scalent Systems, Inc. Method and apparatus for achieving dynamic capacity and high availability in multi-stage data networks using adaptive flow-based routing
US7487235B2 (en) 2003-09-24 2009-02-03 Dell Products L.P. Dynamically varying a raid cache policy in order to optimize throughput
US7984108B2 (en) * 2003-10-08 2011-07-19 Unisys Corporation Computer system para-virtualization using a hypervisor that is implemented in a partition of the host system
US7207039B2 (en) * 2003-12-24 2007-04-17 Intel Corporation Secure booting and provisioning
US7693991B2 (en) 2004-01-16 2010-04-06 International Business Machines Corporation Virtual clustering and load balancing servers
JP4441286B2 (ja) 2004-02-10 2010-03-31 株式会社日立製作所 ストレージシステム
US7527155B2 (en) 2004-02-11 2009-05-05 International Business Machines Corporation Apparatus and system for vertically storing computing devices
US7685597B1 (en) * 2004-02-20 2010-03-23 Sun Microsystems, Inc. System and method for management of characterized resources
US8484348B2 (en) * 2004-03-05 2013-07-09 Rockstar Consortium Us Lp Method and apparatus for facilitating fulfillment of web-service requests on a communication network
JP4147198B2 (ja) 2004-03-23 2008-09-10 株式会社日立製作所 ストレージシステム
US20050256942A1 (en) * 2004-03-24 2005-11-17 Mccardle William M Cluster management system and method
US8190714B2 (en) * 2004-04-15 2012-05-29 Raytheon Company System and method for computer cluster virtualization using dynamic boot images and virtual disk
US8336040B2 (en) 2004-04-15 2012-12-18 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US9178784B2 (en) * 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
US20050235055A1 (en) * 2004-04-15 2005-10-20 Raytheon Company Graphical user interface for managing HPC clusters
US8335909B2 (en) * 2004-04-15 2012-12-18 Raytheon Company Coupling processors to each other for high performance computing (HPC)
US7711977B2 (en) * 2004-04-15 2010-05-04 Raytheon Company System and method for detecting and managing HPC node failure
US7484247B2 (en) 2004-08-07 2009-01-27 Allen F Rozman System and method for protecting a computer system from malicious software
JP2006065697A (ja) 2004-08-27 2006-03-09 Hitachi Ltd 記憶デバイス制御装置
US8244882B2 (en) * 2004-11-17 2012-08-14 Raytheon Company On-demand instantiation in a high-performance computing (HPC) system
US7433931B2 (en) * 2004-11-17 2008-10-07 Raytheon Company Scheduling in a high-performance computing (HPC) system
US7475274B2 (en) * 2004-11-17 2009-01-06 Raytheon Company Fault tolerance and recovery in a high-performance computing (HPC) system
JP4457019B2 (ja) 2005-01-05 2010-04-28 富士通株式会社 情報処理システム及び一次ストレージ装置
US7386662B1 (en) 2005-06-20 2008-06-10 Symantec Operating Corporation Coordination of caching and I/O management in a multi-layer virtualized storage environment
ATE392097T1 (de) 2005-06-20 2008-04-15 Alcatel Lucent Fehlertolerante schaltmatrix mit einer ebene für ein telekommunikationssystem
US20070038749A1 (en) 2005-07-29 2007-02-15 Broadcom Corporation Combined local and network storage interface
JP2007141305A (ja) 2005-11-16 2007-06-07 Hitachi Global Storage Technologies Netherlands Bv 磁気ディスク装置
US7720377B2 (en) 2006-01-23 2010-05-18 Hewlett-Packard Development Company, L.P. Compute clusters employing photonic interconnections for transmitting optical signals between compute cluster nodes
US20070253437A1 (en) 2006-04-28 2007-11-01 Ramesh Radhakrishnan System and method for intelligent information handling system cluster switches
US20080101395A1 (en) 2006-10-30 2008-05-01 Raytheon Company System and Method for Networking Computer Clusters
US8160061B2 (en) 2006-12-29 2012-04-17 Raytheon Company Redundant network shared switch
ATE492846T1 (de) 2007-01-03 2011-01-15 Raytheon Co Computerspeichersystem
JP6224358B2 (ja) 2013-06-14 2017-11-01 株式会社Nttドコモ 無線基地局、ユーザ端末及び無線通信方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Non-contiguous processor allocation algorithms for distributedmemory ulticomputers. WANQIAN LIU ET AL.SUPERCOMPUTING '94., PROCEEDINGS WASHINGTON, DC, USA 14-18 NOV. 1994, LOS LAMITOS, CA, USA,IEEE COMPUT. SOC, 14. 1994
Non-contiguous processor allocation algorithms for distributedmemory ulticomputers. WANQIAN LIU ET AL.SUPERCOMPUTING '94., PROCEEDINGS WASHINGTON, DC, USA 14-18 NOV. 1994, LOS LAMITOS, CA, USA,IEEE COMPUT. SOC, 14. 1994 *
Performance Improvement of Allocation Schemes forMesh-Connected Computers. CHANG C-Y ET AL.JOURNAL OF PARALLEL AND DISTRIBUTED COMPUTING, ACADEMIC PRESS, DULUTH, MN, US,Vol.vol.52 No.no.1. 1998
Performance Improvement of Allocation Schemes forMesh-Connected Computers. CHANG C-Y ET AL.JOURNAL OF PARALLEL AND DISTRIBUTED COMPUTING, ACADEMIC PRESS, DULUTH, MN, US,Vol.vol.52 No.no.1. 1998 *
Scheduling in HPC Resource Management Systems:Queuingvs. Planning. Hovestadt et al.Proceedings of the 9th Workshop on Job Scheduling Strategies for Parallel Processing. 2003
Scheduling in HPC Resource Management Systems:Queuingvs. Planning. Hovestadt et al.Proceedings of the 9th Workshop on Job Scheduling Strategies for Parallel Processing. 2003 *

Also Published As

Publication number Publication date
TW200617694A (en) 2006-06-01
US9904583B2 (en) 2018-02-27
WO2005106663A1 (en) 2005-11-10
US20160132361A1 (en) 2016-05-12
US20170177418A1 (en) 2017-06-22
EP3267309A1 (en) 2018-01-10
US20130311998A1 (en) 2013-11-21
JP2005310139A (ja) 2005-11-04
US9189278B2 (en) 2015-11-17
US8336040B2 (en) 2012-12-18
US8984525B2 (en) 2015-03-17
IL178606A (en) 2012-05-31
MY150399A (en) 2014-01-15
US20130304895A1 (en) 2013-11-14
US9928114B2 (en) 2018-03-27
CA2503777A1 (en) 2005-10-15
CA2503777C (en) 2011-10-04
US20140047092A1 (en) 2014-02-13
CN1770109A (zh) 2006-05-10
WO2005106663A8 (en) 2006-02-16
US9594600B2 (en) 2017-03-14
US20130104138A1 (en) 2013-04-25
EP1582981A1 (en) 2005-10-05
US20140047449A1 (en) 2014-02-13
US11093298B2 (en) 2021-08-17
US20140040912A1 (en) 2014-02-06
US9189275B2 (en) 2015-11-17
US10621009B2 (en) 2020-04-14
IL178606A0 (en) 2007-02-11
US20050235286A1 (en) 2005-10-20
KR20070006906A (ko) 2007-01-11
US8910175B2 (en) 2014-12-09
US20180121253A1 (en) 2018-05-03
TWI272502B (en) 2007-02-01
US20200301749A1 (en) 2020-09-24

Similar Documents

Publication Publication Date Title
CN100562852C (zh) 在hpc环境下的拓扑认识作业调度和回填的系统和方法
CN1704921B (zh) 高性能计算系统和方法
JP4833965B2 (ja) Hpcアーキテクチャに基づいたクラスタ管理のシステム及び方法
JP4986844B2 (ja) Hpcノード障害の検出及び管理を行うシステム及び方法
US20050235055A1 (en) Graphical user interface for managing HPC clusters

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant