Slurm Workload Manager

Slurm is an open-source workload manager designed for Linux clusters of all sizes.
Slurmは、あらゆる規模のLinuxクラスター用に設計されたオープンソースのワークロードマネージャーです。
It provides three key functions.
3つの主要な機能を提供します。
First it allocates exclusive and/or non-exclusive access to resources (computer nodes) to users for some duration of time so they can perform work.
まず、リソース(コンピューターノード)への排他的アクセスまたは非排他的アクセスを一定期間ユーザーに割り当て、ユーザーが作業を行えるようにします。
Second, it provides a framework for starting, executing, and monitoring work (typically a parallel job) on a set of allocated nodes.
次に、割り当てられたノードのセットで作業(通常は並列ジョブ)を開始、実行、および監視するためのフレームワークを提供します。
Finally, it arbitrates contention for resources by managing a queue of pending work.
最後に、保留中の作業のキューを管理することにより、リソースの競合を調停します。

Slurm's design is very modular with dozens of optional plugins.
Slurmのデザインは非常にモジュール化されており、数十のオプションのプラグインを備えています。
In its simplest configuration, it can be installed and configured in a couple of minutes (see Caos NSA and Perceus: All-in-one Cluster Software Stack by Jeffrey B. Layton).
最も単純な構成では、数分でインストールおよび構成できます(Caos NSAおよびPerceus:Jeffrey B. Laytonによるオールインワンクラスターソフトウェアスタックを参照)。
More complex configurations can satisfy the job scheduling needs of world-class computer centers and rely upon a MySQL database for archiving accounting records, managing resource limits by user or bank account, or supporting sophisticated job prioritization algorithms.
より複雑な構成は、世界クラスのコンピューターセンターのジョブスケジュールのニーズを満たし、アカウンティングレコードのアーカイブ、ユーザーまたは銀行口座によるリソース制限の管理、高度なジョブ優先順位付けアルゴリズムのサポートをMySQLデータベースに依存できます。

While other workload managers do exist, Slurm is unique in several respects:
他のワークロードマネージャーは存在しますが、Slurmはいくつかの点で独特です。

  • Scalability: It is designed to operate in a heterogeneous cluster with up to tens of millions of processors.
    スケーラビリティ:最大数千万のプロセッサを備えた異種クラスタで動作するように設計されています。
  • Performance: It can accept 1,000 job submissions per second and fully execute 500 simple jobs per second (depending upon hardware and system configuration).
    パフォーマンス:1秒あたり1,000個のジョブ送信を受け入れ、1秒あたり500個の単純なジョブを完全に実行できます(ハードウェアとシステム構成によって異なります)。
  • Free and Open Source: Its source code is freely available under the GNU General Public License.
    フリーでオープンソース:そのソースコードは、GNU General Public Licenseの下で自由に利用できます。
  • Portability: Written in C with a GNU autoconf configuration engine.
    移植性:GNU autoconf構成エンジンを使用してCで記述されています。
    While initially written for Linux, Slurm has been ported to a diverse assortment of systems.
    Slurmは当初Linux用に作成されましたが、さまざまな種類のシステムに移植されています。
  • Power Management: Job can specify their desired CPU frequency and power use by job is recorded. Idle resources can be powered down until needed.
    電源管理:ジョブは希望するCPU周波数を指定でき、ジョブによる電力使用量が記録されます。アイドルリソースは、必要になるまで電源を切ることができます。
  • Fault Tolerant: It is highly tolerant of system failures, including failure of the node executing its control functions.
    フォールトトレラント:これは、制御機能を実行するノードの障害を含む、システム障害に対する耐性が非常に高くなります。
  • Flexibility: A plugin mechanism exists to support various interconnects, authentication mechanisms, schedulers, etc. These plugins are documented and simple enough for the motivated end user to understand the source and add functionality.
    柔軟性:プラグインメカニズムは、さまざまな相互接続、認証メカニズム、スケジューラーなどをサポートするために存在します。これらのプラグインは文書化され、やる気のあるエンドユーザーがソースを理解して機能を追加するのに十分簡単です。
  • Resizable Jobs: Jobs can grow and shrink on demand. Job submissions can specify size and time limit ranges.
    サイズ変更可能なジョブ:ジョブは必要に応じて拡大および縮小できます。ジョブの送信では、サイズと時間制限の範囲を指定できます。
  • Status Jobs: Status running jobs at the level of individual tasks to help identify load imbalances and other anomalies.
    ステータスジョブ:個々のタスクのレベルで実行中のジョブのステータスを確認して、負荷の不均衡やその他の異常を特定します。

Slurm provides workload management on many of the most powerful computers in the world. On the November 2013 Top500 list, five of the ten top systems use Slurm including the number one system.
Slurmは、世界で最も強力なコンピューターの多くでワークロード管理を提供します。2013年11月のTop500リストでは、トップ10のシステムのうち5つが、ナンバー1のシステムを含むSlurmを使用しています。
These five systems alone contain over 5.7 million cores.
これらの5つのシステムだけで570万以上のコアが含まれています。
A few of the systems using Slurm are listed below:
Slurmを使用するシステムのいくつかを以下に示します。

  • Tianhe-2 designed by The National University of Defense Technology (NUDT) in China has 16,000 nodes, each with two Intel Xeon IvyBridge processors and three Xeon Phi processors for a total of 3.1 million cores and a peak performance of 33.86 Petaflops.
    中国の国立防衛技術大学(NUDT)によって設計されたTianhe-2は16,000のノードを持ち、それぞれに2つのIntel Xeon IvyBridgeプロセッサーと3つのXeon Phiプロセッサーがあり、合計で310万コア、ピークパフォーマンスは33.86ペタフロップスです。
  • Sequoia, an IBM BlueGene/Q system at Lawrence Livermore National Laboratory with 1.6 petabytes of memory, 96 racks, 98,304 compute nodes, and 1.6 million cores, with a peak performance of over 17.17 Petaflops.
    セコイアは、ローレンスリバモア国立研究所のIBM BlueGene / Qシステムで、1.6ペタバイトのメモリ、96ラック、98,304計算ノード、160万コアを備え、ピークパフォーマンスは17.17ペタフロップスを超えます。
  • Piz Daint a Cray XC30 system at the Swiss National Supercomputing Centre with 28 racks and 5,272 hybrid compute nodes each with an Intel Xeon E5-2670 CPUs plus an NVIDIA Tesla K20X GPUs for a total of 115,984 compute cores and a peak performance of 6.27 Petaflops.
    スイス国立スーパーコンピューティングセンターにあるPiz Daint a Cray XC30システム。それぞれ28ラックと5,272ハイブリッドコンピューティングノードを備え、それぞれIntel Xeon E5-2670 CPUとNVIDIA Tesla K20X GPUを備え、合計115,984の計算コアと6.27ペタフロップスのピークパフォーマンスを実現します。
  • Stampede at the Texas Advanced Computing Center/University of Texas is a Dell with over 80,000 Intel Xeon cores, Intel Phi co-processors, plus 128 NVIDIA GPUs delivering 5.17 Petaflops.
    Texas Advanced Computing Center / University of TexasのStampedeは、80,000以上のIntel Xeonコア、Intel Phiコプロセッサ、および5.17ペタフロップスを提供する128のNVIDIA GPUを搭載したDellです。
  • TGCC Curie, owned by GENCI and operated in the TGCC by CEA, Curie is offering 3 different fractions of x86-64 computing resources for addressing a wide range of scientific challenges and offering an aggregate peak performance of 2 PetaFlops.
    GENCIが所有し、CEAがTGCCで運用するTGCC Curieは、x86-64コンピューティングリソースの3つの異なる部分を提供し、幅広い科学的課題に対処し、2ペタフロップスの合計ピークパフォーマンスを提供します。
  • Tera 100 at CEA with 140,000 Intel Xeon 7500 processing cores, 300TB of central memory and a theoretical computing power of 1.25 Petaflops.
    140,000 Intel Xeon 7500プロセッシングコア、300TBの中央メモリ、1.25ペタフロップスの理論的計算能力を備えたCEAのTera 100。
  • Lomonosov, a T-Platforms system at Moscow State University Research Computing Center with 52,168 Intel Xeon processing cores and 8,840 NVIDIA GPUs.
    52,168個のIntel Xeonプロセッシングコアと8,840個のNVIDIA GPUを搭載したモスクワ州立大学リサーチコンピューティングセンターのTプラットフォームシステムであるLomonosov。
  • LOEWE-CSC, a combined CPU-GPU Linux cluster at The Center for Scientific Computing (CSC) of the Goethe University Frankfurt, Germany, with 20,928 AMD Magny-Cours CPU cores (176 Teraflops peak performance) plus 778 ATI Radeon 5870 GPUs (2.1 Petaflops peak performance single precision and 599 Teraflops double precision) and QDR Infiniband interconnect.
    ドイツ、フランクフルト、ゲーテ大学の科学的コンピューティングセンター(CSC)にある統合CPU-GPU LinuxクラスターであるLOEWE-CSCは、20,928個のAMD Magny-Cours CPUコア(176テラフロップスのピークパフォーマンス)と778 ATI Radeon 5870 GPU(2.1ペタフロップスピークパフォーマンス単精度および599テラフロップス倍精度)およびQDR Infiniband相互接続。

Last modified 24 November 2013