slurm.conf
Section: Slurm Configuration File (5)Updated: Slurm Configuration File
Index
NAME
slurm.conf - Slurm configuration fileslurm.conf-Slurm構成ファイル
DESCRIPTION
slurm.conf is an ASCII file which describes general Slurm configuration information, the nodes to be managed, information about how those nodes are grouped into partitions, and various scheduling parameters associated with those partitions.slurm.confは、一般的なSlurm構成情報、管理対象のノード、それらのノードをパーティションにグループ化する方法に関する情報、およびそれらのパーティションに関連付けられたさまざまなスケジューリングパラメータを記述したASCIIファイルです。
This file should be consistent across all nodes in the cluster.
このファイルは、クラスター内のすべてのノードで一貫している必要があります。
The file location can be modified at system build time using the
DEFAULT_SLURM_CONF parameter or at execution time by setting the SLURM_CONF
environment variable.
ファイルの場所は、システム構築時にDEFAULT_SLURM_CONFパラメータを使用して変更するか、実行時にSLURM_CONF環境変数を設定して変更できます。
The Slurm daemons also allow you to override
both the built-in and environment-provided location using the "-f"
option on the command line.
Slurmデーモンでは、コマンドラインで「-f」オプションを使用して、組み込みロケーションと環境提供ロケーションの両方をオーバーライドできます。
The contents of the file are case insensitive except for the names of nodes
and partitions.
ファイルの内容は、ノードとパーティションの名前を除いて、大文字と小文字を区別しません。
Any text following a "#" in the configuration file is treated
as a comment through the end of that line.
構成ファイルで「#」に続くテキストは、その行の終わりまでコメントとして扱われます。
Changes to the configuration file take effect upon restart of
Slurm daemons, daemon receipt of the SIGHUP signal, or execution
of the command "scontrol reconfigure" unless otherwise noted.
特に明記されていない限り、構成ファイルへの変更は、Slurmデーモンの再起動、SIGHUPシグナルのデーモン受信、またはコマンド「scontrol reconfigure」の実行時に有効になります。
If a line begins with the word "Include" followed by whitespace
and then a file name, that file will be included inline with the current
configuration file.
行が「インクルード」という単語で始まり、その後に空白とファイル名が続く場合、そのファイルは現在の構成ファイルにインラインで組み込まれます。
For large or complex systems, multiple configuration files
may prove easier to manage and enable reuse of some files (See INCLUDE
MODIFIERS for more details).
大規模または複雑なシステムの場合、複数の構成ファイルを使用すると、管理が容易になり、一部のファイルを再利用できるようになります(詳細については、インクルードモディファイヤを参照してください)。
Note on file permissions:
ファイルの権限に関する注意:
The slurm.conf file must be readable by all users of Slurm, since it
is used by many of the Slurm commands.
slurm.confファイルは、多くのSlurmコマンドで使用されるため、Slurmのすべてのユーザーが読み取り可能である必要があります。
Other files that are defined
in the slurm.conf file, such as log files and job accounting files,
may need to be created/owned by the user "SlurmUser" to be successfully
accessed.
ログファイルやジョブアカウンティングファイルなど、slurm.confファイルで定義されている他のファイルを正常にアクセスするには、ユーザー「SlurmUser」が作成または所有する必要がある場合があります。
Use the "chown" and "chmod" commands to set the ownership
and permissions appropriately.
「chown」および「chmod」コマンドを使用して、所有権と権限を適切に設定します。
See the section FILE AND DIRECTORY PERMISSIONS for information
about the various files and directories used by Slurm.
Slurmで使用されるさまざまなファイルとディレクトリの詳細については、「ファイルとディレクトリの権限」を参照してください。
PARAMETERS
The overall configuration parameters available include:
利用可能な全体的な構成パラメータは次のとおりです。
- AccountingStorageBackupHost
-
The name of the backup machine hosting the accounting storage database.
アカウンティングストレージデータベースをホストしているバックアップマシンの名前。
If used with the accounting_storage/slurmdbd plugin, this is where the backup slurmdbd would be running.
accounting_storage / slurmdbdプラグインと一緒に使用する場合、ここでバックアップslurmdbdが実行されます。
Only used with systems using SlurmDBD, ignored otherwise.
SlurmDBDを使用するシステムでのみ使用され、それ以外は無視されます。
- AccountingStorageEnforce
-
This controls what level of association-based enforcement to impose
on job submissions.
これは、ジョブ送信に課す関連付けベースの強制のレベルを制御します。
Valid options are any combination of associations, limits, nojobs, nosteps, qos, safe, and wckeys, or all for all things (expect nojobs and nosteps, they must be requested as well).
有効なオプションは、関連付け、制限、nojobs、nosteps、qos、safe、およびwckeysの任意の組み合わせ、またはすべてのものに対するものです(nojobsとnostepsが必要です。これらも要求する必要があります)。
If limits, qos, or wckeys are set, associations will automatically be set.
制限、qos、またはwckeysが設定されている場合、関連付けは自動的に設定されます。
If wckeys is set, TrackWCKey will automatically be set.
wckeysが設定されている場合、TrackWCKeyは自動的に設定されます。
If safe is set, limits and associations will automatically be set.
安全が設定されている場合、制限と関連付けは自動的に設定されます。
If nojobs is set nosteps will automatically be set.
nojobsが設定されている場合、nostepsが自動的に設定されます。
By enforcing Associations no new job is allowed to run unless a corresponding association exists in the system.
アソシエーションを実施することにより、対応するアソシエーションがシステムに存在しない限り、新しいジョブの実行は許可されません。
If limits are enforced users can be limited by association to whatever job size or run time limits are defined.
制限が適用されている場合、ユーザーは関連付けによって、定義されているジョブサイズまたはランタイム制限に制限できます。
If nojobs is set Slurm will not account for any jobs or steps on the system, like wise if nosteps is set Slurm will not account for any steps ran limits will still be enforced.
nojobsが設定されている場合、Slurmはシステム上のジョブやステップを考慮しません。同様に、nostepsが設定されている場合、Slurmはステップを考慮しません。実行制限は引き続き適用されます。
If safe is enforced, a job will only be launched against an association or qos that has a GrpTRESMins limit set if the job will be able to run to completion.
安全が強制されている場合、ジョブは、ジョブが完了まで実行できる場合、GrpTRESMins制限が設定されている関連付けまたはQoSに対してのみ起動されます。
Without this option set, jobs will be launched as long as their usage hasn't reached the cpu-minutes limit which can lead to jobs being launched but then killed when the limit is reached.
このオプションが設定されていない場合、使用量がcpu-分の制限に達していない限りジョブが起動され、ジョブが起動される可能性がありますが、制限に達すると強制終了されます。
With qos and/or wckeys enforced jobs will not be scheduled unless a valid qos and/or workload characterization key is specified.
qosまたはwckeys、あるいはその両方を使用すると、有効なqosおよび/またはワークロードの特性化キーが指定されない限り、強制されたジョブはスケジュールされません。
When AccountingStorageEnforce is changed, a restart of the slurmctld daemon is required (not just a "scontrol reconfig").
AccountingStorageEnforceを変更すると、slurmctldデーモンの再起動が必要になります(「scontrol reconfig」だけではありません)。
- AccountingStorageExternalHost
-
A comma separated list of external slurmdbds (<host/ip>[:port][,...]) to
register with.
登録する外部slurmdbds(<host / ip> [:port] [、...])のコンマ区切りリスト。
If no port is given, the AccountingStoragePort will be used.
ポートが指定されていない場合、AccountingStoragePortが使用されます。
This allows clusters registered with the external slurmdbd to communicate with each other using the --cluster/-M client command options.
これにより、外部のslurmdbdに登録されたクラスターが--cluster / -Mクライアントコマンドオプションを使用して相互に通信できるようになります。
The cluster will add itself to the external slurmdbd if it doesn't exist.
クラスターが存在しない場合、クラスターはそれを外部slurmdbdに追加します。
If a non-external cluster already exists on the external slurmdbd, the slurmctld will ignore registering to the external slurmdbd.
非外部クラスターが外部slurmdbdにすでに存在する場合、slurmctldは外部slurmdbdへの登録を無視します。
- AccountingStorageHost
-
The name of the machine hosting the accounting storage database.
アカウンティングストレージデータベースをホストしているマシンの名前。
Only used with systems using SlurmDBD, ignored otherwise.
SlurmDBDを使用するシステムでのみ使用され、それ以外は無視されます。
Also see DefaultStorageHost.
DefaultStorageHostも参照してください。
- AccountingStorageLoc
-
The fully qualified file name where accounting records are written
when the AccountingStorageType is "accounting_storage/filetxt".
AccountingStorageTypeが "accounting_storage / filetxt"の場合にアカウンティングレコードが書き込まれる完全修飾ファイル名。
Also see DefaultStorageLoc.
DefaultStorageLocも参照してください。
- AccountingStoragePass
-
The password used to gain access to the database to store the
accounting data.
アカウンティングデータを格納するためにデータベースにアクセスするために使用されるパスワード。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
In the case of Slurm DBD (Database Daemon) with MUNGE authentication this can be configured to use a MUNGE daemon specifically configured to provide authentication between clusters while the default MUNGE daemon provides authentication within a cluster.
MUNGE認証を備えたSlurm DBD(データベースデーモン)の場合、これは、デフォルトのMUNGEデーモンがクラスター内で認証を提供する一方で、クラスター間の認証を提供するように特別に構成されたMUNGEデーモンを使用するように構成できます。
In that case, AccountingStoragePass should specify the named port to be used for communications with the alternate MUNGE daemon (e.g. "/var/run/munge/global.socket.2").
その場合、AccountingStoragePassは、代替MUNGEデーモンとの通信に使用される名前付きポートを指定する必要があります(例: "/var/run/munge/global.socket.2")。
The default value is NULL.
デフォルト値はNULLです。
Also see DefaultStoragePass.
DefaultStoragePassも参照してください。
- AccountingStoragePort
-
The listening port of the accounting storage database server.
アカウンティングストレージデータベースサーバーのリスニングポート。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
The default value is SLURMDBD_PORT as established at system build time.
デフォルト値は、システムのビルド時に確立されるSLURMDBD_PORTです。
If no value is explicitly specified, it will be set to 6819.
値が明示的に指定されていない場合、6819に設定されます。
This value must be equal to the DbdPort parameter in the slurmdbd.conf file.
この値は、slurmdbd.confファイルのDbdPortパラメータと等しい必要があります。
Also see DefaultStoragePort.
DefaultStoragePortも参照してください。
- AccountingStorageTRES
-
Comma separated list of resources you wish to track on the cluster.
クラスターで追跡するリソースのカンマ区切りリスト。
These are the resources requested by the sbatch/srun job when it is submitted.
これらは、サブミットされるときにsbatch / srunジョブによって要求されるリソースです。
Currently this consists of any GRES, BB (burst buffer) or license along with CPU, Memory, Node, Energy, FS/[Disk|Lustre], IC/OFED, Pages, and VMem.
現在、これはGRES、BB(バーストバッファー)またはライセンス、およびCPU、メモリ、ノード、エネルギー、FS / [ディスク|ルスター]、IC / OFED、ページ、VMemで構成されています。
By default Billing, CPU, Energy, Memory, Node, FS/Disk, Pages and VMem are tracked.
デフォルトでは、請求、CPU、エネルギー、メモリ、ノード、FS /ディスク、ページ、およびVMemが追跡されます。
These default TRES cannot be disabled, but only appended to.
これらのデフォルトのTRESを無効にすることはできませんが、追加するだけです。
AccountingStorageTRES=gres/craynetwork,license/iop1 will track billing, cpu, energy, memory, nodes, fs/disk, pages and vmem along with a gres called craynetwork as well as a license called iop1.
AccountingStorageTRES = gres / craynetwork、license / iop1は、craynetworkと呼ばれるgresとiop1と呼ばれるライセンスとともに、課金、cpu、エネルギー、メモリ、ノード、fs / disk、ページ、およびvmemを追跡します。
Whenever these resources are used on the cluster they are recorded.
これらのリソースは、クラスターで使用されるたびに記録されます。
The TRES are automatically set up in the database on the start of the slurmctld.
TRESは、slurmctldの開始時にデータベースに自動的にセットアップされます。
If multiple GRES of different types are tracked (e.g. GPUs of different types), then job requests with matching type specifications will be recorded.
異なるタイプの複数のGRES(異なるタイプのGPUなど)が追跡される場合、タイプ仕様が一致するジョブリクエストが記録されます。
Given a configuration of "AccountingStorageTRES=gres/gpu,gres/gpu:tesla,gres/gpu:volta" Then "gres/gpu:tesla" and "gres/gpu:volta" will track only jobs that explicitly request those two GPU types, while "gres/gpu" will track allocated GPUs of any type ("tesla", "volta" or any other GPU type).
「AccountingStorageTRES = gres / gpu、gres / gpu:tesla、gres / gpu:volta」の構成を指定すると、「gres / gpu:tesla」と「gres / gpu:volta」は、これら2つのGPUタイプを明示的に要求するジョブのみを追跡します、「gres / gpu」は、割り当てられた任意のタイプのGPU(「テスラ」、「ボルト」、またはその他のGPUタイプ)を追跡します。
Given a configuration of "AccountingStorageTRES=gres/gpu:tesla,gres/gpu:volta" Then "gres/gpu:tesla" and "gres/gpu:volta" will track jobs that explicitly request those GPU types.
「AccountingStorageTRES = gres / gpu:tesla、gres / gpu:volta」の構成の場合、「gres / gpu:tesla」と「gres / gpu:volta」は、これらのGPUタイプを明示的に要求するジョブを追跡します。
If a job requests GPUs, but does not explicitly specify the GPU type, then its resource allocation will be accounted for as either "gres/gpu:tesla" or "gres/gpu:volta", although the accounting may not match the actual GPU type allocated to the job and the GPUs allocated to the job could be heterogeneous.
ジョブがGPUをリクエストしたが、GPUタイプを明示的に指定していない場合、そのリソース割り当ては「gres / gpu:tesla」または「gres / gpu:volta」として計算されますが、計算は実際のGPUと一致しない場合がありますジョブに割り当てられたタイプとジョブに割り当てられたGPUは、異種の可能性があります。
In an environment containing various GPU types, use of a job_submit plugin may be desired in order to force jobs to explicitly specify some GPU type.
さまざまなGPUタイプを含む環境では、ジョブにGPUタイプを明示的に指定させるために、job_submitプラグインを使用することが望ましい場合があります。
- AccountingStorageType
-
The accounting storage mechanism type.
アカウンティングストレージメカニズムのタイプ。
Acceptable values at present include "accounting_storage/filetxt", "accounting_storage/none" and "accounting_storage/slurmdbd".
現在許容される値には、「accounting_storage / filetxt」、「accounting_storage / none」、「accounting_storage / slurmdbd」があります。
The "accounting_storage/filetxt" value indicates that accounting records will be written to the file specified by the AccountingStorageLoc parameter.
「accounting_storage / filetxt」の値は、アカウンティングレコードがAccountingStorageLocパラメータで指定されたファイルに書き込まれることを示しています。
The "accounting_storage/slurmdbd" value indicates that accounting records will be written to the Slurm DBD, which manages an underlying MySQL database.
「accounting_storage / slurmdbd」値は、基になるMySQLデータベースを管理するSlurm DBDにアカウンティングレコードが書き込まれることを示します。
See "man slurmdbd" for more information.
詳細については、「man slurmdbd」を参照してください。
The default value is "accounting_storage/none" and indicates that account records are not maintained.
デフォルト値は「accounting_storage / none」であり、アカウントレコードが維持されないことを示します。
Note: The filetxt plugin records only a limited subset of accounting information and will prevent some sacct options from proper operation.
注:filetxtプラグインは、アカウンティング情報の限られたサブセットのみを記録するため、一部のsacctオプションが適切に動作しなくなります。
Also see DefaultStorageType.
DefaultStorageTypeも参照してください。
- AccountingStorageUser
-
The user account for accessing the accounting storage database.
アカウンティングストレージデータベースにアクセスするためのユーザーアカウント。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see DefaultStorageUser.
DefaultStorageUserも参照してください。
- AccountingStoreJobComment
-
If set to "YES" then include the job's comment field in the job
complete message sent to the Accounting Storage database.
「YES」に設定した場合、アカウンティングストレージデータベースに送信されるジョブ完了メッセージにジョブのコメントフィールドを含めます。
The default is "YES".
デフォルトは「YES」です。
Note the AdminComment and SystemComment are always recorded in the database.
AdminCommentとSystemCommentは常にデータベースに記録されることに注意してください。
- AcctGatherNodeFreq
-
The AcctGather plugins sampling interval for node accounting.
ノードアカウンティングのAcctGatherプラグインサンプリング間隔。
For AcctGather plugin values of none, this parameter is ignored.
なしのAcctGatherプラグイン値の場合、このパラメーターは無視されます。
For all other values this parameter is the number of seconds between node accounting samples.
他のすべての値の場合、このパラメーターはノードアカウンティングサンプル間の秒数です。
For the acct_gather_energy/rapl plugin, set a value less than 300 because the counters may overflow beyond this rate.
acct_gather_energy / raplプラグインの場合、カウンタがこのレートを超えてオーバーフローする可能性があるため、300未満の値を設定します。
The default value is zero.
デフォルト値はゼロです。
This value disables accounting sampling for nodes.
この値は、ノードのアカウンティングサンプリングを無効にします。
Note: The accounting sampling interval for jobs is determined by the value of JobAcctGatherFrequency.
注:ジョブのアカウンティングサンプリング間隔は、JobAcctGatherFrequencyの値によって決定されます。
- AcctGatherEnergyType
-
Identifies the plugin to be used for energy consumption accounting.
エネルギー消費の計算に使用するプラグインを識別します。
The jobacct_gather plugin and slurmd daemon call this plugin to collect energy consumption data for jobs and nodes.
jobacct_gatherプラグインとslurmdデーモンは、このプラグインを呼び出して、ジョブとノードのエネルギー消費データを収集します。
The collection of energy consumption data takes place on the node level, hence only in case of exclusive job allocation the energy consumption measurements will reflect the job's real consumption.
エネルギー消費データの収集はノードレベルで行われるため、排他的なジョブ割り当ての場合のみ、エネルギー消費測定はジョブの実際の消費を反映します。
In case of node sharing between jobs the reported consumed energy per job (through sstat or sacct) will not reflect the real energy consumed by the jobs.
ジョブ間でノードを共有する場合、(sstatまたはsacctを介して)ジョブごとに報告される消費エネルギーは、ジョブによって消費される実際のエネルギーを反映しません。
Configurable values at present are:
現在設定可能な値は次のとおりです。
-
- acct_gather_energy/none
-
No energy consumption data is collected.
エネルギー消費データは収集されません。
- acct_gather_energy/ipmi
-
Energy consumption data is collected from the Baseboard Management Controller
(BMC) using the Intelligent Platform Management Interface (IPMI).
エネルギー消費データは、インテリジェントプラットフォーム管理インターフェース(IPMI)を使用してベースボード管理コントローラー(BMC)から収集されます。
- acct_gather_energy/xcc
-
Energy consumption data is collected from the Lenovo SD650 XClarity Controller
(XCC) using IPMI OEM raw commands.
エネルギー消費データは、IPMI OEM RAWコマンドを使用してLenovo SD650 XClarity Controller(XCC)から収集されます。
- acct_gather_energy/rapl
-
Energy consumption data is collected from hardware sensors using the Running
Average Power Limit (RAPL) mechanism.
エネルギー消費データは、ランニング平均電力制限(RAPL)メカニズムを使用してハードウェアセンサーから収集されます。
Note that enabling RAPL may require the execution of the command "sudo modprobe msr".
RAPLを有効にするには、コマンド「sudo modprobe msr」の実行が必要になる場合があることに注意してください。
-
- AcctGatherInterconnectType
-
Identifies the plugin to be used for interconnect network traffic accounting.
相互接続ネットワークトラフィックのアカウンティングに使用されるプラグインを識別します。
The jobacct_gather plugin and slurmd daemon call this plugin to collect network traffic data for jobs and nodes.
jobacct_gatherプラグインとslurmdデーモンは、このプラグインを呼び出して、ジョブとノードのネットワークトラフィックデータを収集します。
The collection of network traffic data takes place on the node level, hence only in case of exclusive job allocation the collected values will reflect the job's real traffic.
ネットワークトラフィックデータの収集はノードレベルで行われるため、排他的なジョブ割り当ての場合のみ、収集された値はジョブの実際のトラフィックを反映します。
In case of node sharing between jobs the reported network traffic per job (through sstat or sacct) will not reflect the real network traffic by the jobs.
ジョブ間のノード共有の場合、(sstatまたはsacctを介して)ジョブごとに報告されるネットワークトラフィックは、ジョブによる実際のネットワークトラフィックを反映しません。
Configurable values at present are:
現在設定可能な値は次のとおりです。
-
- acct_gather_interconnect/none
-
No infiniband network data are collected.
インフィニバンドネットワークデータは収集されません。
- acct_gather_interconnect/ofed
-
Infiniband network traffic data are collected from the hardware monitoring
counters of Infiniband devices through the OFED library.
Infinibandネットワークトラフィックデータは、OFEDライブラリを介してInfinibandデバイスのハードウェア監視カウンターから収集されます。
In order to account for per job network traffic, add the "ic/ofed" TRES to AccountingStorageTRES.
ジョブごとのネットワークトラフィックを計算するには、「ic / ofed」TRESをAccountingStorageTRESに追加します。
-
- AcctGatherFilesystemType
-
Identifies the plugin to be used for filesystem traffic accounting.
ファイルシステムのトラフィックアカウンティングに使用されるプラグインを識別します。
The jobacct_gather plugin and slurmd daemon call this plugin to collect filesystem traffic data for jobs and nodes.
jobacct_gatherプラグインとslurmdデーモンは、このプラグインを呼び出して、ジョブとノードのファイルシステムトラフィックデータを収集します。
The collection of filesystem traffic data takes place on the node level, hence only in case of exclusive job allocation the collected values will reflect the job's real traffic.
ファイルシステムトラフィックデータの収集はノードレベルで行われるため、排他的なジョブ割り当ての場合のみ、収集された値はジョブの実際のトラフィックを反映します。
In case of node sharing between jobs the reported filesystem traffic per job (through sstat or sacct) will not reflect the real filesystem traffic by the jobs.
ジョブ間のノード共有の場合、(sstatまたはsacctを介して)ジョブごとに報告されるファイルシステムトラフィックは、ジョブによる実際のファイルシステムトラフィックを反映しません。
Configurable values at present are:
現在設定可能な値は次のとおりです。
-
- acct_gather_filesystem/none
-
No filesystem data are collected.
ファイルシステムのデータは収集されません。
- acct_gather_filesystem/lustre
-
Lustre filesystem traffic data are collected from the counters found in
/proc/fs/lustre/.
Lustreファイルシステムのトラフィックデータは、/ proc / fs / lustre /にあるカウンターから収集されます。
In order to account for per job lustre traffic, add the "fs/lustre" TRES to AccountingStorageTRES.
ジョブごとの光沢トラフィックを説明するには、 "fs / lustre" TRESをAccountingStorageTRESに追加します。
-
- AcctGatherProfileType
-
Identifies the plugin to be used for detailed job profiling.
詳細なジョブプロファイリングに使用するプラグインを識別します。
The jobacct_gather plugin and slurmd daemon call this plugin to collect detailed data such as I/O counts, memory usage, or energy consumption for jobs and nodes.
jobacct_gatherプラグインとslurmdデーモンは、このプラグインを呼び出して、ジョブとノードのI / Oカウント、メモリ使用量、またはエネルギー消費量などの詳細データを収集します。
There are interfaces in this plugin to collect data as step start and completion, task start and completion, and at the account gather frequency.
このプラグインには、ステップの開始と完了、タスクの開始と完了、およびアカウント収集頻度でデータを収集するためのインターフェースがあります。
The data collected at the node level is related to jobs only in case of exclusive job allocation.
ノードレベルで収集されるデータは、排他的なジョブ割り当ての場合にのみジョブに関連します。
Configurable values at present are:
現在設定可能な値は次のとおりです。
-
- acct_gather_profile/none
-
No profile data is collected.
プロファイルデータは収集されません。
- acct_gather_profile/hdf5
-
This enables the HDF5 plugin.
これにより、HDF5プラグインが有効になります。
The directory where the profile files are stored and which values are collected are configured in the acct_gather.conf file.
プロファイルファイルが格納されるディレクトリと収集される値は、acct_gather.confファイルで設定されます。
- acct_gather_profile/influxdb
-
This enables the influxdb plugin.
これにより、influxdbプラグインが有効になります。
The influxdb instance host, port, database, retention policy and which values are collected are configured in the acct_gather.conf file.
influxdbインスタンスのホスト、ポート、データベース、保持ポリシー、および収集される値は、acct_gather.confファイルで構成されます。
-
- AllowSpecResourcesUsage
-
If set to "YES", Slurm allows individual jobs to override node's configured
CoreSpecCount value.
「YES」に設定すると、Slurmは個々のジョブがノードの構成済みCoreSpecCount値をオーバーライドすることを許可します。
For a job to take advantage of this feature, a command line option of --core-spec must be specified.
ジョブでこの機能を利用するには、-core-specのコマンドラインオプションを指定する必要があります。
The default value for this option is "YES" for Cray systems and "NO" for other system types.
このオプションのデフォルト値は、Crayシステムの場合は「YES」、その他のシステムタイプの場合は「NO」です。
- AuthAltTypes
-
Comma separated list of alternative authentication plugins that the slurmctld
will permit for communication.
slurmctldが通信を許可する代替認証プラグインのカンマ区切りリスト。
Acceptable values at present include "auth/jwt".
現在許容される値には、「auth / jwt」が含まれます。
- AuthInfo
-
Additional information to be used for authentication of communications
between the Slurm daemons (slurmctld and slurmd) and the Slurm
clients.
Slurmデーモン(slurmctldおよびslurmd)とSlurmクライアント間の通信の認証に使用される追加情報。
The interpretation of this option is specific to the configured AuthType.
このオプションの解釈は、構成されたAuthTypeに固有です。
Multiple options may be specified in a comma delimited list.
複数のオプションをコンマ区切りリストで指定できます。
If not specified, the default authentication information will be used.
指定しない場合、デフォルトの認証情報が使用されます。
-
- cred_expire
-
Default job step credential lifetime, in seconds (e.g. "cred_expire=1200").
秒単位のデフォルトのジョブステップ認証情報の有効期間(例:「cred_expire = 1200」)。
It must be sufficiently long enough to load user environment, run prolog, deal with the slurmd getting paged out of memory, etc.
ユーザー環境の読み込み、プロローグの実行、メモリからページングされるslurmdの処理などに十分な長さである必要があります。
This also controls how long a requeued job must wait before starting again.
これは、再キューイングされたジョブが再開するまでの待機時間も制御します。
The default value is 120 seconds.
デフォルト値は120秒です。
- socket
-
Path name to a MUNGE daemon socket to use
(e.g. "socket=/var/run/munge/munge.socket.2").
使用するMUNGEデーモンソケットへのパス名(例: "socket = / var / run / munge / munge.socket.2")。
The default value is "/var/run/munge/munge.socket.2".
デフォルト値は「/var/run/munge/munge.socket.2」です。
Used by auth/munge and cred/munge.
auth / mungeおよびcred / mungeによって使用されます。
- ttl
-
Credential lifetime, in seconds (e.g. "ttl=300").
クレデンシャルの存続期間(秒)(「ttl = 300」など)。
The default value is dependent upon the MUNGE installation, but is typically 300 seconds.
デフォルト値はMUNGEのインストールに依存しますが、通常は300秒です。
-
- AuthType
-
The authentication method for communications between Slurm
components.
Slurmコンポーネント間の通信の認証方法。
Acceptable values at present include "auth/munge" and "auth/none".
現在許容される値には、「auth / munge」と「auth / none」があります。
The default value is "auth/munge".
デフォルト値は「auth / munge」です。
"auth/none" includes the UID in each communication, but it is not verified.
「auth / none」には、各通信にUIDが含まれていますが、検証されていません。
This may be fine for testing purposes, but do not use "auth/none" if you desire any security.
これはテスト目的では問題ないかもしれませんが、セキュリティが必要な場合は「auth / none」を使用しないでください。
"auth/munge" indicates that MUNGE is to be used.
「auth / munge」はMUNGEが使用されることを示します。
(See "https://dun.github.io/munge/" for more information).
(詳細については、「https://dun.github.io/munge/」を参照してください)。
All Slurm daemons and commands must be terminated prior to changing the value of AuthType and later restarted.
AuthTypeの値を変更する前にすべてのSlurmデーモンとコマンドを終了し、後で再起動する必要があります。
- BackupAddr
-
Defunct option, see SlurmctldHost.
無効オプション。SlurmctldHostを参照してください。
- BackupController
-
Defunct option, see SlurmctldHost.
無効オプション。SlurmctldHostを参照してください。
The backup controller recovers state information from the StateSaveLocation directory, which must be readable and writable from both the primary and backup controllers.
バックアップコントローラーはStateSaveLocationディレクトリから状態情報を回復します。これは、プライマリコントローラーとバックアップコントローラーの両方から読み取りと書き込みが可能でなければなりません。
While not essential, it is recommended that you specify a backup controller.
必須ではありませんが、バックアップコントローラを指定することをお勧めします。
See the RELOCATING CONTROLLERS section if you change this.
これを変更する場合は、コントローラーの再配置セクションを参照してください。
- BatchStartTimeout
-
The maximum time (in seconds) that a batch job is permitted for
launching before being considered missing and releasing the
allocation.
バッチジョブの起動が許可されていないと見なされ、割り当てが解放されるまでの最大時間(秒単位)。
The default value is 10 (seconds).
デフォルト値は10(秒)です。
Larger values may be required if more time is required to execute the Prolog, load user environment variables, or if the slurmd daemon gets paged from memory.
Prologの実行、ユーザー環境変数のロードにさらに時間が必要な場合、またはslurmdデーモンがメモリからページングされる場合は、より大きな値が必要になる場合があります。
Note: The test for a job being successfully launched is only performed when the Slurm daemon on the compute node registers state with the slurmctld daemon on the head node, which happens fairly rarely.
注:正常に起動されたジョブのテストは、計算ノードのSlurmデーモンがヘッドノードのslurmctldデーモンに状態を登録するときにのみ実行されます。
Therefore a job will not necessarily be terminated if its start time exceeds BatchStartTimeout.
したがって、開始時間がBatchStartTimeoutを超えた場合、ジョブは必ずしも終了するとは限りません。
This configuration parameter is also applied to launch tasks and avoid aborting srun commands due to long running Prolog scripts.
この構成パラメーターは、起動タスクにも適用され、長時間実行されているPrologスクリプトによるsrunコマンドの中止を回避します。
- BurstBufferType
-
The plugin used to manage burst buffers.
バーストバッファの管理に使用されるプラグイン。
Acceptable values at present are:
現在許容される値は次のとおりです。
- CliFilterPlugins
-
A comma delimited list of command line interface option filter/modification
plugins.
コマンドラインインターフェイスオプションのフィルター/変更プラグインのカンマ区切りリスト。
The specified plugins will be executed in the order listed.
指定されたプラグインは、リストされている順序で実行されます。
These are intended to be site-specific plugins which can be used to set default job parameters and/or logging events.
これらは、デフォルトのジョブパラメータやロギングイベントを設定するために使用できるサイト固有のプラグインを意図しています。
No cli_filter plugins are used by default.
デフォルトではcli_filterプラグインは使用されません。
- ClusterName
-
The name by which this Slurm managed cluster is known in the
accounting database.
このSlurm管理クラスターがアカウンティングデータベースで認識されている名前。
This is needed distinguish accounting records when multiple clusters report to the same database.
これは、複数のクラスターが同じデータベースにレポートする場合に、アカウンティングレコードを区別するために必要です。
Because of limitations in some databases, any upper case letters in the name will be silently mapped to lower case.
一部のデータベースには制限があるため、名前の大文字はすべて小文字に暗黙的にマッピングされます。
In order to avoid confusion, it is recommended that the name be lower case.
混乱を避けるために、名前は小文字にすることをお勧めします。
- CommunicationParameters
-
Comma separated options identifying communication options.
通信オプションを識別するカンマ区切りオプション。
-
- CheckGhalQuiesce
-
Used specifically on a Cray using an Aries Ghal interconnect.
Aries Ghal相互接続を使用するCrayで特に使用されます。
This will check to see if the system is quiescing when sending a message, and if so, we wait until it is done before sending.
これにより、メッセージの送信時にシステムが静止しているかどうかが確認され、静止している場合は、送信が完了するまで待機してから送信されます。
- NoAddrCache
-
By default, Slurm will cache a node's network address after
successfully establishing the node's network address.
デフォルトでは、Slurmはノードのネットワークアドレスを正常に確立した後、ノードのネットワークアドレスをキャッシュします。
This option disables the cache and Slurm will look up the node's network address each time a connection is made.
このオプションはキャッシュを無効にし、Slurmは接続が行われるたびにノードのネットワークアドレスを検索します。
This is useful, for example, in a cloud environment where the node addresses come and go out of DNS.
これは、たとえば、ノードアドレスがDNSから出入りするクラウド環境で役立ちます。
- NoCtldInAddrAny
-
Used to directly bind to the address of what the node resolves to running
the slurmctld instead of binding messages to any address on the node,
which is the default.
ノード上の任意のアドレスにメッセージをバインドする代わりに、ノードがslurmctldの実行に解決するアドレスに直接バインドするために使用されます。これはデフォルトです。
- NoInAddrAny
-
Used to directly bind to the address of what the node resolves to instead
of binding messages to any address on the node which is the default.
デフォルトであるノード上のアドレスにメッセージをバインドする代わりに、ノードが解決するアドレスに直接バインドするために使用されます。
This option is for all daemons/clients except for the slurmctld.
このオプションは、slurmctldを除くすべてのデーモン/クライアント用です。
-
- CompleteWait
-
The time, in seconds, given for a job to remain in COMPLETING state
before any additional jobs are scheduled.
追加のジョブがスケジュールされる前にジョブがCOMPLETING状態に留まるために与えられる時間(秒単位)。
If set to zero, pending jobs will be started as soon as possible.
ゼロに設定すると、保留中のジョブができるだけ早く開始されます。
Since a COMPLETING job's resources are released for use by other jobs as soon as the Epilog completes on each individual node, this can result in very fragmented resource allocations.
COMPILTINGジョブのリソースは、個々のノードでEpilogが完了するとすぐに他のジョブで使用できるように解放されるため、リソース割り当てが非常に断片化する可能性があります。
To provide jobs with the minimum response time, a value of zero is recommended (no waiting).
最小応答時間のジョブを提供するには、ゼロの値が推奨されます(待機なし)。
To minimize fragmentation of resources, a value equal to KillWait plus two is recommended.
リソースの断片化を最小限に抑えるには、KillWait + 2に等しい値をお勧めします。
In that case, setting KillWait to a small value may be beneficial.
その場合、KillWaitを小さい値に設定すると効果的です。
The default value of CompleteWait is zero seconds.
CompleteWaitのデフォルト値はゼロ秒です。
The value may not exceed 65533.
値は65533を超えることはできません。
- ControlAddr
-
Defunct option, see SlurmctldHost.
無効オプション。SlurmctldHostを参照してください。
- ControlMachine
-
Defunct option, see SlurmctldHost.
無効オプション。SlurmctldHostを参照してください。
- CoreSpecPlugin
-
Identifies the plugins to be used for enforcement of core specialization.
コア専門化の実施に使用されるプラグインを識別します。
The slurmd daemon must be restarted for a change in CoreSpecPlugin to take effect.
CoreSpecPluginの変更を有効にするには、slurmdデーモンを再起動する必要があります。
Acceptable values at present include:
現在許容できる値は次のとおりです。
- CpuFreqDef
-
Default CPU frequency value or frequency governor to use when running a
job step if it has not been explicitly set with the --cpu-freq option.
--cpu-freqオプションで明示的に設定されていない場合に、ジョブステップの実行時に使用するデフォルトのCPU周波数値または周波数ガバナー。
Acceptable values at present include a numeric value (frequency in kilohertz) or one of the following governors:
現在許容される値には、数値(キロヘルツ単位の頻度)または次のガバナーのいずれかが含まれます。
-
- Conservative
-
attempts to use the Conservative CPU governor
保守的なCPUガバナーを使用する試み
- OnDemand
-
attempts to use the OnDemand CPU governor
OnDemand CPUガバナーの使用を試みます
- Performance
-
attempts to use the Performance CPU governor
パフォーマンスCPUガバナーを使用しようとする
- PowerSave
-
attempts to use the PowerSave CPU governor
PowerSave CPUガバナーを使用しようとする
デフォルト値はありません。
If unset, no attempt to set the governor is made if the --cpu-freq option has not been set.
設定されていない場合、-cpu-freqオプションが設定されていなければ、ガバナーの設定は行われません。
-
- CpuFreqGovernors
-
List of CPU frequency governors allowed to be set with the salloc, sbatch, or
srun option --cpu-freq.
salloc、sbatch、またはsrunオプション--cpu-freqで設定できるCPU周波数ガバナーのリスト。
Acceptable values at present include:
現在許容できる値は次のとおりです。
-
- Conservative
-
attempts to use the Conservative CPU governor
保守的なCPUガバナーを使用する試み
- OnDemand
-
attempts to use the OnDemand CPU governor (a default value)
OnDemand CPUガバナーの使用を試みます(デフォルト値)
- Performance
-
attempts to use the Performance CPU governor (a default value)
パフォーマンスCPUガバナーの使用を試みます(デフォルト値)
- PowerSave
-
attempts to use the PowerSave CPU governor
PowerSave CPUガバナーを使用しようとする
- UserSpace
-
attempts to use the UserSpace CPU governor (a default value)
UserSpace CPUガバナーの使用を試みます(デフォルト値)
デフォルトはOnDemand、Performance、およびUserSpaceです。
-
- CredType
-
The cryptographic signature tool to be used in the creation of
job step credentials.
ジョブステップ資格情報の作成に使用される暗号化署名ツール。
The slurmctld daemon must be restarted for a change in CredType to take effect.
CredTypeの変更を有効にするには、slurmctldデーモンを再起動する必要があります。
Acceptable values at present include "cred/munge".
現在許容できる値には、「cred / munge」が含まれます。
The default value is "cred/munge" and is the recommended.
デフォルト値は「cred / munge」であり、推奨されています。
- DebugFlags
-
Defines specific subsystems which should provide more detailed event logging.
より詳細なイベントログを提供する特定のサブシステムを定義します。
Multiple subsystems can be specified with comma separators.
カンマ区切りで複数のサブシステムを指定できます。
Most DebugFlags will result in verbose logging for the identified subsystems and could impact performance.
ほとんどのDebugFlagsは、識別されたサブシステムの詳細なログを記録し、パフォーマンスに影響を与える可能性があります。
Valid subsystems available today (with more to come) include:
現在利用できる有効なサブシステム(今後追加予定)は次のとおりです。
-
- Accrue
-
Accrue counters accounting details
発生カウンタの会計詳細
- Agent
-
RPC agents (outgoing RPCs from Slurm daemons)
RPCエージェント(Slurmデーモンからの発信RPC)
- Backfill
-
Backfill scheduler details
バックフィルスケジューラの詳細
- BackfillMap
-
Backfill scheduler to log a very verbose map of reserved resources through
time.
予約されたリソースの非常に詳細なマップを時系列で記録するバックフィルスケジューラ。
Combine with Backfill for a verbose and complete view of the backfill scheduler's work.
バックフィルと組み合わせると、バックフィルスケジューラの作業を詳細かつ完全に表示できます。
- BurstBuffer
-
Burst Buffer plugin
バーストバッファプラグイン
- CPU_Bind
-
CPU binding details for jobs and steps
ジョブとステップのCPUバインディングの詳細
- CpuFrequency
-
Cpu frequency details for jobs and steps using the --cpu-freq option.
--cpu-freqオプションを使用したジョブとステップのCPU周波数の詳細。
- Data
-
Generic data structure details.
一般的なデータ構造の詳細。
- Dependency
-
Job dependency debug info
ジョブ依存関係のデバッグ情報
- Elasticsearch
-
Elasticsearch debug info
Elasticsearchデバッグ情報
- Energy
-
AcctGatherEnergy debug info
AcctGatherEnergyデバッグ情報
- ExtSensors
-
External Sensors debug info
外部センサーのデバッグ情報
- Federation
-
Federation scheduling debug info
フェデレーションスケジューリングのデバッグ情報
- FrontEnd
-
Front end node details
フロントエンドノードの詳細
- Gres
-
Generic resource details
一般的なリソースの詳細
- Hetjob
-
Heterogeneous job details
異機種混在ジョブの詳細
- Gang
-
Gang scheduling details
ギャングのスケジュールの詳細
- JobContainer
-
Job container plugin details
ジョブコンテナープラグインの詳細
- License
-
License management details
ライセンス管理の詳細
- Network
-
Network details
ネットワークの詳細
- NodeFeatures
-
Node Features plugin debug info
ノード機能プラグインのデバッグ情報
- NO_CONF_HASH
-
Do not log when the slurm.conf files differs between Slurm daemons
slurm.confファイルがSlurmデーモン間で異なる場合はログに記録しない
- Power
-
Power management plugin
電源管理プラグイン
- PowerSave
-
Power save (suspend/resume programs) details
省電力(一時停止/再開プログラム)の詳細
- Priority
-
Job prioritization
ジョブの優先順位付け
- Profile
-
AcctGatherProfile plugins details
AcctGatherProfileプラグインの詳細
- Protocol
-
Communication protocol details
通信プロトコルの詳細
- Reservation
-
Advanced reservations
事前予約
- Route
-
Message forwarding and message aggregation debug info
メッセージ転送とメッセージ集約のデバッグ情報
- SelectType
-
Resource selection plugin
リソース選択プラグイン
- Steps
-
Slurmctld resource allocation for job steps
ジョブステップのSlurmctldリソース割り当て
- Switch
-
Switch plugin
プラグインを切り替える
- TimeCray
-
Timing of Cray APIs
Cray APIのタイミング
- TRESNode
-
Limits dealing with TRES=Node
TRES = Nodeを扱う制限
- TraceJobs
-
Trace jobs in slurmctld.
slurmctldでジョブをトレースします。
It will print detailed job information including state, job ids and allocated nodes counter.
状態、ジョブID、割り当てられたノードカウンターなどの詳細なジョブ情報を出力します。
- Triggers
-
Slurmctld triggers
Slurmctldトリガー
- WorkQueue
-
Work Queue details
ワークキューの詳細
-
- DefCpuPerGPU
-
Default count of CPUs allocated per allocated GPU.
割り当てられたGPUごとに割り当てられたCPUのデフォルト数。
- DefMemPerCPU
-
Default real memory size available per allocated CPU in megabytes.
割り当てられたCPUごとに使用可能なデフォルトの実メモリサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
DefMemPerCPU would generally be used if individual processors are allocated to jobs (SelectType=select/cons_res or SelectType=select/cons_tres).
DefMemPerCPUは通常、個々のプロセッサがジョブに割り当てられている場合に使用されます(SelectType = select / cons_resまたはSelectType = select / cons_tres)。
The default value is 0 (unlimited).
デフォルト値は0(無制限)です。
Also see DefMemPerGPU, DefMemPerNode and MaxMemPerCPU.
DefMemPerGPU、DefMemPerNode、MaxMemPerCPUもご覧ください。
DefMemPerCPU, DefMemPerGPU and DefMemPerNode are mutually exclusive.
DefMemPerCPU、DefMemPerGPU、およびDefMemPerNodeは相互に排他的です。
- DefMemPerGPU
-
Default real memory size available per allocated GPU in megabytes.
割り当てられたGPUごとに使用可能なデフォルトの実メモリサイズ(メガバイト単位)。
The default value is 0 (unlimited).
デフォルト値は0(無制限)です。
Also see DefMemPerCPU and DefMemPerNode.
DefMemPerCPUおよびDefMemPerNodeも参照してください。
DefMemPerCPU, DefMemPerGPU and DefMemPerNode are mutually exclusive.
DefMemPerCPU、DefMemPerGPU、およびDefMemPerNodeは相互に排他的です。
- DefMemPerNode
-
Default real memory size available per allocated node in megabytes.
割り当てられたノードごとに使用可能なデフォルトの実メモリサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
DefMemPerNode would generally be used if whole nodes are allocated to jobs (SelectType=select/linear) and resources are over-subscribed (OverSubscribe=yes or OverSubscribe=force).
ノード全体がジョブに割り当てられ(SelectType = select / linear)、リソースがオーバーサブスクライブされている場合(OverSubscribe = yesまたはOverSubscribe = force)、DefMemPerNodeが一般的に使用されます。
The default value is 0 (unlimited).
デフォルト値は0(無制限)です。
Also see DefMemPerCPU, DefMemPerGPU and MaxMemPerCPU.
DefMemPerCPU、DefMemPerGPU、MaxMemPerCPUもご覧ください。
DefMemPerCPU, DefMemPerGPU and DefMemPerNode are mutually exclusive.
DefMemPerCPU、DefMemPerGPU、およびDefMemPerNodeは相互に排他的です。
- DefaultStorageHost
-
The default name of the machine hosting the accounting storage and
job completion databases.
アカウンティングストレージとジョブ完了データベースをホストするマシンのデフォルト名。
Only used for database type storage plugins and when the AccountingStorageHost and JobCompHost have not been defined.
データベースタイプのストレージプラグイン、およびAccountingStorageHostとJobCompHostが定義されていない場合にのみ使用されます。
- DefaultStorageLoc
-
The fully qualified file name where accounting records and/or job
completion records are written when the DefaultStorageType is
"filetxt".
DefaultStorageTypeが「filetxt」の場合に、アカウンティングレコードやジョブ完了レコードが書き込まれる完全修飾ファイル名。
Also see AccountingStorageLoc and JobCompLoc.
AccountingStorageLocおよびJobCompLocも参照してください。
- DefaultStoragePass
-
The password used to gain access to the database to store the
accounting and job completion data.
アカウンティングおよびジョブ完了データを格納するためにデータベースにアクセスするために使用されるパスワード。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see AccountingStoragePass and JobCompPass.
AccountingStoragePassおよびJobCompPassも参照してください。
- DefaultStoragePort
-
The listening port of the accounting storage and/or job completion
database server.
アカウンティングストレージおよび/またはジョブ完了データベースサーバーのリスニングポート。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see AccountingStoragePort and JobCompPort.
AccountingStoragePortおよびJobCompPortも参照してください。
- DefaultStorageType
-
The accounting and job completion storage mechanism type.
アカウンティングおよびジョブ完了のストレージメカニズムタイプ。
Acceptable values at present include "filetxt", "mysql" and "none".
現在許容される値には、「filetxt」、「mysql」、「none」があります。
The value "filetxt" indicates that records will be written to a file.
値「filetxt」は、レコードがファイルに書き込まれることを示します。
The value "mysql" indicates that accounting records will be written to a MySQL or MariaDB database.
値「mysql」は、アカウンティングレコードがMySQLまたはMariaDBデータベースに書き込まれることを示します。
The default value is "none", which means that records are not maintained.
デフォルト値は「なし」です。つまり、レコードは保持されません。
Also see AccountingStorageType and JobCompType.
AccountingStorageTypeおよびJobCompTypeも参照してください。
- DefaultStorageUser
-
The user account for accessing the accounting storage and/or job
completion database.
アカウンティングストレージやジョブ完了データベースにアクセスするためのユーザーアカウント。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see AccountingStorageUser and JobCompUser.
AccountingStorageUserおよびJobCompUserも参照してください。
- DependencyParameters
-
Multiple options may be comma-separated.
複数のオプションをコンマで区切ることができます。
-
- disable_remote_singleton
-
By default, when a federated job has a singleton dependeny, each cluster in the
federation must clear the singleton dependency before the job's singleton
dependency is considered satisfied.
デフォルトでは、フェデレーションジョブにシングルトン依存関係がある場合、ジョブのシングルトン依存関係が満たされていると見なされる前に、フェデレーション内の各クラスターがシングルトン依存関係をクリアする必要があります。
Enabling this option means that only the origin cluster must clear the singleton dependency.
このオプションを有効にすると、元のクラスターのみがシングルトン依存関係をクリアする必要があります。
This option must be set in every cluster in the federation.
このオプションは、連携内のすべてのクラスターで設定する必要があります。
- kill_invalid_depend
-
If a job has an invalid dependency and it can never run terminate it
and set its state to be JOB_CANCELLED.
ジョブに無効な依存関係があり、実行できない場合は、ジョブを終了し、状態をJOB_CANCELLEDに設定します。
By default the job stays pending with reason DependencyNeverSatisfied.
デフォルトでは、ジョブは理由DependencyNeverSatisfiedで保留のままです。
max_depend_depth=# Maximum number of jobs to test for a circular job dependency.
max_depend_depth =#循環ジョブの依存関係をテストするジョブの最大数。
Stop testing after this number of job dependencies have been tested.
この数のジョブの依存関係がテストされたら、テストを停止します。
The default value is 10 jobs.
デフォルト値は10ジョブです。
-
- DisableRootJobs
-
If set to "YES" then user root will be prevented from running any jobs.
「YES」に設定すると、ユーザーrootはジョブを実行できなくなります。
The default value is "NO", meaning user root will be able to execute jobs.
デフォルト値は「NO」です。つまり、ユーザーrootはジョブを実行できます。
DisableRootJobs may also be set by partition.
DisableRootJobsは、パーティションによって設定することもできます。
- EioTimeout
-
The number of seconds srun waits for slurmstepd to close the TCP/IP
connection used to relay data between the user application and srun
when the user application terminates.
ユーザーアプリケーションが終了したときに、srunがslurmstepdがユーザーアプリケーションとsrunの間でデータをリレーするために使用されるTCP / IP接続を閉じるのを待つ秒数。
The default value is 60 seconds.
デフォルト値は60秒です。
May not exceed 65533.
65533を超えることはできません。
- EnforcePartLimits
-
If set to "ALL" then jobs which exceed a partition's size and/or
time limits will be rejected at submission time.
「ALL」に設定すると、パーティションのサイズや時間の制限を超えるジョブは、送信時に拒否されます。
If job is submitted to multiple partitions, the job must satisfy the limits on all the requested partitions.
ジョブが複数のパーティションに送信される場合、ジョブは要求されたすべてのパーティションの制限を満たす必要があります。
If set to "NO" then the job will be accepted and remain queued until the partition limits are altered(Time and Node Limits).
「NO」に設定した場合、ジョブは受け入れられ、パーティションの制限が変更されるまで待機されます(時間とノードの制限)。
If set to "ANY" a job must satisfy any of the requested partitions to be submitted. The default value is "NO".
「ANY」に設定されている場合、ジョブは、サブミットされる要求されたパーティションのいずれかを満たす必要があります。デフォルト値は「NO」です。
NOTE: If set, then a job's QOS can not be used to exceed partition limits.
注:設定した場合、ジョブのQOSを使用してパーティションの制限を超えることはできません。
NOTE: The partition limits being considered are its configured MaxMemPerCPU, MaxMemPerNode, MinNodes, MaxNodes, MaxTime, AllocNodes, AllowAccounts, AllowGroups, AllowQOS, and QOS usage threshold.
注:考慮されるパーティション制限は、その構成済みのMaxMemPerCPU、MaxMemPerNode、MinNodes、MaxNodes、MaxTime、AllocNodes、AllowAccounts、AllowGroups、AllowQOS、およびQOS使用量のしきい値です。
- Epilog
-
Fully qualified pathname of a script to execute as user root on every
node when a user's job completes (e.g. "/usr/local/slurm/epilog").
ユーザーのジョブが完了したときにすべてのノードでユーザーrootとして実行するスクリプトの完全修飾パス名(例: "/ usr / local / slurm / epilog")。
A glob pattern (See glob (7)) may also be used to run more than one epilog script (e.g. "/etc/slurm/epilog.d/*").
globパターン(glob(7)を参照)を使用して、複数のepilogスクリプトを実行することもできます(例: "/etc/slurm/epilog.d/*")。
The Epilog script or scripts may be used to purge files, disable user login, etc.
Epilogスクリプトは、ファイルのパージ、ユーザーログインの無効化などに使用できます。
By default there is no epilog.
デフォルトではエピローグはありません。
See Prolog and Epilog Scripts for more information.
詳細については、PrologおよびEpilogスクリプトを参照してください。
- EpilogMsgTime
-
The number of microseconds that the slurmctld daemon requires to process
an epilog completion message from the slurmd daemons.
slurmctldデーモンがslurmdデーモンからのエピローグ完了メッセージを処理するために必要なマイクロ秒数。
This parameter can be used to prevent a burst of epilog completion messages from being sent at the same time which should help prevent lost messages and improve throughput for large jobs.
このパラメーターを使用して、epilog完了メッセージのバーストが同時に送信されるのを防ぐことができます。これにより、メッセージの損失を防ぎ、大きなジョブのスループットを向上させることができます。
The default value is 2000 microseconds.
デフォルト値は2000マイクロ秒です。
For a 1000 node job, this spreads the epilog completion messages out over two seconds.
1000ノードのジョブの場合、これにより、エピローグ完了メッセージが2秒に分散されます。
- EpilogSlurmctld
-
Fully qualified pathname of a program for the slurmctld to execute
upon termination of a job allocation (e.g.
"/usr/local/slurm/epilog_controller").
ジョブ割り当ての終了時にslurmctldが実行するプログラムの完全修飾パス名(例: "/ usr / local / slurm / epilog_controller")。
The program executes as SlurmUser, which gives it permission to drain nodes and requeue the job if a failure occurs (See scontrol(1)).
プログラムはSlurmUserとして実行され、障害が発生した場合にノードをドレインし、ジョブを再キューイングする許可を与えます(scontrol(1)を参照)。
Exactly what the program does and how it accomplishes this is completely at the discretion of the system administrator.
プログラムが何をするか、どのようにこれを達成するかは、完全にシステム管理者の裁量に任されています。
Information about the job being initiated, its allocated nodes, etc. are passed to the program using environment variables.
開始されるジョブ、割り当てられたノードなどに関する情報は、環境変数を使用してプログラムに渡されます。
See Prolog and Epilog Scripts for more information.
詳細については、PrologおよびEpilogスクリプトを参照してください。
- ExtSensorsFreq
-
The external sensors plugin sampling interval.
外部センサープラグインのサンプリング間隔。
If ExtSensorsType=ext_sensors/none, this parameter is ignored.
ExtSensorsType = ext_sensors / noneの場合、このパラメーターは無視されます。
For all other values of ExtSensorsType, this parameter is the number of seconds between external sensors samples for hardware components (nodes, switches, etc.)
ExtSensorsTypeの他のすべての値の場合、このパラメーターは、ハードウェアコンポーネント(ノード、スイッチなど)の外部センサーサンプル間の秒数です。
The default value is zero.
デフォルト値はゼロです。
This value disables external sensors sampling. Note: This parameter does not affect external sensors data collection for jobs/steps.
この値は、外部センサーのサンプリングを無効にします。注:このパラメーターは、ジョブ/ステップの外部センサーデータ収集には影響しません。
- ExtSensorsType
-
Identifies the plugin to be used for external sensors data collection.
外部センサーのデータ収集に使用するプラグインを識別します。
Slurmctld calls this plugin to collect external sensors data for jobs/steps and hardware components.
Slurmctldはこのプラグインを呼び出して、ジョブ/ステップおよびハードウェアコンポーネントの外部センサーデータを収集します。
In case of node sharing between jobs the reported values per job/step (through sstat or sacct) may not be accurate.
ジョブ間でノードを共有する場合、(sstatまたはsacctを介して)ジョブ/ステップごとに報告される値は正確でない場合があります。
See also "man ext_sensors.conf".
「man ext_sensors.conf」も参照してください。
Configurable values at present are:
現在設定可能な値は次のとおりです。
- FairShareDampeningFactor
-
Dampen the effect of exceeding a user or group's fair share of allocated
resources.
ユーザーまたはグループの割り当てられたリソースの公平な配分を超える影響を緩和します。
Higher values will provides greater ability to differentiate between exceeding the fair share at high levels (e.g. a value of 1 results in almost no difference between overconsumption by a factor of 10 and 100, while a value of 5 will result in a significant difference in priority).
値が高いほど、高いレベルでのフェアシェアの超過を区別する能力が高くなります(たとえば、値1は、10と100の因数による過剰消費の間にほとんど差がありませんが、値5は、優先度に大きな差があります。 )。
The default value is 1.
デフォルト値は1です。
- FederationParameters
-
Used to define federation options.
連携オプションを定義するために使用されます。
Multiple options may be comma separated.
複数のオプションをコンマで区切ることができます。
-
- fed_display
-
If set, then the client status commands (e.g. squeue, sinfo, sprio, etc.) will
display information in a federated view by default.
設定されている場合、クライアントステータスコマンド(squeue、sinfo、sprioなど)はデフォルトで統合ビューに情報を表示します。
This option is functionally equivalent to using the --federation options on each command.
このオプションは、各コマンドで--federationオプションを使用することと機能的に同等です。
Use the client's --local option to override the federated view and get a local view of the given cluster.
クライアントの--localオプションを使用して、統合ビューをオーバーライドし、指定されたクラスターのローカルビューを取得します。
-
- FirstJobId
-
The job id to be used for the first submitted to Slurm without a
specific requested value.
特定の要求された値なしでSlurmに最初に送信されたときに使用されるジョブID。
Job id values generated will incremented by 1 for each subsequent job.
生成されたジョブID値は、後続のジョブごとに1ずつ増加します。
This may be used to provide a meta-scheduler with a job id space which is disjoint from the interactive jobs.
これは、インタラクティブなジョブから切り離されたジョブIDスペースをメタスケジューラに提供するために使用できます。
The default value is 1.
デフォルト値は1です。
Also see MaxJobId
MaxJobIdも参照してください
- GetEnvTimeout
-
Controls how long the job should wait (in seconds) to load the user's
environment before attempting to load it from a cache file.
キャッシュファイルからの読み込みを試みる前に、ジョブがユーザーの環境を読み込むために待機する時間(秒単位)を制御します。
Applies when the salloc or sbatch --get-user-env option is used.
sallocまたはsbatch --get-user-envオプションが使用されている場合に適用されます。
If set to 0 then always load the user's environment from the cache file.
0に設定すると、常にキャッシュファイルからユーザーの環境が読み込まれます。
The default value is 2 seconds.
デフォルト値は2秒です。
- GresTypes
-
A comma delimited list of generic resources to be managed (e.g.
GresTypes=gpu,mps).
管理する汎用リソースのコンマ区切りのリスト(GresTypes = gpu、mpsなど)。
These resources may have an associated GRES plugin of the same name providing additional functionality.
これらのリソースには、追加機能を提供する同じ名前のGRESプラグインが関連付けられている場合があります。
No generic resources are managed by default.
デフォルトでは、総称リソースは管理されません。
Ensure this parameter is consistent across all nodes in the cluster for proper operation.
適切な操作のために、このパラメーターがクラスター内のすべてのノードで一貫していることを確認してください。
The slurmctld daemon must be restarted for changes to this parameter to become effective.
このパラメーターの変更を有効にするには、slurmctldデーモンを再起動する必要があります。
- GroupUpdateForce
-
If set to a non-zero value, then information about which users are members
of groups allowed to use a partition will be updated periodically, even when
there have been no changes to the /etc/group file.
ゼロ以外の値に設定すると、パーティションの使用が許可されているグループのメンバーであるユーザーに関する情報は、/ etc / groupファイルに変更が加えられていない場合でも、定期的に更新されます。
If set to zero, group member information will be updated only after the /etc/group file is updated.
ゼロに設定すると、グループメンバー情報は、/ etc / groupファイルが更新された後にのみ更新されます。
The default value is 1.
デフォルト値は1です。
Also see the GroupUpdateTime parameter.
GroupUpdateTimeパラメータも参照してください。
- GroupUpdateTime
-
Controls how frequently information about which users are members of
groups allowed to use a partition will be updated, and how long user
group membership lists will be cached.
パーティションの使用が許可されているグループのメンバーであるユーザーに関する情報が更新される頻度、およびユーザーグループのメンバーシップリストがキャッシュされる期間を制御します。
The time interval is given in seconds with a default value of 600 seconds.
時間間隔は秒単位で指定され、デフォルト値は600秒です。
A value of zero will prevent periodic updating of group membership information.
値を0にすると、グループメンバーシップ情報が定期的に更新されなくなります。
Also see the GroupUpdateForce parameter.
GroupUpdateForceパラメータも参照してください。
- GpuFreqDef=[<type]=value>[,<type=value>]
-
Default GPU frequency to use when running a job step if it
has not been explicitly set using the --gpu-freq option.
--gpu-freqオプションを使用して明示的に設定されていない場合、ジョブステップの実行時に使用するデフォルトのGPU周波数。
This option can be used to independently configure the GPU and its memory frequencies.
このオプションは、GPUとそのメモリ周波数を個別に構成するために使用できます。
Defaults to "high,memory=high".
デフォルトは「high、memory = high」です。
After the job is completed, the frequencies of all affected GPUs will be reset to the highest possible values.
ジョブが完了すると、影響を受けるすべてのGPUの周波数が可能な最高値にリセットされます。
In some cases, system power caps may override the requested values.
場合によっては、システムの消費電力上限が要求された値を上書きすることがあります。
The field type can be "memory".
フィールドタイプは「メモリ」にすることができます。
If type is not specified, the GPU frequency is implied.
タイプが指定されていない場合、GPU周波数が暗示されます。
The value field can either be "low", "medium", "high", "highm1" or a numeric value in megahertz (MHz).
値フィールドには、「low」、「medium」、「high」、「highm1」、またはメガヘルツ(MHz)単位の数値を指定できます。
If the specified numeric value is not possible, a value as close as possible will be used.
指定された数値が不可能な場合は、できるだけ近い値が使用されます。
See below for definition of the values.
値の定義については、以下を参照してください。
Examples of use include "GpuFreqDef=medium,memory=high and "GpuFreqDef=450".
使用例には、「GpuFreqDef = medium、memory = highおよび「GpuFreqDef = 450」が含まれます。
Supported value definitions:
サポートされている値の定義:
- HealthCheckInterval
-
The interval in seconds between executions of HealthCheckProgram.
HealthCheckProgramの実行間の秒単位の間隔。
The default value is zero, which disables execution.
デフォルト値はゼロで、実行を無効にします。
- HealthCheckNodeState
-
Identify what node states should execute the HealthCheckProgram.
HealthCheckProgramを実行するノードの状態を特定します。
Multiple state values may be specified with a comma separator.
カンマ区切りで複数の状態値を指定できます。
The default value is ANY to execute on nodes in any state.
デフォルト値はANYで、任意の状態のノードで実行されます。
-
- ALLOC
-
Run on nodes in the ALLOC state (all CPUs allocated).
ALLOC状態のノードで実行されます(すべてのCPUが割り当てられます)。
- ANY
-
Run on nodes in any state.
任意の状態のノードで実行します。
- CYCLE
-
Rather than running the health check program on all nodes at the same time,
cycle through running on all compute nodes through the course of the
HealthCheckInterval.
すべてのノードでヘルスチェックプログラムを同時に実行するのではなく、HealthCheckIntervalの過程ですべての計算ノードで実行を繰り返します。
May be combined with the various node state options.
さまざまなノード状態オプションと組み合わせることができます。
- IDLE
-
Run on nodes in the IDLE state.
IDLE状態のノードで実行します。
- MIXED
-
Run on nodes in the MIXED state (some CPUs idle and other CPUs allocated).
MIXED状態のノードで実行します(一部のCPUはアイドル状態で、他のCPUは割り当てられています)。
-
- HealthCheckProgram
-
Fully qualified pathname of a script to execute as user root periodically
on all compute nodes that are not in the NOT_RESPONDING state.
NOT_RESPONDING状態ではないすべての計算ノードで定期的にユーザーrootとして実行するスクリプトの完全修飾パス名。
This program may be used to verify the node is fully operational and DRAIN the node or send email if a problem is detected.
このプログラムを使用して、ノードが完全に動作していることを確認し、ノードをドレインするか、問題が検出された場合に電子メールを送信できます。
Any action to be taken must be explicitly performed by the program (e.g. execute "scontrol update NodeName=foo State=drain Reason=tmp_file_system_full" to drain a node).
実行するアクションはすべてプログラムで明示的に実行する必要があります(たとえば、「scontrol update NodeName = foo State = drain Reason = tmp_file_system_full」を実行してノードをドレインします)。
The execution interval is controlled using the HealthCheckInterval parameter.
実行間隔は、HealthCheckIntervalパラメーターを使用して制御されます。
Note that the HealthCheckProgram will be executed at the same time on all nodes to minimize its impact upon parallel programs.
HealthCheckProgramは、並列プログラムへの影響を最小限に抑えるために、すべてのノードで同時に実行されることに注意してください。
This program is will be killed if it does not terminate normally within 60 seconds.
このプログラムは、60秒以内に正常に終了しない場合は強制終了されます。
This program will also be executed when the slurmd daemon is first started and before it registers with the slurmctld daemon.
このプログラムは、slurmdデーモンが最初に起動されたとき、およびslurmctldデーモンに登録される前にも実行されます。
By default, no program will be executed.
デフォルトでは、プログラムは実行されません。
- InactiveLimit
-
The interval, in seconds, after which a non-responsive job allocation
command (e.g. srun or salloc) will result in the job being
terminated.
応答しないジョブ割り当てコマンド(srunやsallocなど)によってジョブが終了するまでの間隔(秒単位)。
If the node on which the command is executed fails or the command abnormally terminates, this will terminate its job allocation.
コマンドを実行したノードに障害が発生した場合、またはコマンドが異常終了した場合は、ジョブの割り当てが終了します。
This option has no effect upon batch jobs.
このオプションは、バッチジョブには影響しません。
When setting a value, take into consideration that a debugger using srun to launch an application may leave the srun command in a stopped state for extended periods of time.
値を設定するときは、srunを使用してアプリケーションを起動するデバッガーが、srunコマンドを長時間停止状態のままにする可能性があることを考慮してください。
This limit is ignored for jobs running in partitions with the RootOnly flag set (the scheduler running as root will be responsible for the job).
この制限は、RootOnlyフラグが設定されているパーティションで実行されているジョブでは無視されます(rootとして実行されているスケジューラーがジョブを担当します)。
The default value is unlimited (zero) and may not exceed 65533 seconds.
デフォルト値は無制限(ゼロ)で、65533秒を超えることはできません。
- JobAcctGatherType
-
The job accounting mechanism type.
ジョブアカウンティングメカニズムタイプ。
Acceptable values at present include "jobacct_gather/linux" (for Linux systems) and is the recommended one, "jobacct_gather/cgroup" and "jobacct_gather/none" (no accounting data collected).
現在許容される値は「jobacct_gather / linux」(Linuxシステムの場合)であり、「jobacct_gather / cgroup」および「jobacct_gather / none」(アカウンティングデータは収集されません)の推奨値です。
The default value is "jobacct_gather/none".
デフォルト値は「jobacct_gather / none」です。
"jobacct_gather/cgroup" is a plugin for the Linux operating system that uses cgroups to collect accounting statistics.
「jobacct_gather / cgroup」は、cgroupを使用してアカウンティング統計を収集するLinuxオペレーティングシステム用のプラグインです。
The plugin collects the following statistics: From the cgroup memory subsystem: memory.usage_in_bytes (reported as 'pages') and rss from memory.stat (reported as 'rss').
プラグインは次の統計を収集します:cgroupメモリサブシステムから:memory.usage_in_bytes(「ページ」として報告)とmemory.statからのrss(「rss」として報告)。
From the cgroup cpuacct subsystem: user cpu time and system cpu time.
cgroup cpuacctサブシステムから:ユーザーCPU時間とシステムCPU時間。
No value is provided by cgroups for virtual memory size ('vsize').
仮想メモリサイズ( 'vsize')の値はcgroupによって提供されません。
In order to use the sstat tool "jobacct_gather/linux", or "jobacct_gather/cgroup" must be configured.
sstatツールを使用するには、「jobacct_gather / linux」または「jobacct_gather / cgroup」を構成する必要があります。
NOTE: Changing this configuration parameter changes the contents of the messages between Slurm daemons.
注:この構成パラメーターを変更すると、Slurmデーモン間のメッセージの内容が変更されます。
Any previously running job steps are managed by a slurmstepd daemon that will persist through the lifetime of that job step and not change its communication protocol.
以前に実行されたジョブステップはすべて、slurmstepdデーモンによって管理されます。このデーモンは、そのジョブステップのライフタイムを通じて存続し、通信プロトコルを変更しません。
Only change this configuration parameter when there are no running job steps.
実行中のジョブステップがない場合にのみ、この構成パラメーターを変更します。
- JobAcctGatherFrequency
-
The job accounting and profiling sampling intervals.
ジョブアカウンティングとプロファイリングのサンプリング間隔。
The supported format is follows:
サポートされている形式は次のとおりです。
-
- JobAcctGatherFrequency=<datatype>=<interval>
-
where <datatype>=<interval> specifies the task sampling
interval for the jobacct_gather plugin or a
sampling interval for a profiling type by the
acct_gather_profile plugin.
ここで、<datatype> = <interval>は、jobacct_gatherプラグインのタスクサンプリング間隔、またはacct_gather_profileプラグインによるプロファイリングタイプのサンプリング間隔を指定します。
Multiple, comma-separated <datatype>=<interval> intervals may be specified.
コンマで区切られた複数の<datatype> = <interval>間隔を指定できます。
Supported datatypes are as follows:
サポートされているデータ型は次のとおりです。
-
- task=<interval>
-
where <interval> is the task sampling interval in seconds
for the jobacct_gather plugins and for task
profiling by the acct_gather_profile plugin.
ここで、<interval>は、jobacct_gatherプラグインおよびacct_gather_profileプラグインによるタスクプロファイリングの秒単位のタスクサンプリング間隔です。
- energy=<interval>
-
where <interval> is the sampling interval in seconds
for energy profiling using the acct_gather_energy plugin
ここで、<interval>はacct_gather_energyプラグインを使用したエネルギープロファイリングのサンプリング間隔(秒)です
- network=<interval>
-
where <interval> is the sampling interval in seconds
for infiniband profiling using the acct_gather_interconnect
plugin.
ここで、<interval>は、acct_gather_interconnectプラグインを使用したinfinibandプロファイリングのサンプリング間隔(秒)です。
- filesystem=<interval>
-
where <interval> is the sampling interval in seconds
for filesystem profiling using the acct_gather_filesystem
plugin.
ここで、<interval>は、acct_gather_filesystemプラグインを使用したファイルシステムプロファイリングのサンプリング間隔(秒)です。
-
タスクのサンプリング間隔のデフォルト値は30秒です。
The default value for all other intervals is 0.
他のすべての間隔のデフォルト値は0です。
An interval of 0 disables sampling of the specified type.
間隔を0にすると、指定したタイプのサンプリングが無効になります。
If the task sampling interval is 0, accounting information is collected only at job termination (reducing Slurm interference with the job).
タスクのサンプリング間隔が0の場合、アカウンティング情報はジョブの終了時にのみ収集されます(ジョブとのSlurm干渉を減らします)。
Smaller (non-zero) values have a greater impact upon job performance, but a value of 30 seconds is not likely to be noticeable for applications having less than 10,000 tasks.
値が小さい(ゼロ以外の)場合、ジョブのパフォーマンスに大きな影響がありますが、30秒の値は、10,000タスク未満のアプリケーションでは目立ちません。
Users can independently override each interval on a per job basis using the --acctg-freq option when submitting the job.
ユーザーは、ジョブを送信するときに--acctg-freqオプションを使用して、ジョブごとに各間隔を個別に上書きできます。
-
- JobAcctGatherParams
-
Arbitrary parameters for the job account gather plugin
Acceptable values at present include:
ジョブアカウント収集プラグインの任意のパラメーター現在許容される値は次のとおりです。
-
- NoShared
-
Exclude shared memory from accounting.
共有メモリをアカウンティングから除外します。
- UsePss
-
Use PSS value instead of RSS to calculate real usage of memory.
RSSの代わりにPSS値を使用して、メモリの実際の使用量を計算します。
The PSS value will be saved as RSS.
PSS値はRSSとして保存されます。
- OverMemoryKill
-
Kill jobs or steps that are being detected to use more memory than requested
every time accounting information is gathered by the JobAcctGather plugin.
JobAcctGatherプラグインによってアカウンティング情報が収集されるたびに、要求されているよりも多くのメモリを使用することが検出されているジョブまたはステップを強制終了します。
This parameter should be used with caution because a job exceeding its memory allocation may affect other processes and/or machine health.
メモリ割り当てを超えるジョブは他のプロセスやマシンのヘルスに影響を与える可能性があるため、このパラメーターは注意して使用する必要があります。
NOTE: If available, it is recommended to limit memory by enabling task/cgroup in TaskPlugin and making use of ConstrainRAMSpace=yes cgroup.conf instead of using this JobAcctGather mechanism for memory enforcement, since the former has a lower resolution (JobAcctGatherFreq) and OOMs could happen at some point.
注:可能であれば、メモリの制限にこのJobAcctGatherメカニズムを使用する代わりに、TaskPluginでtask / cgroupを有効にし、ConstrainRAMSpace = yes cgroup.confを使用してメモリを制限することをお勧めします。ある時点で発生する可能性があります。
-
- JobCompHost
-
The name of the machine hosting the job completion database.
ジョブ完了データベースをホストしているマシンの名前。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see DefaultStorageHost.
DefaultStorageHostも参照してください。
- JobCompLoc
-
The fully qualified file name where job completion records are written
when the JobCompType is "jobcomp/filetxt" or the database where
job completion records are stored when the JobCompType is a
database, or an url with format http://yourelasticserver:port when
JobCompType is "jobcomp/elasticsearch".
JobCompTypeが "jobcomp / filetxt"の場合にジョブ完了レコードが書き込まれる完全修飾ファイル名、またはJobCompTypeがデータベースの場合にジョブ完了レコードが保存されるデータベース、またはJobCompTypeの場合はhttp:// yourelasticserver:port形式のURL 「jobcomp / elasticsearch」です。
NOTE: when you specify a URL for Elasticsearch, Slurm will remove any trailing slashes "/" from the configured URL and append "/slurm/jobcomp", which are the Elasticsearch index name (slurm) and mapping (jobcomp).
注:ElasticsearchのURLを指定すると、Slurmは構成されたURLから末尾のスラッシュ「/」を削除し、Elasticsearchインデックス名(slurm)とマッピング(jobcomp)である「/ slurm / jobcomp」を追加します。
NOTE: More information is available at the Slurm web site ( https://slurm.schedmd.com/elasticsearch.html ).
注:詳細については、Slurm Webサイト(https://slurm.schedmd.com/elasticsearch.html)を参照してください。
Also see DefaultStorageLoc.
DefaultStorageLocも参照してください。
- JobCompParams
-
Pass arbitrary text string to job completion plugin.
任意のテキスト文字列をジョブ完了プラグインに渡します。
Also see JobCompType.
JobCompTypeも参照してください。
- JobCompPass
-
The password used to gain access to the database to store the job
completion data.
ジョブ完了データを格納するためにデータベースにアクセスするために使用されるパスワード。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see DefaultStoragePass.
DefaultStoragePassも参照してください。
- JobCompPort
-
The listening port of the job completion database server.
ジョブ完了データベースサーバーのリスニングポート。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see DefaultStoragePort.
DefaultStoragePortも参照してください。
- JobCompType
-
The job completion logging mechanism type.
ジョブ完了ロギングメカニズムタイプ。
Acceptable values at present include "jobcomp/none", "jobcomp/elasticsearch", "jobcomp/filetxt", "jobcomp/lua", "jobcomp/mysql" and "jobcomp/script".
現在許容される値には、「jobcomp / none」、「jobcomp / elasticsearch」、「jobcomp / filetxt」、「jobcomp / lua」、「jobcomp / mysql」、「jobcomp / script」があります。
The default value is "jobcomp/none", which means that upon job completion the record of the job is purged from the system.
デフォルト値は「jobcomp / none」です。これは、ジョブの完了時にジョブのレコードがシステムから削除されることを意味します。
If using the accounting infrastructure this plugin may not be of interest since the information here is redundant.
会計インフラストラクチャを使用している場合、この情報は冗長であるため、このプラグインは重要ではない可能性があります。
The value "jobcomp/elasticsearch" indicates that a record of the job should be written to an Elasticsearch server specified by the JobCompLoc parameter.
値「jobcomp / elasticsearch」は、ジョブのレコードをJobCompLocパラメーターで指定されたElasticsearchサーバーに書き込む必要があることを示します。
NOTE: More information is available at the Slurm web site ( https://slurm.schedmd.com/elasticsearch.html ).
注:詳細については、Slurm Webサイト(https://slurm.schedmd.com/elasticsearch.html)を参照してください。
The value "jobcomp/filetxt" indicates that a record of the job should be written to a text file specified by the JobCompLoc parameter.
値「jobcomp / filetxt」は、ジョブのレコードをJobCompLocパラメーターで指定されたテキストファイルに書き込む必要があることを示します。
The value "jobcomp/lua" indicates that a record of the job should processed by the "jobcomp.lua" script located in the default script directory (typically the subdirectory "etc" of the installation directory).
値「jobcomp / lua」は、ジョブのレコードがデフォルトのスクリプトディレクトリ(通常、インストールディレクトリのサブディレクトリ「etc」)にある「jobcomp.lua」スクリプトによって処理されることを示します。
The value "jobcomp/mysql" indicates that a record of the job should be written to a MySQL or MariaDB database specified by the JobCompLoc parameter.
値「jobcomp / mysql」は、ジョブのレコードを、JobCompLocパラメータで指定されたMySQLまたはMariaDBデータベースに書き込む必要があることを示します。
The value "jobcomp/script" indicates that a script specified by the JobCompLoc parameter is to be executed with environment variables indicating the job information.
値「jobcomp / script」は、JobCompLocパラメーターで指定されたスクリプトが、ジョブ情報を示す環境変数を使用して実行されることを示します。
- JobCompUser
-
The user account for accessing the job completion database.
ジョブ完了データベースにアクセスするためのユーザーアカウント。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see DefaultStorageUser.
DefaultStorageUserも参照してください。
- JobContainerType
-
Identifies the plugin to be used for job tracking.
ジョブの追跡に使用するプラグインを識別します。
The slurmd daemon must be restarted for a change in JobContainerType to take effect.
JobContainerTypeの変更を有効にするには、slurmdデーモンを再起動する必要があります。
NOTE: The JobContainerType applies to a job allocation, while ProctrackType applies to job steps.
注:JobContainerTypeはジョブ割り当てに適用され、ProctrackTypeはジョブステップに適用されます。
Acceptable values at present include:
現在許容できる値は次のとおりです。
- JobFileAppend
-
This option controls what to do if a job's output or error file
exist when the job is started.
このオプションは、ジョブの開始時にジョブの出力またはエラーファイルが存在する場合の処理を制御します。
If JobFileAppend is set to a value of 1, then append to the existing file.
JobFileAppendが値1に設定されている場合は、既存のファイルに追加します。
By default, any existing file is truncated.
デフォルトでは、既存のファイルは切り捨てられます。
- JobRequeue
-
This option controls the default ability for batch jobs to be requeued.
このオプションは、バッチジョブがキューに再登録されるデフォルトの機能を制御します。
Jobs may be requeued explicitly by a system administrator, after node failure, or upon preemption by a higher priority job.
ノード障害後、または優先順位の高いジョブによるプリエンプションの際に、ジョブはシステム管理者によって明示的に再キューイングされる場合があります。
If JobRequeue is set to a value of 1, then batch job may be requeued unless explicitly disabled by the user.
JobRequeueの値が1に設定されている場合、ユーザーが明示的に無効にしない限り、バッチジョブはキューに再登録されます。
If JobRequeue is set to a value of 0, then batch job will not be requeued unless explicitly enabled by the user.
JobRequeueの値が0に設定されている場合、ユーザーが明示的に有効にしない限り、バッチジョブはキューに再登録されません。
Use the sbatch --no-requeue or --requeue option to change the default behavior for individual jobs.
個々のジョブのデフォルトの動作を変更するには、sbatch --no-requeueまたは--requeueオプションを使用します。
The default value is 1.
デフォルト値は1です。
- JobSubmitPlugins
-
A comma delimited list of job submission plugins to be used.
使用するジョブ送信プラグインのカンマ区切りのリスト。
The specified plugins will be executed in the order listed.
指定されたプラグインは、リストされている順序で実行されます。
These are intended to be site-specific plugins which can be used to set default job parameters and/or logging events.
これらは、デフォルトのジョブパラメータやロギングイベントを設定するために使用できるサイト固有のプラグインを意図しています。
Sample plugins available in the distribution include "all_partitions", "defaults", "logging", "lua", and "partition".
ディストリビューションで使用可能なサンプルプラグインには、「all_partitions」、「defaults」、「logging」、「lua」、および「partition」が含まれます。
For examples of use, see the Slurm code in "src/plugins/job_submit" and "contribs/lua/job_submit*.lua" then modify the code to satisfy your needs.
使用例については、「src / plugins / job_submit」および「contribs / lua / job_submit * .lua」のSlurmコードを参照し、必要に応じてコードを変更してください。
Slurm can be configured to use multiple job_submit plugins if desired, however the lua plugin will only execute one lua script named "job_submit.lua" located in the default script directory (typically the subdirectory "etc" of the installation directory).
Slurmは、必要に応じて複数のjob_submitプラグインを使用するように構成できますが、luaプラグインは、デフォルトのスクリプトディレクトリ(通常、インストールディレクトリのサブディレクトリ "etc")にある "job_submit.lua"という名前の1つのluaスクリプトのみを実行します。
No job submission plugins are used by default.
デフォルトでは、ジョブ送信プラグインは使用されません。
- KeepAliveTime
-
Specifies how long sockets communications used between the srun command and its
slurmstepd process are kept alive after disconnect.
srunコマンドとそのslurmstepdプロセス間で使用されるソケット通信が、切断後に存続する期間を指定します。
Longer values can be used to improve reliability of communications in the event of network failures.
より長い値を使用すると、ネットワーク障害が発生した場合の通信の信頼性を向上させることができます。
The default value leaves the system default value.
デフォルト値はシステムのデフォルト値のままです。
The value may not exceed 65533.
値は65533を超えることはできません。
- KillOnBadExit
-
If set to 1, a step will be terminated immediately if any task is
crashed or aborted, as indicated by a non-zero exit code.
1に設定すると、ゼロ以外の終了コードで示されるように、タスクがクラッシュまたは中止された場合、ステップは直ちに終了します。
With the default value of 0, if one of the processes is crashed or aborted the other processes will continue to run while the crashed or aborted process waits.
デフォルト値0では、プロセスの1つがクラッシュまたは中止された場合、クラッシュまたは中止されたプロセスが待機している間、他のプロセスは引き続き実行されます。
The user can override this configuration parameter by using srun's -K, --kill-on-bad-exit.
ユーザーは、srunの-K、-kill-on-bad-exitを使用して、この構成パラメーターをオーバーライドできます。
- KillWait
-
The interval, in seconds, given to a job's processes between the
SIGTERM and SIGKILL signals upon reaching its time limit.
時間制限に達したときにSIGTERMシグナルとSIGKILLシグナルの間でジョブのプロセスに与えられる間隔(秒単位)。
If the job fails to terminate gracefully in the interval specified, it will be forcibly terminated.
指定された間隔でジョブが正常に終了しない場合、ジョブは強制終了されます。
The default value is 30 seconds.
デフォルト値は30秒です。
The value may not exceed 65533.
値は65533を超えることはできません。
- NodeFeaturesPlugins
-
Identifies the plugins to be used for support of node features which can
change through time.
時間の経過とともに変化するノード機能のサポートに使用するプラグインを識別します。
For example, a node which might be booted with various BIOS setting.
たとえば、さまざまなBIOS設定で起動される可能性のあるノード。
This is supported through the use of a node's active_features and available_features information.
これは、ノードのactive_featuresおよびavailable_features情報を使用してサポートされます。
Acceptable values at present include:
現在許容できる値は次のとおりです。
- LaunchParameters
-
Identifies options to the job launch plugin.
ジョブ起動プラグインのオプションを識別します。
Acceptable values include:
許容値は次のとおりです。
-
- batch_step_set_cpu_freq
-
Set the cpu frequency for the batch step from given --cpu-freq, or
slurm.conf CpuFreqDef, option.
指定された--cpu-freqまたはslurm.conf CpuFreqDefオプションから、バッチステップのCPU周波数を設定します。
By default only steps started with srun will utilize the cpu freq setting options.
デフォルトでは、srunで開始されたステップのみがcpu freq設定オプションを利用します。
NOTE: If you are using srun to launch your steps inside a batch script (advised) this option will create a situation where you may have multiple agents setting the cpu_freq as the batch step usually runs on the same resources one or more steps the sruns in the script will create.
注:srunを使用してバッチスクリプト内でステップを起動する場合(推奨)、このオプションを使用すると、cpu_freqを設定する複数のエージェントが存在する可能性があります。バッチステップは通常、同じリソースで実行され、1つ以上のステップで実行されます。スクリプトが作成します。
- cray_net_exclusive
-
Allow jobs on a Cray Native cluster exclusive access to network resources.
Cray Nativeクラスター上のジョブにネットワークリソースへの排他的アクセスを許可します。
This should only be set on clusters providing exclusive access to each node to a single job at once, and not using parallel steps within the job, otherwise resources on the node can be oversubscribed.
これは、各ノードへの排他的アクセスを単一のジョブに同時に提供するクラスターでのみ設定する必要があります。ジョブ内で並列ステップを使用しないでください。そうしないと、ノード上のリソースがオーバーサブスクライブされる可能性があります。
- enable_nss_slurm
-
Permits passwd and group resolution for a job to be serviced by slurmstepd rather
than requiring a lookup from a network based service.
ネットワークベースのサービスからのルックアップを要求するのではなく、slurmstepdがサービスを提供するジョブのpasswdおよびグループ解決を許可します。
See https://slurm.schedmd.com/nss_slurm.html for more information.
詳細については、https://slurm.schedmd.com/nss_slurm.htmlを参照してください。
- lustre_no_flush
-
If set on a Cray Native cluster, then do not flush the Lustre cache on job step
completion.
Cray Nativeクラスターで設定されている場合、ジョブステップの完了時にLustreキャッシュをフラッシュしないでください。
This setting will only take effect after reconfiguring, and will only take effect for newly launched jobs.
この設定は再構成後にのみ有効になり、新しく起動されたジョブに対してのみ有効になります。
- mem_sort
-
Sort NUMA memory at step start.
ステップの開始時にNUMAメモリをソートします。
User can override this default with SLURM_MEM_BIND environment variable or --mem-bind=nosort command line option.
ユーザーは、SLURM_MEM_BIND環境変数または--mem-bind = nosortコマンドラインオプションを使用して、このデフォルトを上書きできます。
- disable_send_gids
-
By default the slurmctld will lookup and send the user_name and extended gids
for a job, rather than individual on each node as part of each task launch.
デフォルトでは、slurmctldは、各タスクの起動の一部として各ノードで個別ではなく、ジョブのuser_nameおよび拡張されたGISを検索して送信します。
Which avoids issues around name service scalability when launching jobs involving many nodes.
これにより、多数のノードを含むジョブを起動するときに、ネームサービスのスケーラビリティに関する問題を回避できます。
Using this option will reverse this functionality.
このオプションを使用すると、この機能が逆になります。
- slurmstepd_memlock
-
Lock the slurmstepd process's current memory in RAM.
slurmstepdプロセスの現在のメモリをRAMにロックします。
- slurmstepd_memlock_all
-
Lock the slurmstepd process's current and future memory in RAM.
slurmstepdプロセスの現在および将来のメモリをRAMにロックします。
- test_exec
-
Have srun verify existence of the executable program along with user
execute permission on the node where srun was called before attempting to
launch it on nodes in the step.
ステップのノードで実行を試みる前に、srunが呼び出されたノードで、実行可能プログラムの存在とユーザー実行許可をsrunに確認させます。
-
- LaunchType
-
Identifies the mechanism to be used to launch application tasks.
アプリケーションタスクの起動に使用されるメカニズムを識別します。
Acceptable values include:
許容値は次のとおりです。
- Licenses
-
Specification of licenses (or other resources available on all
nodes of the cluster) which can be allocated to jobs.
ジョブに割り当てることができるライセンス(またはクラスターのすべてのノードで使用可能な他のリソース)の仕様。
License names can optionally be followed by a colon and count with a default count of one.
ライセンス名の後にオプションでコロンを付けることができ、デフォルトのカウントは1です。
Multiple license names should be comma separated (e.g. "Licenses=foo:4,bar").
複数のライセンス名はカンマで区切る必要があります(例: "Licenses = foo:4、bar")。
Note that Slurm prevents jobs from being scheduled if their required license specification is not available.
必要なライセンス仕様が利用できない場合、Slurmはジョブがスケジュールされないことに注意してください。
Slurm does not prevent jobs from using licenses that are not explicitly listed in the job submission specification.
Slurmは、ジョブがジョブ送信仕様に明示的にリストされていないライセンスを使用するのを防ぎません。
- LogTimeFormat
-
Format of the timestamp in slurmctld and slurmd log files.
slurmctldおよびslurmdログファイルのタイムスタンプの形式。
Accepted values are "iso8601", "iso8601_ms", "rfc5424", "rfc5424_ms", "clock", "short" and "thread_id".
受け入れられる値は、「iso8601」、「iso8601_ms」、「rfc5424」、「rfc5424_ms」、「clock」、「short」、および「thread_id」です。
The values ending in "_ms" differ from the ones without in that fractional seconds with millisecond precision are printed.
「_ms」で終わる値は、ミリ秒の精度で秒の小数部が印刷されるという点で、値のないものとは異なります。
The default value is "iso8601_ms".
デフォルト値は「iso8601_ms」です。
The "rfc5424" formats are the same as the "iso8601" formats except that the timezone value is also shown.
"rfc5424"形式は、タイムゾーン値も表示されることを除いて、 "iso8601"形式と同じです。
The "clock" format shows a timestamp in microseconds retrieved with the C standard clock() function.
「クロック」形式は、C標準のclock()関数で取得したタイムスタンプをマイクロ秒単位で示します。
The "short" format is a short date and time format.
「短い」形式は、短い日付と時刻の形式です。
The "thread_id" format shows the timestamp in the C standard ctime() function form without the year but including the microseconds, the daemon's process ID and the current thread name and ID.
「thread_id」形式は、C標準のctime()関数形式でタイムスタンプを示しますが、年は含まれませんが、マイクロ秒、デーモンのプロセスID、現在のスレッド名とIDが含まれます。
- MailDomain
-
Domain name to qualify usernames if email address is not explicitly given
with the "--mail-user" option.
「--mail-user」オプションでメールアドレスが明示的に指定されていない場合にユーザー名を修飾するドメイン名。
If unset, the local MTA will need to qualify local address itself.
未設定の場合、ローカルMTAはローカルアドレス自体を修飾する必要があります。
Changes to MailDomain will only affect new jobs.
MailDomainへの変更は、新しいジョブにのみ影響します。
- MailProg
-
Fully qualified pathname to the program used to send email per user request.
ユーザー要求ごとに電子メールを送信するために使用されるプログラムへの完全修飾パス名。
The default value is "/bin/mail" (or "/usr/bin/mail" if "/bin/mail" does not exist but "/usr/bin/mail" does exist).
デフォルト値は「/ bin / mail」です(「/ bin / mail」が存在せず「/ usr / bin / mail」が存在する場合は「/ usr / bin / mail」)。
- MaxArraySize
-
The maximum job array size.
ジョブ配列の最大サイズ。
The maximum job array task index value will be one less than MaxArraySize to allow for an index value of zero.
ジョブ配列のタスクインデックスの最大値は、インデックス値がゼロになるように、MaxArraySizeよりも1つ小さくなります。
Configure MaxArraySize to 0 in order to disable job array use.
ジョブ配列の使用を無効にするには、MaxArraySizeを0に構成します。
The value may not exceed 4000001.
値は4000001を超えることはできません。
The value of MaxJobCount should be much larger than MaxArraySize.
MaxJobCountの値は、MaxArraySizeよりもはるかに大きくする必要があります。
The default value is 1001.
デフォルト値は1001です。
- MaxDBDMsgs
-
When communication to the SlurmDBD is not possible the slurmctld will queue messages meant to processed when the the SlurmDBD is available again.
SlurmDBDとの通信が不可能な場合、slurmctldは、SlurmDBDが再び使用可能になったときに、処理対象のメッセージをキューに入れます。
In order to avoid running out of memory the slurmctld will only queue so many messages.
メモリ不足を回避するために、slurmctldは非常に多くのメッセージのみをキューに入れます。
The default value is 10000, or MaxJobCount * 2 + Node Count * 4, whichever is greater.
デフォルト値は10000、またはMaxJobCount * 2 + Node Count * 4のいずれか大きい方です。
The value can not be less than 10000.
値は10000以上にする必要があります。
- MaxJobCount
-
The maximum number of jobs Slurm can have in its active database
at one time.
Slurmが一度にアクティブデータベースに保持できるジョブの最大数。
Set the values of MaxJobCount and MinJobAge to ensure the slurmctld daemon does not exhaust its memory or other resources.
MaxJobCountとMinJobAgeの値を設定して、slurmctldデーモンがメモリやその他のリソースを使い果たしないようにします。
Once this limit is reached, requests to submit additional jobs will fail.
この制限に達すると、追加のジョブを送信する要求は失敗します。
The default value is 10000 jobs.
デフォルト値は10000ジョブです。
NOTE: Each task of a job array counts as one job even though they will not occupy separate job records until modified or initiated.
注:ジョブ配列の各タスクは、変更または開始されるまで個別のジョブレコードを占有しませんが、1つのジョブとしてカウントされます。
Performance can suffer with more than a few hundred thousand jobs.
パフォーマンスは、数十万を超えるジョブで低下する可能性があります。
Setting per MaxSubmitJobs per user is generally valuable to prevent a single user from filling the system with jobs.
ユーザーごとのMaxSubmitJobsごとの設定は、一般に、1人のユーザーがシステムをジョブでいっぱいにするのを防ぐために役立ちます。
This is accomplished using Slurm's database and configuring enforcement of resource limits.
これは、Slurmのデータベースを使用して、リソース制限の実施を構成することで達成されます。
This value may not be reset via "scontrol reconfig".
この値は、「scontrol reconfig」を介してリセットできません。
It only takes effect upon restart of the slurmctld daemon.
slurmctldデーモンの再起動時にのみ有効になります。
- MaxJobId
-
The maximum job id to be used for jobs submitted to Slurm without a specific
requested value.
特定の要求値なしでSlurmに送信されたジョブに使用される最大ジョブID。
Job ids are unsigned 32bit integers with the first 26 bits reserved for local job ids and the remaining 6 bits reserved for a cluster id to identify a federated job's origin.
ジョブIDは符号なし32ビット整数で、最初の26ビットはローカルジョブID用に予約され、残りの6ビットはフェデレーションジョブの発信元を識別するためにクラスターID用に予約されています。
The maximun allowed local job id is 67,108,863 (0x3FFFFFF).
最大許容ローカルジョブIDは67,108,863(0x3FFFFFF)です。
The default value is 67,043,328 (0x03ff0000).
デフォルト値は67,043,328(0x03ff0000)です。
MaxJobId only applies to the local job id and not the federated job id.
MaxJobIdはローカルジョブIDにのみ適用され、フェデレーションジョブIDには適用されません。
Job id values generated will be incremented by 1 for each subsequent job.
生成されたジョブID値は、後続のジョブごとに1ずつ増加します。
Once MaxJobId is reached, the next job will be assigned FirstJobId.
MaxJobIdに達すると、次のジョブにFirstJobIdが割り当てられます。
Federated jobs will always have a job ID of 67,108,865 or higher.
統合されたジョブのジョブIDは常に67,108,865以上になります。
Also see FirstJobId.
FirstJobIdも参照してください。
- MaxMemPerCPU
-
Maximum real memory size available per allocated CPU in megabytes.
割り当てられたCPUごとに使用可能な実メモリの最大サイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
MaxMemPerCPU would generally be used if individual processors are allocated to jobs (SelectType=select/cons_res or SelectType=select/cons_tres).
MaxMemPerCPUは通常、個々のプロセッサがジョブに割り当てられている場合に使用されます(SelectType = select / cons_resまたはSelectType = select / cons_tres)。
The default value is 0 (unlimited).
デフォルト値は0(無制限)です。
Also see DefMemPerCPU, DefMemPerGPU and MaxMemPerNode.
DefMemPerCPU、DefMemPerGPU、MaxMemPerNodeもご覧ください。
MaxMemPerCPU and MaxMemPerNode are mutually exclusive.
MaxMemPerCPUとMaxMemPerNodeは相互に排他的です。
NOTE: If a job specifies a memory per CPU limit that exceeds this system limit, that job's count of CPUs per task will try to automatically increase.
注:ジョブがこのシステム制限を超えるCPUあたりのメモリ制限を指定している場合、そのジョブのタスクあたりのCPU数は自動的に増加しようとします。
This may result in the job failing due to CPU count limits.
これにより、CPU数の制限が原因でジョブが失敗する可能性があります。
This auto-adjustment feature is a best-effort one and optimal assignment is not guaranteed due to the possibility of having heterogeneous configurations and multi-partition/qos jobs.
この自動調整機能はベストエフォート型であり、異種構成とマルチパーティション/ QOSジョブが存在する可能性があるため、最適な割り当ては保証されません。
If this is a concern it is advised to use a job submit LUA plugin instead to enforce auto-adjustments to your specific needs.
これが問題になる場合は、代わりにジョブ送信LUAプラグインを使用して、特定のニーズに合わせて自動調整を実施することをお勧めします。
- MaxMemPerNode
-
Maximum real memory size available per allocated node in megabytes.
割り当てられたノードごとに使用可能な最大実メモリサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
MaxMemPerNode would generally be used if whole nodes are allocated to jobs (SelectType=select/linear) and resources are over-subscribed (OverSubscribe=yes or OverSubscribe=force).
MaxMemPerNodeは通常、ノード全体がジョブに割り当てられ(SelectType = select / linear)、リソースがオーバーサブスクライブされている(OverSubscribe = yesまたはOverSubscribe = force)場合に使用されます。
The default value is 0 (unlimited).
デフォルト値は0(無制限)です。
Also see DefMemPerNode and MaxMemPerCPU.
DefMemPerNodeおよびMaxMemPerCPUも参照してください。
MaxMemPerCPU and MaxMemPerNode are mutually exclusive.
MaxMemPerCPUとMaxMemPerNodeは相互に排他的です。
- MaxStepCount
-
The maximum number of steps that any job can initiate.
ジョブが開始できるステップの最大数。
This parameter is intended to limit the effect of bad batch scripts.
このパラメーターは、不適切なバッチスクリプトの影響を制限するためのものです。
The default value is 40000 steps.
デフォルト値は40000ステップです。
- MaxTasksPerNode
-
Maximum number of tasks Slurm will allow a job step to spawn
on a single node.
タスクの最大数Slurmは、単一のノードでジョブステップを生成できるようにします。
The default MaxTasksPerNode is 512.
デフォルトのMaxTasksPerNodeは512です。
May not exceed 65533.
65533を超えることはできません。
- MCSParameters
-
MCS = Multi-Category Security
MCS Plugin Parameters.
MCS = Multi-Category Security MCSプラグインパラメータ。
The supported parameters are specific to the MCSPlugin.
サポートされるパラメータは、MCSPluginに固有です。
Changes to this value take effect when the Slurm daemons are reconfigured.
この値の変更は、Slurmデーモンが再構成されたときに有効になります。
More information about MCS is available here <https://slurm.schedmd.com/mcs.html>.
MCSの詳細については、<https://slurm.schedmd.com/mcs.html>を参照してください。
- MCSPlugin
-
MCS = Multi-Category Security : associate a security label to jobs and ensure
that nodes can only be shared among jobs using the same security label.
MCS = Multi-Category Security:セキュリティラベルをジョブに関連付け、ノードが同じセキュリティラベルを使用するジョブ間でのみ共有できることを確認します。
Acceptable values include:
許容値は次のとおりです。
-
- mcs/none
-
is the default value.
デフォルト値です。
No security label associated with jobs, no particular security restriction when sharing nodes among jobs.
ジョブに関連付けられたセキュリティラベルはなく、ジョブ間でノードを共有する場合の特定のセキュリティ制限はありません。
- mcs/account
-
only users with the same account can share the nodes (requires enabling of accounting).
同じアカウントを持つユーザーのみがノードを共有できます(アカウンティングを有効にする必要があります)。
- mcs/group
-
only users with the same group can share the nodes.
同じグループを持つユーザーのみがノードを共有できます。
- mcs/user
-
a node cannot be shared with other users.
ノードを他のユーザーと共有することはできません。
-
- MessageTimeout
-
Time permitted for a round-trip communication to complete
in seconds.
往復通信が秒単位で完了するまでの時間。
Default value is 10 seconds.
デフォルト値は10秒です。
For systems with shared nodes, the slurmd daemon could be paged out and necessitate higher values.
共有ノードを持つシステムの場合、slurmdデーモンがページアウトされ、より高い値が必要になる可能性があります。
- MinJobAge
-
The minimum age of a completed job before its record is purged from
Slurm's active database.
レコードがSlurmのアクティブデータベースから削除されるまでの、完了したジョブの最小経過時間。
Set the values of MaxJobCount and to ensure the slurmctld daemon does not exhaust its memory or other resources.
MaxJobCountの値を設定し、slurmctldデーモンがメモリや他のリソースを使い果たしないようにします。
The default value is 300 seconds.
デフォルト値は300秒です。
A value of zero prevents any job record purging.
値を0にすると、ジョブレコードが削除されなくなります。
Jobs are not purged during a backfill cycle, so it can take longer than MinJobAge seconds to purge a job if using the backfill scheduling plugin.
ジョブはバックフィルサイクル中にパージされないため、バックフィルスケジューリングプラグインを使用している場合、ジョブをパージするのにMinJobAge秒より長くかかる場合があります。
In order to eliminate some possible race conditions, the minimum non-zero value for MinJobAge recommended is 2.
いくつかの可能な競合状態を排除するために、MinJobAgeの推奨される最小のゼロ以外の値は2です。
- MpiDefault
-
Identifies the default type of MPI to be used.
使用するMPIのデフォルトのタイプを識別します。
Srun may override this configuration parameter in any case.
いずれにしても、Srunはこの構成パラメーターをオーバーライドできます。
Currently supported versions include: pmi2, pmix, and none (default, which works for many other versions of MPI).
現在サポートされているバージョンには、pmi2、pmix、およびnone(デフォルト、他の多くのバージョンのMPIで機能するデフォルト)があります。
More information about MPI use is available here mpi_guide.
MPIの使用の詳細については、mpi_guideを参照してください。
- MpiParams
-
MPI parameters.
MPIパラメータ。
Used to identify ports used by older versions of OpenMPI and native Cray systems.
古いバージョンのOpenMPIおよびネイティブCrayシステムで使用されているポートを識別するために使用されます。
The input format is "ports=12000-12999" to identify a range of communication ports to be used.
入力形式は「ports = 12000-12999」で、使用する通信ポートの範囲を特定します。
NOTE: This is not needed for modern versions of OpenMPI, taking it out can cause a small boost in scheduling performance.
注:これはOpenMPIの最新バージョンでは必要ありません。削除すると、スケジューリングパフォーマンスが少し向上する可能性があります。
NOTE: This is require for Cray's PMI.
注:これはCrayのPMIに必要です。
- MsgAggregationParams
-
Message aggregation parameters.
メッセージ集約パラメーター。
Message aggregation is an optional feature that may improve system performance by reducing the number of separate messages passed between nodes.
メッセージの集約は、ノード間で渡される個別のメッセージの数を減らすことでシステムのパフォーマンスを向上させるオプション機能です。
The feature works by routing messages through one or more message collector nodes between their source and destination nodes.
この機能は、送信元ノードと宛先ノード間の1つ以上のメッセージコレクタノードを介してメッセージをルーティングすることによって機能します。
At each collector node, messages with the same destination received during a defined message collection window are packaged into a single composite message.
各コレクターノードでは、定義されたメッセージ収集ウィンドウの間に受信された同じ宛先を持つメッセージは、単一の複合メッセージにパッケージ化されます。
When the window expires, the composite message is sent to the next collector node on the route to its destination.
ウィンドウが期限切れになると、複合メッセージは、その宛先へのルート上の次のコレクターノードに送信されます。
The route between each source and destination node is provided by the Route plugin.
各ソースノードと宛先ノード間のルートは、Routeプラグインによって提供されます。
When a composite message is received at its destination node, the original messages are extracted and processed as if they had been sent directly.
宛先ノードで複合メッセージを受信すると、元のメッセージが抽出され、直接送信されたかのように処理されます。
Currently, the only message types supported by message aggregation are the node registration, batch script completion, step completion, and epilog complete messages.
現在、メッセージ集約でサポートされているメッセージタイプは、ノード登録、バッチスクリプト完了、ステップ完了、およびエピローグ完了メッセージのみです。
Since the aggregation node address is set resolving the hostname at slurmd start in each node, using this feature in non-flat networks is not possible.
集約ノードのアドレスは、各ノードのslurmdの開始時にホスト名を解決するように設定されているため、非フラットネットワークでこの機能を使用することはできません。
For example, if slurmctld is in a different subnetwork than compute nodes and node addresses are resolved differently the controller than in the compute nodes, you may face communication issues.
たとえば、slurmctldが計算ノードとは異なるサブネットワークにあり、ノードアドレスの解決が計算ノードとは異なる場合、通信の問題が発生する可能性があります。
In some cases it may be useful to set CommunicationParameters=NoInAddrAny to make all daemons communicate through the same network.
すべてのデーモンが同じネットワークを介して通信するようにCommunicationParameters = NoInAddrAnyを設定すると便利な場合があります。
The format for this parameter is as follows:
このパラメーターの形式は次のとおりです。
WindowMsgsまたはWindowTimeに到達すると、ウィンドウが期限切れになります。
By default, message aggregation is disabled.
デフォルトでは、メッセージ集約は無効になっています。
To enable the feature, set WindowMsgs to a value greater than 1.
この機能を有効にするには、WindowMsgsを1より大きい値に設定します。
The default value for WindowTime is 100 milliseconds.
WindowTimeのデフォルト値は100ミリ秒です。
- OverTimeLimit
-
Number of minutes by which a job can exceed its time limit before
being canceled.
ジョブがキャンセルされるまでの時間制限を超過できる分数。
Normally a job's time limit is treated as a hard limit and the job will be killed upon reaching that limit.
通常、ジョブの時間制限はハード制限として扱われ、その制限に達するとジョブは強制終了されます。
Configuring OverTimeLimit will result in the job's time limit being treated like a soft limit.
OverTimeLimitを構成すると、ジョブの時間制限がソフト制限のように扱われます。
Adding the OverTimeLimit value to the soft time limit provides a hard time limit, at which point the job is canceled.
ソフト時間制限にOverTimeLimit値を追加すると、ハード時間制限が提供され、その時点でジョブがキャンセルされます。
This is particularly useful for backfill scheduling, which bases upon each job's soft time limit.
これは、各ジョブのソフト時間制限に基づくバックフィルスケジューリングに特に役立ちます。
The default value is zero.
デフォルト値はゼロです。
May not exceed exceed 65533 minutes.
65533分を超えることはできません。
A value of "UNLIMITED" is also supported.
「UNLIMITED」の値もサポートされています。
- PluginDir
-
Identifies the places in which to look for Slurm plugins.
Slurmプラグインを探す場所を特定します。
This is a colon-separated list of directories, like the PATH environment variable.
これは、PATH環境変数のように、コロンで区切られたディレクトリのリストです。
The default value is "/usr/local/lib/slurm".
デフォルト値は「/ usr / local / lib / slurm」です。
- PlugStackConfig
-
Location of the config file for Slurm stackable plugins that use
the Stackable Plugin Architecture for Node job (K)control (SPANK).
ノードジョブのスタッカブルプラグインアーキテクチャ(K)コントロール(SPANK)を使用するSlurmスタッカブルプラグインの構成ファイルの場所。
This provides support for a highly configurable set of plugins to be called before and/or after execution of each task spawned as part of a user's job step.
これにより、ユーザーのジョブステップの一部として生成された各タスクの実行前または実行後に呼び出される高度に設定可能なプラグインのセットがサポートされます。
Default location is "plugstack.conf" in the same directory as the system slurm.conf.
デフォルトの場所は、システムslurm.confと同じディレクトリの「plugstack.conf」です。
For more information on SPANK plugins, see the spank(8) manual.
SPANKプラグインの詳細については、spank(8)マニュアルを参照してください。
- PowerParameters
-
System power management parameters.
システム電源管理パラメーター。
The supported parameters are specific to the PowerPlugin.
サポートされるパラメーターは、PowerPluginに固有です。
Changes to this value take effect when the Slurm daemons are reconfigured.
この値の変更は、Slurmデーモンが再構成されたときに有効になります。
More information about system power management is available here <https://slurm.schedmd.com/power_mgmt.html>.
システムの電源管理の詳細については、<https://slurm.schedmd.com/power_mgmt.html>を参照してください。
Options current supported by any plugins are listed below.
プラグインで現在サポートされているオプションを以下に示します。
-
- balance_interval=#
-
Specifies the time interval, in seconds, between attempts to rebalance power
caps across the nodes.
ノード間で消費電力上限を再調整する試行間の時間間隔を秒単位で指定します。
This also controls the frequency at which Slurm attempts to collect current power consumption data (old data may be used until new data is available from the underlying infrastructure and values below 10 seconds are not recommended for Cray systems).
これは、Slurmが現在の電力消費データを収集しようとする頻度も制御します(基盤となるインフラストラクチャから新しいデータが利用可能になるまで古いデータを使用でき、Crayシステムでは10秒未満の値は推奨されません)。
The default value is 30 seconds.
デフォルト値は30秒です。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- capmc_path=
-
Specifies the absolute path of the capmc command.
capmcコマンドの絶対パスを指定します。
The default value is "/opt/cray/capmc/default/bin/capmc".
デフォルト値は「/ opt / cray / capmc / default / bin / capmc」です。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- cap_watts=#
-
Specifies the total power limit to be established across all compute nodes
managed by Slurm.
Slurmが管理するすべての計算ノードにわたって確立される総電力制限を指定します。
A value of 0 sets every compute node to have an unlimited cap.
値0は、すべての計算ノードに無制限の上限を設定します。
The default value is 0.
デフォルト値は0です。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- decrease_rate=#
-
Specifies the maximum rate of change in the power cap for a node where the
actual power usage is below the power cap by an amount greater than
lower_threshold (see below).
実際の電力使用量が、lower_thresholdよりも大きい量だけ電力制限を下回っているノードの電力制限の最大変化率を指定します(以下を参照)。
Value represents a percentage of the difference between a node's minimum and maximum power consumption.
値は、ノードの最小電力消費量と最大電力消費量の差の割合を表します。
The default value is 50 percent.
デフォルト値は50%です。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- get_timeout=#
-
Amount of time allowed to get power state information in milliseconds.
電源状態情報を取得するために許可される時間(ミリ秒単位)。
The default value is 5,000 milliseconds or 5 seconds.
デフォルト値は5,000ミリ秒または5秒です。
Supported by the power/cray_aries plugin and represents the time allowed for the capmc command to respond to various "get" options.
power / cray_ariesプラグインでサポートされ、capmcコマンドがさまざまな「取得」オプションに応答するために許可される時間を表します。
- increase_rate=#
-
Specifies the maximum rate of change in the power cap for a node where the
actual power usage is within upper_threshold (see below) of the power cap.
実際の電力使用量が電力上限値のupper_threshold(下記参照)内にあるノードの電力上限値の最大変化率を指定します。
Value represents a percentage of the difference between a node's minimum and maximum power consumption.
値は、ノードの最小電力消費量と最大電力消費量の差の割合を表します。
The default value is 20 percent.
デフォルト値は20パーセントです。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- job_level
-
All nodes associated with every job will have the same power cap, to the extent
possible.
すべてのジョブに関連付けられているすべてのノードは、可能な限り同じ電力上限値になります。
Also see the --power=level option on the job submission commands.
ジョブ送信コマンドの--power = levelオプションも参照してください。
- job_no_level
-
Disable the user's ability to set every node associated with a job to the same
power cap.
ジョブに関連付けられているすべてのノードを同じ消費電力上限に設定するユーザーの機能を無効にします。
Each node will have its power cap set independently.
各ノードの電力上限は個別に設定されます。
This disables the --power=level option on the job submission commands.
これにより、ジョブ送信コマンドの--power = levelオプションが無効になります。
- lower_threshold=#
-
Specify a lower power consumption threshold.
低い電力消費しきい値を指定します。
If a node's current power consumption is below this percentage of its current cap, then its power cap will be reduced.
ノードの現在の消費電力が現在の上限のこのパーセンテージを下回っている場合は、ノードの消費電力上限が削減されます。
The default value is 90 percent.
デフォルト値は90%です。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- recent_job=#
-
If a job has started or resumed execution (from suspend) on a compute node
within this number of seconds from the current time, the node's power cap will
be increased to the maximum.
ジョブが現在の時刻からこの秒数以内に計算ノードで(サスペンドから)実行を開始または再開した場合、ノードの消費電力上限は最大に増加します。
The default value is 300 seconds.
デフォルト値は300秒です。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- set_timeout=#
-
Amount of time allowed to set power state information in milliseconds.
電源状態情報を設定するために許可される時間(ミリ秒単位)。
The default value is 30,000 milliseconds or 30 seconds.
デフォルト値は30,000ミリ秒または30秒です。
Supported by the power/cray plugin and represents the time allowed for the capmc command to respond to various "set" options.
power / crayプラグインによってサポートされ、capmcコマンドがさまざまな「設定」オプションに応答するために許可される時間を表します。
- set_watts=#
-
Specifies the power limit to be set on every compute nodes managed by Slurm.
Slurmが管理するすべての計算ノードに設定する電力制限を指定します。
Every node gets this same power cap and there is no variation through time based upon actual power usage on the node.
すべてのノードはこの同じ電力上限を取得し、ノードでの実際の電力使用量に基づく時間による変動はありません。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- upper_threshold=#
-
Specify an upper power consumption threshold.
電力消費の上限しきい値を指定します。
If a node's current power consumption is above this percentage of its current cap, then its power cap will be increased to the extent possible.
ノードの現在の電力消費量が現在の上限のこのパーセンテージを上回っている場合、その電力上限は可能な限り増加されます。
The default value is 95 percent.
デフォルト値は95%です。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
-
- PowerPlugin
-
Identifies the plugin used for system power management.
システムの電源管理に使用されるプラグインを識別します。
Currently supported plugins include: cray_aries and none.
現在サポートされているプラグインには、cray_ariesおよびnoneが含まれます。
Changes to this value require restarting Slurm daemons to take effect.
この値の変更を有効にするには、Slurmデーモンを再起動する必要があります。
More information about system power management is available here <https://slurm.schedmd.com/power_mgmt.html>.
システムの電源管理の詳細については、<https://slurm.schedmd.com/power_mgmt.html>を参照してください。
By default, no power plugin is loaded.
デフォルトでは、電源プラグインはロードされていません。
- PreemptMode
-
Mechanism used to preempt jobs or enable gang scheudling.
ジョブをプリエンプトする、またはギャングシャウドリングを有効にするために使用されるメカニズム。
When the PreemptType parameter is set to enable preemption, the PreemptMode selects the default mechanism used to preempt the eligible jobs for the cluster.
PreemptTypeパラメーターがプリエンプションを有効にするように設定されている場合、PreemptModeは、クラスターに適格なジョブをプリエンプトするために使用されるデフォルトのメカニズムを選択します。
PreemptMode may be specified on a per partition basis to override this default value if PreemptType=preempt/partition_prio.
PreemptType = preempt / partition_prioの場合、PreemptModeをパーティションごとに指定して、このデフォルト値を上書きできます。
Alternatively, it can be specified on a per QOS basis if PreemptType=preempt/qos.
または、PreemptType = preempt / qosの場合、QOSごとに指定できます。
In either case, a valid default PreemptMode value must be specified for the cluster as a whole when preemption is enabled.
どちらの場合でも、プリエンプションが有効になっている場合、クラスター全体に対して有効なデフォルトのPreemptMode値を指定する必要があります。
The GANG option is used to enable gang scheduling independent of whether preemption is enabled (i.e. independent of the PreemptType setting).
GANGオプションは、プリエンプションが有効かどうかに関係なく(つまり、PreemptType設定とは無関係に)ギャングスケジューリングを有効にするために使用されます。
It can be specified in addition to a PreemptMode setting with the two options comma separated (e.g. PreemptMode=SUSPEND,GANG).
これは、2つのオプションをコンマで区切ったPreemptMode設定に加えて指定できます(例:PreemptMode = SUSPEND、GANG)。
See <preempt> and <gang_scheduling> for more details.
詳細については、<preempt>および<gang_scheduling>を参照してください。
NOTE: For performance reasons, the backfill scheduler reserves whole nodes for jobs, not partial nodes.
パフォーマンス上の理由から、バックフィルスケジューラは、部分的なノードではなく、ノード全体をジョブ用に予約します。
If during backfill scheduling a job preempts one or more other jobs, the whole nodes for those preempted jobs are reserved for the preemptor job, even if the preemptor job requested fewer resources than that.
バックフィルスケジューリング中にジョブが1つ以上の他のジョブをプリエンプトする場合、プリエンプタージョブがそれよりも少ないリソースを要求した場合でも、それらのプリエンプトされたジョブのノード全体がプリエンプタージョブ用に予約されます。
These reserved nodes aren't available to other jobs during that backfill cycle, even if the other jobs could fit on the nodes.
これらの予約済みノードは、他のジョブがノードに収まる可能性がある場合でも、そのバックフィルサイクル中は他のジョブで使用できません。
Therefore, jobs may preempt more resources during a single backfill iteration than they requested.
したがって、ジョブは、1回のバックフィルの反復中に、要求よりも多くのリソースをプリエンプトする可能性があります。
NOTE: For heterogeneous job to be considered for preemption all components must be eligible for preemption.
異種ジョブがプリエンプションの対象となるには、すべてのコンポーネントがプリエンプションの対象である必要があります。
When a heterogeneous job is to be preempted the first identified component of the job with the highest order PreemptMode (SUSPEND (highest), REQUEUE, CANCEL (lowest)) will be used to set the PreemptMode for all components.
異種ジョブをプリエンプトする場合、最も高い順序のPreemptMode(SUSPEND(最高)、REQUEUE、CANCEL(最低))を持つジョブの最初に識別されたコンポーネントを使用して、すべてのコンポーネントのPreemptModeを設定します。
The GraceTime and user warning signal for each component of the heterogeneous job remain unique.
異機種混合ジョブの各コンポーネントのGraceTimeおよびユーザー警告信号は、一意のままです。
-
- OFF
-
Is the default value and disables job preemption and gang scheduling.
これはデフォルト値であり、ジョブのプリエンプションとギャングスケジューリングを無効にします。
It is only compatible with PreemptType=preempt/none.
PreemptType = preempt / noneとのみ互換性があります。
- CANCEL
-
The preempted job will be cancelled.
プリエンプトされたジョブはキャンセルされます。
- GANG
-
Enables gang scheduling (time slicing) of jobs in the same partition, and
allows the resuming of suspended jobs.
同じパーティション内のジョブのギャングスケジューリング(タイムスライシング)を有効にし、中断されたジョブの再開を許可します。
NOTE: Gang scheduling is performed independently for each partition, so if you only want time-slicing by OverSubscribe, without any preemption, then configuring partitions with overlapping nodes is not recommended.
ギャングスケジューリングはパーティションごとに独立して実行されるため、プリエンプションなしでOverSubscribeによるタイムスライスのみが必要な場合は、ノードが重複するパーティションを構成することはお勧めしません。
On the other hand, if you want to use PreemptType=preempt/partition_prio to allow jobs from higher PriorityTier partitions to Suspend jobs from lower PriorityTier partitions you will need overlapping partitions, and PreemptMode=SUSPEND,GANG to use the Gang scheduler to resume the suspended jobs(s).
一方、PreemptType = preempt / partition_prioを使用してより高いPriorityTierパーティションからのジョブをより低いPriorityTierパーティションからの一時停止ジョブに許可する場合は、重複するパーティションが必要であり、PreemptMode = SUSPEND、GANGはGangスケジューラーを使用して一時停止を再開しますジョブ。
In any case, time-slicing won't happen between jobs on different partitions.
いずれの場合も、異なるパーティションのジョブ間ではタイムスライスは発生しません。
- REQUEUE
-
Preempts jobs by requeuing them (if possible) or canceling them.
ジョブを再キューイング(可能な場合)またはキャンセルして、ジョブをプリエンプトします。
For jobs to be requeued they must have the --requeue sbatch option set or the cluster wide JobRequeue parameter in slurm.conf must be set to one.
ジョブを再キューイングするには、それらに--requeue sbatchオプションを設定するか、slurm.confのクラスター全体のJobRequeueパラメーターを1に設定する必要があります。
- SUSPEND
-
The preempted jobs will be suspended, and later the Gang scheduler will resume
them.
プリエンプトされたジョブは一時停止され、後でGangスケジューラがそれらを再開します。
Therefore the SUSPEND preemption mode always needs the GANG option to be specified at the cluster level.
したがって、SUSPENDプリエンプションモードでは、常にGANGオプションをクラスターレベルで指定する必要があります。
Also, because the suspended jobs will still use memory on the allocated nodes, Slurm needs to be able to track memory resources to be able to suspend jobs.
また、中断されたジョブは割り当てられたノードのメモリを引き続き使用するため、Slurmはジョブを中断できるようにメモリリソースを追跡できる必要があります。
NOTE: Because gang scheduling is performed independently for each partition, if using PreemptType=preempt/partition_prio then jobs in higher PriorityTier partitions will suspend jobs in lower PriorityTier partitions to run on the released resources.
注:ギャングスケジューリングはパーティションごとに独立して実行されるため、PreemptType = preempt / partition_prioを使用すると、高いPriorityTierパーティションのジョブは、低いPriorityTierパーティションのジョブを中断して、解放されたリソースで実行されます。
Only when the preemptor job ends will the suspended jobs will be resumed by the Gang scheduler.
プリエンプタージョブが終了した場合にのみ、中断されたジョブはGangスケジューラーによって再開されます。
If PreemptType=preempt/qos is configured and if the preempted job(s) and the preemptor job are on the same partition, then they will share resources with the Gang scheduler (time-slicing).
PreemptType = preempt / qosが構成されていて、プリエンプションされたジョブとプリエンプタージョブが同じパーティションにある場合、それらはGangスケジューラーとリソースを共有します(タイムスライシング)。
If not (i.e. if the preemptees and preemptor are on different partitions) then the preempted jobs will remain suspended until the preemptor ends.
そうでない場合(つまり、プリエンプティとプリエンプタが異なるパーティションにある場合)、プリエンプタが終了するまで、プリエンプションされたジョブは中断されたままになります。
-
- PreemptType
-
Specifies the plugin used to identify which jobs can be
preempted in order to start a pending job.
保留中のジョブを開始するためにプリエンプトできるジョブを識別するために使用されるプラグインを指定します。
-
- preempt/none
-
Job preemption is disabled.
ジョブの横取りが無効になっています。
This is the default.
これがデフォルトです。
- preempt/partition_prio
-
Job preemption is based upon partition PriorityTier.
ジョブのプリエンプションは、パーティションPriorityTierに基づいています。
Jobs in higher PriorityTier partitions may preempt jobs from lower PriorityTier partitions.
より高いPriorityTierパーティション内のジョブは、より低いPriorityTierパーティションからジョブをプリエンプトする場合があります。
This is not compatible with PreemptMode=OFF.
これはPreemptMode = OFFと互換性がありません。
- preempt/qos
-
Job preemption rules are specified by Quality Of Service (QOS) specifications
in the Slurm database.
ジョブのプリエンプションルールは、SlurmデータベースのQuality Of Service(QOS)仕様で指定されています。
This option is not compatible with PreemptMode=OFF.
このオプションはPreemptMode = OFFと互換性がありません。
A configuration of PreemptMode=SUSPEND is only supported by the SelectType=select/cons_res and SelectType=select/cons_tres plugins.
PreemptMode = SUSPENDの構成は、SelectType = select / cons_resおよびSelectType = select / cons_tresプラグインでのみサポートされています。
See the sacctmgr man page to configure the options for preempt/qos.
preempt / qosのオプションを構成するには、sacctmgrのマニュアルページを参照してください。
-
- PreemptExemptTime
-
Global option for minimum run time for all jobs before they can be considered
for preemption.
すべてのジョブがプリエンプションと見なされる前の最小実行時間のグローバルオプション。
Any QOS PreemptExemptTime takes precedence over the global option.
QOS PreemptExemptTimeは、グローバルオプションよりも優先されます。
A time of -1 disables the option, equivalent to 0.
-1の時間は、0に相当するオプションを無効にします。
Acceptable time formats include "minutes", "minutes:seconds", "hours:minutes:seconds", "days-hours", "days-hours:minutes", and "days-hours:minutes:seconds".
許容される時間形式には、「分」、「分:秒」、「時間:分:秒」、「日-時間」、「日-時間:分」、および「日-時間:分:秒」が含まれます。
- PriorityCalcPeriod
- The period of time in minutes in which the half-life decay will be re-calculated. Applicable only if PriorityType=priority/multifactor. The default value is 5 (minutes).
- PriorityDecayHalfLife
-
This controls how long prior resource use is considered in determining
how over- or under-serviced an association is (user, bank account and
cluster) in determining job priority.
これは、ジョブの優先順位を決定する際に、アソシエーションがサービスまたはユーザー(銀行口座、クラスター)のどれだけのサービスを提供するかを決定する際に、以前のリソース使用がどのくらい考慮されるかを制御します。
The record of usage will be decayed over time, with half of the original value cleared at age PriorityDecayHalfLife.
使用の記録は時間とともに減衰し、元の値の半分がPriorityDecayHalfLifeの年齢でクリアされます。
If set to 0 no decay will be applied.
0に設定すると、減衰は適用されません。
This is helpful if you want to enforce hard time limits per association.
これは、関連付けごとに厳しい時間制限を適用する場合に役立ちます。
If set to 0 PriorityUsageResetPeriod must be set to some interval.
0に設定する場合、PriorityUsageResetPeriodをある間隔に設定する必要があります。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合のみ適用されます。
The unit is a time string (i.e. min, hr:min:00, days-hr:min:00, or days-hr).
単位は時間文字列です(つまり、min、hr:min:00、days-hr:min:00、またはdays-hr)。
The default value is 7-0 (7 days).
デフォルト値は7-0(7日)です。
- PriorityFavorSmall
-
Specifies that small jobs should be given preferential scheduling priority.
小さなジョブに優先的なスケジューリング優先順位を与えることを指定します。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合のみ適用されます。
Supported values are "YES" and "NO".
サポートされる値は「YES」と「NO」です。
The default value is "NO".
デフォルト値は「NO」です。
- PriorityFlags
-
Flags to modify priority behavior.
優先順位の動作を変更するためのフラグ。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合のみ適用されます。
The keywords below have no associated value (e.g. "PriorityFlags=ACCRUE_ALWAYS,SMALL_RELATIVE_TO_TIME").
以下のキーワードには関連する値がありません(例: "PriorityFlags = ACCRUE_ALWAYS、SMALL_RELATIVE_TO_TIME")。
-
- ACCRUE_ALWAYS
-
If set, priority age factor will be increased despite job dependencies
or holds.
設定されている場合、ジョブの依存関係または保留にもかかわらず、優先年齢係数が増加します。
- CALCULATE_RUNNING
-
If set, priorities will be recalculated not only for pending jobs, but also
running and suspended jobs.
設定すると、保留中のジョブだけでなく、実行中および一時停止中のジョブの優先度も再計算されます。
- DEPTH_OBLIVIOUS
-
If set, priority will be calculated based similar to the normal multifactor
calculation, but depth of the associations in the tree do not adversely effect
their priority.
設定されている場合、優先度は通常の多要素計算と同様に計算されますが、ツリー内の関連付けの深さが優先度に悪影響を与えることはありません。
This option automatically enables NO_FAIR_TREE.
このオプションは、NO_FAIR_TREEを自動的に有効にします。
- NO_FAIR_TREE
-
Disables the "fair tree" algorithm, and reverts to "classic" fair share
priority scheduling.
「フェアツリー」アルゴリズムを無効にし、「クラシック」フェアシェア優先スケジューリングに戻します。
- INCR_ONLY
-
If set, priority values will only increase in value.
設定すると、優先度の値は増加するだけです。
Job priority will never decrease in value.
ジョブの優先度の値が下がることはありません。
- MAX_TRES
-
If set, the weighted TRES value (e.g. TRESBillingWeights) is calculated as the
MAX of individual TRES' on a node (e.g. cpus, mem, gres) plus the sum of all
global TRES' (e.g. licenses).
設定されている場合、重み付けされたTRES値(TRESBillingWeightsなど)は、ノード(例:cpus、mem、gres)上の個々のTRES 'の最大値と、すべてのグローバルTRES'(例:ライセンス)の合計として計算されます。
- NO_NORMAL_ALL
-
If set, all NO_NORMAL_* flags are set.
設定すると、すべてのNO_NORMAL_ *フラグが設定されます。
- NO_NORMAL_ASSOC
-
If set, the association factor is not normalized against the highest association
priority.
設定されている場合、関連係数は最高の関連優先度に対して正規化されません。
- NO_NORMAL_PART
-
If set, the partition factor is not normalized against the highest partition
PriorityTier.
設定されている場合、パーティション係数は最高のパーティションPriorityTierに対して正規化されません。
- NO_NORMAL_QOS
-
If set, the QOS factor is not normalized against the highest qos priority.
設定すると、QOS係数は最高のQoS優先度に対して正規化されません。
- NO_NORMAL_TRES
-
If set, the QOS factor is not normalized against the job's partition TRES
counts.
設定されている場合、QOS係数はジョブのパーティションTRESカウントに対して正規化されません。
- SMALL_RELATIVE_TO_TIME
-
If set, the job's size component will be based upon not the job size alone, but
the job's size divided by its time limit.
設定されている場合、ジョブのサイズコンポーネントは、ジョブサイズだけではなく、ジョブのサイズを制限時間で割ったものに基づきます。
-
- PriorityMaxAge
-
Specifies the job age which will be given the maximum age factor in computing
priority.
計算の優先順位で最大年齢係数が与えられるジョブの年齢を指定します。
For example, a value of 30 minutes would result in all jobs over 30 minutes old would get the same age-based priority.
たとえば、30分の値を指定すると、30分以上経過したすべてのジョブは同じ経過時間ベースの優先順位になります。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合のみ適用されます。
The unit is a time string (i.e. min, hr:min:00, days-hr:min:00, or days-hr).
単位は時間文字列です(つまり、min、hr:min:00、days-hr:min:00、またはdays-hr)。
The default value is 7-0 (7 days).
デフォルト値は7-0(7日)です。
- PriorityParameters
-
Arbitrary string used by the PriorityType plugin.
PriorityTypeプラグインによって使用される任意の文字列。
- PrioritySiteFactorParameters
-
Arbitrary string used by the PrioritySiteFactorPlugin plugin.
PrioritySiteFactorPluginプラグインによって使用される任意の文字列。
- PrioritySiteFactorPlugin
-
The specifies an optional plugin to be used alongside "priority/multifactor",
which is meant to initially set and continuously update the SiteFactor
priority factor.
は、「priority / multifactor」と一緒に使用するオプションのプラグインを指定します。これは、SiteFactor優先度係数を最初に設定して継続的に更新することを目的としています。
The default value is "site_factor/none".
デフォルト値は「site_factor / none」です。
- PriorityType
-
This specifies the plugin to be used in establishing a job's scheduling
priority.
これは、ジョブのスケジューリング優先順位の確立に使用されるプラグインを指定します。
Supported values are "priority/basic" (jobs are prioritized by order of arrival), "priority/multifactor" (jobs are prioritized based upon size, age, fair-share of allocation, etc).
サポートされる値は、「優先度/基本」(ジョブは到着順に優先されます)、「優先度/多要素」(ジョブはサイズ、年齢、割り当ての公平配分などに基づいて優先されます)です。
Also see PriorityFlags for configuration options.
構成オプションについては、PriorityFlagsも参照してください。
The default value is "priority/basic".
デフォルト値は「priority / basic」です。
-
When not FIFO scheduling, jobs are prioritized in the following order:
FIFOスケジューリングでない場合、ジョブは次の順序で優先されます。
1. Jobs that can preempt
1.横取りできるジョブ
2. Jobs with an advanced reservation
2.事前予約のある求人
3. Partition Priority Tier
3.パーティション優先度階層
4. Job Priority
4.ジョブの優先順位
5. Job Id
5.ジョブID
-
When not FIFO scheduling, jobs are prioritized in the following order:
- PriorityUsageResetPeriod
-
At this interval the usage of associations will be reset to 0.
この間隔で、関連付けの使用は0にリセットされます。
This is used if you want to enforce hard limits of time usage per association.
これは、アソシエーションごとの時間使用のハード制限を強制したい場合に使用されます。
If PriorityDecayHalfLife is set to be 0 no decay will happen and this is the only way to reset the usage accumulated by running jobs.
PriorityDecayHalfLifeが0に設定されている場合、減衰は発生せず、これが、実行中のジョブによって累積された使用量をリセットする唯一の方法です。
By default this is turned off and it is advised to use the PriorityDecayHalfLife option to avoid not having anything running on your cluster, but if your schema is set up to only allow certain amounts of time on your system this is the way to do it.
デフォルトではこれはオフになっており、クラスターで何も実行されないようにPriorityDecayHalfLifeオプションを使用することをお勧めしますが、システムで一定の時間のみを許可するようにスキーマが設定されている場合は、これがその方法です。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合のみ適用されます。
-
- NONE
-
Never clear historic usage. The default value.
過去の使用状況を消去しないでください。デフォルト値。
- NOW
-
Clear the historic usage now.
Executed at startup and reconfiguration time.
歴史的な使用法を今クリアしてください。起動時および再構成時に実行されます。
- DAILY
-
Cleared every day at midnight.
毎日深夜0時にクリアされました。
- WEEKLY
-
Cleared every week on Sunday at time 00:00.
毎週日曜日の00:00にクリアされます。
- MONTHLY
-
Cleared on the first day of each month at time 00:00.
毎月1日の00:00にクリアされます。
- QUARTERLY
-
Cleared on the first day of each quarter at time 00:00.
各四半期の初日の00:00に決済されます。
- YEARLY
-
Cleared on the first day of each year at time 00:00.
毎年最初の日の00:00に決済されます。
-
- PriorityWeightAge
-
An integer value that sets the degree to which the queue wait time
component contributes to the job's priority.
キュー待機時間コンポーネントがジョブの優先度に寄与する度合いを設定する整数値。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合のみ適用されます。
The default value is 0.
デフォルト値は0です。
- PriorityWeightAssoc
-
An integer value that sets the degree to which the association
component contributes to the job's priority.
関連付けコンポーネントがジョブの優先度に寄与する度合いを設定する整数値。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合のみ適用されます。
The default value is 0.
デフォルト値は0です。
- PriorityWeightFairshare
-
An integer value that sets the degree to which the fair-share
component contributes to the job's priority.
フェアシェアコンポーネントがジョブの優先度に寄与する度合いを設定する整数値。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合のみ適用されます。
The default value is 0.
デフォルト値は0です。
- PriorityWeightJobSize
-
An integer value that sets the degree to which the job size
component contributes to the job's priority.
ジョブサイズコンポーネントがジョブの優先度に寄与する度合いを設定する整数値。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合のみ適用されます。
The default value is 0.
デフォルト値は0です。
- PriorityWeightPartition
-
Partition factor used by priority/multifactor plugin in calculating job priority.
ジョブの優先順位を計算するときに優先順位/多要素プラグインによって使用されるパーティションファクター。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合のみ適用されます。
The default value is 0.
デフォルト値は0です。
- PriorityWeightQOS
-
An integer value that sets the degree to which the Quality Of Service
component contributes to the job's priority.
サービスの品質コンポーネントがジョブの優先度に寄与する度合いを設定する整数値。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合のみ適用されます。
The default value is 0.
デフォルト値は0です。
- PriorityWeightTRES
-
A comma separated list of TRES Types and weights that sets the degree that each
TRES Type contributes to the job's priority.
各TRESタイプがジョブの優先度に寄与する度合いを設定するTRESタイプと重みのコンマ区切りリスト。
e.g. PriorityWeightTRES=CPU=1000,Mem=2000,GRES/gpu=3000
Applicable only if PriorityType=priority/multifactor and if AccountingStorageTRES is configured with each TRES Type.
PriorityType = priority / multifactorで、AccountingStorageTRESが各TRES Typeで構成されている場合にのみ適用されます。
Negative values are allowed.
負の値を使用できます。
The default values are 0.
デフォルト値は0です。
- PrivateData
-
This controls what type of information is hidden from regular users.
これは、通常のユーザーに対して非表示にする情報の種類を制御します。
By default, all information is visible to all users.
デフォルトでは、すべての情報がすべてのユーザーに表示されます。
User SlurmUser and root can always view all information.
ユーザーSlurmUserとrootは常にすべての情報を表示できます。
Multiple values may be specified with a comma separator.
カンマ区切りで複数の値を指定できます。
Acceptable values include:
許容値は次のとおりです。
-
- accounts
-
(NON-SlurmDBD ACCOUNTING ONLY) Prevents users from viewing any account
definitions unless they are coordinators of them.
(非SlurmDBDアカウンティングのみ)ユーザーがコーディネーターでない限り、ユーザーがアカウント定義を表示できないようにします。
- cloud
-
Powered down nodes in the cloud are visible.
クラウド内のパワーダウンしたノードが表示されます。
- events
-
prevents users from viewing event information unless they have operator status
or above.
オペレーターのステータス以上でない限り、ユーザーはイベント情報を表示できません。
- jobs
-
Prevents users from viewing jobs or job steps belonging
to other users.
ユーザーが他のユーザーに属するジョブまたはジョブステップを表示できないようにします。
(NON-SlurmDBD ACCOUNTING ONLY) Prevents users from viewing job records belonging to other users unless they are coordinators of the association running the job when using sacct.
(非SlurmDBDアカウンティングのみ)sacctを使用しているときに、ジョブを実行している関連付けのコーディネーターでない限り、ユーザーが他のユーザーに属するジョブレコードを表示できないようにします。
- nodes
-
Prevents users from viewing node state information.
ユーザーがノードの状態情報を表示できないようにします。
- partitions
-
Prevents users from viewing partition state information.
ユーザーがパーティションの状態情報を表示できないようにします。
- reservations
-
Prevents regular users from viewing reservations which they can not use.
通常のユーザーが使用できない予約を表示できないようにします。
- usage
-
Prevents users from viewing usage of any other user, this applies to sshare.
ユーザーが他のユーザーの使用状況を表示できないようにします。これはsshareに適用されます。
(NON-SlurmDBD ACCOUNTING ONLY) Prevents users from viewing usage of any other user, this applies to sreport.
(非SlurmDBD会計のみ)ユーザーが他のユーザーの使用状況を表示できないようにします。これはsreportに適用されます。
- users
-
(NON-SlurmDBD ACCOUNTING ONLY) Prevents users from viewing
information of any user other than themselves, this also makes it so users can
only see associations they deal with.
(非SlurmDBD会計のみ)ユーザーが自分以外のユーザーの情報を表示できないようにします。これにより、ユーザーは自分が扱っている関連付けのみを表示できます。
Coordinators can see associations of all users in the account they are coordinator of, but can only see themselves when listing users.
コーディネーターは、自分がコーディネーターであるアカウント内のすべてのユーザーの関連付けを表示できますが、自分を表示できるのは、ユーザーをリストするときだけです。
-
- ProctrackType
-
Identifies the plugin to be used for process tracking on a job step basis.
ジョブステップベースでプロセストラッキングに使用するプラグインを識別します。
The slurmd daemon uses this mechanism to identify all processes which are children of processes it spawns for a user job step.
slurmdデーモンは、このメカニズムを使用して、ユーザージョブステップ用に生成したプロセスの子であるすべてのプロセスを識別します。
The slurmd daemon must be restarted for a change in ProctrackType to take effect.
ProctrackTypeの変更を有効にするには、slurmdデーモンを再起動する必要があります。
NOTE: "proctrack/linuxproc" and "proctrack/pgid" can fail to identify all processes associated with a job since processes can become a child of the init process (when the parent process terminates) or change their process group.
注:「proctrack / linuxproc」と「proctrack / pgid」は、プロセスがinitプロセスの子になる(親プロセスが終了する)か、プロセスグループを変更する可能性があるため、ジョブに関連付けられたすべてのプロセスの識別に失敗する可能性があります。
To reliably track all processes, "proctrack/cgroup" is highly recommended.
すべてのプロセスを確実に追跡するには、「proctrack / cgroup」を強くお勧めします。
NOTE: The JobContainerType applies to a job allocation, while ProctrackType applies to job steps.
注:JobContainerTypeはジョブ割り当てに適用され、ProctrackTypeはジョブステップに適用されます。
Acceptable values at present include:
現在許容できる値は次のとおりです。
-
- proctrack/cgroup
-
which uses linux cgroups to constrain and track processes, and is the default.
linux cgroupsを使用してプロセスを制約および追跡します。これがデフォルトです。
NOTE: see "man cgroup.conf" for configuration details
注:設定の詳細については、「man cgroup.conf」を参照してください
- proctrack/cray_aries
-
which uses Cray proprietary process tracking
Cray独自のプロセス追跡を使用
- proctrack/linuxproc
-
which uses linux process tree using parent process IDs.
親プロセスIDを使用してLinuxプロセスツリーを使用します。
- proctrack/pgid
-
which uses process group IDs
プロセスグループIDを使用する
-
- Prolog
-
Fully qualified pathname of a program for the slurmd to execute
whenever it is asked to run a job step from a new job allocation (e.g.
"/usr/local/slurm/prolog").
新しいジョブ割り当てからジョブステップを実行するように要求されたときにslurmdが実行するプログラムの完全修飾パス名(例: "/ usr / local / slurm / prolog")。
A glob pattern (See glob (7)) may also be used to specify more than one program to run (e.g. "/etc/slurm/prolog.d/*").
globパターン(glob(7)を参照)を使用して、実行する複数のプログラムを指定することもできます( "/etc/slurm/prolog.d/*"など)。
The slurmd executes the prolog before starting the first job step.
slurmdは、最初のジョブステップを開始する前にプロローグを実行します。
The prolog script or scripts may be used to purge files, enable user login, etc.
1つまたは複数のプロローグスクリプトは、ファイルのパージ、ユーザーログインの有効化などに使用できます。
By default there is no prolog.
デフォルトではプロローグはありません。
Any configured script is expected to complete execution quickly (in less time than MessageTimeout).
構成されたスクリプトは、(MessageTimeoutよりも短い時間で)実行を迅速に完了することが期待されます。
If the prolog fails (returns a non-zero exit code), this will result in the node being set to a DRAIN state and the job being requeued in a held state, unless nohold_on_prolog_fail is configured in SchedulerParameters.
nolog_on_prolog_failがSchedulerParametersで構成されていない限り、プロローグが失敗すると(ゼロ以外の終了コードが返されます)、ノードはDRAIN状態に設定され、ジョブは保留状態で再度キューに入れられます。
See Prolog and Epilog Scripts for more information.
詳細については、PrologおよびEpilogスクリプトを参照してください。
- PrologEpilogTimeout
-
The interval in seconds Slurms waits for Prolog and Epilog before terminating
them.
Slurmsが終了する前にPrologとEpilogを待つ秒単位の間隔。
The default behavior is to wait indefinitely.
デフォルトの動作では、無期限に待機します。
This interval applies to the Prolog and Epilog run by slurmd daemon before and after the job, the PrologSlurmctld and EpilogSlurmctld run by slurmctld daemon, and the SPANK plugins run by the slurmstepd daemon.
この間隔は、ジョブの前後にslurmdデーモンによって実行されるPrologおよびEpilog、slurmctldデーモンによって実行されるPrologSlurmctldおよびEpilogSlurmctld、およびslurmstepdデーモンによって実行されるSPANKプラグインに適用されます。
- PrologFlags
-
Flags to control the Prolog behavior.
Prologの動作を制御するフラグ。
By default no flags are set.
デフォルトでは、フラグは設定されていません。
Multiple flags may be specified in a comma-separated list.
複数のフラグをコンマ区切りのリストで指定できます。
Currently supported options are:-
- Alloc
-
If set, the Prolog script will be executed at job allocation.
設定されている場合、Prologスクリプトはジョブの割り当て時に実行されます。
By default, Prolog is executed just before the task is launched.
デフォルトでは、Prologはタスクが起動される直前に実行されます。
Therefore, when salloc is started, no Prolog is executed.
したがって、sallocが開始されると、Prologは実行されません。
Alloc is useful for preparing things before a user starts to use any allocated resources.
Allocは、ユーザーが割り当てられたリソースを使い始める前に準備するのに役立ちます。
In particular, this flag is needed on a Cray system when cluster compatibility mode is enabled.
特に、このフラグは、Crayシステムでクラスター互換モードが有効になっている場合に必要です。
NOTE: Use of the Alloc flag will increase the time required to start jobs.
注:Allocフラグを使用すると、ジョブの開始に必要な時間が長くなります。
- Contain
-
At job allocation time, use the ProcTrack plugin to create a job container
on all allocated compute nodes.
ジョブの割り当て時に、ProcTrackプラグインを使用して、割り当てられたすべての計算ノードにジョブコンテナーを作成します。
This container may be used for user processes not launched under Slurm control, for example pam_slurm_adopt may place processes launched through a direct user login into this container.
このコンテナーは、Slurmの制御下で起動されないユーザープロセスに使用できます。たとえば、pam_slurm_adoptは、直接のユーザーログインによって起動されたプロセスをこのコンテナーに配置できます。
If using pam_slurm_adopt, then ProcTrackType must be set to either proctrack/cgroup or proctrack/cray_aries.
pam_slurm_adoptを使用する場合は、ProcTrackTypeをproctrack / cgroupまたはproctrack / cray_ariesに設定する必要があります。
Setting the Contain implicitly sets the Alloc flag.
Containを設定すると、Allocフラグが暗黙的に設定されます。
- NoHold
-
If set, the Alloc flag should also be set.
設定する場合は、Allocフラグも設定する必要があります。
This will allow for salloc to not block until the prolog is finished on each node.
これにより、各ノードでプロローグが完了するまでsallocがブロックされなくなります。
The blocking will happen when steps reach the slurmd and before any execution has happened in the step.
ブロッキングは、ステップがslurmdに到達したとき、およびステップで実行が発生する前に発生します。
This is a much faster way to work and if using srun to launch your tasks you should use this flag.
これははるかに高速な方法であり、srunを使用してタスクを起動する場合は、このフラグを使用する必要があります。
This flag cannot be combined with the Contain or X11 flags.
このフラグは、ContainまたはX11フラグと組み合わせることはできません。
- Serial
-
By default, the Prolog and Epilog scripts run concurrently on each node.
デフォルトでは、PrologスクリプトとEpilogスクリプトは各ノードで同時に実行されます。
This flag forces those scripts to run serially within each node, but with a significant penalty to job throughput on each node.
このフラグにより、これらのスクリプトは各ノード内で連続して実行されますが、各ノードでのジョブスループットが大幅に低下します。
- X11
-
Enable Slurm's built-in X11 forwarding capabilities.
Slurmの組み込みX11転送機能を有効にします。
This is incompatible with ProctrackType=proctrack/linuxproc.
これは、ProctrackType = proctrack / linuxprocと互換性がありません。
Setting the X11 flag implicitly enables both Contain and Alloc flags as well.
X11フラグを設定すると、ContainフラグとAllocフラグの両方が暗黙的に有効になります。
-
- PrologSlurmctld
-
Fully qualified pathname of a program for the slurmctld daemon to execute
before granting a new job allocation (e.g.
"/usr/local/slurm/prolog_controller").
新しいジョブの割り当てを許可する前にslurmctldデーモンが実行するプログラムの完全修飾パス名(例: "/ usr / local / slurm / prolog_controller")。
The program executes as SlurmUser on the same node where the slurmctld daemon executes, giving it permission to drain nodes and requeue the job if a failure occurs or cancel the job if appropriate.
プログラムは、slurmctldデーモンが実行されるノードと同じノードでSlurmUserとして実行され、障害が発生した場合にノードをドレインしてジョブを再キューイングするか、必要に応じてジョブをキャンセルする許可を与えます。
The program can be used to reboot nodes or perform other work to prepare resources for use.
このプログラムを使用して、ノードを再起動したり、リソースを使用できるように準備するための他の作業を実行したりできます。
Exactly what the program does and how it accomplishes this is completely at the discretion of the system administrator.
プログラムが何をするか、どのようにこれを達成するかは、完全にシステム管理者の裁量に任されています。
Information about the job being initiated, its allocated nodes, etc. are passed to the program using environment variables.
開始されるジョブ、割り当てられたノードなどに関する情報は、環境変数を使用してプログラムに渡されます。
While this program is running, the nodes associated with the job will be have a POWER_UP/CONFIGURING flag set in their state, which can be readily viewed.
このプログラムの実行中、ジョブに関連付けられたノードにはPOWER_UP / CONFIGURINGフラグが設定されており、簡単に表示できます。
The slurmctld daemon will wait indefinitely for this program to complete.
slurmctldデーモンは、このプログラムが完了するまで無期限に待機します。
Once the program completes with an exit code of zero, the nodes will be considered ready for use and the program will be started.
プログラムがゼロの終了コードで完了すると、ノードは使用可能であると見なされ、プログラムが開始されます。
If some node can not be made available for use, the program should drain the node (typically using the scontrol command) and terminate with a non-zero exit code.
一部のノードを使用可能にできない場合、プログラムはノードをドレインし(通常はscontrolコマンドを使用)、ゼロ以外の終了コードで終了する必要があります。
A non-zero exit code will result in the job being requeued (where possible) or killed.
ゼロ以外の終了コードを使用すると、ジョブが再キュー(可能な場合)または強制終了されます。
Note that only batch jobs can be requeued.
再キューイングできるのはバッチジョブのみであることに注意してください。
See Prolog and Epilog Scripts for more information.
詳細については、PrologおよびEpilogスクリプトを参照してください。
- PropagatePrioProcess
-
Controls the scheduling priority (nice value) of user spawned tasks.
ユーザーが生成したタスクのスケジューリング優先順位(適切な値)を制御します。
-
- 0
-
The tasks will inherit the scheduling priority from the slurm daemon.
タスクは、slurmデーモンからスケジューリング優先順位を継承します。
This is the default value.
これがデフォルト値です。
- 1
-
The tasks will inherit the scheduling priority of the command used to
submit them (e.g. srun or sbatch).
タスクは、それらをサブミットするために使用されるコマンド(例:srunまたはsbatch)のスケジューリング優先順位を継承します。
Unless the job is submitted by user root, the tasks will have a scheduling priority no higher than the slurm daemon spawning them.
ジョブがユーザーrootによってサブミットされない限り、タスクには、slurmデーモンがそれらを生成するよりも高くないスケジューリング優先順位があります。
- 2
-
The tasks will inherit the scheduling priority of the command used to
submit them (e.g. srun or sbatch) with the restriction that
their nice value will always be one higher than the slurm daemon (i.e.
the tasks scheduling priority will be lower than the slurm daemon).
タスクは、タスクの送信に使用されるコマンド(srunやsbatchなど)のスケジューリング優先順位を継承しますが、そのnice値は常にslurmデーモンより1つ高くなります(つまり、タスクスケジューリング優先順位はslurmデーモンより低くなります)。 。
-
- PropagateResourceLimits
-
A list of comma separated resource limit names.
コンマ区切りのリソース制限名のリスト。
The slurmd daemon uses these names to obtain the associated (soft) limit values from the user's process environment on the submit node.
slurmdデーモンはこれらの名前を使用して、送信ノード上のユーザーのプロセス環境から関連する(ソフト)制限値を取得します。
These limits are then propagated and applied to the jobs that will run on the compute nodes.
その後、これらの制限が伝達され、計算ノードで実行されるジョブに適用されます。
This parameter can be useful when system limits vary among nodes.
このパラメーターは、システム制限がノード間で異なる場合に役立ちます。
Any resource limits that do not appear in the list are not propagated.
リストに表示されないリソース制限は伝達されません。
However, the user can override this by specifying which resource limits to propagate with the sbatch or srun "--propagate" option.
ただし、ユーザーは、sbatchまたはsrunの「--propagate」オプションで伝播するリソース制限を指定することで、これを上書きできます。
If neither PropagateResourceLimits or PropagateResourceLimitsExcept are configured and the "--propagate" option is not specified, then the default action is to propagate all limits.
PropagateResourceLimitsもPropagateResourceLimitsExceptも構成されておらず、「-propagate」オプションが指定されていない場合、デフォルトのアクションはすべての制限を伝搬することです。
Only one of the parameters, either PropagateResourceLimits or PropagateResourceLimitsExcept, may be specified.
PropagateResourceLimitsまたはPropagateResourceLimitsExceptのいずれかのパラメーターのみを指定できます。
The user limits can not exceed hard limits under which the slurmd daemon operates.
ユーザー制限は、slurmdデーモンが動作するハード制限を超えることはできません。
If the user limits are not propagated, the limits from the slurmd daemon will be propagated to the user's job.
ユーザー制限が反映されない場合、slurmdデーモンからの制限がユーザーのジョブに反映されます。
The limits used for the Slurm daemons can be set in the /etc/sysconf/slurm file.
Slurmデーモンに使用される制限は、/ etc / sysconf / slurmファイルで設定できます。
For more information, see: https://slurm.schedmd.com/faq.html#memlock The following limit names are supported by Slurm (although some options may not be supported on some systems):
詳細については、https://slurm.schedmd.com/faq.html#memlockを参照してください。次の制限名はSlurmでサポートされています(一部のシステムではサポートされないオプションもあります)。
-
- ALL
-
All limits listed below (default)
以下にリストされているすべての制限(デフォルト)
- NONE
-
No limits listed below
以下に制限なし
- AS
-
The maximum address space for a process
プロセスの最大アドレス空間
- CORE
-
The maximum size of core file
コアファイルの最大サイズ
- CPU
-
The maximum amount of CPU time
CPU時間の最大量
- DATA
-
The maximum size of a process's data segment
プロセスのデータセグメントの最大サイズ
- FSIZE
-
The maximum size of files created.
作成されるファイルの最大サイズ。
Note that if the user sets FSIZE to less than the current size of the slurmd.log, job launches will fail with a 'File size limit exceeded' error.
ユーザーがFSIZEをslurmd.logの現在のサイズ未満に設定すると、ジョブの起動は「ファイルサイズの制限を超えました」エラーで失敗することに注意してください。
- MEMLOCK
-
The maximum size that may be locked into memory
メモリにロックできる最大サイズ
- NOFILE
-
The maximum number of open files
開いているファイルの最大数
- NPROC
-
The maximum number of processes available
利用可能なプロセスの最大数
- RSS
-
The maximum resident set size
最大常駐セットサイズ
- STACK
-
The maximum stack size
最大スタックサイズ
-
- PropagateResourceLimitsExcept
-
A list of comma separated resource limit names.
コンマ区切りのリソース制限名のリスト。
By default, all resource limits will be propagated, (as described by the PropagateResourceLimits parameter), except for the limits appearing in this list.
デフォルトでは、このリストに表示される制限を除き、すべてのリソース制限が伝達されます(PropagateResourceLimitsパラメーターで説明)。
The user can override this by specifying which resource limits to propagate with the sbatch or srun "--propagate" option.
ユーザーは、sbatchまたはsrunの「--propagate」オプションで伝播するリソース制限を指定することで、これを上書きできます。
See PropagateResourceLimits above for a list of valid limit names.
有効な制限名のリストについては、上記のPropagateResourceLimitsを参照してください。
- RebootProgram
-
Program to be executed on each compute node to reboot it.
再起動するために各計算ノードで実行されるプログラム。
Invoked on each node once it becomes idle after the command "scontrol reboot_nodes" is executed by an authorized user or a job is submitted with the "--reboot" option.
権限のあるユーザーがコマンド「scontrol reboot_nodes」を実行した後、または「--reboot」オプションを指定してジョブをサブミットした後、各ノードでアイドル状態になると呼び出されます。
After rebooting, the node is returned to normal use.
再起動後、ノードは通常の使用に戻ります。
See ResumeTimeout to configure the time you expect a reboot to finish in.
再起動が完了すると予想される時間を構成するには、ResumeTimeoutを参照してください。
A node will be marked DOWN if it doesn't reboot within ResumeTimeout.
ノードがResumeTimeout内に再起動しない場合、ノードはDOWNとマークされます。
- ReconfigFlags
-
Flags to control various actions that may be taken when an "scontrol
reconfig" command is issued.
「scontrol reconfig」コマンドが発行されたときに実行される可能性のあるさまざまなアクションを制御するフラグ。
Currently the options are:
現在のオプションは次のとおりです。
-
- KeepPartInfo
-
If set, an "scontrol reconfig" command will maintain the in-memory
value of partition "state" and other parameters that may have been
dynamically updated by "scontrol update".
設定されている場合、「scontrol reconfig」コマンドは、「scontrol update」によって動的に更新された可能性があるパーティション「state」およびその他のパラメーターのメモリ内の値を維持します。
Partition information in the slurm.conf file will be merged with in-memory data.
slurm.confファイル内のパーティション情報は、メモリ内のデータとマージされます。
This flag supersedes the KeepPartState flag.
このフラグは、KeepPartStateフラグに取って代わります。
- KeepPartState
-
If set, an "scontrol reconfig" command will preserve only the current
"state" value of in-memory partitions and will reset all other
parameters of the partitions that may have been dynamically updated by
"scontrol update" to the values from the slurm.conf file.
設定されている場合、「scontrol reconfig」コマンドは、メモリー内パーティションの現在の「状態」値のみを保持し、「scontrol update」によって動的に更新された可能性があるパーティションの他のすべてのパラメーターをスラムの値にリセットします。 confファイル。
Partition information in the slurm.conf file will be merged with in-memory data.
slurm.confファイル内のパーティション情報は、メモリ内のデータとマージされます。
-
The default for the above flags is not set, and the
"scontrol reconfig" will rebuild the partition information using only
the definitions in the slurm.conf file.
上記のフラグのデフォルトは設定されておらず、「scontrol reconfig」はslurm.confファイルの定義のみを使用してパーティション情報を再構築します。
-
- RequeueExit
-
Enables automatic requeue for batch jobs which exit with the specified
values.
指定した値で終了するバッチジョブの自動リキューを有効にします。
Separate multiple exit code by a comma and/or specify numeric ranges using a "-" separator (e.g. "RequeueExit=1-9,18") Jobs will be put back in to pending state and later scheduled again.
複数の終了コードをコンマで区切るか、「-」区切り文字を使用して数値範囲を指定します(例:「RequeueExit = 1-9,18」)。ジョブは保留状態に戻され、後で再びスケジュールされます。
Restarted jobs will have the environment variable SLURM_RESTART_COUNT set to the number of times the job has been restarted.
再起動されたジョブでは、環境変数SLURM_RESTART_COUNTが、ジョブが再起動された回数に設定されます。
- RequeueExitHold
-
Enables automatic requeue for batch jobs which exit with the specified
values, with these jobs being held until released manually by the user.
指定した値で終了するバッチジョブの自動リキューを有効にします。これらのジョブは、ユーザーが手動で解放するまで保留されます。
Separate multiple exit code by a comma and/or specify numeric ranges using a "-" separator (e.g. "RequeueExitHold=10-12,16") These jobs are put in the JOB_SPECIAL_EXIT exit state.
複数の終了コードをコンマで区切るか、「-」区切り文字を使用して数値範囲を指定します(例:「RequeueExitHold = 10-12,16」)これらのジョブは、JOB_SPECIAL_EXIT終了状態になります。
Restarted jobs will have the environment variable SLURM_RESTART_COUNT set to the number of times the job has been restarted.
再起動されたジョブでは、環境変数SLURM_RESTART_COUNTが、ジョブが再起動された回数に設定されます。
- ResumeFailProgram
-
The program that will be executed when nodes fail to resume to by
ResumeTimeout.
ノードがResumeTimeoutによって再開に失敗したときに実行されるプログラム。
The argument to the program will be the names of the failed nodes (using Slurm's hostlist expression format).
プログラムへの引数は、失敗したノードの名前になります(Slurmのホストリスト式形式を使用)。
- ResumeProgram
-
Slurm supports a mechanism to reduce power consumption on nodes that
remain idle for an extended period of time.
Slurmは、長期間アイドル状態にあるノードの電力消費を削減するメカニズムをサポートしています。
This is typically accomplished by reducing voltage and frequency or powering the node down.
これは通常、電圧と周波数を下げるか、ノードの電源を切ることによって行われます。
ResumeProgram is the program that will be executed when a node in power save mode is assigned work to perform.
ResumeProgramは、省電力モードのノードに実行する作業が割り当てられたときに実行されるプログラムです。
For reasons of reliability, ResumeProgram may execute more than once for a node when the slurmctld daemon crashes and is restarted.
信頼性の理由から、slurmctldデーモンがクラッシュして再起動すると、ResumeProgramはノードに対して複数回実行される場合があります。
If ResumeProgram is unable to restore a node to service with a responding slurmd and an updated BootTime, it should requeue any job associated with the node and set the node state to DOWN.
ResumeProgramが応答するslurmdと更新されたBootTimeでノードをサービスに復元できない場合、ノードに関連付けられているジョブをキューに再登録し、ノードの状態をDOWNに設定する必要があります。
If the node isn't actually rebooted (i.e. when multiple-slurmd is configured) starting slurmd with "-b" option might be useful.
ノードが実際に再起動されない場合(つまり、複数のslurmdが構成されている場合)、「-b」オプションを指定してslurmdを開始すると役立つ場合があります。
The program executes as SlurmUser.
プログラムはSlurmUserとして実行されます。
The argument to the program will be the names of nodes to be removed from power savings mode (using Slurm's hostlist expression format).
プログラムへの引数は、省電力モードから削除するノードの名前になります(Slurmのホストリスト式形式を使用)。
By default no program is run.
デフォルトでは、プログラムは実行されません。
Related configuration options include ResumeTimeout, ResumeRate, SuspendRate, SuspendTime, SuspendTimeout, SuspendProgram, SuspendExcNodes, and SuspendExcParts.
関連する構成オプションには、ResumeTimeout、ResumeRate、SuspendRate、SuspendTime、SuspendTimeout、SuspendProgram、SuspendExcNodes、およびSuspendExcPartsがあります。
More information is available at the Slurm web site ( https://slurm.schedmd.com/power_save.html ).
詳細については、Slurm Webサイト(https://slurm.schedmd.com/power_save.html)を参照してください。
- ResumeRate
-
The rate at which nodes in power save mode are returned to normal
operation by ResumeProgram.
省電力モードのノードがResumeProgramによって通常の動作に戻る速度。
The value is number of nodes per minute and it can be used to prevent power surges if a large number of nodes in power save mode are assigned work at the same time (e.g. a large job starts).
この値は、1分あたりのノード数であり、省電力モードの多数のノードに同時に作業が割り当てられている場合(大きなジョブの開始など)、電力サージを防止するために使用できます。
A value of zero results in no limits being imposed.
値がゼロの場合、制限は課されません。
The default value is 300 nodes per minute.
デフォルト値は1分あたり300ノードです。
Related configuration options include ResumeTimeout, ResumeProgram, SuspendRate, SuspendTime, SuspendTimeout, SuspendProgram, SuspendExcNodes, and SuspendExcParts.
関連する構成オプションには、ResumeTimeout、ResumeProgram、SuspendRate、SuspendTime、SuspendTimeout、SuspendProgram、SuspendExcNodes、およびSuspendExcPartsがあります。
- ResumeTimeout
-
Maximum time permitted (in seconds) between when a node resume request
is issued and when the node is actually available for use.
ノード再開要求が発行されてからノードが実際に使用可能になるまでの最大許容時間(秒単位)。
Nodes which fail to respond in this time frame will be marked DOWN and the jobs scheduled on the node requeued.
この時間内に応答しないノードはDOWNとマークされ、ノードでスケジュールされたジョブはキューに再登録されます。
Nodes which reboot after this time frame will be marked DOWN with a reason of "Node unexpectedly rebooted." The default value is 60 seconds.
この時間枠の後に再起動したノードは、「ノードが予期せず再起動した」という理由でDOWNとマークされます。デフォルト値は60秒です。
Related configuration options include ResumeProgram, ResumeRate, SuspendRate, SuspendTime, SuspendTimeout, SuspendProgram, SuspendExcNodes and SuspendExcParts.
関連する構成オプションには、ResumeProgram、ResumeRate、SuspendRate、SuspendTime、SuspendTimeout、SuspendProgram、SuspendExcNodes、およびSuspendExcPartsがあります。
More information is available at the Slurm web site ( https://slurm.schedmd.com/power_save.html ).
詳細については、Slurm Webサイト(https://slurm.schedmd.com/power_save.html)を参照してください。
- ResvEpilog
-
Fully qualified pathname of a program for the slurmctld to execute
when a reservation ends.
予約の終了時にslurmctldが実行するプログラムの完全修飾パス名。
The program can be used to cancel jobs, modify partition configuration, etc.
このプログラムは、ジョブのキャンセル、パーティション構成の変更などに使用できます。
The reservation named will be passed as an argument to the program.
指定された予約は、引数としてプログラムに渡されます。
By default there is no epilog.
デフォルトではエピローグはありません。
- ResvOverRun
-
Describes how long a job already running in a reservation should be
permitted to execute after the end time of the reservation has been
reached.
予約の終了時刻に達した後、予約ですでに実行されているジョブの実行を許可する期間を記述します。
The time period is specified in minutes and the default value is 0 (kill the job immediately).
期間は分単位で指定され、デフォルト値は0(ジョブを即時に強制終了)です。
The value may not exceed 65533 minutes, although a value of "UNLIMITED" is supported to permit a job to run indefinitely after its reservation is terminated.
値は65533分を超えることはできませんが、予約が終了した後、ジョブを無期限に実行できるように「無制限」の値がサポートされています。
- ResvProlog
-
Fully qualified pathname of a program for the slurmctld to execute
when a reservation begins.
予約の開始時にslurmctldが実行するプログラムの完全修飾パス名。
The program can be used to cancel jobs, modify partition configuration, etc.
このプログラムは、ジョブのキャンセル、パーティション構成の変更などに使用できます。
The reservation named will be passed as an argument to the program.
指定された予約は、引数としてプログラムに渡されます。
By default there is no prolog.
デフォルトではプロローグはありません。
- ReturnToService
-
Controls when a DOWN node will be returned to service.
DOWNノードをいつサービスに戻すかを制御します。
The default value is 0.
デフォルト値は0です。
Supported values include
サポートされる値は次のとおりです
-
- 0
-
A node will remain in the DOWN state until a system administrator
explicitly changes its state (even if the slurmd daemon registers
and resumes communications).
システム管理者が明示的に状態を変更するまで(slurmdデーモンが登録して通信を再開した場合でも)、ノードはDOWN状態のままになります。
- 1
-
A DOWN node will become available for use upon registration with a
valid configuration only if it was set DOWN due to being non-responsive.
DOWNノードは、応答がないためにDOWNに設定されている場合にのみ、有効な構成への登録時に使用可能になります。
If the node was set DOWN for any other reason (low memory, unexpected reboot, etc.), its state will not automatically be changed.
他の理由(メモリ不足、予期しない再起動など)でノードがDOWNに設定された場合、その状態は自動的に変更されません。
A node registers with a valid configuration if its memory, GRES, CPU count, etc. are equal to or greater than the values configured in slurm.conf.
ノードは、そのメモリ、GRES、CPUカウントなどがslurm.confで構成された値以上の場合、有効な構成で登録します。
- 2
-
A DOWN node will become available for use upon registration with a
valid configuration.
有効な構成に登録すると、DOWNノードが使用可能になります。
The node could have been set DOWN for any reason.
ノードは何らかの理由でDOWNに設定されている可能性があります。
A node registers with a valid configuration if its memory, GRES, CPU count, etc. are equal to or greater than the values configured in slurm.conf. (Disabled on Cray ALPS systems.)
ノードは、そのメモリ、GRES、CPUカウントなどがslurm.confで構成された値以上の場合、有効な構成で登録します。(Cray ALPSシステムでは無効です。)
-
- RoutePlugin
-
Identifies the plugin to be used for defining which nodes will be used
for message forwarding and message aggregation.
メッセージ転送とメッセージ集約に使用されるノードを定義するために使用されるプラグインを識別します。
- SallocDefaultCommand
-
Normally, salloc(1) will run the user's default shell when
a command to execute is not specified on the salloc command line.
通常、salloc(1)は、実行するコマンドがsallocコマンドラインで指定されていない場合、ユーザーのデフォルトシェルを実行します。
If SallocDefaultCommand is specified, salloc will instead run the configured command.
SallocDefaultCommandが指定されている場合、sallocは代わりに構成されたコマンドを実行します。
The command is passed to '/bin/sh -c', so shell metacharacters are allowed, and commands with multiple arguments should be quoted. For instance:
コマンドは「/ bin / sh -c」に渡されるため、シェルのメタ文字が許可され、複数の引数を持つコマンドは引用符で囲む必要があります。例えば:
SallocDefaultCommand = "$SHELL"
would run the shell in the user's $SHELL environment variable.
ユーザーの$ SHELL環境変数でシェルを実行します。
andSallocDefaultCommand = "srun -n1 -N1 --mem-per-cpu=0 --pty --preserve-env --mpi=none $SHELL"
would run spawn the user's default shell on the allocated resources, but not consume any of the CPU or memory resources, configure it as a pseudo-terminal, and preserve all of the job's environment variables (i.e. and not over-write them with the job step's allocation information).
割り当てられたリソースでユーザーのデフォルトシェルを生成しますが、CPUまたはメモリリソースを消費せず、疑似ターミナルとして構成し、ジョブのすべての環境変数を保持します(つまり、ジョブでそれらを上書きしません)ステップの割り当て情報)。
For systems with generic resources (GRES) defined, the SallocDefaultCommand value should explicitly specify a zero count for the configured GRES.
汎用リソース(GRES)が定義されているシステムの場合、SallocDefaultCommand値は、構成されたGRESのゼロカウントを明示的に指定する必要があります。
Failure to do so will result in the launched shell consuming those GRES and preventing subsequent srun commands from using them.
そうしないと、起動されたシェルがそれらのGRESを消費し、後続のsrunコマンドがそれらを使用できなくなります。
For example, on Cray systems add "--gres=craynetwork:0" as shown below:
たとえば、Crayシステムでは、次に示すように「--gres = craynetwork:0」を追加します。
SallocDefaultCommand = "srun -n1 -N1 --mem-per-cpu=0 --gres=craynetwork:0 --pty --preserve-env --mpi=none $SHELL"
For systems with TaskPlugin set, adding an option of "--cpu-bind=no" is recommended if the default shell should have access to all of the CPUs allocated to the job on that node, otherwise the shell may be limited to a single cpu or core.
TaskPluginが設定されたシステムでは、デフォルトのシェルがそのノードのジョブに割り当てられたすべてのCPUにアクセスできる場合は、「-cpu-bind = no」のオプションを追加することをお勧めします。そうでない場合、シェルは単一に制限される可能性があります。 CPUまたはコア。
- SbcastParameters
-
Controls sbcast command behavior.
sbcastコマンドの動作を制御します。
Multiple options can be specified in a comma separated list.
複数のオプションをコンマ区切りリストで指定できます。
Supported values include:
サポートされる値は次のとおりです。
-
- DestDir=
-
Destination directory for file being broadcast to allocated compute nodes.
割り当てられた計算ノードにブロードキャストされるファイルの宛先ディレクトリ。
Default value is current working directory.
デフォルト値は現在の作業ディレクトリです。
- Compression=
-
Specify default file compression library to be used.
使用するデフォルトのファイル圧縮ライブラリを指定します。
Supported values are "lz4", "none" and "zlib".
サポートされている値は「lz4」、「none」、「zlib」です。
The default value with the sbcast --compress option is "lz4" and "none" otherwise.
sbcast --compressオプションのデフォルト値は「lz4」で、それ以外の場合は「none」です。
Some compression libraries may be unavailable on some systems.
一部の圧縮ライブラリは、一部のシステムでは使用できない場合があります。
-
- SchedulerParameters
-
The interpretation of this parameter varies by SchedulerType.
このパラメーターの解釈は、SchedulerTypeによって異なります。
Multiple options may be comma separated.
複数のオプションをコンマで区切ることができます。
-
- allow_zero_lic
-
If set, then job submissions requesting more than configured licenses won't be
rejected.
設定されている場合、構成されたライセンスより多くを要求するジョブの送信は拒否されません。
- assoc_limit_stop
-
If set and a job cannot start due to association limits, then do not attempt
to initiate any lower priority jobs in that partition.
設定されていて、関連付けの制限のためにジョブを開始できない場合は、そのパーティションで優先度の低いジョブを開始しないでください。
Setting this can decrease system throughput and utilization, but avoid potentially starving larger jobs by preventing them from launching indefinitely.
これを設定すると、システムのスループットと使用率が低下する可能性がありますが、ジョブが無期限に起動されるのを防ぐことで、より大きなジョブが不足する可能性を回避できます。
- batch_sched_delay=#
-
How long, in seconds, the scheduling of batch jobs can be delayed.
バッチジョブのスケジュールを遅らせることができる秒数。
This can be useful in a high-throughput environment in which batch jobs are submitted at a very high rate (i.e. using the sbatch command) and one wishes to reduce the overhead of attempting to schedule each job at submit time.
これは、バッチジョブが非常に高速でサブミットされる(つまり、sbatchコマンドを使用する)高スループット環境で役立ち、サブミット時に各ジョブをスケジュールしようとするオーバーヘッドを削減したいと考えています。
The default value is 3 seconds.
デフォルト値は3秒です。
- bb_array_stage_cnt=#
-
Number of tasks from a job array that should be available for burst buffer
resource allocation.
バーストバッファーリソースの割り当てに使用できるジョブ配列からのタスクの数。
Higher values will increase the system overhead as each task from the job array will be moved to its own job record in memory, so relatively small values are generally recommended.
ジョブアレイの各タスクはメモリ内の独自のジョブレコードに移動されるため、値を大きくするとシステムのオーバーヘッドが増加するため、比較的小さい値をお勧めします。
The default value is 10.
デフォルト値は10です。
- bf_busy_nodes
-
When selecting resources for pending jobs to reserve for future execution
(i.e. the job can not be started immediately), then preferentially select
nodes that are in use.
保留中のジョブのリソースを選択して将来の実行のために予約する場合(つまり、ジョブをすぐに開始できない場合)、使用中のノードを優先的に選択します。
This will tend to leave currently idle resources available for backfilling longer running jobs, but may result in allocations having less than optimal network topology.
これにより、現在アイドル状態のリソースを実行時間の長いジョブのバックフィルに利用できるようになる傾向がありますが、割り当てが最適ではないネットワークトポロジになる可能性があります。
This option is currently only supported by the select/cons_res and select/cons_tres plugins (or select/cray_aries with SelectTypeParameters set to "OTHER_CONS_RES" or "OTHER_CONS_TRES", which layers the select/cray_aries plugin over the select/cons_res or select/cons_tres plugin respectively).
このオプションは現在、select / cons_resおよびselect / cons_tresプラグイン(またはSelectTypeParametersが "OTHER_CONS_RES"または "OTHER_CONS_TRES"に設定されたselect / cray_aries)によってのみサポートされ、select / cons_resまたはselect / cons_tresプラグインの上にselect / cray_ariesプラグインを重ねます。それぞれ)。
- bf_continue
-
The backfill scheduler periodically releases locks in order to permit other
operations to proceed rather than blocking all activity for what could be an
extended period of time.
バックフィルスケジューラは定期的にロックを解放し、長期間のアクティビティをすべてブロックするのではなく、他の操作を続行できるようにします。
Setting this option will cause the backfill scheduler to continue processing pending jobs from its original job list after releasing locks even if job or node state changes.
このオプションを設定すると、ジョブまたはノードの状態が変化しても、ロックを解除した後、バックフィルスケジューラは元のジョブリストから保留中のジョブの処理を続行します。
- bf_hetjob_immediate
-
Instruct the backfill scheduler to attempt to start a heterogeneous job as
soon as all of its components are determined able to do so.
すべてのコンポーネントが実行可能であると判断されたらすぐに、異種混合ジョブの開始を試みるようにバックフィルスケジューラに指示します。
Otherwise, the backfill scheduler will delay heterogeneous jobs initiation attempts until after the rest of the queue has been processed.
それ以外の場合、バックフィルスケジューラは、残りのキューが処理されるまで、異種ジョブの開始試行を遅らせます。
This delay may result in lower priority jobs being allocated resources, which could delay the initiation of the heterogeneous job due to account and/or QOS limits being reached.
この遅延により、優先順位の低いジョブにリソースが割り当てられる可能性があり、アカウントやQoSの制限に達したために、異種ジョブの開始が遅れる可能性があります。
This option is disabled by default.
このオプションはデフォルトで無効になっています。
If enabled and bf_hetjob_prio=min is not set, then it would be automatically set.
有効でbf_hetjob_prio = minが設定されていない場合は、自動的に設定されます。
- bf_hetjob_prio=[min|avg|max]
-
At the beginning of each backfill scheduling cycle, a list of pending to be
scheduled jobs is sorted according to the precedence order configured in
PriorityType.
各バックフィルスケジューリングサイクルの開始時に、スケジュールされる保留中のジョブのリストは、PriorityTypeで構成された優先順位に従って並べ替えられます。
This option instructs the scheduler to alter the sorting algorithm to ensure that all components belonging to the same heterogeneous job will be attempted to be scheduled consecutively (thus not fragmented in the resulting list).
このオプションは、同じ異種ジョブに属するすべてのコンポーネントが連続してスケジュールされるように(したがって、結果のリストでフラグメント化されないように)するように、ソートアルゴリズムを変更するようにスケジューラーに指示します。
More specifically, all components from the same heterogeneous job will be treated as if they all have the same priority (minimum, average or maximum depending upon this option's parameter) when compared with other jobs (or other heterogeneous job components).
より具体的には、同じ異種ジョブのすべてのコンポーネントは、他のジョブ(または他の異種ジョブコンポーネント)と比較すると、すべてが同じ優先度(このオプションのパラメーターに応じて最小、平均、または最大)を持っているかのように扱われます。
The original order will be preserved within the same heterogeneous job.
元の注文は同じ異種ジョブ内で保持されます。
Note that the operation is calculated for the PriorityTier layer and for the Priority resulting from the priority/multifactor plugin calculations.
この操作は、PriorityTierレイヤーと、priority / multifactorプラグインの計算結果のPriorityに対して計算されることに注意してください。
When enabled, if any heterogeneous job requested an advanced reservation, then all of that job's components will be treated as if they had requested an advanced reservation (and get preferential treatment in scheduling).
有効にすると、異機種混合ジョブが事前予約を要求した場合、そのジョブのすべてのコンポーネントは、事前予約を要求した場合と同様に処理されます(およびスケジューリングで優先的に処理されます)。
Note that this operation does not update the Priority values of the heterogeneous job components, only their order within the list, so the output of the sprio command will not be effected.
この操作では、異種ジョブコンポーネントのPriority値は更新されず、リスト内の順序のみが更新されるため、sprioコマンドの出力には影響しません。
Heterogeneous jobs have special scheduling properties: they are only scheduled by the backfill scheduling plugin, each of their components is considered separately when reserving resources (and might have different PriorityTier or different Priority values), and no heterogeneous job component is actually allocated resources until all if its components can be initiated.
異種ジョブには特別なスケジューリングプロパティがあります。それらはバックフィルスケジューリングプラグインによってのみスケジュールされ、リソースを予約するときに各コンポーネントは個別に考慮されます(異なるPriorityTierまたは異なるPriority値を持つ可能性があります)、異種ジョブコンポーネントは実際にすべてが割り当てられるまでリソースを割り当てられませんそのコンポーネントを開始できるかどうか。
This may imply potential scheduling deadlock scenarios because components from different heterogeneous jobs can start reserving resources in an interleaved fashion (not consecutively), but none of the jobs can reserve resources for all components and start.
これは、異なる異種ジョブのコンポーネントが(連続的ではなく)インターリーブ方式でリソースの予約を開始できるが、どのジョブもすべてのコンポーネントのリソースを予約して開始できないため、潜在的なスケジューリングデッドロックシナリオを示唆している可能性があります。
Enabling this option can help to mitigate this problem.
このオプションを有効にすると、この問題を軽減するのに役立ちます。
By default, this option is disabled.
デフォルトでは、このオプションは無効になっています。
- bf_interval=#
-
The number of seconds between backfill iterations.
バックフィルの反復間の秒数。
Higher values result in less overhead and better responsiveness.
値が大きいほど、オーバーヘッドが少なくなり、応答性が向上します。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Default: 30, Min: 1, Max: 10800 (3h).
デフォルト:30、最小:1、最大:10800(3時間)。
- bf_job_part_count_reserve=#
-
The backfill scheduling logic will reserve resources for the specified count
of highest priority jobs in each partition.
バックフィルスケジューリングロジックは、各パーティションで優先度が最も高いジョブの指定された数のリソースを予約します。
For example, bf_job_part_count_reserve=10 will cause the backfill scheduler to reserve resources for the ten highest priority jobs in each partition.
たとえば、bf_job_part_count_reserve = 10を指定すると、バックフィルスケジューラは、各パーティションで最も優先度の高い10個のジョブのリソースを予約します。
Any lower priority job that can be started using currently available resources and not adversely impact the expected start time of these higher priority jobs will be started by the backfill scheduler The default value is zero, which will reserve resources for any pending job and delay initiation of lower priority jobs.
現在利用可能なリソースを使用して開始でき、これらの優先度の高いジョブの予想開始時間に悪影響を与えない優先度の低いジョブは、バックフィルスケジューラによって開始されます。デフォルト値はゼロで、保留中のジョブのリソースを予約し、開始を遅らせます。優先度の低いジョブ。
Also see bf_min_age_reserve and bf_min_prio_reserve.
bf_min_age_reserveおよびbf_min_prio_reserveも参照してください。
Default: 0, Min: 0, Max: 100000.
デフォルト:0、最小:0、最大:100000。
- bf_max_job_array_resv=#
-
The maximum number of tasks from a job array for which the backfill scheduler
will reserve resources in the future.
バックフィルスケジューラが将来リソースを予約するジョブ配列からのタスクの最大数。
Since job arrays can potentially have millions of tasks, the overhead in reserving resources for all tasks can be prohibitive.
ジョブ配列には数百万のタスクが含まれる可能性があるため、すべてのタスクのリソースを予約する際のオーバーヘッドは法外なものになる可能性があります。
In addition various limits may prevent all the jobs from starting at the expected times.
さらに、さまざまな制限により、すべてのジョブが予定時刻に開始されない場合があります。
This has no impact upon the number of tasks from a job array that can be started immediately, only those tasks expected to start at some future time.
これは、すぐに開始できるジョブ配列からのタスクの数に影響を与えません。ある時点で開始することが予想されるタスクのみに影響します。
Default: 20, Min: 0, Max: 1000.
デフォルト:20、最小:0、最大:1000。
NOTE: Jobs submitted to multiple partitions appear in the job queue once per partition.
注:複数のパーティションに送信されたジョブは、パーティションごとに1回ジョブキューに表示されます。
If different copies of a single job array record aren't consecutive in the job queue and another job array record is in between, then bf_max_job_array_resv tasks are considered per partition that the job is submitted to.
単一のジョブ配列レコードの異なるコピーがジョブキュー内で連続しておらず、その間に別のジョブ配列レコードがある場合、bf_max_job_array_resvタスクは、ジョブが送信されるパーティションごとに考慮されます。
- bf_max_job_assoc=#
-
The maximum number of jobs per user association to attempt starting with the
backfill scheduler.
バックフィルスケジューラで開始を試行するユーザーアソシエーションあたりのジョブの最大数。
This setting is similar to bf_max_job_user but is handy if a user has multiple associations equating to basically different users.
この設定はbf_max_job_userに似ていますが、ユーザーが基本的に異なるユーザーと同等の複数の関連付けを持っている場合に便利です。
One can set this limit to prevent users from flooding the backfill queue with jobs that cannot start and that prevent jobs from other users to start.
この制限を設定して、ユーザーがバックフィルキューを開始できないジョブでいっぱいにしたり、他のユーザーのジョブを開始できないようにすることができます。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Also see the bf_max_job_user bf_max_job_part, bf_max_job_test and bf_max_job_user_part=# options.
bf_max_job_user bf_max_job_part、bf_max_job_test、およびbf_max_job_user_part =#オプションも参照してください。
Set bf_max_job_test to a value much higher than bf_max_job_assoc.
bf_max_job_testをbf_max_job_assocよりはるかに高い値に設定します。
Default: 0 (no limit), Min: 0, Max: bf_max_job_test.
デフォルト:0(制限なし)、最小:0、最大:bf_max_job_test。
- bf_max_job_part=#
-
The maximum number of jobs per partition to attempt starting with the backfill
scheduler.
バックフィルスケジューラからの開始を試行するパーティションごとの最大ジョブ数。
This can be especially helpful for systems with large numbers of partitions and jobs.
これは、パーティションとジョブが多数あるシステムで特に役立ちます。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Also see the partition_job_depth and bf_max_job_test options.
また、partition_job_depthおよびbf_max_job_testオプションも参照してください。
Set bf_max_job_test to a value much higher than bf_max_job_part.
bf_max_job_testをbf_max_job_partよりはるかに高い値に設定します。
Default: 0 (no limit), Min: 0, Max: bf_max_job_test.
デフォルト:0(制限なし)、最小:0、最大:bf_max_job_test。
- bf_max_job_start=#
-
The maximum number of jobs which can be initiated in a single iteration
of the backfill scheduler.
バックフィルスケジューラの1回の反復で開始できるジョブの最大数。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Default: 0 (no limit), Min: 0, Max: 10000.
デフォルト:0(制限なし)、最小:0、最大:10000。
- bf_max_job_test=#
-
The maximum number of jobs to attempt backfill scheduling for
(i.e. the queue depth).
バックフィルスケジューリングを試行するジョブの最大数(つまり、キューの深さ)。
Higher values result in more overhead and less responsiveness.
値が大きいほど、オーバーヘッドが大きくなり、応答性が低下します。
Until an attempt is made to backfill schedule a job, its expected initiation time value will not be set.
ジョブのバックフィルスケジュールが試行されるまで、その予想開始時間値は設定されません。
In the case of large clusters, configuring a relatively small value may be desirable.
大きなクラスターの場合、比較的小さな値を設定することが望ましい場合があります。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Default: 100, Min: 1, Max: 1,000,000.
デフォルト:100、最小:1、最大:1,000,000。
- bf_max_job_user=#
-
The maximum number of jobs per user to attempt starting with the backfill
scheduler for ALL partitions.
すべてのパーティションのバックフィルスケジューラから開始しようとするユーザーあたりの最大ジョブ数。
One can set this limit to prevent users from flooding the backfill queue with jobs that cannot start and that prevent jobs from other users to start.
この制限を設定して、ユーザーがバックフィルキューを開始できないジョブでいっぱいにしたり、他のユーザーのジョブを開始できないようにすることができます。
This is similar to the MAXIJOB limit in Maui.
これは、マウイのMAXIJOB制限に似ています。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Also see the bf_max_job_part, bf_max_job_test and bf_max_job_user_part=# options.
bf_max_job_part、bf_max_job_test、およびbf_max_job_user_part =#オプションも参照してください。
Set bf_max_job_test to a value much higher than bf_max_job_user.
bf_max_job_testをbf_max_job_userよりはるかに高い値に設定します。
Default: 0 (no limit), Min: 0, Max: bf_max_job_test.
デフォルト:0(制限なし)、最小:0、最大:bf_max_job_test。
- bf_max_job_user_part=#
-
The maximum number of jobs per user per partition to attempt starting with the
backfill scheduler for any single partition.
単一のパーティションのバックフィルスケジューラから開始を試みる、パーティションごとのユーザーごとのジョブの最大数。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Also see the bf_max_job_part, bf_max_job_test and bf_max_job_user=# options.
bf_max_job_part、bf_max_job_test、およびbf_max_job_user =#オプションも参照してください。
Default: 0 (no limit), Min: 0, Max: bf_max_job_test.
デフォルト:0(制限なし)、最小:0、最大:bf_max_job_test。
- bf_max_time=#
-
The maximum time in seconds the backfill scheduler can spend (including time
spent sleeping when locks are released) before discontinuing, even if maximum
job counts have not been reached.
最大ジョブ数に達していなくても、バックフィルスケジューラが中止するまでに費やすことができる最大時間(秒)(ロックが解除されたときのスリープ時間を含む)。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
The default value is the value of bf_interval (which defaults to 30 seconds).
デフォルト値はbf_intervalの値です(デフォルトは30秒です)。
Default: bf_interval value (def. 30 sec), Min: 1, Max: 3600 (1h).
デフォルト:bf_interval値(def。30秒)、最小:1、最大:3600(1時間)。
NOTE: If bf_interval is short and bf_max_time is large, this may cause locks to be acquired too frequently and starve out other serviced RPCs.
注:bf_intervalが短く、bf_max_timeが大きい場合、ロックが頻繁に取得され、他のサービス対象のRPCが不足する可能性があります。
It's advisable if using this parameter to set max_rpc_cnt high enough that scheduling isn't always disabled, and low enough that the interactive workload can get through in a reasonable period of time.
このパラメーターを使用してmax_rpc_cntを十分に高く設定してスケジューリングが常に無効になるわけではなく、対話型ワークロードが妥当な時間内に通過できるように低く設定することをお勧めします。
max_rpc_cnt needs to be below 256 (the default RPC thread limit).
max_rpc_cntは256(デフォルトのRPCスレッド制限)未満である必要があります。
Running around the middle (150) may give you good results.
中央(150)あたりを走ると、良い結果が得られる場合があります。
NOTE: When increasing the amount of time spent in the backfill scheduling cycle, Slurm can be prevented from responding to client requests in a timely manner.
注:バックフィルのスケジューリングサイクルに費やす時間を増やすと、Slurmがクライアントの要求にタイムリーに応答するのを防ぐことができます。
To address this you can use max_rpc_cnt to specify a number of queued RPCs before the scheduler stops to respond to these requests.
これに対処するには、max_rpc_cntを使用して、スケジューラがこれらの要求への応答を停止する前に、キューに入れられたRPCの数を指定できます。
- bf_min_age_reserve=#
-
The backfill and main scheduling logic will not reserve resources for pending
jobs until they have been pending and runnable for at least the specified
number of seconds.
バックフィルとメインのスケジューリングロジックは、保留中のジョブが少なくとも指定された秒数実行可能になるまで、保留中のジョブのリソースを予約しません。
In addition, jobs waiting for less than the specified number of seconds will not prevent a newly submitted job from starting immediately, even if the newly submitted job has a lower priority.
さらに、指定された秒数未満待機しているジョブは、新しくサブミットされたジョブの優先度が低い場合でも、新しくサブミットされたジョブの即時開始を妨げません。
This can be valuable if jobs lack time limits or all time limits have the same value.
これは、ジョブに時間制限がないか、すべての時間制限が同じ値である場合に役立ちます。
The default value is zero, which will reserve resources for any pending job and delay initiation of lower priority jobs.
デフォルト値はゼロで、保留中のジョブのためにリソースを予約し、優先度の低いジョブの開始を遅らせます。
Also see bf_job_part_count_reserve and bf_min_prio_reserve.
bf_job_part_count_reserveおよびbf_min_prio_reserveも参照してください。
Default: 0, Min: 0, Max: 2592000 (30 days).
デフォルト:0、最小:0、最大:2592000(30日)。
- bf_min_prio_reserve=#
-
The backfill and main scheduling logic will not reserve resources for pending
jobs unless they have a priority equal to or higher than the specified value.
バックフィルおよびメインスケジューリングロジックは、指定された値以上の優先度がない限り、保留中のジョブのリソースを予約しません。
In addition, jobs with a lower priority will not prevent a newly submitted job from starting immediately, even if the newly submitted job has a lower priority.
また、優先度の低いジョブは、新しく送信されたジョブの優先度が低くても、新しく送信されたジョブがすぐに開始されるのを妨げません。
This can be valuable if one wished to maximum system utilization without regard for job priority below a certain threshold.
これは、特定のしきい値を下回るジョブの優先度に関係なく、システムの使用率を最大化したい場合に役立ちます。
The default value is zero, which will reserve resources for any pending job and delay initiation of lower priority jobs.
デフォルト値はゼロで、保留中のジョブのためにリソースを予約し、優先度の低いジョブの開始を遅らせます。
Also see bf_job_part_count_reserve and bf_min_age_reserve.
bf_job_part_count_reserveおよびbf_min_age_reserveも参照してください。
Default: 0, Min: 0, Max: 2^63.
デフォルト:0、最小:0、最大:2 ^ 63。
- bf_one_resv_per_job
-
Disallow adding more than one backfill reservation per job.
ジョブごとに複数のバックフィル予約を追加することを禁止します。
The scheduling logic builds a sorted list of (job, partition) pairs.
スケジューリングロジックは、(ジョブ、パーティション)ペアのソートされたリストを作成します。
Jobs submitted to multiple partitions have as many entries in the list as requested partitions.
複数のパーティションに送信されたジョブには、要求されたパーティションと同じ数のエントリがリストに含まれています。
By default, the backfill scheduler may evaluate all the (job, partition) entries for a single job, potentially reserving resources for each pair, but only starting the job in the reservation offering the earliest start time.
デフォルトでは、バックフィルスケジューラは1つのジョブのすべての(ジョブ、パーティション)エントリを評価し、各ペアのリソースを予約する可能性がありますが、最も早い開始時間を提供する予約でのみジョブを開始します。
Having a single job reserving resources for multiple partitions could impede other jobs (or hetjob components) from reserving resources already reserved for the reservations related to the paris that don't offer the earliest start time.
1つのジョブで複数のパーティションのリソースを予約すると、他のジョブ(またはhetjobコンポーネント)が、最も早い開始時刻を提供しないパリに関連する予約用にすでに予約されているリソースを予約できなくなる可能性があります。
This option makes it so that a job submitted to multiple partitions will stop reserving resources once the first (job, partition) pair has booked a backfill reservation.
このオプションを使用すると、複数のパーティションに送信されたジョブは、最初の(ジョブ、パーティション)ペアがバックフィル予約を予約すると、リソースの予約を停止します。
Subsequent pairs from the same job will only be tested to start now.
同じジョブからの後続のペアは、今すぐ開始するためにのみテストされます。
This allows for other jobs to be able to book the other pairs resources at the cost of not guaranteeing that the multi partition job will start in the partition offering the earliest start time (except if it can start now).
これにより、他のジョブが他のペアのリソースを予約できるようになりますが、マルチパーティションジョブが最も早い開始時間を提供するパーティションで開始することが保証されません(今すぐ開始できる場合を除く)。
This option is disabled by default.
このオプションはデフォルトで無効になっています。
- bf_resolution=#
-
The number of seconds in the resolution of data maintained about when jobs
begin and end.
ジョブの開始と終了について維持されるデータの解決の秒数。
Higher values result in less overhead and better responsiveness.
値が大きいほど、オーバーヘッドが少なくなり、応答性が向上します。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Default: 60, Min: 1, Max: 3600 (1 hour).
デフォルト:60、最小:1、最大:3600(1時間)。
- bf_running_job_reserve
-
Add an extra step to backfill logic, which creates backfill reservations
for jobs running on whole nodes.
ノード全体で実行されるジョブのバックフィル予約を作成するバックフィルロジックに追加のステップを追加します。
This option is disabled by default.
このオプションはデフォルトで無効になっています。
- bf_window=#
-
The number of minutes into the future to look when considering jobs to schedule.
スケジュールするジョブを検討する際に検討する将来の分数。
Higher values result in more overhead and less responsiveness.
値が大きいほど、オーバーヘッドが大きくなり、応答性が低下します。
A value at least as long as the highest allowed time limit is generally advisable to prevent job starvation.
少なくとも、ジョブの飢餓を防ぐために、許容される最大の時間制限と同じくらいの値が推奨されます。
In order to limit the amount of data managed by the backfill scheduler, if the value of bf_window is increased, then it is generally advisable to also increase bf_resolution.
バックフィルスケジューラによって管理されるデータの量を制限するために、bf_windowの値を増やす場合は、bf_resolutionも増やすことをお勧めします。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Default: 1440 (1 day), Min: 1, Max: 43200 (30 days).
デフォルト:1440(1日)、最小:1、最大:43200(30日)。
- bf_window_linear=#
-
For performance reasons, the backfill scheduler will decrease precision in
calculation of job expected termination times.
パフォーマンス上の理由から、バックフィルスケジューラは、ジョブの予想終了時間の計算精度を低下させます。
By default, the precision starts at 30 seconds and that time interval doubles with each evaluation of currently executing jobs when trying to determine when a pending job can start.
デフォルトでは、精度は30秒から始まり、保留中のジョブをいつ開始できるかを判断しようとすると、その時間間隔は現在実行中のジョブの評価ごとに2倍になります。
This algorithm can support an environment with many thousands of running jobs, but can result in the expected start time of pending jobs being gradually being deferred due to lack of precision.
このアルゴリズムは、何千ものジョブが実行されている環境をサポートできますが、精度が不足しているため、保留中のジョブの予想される開始時間が徐々に延期される可能性があります。
A value for bf_window_linear will cause the time interval to be increased by a constant amount on each iteration.
bf_window_linearの値を指定すると、時間間隔が反復ごとに一定量増加します。
The value is specified in units of seconds.
値は秒単位で指定されます。
For example, a value of 60 will cause the backfill scheduler on the first iteration to identify the job ending soonest and determine if the pending job can be started after that job plus all other jobs expected to end within 30 seconds (default initial value) of the first job.
たとえば、値が60の場合、最初の反復のバックフィルスケジューラは、最も早く終了するジョブを識別し、そのジョブの後に保留中のジョブを開始できるかどうか、および30秒以内に終了すると予想される他のすべてのジョブ(デフォルトの初期値)を決定します。最初の仕事。
On the next iteration, the pending job will be evaluated for starting after the next job expected to end plus all jobs ending within 90 seconds of that time (30 second default, plus the 60 second option value).
次の反復では、保留中のジョブは、終了が予想される次のジョブとその時間の90秒以内に終了するすべてのジョブ(30秒のデフォルト、および60秒のオプション値)の後に開始するかどうか評価されます。
The third iteration will have a 150 second window and the fourth 210 seconds.
3番目の反復には、150秒のウィンドウと4番目の210秒があります。
Without this option, the time windows will double on each iteration and thus be 30, 60, 120, 240 seconds, etc.
このオプションがない場合、時間ウィンドウは各反復で2倍になり、したがって30、60、120、240秒などになります。
The use of bf_window_linear is not recommended with more than a few hundred simultaneously executing jobs.
bf_window_linearの使用は、数百を超える同時実行ジョブでは推奨されません。
- bf_yield_interval=#
-
The backfill scheduler will periodically relinquish locks in order for other
pending operations to take place.
バックフィルスケジューラは、他の保留中の操作を実行するために、定期的にロックを放棄します。
This specifies the times when the locks are relinquished in microseconds.
これは、ロックが解放される時間をマイクロ秒で指定します。
Smaller values may be helpful for high throughput computing when used in conjunction with the bf_continue option.
値を小さくすると、bf_continueオプションと組み合わせて使用すると、高スループットコンピューティングに役立ちます。
Also see the bf_yield_sleep option.
bf_yield_sleepオプションも参照してください。
Default: 2,000,000 (2 sec), Min: 1, Max: 10,000,000 (10 sec).
デフォルト:2,000,000(2秒)、最小:1、最大:10,000,000(10秒)。
- bf_yield_sleep=#
-
The backfill scheduler will periodically relinquish locks in order for other
pending operations to take place.
バックフィルスケジューラは、他の保留中の操作を実行するために、定期的にロックを放棄します。
This specifies the length of time for which the locks are relinquished in microseconds.
これは、ロックが解放される時間の長さをマイクロ秒単位で指定します。
Also see the bf_yield_interval option.
bf_yield_intervalオプションも参照してください。
Default: 500,000 (0.5 sec), Min: 1, Max: 10,000,000 (10 sec).
デフォルト:500,000(0.5秒)、最小:1、最大:10,000,000(10秒)。
- build_queue_timeout=#
-
Defines the maximum time that can be devoted to building a queue of jobs to
be tested for scheduling.
スケジューリングをテストするジョブのキューを構築するために費やすことができる最大時間を定義します。
If the system has a huge number of jobs with dependencies, just building the job queue can take so much time as to adversely impact overall system performance and this parameter can be adjusted as needed.
システムに依存関係のある多数のジョブがある場合、ジョブキューの構築だけではシステム全体のパフォーマンスに悪影響を与えるほどの時間がかかる可能性があり、このパラメーターは必要に応じて調整できます。
The default value is 2,000,000 microseconds (2 seconds).
デフォルト値は2,000,000マイクロ秒(2秒)です。
- default_queue_depth=#
-
The default number of jobs to attempt scheduling (i.e. the queue depth) when a
running job completes or other routine actions occur, however the frequency
with which the scheduler is run may be limited by using the defer or
sched_min_interval parameters described below.
実行中のジョブが完了したとき、または他のルーチンアクションが発生したときに、スケジューリングを試行するデフォルトのジョブ数(キューの深さなど)。ただし、スケジューラの実行頻度は、下記のdeferまたはsched_min_intervalパラメータを使用して制限される場合があります。
The full queue will be tested on a less frequent basis as defined by the sched_interval option described below.
以下で説明するsched_intervalオプションで定義されているように、キュー全体がテストされる頻度は低くなります。
The default value is 100.
デフォルト値は100です。
See the partition_job_depth option to limit depth by partition.
パーティションごとに深さを制限するには、partition_job_depthオプションを参照してください。
- defer
-
Setting this option will avoid attempting to schedule each job
individually at job submit time, but defer it until a later time when
scheduling multiple jobs simultaneously may be possible.
このオプションを設定すると、ジョブのサブミット時に各ジョブを個別にスケジュールする試みが回避されますが、複数のジョブを同時にスケジュールすることが可能な後の時刻まで延期することができます。
This option may improve system responsiveness when large numbers of jobs (many hundreds) are submitted at the same time, but it will delay the initiation time of individual jobs.
このオプションを使用すると、多数のジョブ(数百)が同時に送信された場合のシステムの応答性が向上しますが、個々のジョブの開始時間が遅くなります。
Also see default_queue_depth above.
上記のdefault_queue_depthも参照してください。
- delay_boot=#
-
Do not reboot nodes in order to satisfied this job's feature specification if
the job has been eligible to run for less than this time period.
ジョブがこの期間よりも短い期間実行する資格がある場合は、このジョブの機能仕様を満たすためにノードを再起動しないでください。
If the job has waited for less than the specified period, it will use only nodes which already have the specified features.
ジョブの待機時間が指定した期間よりも短い場合、指定した機能がすでにあるノードのみが使用されます。
The argument is in units of minutes.
引数は分単位です。
Individual jobs may override this default value with the --delay-boot option.
個々のジョブは、このデフォルト値を--delay-bootオプションでオーバーライドできます。
- default_gbytes
-
The default units in job submission memory and temporary disk size specification
will be gigabytes rather than megabytes.
ジョブ送信メモリと一時ディスクサイズの仕様のデフォルトの単位は、メガバイトではなくギガバイトになります。
Users can override the default by using a suffix of "M" for megabytes.
ユーザーは、メガバイトに「M」のサフィックスを使用してデフォルトを上書きできます。
- disable_job_shrink
-
Deny user requests to shrink the side of running jobs.
実行中のジョブの側面を縮小するユーザー要求を拒否します。
(However, running jobs may still shrink due to node failure if the --no-kill option was set.)
(ただし、-no-killオプションが設定されている場合、ノードの障害が原因で実行中のジョブが縮小する可能性があります。)
- disable_hetjob_steps
-
Disable job steps that span heterogeneous job allocations.
異種のジョブ割り当てにまたがるジョブステップを無効にします。
The default value on Cray systems.
Crayシステムのデフォルト値。
- enable_hetjob_steps
-
Enable job steps that span heterogeneous job allocations.
異種のジョブ割り当てにまたがるジョブステップを有効にします。
The default value except for Cray systems.
Crayシステムを除くデフォルト値。
- enable_user_top
-
Enable use of the "scontrol top" command by non-privileged users.
非特権ユーザーによる「scontrol top」コマンドの使用を有効にします。
- Ignore_NUMA
-
Some processors (e.g. AMD Opteron 6000 series) contain multiple NUMA nodes per
socket.
一部のプロセッサ(AMD Opteron 6000シリーズなど)には、ソケットごとに複数のNUMAノードが含まれています。
This is a configuration which does not map into the hardware entities that Slurm optimizes resource allocation for (PU/thread, core, socket, baseboard, node and network switch).
これは、Slurmがリソース割り当てを最適化するハードウェアエンティティ(PU /スレッド、コア、ソケット、ベースボード、ノード、ネットワークスイッチ)にマッピングされない構成です。
In order to optimize resource allocations on such hardware, Slurm will consider each NUMA node within the socket as a separate socket by default.
そのようなハードウェアでのリソース割り当てを最適化するために、Slurmはデフォルトでソケット内の各NUMAノードを個別のソケットと見なします。
Use the Ignore_NUMA option to report the correct socket count, but not optimize resource allocations on the NUMA nodes.
Ignore_NUMAオプションを使用して正しいソケット数を報告しますが、NUMAノードでのリソース割り当てを最適化しません。
- inventory_interval=#
-
On a Cray system using Slurm on top of ALPS this limits the number of times
a Basil Inventory call is made.
ALPSの上でSlurmを使用するCrayシステムでは、これにより、Basil Inventory呼び出しが行われる回数が制限されます。
Normally this call happens every scheduling consideration to attempt to close a node state change window with respects to what ALPS has.
通常、この呼び出しは、ALPSが持っているものに関してノード状態変更ウィンドウを閉じようとするすべてのスケジューリングの考慮事項で発生します。
This call is rather slow, so making it less frequently improves performance dramatically, but in the situation where a node changes state the window is as large as this setting.
この呼び出しはやや遅いため、頻度を下げるとパフォーマンスが劇的に向上しますが、ノードが状態を変更する状況では、ウィンドウはこの設定と同じ大きさになります。
In an HTC environment this setting is a must and we advise around 10 seconds.
HTC環境ではこの設定は必須であり、約10秒をお勧めします。
- max_array_tasks
-
Specify the maximum number of tasks that be included in a job array.
ジョブ配列に含まれるタスクの最大数を指定します。
The default limit is MaxArraySize, but this option can be used to set a lower limit.
デフォルトの制限はMaxArraySizeですが、このオプションを使用して下限を設定できます。
For example, max_array_tasks=1000 and MaxArraySize=100001 would permit a maximum task ID of 100000, but limit the number of tasks in any single job array to 1000.
たとえば、max_array_tasks = 1000およびMaxArraySize = 100001の場合、最大タスクIDとして100000が許可されますが、単一のジョブアレイ内のタスク数は1000に制限されます。
- max_rpc_cnt=#
-
If the number of active threads in the slurmctld daemon is equal to or
larger than this value, defer scheduling of jobs.
slurmctldデーモン内のアクティブなスレッドの数がこの値以上の場合は、ジョブのスケジューリングを延期します。
The scheduler will check this condition at certain points in code and yield locks if necessary.
スケジューラーはコードの特定のポイントでこの条件をチェックし、必要に応じてロックを生成します。
This can improve Slurm's ability to process requests at a cost of initiating new jobs less frequently.
これにより、リクエストを処理するSlurmの機能が向上しますが、新しいジョブの開始頻度が低下します。
Default: 0 (option disabled), Min: 0, Max: 1000.
デフォルト:0(オプションは無効)、最小:0、最大:1000。
-
NOTE: The maximum number of threads (MAX_SERVER_THREADS) is internally set to
256 and defines the number of served RPCs at a given time.
注:スレッドの最大数(MAX_SERVER_THREADS)は内部で256に設定されており、特定の時間に処理されるRPCの数を定義します。
Setting max_rpc_cnt to more than 256 will be only useful to let backfill continue scheduling work after locks have been yielded (i.e. each 2 seconds) if there are a maximum of MAX(max_rpc_cnt/10, 20) RPCs in the queue.
max_rpc_cntを256より大きい値に設定すると、キューに最大RPCがMAX(max_rpc_cnt / 10、20)ある場合に、ロックが発生した後(つまり、2秒ごと)にバックフィルがスケジュールされた作業を続行できるようになります。
i.e. max_rpc_cnt=1000, the scheduler will be allowed to continue after yielding locks only when there are less than or equal to 100 pending RPCs.
つまり、max_rpc_cnt = 1000の場合、保留中のRPCが100以下の場合にのみ、ロックを生成した後もスケジューラは続行できます。
If a value is set, then a value of 10 or higher is recommended.
値を設定する場合は、10以上の値をお勧めします。
It may require some tuning for each system, but needs to be high enough that scheduling isn't always disabled, and low enough that requests can get through in a reasonable period of time.
システムごとに多少の調整が必要になる場合がありますが、スケジューリングが常に無効になるわけではないほど十分に高く、要求が妥当な時間内に通過できるほど十分に低くする必要があります。
-
NOTE: The maximum number of threads (MAX_SERVER_THREADS) is internally set to
256 and defines the number of served RPCs at a given time.
- max_sched_time=#
-
How long, in seconds, that the main scheduling loop will execute for before
exiting.
終了する前にメインスケジューリングループが実行される時間(秒単位)。
If a value is configured, be aware that all other Slurm operations will be deferred during this time period.
値が構成されている場合、他のすべてのSlurm操作がこの期間中に延期されることに注意してください。
Make certain the value is lower than MessageTimeout.
値がMessageTimeoutよりも小さいことを確認してください。
If a value is not explicitly configured, the default value is half of MessageTimeout with a minimum default value of 1 second and a maximum default value of 2 seconds.
値が明示的に構成されていない場合、デフォルト値はMessageTimeoutの半分であり、最小デフォルト値は1秒、最大デフォルト値は2秒です。
For example if MessageTimeout=10, the time limit will be 2 seconds (i.e. MIN(10/2, 2) = 2).
たとえば、MessageTimeout = 10の場合、制限時間は2秒になります(つまり、MIN(10/2、2)= 2)。
- max_script_size=#
-
Specify the maximum size of a batch script, in bytes.
バッチスクリプトの最大サイズをバイト単位で指定します。
The default value is 4 megabytes.
デフォルト値は4メガバイトです。
Larger values may adversely impact system performance.
値が大きいと、システムのパフォーマンスに悪影響を与える可能性があります。
- max_switch_wait=#
-
Maximum number of seconds that a job can delay execution waiting for the
specified desired switch count.
ジョブが指定された必要なスイッチ数を待機して実行を遅延できる最大秒数。
The default value is 300 seconds.
デフォルト値は300秒です。
- no_backup_scheduling
-
If used, the backup controller will not schedule jobs when it takes over.
使用した場合、バックアップコントローラーは、引き継ぐときにジョブをスケジュールしません。
The backup controller will allow jobs to be submitted, modified and cancelled but won't schedule new jobs.
バックアップコントローラーは、ジョブの送信、変更、キャンセルを許可しますが、新しいジョブをスケジュールしません。
This is useful in Cray environments when the backup controller resides on an external Cray node.
これは、バックアップコントローラーが外部のCrayノードにあるCray環境で役立ちます。
A restart is required to alter this option.
このオプションを変更するには、再起動が必要です。
This is explicitly set on a Cray/ALPS system.
これは、Cray / ALPSシステムで明示的に設定されます。
- no_env_cache
-
If used, any job started on node that fails to load the env from a node will
fail instead of using the cached env.
使用した場合、ノードから環境のロードに失敗したノードで開始されたジョブは、キャッシュされた環境を使用する代わりに失敗します。
This will also implicitly imply the requeue_setup_env_fail option as well.
これは、requeue_setup_env_failオプションも暗黙的に暗黙指定します。
- nohold_on_prolog_fail
-
By default, if the Prolog exits with a non-zero value the job is requeued in
a held state.
デフォルトでは、Prologがゼロ以外の値で終了した場合、ジョブは保留状態で再キューイングされます。
By specifying this parameter the job will be requeued but not held so that the scheduler can dispatch it to another host.
このパラメーターを指定することにより、ジョブは再キューイングされますが保持されないため、スケジューラーはそれを別のホストにディスパッチできます。
- pack_serial_at_end
-
If used with the select/cons_res or select/cons_tres plugin,
then put serial jobs at the end of
the available nodes rather than using a best fit algorithm.
select / cons_resまたはselect / cons_tresプラグインと共に使用する場合、最適なアルゴリズムを使用するのではなく、利用可能なノードの最後にシリアルジョブを配置します。
This may reduce resource fragmentation for some workloads.
これにより、一部のワークロードのリソースの断片化が軽減される場合があります。
- partition_job_depth=#
-
The default number of jobs to attempt scheduling (i.e. the queue depth)
from each partition/queue in Slurm's main scheduling logic.
Slurmのメインスケジューリングロジックの各パーティション/キューからスケジューリングを試行するデフォルトのジョブ数(キューの深さなど)。
The functionality is similar to that provided by the bf_max_job_part option for the backfill scheduling logic.
この機能は、バックフィルスケジューリングロジックのbf_max_job_partオプションで提供される機能と似ています。
The default value is 0 (no limit).
デフォルト値は0(制限なし)です。
Job's excluded from attempted scheduling based upon partition will not be counted against the default_queue_depth limit.
パーティションに基づいて試行されたスケジューリングから除外されたジョブは、default_queue_depth制限に対してカウントされません。
Also see the bf_max_job_part option.
bf_max_job_partオプションも参照してください。
- permit_job_expansion
-
Allow running jobs to request additional nodes be merged in with the current
job allocation.
実行中のジョブが追加のノードを現在のジョブ割り当てにマージすることを要求できるようにします。
- preempt_reorder_count=#
-
Specify how many attempts should be made in reording preemptable jobs to
minimize the count of jobs preempted.
プリエンプト可能なジョブの数を最小限に抑えるために、プリエンプタブルジョブを並べ替える際の試行回数を指定します。
The default value is 1.
デフォルト値は1です。
High values may adversely impact performance.
高い値はパフォーマンスに悪影響を与える可能性があります。
The logic to support this option is only available in the select/cons_res and select/cons_tres plugins.
このオプションをサポートするロジックは、select / cons_resおよびselect / cons_tresプラグインでのみ使用できます。
- preempt_strict_order
-
If set, then execute extra logic in an attempt to preempt only the lowest
priority jobs.
設定されている場合、優先度が最も低いジョブのみをプリエンプトするために、追加のロジックを実行します。
It may be desirable to set this configuration parameter when there are multiple priorities of preemptable jobs.
プリエンプタブルジョブの優先順位が複数ある場合は、この構成パラメータを設定することが望ましい場合があります。
The logic to support this option is only available in the select/cons_res and select/cons_tres plugins.
このオプションをサポートするロジックは、select / cons_resおよびselect / cons_tresプラグインでのみ使用できます。
- preempt_youngest_first
-
If set, then the preemption sorting algorithm will be changed to sort by the
job start times to favor preempting younger jobs over older.
設定されている場合、プリエンプションソートアルゴリズムは、ジョブの開始時間でソートするように変更され、古いジョブよりも若いジョブのプリエンプションが優先されます。
(Requires preempt/partition_prio or preempt/qos plugins.)
(preempt / partition_prioまたはpreempt / qosプラグインが必要です。)
- reduce_completing_frag
-
This option is used to control how scheduling of resources is performed when
jobs are in completing state, which influences potential fragmentation.
このオプションは、ジョブが完了状態にあるときにリソースのスケジューリングを実行する方法を制御するために使用されます。これは、断片化の可能性に影響します。
If the option is not set then no jobs will be started in any partition when any job is in completing state.
このオプションが設定されていない場合、ジョブが完了状態のときに、どのパーティションでもジョブは開始されません。
If the option is set then no jobs will be started in any individual partition that has a job in completing state.
このオプションが設定されている場合、ジョブが完了状態にある個々のパーティションでジョブは開始されません。
In addition, no jobs will be started in any partition with nodes that overlap with any nodes in the partition of the completing job.
また、完了しているジョブのパーティション内のノードと重複するノードがあるパーティションでは、ジョブは開始されません。
This option is to be used in conjunction with CompleteWait.
このオプションは、CompleteWaitと組み合わせて使用されます。
NOTE: CompleteWait must be set for this to work.
注:これを機能させるには、CompleteWaitを設定する必要があります。
- requeue_setup_env_fail
-
By default if a job environment setup fails the job keeps running with
a limited environment.
デフォルトでは、ジョブ環境のセットアップが失敗した場合、ジョブは限られた環境で実行され続けます。
By specifying this parameter the job will be requeued in held state and the execution node drained.
このパラメーターを指定することにより、ジョブは保留状態で再度キューに入れられ、実行ノードはドレインされます。
- salloc_wait_nodes
-
If defined, the salloc command will wait until all allocated nodes are ready for
use (i.e. booted) before the command returns.
定義されている場合、sallocコマンドは、割り当てられたすべてのノードが使用できるようになる(ブートされる)まで待機してから、コマンドが返されます。
By default, salloc will return as soon as the resource allocation has been made.
デフォルトでは、sallocはリソース割り当てが行われるとすぐに戻ります。
- sbatch_wait_nodes
-
If defined, the sbatch script will wait until all allocated nodes are ready for
use (i.e. booted) before the initiation.
定義されている場合、sbatchスクリプトは、割り当てられたすべてのノードが使用できるようになる(起動される)まで待機してから開始します。
By default, the sbatch script will be initiated as soon as the first node in the job allocation is ready.
デフォルトでは、ジョブ割り当ての最初のノードの準備ができるとすぐにsbatchスクリプトが開始されます。
The sbatch command can use the --wait-all-nodes option to override this configuration parameter.
sbatchコマンドは--wait-all-nodesオプションを使用して、この構成パラメーターをオーバーライドできます。
- sched_interval=#
-
How frequently, in seconds, the main scheduling loop will execute and test all
pending jobs.
メインスケジューリングループが実行され、保留中のすべてのジョブをテストする頻度(秒単位)。
The default value is 60 seconds.
デフォルト値は60秒です。
- sched_max_job_start=#
-
The maximum number of jobs that the main scheduling logic will start in any
single execution.
メインのスケジューリングロジックが1回の実行で開始するジョブの最大数。
The default value is zero, which imposes no limit.
デフォルト値はゼロで、制限はありません。
- sched_min_interval=#
-
How frequently, in microseconds, the main scheduling loop will execute and test
any pending jobs.
メインスケジューリングループが実行され、保留中のジョブをテストする頻度(マイクロ秒単位)。
The scheduler runs in a limited fashion every time that any event happens which could enable a job to start (e.g. job submit, job terminate, etc.).
スケジューラは、ジョブの開始を可能にする可能性のあるイベント(ジョブの送信、ジョブの終了など)が発生するたびに、限られた方法で実行されます。
If these events happen at a high frequency, the scheduler can run very frequently and consume significant resources if not throttled by this option.
これらのイベントが高頻度で発生する場合、スケジューラはこのオプションによって抑制されない場合、非常に頻繁に実行され、大量のリソースを消費する可能性があります。
This option specifies the minimum time between the end of one scheduling cycle and the beginning of the next scheduling cycle.
このオプションは、1つのスケジューリングサイクルの終了から次のスケジューリングサイクルの開始までの最小時間を指定します。
A value of zero will disable throttling of the scheduling logic interval.
ゼロの値は、スケジューリングロジックインターバルのスロットリングを無効にします。
The default value is 1,000,000 microseconds on Cray/ALPS systems and 2 microseconds on other systems.
デフォルト値は、Cray / ALPSシステムでは1,000,000マイクロ秒、その他のシステムでは2マイクロ秒です。
- spec_cores_first
-
Specialized cores will be selected from the first cores of the first sockets,
cycling through the sockets on a round robin basis.
専用コアは、最初のソケットの最初のコアから選択され、ラウンドロビンベースでソケットを循環します。
By default, specialized cores will be selected from the last cores of the last sockets, cycling through the sockets on a round robin basis.
デフォルトでは、特別なコアは最後のソケットの最後のコアから選択され、ラウンドロビンベースでソケットを循環します。
- step_retry_count=#
-
When a step completes and there are steps ending resource allocation, then
retry step allocations for at least this number of pending steps.
ステップが完了し、リソース割り当てを終了するステップがある場合は、少なくともこの数の保留中のステップについてステップ割り当てを再試行します。
Also see step_retry_time.
step_retry_timeも参照してください。
The default value is 8 steps.
デフォルト値は8ステップです。
- step_retry_time=#
-
When a step completes and there are steps ending resource allocation, then
retry step allocations for all steps which have been pending for at least this
number of seconds.
ステップが完了し、リソース割り当てを終了するステップがある場合は、少なくともこの秒数の間保留されていたすべてのステップのステップ割り当てを再試行します。
Also see step_retry_count.
step_retry_countも参照してください。
The default value is 60 seconds.
デフォルト値は60秒です。
- whole_hetjob
-
Requests to cancel, hold or release any component of a heterogeneous job will
be applied to all components of the job.
異種ジョブのコンポーネントをキャンセル、保留、または解放する要求は、ジョブのすべてのコンポーネントに適用されます。
NOTE: this option was previously named whole_pack and this is still supported for retrocompatibility.
注:このオプションは以前はwhole_packという名前でしたが、これは互換性のために引き続きサポートされています。
-
- SchedulerTimeSlice
-
Number of seconds in each time slice when gang scheduling is enabled
(PreemptMode=SUSPEND,GANG).
ギャングスケジューリングが有効な場合の各タイムスライスの秒数(PreemptMode = SUSPEND、GANG)。
The value must be between 5 seconds and 65533 seconds.
値は5秒から65533秒の間でなければなりません。
The default value is 30 seconds.
デフォルト値は30秒です。
- SchedulerType
-
Identifies the type of scheduler to be used.
使用するスケジューラのタイプを識別します。
Note the slurmctld daemon must be restarted for a change in scheduler type to become effective (reconfiguring a running daemon has no effect for this parameter).
スケジューラー・タイプの変更を有効にするには、slurmctldデーモンを再始動する必要があることに注意してください(実行中のデーモンを再構成しても、このパラメーターには影響しません)。
The scontrol command can be used to manually change job priorities if desired.
必要に応じて、scontrolコマンドを使用して、ジョブの優先順位を手動で変更できます。
Acceptable values include:
許容値は次のとおりです。
-
- sched/backfill
-
For a backfill scheduling module to augment the default FIFO scheduling.
バックフィルスケジューリングモジュールがデフォルトのFIFOスケジューリングを拡張するため。
Backfill scheduling will initiate lower-priority jobs if doing so does not delay the expected initiation time of any higher priority job.
バックフィルスケジューリングは、優先度の高いジョブの開始予定時刻を遅らせない場合、優先度の低いジョブを開始します。
Effectiveness of backfill scheduling is dependent upon users specifying job time limits, otherwise all jobs will have the same time limit and backfilling is impossible.
バックフィルスケジューリングの有効性は、ジョブの時間制限を指定するユーザーに依存します。そうでない場合、すべてのジョブに同じ時間制限があり、バックフィルは不可能です。
Note documentation for the SchedulerParameters option above.
上記のSchedulerParametersオプションのドキュメントに注意してください。
This is the default configuration.
これがデフォルトの設定です。
- sched/builtin
-
This is the FIFO scheduler which initiates jobs in priority order.
これは、優先順位に従ってジョブを開始するFIFOスケジューラです。
If any job in the partition can not be scheduled, no lower priority job in that partition will be scheduled.
パーティション内のジョブをスケジュールできない場合、そのパーティション内の優先度の低いジョブはスケジュールされません。
An exception is made for jobs that can not run due to partition constraints (e.g. the time limit) or down/drained nodes.
例外は、パーティションの制約(時間制限など)またはダウン/ドレインされたノードのために実行できないジョブに対して行われます。
In that case, lower priority jobs can be initiated and not impact the higher priority job.
その場合、優先度の低いジョブを開始でき、優先度の高いジョブには影響しません。
- sched/hold
-
To hold all newly arriving jobs if a file "/etc/slurm.hold"
exists otherwise use the built-in FIFO scheduler
「/etc/slurm.hold」ファイルが存在する場合に新しく到着するすべてのジョブを保持するには、それ以外の場合は組み込みのFIFOスケジューラを使用します
-
- SelectType
-
Identifies the type of resource selection algorithm to be used.
使用するリソース選択アルゴリズムのタイプを識別します。
Changing this value can only be done by restarting the slurmctld daemon.
この値を変更するには、slurmctldデーモンを再起動する必要があります。
When changed, all job information (running and pending) will be lost, since the job state save format used by each plugin is different.
変更すると、各プラグインで使用されるジョブ状態の保存形式が異なるため、すべてのジョブ情報(実行中および保留中)が失われます。
The only exception to this is when changing from cons_res to cons_tres or from cons_tres to cons_res.
これの唯一の例外は、cons_resからcons_tresに、またはcons_tresからcons_resに変更する場合です。
However, if a job contains cons_tres-specific features and then SelectType is changed to cons_res, the job will be canceled, since there is no way for cons_res to satisfy requirements specific to cons_tres.
ただし、ジョブにcons_tres固有の機能が含まれていて、SelectTypeがcons_resに変更された場合、cons_resがcons_tresに固有の要件を満たす方法がないため、ジョブはキャンセルされます。
Acceptable values include
許容値は次のとおりです
-
- select/cons_res
-
The resources (cores and memory) within a node are individually allocated as
consumable resources.
ノード内のリソース(コアとメモリ)は、消費可能なリソースとして個別に割り当てられます。
Note that whole nodes can be allocated to jobs for selected partitions by using the OverSubscribe=Exclusive option.
OverSubscribe = Exclusiveオプションを使用すると、ノード全体を選択したパーティションのジョブに割り当てることができます。
See the partition OverSubscribe parameter for more information.
詳細については、パーティションのOverSubscribeパラメータを参照してください。
- select/cray_aries
-
for a Cray system.
Crayシステム用。
The default value is "select/cray_aries" for all Cray systems.
すべてのCrayシステムのデフォルト値は「select / cray_aries」です。
- select/linear
-
for allocation of entire nodes assuming a one-dimensional array of nodes in
which sequentially ordered nodes are preferable.
ノードの1次元配列を想定したノード全体の割り当て。
For a heterogeneous cluster (e.g. different CPU counts on the various nodes), resource allocations will favor nodes with high CPU counts as needed based upon the job's node and CPU specification if TopologyPlugin=topology/none is configured.
TopologyPlugin = topology / noneが構成されている場合、異種クラスター(たとえば、さまざまなノードで異なるCPUカウント)の場合、リソース割り当ては、ジョブのノードとCPU仕様に基づいて、必要に応じてCPUカウントが高いノードを優先します。
Use of other topology plugins with select/linear and heterogeneous nodes is not recommended and may result in valid job allocation requests being rejected.
選択/線形ノードおよび異種ノードで他のトポロジプラグインを使用することはお勧めできません。有効なジョブ割り当てリクエストが拒否される可能性があります。
This is the default value.
これがデフォルト値です。
- select/cons_tres
-
The resources (cores, memory, GPUs and all other trackable resources) within
a node are individually allocated as consumable resources.
ノード内のリソース(コア、メモリ、GPU、その他すべての追跡可能なリソース)は、消費可能なリソースとして個別に割り当てられます。
Note that whole nodes can be allocated to jobs for selected partitions by using the OverSubscribe=Exclusive option.
OverSubscribe = Exclusiveオプションを使用すると、ノード全体を選択したパーティションのジョブに割り当てることができます。
See the partition OverSubscribe parameter for more information.
詳細については、パーティションのOverSubscribeパラメータを参照してください。
-
- SelectTypeParameters
-
The permitted values of SelectTypeParameters depend upon the
configured value of SelectType.
SelectTypeParametersの許容値は、構成されたSelectTypeの値によって異なります。
The only supported options for SelectType=select/linear are CR_ONE_TASK_PER_CORE and CR_Memory, which treats memory as a consumable resource and prevents memory over subscription with job preemption or gang scheduling.
SelectType = select / linearでサポートされているオプションは、CR_ONE_TASK_PER_COREとCR_Memoryのみです。これらは、メモリを消費可能なリソースとして扱い、ジョブのプリエンプションまたはギャングスケジューリングによるメモリのオーバーサブスクリプションを防ぎます。
By default SelectType=select/linear allocates whole nodes to jobs without considering their memory consumption.
デフォルトでは、SelectType = select / linearは、メモリ消費を考慮せずにノード全体をジョブに割り当てます。
By default SelectType=select/cons_res, SelectType=select/cray_aries, and SelectType=select/cons_tres, use CR_CPU, which allocates CPU (threads) to jobs without considering their memory consumption.
デフォルトでは、SelectType = select / cons_res、SelectType = select / cray_aries、およびSelectType = select / cons_tresは、メモリ消費を考慮せずにCPU(スレッド)をジョブに割り当てるCR_CPUを使用します。
-
The following options are supported for SelectType=select/cray_aries:
SelectType = select / cray_ariesでは、次のオプションがサポートされています。
-
- OTHER_CONS_RES
-
Layer the select/cons_res plugin under the select/cray_aries plugin, the default is
to layer on select/linear.
select / cons_resプラグインをselect / cray_ariesプラグインの下にレイヤー化します。デフォルトでは、select / linearにレイヤー化します。
This also allows all the options available for SelectType=select/cons_res.
これにより、SelectType = select / cons_resで使用可能なすべてのオプションも許可されます。
- OTHER_CONS_TRES
-
Layer the select/cons_tres plugin under the select/cray_aries plugin, the default is
to layer on select/linear.
select / cons_tresプラグインをselect / cray_ariesプラグインの下にレイヤー化します。デフォルトでは、select / linearにレイヤー化します。
This also allows all the options available for SelectType=select/cons_tres.
これにより、SelectType = select / cons_tresで使用可能なすべてのオプションも許可されます。
The following options are supported by the SelectType=select/cons_res and SelectType=select/cons_tres plugins:
以下のオプションは、SelectType = select / cons_resおよびSelectType = select / cons_tresプラグインでサポートされています。
-
- CR_CPU
-
CPUs are consumable resources.
CPUは消費可能なリソースです。
Configure the number of CPUs on each node, which may be equal to the count of cores or hyper-threads on the node depending upon the desired minimum resource allocation.
各ノードのCPU数を構成します。これは、必要な最小リソース割り当てに応じて、ノードのコアまたはハイパースレッドの数と同じになる場合があります。
The node's Boards, Sockets, CoresPerSocket and ThreadsPerCore may optionally be configured and result in job allocations which have improved locality; however doing so will prevent more than one job being from being allocated on each core.
ノードのボード、ソケット、CoresPerSocket、およびThreadsPerCoreをオプションで構成して、局所性が向上したジョブの割り当てを行うことができます。ただし、そうすることで、複数のジョブが各コアに割り当てられるのを防ぐことができます。
- CR_CPU_Memory
-
CPUs and memory are consumable resources.
CPUとメモリは消費可能なリソースです。
Configure the number of CPUs on each node, which may be equal to the count of cores or hyper-threads on the node depending upon the desired minimum resource allocation.
各ノードのCPU数を構成します。これは、必要な最小リソース割り当てに応じて、ノードのコアまたはハイパースレッドの数と同じになる場合があります。
The node's Boards, Sockets, CoresPerSocket and ThreadsPerCore may optionally be configured and result in job allocations which have improved locality; however doing so will prevent more than one job being from being allocated on each core.
ノードのボード、ソケット、CoresPerSocket、およびThreadsPerCoreをオプションで構成して、局所性が向上したジョブの割り当てを行うことができます。ただし、そうすることで、複数のジョブが各コアに割り当てられるのを防ぐことができます。
Setting a value for DefMemPerCPU is strongly recommended.
DefMemPerCPUの値を設定することを強くお勧めします。
- CR_Core
-
Cores are consumable resources.
コアは消費可能なリソースです。
On nodes with hyper-threads, each thread is counted as a CPU to satisfy a job's resource requirement, but multiple jobs are not allocated threads on the same core.
ハイパースレッドのあるノードでは、各スレッドはジョブのリソース要件を満たすためのCPUとしてカウントされますが、複数のジョブには同じコアのスレッドが割り当てられません。
The count of CPUs allocated to a job may be rounded up to account for every CPU on an allocated core.
ジョブに割り当てられたCPUの数は、割り当てられたコア上のすべてのCPUを考慮して切り上げられる場合があります。
- CR_Core_Memory
-
Cores and memory are consumable resources.
コアとメモリは消費可能なリソースです。
On nodes with hyper-threads, each thread is counted as a CPU to satisfy a job's resource requirement, but multiple jobs are not allocated threads on the same core.
ハイパースレッドのあるノードでは、各スレッドはジョブのリソース要件を満たすためのCPUとしてカウントされますが、複数のジョブには同じコアのスレッドが割り当てられません。
The count of CPUs allocated to a job may be rounded up to account for every CPU on an allocated core.
ジョブに割り当てられたCPUの数は、割り当てられたコア上のすべてのCPUを考慮して切り上げられる場合があります。
Setting a value for DefMemPerCPU is strongly recommended.
DefMemPerCPUの値を設定することを強くお勧めします。
- CR_ONE_TASK_PER_CORE
-
Allocate one task per core by default.
デフォルトでは、コアごとに1つのタスクを割り当てます。
Without this option, by default one task will be allocated per thread on nodes with more than one ThreadsPerCore configured.
このオプションを使用しない場合、デフォルトでは、複数のThreadsPerCoreが構成されているノードのスレッドごとに1つのタスクが割り当てられます。
NOTE: This option cannot be used with CR_CPU*.
注:このオプションはCR_CPU *では使用できません。
- CR_CORE_DEFAULT_DIST_BLOCK
-
Allocate cores within a node using block distribution by default.
デフォルトでブロック分散を使用してノード内にコアを割り当てます。
This is a pseudo-best-fit algorithm that minimizes the number of boards and minimizes the number of sockets (within minimum boards) used for the allocation.
これは、ボードの数を最小限に抑え、割り当てに使用されるソケット(最小限のボード内)の数を最小限に抑える疑似ベストフィットアルゴリズムです。
This default behavior can be overridden specifying a particular "-m" parameter with srun/salloc/sbatch.
このデフォルトの動作は、srun / salloc / sbatchで特定の「-m」パラメーターを指定してオーバーライドできます。
Without this option, cores will be allocated cyclicly across the sockets.
このオプションがない場合、コアはソケット全体に循環的に割り当てられます。
- CR_LLN
-
Schedule resources to jobs on the least loaded nodes (based upon the number
of idle CPUs).
(アイドル状態のCPUの数に基づいて)最も負荷の少ないノードのジョブにリソースをスケジュールします。
This is generally only recommended for an environment with serial jobs as idle resources will tend to be highly fragmented, resulting in parallel jobs being distributed across many nodes.
これは通常、アイドルジョブが非常に断片化される傾向があり、並列ジョブが多くのノードに分散されるため、シリアルジョブのある環境でのみ推奨されます。
Note that node Weight takes precedence over how many idle resources are on each node.
ノードの重みは、各ノードにあるアイドルリソースの数よりも優先されることに注意してください。
Also see the partition configuration parameter LLN use the least loaded nodes in selected partitions.
また、パーティション構成パラメーターLLNが選択したパーティションで最も負荷の少ないノードを使用するを参照してください。
- CR_Pack_Nodes
-
If a job allocation contains more resources than will be used for launching
tasks (e.g. if whole nodes are allocated to a job), then rather than
distributing a job's tasks evenly across its allocated nodes, pack them as
tightly as possible on these nodes.
ジョブの割り当てに、タスクの起動に使用されるよりも多くのリソースが含まれている場合(ノード全体がジョブに割り当てられている場合など)は、割り当てられたノード全体にジョブのタスクを均等に分散するのではなく、これらのノードにできるだけ密にパックします。
For example, consider a job allocation containing two entire nodes with eight CPUs each.
たとえば、それぞれ8つのCPUを備えた2つのノード全体を含むジョブ割り当てについて考えます。
If the job starts ten tasks across those two nodes without this option, it will start five tasks on each of the two nodes.
このオプションを使用せずに、ジョブが2つのノード全体で10個のタスクを開始すると、2つのノードのそれぞれで5個のタスクが開始されます。
With this option, eight tasks will be started on the first node and two tasks on the second node.
このオプションを使用すると、最初のノードで8つのタスクが開始され、2番目のノードで2つのタスクが開始されます。
This can be superseded by "NoPack" in srun's "--distribution" option.
これは、srunの「--distribution」オプションの「NoPack」に置き換えることができます。
CR_Pack_Nodes only applies when the "block" task distribution method is used.
CR_Pack_Nodesは、「ブロック」タスク分散方式が使用されている場合にのみ適用されます。
- CR_Socket
-
Sockets are consumable resources.
ソケットは消費可能なリソースです。
On nodes with multiple cores, each core or thread is counted as a CPU to satisfy a job's resource requirement, but multiple jobs are not allocated resources on the same socket.
複数のコアを持つノードでは、各コアまたはスレッドはジョブのリソース要件を満たすためのCPUとしてカウントされますが、複数のジョブには同じソケット上のリソースが割り当てられません。
- CR_Socket_Memory
-
Memory and sockets are consumable resources.
メモリとソケットは消費可能なリソースです。
On nodes with multiple cores, each core or thread is counted as a CPU to satisfy a job's resource requirement, but multiple jobs are not allocated resources on the same socket.
複数のコアを持つノードでは、各コアまたはスレッドはジョブのリソース要件を満たすためのCPUとしてカウントされますが、複数のジョブには同じソケット上のリソースが割り当てられません。
Setting a value for DefMemPerCPU is strongly recommended.
DefMemPerCPUの値を設定することを強くお勧めします。
- CR_Memory
-
Memory is a consumable resource.
メモリは消費可能なリソースです。
NOTE: This implies OverSubscribe=YES or OverSubscribe=FORCE for all partitions.
注:これは、すべてのパーティションに対してOverSubscribe = YESまたはOverSubscribe = FORCEを意味します。
Setting a value for DefMemPerCPU is strongly recommended.
DefMemPerCPUの値を設定することを強くお勧めします。
-
-
- SlurmUser
-
The name of the user that the slurmctld daemon executes as.
slurmctldデーモンが実行するユーザーの名前。
For security purposes, a user other than "root" is recommended.
セキュリティ上の理由から、「root」以外のユーザーをお勧めします。
This user must exist on all nodes of the cluster for authentication of communications between Slurm components.
このユーザーは、Slurmコンポーネント間の通信を認証するために、クラスターのすべてのノードに存在する必要があります。
The default value is "root".
デフォルト値は「root」です。
- SlurmdParameters
-
Parameters specific to the Slurmd.
Slurmdに固有のパラメーター。
Multiple options may be comma separated.
複数のオプションをコンマで区切ることができます。
-
- config_overrides
-
If set, consider the configuration of each node to be that specified in the
slurm.conf configuration file and any node with less than the
configured resources will not be set DRAIN.
設定されている場合、各ノードの構成はslurm.conf構成ファイルで指定されているものと見なしてください。構成されたリソースより少ないノードはすべてDRAINに設定されません。
This option is generally only useful for testing purposes.
このオプションは通常、テスト目的でのみ役立ちます。
Equivalent to the now deprecated FastSchedule=2 option.
現在非推奨のFastSchedule = 2オプションと同等です。
- shutdown_on_reboot
-
If set, the Slurmd will shut itself down when a reboot request is received.
設定されている場合、再起動要求が受信されると、Slurmdは自動的にシャットダウンします。
-
- SlurmdUser
-
The name of the user that the slurmd daemon executes as.
slurmdデーモンを実行するユーザーの名前。
This user must exist on all nodes of the cluster for authentication of communications between Slurm components.
このユーザーは、Slurmコンポーネント間の通信を認証するために、クラスターのすべてのノードに存在する必要があります。
The default value is "root".
デフォルト値は「root」です。
- SlurmctldAddr
-
An optional address to be used for communications to the currently active
slurmctld daemon, normally used with Virtual IP addressing of the currently
active server.
現在アクティブなslurmctldデーモンへの通信に使用されるオプションのアドレス。通常、現在アクティブなサーバーの仮想IPアドレス指定で使用されます。
If this parameter is not specified then each primary and backup server will have its own unique address used for communications as specified in the SlurmctldHost parameter.
このパラメーターが指定されていない場合、各プライマリサーバーとバックアップサーバーは、SlurmctldHostパラメーターで指定された通信に使用される独自の一意のアドレスを持ちます。
If this parameter is specified then the SlurmctldHost parameter will still be used for communications to specific slurmctld primary or backup servers, for example to cause all of them to read the current configuration files or shutdown.
このパラメーターが指定されている場合、SlurmctldHostパラメーターは、特定のslurmctldプライマリサーバーまたはバックアップサーバーとの通信に引き続き使用されます。たとえば、すべてのサーバーに現在の構成ファイルを読み取らせたりシャットダウンしたりできます。
Also see the SlurmctldPrimaryOffProg and SlurmctldPrimaryOnProg configuration parameters to configure programs to manipulate virtual IP address manipulation.
仮想IPアドレス操作を操作するプログラムを構成するには、SlurmctldPrimaryOffProgおよびSlurmctldPrimaryOnProg構成パラメーターも参照してください。
- SlurmctldDebug
-
The level of detail to provide slurmctld daemon's logs.
slurmctldデーモンのログを提供する詳細レベル。
The default value is info.
デフォルト値はinfoです。
If the slurmctld daemon is initiated with -v or --verbose options, that debug level will be preserve or restored upon reconfiguration.
slurmctldデーモンが-vまたは--verboseオプションを使用して開始された場合、そのデバッグレベルは再構成時に保持または復元されます。
-
- quiet
-
Log nothing
何も記録しない
- fatal
-
Log only fatal errors
致命的なエラーのみをログに記録する
- error
-
Log only errors
エラーのみを記録
- info
-
Log errors and general informational messages
エラーと一般的な情報メッセージをログに記録する
- verbose
-
Log errors and verbose informational messages
エラーと詳細情報メッセージをログに記録する
- debug
-
Log errors and verbose informational messages and debugging messages
エラーと詳細情報メッセージとデバッグメッセージのログ
- debug2
-
Log errors and verbose informational messages and more debugging messages
エラーおよび詳細な情報メッセージと詳細なデバッグメッセージのログ
- debug3
-
Log errors and verbose informational messages and even more debugging messages
エラーと詳細情報メッセージ、さらに多くのデバッグメッセージをログに記録する
- debug4
-
Log errors and verbose informational messages and even more debugging messages
エラーと詳細情報メッセージ、さらに多くのデバッグメッセージをログに記録する
- debug5
-
Log errors and verbose informational messages and even more debugging messages
エラーと詳細情報メッセージ、さらに多くのデバッグメッセージをログに記録する
-
- SlurmctldHost
-
The short, or long, hostname of the machine where Slurm control daemon is
executed (i.e. the name returned by the command "hostname -s").
Slurm制御デーモンが実行されるマシンの短い(または長い)ホスト名(つまり、 "hostname -s"コマンドで返される名前)。
This hostname is optionally followed by the address, either the IP address or a name by which the address can be identifed, enclosed in parentheses (e.g. SlurmctldHost=master1(12.34.56.78)).
このホスト名の後には、オプションでIPアドレスまたはアドレスを識別できる名前を括弧で囲んで続けます(例:SlurmctldHost = master1(12.34.56.78))。
This value must be specified at least once.
この値は少なくとも1回指定する必要があります。
If specified more than once, the first hostname named will be where the daemon runs.
複数回指定した場合、最初に指定したホスト名がデーモンが実行される場所になります。
If the first specified host fails, the daemon will execute on the second host.
最初に指定されたホストに障害が発生した場合、デーモンは2番目のホストで実行されます。
If both the first and second specified host fails, the daemon will execute on the third host.
最初と2番目に指定されたホストの両方に障害が発生した場合、デーモンは3番目のホストで実行されます。
- SlurmctldLogFile
-
Fully qualified pathname of a file into which the slurmctld daemon's
logs are written.
slurmctldデーモンのログが書き込まれるファイルの完全修飾パス名。
The default value is none (performs logging via syslog).
デフォルト値はnoneです(syslogを介してロギングを実行します)。
See the section LOGGING if a pathname is specified.
パス名が指定されている場合は、LOGGINGセクションを参照してください。
- SlurmctldParameters
-
Multiple options may be comma-separated.
複数のオプションをコンマで区切ることができます。
-
- allow_user_triggers
-
Permit setting triggers from non-root/slurm_user users.
root / slurm_user以外のユーザーからのトリガー設定の許可。
SlurmUser must also be set to root to permit these triggers to work.
これらのトリガーを機能させるには、SlurmUserもrootに設定する必要があります。
See the strigger man page for additional details.
詳細については、striggerのマニュアルページを参照してください。
- cloud_dns
-
By default, Slurm expects that the network address for a cloud node won't
be known until the creation of the node and that Slurm will be notified of the
node's address (e.g. scontrol update nodename=<name> nodeaddr=<addr>).
デフォルトでは、Slurmは、ノードが作成されるまでクラウドノードのネットワークアドレスが認識されず、Slurmにノードのアドレスが通知されることを期待します(例:scontrol update nodename = <name> nodeaddr = <addr>)。
Since Slurm communications rely on the node configuration found in the slurm.conf, Slurm will tell the client command, after waiting for all nodes to boot, each node's ip address.
Slurm通信はslurm.confにあるノード構成に依存しているため、Slurmはすべてのノードが起動するのを待った後、各ノードのIPアドレスをクライアントコマンドに通知します。
However, in environments where the nodes are in DNS, this step can be avoided by configuring this option.
ただし、ノードがDNS内にある環境では、このオプションを構成することでこの手順を回避できます。
- enable_configless
-
Permit "configless" operation by the slurmd, slurmstepd, and user commands.
slurmd、slurmstepd、およびユーザーコマンドによる「コンフィグレス」操作を許可します。
When enabled the slurmd will be permitted to retrieve config files from the slurmctld, and on any 'scontrol reconfigure' command new configs will be automatically pushed out and applied to nodes that are running in this "configless" mode.
有効にすると、slurmdがslurmctldから構成ファイルを取得することが許可され、「scontrol reconfigure」コマンドで新しい構成が自動的にプッシュされ、この「構成なし」モードで実行されているノードに適用されます。
NOTE: a restart of the slurmctld is required for this to take effect.
注:これを有効にするには、slurmctldの再起動が必要です。
- idle_on_node_suspend Mark nodes as idle, regardless of current state,
-
when suspending nodes with SuspendProgram so that nodes will be eligible
to be resumed at a later time.
SuspendProgramを使用してノードを一時停止し、後でノードを再開できるようにする場合。
- max_dbd_msg_action
- Action used once MaxDBDMsgs is reached, options are 'discard' (default) and 'exit'.
MaxDBDMsgsに達したときに使用されるアクションで、オプションは「破棄」(デフォルト)および「終了」です。
When 'discard' is specified and MaxDBDMsgs is reached we start by purging pending messages of types Step start and complete, and it reaches MaxDBDMsgs again Job start messages are purged.
'discard'が指定され、MaxDBDMsgsに到達すると、タイプがステップスタートおよび完了の保留メッセージをパージすることから始め、再びMaxDBDMsgsに到達します。ジョブ開始メッセージはパージされます。
Job completes and node state changes continue to consume the empty space created from the purgings until MaxDBDMsgs is reached again at which no new message is tracked creating data loss and potentially runaway jobs.
ジョブが完了し、ノードの状態が変化すると、MaxDBDMsgsに再び到達するまで、パージから作成された空のスペースが消費され、新しいメッセージが追跡されなくなり、データの損失やジョブの暴走が発生します。
When 'exit' is specified and MaxDBDMsgs is reached the slurmctld will exit instead of discarding any messages.
「exit」を指定してMaxDBDMsgsに到達すると、slurmctldはメッセージを破棄する代わりに終了します。
It will be impossible to start the slurmctld with this option where the slurmdbd is down and the slurmctld is tracking more than MaxDBDMsgs.
このオプションでは、slurmdbdがダウンしており、slurmctldがMaxDBDMsgsよりも多くを追跡しているため、slurmctldを開始することはできません。
- preempt_send_user_signal
-
Send the user signal (e.g. --signal=<sig_num>)
at preemption time even if the signal time hasn't been reached.
信号時間に達していなくても、プリエンプション時間にユーザー信号(例--signal = <sig_num>)を送信します。
In the case of a gracetime preemption the user signal will be sent if the user signal has been specified and not sent, otherwise a SIGTERM will be sent to the tasks.
猶予時間プリエンプションの場合、ユーザー信号が指定されていて送信されていない場合はユーザー信号が送信され、そうでない場合はSIGTERMがタスクに送信されます。
- reboot_from_controller
-
Run the RebootProgram from the controller
instead of on the slurmds.
slurmdsではなくコントローラーからRebootProgramを実行します。
The RebootProgram will be passed a comma-separated list of nodes to reboot.
RebootProgramには、再起動するノードのコンマ区切りリストが渡されます。
-
- SlurmctldPidFile
-
Fully qualified pathname of a file into which the slurmctld daemon
may write its process id.
slurmctldデーモンがプロセスIDを書き込むことができるファイルの完全修飾パス名。
This may be used for automated signal processing.
これは自動信号処理に使用できます。
The default value is "/var/run/slurmctld.pid".
デフォルト値は「/var/run/slurmctld.pid」です。
- SlurmctldPlugstack
-
A comma delimited list of Slurm controller plugins to be started when the
daemon begins and terminated when it ends.
デーモンの開始時に開始され、デーモンが終了すると終了するSlurmコントローラープラグインのカンマ区切りリスト。
Only the plugin's init and fini functions are called.
プラグインのinitおよびfini関数のみが呼び出されます。
- SlurmctldPort
-
The port number that the Slurm controller, slurmctld, listens
to for work.
Slurmコントローラー、slurmctldが作業のためにlistenするポート番号。
The default value is SLURMCTLD_PORT as established at system build time.
デフォルト値は、システムのビルド時に確立されたSLURMCTLD_PORTです。
If none is explicitly specified, it will be set to 6817.
明示的に指定されていない場合は6817に設定されます。
SlurmctldPort may also be configured to support a range of port numbers in order to accept larger bursts of incoming messages by specifying two numbers separated by a dash (e.g. SlurmctldPort=6817-6818).
SlurmctldPortは、ダッシュで区切られた2つの番号を指定することにより、着信メッセージのより大きなバーストを受け入れるために、ポート番号の範囲をサポートするように構成することもできます(例:SlurmctldPort = 6817-6818)。
NOTE: Either slurmctld and slurmd daemons must not execute on the same nodes or the values of SlurmctldPort and SlurmdPort must be different.
注:slurmctldデーモンとslurmdデーモンが同じノードで実行されていないか、SlurmctldPortとSlurmdPortの値が異なっている必要があります。
Note: On Cray systems, Realm-Specific IP Addressing (RSIP) will automatically try to interact with anything opened on ports 8192-60000.
注:Crayシステムでは、レルム固有のIPアドレッシング(RSIP)は、ポート8192〜60000で開いているものと自動的に対話しようとします。
Configure SlurmctldPort to use a port outside of the configured SrunPortRange and RSIP's port range.
構成されたSrunPortRangeおよびRSIPのポート範囲外のポートを使用するようにSlurmctldPortを構成します。
- SlurmctldPrimaryOffProg
-
This program is executed when a slurmctld daemon running as the primary server
becomes a backup server.
このプログラムは、プライマリサーバーとして実行されているslurmctldデーモンがバックアップサーバーになったときに実行されます。
By default no program is executed.
デフォルトでは、プログラムは実行されません。
See also the related "SlurmctldPrimaryOnProg" parameter.
関連する「SlurmctldPrimaryOnProg」パラメーターも参照してください。
- SlurmctldPrimaryOnProg
-
This program is executed when a slurmctld daemon running as a backup server
becomes the primary server.
このプログラムは、バックアップサーバーとして実行されているslurmctldデーモンがプライマリサーバーになったときに実行されます。
By default no program is executed.
デフォルトでは、プログラムは実行されません。
When using virtual IP addresses to manage High Available Slurm services, this program can be used to add the IP address to an interface (and optionally try to kill the unresponsive slurmctld daemon and flush the ARP caches on nodes on the local ethernet fabric).
仮想IPアドレスを使用して高可用性Slurmサービスを管理する場合、このプログラムを使用してインターフェイスにIPアドレスを追加できます(オプションで、応答しないslurmctldデーモンを強制終了して、ローカルイーサネットファブリック上のノードのARPキャッシュをフラッシュします)。
See also the related "SlurmctldPrimaryOffProg" parameter.
関連する「SlurmctldPrimaryOffProg」パラメーターも参照してください。
- SlurmctldSyslogDebug
-
The slurmctld daemon will log events to the syslog file at the specified
level of detail.
slurmctldデーモンは、指定された詳細レベルでイベントをsyslogファイルに記録します。
If not set, the slurmctld daemon will log to syslog at level fatal, unless there is no SlurmctldLogFile and it is running in the background, in which case it will log to syslog at the level specified by SlurmctldDebug (at fatal in the case that SlurmctldDebug is set to quiet) or it is run in the foreground, when it will be set to quiet.
設定されていない場合、slurmctldデーモンは、SlurmctldLogFileがなく、バックグラウンドで実行されていない限り、重大なレベルでsyslogにログを記録します。がクワイエットに設定されている場合)、またはフォアグラウンドで実行されている場合は、クワイエットに設定されます。
-
- quiet
-
Log nothing
何も記録しない
- fatal
-
Log only fatal errors
致命的なエラーのみをログに記録する
- error
-
Log only errors
エラーのみを記録
- info
-
Log errors and general informational messages
エラーと一般的な情報メッセージをログに記録する
- verbose
-
Log errors and verbose informational messages
エラーと詳細情報メッセージをログに記録する
- debug
-
Log errors and verbose informational messages and debugging messages
エラーと詳細情報メッセージとデバッグメッセージのログ
- debug2
-
Log errors and verbose informational messages and more debugging messages
エラーおよび詳細な情報メッセージと詳細なデバッグメッセージのログ
- debug3
-
Log errors and verbose informational messages and even more debugging messages
エラーと詳細情報メッセージ、さらに多くのデバッグメッセージをログに記録する
- debug4
-
Log errors and verbose informational messages and even more debugging messages
エラーと詳細情報メッセージ、さらに多くのデバッグメッセージをログに記録する
- debug5
-
Log errors and verbose informational messages and even more debugging messages
エラーと詳細情報メッセージ、さらに多くのデバッグメッセージをログに記録する
-
- SlurmctldTimeout
-
The interval, in seconds, that the backup controller waits for the
primary controller to respond before assuming control.
制御を引き受ける前に、バックアップコントローラーがプライマリコントローラーの応答を待機する間隔(秒単位)。
The default value is 120 seconds.
デフォルト値は120秒です。
May not exceed 65533.
65533を超えることはできません。
- SlurmdDebug
-
The level of detail to provide slurmd daemon's logs.
slurmdデーモンのログを提供する詳細レベル。
The default value is info.
デフォルト値はinfoです。
-
- quiet
-
Log nothing
何も記録しない
- fatal
-
Log only fatal errors
致命的なエラーのみをログに記録する
- error
-
Log only errors
エラーのみを記録
- info
-
Log errors and general informational messages
エラーと一般的な情報メッセージをログに記録する
- verbose
-
Log errors and verbose informational messages
エラーと詳細情報メッセージをログに記録する
- debug
-
Log errors and verbose informational messages and debugging messages
エラーと詳細情報メッセージとデバッグメッセージのログ
- debug2
-
Log errors and verbose informational messages and more debugging messages
エラーおよび詳細な情報メッセージと詳細なデバッグメッセージのログ
- debug3
-
Log errors and verbose informational messages and even more debugging messages
エラーと詳細情報メッセージ、さらに多くのデバッグメッセージをログに記録する
- debug4
-
Log errors and verbose informational messages and even more debugging messages
エラーと詳細情報メッセージ、さらに多くのデバッグメッセージをログに記録する
- debug5
-
Log errors and verbose informational messages and even more debugging messages
エラーと詳細情報メッセージ、さらに多くのデバッグメッセージをログに記録する
-
- SlurmdLogFile
-
Fully qualified pathname of a file into which the slurmd daemon's
logs are written.
slurmdデーモンのログが書き込まれるファイルの完全修飾パス名。
The default value is none (performs logging via syslog).
デフォルト値はnoneです(syslogを介してロギングを実行します)。
Any "%h" within the name is replaced with the hostname on which the slurmd is running.
名前内の「%h」は、slurmdが実行されているホスト名に置き換えられます。
Any "%n" within the name is replaced with the Slurm node name on which the slurmd is running.
名前内の「%n」は、slurmdが実行されているSlurmノード名に置き換えられます。
See the section LOGGING if a pathname is specified.
パス名が指定されている場合は、LOGGINGセクションを参照してください。
- SlurmdPidFile
-
Fully qualified pathname of a file into which the slurmd daemon may write
its process id.
slurmdデーモンがプロセスIDを書き込むことができるファイルの完全修飾パス名。
This may be used for automated signal processing.
これは自動信号処理に使用できます。
Any "%h" within the name is replaced with the hostname on which the slurmd is running.
名前内の「%h」は、slurmdが実行されているホスト名に置き換えられます。
Any "%n" within the name is replaced with the Slurm node name on which the slurmd is running.
名前内の「%n」は、slurmdが実行されているSlurmノード名に置き換えられます。
The default value is "/var/run/slurmd.pid".
デフォルト値は「/var/run/slurmd.pid」です。
- SlurmdPort
-
The port number that the Slurm compute node daemon, slurmd, listens
to for work.
Slurm計算ノードデーモンslurmdが作業をリッスンするポート番号。
The default value is SLURMD_PORT as established at system build time.
デフォルト値は、システムのビルド時に確立されるSLURMD_PORTです。
If none is explicitly specified, its value will be 6818.
明示的に指定されていない場合、その値は6818になります。
NOTE: Either slurmctld and slurmd daemons must not execute on the same nodes or the values of SlurmctldPort and SlurmdPort must be different.
注:slurmctldデーモンとslurmdデーモンが同じノードで実行されていないか、SlurmctldPortとSlurmdPortの値が異なっている必要があります。
Note: On Cray systems, Realm-Specific IP Addressing (RSIP) will automatically try to interact with anything opened on ports 8192-60000.
注:Crayシステムでは、レルム固有のIPアドレッシング(RSIP)は、ポート8192〜60000で開いているものと自動的に対話しようとします。
Configure SlurmdPort to use a port outside of the configured SrunPortRange and RSIP's port range.
構成されたSrunPortRangeおよびRSIPのポート範囲外のポートを使用するようにSlurmdPortを構成します。
- SlurmdSpoolDir
-
Fully qualified pathname of a directory into which the slurmd
daemon's state information and batch job script information are written.
slurmdデーモンの状態情報とバッチジョブスクリプト情報が書き込まれるディレクトリの完全修飾パス名。
This must be a common pathname for all nodes, but should represent a directory which is local to each node (reference a local file system).
これは、すべてのノードに共通のパス名である必要がありますが、各ノードにローカルなディレクトリを表す必要があります(ローカルファイルシステムを参照)。
The default value is "/var/spool/slurmd".
デフォルト値は「/ var / spool / slurmd」です。
Any "%h" within the name is replaced with the hostname on which the slurmd is running.
名前内の「%h」は、slurmdが実行されているホスト名に置き換えられます。
Any "%n" within the name is replaced with the Slurm node name on which the slurmd is running.
名前内の「%n」は、slurmdが実行されているSlurmノード名に置き換えられます。
- SlurmdSyslogDebug
-
The slurmd daemon will log events to the syslog file at the specified
level of detail.
slurmdデーモンは、指定された詳細レベルでイベントをsyslogファイルに記録します。
If not set, the slurmd daemon will log to syslog at level fatal, unless there is no SlurmdLogFile and it is running in the background, in which case it will log to syslog at the level specified by SlurmdDebug (at fatal in the case that SlurmdDebug is set to quiet) or it is run in the foreground, when it will be set to quiet.
設定されていない場合、SlurmdLogFileがなく、バックグラウンドで実行されていない限り、slurmdデーモンは重大なレベルでsyslogにログを記録します。この場合、SlurmdDebugによって指定されたレベルでsyslogにログが記録されます(SlurmdDebugが致命的な場合)がクワイエットに設定されている場合)、またはフォアグラウンドで実行されている場合は、クワイエットに設定されます。
-
- quiet
-
Log nothing
何も記録しない
- fatal
-
Log only fatal errors
致命的なエラーのみをログに記録する
- error
-
Log only errors
エラーのみを記録
- info
-
Log errors and general informational messages
エラーと一般的な情報メッセージをログに記録する
- verbose
-
Log errors and verbose informational messages
エラーと詳細情報メッセージをログに記録する
- debug
-
Log errors and verbose informational messages and debugging messages
エラーと詳細情報メッセージとデバッグメッセージのログ
- debug2
-
Log errors and verbose informational messages and more debugging messages
エラーおよび詳細な情報メッセージと詳細なデバッグメッセージのログ
- debug3
-
Log errors and verbose informational messages and even more debugging messages
エラーと詳細情報メッセージ、さらに多くのデバッグメッセージをログに記録する
- debug4
-
Log errors and verbose informational messages and even more debugging messages
エラーと詳細情報メッセージ、さらに多くのデバッグメッセージをログに記録する
- debug5
-
Log errors and verbose informational messages and even more debugging messages
エラーと詳細情報メッセージ、さらに多くのデバッグメッセージをログに記録する
-
- SlurmdTimeout
-
The interval, in seconds, that the Slurm controller waits for slurmd
to respond before configuring that node's state to DOWN.
Slurmコントローラーがそのノードの状態をDOWNに構成する前にslurmdの応答を待機する間隔(秒単位)。
A value of zero indicates the node will not be tested by slurmctld to confirm the state of slurmd, the node will not be automatically set to a DOWN state indicating a non-responsive slurmd, and some other tool will take responsibility for monitoring the state of each compute node and its slurmd daemon.
値0は、slurmctldによってノードがslurmdの状態を確認するためにテストされないこと、ノードが自動的にDOWN状態に設定されず、応答しないslurmdを示すこと、および他のツールが状態の監視を担当することを示します各計算ノードとそのslurmdデーモン。
Slurm's hierarchical communication mechanism is used to ping the slurmd daemons in order to minimize system noise and overhead.
Slurmの階層通信メカニズムは、システムノイズとオーバーヘッドを最小限に抑えるために、slurmdデーモンにpingするために使用されます。
The default value is 300 seconds.
デフォルト値は300秒です。
The value may not exceed 65533 seconds.
値は65533秒を超えることはできません。
- SlurmSchedLogFile
-
Fully qualified pathname of the scheduling event logging file.
スケジューリングイベントログファイルの完全修飾パス名。
The syntax of this parameter is the same as for SlurmctldLogFile.
このパラメーターの構文は、SlurmctldLogFileの場合と同じです。
In order to configure scheduler logging, set both the SlurmSchedLogFile and SlurmSchedLogLevel parameters.
スケジューラーのロギングを構成するには、SlurmSchedLogFileパラメーターとSlurmSchedLogLevelパラメーターの両方を設定します。
- SlurmSchedLogLevel
-
The initial level of scheduling event logging, similar to the
SlurmctldDebug parameter used to control the initial level of
slurmctld logging.
slurmctldロギングの初期レベルを制御するために使用されるSlurmctldDebugパラメータと同様の、スケジューリングイベントロギングの初期レベル。
Valid values for SlurmSchedLogLevel are "0" (scheduler logging disabled) and "1" (scheduler logging enabled).
SlurmSchedLogLevelの有効な値は「0」(スケジューラーロギングが無効)および「1」(スケジューラーロギングが有効)です。
If this parameter is omitted, the value defaults to "0" (disabled).
このパラメーターを省略すると、値はデフォルトで "0"(無効)になります。
In order to configure scheduler logging, set both the SlurmSchedLogFile and SlurmSchedLogLevel parameters.
スケジューラーのロギングを構成するには、SlurmSchedLogFileパラメーターとSlurmSchedLogLevelパラメーターの両方を設定します。
The scheduler logging level can be changed dynamically using scontrol.
スケジューラのログレベルは、scontrolを使用して動的に変更できます。
- SrunEpilog
-
Fully qualified pathname of an executable to be run by srun following
the completion of a job step.
ジョブステップの完了後にsrunによって実行される実行可能ファイルの完全修飾パス名。
The command line arguments for the executable will be the command and arguments of the job step.
実行可能ファイルのコマンドライン引数は、ジョブステップのコマンドと引数になります。
This configuration parameter may be overridden by srun's --epilog parameter.
この構成パラメーターは、srunの--epilogパラメーターによってオーバーライドされる場合があります。
Note that while the other "Epilog" executables (e.g., TaskEpilog) are run by slurmd on the compute nodes where the tasks are executed, the SrunEpilog runs on the node where the "srun" is executing.
他の「Epilog」実行可能ファイル(TaskEpilogなど)は、タスクが実行される計算ノードでslurmdによって実行されますが、SrunEpilogは「srun」が実行されているノードで実行されることに注意してください。
- SrunPortRange
-
The srun creates a set of listening ports to communicate with the
controller, the slurmstepd and to handle the application I/O.
srunは、コントローラー、slurmstepdと通信し、アプリケーションI / Oを処理するためのリスニングポートのセットを作成します。
By default these ports are ephemeral meaning the port numbers are selected by the kernel.
デフォルトでは、これらのポートは一時的です。つまり、ポート番号はカーネルによって選択されます。
Using this parameter allow sites to configure a range of ports from which srun ports will be selected.
このパラメーターを使用すると、サイトは、srunポートが選択されるポートの範囲を構成できます。
This is useful if sites want to allow only certain port range on their network.
これは、サイトがネットワーク上の特定のポート範囲のみを許可する場合に役立ちます。
Note: On Cray systems, Realm-Specific IP Addressing (RSIP) will automatically try to interact with anything opened on ports 8192-60000.
注:Crayシステムでは、レルム固有のIPアドレッシング(RSIP)は、ポート8192〜60000で開いているものと自動的に対話しようとします。
Configure SrunPortRange to use a range of ports above those used by RSIP, ideally 1000 or more ports, for example "SrunPortRange=60001-63000".
RSIPで使用されるポートの範囲を超えるようにSrunPortRangeを構成します。理想的には、「SrunPortRange = 60001-63000」のように1000以上のポートを使用します。
Note: A sufficient number of ports must be configured based on the estimated number of srun on the submission nodes considering that srun opens 3 listening ports plus 2 more for every 48 hosts.
注:srunが3つのリスニングポートに加えて48個のホストごとに2つ以上のリスニングポートを開くことを考慮して、送信ノードの推定srunの数に基づいて十分な数のポートを構成する必要があります。
Example: - SrunProlog
-
Fully qualified pathname of an executable to be run by srun prior to
the launch of a job step.
ジョブステップの起動前にsrunによって実行される実行可能ファイルの完全修飾パス名。
The command line arguments for the executable will be the command and arguments of the job step.
実行可能ファイルのコマンドライン引数は、ジョブステップのコマンドと引数になります。
This configuration parameter may be overridden by srun's --prolog parameter.
この構成パラメーターは、srunの--prologパラメーターによってオーバーライドされる場合があります。
Note that while the other "Prolog" executables (e.g., TaskProlog) are run by slurmd on the compute nodes where the tasks are executed, the SrunProlog runs on the node where the "srun" is executing.
他の「Prolog」実行可能ファイル(TaskPrologなど)は、タスクが実行される計算ノードでslurmdによって実行されますが、SrunPrologは「srun」が実行されているノードで実行されることに注意してください。
- StateSaveLocation
-
Fully qualified pathname of a directory into which the Slurm controller,
slurmctld, saves its state (e.g. "/usr/local/slurm/checkpoint").
Slurmコントローラー、slurmctldがその状態を保存するディレクトリの完全修飾パス名(例: "/ usr / local / slurm / checkpoint")。
Slurm state will saved here to recover from system failures.
Slurm状態はここに保存され、システム障害から回復します。
SlurmUser must be able to create files in this directory.
SlurmUserは、このディレクトリにファイルを作成できる必要があります。
If you have a secondary SlurmctldHost configured, this location should be readable and writable by both systems.
セカンダリSlurmctldHostが構成されている場合、この場所は両方のシステムで読み取りおよび書き込み可能である必要があります。
Since all running and pending job information is stored here, the use of a reliable file system (e.g. RAID) is recommended.
実行中および保留中のすべてのジョブ情報はここに保存されるため、信頼性の高いファイルシステム(RAIDなど)の使用をお勧めします。
The default value is "/var/spool".
デフォルト値は「/ var / spool」です。
If any slurm daemons terminate abnormally, their core files will also be written into this directory.
slurmデーモンが異常終了した場合、それらのコアファイルもこのディレクトリに書き込まれます。
- SuspendExcNodes
-
Specifies the nodes which are to not be placed in power save mode, even
if the node remains idle for an extended period of time.
ノードが長期間アイドル状態であったとしても、節電モードにしないノードを指定します。
Use Slurm's hostlist expression to identify nodes with an optional ":" separator and count of nodes to exclude from the preceding range.
Slurmのホストリスト式を使用して、オプションの「:」区切り文字でノードを識別し、前の範囲から除外するノードの数を指定します。
For example "nid[10-20]:4" will prevent 4 usable nodes (i.e IDLE and not DOWN, DRAINING or already powered down) in the set "nid[10-20]" from being powered down.
たとえば、「nid [10-20]:4」は、セット「nid [10-20]」の4つの使用可能なノード(つまり、DOWN、DRAINING、またはすでに電源が切れていないIDLE)の電源が切れないようにします。
Multiple sets of nodes can be specified with or without counts in a comma separated list (e.g "nid[10-20]:4,nid[80-90]:2").
ノードの複数のセットは、カンマ区切りのリストでカウントの有無にかかわらず指定できます(例: "nid [10-20]:4、nid [80-90]:2")。
If a node count specification is given, any list of nodes to NOT have a node count must be after the last specification with a count.
ノード数の指定が指定されている場合、ノード数を持たないノードのリストは、最後の数を指定した後でなければなりません。
For example "nid[10-20]:4,nid[60-70]" will exclude 4 nodes in the set "nid[10-20]:4" plus all nodes in the set "nid[60-70]" while "nid[1-3],nid[10-20]:4" will exclude 4 nodes from the set "nid[1-3],nid[10-20]".
たとえば、「nid [10-20]:4、nid [60-70]」は、セット「nid [10-20]:4」の4つのノードとセット「nid [60-70]」のすべてのノードを除外します一方、「nid [1-3]、nid [10-20]:4」は、セット「nid [1-3]、nid [10-20]」から4つのノードを除外します。
By default no nodes are excluded.
デフォルトでは、ノードは除外されません。
Related configuration options include ResumeTimeout, ResumeProgram, ResumeRate, SuspendProgram, SuspendRate, SuspendTime, SuspendTimeout, and SuspendExcParts.
関連する構成オプションには、ResumeTimeout、ResumeProgram、ResumeRate、SuspendProgram、SuspendRate、SuspendTime、SuspendTimeout、およびSuspendExcPartsがあります。
- SuspendExcParts
-
Specifies the partitions whose nodes are to not be placed in power save
mode, even if the node remains idle for an extended period of time.
ノードが長時間アイドル状態のままである場合でも、ノードが省電力モードにならないようにするパーティションを指定します。
Multiple partitions can be identified and separated by commas.
複数のパーティションを識別し、コンマで区切ることができます。
By default no nodes are excluded.
デフォルトでは、ノードは除外されません。
Related configuration options include ResumeTimeout, ResumeProgram, ResumeRate, SuspendProgram, SuspendRate, SuspendTime SuspendTimeout, and SuspendExcNodes.
関連する構成オプションには、ResumeTimeout、ResumeProgram、ResumeRate、SuspendProgram、SuspendRate、SuspendTime、SuspendTimeout、およびSuspendExcNodesがあります。
- SuspendProgram
-
SuspendProgram is the program that will be executed when a node
remains idle for an extended period of time.
SuspendProgramは、ノードが長期間アイドル状態であるときに実行されるプログラムです。
This program is expected to place the node into some power save mode.
このプログラムは、ノードを省電力モードにすることが期待されています。
This can be used to reduce the frequency and voltage of a node or completely power the node off.
これを使用して、ノードの周波数と電圧を低減したり、ノードの電源を完全にオフにしたりできます。
The program executes as SlurmUser.
プログラムはSlurmUserとして実行されます。
The argument to the program will be the names of nodes to be placed into power savings mode (using Slurm's hostlist expression format).
プログラムへの引数は、節電モードに置かれるノードの名前になります(Slurmのホストリスト式形式を使用)。
By default, no program is run.
デフォルトでは、プログラムは実行されません。
Related configuration options include ResumeTimeout, ResumeProgram, ResumeRate, SuspendRate, SuspendTime, SuspendTimeout, SuspendExcNodes, and SuspendExcParts.
関連する構成オプションには、ResumeTimeout、ResumeProgram、ResumeRate、SuspendRate、SuspendTime、SuspendTimeout、SuspendExcNodes、およびSuspendExcPartsがあります。
- SuspendRate
-
The rate at which nodes are placed into power save mode by SuspendProgram.
SuspendProgramによってノードが省電力モードになる速度。
The value is number of nodes per minute and it can be used to prevent a large drop in power consumption (e.g. after a large job completes).
値は1分あたりのノード数であり、電力消費の大幅な低下を防ぐために使用できます(たとえば、大きなジョブが完了した後など)。
A value of zero results in no limits being imposed.
値がゼロの場合、制限は課されません。
The default value is 60 nodes per minute.
デフォルト値は1分あたり60ノードです。
Related configuration options include ResumeTimeout, ResumeProgram, ResumeRate, SuspendProgram, SuspendTime, SuspendTimeout, SuspendExcNodes, and SuspendExcParts.
関連する構成オプションには、ResumeTimeout、ResumeProgram、ResumeRate、SuspendProgram、SuspendTime、SuspendTimeout、SuspendExcNodes、およびSuspendExcPartsがあります。
- SuspendTime
-
Nodes which remain idle or down for this number of seconds will be placed into
power save mode by SuspendProgram.
この秒数の間アイドルまたはダウンのままであるノードは、SuspendProgramによって省電力モードになります。
For efficient system utilization, it is recommended that the value of SuspendTime be at least as large as the sum of SuspendTimeout plus ResumeTimeout.
システムを効率的に使用するには、SuspendTimeの値を少なくともSuspendTimeoutとResumeTimeoutの合計と同じ大きさにすることをお勧めします。
A value of -1 disables power save mode and is the default.
値-1は省電力モードを無効にし、これがデフォルトです。
Related configuration options include ResumeTimeout, ResumeProgram, ResumeRate, SuspendProgram, SuspendRate, SuspendTimeout, SuspendExcNodes, and SuspendExcParts.
関連する構成オプションには、ResumeTimeout、ResumeProgram、ResumeRate、SuspendProgram、SuspendRate、SuspendTimeout、SuspendExcNodes、およびSuspendExcPartsがあります。
- SuspendTimeout
-
Maximum time permitted (in seconds) between when a node suspend request
is issued and when the node is shutdown.
ノードの中断要求が発行されてからノードがシャットダウンされるまでの最大許容時間(秒単位)。
At that time the node must be ready for a resume request to be issued as needed for new work.
その時点で、ノードは、新しい作業に必要なときに再開要求を発行する準備ができている必要があります。
The default value is 30 seconds.
デフォルト値は30秒です。
Related configuration options include ResumeProgram, ResumeRate, ResumeTimeout, SuspendRate, SuspendTime, SuspendProgram, SuspendExcNodes and SuspendExcParts.
関連する構成オプションには、ResumeProgram、ResumeRate、ResumeTimeout、SuspendRate、SuspendTime、SuspendProgram、SuspendExcNodes、およびSuspendExcPartsがあります。
More information is available at the Slurm web site ( https://slurm.schedmd.com/power_save.html ).
詳細については、Slurm Webサイト(https://slurm.schedmd.com/power_save.html)を参照してください。
- SwitchType
-
Identifies the type of switch or interconnect used for application
communications.
アプリケーション通信に使用されるスイッチまたは相互接続のタイプを識別します。
Acceptable values include "switch/cray_aries" for Cray systems, "switch/none" for switches not requiring special processing for job launch or termination (Ethernet, and InfiniBand) and The default value is "switch/none".
許容値には、Crayシステムの「switch / cray_aries」、ジョブの起動または終了に特別な処理を必要としないスイッチの「switch / none」(Ethernet、およびInfiniBand)が含まれます。デフォルト値は「switch / none」です。
All Slurm daemons, commands and running jobs must be restarted for a change in SwitchType to take effect.
SwitchTypeの変更を有効にするには、すべてのSlurmデーモン、コマンド、および実行中のジョブを再起動する必要があります。
If running jobs exist at the time slurmctld is restarted with a new value of SwitchType, records of all jobs in any state may be lost.
slurmctldがSwitchTypeの新しい値で再起動されたときに実行中のジョブが存在する場合、任意の状態のすべてのジョブのレコードが失われる可能性があります。
- TaskEpilog
-
Fully qualified pathname of a program to be execute as the slurm job's
owner after termination of each task.
各タスクの終了後にslurmジョブの所有者として実行されるプログラムの完全修飾パス名。
See TaskProlog for execution order details.
実行順序の詳細については、TaskPrologを参照してください。
- TaskPlugin
-
Identifies the type of task launch plugin, typically used to provide
resource management within a node (e.g. pinning tasks to specific
processors).
タスク起動プラグインのタイプを識別します。通常、ノード内でリソース管理を提供するために使用されます(たとえば、特定のプロセッサーにタスクを固定する)。
More than one task plugin can be specified in a comma separated list.
複数のタスクプラグインをカンマ区切りのリストで指定できます。
The prefix of "task/" is optional.
「task /」のプレフィックスはオプションです。
Acceptable values include:
許容値は次のとおりです。
-
- task/affinity
-
enables resource containment using CPUSETs.
CPUSETを使用してリソースの封じ込めを有効にします。
This enables the --cpu-bind and/or --mem-bind srun options.
これにより、-cpu-bindまたは--mem-bind srunオプションが有効になります。
If you use "task/affinity" and encounter problems, it may be due to the variety of system calls used to implement task affinity on different operating systems.
「タスク/アフィニティ」を使用していて問題が発生する場合は、さまざまなオペレーティングシステムでタスクアフィニティを実装するために使用されるさまざまなシステムコールが原因である可能性があります。
- task/cgroup
-
enables resource containment using Linux control cgroups.
Linux制御cgroupを使用してリソースの封じ込めを有効にします。
This enables the --cpu-bind and/or --mem-bind srun options.
これにより、-cpu-bindまたは--mem-bind srunオプションが有効になります。
NOTE: see "man cgroup.conf" for configuration details.
注:設定の詳細については、「man cgroup.conf」を参照してください。
- task/none
-
for systems requiring no special handling of user tasks.
ユーザータスクの特別な処理を必要としないシステム用。
Lacks support for the --cpu-bind and/or --mem-bind srun options.
--cpu-bindおよび/または--mem-bind srunオプションのサポートがない。
The default value is "task/none".
デフォルト値は「task / none」です。
NOTE: It is recommended to stack task/affinity,task/cgroup together when configuring TaskPlugin, and setting TaskAffinity=no and ConstrainCores=yes in cgroup.conf.
注:TaskPluginを構成し、cgroup.confでTaskAffinity = noおよびConstrainCores = yesを設定する場合は、task / affinity、task / cgroupをスタックすることをお勧めします。
This setup uses the task/affinity plugin for setting the affinity of the tasks (which is better and different than task/cgroup) and uses the task/cgroup plugin to fence tasks into the specified resources, thus combining the best of both pieces.
この設定では、タスク/アフィニティプラグインを使用してタスクのアフィニティ(タスク/ cgroupよりも優れており、異なる)を設定し、タスク/ cgroupプラグインを使用してタスクを指定されたリソースに隔離し、両方の部分のベストを組み合わせます。
NOTE: For CRAY systems only: task/cgroup must be used with, and listed after task/cray_aries in TaskPlugin.
注:CRAYシステムの場合のみ:task / cgroupはTaskPluginでtask / cray_ariesと一緒に使用し、その後にリストする必要があります。
The task/affinity plugin can be listed everywhere, but the previous constraint must be satisfied.
タスク/アフィニティプラグインはどこにでもリストできますが、以前の制約を満たす必要があります。
So for CRAY systems, a configuration like this is recommended:
したがって、CRAYシステムでは、次のような構成が推奨されます。
TaskPlugin=task/affinity,task/cray_aries,task/cgroup
-
- TaskPluginParam
-
Optional parameters for the task plugin.
タスクプラグインのオプションのパラメーター。
Multiple options should be comma separated.
複数のオプションはカンマで区切る必要があります。
If None, Boards, Sockets, Cores, Threads, and/or Verbose are specified, they will override the --cpu-bind option specified by the user in the srun command.
None、Boards、Sockets、Cores、Threads、Verboseを指定すると、srunコマンドでユーザーが指定した--cpu-bindオプションが上書きされます。
None, Boards, Sockets, Cores and Threads are mutually exclusive and since they decrease scheduling flexibility are not generally recommended (select no more than one of them).
なし、ボード、ソケット、コア、スレッドは相互に排他的であり、スケジューリングの柔軟性が低下するため、一般的には推奨されません(1つだけ選択してください)。
Cpusets and Sched are mutually exclusive (select only one of them).
CpusetsとSchedは相互に排他的です(そのうちの1つだけを選択してください)。
All TaskPluginParam options are supported on FreeBSD except Cpusets.
TaskPluginParamオプションは、Cpusetsを除くすべてのFreeBSDでサポートされています。
The Sched option uses cpuset_setaffinity() on FreeBSD, not sched_setaffinity().
SchedオプションはFreeBSDではsched_setaffinity()ではなくcpuset_setaffinity()を使用します。
-
- Boards
-
Bind tasks to boards by default.
デフォルトでタスクをボードにバインドします。
Overrides automatic binding.
自動バインディングをオーバーライドします。
- Cores
-
Bind tasks to cores by default.
デフォルトでタスクをコアにバインドします。
Overrides automatic binding.
自動バインディングをオーバーライドします。
- Cpusets
-
Use cpusets to perform task affinity functions.
cpusetsを使用してタスクアフィニティ機能を実行します。
By default, Sched task binding is performed.
デフォルトでは、Schedタスクバインディングが実行されます。
- None
-
Perform no task binding by default.
デフォルトではタスクバインディングを実行しません。
Overrides automatic binding.
自動バインディングをオーバーライドします。
- Sched
-
Use sched_setaffinity (if available) to bind tasks to
processors.
sched_setaffinity(使用可能な場合)を使用して、タスクをプロセッサーにバインドします。
- Sockets
-
Bind to sockets by default.
デフォルトでソケットにバインドします。
Overrides automatic binding.
自動バインディングをオーバーライドします。
- Threads
-
Bind to threads by default.
デフォルトでスレッドにバインドします。
Overrides automatic binding.
自動バインディングをオーバーライドします。
- SlurmdOffSpec
-
If specialized cores or CPUs are identified for the node (i.e. the
CoreSpecCount or CpuSpecList are configured for the node),
then Slurm daemons running on the compute node (i.e. slurmd and slurmstepd)
should run outside of those resources (i.e. specialized resources are
completely unavailable to Slurm daemons and jobs spawned by Slurm).
ノードに対して特殊化されたコアまたはCPUが識別された場合(つまり、ノードにCoreSpecCountまたはCpuSpecListが構成されている場合)、計算ノードで実行されているSlurmデーモン(つまり、slurmdおよびslurmstepd)はそれらのリソースの外部で実行される必要があります(つまり、特殊なリソースは完全に利用できませんSlurmによって生成されたSlurmデーモンとジョブに)。
This option may not be used with the task/cray_aries plugin.
このオプションはtask / cray_ariesプラグインでは使用できません。
- Verbose
-
Verbosely report binding before tasks run.
タスクが実行される前に、バインディングを詳細にレポートします。
Overrides user options.
ユーザーオプションを上書きします。
- Autobind
-
Set a default binding in the event that "auto binding" doesn't find a match.
「自動バインディング」で一致が見つからない場合のデフォルトのバインディングを設定します。
Set to Threads, Cores or Sockets (E.g. TaskPluginParam=autobind=threads).
スレッド、コア、またはソケットに設定します(例:TaskPluginParam = autobind = threads)。
-
- TaskProlog
-
Fully qualified pathname of a program to be execute as the slurm job's
owner prior to initiation of each task.
各タスクの開始前にslurmジョブの所有者として実行されるプログラムの完全修飾パス名。
Besides the normal environment variables, this has SLURM_TASK_PID available to identify the process ID of the task being started.
通常の環境変数に加えて、これには、開始されるタスクのプロセスIDを識別するために使用可能なSLURM_TASK_PIDがあります。
Standard output from this program can be used to control the environment variables and output for the user program.
このプログラムからの標準出力を使用して、環境変数とユーザープログラムの出力を制御できます。
-
- export NAME=value
-
Will set environment variables for the task being spawned.
生成されるタスクの環境変数を設定します。
Everything after the equal sign to the end of the line will be used as the value for the environment variable.
等号の後から行末までのすべてが環境変数の値として使用されます。
Exporting of functions is not currently supported.
関数のエクスポートは現在サポートされていません。
- print ...
-
Will cause that line (without the leading "print ")
to be printed to the job's standard output.
その行(先頭の「print」なし)がジョブの標準出力に印刷されます。
- unset NAME
-
Will clear environment variables for the task being spawned.
生成されるタスクの環境変数をクリアします。
- The order of task prolog/epilog execution is as follows:
タスクのプロローグ/エピローグの実行順序は次のとおりです。 - 1. pre_launch_priv()
-
Function in TaskPlugin
TaskPluginの関数
- 1. pre_launch()
-
Function in TaskPlugin
TaskPluginの関数
- 2. TaskProlog
-
System-wide per task program defined in slurm.conf
slurm.confで定義されたシステム全体のタスクプログラム
- 3. user prolog
-
Job step specific task program defined using
srun's --task-prolog option or SLURM_TASK_PROLOG
environment variable
srunの--task-prologオプションまたはSLURM_TASK_PROLOG環境変数を使用して定義されたジョブステップ固有のタスクプログラム
- 4. Execute the job step's task
- 5. user epilog
-
Job step specific task program defined using
srun's --task-epilog option or SLURM_TASK_EPILOG
environment variable
srunの--task-epilogオプションまたはSLURM_TASK_EPILOG環境変数を使用して定義されたジョブステップ固有のタスクプログラム
- 6. TaskEpilog
-
System-wide per task program defined in slurm.conf
slurm.confで定義されたシステム全体のタスクプログラム
- 7. post_term()
-
Function in TaskPlugin
TaskPluginの関数
-
- TCPTimeout
-
Time permitted for TCP connection to be established. Default value is 2 seconds.
TCP接続の確立に許可される時間。デフォルト値は2秒です。
- TmpFS
-
Fully qualified pathname of the file system available to user jobs for
temporary storage.
ユーザージョブが一時的に保存できるファイルシステムの完全修飾パス名。
This parameter is used in establishing a node's TmpDisk space.
このパラメーターは、ノードのTmpDiskスペースを確立する際に使用されます。
The default value is "/tmp".
デフォルト値は「/ tmp」です。
- TopologyParam
-
Comma separated options identifying network topology options.
ネットワークトポロジオプションを識別するカンマ区切りオプション。
-
- Dragonfly
-
Optimize allocation for Dragonfly network.
Dragonflyネットワークの割り当てを最適化します。
Valid when TopologyPlugin=topology/tree.
TopologyPlugin = topology / treeの場合に有効です。
- TopoOptional
-
Only optimize allocation for network topology if the job includes a switch
option.
ジョブにスイッチオプションが含まれている場合にのみ、ネットワークトポロジの割り当てを最適化します。
Since optimizing resource allocation for topology involves much higher system overhead, this option can be used to impose the extra overhead only on jobs which can take advantage of it.
トポロジのリソース割り当てを最適化すると、システムオーバーヘッドが大幅に増えるため、このオプションを使用して、それを利用できるジョブにのみ追加のオーバーヘッドを課すことができます。
If most job allocations are not optimized for network topology, they make fragment resources to the point that topology optimization for other jobs will be difficult to achieve.
ほとんどのジョブ割り当てがネットワークトポロジー用に最適化されていない場合、他のジョブのトポロジー最適化を実現するのが困難になるほどの断片リソースが作成されます。
NOTE: Jobs may span across nodes without common parent switches with this enabled.
注:ジョブは、これが有効になっている一般的な親スイッチがないノードにまたがることがあります。
-
- TopologyPlugin
-
Identifies the plugin to be used for determining the network topology
and optimizing job allocations to minimize network contention.
ネットワークトポロジを決定し、ジョブの割り当てを最適化してネットワークの競合を最小限に抑えるために使用するプラグインを識別します。
See NETWORK TOPOLOGY below for details.
詳細については、以下のネットワークトポロジを参照してください。
Additional plugins may be provided in the future which gather topology information directly from the network.
将来、ネットワークから直接トポロジー情報を収集する追加のプラグインが提供される可能性があります。
Acceptable values include:
許容値は次のとおりです。
-
- topology/3d_torus
-
best-fit logic over three-dimensional topology
3次元トポロジーに最適なロジック
- topology/node_rank
-
orders nodes based upon information a node_rank field in the node record
as generated by a select plugin.
選択プラグインによって生成されたノードレコードのnode_rankフィールドの情報に基づいてノードを並べ替えます。
Slurm performs a best-fit algorithm over those ordered nodes
Slurmはこれらの順序付けられたノードに対して最適なアルゴリズムを実行します
- topology/none
-
default for other systems, best-fit logic over one-dimensional topology
他のシステムのデフォルト、1次元トポロジーに最適なロジック
- topology/tree
-
used for a hierarchical network as described in a topology.conf file
topology.confファイルに記述されている階層ネットワークに使用されます
-
- TrackWCKey
-
Boolean yes or no.
ブール値yesまたはno。
Used to set display and track of the Workload Characterization Key.
ワークロード特性化キーの表示と追跡を設定するために使用されます。
Must be set to track correct wckey usage.
正しいwckeyの使用を追跡するように設定する必要があります。
NOTE: You must also set TrackWCKey in your slurmdbd.conf file to create historical usage reports.
注:履歴使用状況レポートを作成するには、slurmdbd.confファイルでTrackWCKeyも設定する必要があります。
- TreeWidth
-
Slurmd daemons use a virtual tree network for communications.
Slurmdデーモンは、通信に仮想ツリーネットワークを使用します。
TreeWidth specifies the width of the tree (i.e. the fanout).
TreeWidthは、ツリーの幅を指定します(つまり、ファンアウト)。
On architectures with a front end node running the slurmd daemon, the value must always be equal to or greater than the number of front end nodes which eliminates the need for message forwarding between the slurmd daemons.
slurmdデーモンを実行するフロントエンドノードを備えたアーキテクチャでは、値は常にフロントエンドノードの数以上である必要があります。これにより、slurmdデーモン間のメッセージ転送が不要になります。
On other architectures the default value is 50, meaning each slurmd daemon can communicate with up to 50 other slurmd daemons and over 2500 nodes can be contacted with two message hops.
他のアーキテクチャでは、デフォルト値は50です。つまり、各slurmdデーモンは最大50の他のslurmdデーモンと通信でき、2500を超えるノードは2つのメッセージホップで接続できます。
The default value will work well for most clusters.
デフォルト値は、ほとんどのクラスターで適切に機能します。
Optimal system performance can typically be achieved if TreeWidth is set to the square root of the number of nodes in the cluster for systems having no more than 2500 nodes or the cube root for larger systems.
最適なシステムパフォーマンスは、通常、ツリー幅が2500ノード以下のシステムではクラスター内のノード数の平方根に、大規模なシステムでは立方根に設定されている場合に達成できます。
The value may not exceed 65533.
値は65533を超えることはできません。
- UnkillableStepProgram
-
If the processes in a job step are determined to be unkillable for a period
of time specified by the UnkillableStepTimeout variable, the program
specified by UnkillableStepProgram will be executed.
ジョブステップのプロセスが、UnkillableStepTimeout変数で指定された期間、強制終了できないと判断された場合、UnkillableStepProgramで指定されたプログラムが実行されます。
This program can be used to take special actions to clean up the unkillable processes and/or notify computer administrators.
このプログラムを使用して、殺せないプロセスをクリーンアップしたり、コンピュータ管理者に通知したりするための特別なアクションを実行できます。
The program will be run SlurmdUser (usually "root") on the compute node.
プログラムは、計算ノードでSlurmdUser(通常は「ルート」)で実行されます。
By default no program is run.
デフォルトでは、プログラムは実行されません。
- UnkillableStepTimeout
-
The length of time, in seconds, that Slurm will wait before deciding that
processes in a job step are unkillable (after they have been signaled with
SIGKILL) and execute UnkillableStepProgram as described above.
Slurmがジョブステップ内のプロセスが(SIGKILLで通知された後)強制終了できないと判断し、上記のようにUnkillableStepProgramを実行するまでに待機する時間(秒単位)。
The default timeout value is 60 seconds.
デフォルトのタイムアウト値は60秒です。
If exceeded, the compute node will be drained to prevent future jobs from being scheduled on the node.
超過すると、ノードで将来のジョブがスケジュールされないように計算ノードがドレインされます。
- UsePAM
-
If set to 1, PAM (Pluggable Authentication Modules for Linux) will be enabled.
1に設定すると、PAM(Linux用のプラグ可能な認証モジュール)が有効になります。
PAM is used to establish the upper bounds for resource limits.
PAMは、リソース制限の上限を設定するために使用されます。
With PAM support enabled, local system administrators can dynamically configure system resource limits.
PAMサポートを有効にすると、ローカルシステム管理者はシステムリソースの制限を動的に構成できます。
Changing the upper bound of a resource limit will not alter the limits of running jobs, only jobs started after a change has been made will pick up the new limits.
リソース制限の上限を変更しても、実行中のジョブの制限は変更されません。変更が加えられた後に開始されたジョブのみが新しい制限を取得します。
The default value is 0 (not to enable PAM support).
デフォルト値は0です(PAMサポートを有効にしないため)。
Remember that PAM also needs to be configured to support Slurm as a service.
PAMはSlurmをサービスとしてサポートするように構成する必要があることも覚えておいてください。
For sites using PAM's directory based configuration option, a configuration file named slurm should be created.
PAMのディレクトリベースの構成オプションを使用するサイトの場合、slurmという名前の構成ファイルを作成する必要があります。
The module-type, control-flags, and module-path names that should be included in the file are:
ファイルに含める必要があるモジュールタイプ、制御フラグ、およびモジュールパス名は次のとおりです。
auth required pam_localuser.so
auth required pam_shells.so
account required pam_unix.so
account required pam_access.so
session required pam_unix.so
For sites configuring PAM with a general configuration file, the appropriate lines (see above), where slurm is the service-name, should be added.
一般的な構成ファイルを使用してPAMを構成するサイトの場合は、slurmがサービス名である適切な行(上記を参照)を追加する必要があります。
NOTE: UsePAM option has nothing to do with the contribs/pam/pam_slurm and/or contribs/pam_slurm_adopt modules.
注:UsePAMオプションは、contribs / pam / pam_slurmおよび/またはcontribs / pam_slurm_adoptモジュールとは関係ありません。
So these two modules can work independently of the value set for UsePAM.
したがって、これらの2つのモジュールは、UsePAMに設定された値とは無関係に機能します。
- VSizeFactor
-
Memory specifications in job requests apply to real memory size (also known
as resident set size).
ジョブリクエストのメモリ指定は、実メモリサイズ(常駐セットサイズとも呼ばれます)に適用されます。
It is possible to enforce virtual memory limits for both jobs and job steps by limiting their virtual memory to some percentage of their real memory allocation.
仮想メモリを実際のメモリ割り当ての一定の割合に制限することで、ジョブとジョブステップの両方に仮想メモリの制限を適用することができます。
The VSizeFactor parameter specifies the job's or job step's virtual memory limit as a percentage of its real memory limit.
VSizeFactorパラメーターは、ジョブまたはジョブステップの仮想メモリ制限を、実際のメモリ制限のパーセンテージとして指定します。
For example, if a job's real memory limit is 500MB and VSizeFactor is set to 101 then the job will be killed if its real memory exceeds 500MB or its virtual memory exceeds 505MB (101 percent of the real memory limit).
たとえば、ジョブの実メモリ制限が500MBで、VSizeFactorが101に設定されている場合、実メモリが500MBを超えるか、仮想メモリが505MB(実メモリ制限の101%)を超えると、ジョブは強制終了されます。
The default value is 0, which disables enforcement of virtual memory limits.
デフォルト値は0で、仮想メモリ制限の実施を無効にします。
The value may not exceed 65533 percent.
値は65533パーセントを超えることはできません。
- WaitTime
-
Specifies how many seconds the srun command should by default wait after
the first task terminates before terminating all remaining tasks.
srunコマンドがデフォルトで最初のタスクが終了してから残りのすべてのタスクを終了するまで待機する秒数を指定します。
The "--wait" option on the srun command line overrides this value.
srunコマンドラインの「--wait」オプションは、この値を上書きします。
The default value is 0, which disables this feature.
デフォルト値は0で、この機能は無効になっています。
May not exceed 65533 seconds.
65533秒を超えることはできません。
- X11Parameters
-
For use with Slurm's built-in X11 forwarding implementation.
Slurmの組み込みX11転送実装で使用します。
The configuration of nodes (or machines) to be managed by Slurm is
also specified in /etc/slurm.conf.
Slurmによって管理されるノード(またはマシン)の構成も/etc/slurm.confで指定されます。
Changes in node configuration (e.g. adding nodes, changing their
processor count, etc.) require restarting both the slurmctld daemon
and the slurmd daemons.
ノード構成の変更(ノードの追加、プロセッサカウントの変更など)では、slurmctldデーモンとslurmdデーモンの両方を再起動する必要があります。
All slurmd daemons must know each node in the system to forward
messages in support of hierarchical communications.
すべてのslurmdデーモンは、階層通信をサポートするメッセージを転送するために、システム内の各ノードを知っている必要があります。
Only the NodeName must be supplied in the configuration file.
NodeNameのみを構成ファイルで指定する必要があります。
All other node configuration information is optional.
他のすべてのノード構成情報はオプションです。
It is advisable to establish baseline node configurations,
especially if the cluster is heterogeneous.
特にクラスターが異種である場合は、ベースラインノード構成を確立することをお勧めします。
Nodes which register to the system with less than the configured resources
(e.g. too little memory), will be placed in the "DOWN" state to
avoid scheduling jobs on them.
構成されたリソースより少ない(例えば、メモリーが少なすぎる)とシステムに登録するノードは、それらのジョブのスケジューリングを回避するために「ダウン」状態になります。
Establishing baseline configurations will also speed Slurm's
scheduling process by permitting it to compare job requirements
against these (relatively few) configuration parameters and
possibly avoid having to check job requirements
against every individual node's configuration.
ベースライン構成を確立すると、ジョブ要件をこれらの(比較的少数の)構成パラメーターと比較できるため、Slurmのスケジューリングプロセスも高速化され、場合によっては、個々のノードの構成ごとにジョブ要件を確認する必要がなくなります。
The resources checked at node registration time are: CPUs,
RealMemory and TmpDisk.
ノード登録時にチェックされるリソースは、CPU、RealMemory、TmpDiskです。
Default values can be specified with a record in which
NodeName is "DEFAULT".
デフォルト値は、NodeNameが「DEFAULT」であるレコードで指定できます。
The default entry values will apply only to lines following it in the
configuration file and the default values can be reset multiple times
in the configuration file with multiple entries where "NodeName=DEFAULT".
デフォルトのエントリー値は、構成ファイル内の次の行にのみ適用され、デフォルト値は、「NodeName = DEFAULT」の複数のエントリーを持つ構成ファイルで複数回リセットできます。
Each line where NodeName is "DEFAULT" will replace or add to previous
default values and not a reinitialize the default values.
NodeNameが "DEFAULT"である各行は、以前のデフォルト値を置換または追加し、デフォルト値を再初期化しません。
The "NodeName=" specification must be placed on every line
describing the configuration of nodes.
「NodeName =」の指定は、ノードの構成を説明するすべての行に配置する必要があります。
A single node name can not appear as a NodeName value in more than one line
(duplicate node name records will be ignored).
1つのノード名を複数の行でNodeName値として表示することはできません(重複するノード名レコードは無視されます)。
In fact, it is generally possible and desirable to define the
configurations of all nodes in only a few lines.
実際、すべてのノードの構成を数行で定義することは、一般的に可能であり、望ましいことです。
This convention permits significant optimization in the scheduling
of larger clusters.
この規則により、より大きなクラスターのスケジューリングで大幅な最適化が可能になります。
In order to support the concept of jobs requiring consecutive nodes
on some architectures,
一部のアーキテクチャで連続ノードを必要とするジョブの概念をサポートするために、
node specifications should be place in this file in consecutive order.
ノード指定は、このファイルに連続した順序で配置する必要があります。
No single node name may be listed more than once in the configuration
file.
構成ファイルに単一のノード名を複数回リストすることはできません。
Use "DownNodes=" to record the state of nodes which are temporarily
in a DOWN, DRAIN or FAILING state without altering permanent
configuration information.
「DownNodes =」を使用して、永続的な構成情報を変更せずに、一時的にDOWN、DRAIN、またはFAILING状態にあるノードの状態を記録します。
A job step's tasks are allocated to nodes in order the nodes appear
in the configuration file.
ノードが構成ファイルに表示される順序で、ジョブステップのタスクがノードに割り当てられます。
There is presently no capability within
Slurm to arbitrarily order a job step's tasks.
現在、Slurmには、ジョブステップのタスクを任意に順序付ける機能はありません。
Multiple node names may be comma separated (e.g. "alpha,beta,gamma")
and/or a simple node range expression may optionally be used to
specify numeric ranges of nodes to avoid building a configuration
file with large numbers of entries.
複数のノード名をコンマで区切って(「alpha、beta、gamma」など)、および/または単純なノード範囲式をオプションで使用してノードの数値範囲を指定し、多数のエントリを持つ構成ファイルの構築を回避できます。
The node range expression can contain one pair of square brackets
with a sequence of comma separated numbers and/or ranges of numbers
separated by a "-" (e.g. "linux[0-64,128]", or "lx[15,18,32-33]").
ノード範囲の式には、カンマで区切られた数字のシーケンスおよび/または「-」で区切られた数字の範囲を含む1組の角括弧を含めることができます(例: "linux [0-64,128]"、または "lx [15,18,32 -33]」)。
Note that the numeric ranges can include one or more leading
zeros to indicate the numeric portion has a fixed number of digits
(e.g. "linux[0000-1023]").
数値の範囲には、数値部分に固定の桁数があることを示すために、1つ以上の先行ゼロを含めることができます(例: "linux [0000-1023]")。
Multiple numeric ranges can be included in the expression
(e.g. "rack[0-63]_blade[0-41]").
式には複数の数値範囲を含めることができます(例: "rack [0-63] _blade [0-41]")。
If one or more numeric expressions are included, one of them
must be at the end of the name (e.g. "unit[0-31]rack" is invalid),
but arbitrary names can always be used in a comma separated list.
1つ以上の数式が含まれている場合、それらの1つは名前の最後になければなりません(たとえば、 "unit [0-31] rack"は無効です)。ただし、コンマ区切りのリストでは常に任意の名前を使用できます。
The node configuration specified the following information:
ノード構成は次の情報を指定しました:
- NodeName
-
Name that Slurm uses to refer to a node.
Slurmがノードを参照するために使用する名前。
Typically this would be the string that "/bin/hostname -s" returns.
通常、これは "/ bin / hostname -s"が返す文字列です。
It may also be the fully qualified domain name as returned by "/bin/hostname -f" (e.g. "foo1.bar.com"), or any valid domain name associated with the host through the host database (/etc/hosts) or DNS, depending on the resolver settings.
また、 "/ bin / hostname -f"によって返される完全修飾ドメイン名(例: "foo1.bar.com")、またはホストデータベース(/ etc / hosts)を介してホストに関連付けられた有効なドメイン名のいずれかです。またはリゾルバーの設定に応じてDNS。
Note that if the short form of the hostname is not used, it may prevent use of hostlist expressions (the numeric portion in brackets must be at the end of the string).
ホスト名の短い形式が使用されていない場合、ホストリスト式の使用が妨げられる可能性があることに注意してください(括弧内の数値部分は文字列の最後にある必要があります)。
It may also be an arbitrary string if NodeHostname is specified.
NodeHostnameが指定されている場合は、任意の文字列にすることもできます。
If the NodeName is "DEFAULT", the values specified with that record will apply to subsequent node specifications unless explicitly set to other values in that node record or replaced with a different set of default values.
NodeNameが "DEFAULT"の場合、そのレコードで指定された値は、そのノードレコードの他の値に明示的に設定されたり、別のデフォルト値のセットで置き換えられたりしない限り、後続のノード仕様に適用されます。
Each line where NodeName is "DEFAULT" will replace or add to previous default values and not a reinitialize the default values.
NodeNameが "DEFAULT"である各行は、以前のデフォルト値を置換または追加し、デフォルト値を再初期化しません。
For architectures in which the node order is significant, nodes will be considered consecutive in the order defined.
ノードの順序が重要なアーキテクチャの場合、ノードは定義された順序で連続していると見なされます。
For example, if the configuration for "NodeName=charlie" immediately follows the configuration for "NodeName=baker" they will be considered adjacent in the computer.
たとえば、「NodeName = charlie」の構成が「NodeName = baker」の構成の直後に続く場合、それらはコンピューター内で隣接していると見なされます。
- NodeHostname
-
Typically this would be the string that "/bin/hostname -s" returns.
通常、これは "/ bin / hostname -s"が返す文字列です。
It may also be the fully qualified domain name as returned by "/bin/hostname -f" (e.g. "foo1.bar.com"), or any valid domain name associated with the host through the host database (/etc/hosts) or DNS, depending on the resolver settings.
また、 "/ bin / hostname -f"によって返される完全修飾ドメイン名(例: "foo1.bar.com")、またはホストデータベース(/ etc / hosts)を介してホストに関連付けられた有効なドメイン名のいずれかです。またはリゾルバーの設定に応じてDNS。
Note that if the short form of the hostname is not used, it may prevent use of hostlist expressions (the numeric portion in brackets must be at the end of the string).
ホスト名の短い形式が使用されていない場合、ホストリスト式の使用が妨げられる可能性があることに注意してください(括弧内の数値部分は文字列の最後にある必要があります)。
A node range expression can be used to specify a set of nodes.
ノード範囲式を使用して、ノードのセットを指定できます。
If an expression is used, the number of nodes identified by NodeHostname on a line in the configuration file must be identical to the number of nodes identified by NodeName.
式を使用する場合、構成ファイルの行のNodeHostnameで識別されるノードの数は、NodeNameで識別されるノードの数と同じでなければなりません。
By default, the NodeHostname will be identical in value to NodeName.
デフォルトでは、NodeHostnameの値はNodeNameと同じになります。
- NodeAddr
-
Name that a node should be referred to in establishing
a communications path.
通信パスを確立するときにノードを参照する必要がある名前。
This name will be used as an argument to the gethostbyname() function for identification.
この名前は、識別のためにgethostbyname()関数の引数として使用されます。
If a node range expression is used to designate multiple nodes, they must exactly match the entries in the NodeName (e.g. "NodeName=lx[0-7] NodeAddr=elx[0-7]").
ノード範囲式を使用して複数のノードを指定する場合、それらはNodeNameのエントリと完全に一致する必要があります(例: "NodeName = lx [0-7] NodeAddr = elx [0-7]")。
NodeAddr may also contain IP addresses.
NodeAddrにはIPアドレスが含まれる場合もあります。
By default, the NodeAddr will be identical in value to NodeHostname.
デフォルトでは、NodeAddrの値はNodeHostnameと同じです。
- BcastAddr
-
Alternate network path to be used for sbcast network traffic to a given node.
特定のノードへのsbcastネットワークトラフィックに使用される代替ネットワークパス。
This name will be used as an argument to the gethostbyname() function.
この名前は、gethostbyname()関数の引数として使用されます。
If a node range expression is used to designate multiple nodes, they must exactly match the entries in the NodeName (e.g. "NodeName=lx[0-7] BcastAddr=elx[0-7]").
ノード範囲式を使用して複数のノードを指定する場合、それらはNodeNameのエントリと完全に一致する必要があります(例: "NodeName = lx [0-7] BcastAddr = elx [0-7]")。
BcastAddr may also contain IP addresses.
BcastAddrにはIPアドレスが含まれる場合もあります。
By default, the BcastAddr is unset, and sbcast traffic will be routed to the NodeAddr for a given node.
デフォルトでは、BcastAddrは設定されておらず、sbcastトラフィックは特定のノードのNodeAddrにルーティングされます。
Note: cannot be used with CommunicationParameters=NoInAddrAny.
注:CommunicationParameters = NoInAddrAnyでは使用できません。
- Boards
-
Number of Baseboards in nodes with a baseboard controller.
ベースボードコントローラを備えたノードのベースボードの数。
Note that when Boards is specified, SocketsPerBoard, CoresPerSocket, and ThreadsPerCore should be specified.
Boardsを指定する場合は、SocketsPerBoard、CoresPerSocket、およびThreadsPerCoreを指定する必要があることに注意してください。
Boards and CPUs are mutually exclusive.
ボードとCPUは相互に排他的です。
The default value is 1.
デフォルト値は1です。
- CoreSpecCount
-
Number of cores reserved for system use.
システムで使用するために予約されているコアの数。
These cores will not be available for allocation to user jobs.
これらのコアは、ユーザージョブへの割り当てには使用できません。
Depending upon the TaskPluginParam option of SlurmdOffSpec, Slurm daemons (i.e. slurmd and slurmstepd) may either be confined to these resources (the default) or prevented from using these resources.
SlurmdOffSpecのTaskPluginParamオプションに応じて、Slurmデーモン(つまり、slurmdとslurmstepd)はこれらのリソースに限定されるか(デフォルト)、これらのリソースの使用を禁止されます。
Isolation of the Slurm daemons from user jobs may improve application performance.
Slurmデーモンをユーザージョブから分離すると、アプリケーションのパフォーマンスが向上する場合があります。
If this option and CpuSpecList are both designated for a node, an error is generated.
このオプションとCpuSpecListの両方がノードに指定されている場合、エラーが生成されます。
For information on the algorithm used by Slurm to select the cores refer to the core specialization documentation ( https://slurm.schedmd.com/core_spec.html ).
Slurmがコアを選択するために使用するアルゴリズムについては、コアの特殊化に関するドキュメント(https://slurm.schedmd.com/core_spec.html)を参照してください。
- CoresPerSocket
-
Number of cores in a single physical processor socket (e.g. "2").
単一の物理プロセッサソケット内のコアの数(「2」など)。
The CoresPerSocket value describes physical cores, not the logical number of processors per socket.
CoresPerSocket値は、ソケットあたりのプロセッサーの論理数ではなく、物理コアを示します。
NOTE: If you have multi-core processors, you will likely need to specify this parameter in order to optimize scheduling.
注:マルチコアプロセッサを使用している場合は、スケジューリングを最適化するためにこのパラメータを指定する必要がある可能性があります。
The default value is 1.
デフォルト値は1です。
- CpuBind
-
If a job step request does not specify an option to control how tasks are bound
to allocated CPUs (--cpu-bind) and all nodes allocated to the job have the same
CpuBind option the node CpuBind option will control how tasks are
bound to allocated resources.
ジョブステップ要求で、割り当てられたCPUにタスクをバインドする方法を制御するオプション(--cpu-bind)が指定されておらず、ジョブに割り当てられたすべてのノードに同じCpuBindオプションがある場合、ノードのCpuBindオプションは、タスクが割り当てられた方法にバインドされる方法を制御しますリソース。
Supported values for CpuBind are "none", "board", "socket", "ldom" (NUMA), "core" and "thread".
CpuBindでサポートされている値は、「none」、「board」、「socket」、「ldom」(NUMA)、「core」、「thread」です。
- CPUs
-
Number of logical processors on the node (e.g. "2").
ノード上の論理プロセッサの数(例: "2")。
CPUs and Boards are mutually exclusive. It can be set to the total number of sockets(supported only by select/linear), cores or threads.
CPUとボードは相互に排他的です。ソケット(select / linearでのみサポート)、コア、またはスレッドの総数に設定できます。
This can be useful when you want to schedule only the cores on a hyper-threaded node.
これは、ハイパースレッドノードのコアのみをスケジュールする場合に役立ちます。
If CPUs is omitted, its default will be set equal to the product of Boards, Sockets, CoresPerSocket, and ThreadsPerCore.
CPUを省略した場合、そのデフォルトは、Boards、Sockets、CoresPerSocket、およびThreadsPerCoreの積に等しく設定されます。
- CpuSpecList
-
A comma delimited list of Slurm abstract CPU IDs reserved for system use.
システムで使用するために予約されているSlurm抽象CPU IDのカンマ区切りリスト。
The list will be expanded to include all other CPUs, if any, on the same cores.
リストは拡張され、同じコア上の他のすべてのCPU(ある場合)が含まれます。
These cores will not be available for allocation to user jobs.
これらのコアは、ユーザージョブへの割り当てには使用できません。
Depending upon the TaskPluginParam option of SlurmdOffSpec, Slurm daemons (i.e. slurmd and slurmstepd) may either be confined to these resources (the default) or prevented from using these resources.
SlurmdOffSpecのTaskPluginParamオプションに応じて、Slurmデーモン(つまり、slurmdとslurmstepd)はこれらのリソースに限定されるか(デフォルト)、これらのリソースの使用を禁止されます。
Isolation of the Slurm daemons from user jobs may improve application performance.
Slurmデーモンをユーザージョブから分離すると、アプリケーションのパフォーマンスが向上する場合があります。
If this option and CoreSpecCount are both designated for a node, an error is generated.
このオプションとCoreSpecCountの両方がノードに指定されている場合、エラーが生成されます。
This option has no effect unless cgroup job confinement is also configured (TaskPlugin=task/cgroup with ConstrainCores=yes in cgroup.conf).
このオプションは、cgroupジョブの制限が設定されていない場合(cgroup.confのConstrainCores = yesを指定したTaskPlugin = task / cgroup)を除き、効果がありません。
- Feature
-
A comma delimited list of arbitrary strings indicative of some
characteristic associated with the node.
ノードに関連付けられたいくつかの特性を示す任意の文字列のコンマ区切りリスト。
There is no value associated with a feature at this time, a node either has a feature or it does not.
現在、機能に関連付けられている値はありません。ノードには機能があるか、またはありません。
If desired a feature may contain a numeric component indicating, for example, processor speed.
必要に応じて、機能に、たとえばプロセッサ速度を示す数値コンポーネントを含めることができます。
By default a node has no features.
デフォルトでは、ノードには機能がありません。
Also see Gres.
Gresも参照してください。
- Gres
-
A comma delimited list of generic resources specifications for a node.
ノードの汎用リソース仕様のコンマ区切りリスト。
The format is: "<name>[:<type>][:no_consume]:<number>[K|M|G]".
形式は、「<名前> [:<タイプ>] [:no_consume]:<番号> [K | M | G]」です。
The first field is the resource name, which matches the GresType configuration parameter name.
最初のフィールドはリソース名で、GresType構成パラメーター名と一致します。
The optional type field might be used to identify a model of that generic resource.
オプションのtypeフィールドは、その総称リソースのモデルを識別するために使用できます。
It is forbidden to specify both an untyped GRES and a typed GRES with the same <name>.
型なしのGRESと型付きのGRESを同じ<名前>で指定することは禁止されています。
A generic resource can also be specified as non-consumable (i.e. multiple jobs can use the same generic resource) with the optional field ":no_c onsume".
総称リソースは、オプションのフィールド「:no_c onsume」を使用して、非消費可能として指定することもできます(つまり、複数のジョブが同じ総称リソースを使用できます)。
The final field must specify a generic resources count.
最後のフィールドでは、総称リソース数を指定する必要があります。
A suffix of "K", "M", "G", "T" or "P" may be used to multiply the number by 1024, 1048576, 1073741824, etc. respectively.
「K」、「M」、「G」、「T」、または「P」の接尾辞を使用して、数値にそれぞれ1024、1048576、1073741824などを掛けることができます。
(e.g."Gres=gpu:tesla:1,gpu:kepler:1,bandwidth:lustre:no_consume:4G").
(例: "Gres = gpu:tesla:1、gpu:kepler:1、bandwidth:lustre:no_consume:4G")。
By default a node has no generic resources and its maximum count is that of an unsigned 64bit integer.
デフォルトでは、ノードには汎用リソースがなく、その最大数は符号なし64ビット整数の数です。
Also see Feature.
機能も参照してください。
- MemSpecLimit
-
Amount of memory, in megabytes, reserved for system use and not available
for user allocations.
システム使用のために予約され、ユーザー割り当てには使用できないメモリの量(メガバイト単位)。
If the task/cgroup plugin is configured and that plugin constrains memory allocations (i.e. TaskPlugin=task/cgroup in slurm.conf, plus ConstrainRAMSpace=yes in cgroup.conf), then Slurm compute node daemons (slurmd plus slurmstepd) will be allocated the specified memory limit.
task / cgroupプラグインが構成されていて、そのプラグインがメモリ割り当てを制約している場合(つまり、slurm.confのTaskPlugin = task / cgroupとcgroup.confのConstrainRAMSpace = yes)、Slurm計算ノードデーモン(slurmdとslurmstepd)が割り当てられます。指定されたメモリ制限。
Note that having the Memory set in SelectTypeParameters as any of the options that has it as a consumable resource is needed for this option to work.
このオプションを機能させるには、メモリを消費型リソースとして持つオプションのいずれかとしてSelectTypeParametersに設定する必要があることに注意してください。
The daemons will not be killed if they exhaust the memory allocation (ie. the Out-Of-Memory Killer is disabled for the daemon's memory cgroup).
デーモンがメモリ割り当てを使い果たしても、デーモンは強制終了されません(つまり、デーモンのメモリcgroupでメモリ不足キラーが無効になっています)。
If the task/cgroup plugin is not configured, the specified memory will only be unavailable for user allocations.
task / cgroupプラグインが構成されていない場合、指定されたメモリはユーザー割り当てにのみ使用できません。
- Port
-
The port number that the Slurm compute node daemon, slurmd, listens
to for work on this particular node.
Slurm計算ノードデーモンslurmdがこの特定のノードでの作業をリッスンするポート番号。
By default there is a single port number for all slurmd daemons on all compute nodes as defined by the SlurmdPort configuration parameter.
デフォルトでは、SlurmdPort構成パラメーターで定義されているように、すべての計算ノード上のすべてのslurmdデーモンに単一のポート番号があります。
Use of this option is not generally recommended except for development or testing purposes.
このオプションの使用は、開発またはテストの目的を除いて、一般的には推奨されません。
If multiple slurmd daemons execute on a node this can specify a range of ports.
ノードで複数のslurmdデーモンが実行される場合、これはポートの範囲を指定できます。
Note: On Cray systems, Realm-Specific IP Addressing (RSIP) will automatically try to interact with anything opened on ports 8192-60000.
注:Crayシステムでは、レルム固有のIPアドレッシング(RSIP)は、ポート8192〜60000で開いているものと自動的に対話しようとします。
Configure Port to use a port outside of the configured SrunPortRange and RSIP's port range.
構成されたSrunPortRangeおよびRSIPのポート範囲外のポートを使用するようにポートを構成します。
- Procs
-
See CPUs.
CPUを参照してください。
- RealMemory
-
Size of real memory on the node in megabytes (e.g. "2048").
メガバイト単位のノード上の実メモリーのサイズ(例えば、「2048」)。
The default value is 1.
デフォルト値は1です。
Lowering RealMemory with the goal of setting aside some amount for the OS and not available for job allocations will not work as intended if Memory is not set as a consumable resource in SelectTypeParameters.
SelectTypeParametersでメモリが消費可能なリソースとして設定されていない場合、OSにある程度の量を確保し、ジョブの割り当てに使用できないようにする目的でRealMemoryを下げると、意図したとおりに機能しません。
So one of the *_Memory options need to be enabled for that goal to be accomplished.
したがって、その目標を達成するには、* _ Memoryオプションの1つを有効にする必要があります。
Also see MemSpecLimit.
MemSpecLimitも参照してください。
- Reason
-
Identifies the reason for a node being in state "DOWN", "DRAINED"
"DRAINING", "FAIL" or "FAILING".
ノードが「DOWN」、「DRAINED」、「DRAINING」、「FAIL」、または「FAILING」の状態になっている理由を示します。
Use quotes to enclose a reason having more than one word.
引用符を使用して、複数の単語がある理由を囲みます。
- Sockets
-
Number of physical processor sockets/chips on the node (e.g. "2").
ノード上の物理プロセッサソケット/チップの数(例: "2")。
If Sockets is omitted, it will be inferred from CPUs, CoresPerSocket, and ThreadsPerCore.
Socketsを省略すると、CPU、CoresPerSocket、およびThreadsPerCoreから推測されます。
NOTE: If you have multi-core processors, you will likely need to specify these parameters.
注:マルチコアプロセッサを使用している場合は、これらのパラメータを指定する必要があります。
Sockets and SocketsPerBoard are mutually exclusive.
SocketsとSocketsPerBoardは相互に排他的です。
If Sockets is specified when Boards is also used, Sockets is interpreted as SocketsPerBoard rather than total sockets.
ボードも使用されているときにSocketsが指定されている場合、Socketsは合計ソケットではなくSocketsPerBoardとして解釈されます。
The default value is 1.
デフォルト値は1です。
- SocketsPerBoard
-
Number of physical processor sockets/chips on a baseboard.
ベースボード上の物理プロセッサソケット/チップの数。
Sockets and SocketsPerBoard are mutually exclusive.
SocketsとSocketsPerBoardは相互に排他的です。
The default value is 1.
デフォルト値は1です。
- State
-
State of the node with respect to the initiation of user jobs.
ユーザージョブの開始に関するノードの状態。
Acceptable values are "CLOUD", "DOWN", "DRAIN", "FAIL", "FAILING", "FUTURE" and "UNKNOWN".
許容値は、「CLOUD」、「DOWN」、「DRAIN」、「FAIL」、「FAILING」、「FUTURE」、「UNKNOWN」です。
Node states of "BUSY" and "IDLE" should not be specified in the node configuration, but set the node state to "UNKNOWN" instead.
「BUSY」および「IDLE」のノード状態はノード構成で指定しないでください。代わりにノード状態を「UNKNOWN」に設定してください。
Setting the node state to "UNKNOWN" will result in the node state being set to "BUSY", "IDLE" or other appropriate state based upon recovered system state information.
ノードの状態を「不明」に設定すると、ノードの状態が「ビジー」、「アイドル」、または回復されたシステム状態情報に基づいて他の適切な状態に設定されます。
The default value is "UNKNOWN".
デフォルト値は "UNKNOWN"です。
Also see the DownNodes parameter below.
以下のDownNodesパラメータも参照してください。
-
- CLOUD
-
Indicates the node exists in the cloud.
ノードがクラウドに存在することを示します。
Its initial state will be treated as powered down.
その初期状態はパワーダウンとして扱われます。
The node will be available for use after its state is recovered from Slurm's state save file or the slurmd daemon starts on the compute node.
ノードは、Slurmの状態保存ファイルから状態が回復した後、または計算ノードでslurmdデーモンが起動した後に使用できるようになります。
- DOWN
-
Indicates the node failed and is unavailable to be allocated work.
ノードに障害が発生し、作業を割り当てることができないことを示します。
- DRAIN
-
Indicates the node is unavailable to be allocated work.on.
ノードを作業に割り当てることができないことを示します。
- FAIL
-
Indicates the node is expected to fail soon, has
no jobs allocated to it, and will not be allocated
to any new jobs.
ノードがすぐに失敗することが予想され、ジョブが割り当てられておらず、新しいジョブに割り当てられないことを示します。
- FAILING
-
Indicates the node is expected to fail soon, has
one or more jobs allocated to it, but will not be allocated
to any new jobs.
ノードがすぐに失敗することが予想され、1つ以上のジョブが割り当てられているが、新しいジョブには割り当てられないことを示します。
- FUTURE
-
Indicates the node is defined for future use and need not
exist when the Slurm daemons are started.
ノードが将来の使用のために定義され、Slurmデーモンの開始時に存在する必要がないことを示します。
These nodes can be made available for use simply by updating the node state using the scontrol command rather than restarting the slurmctld daemon.
これらのノードは、slurmctldデーモンを再起動するのではなく、scontrolコマンドを使用してノードの状態を更新するだけで使用できるようになります。
After these nodes are made available, change their State in the slurm.conf file.
これらのノードが使用可能になった後、slurm.confファイルでそれらの状態を変更します。
Until these nodes are made available, they will not be seen using any Slurm commands or nor will any attempt be made to contact them.
これらのノードが使用可能になるまで、それらはSlurmコマンドを使用して表示されず、それらへの接続も試行されません。
- UNKNOWN
-
Indicates the node's state is undefined (BUSY or IDLE),
but will be established when the slurmd daemon on that node
registers.
ノードの状態が未定義(BUSYまたはIDLE)であるが、そのノードのslurmdデーモンが登録されるときに確立されることを示します。
The default value is "UNKNOWN".
デフォルト値は "UNKNOWN"です。
-
- ThreadsPerCore
-
Number of logical threads in a single physical core (e.g. "2").
単一の物理コア内の論理スレッドの数(「2」など)。
Note that the Slurm can allocate resources to jobs down to the resolution of a core.
Slurmはコアの解像度までジョブにリソースを割り当てることができることに注意してください。
If your system is configured with more than one thread per core, execution of a different job on each thread is not supported unless you configure SelectTypeParameters=CR_CPU plus CPUs; do not configure Sockets, CoresPerSocket or ThreadsPerCore.
システムがコアごとに複数のスレッドで構成されている場合、SelectTypeParameters = CR_CPU plus CPUsを構成しない限り、各スレッドでの異なるジョブの実行はサポートされません。Sockets、CoresPerSocket、またはThreadsPerCoreを構成しないでください。
A job can execute a one task per thread from within one job step or execute a distinct job step on each of the threads.
ジョブは、1つのジョブステップ内からスレッドごとに1つのタスクを実行するか、各スレッドで個別のジョブステップを実行できます。
Note also if you are running with more than 1 thread per core and running the select/cons_res or select/cons_tres plugin then you will want to set the SelectTypeParameters variable to something other than CR_CPU to avoid unexpected results.
また、コアあたり複数のスレッドで実行していて、select / cons_resまたはselect / cons_tresプラグインを実行している場合は、予期しない結果を避けるために、SelectTypeParameters変数をCR_CPU以外に設定することをお勧めします。
The default value is 1.
デフォルト値は1です。
- TmpDisk
-
Total size of temporary disk storage in TmpFS in megabytes
(e.g. "16384").
メガバイト単位のTmpFSの一時ディスクストレージの合計サイズ(「16384」など)。
TmpFS (for "Temporary File System") identifies the location which jobs should use for temporary storage.
TmpFS(「一時ファイルシステム」)は、ジョブが一時ストレージに使用する場所を識別します。
Note this does not indicate the amount of free space available to the user on the node, only the total file system size.
これは、ノード上のユーザーが使用できる空き容量ではなく、ファイルシステムの合計サイズのみを示すことに注意してください。
The system administration should ensure this file system is purged as needed so that user jobs have access to most of this space.
システム管理者は、ユーザージョブがこのスペースのほとんどにアクセスできるように、このファイルシステムが必要に応じて削除されるようにする必要があります。
The Prolog and/or Epilog programs (specified in the configuration file) might be used to ensure the file system is kept clean.
Prologおよび/またはEpilogプログラム(構成ファイルで指定)を使用して、ファイルシステムをクリーンに保つことができます。
The default value is 0.
デフォルト値は0です。
- TRESWeights
-
TRESWeights are used to calculate a value that represents how
busy a node is.
TRESWeightsは、ノードのビジー度を表す値を計算するために使用されます。
Currently only used in federation configurations.
現在、フェデレーション構成でのみ使用されています。
TRESWeights are different from TRESBillingWeights -- which is used for fairshare calculations.
TRESWeightsは、フェアシェアの計算に使用されるTRESBillingWeightsとは異なります。
TRES weights are specified as a comma-separated list of <TRES Type>=<TRES Weight> pairs.
TRESの重みは、<TRES Type> = <TRES Weight>のペアのコンマ区切りのリストとして指定されます。
e.g. NodeName=node1 ... TRESWeights="CPU=1.0,Mem=0.25G,GRES/gpu=2.0"
By default the weighted TRES value is calculated as the sum of all node TRES types multiplied by their corresponding TRES weight.
デフォルトでは、加重TRES値は、すべてのノードTRESタイプの合計に対応するTRES加重を掛けたものとして計算されます。
If PriorityFlags=MAX_TRES is configured, the weighted TRES value is calculated as the MAX of individual node TRES' (e.g. cpus, mem, gres).
PriorityFlags = MAX_TRESが構成されている場合、重み付けされたTRES値は、個々のノードTRESのMAXとして計算されます(例:cpus、mem、gres)。
- Weight
-
The priority of the node for scheduling purposes.
スケジューリングのためのノードの優先度。
All things being equal, jobs will be allocated the nodes with the lowest weight which satisfies their requirements.
すべてが等しい場合、ジョブには、要件を満たす最小の重みを持つノードが割り当てられます。
For example, a heterogeneous collection of nodes might be placed into a single partition for greater system utilization, responsiveness and capability.
たとえば、異機種混在のノードのコレクションを単一のパーティションに配置して、システムの使用率、応答性、機能を向上させることができます。
It would be preferable to allocate smaller memory nodes rather than larger memory nodes if either will satisfy a job's requirements.
どちらかがジョブの要件を満たす場合は、大きなメモリノードではなく、小さなメモリノードを割り当てることをお勧めします。
The units of weight are arbitrary, but larger weights should be assigned to nodes with more processors, memory, disk space, higher processor speed, etc.
重みの単位は任意ですが、より大きな重みは、より多くのプロセッサ、メモリ、ディスク容量、より高いプロセッサ速度などを持つノードに割り当てる必要があります。
Note that if a job allocation request can not be satisfied using the nodes with the lowest weight, the set of nodes with the next lowest weight is added to the set of nodes under consideration for use (repeat as needed for higher weight values).
最小の重みを持つノードを使用してジョブ割り当て要求を満たせない場合は、次に低い重みを持つノードのセットが、使用を検討しているノードのセットに追加されます(高い重み値に対して必要に応じて繰り返します)。
If you absolutely want to minimize the number of higher weight nodes allocated to a job (at a cost of higher scheduling overhead), give each node a distinct Weight value and they will be added to the pool of nodes being considered for scheduling individually.
ジョブに割り当てられる重みの高いノードの数を最小限にしたい場合は(スケジューリングのオーバーヘッドが高くなります)、各ノードに個別の重みの値を指定すると、それらは個別にスケジューリングの対象となるノードのプールに追加されます。
The default value is 1.
デフォルト値は1です。
The "DownNodes=" configuration permits you to mark certain nodes as in a
DOWN, DRAIN, FAIL, or FAILING state without altering the permanent
configuration information listed under a "NodeName=" specification.
"DownNodes ="構成では、 "NodeName ="仕様の下にリストされている永続的な構成情報を変更せずに、特定のノードをDOWN、DRAIN、FAIL、またはFAILING状態としてマークできます。
- DownNodes
-
Any node name, or list of node names, from the "NodeName=" specifications.
「NodeName =」仕様の任意のノード名、またはノード名のリスト。
- Reason
-
Identifies the reason for a node being in state "DOWN", "DRAIN",
"FAIL" or "FAILING.
ノードが「DOWN」、「DRAIN」、「FAIL」、または「FAILING」の状態になっている理由を示します。
Use quotes to enclose a reason having more than one word.
引用符を使用して、複数の単語がある理由を囲みます。
- State
-
State of the node with respect to the initiation of user jobs.
ユーザージョブの開始に関するノードの状態。
Acceptable values are "DOWN", "DRAIN", "FAIL", "FAILING" and "UNKNOWN".
許容値は、「DOWN」、「DRAIN」、「FAIL」、「FAILING」、および「UNKNOWN」です。
Node states of "BUSY" and "IDLE" should not be specified in the node configuration, but set the node state to "UNKNOWN" instead.
「BUSY」および「IDLE」のノード状態はノード構成で指定しないでください。代わりにノード状態を「UNKNOWN」に設定してください。
Setting the node state to "UNKNOWN" will result in the node state being set to "BUSY", "IDLE" or other appropriate state based upon recovered system state information.
ノードの状態を「不明」に設定すると、ノードの状態が「ビジー」、「アイドル」、または回復されたシステム状態情報に基づいて他の適切な状態に設定されます。
The default value is "UNKNOWN".
デフォルト値は "UNKNOWN"です。
-
- DOWN
-
Indicates the node failed and is unavailable to be allocated work.
ノードに障害が発生し、作業を割り当てることができないことを示します。
- DRAIN
-
Indicates the node is unavailable to be allocated work.on.
ノードを作業に割り当てることができないことを示します。
- FAIL
-
Indicates the node is expected to fail soon, has
no jobs allocated to it, and will not be allocated
to any new jobs.
ノードがすぐに失敗することが予想され、ジョブが割り当てられておらず、新しいジョブに割り当てられないことを示します。
- FAILING
-
Indicates the node is expected to fail soon, has
one or more jobs allocated to it, but will not be allocated
to any new jobs.
ノードがすぐに失敗することが予想され、1つ以上のジョブが割り当てられているが、新しいジョブには割り当てられないことを示します。
- UNKNOWN
-
Indicates the node's state is undefined (BUSY or IDLE),
but will be established when the slurmd daemon on that node
registers.
ノードの状態が未定義(BUSYまたはIDLE)であるが、そのノードのslurmdデーモンが登録されるときに確立されることを示します。
The default value is "UNKNOWN".
デフォルト値は "UNKNOWN"です。
-
On computers where frontend nodes are used to execute batch scripts
rather than compute nodes (Cray ALPS systems), one may configure one or more
frontend nodes using the configuration parameters defined below.
計算ノード(Cray ALPSシステム)ではなく、フロントエンドノードを使用してバッチスクリプトを実行するコンピューターでは、以下で定義する構成パラメーターを使用して1つ以上のフロントエンドノードを構成できます。
These options
are very similar to those used in configuring compute nodes.
これらのオプションは、計算ノードの構成で使用されるものと非常によく似ています。
These options may
only be used on systems configured and built with the appropriate parameters
(--have-front-end) or a system determined to have the appropriate
architecture by the configure script (Cray ALPS systems).
これらのオプションは、適切なパラメーターで構成および構築されたシステム(--have-front-end)、または構成スクリプトによって適切なアーキテクチャーを持つと判断されたシステム(Cray ALPSシステム)でのみ使用できます。
The front end configuration specifies the following information:
フロントエンド構成では、次の情報を指定します。
- AllowGroups
-
Comma separated list of group names which may execute jobs on this front end
node.
このフロントエンドノードでジョブを実行できるグループ名のカンマ区切りリスト。
By default, all groups may use this front end node.
デフォルトでは、すべてのグループがこのフロントエンドノードを使用できます。
If at least one group associated with the user attempting to execute the job is in AllowGroups, he will be permitted to use this front end node.
ジョブを実行しようとしているユーザーに関連付けられている少なくとも1つのグループがAllowGroupsにある場合、このフロントエンドノードの使用が許可されます。
May not be used with the DenyGroups option.
DenyGroupsオプションと一緒に使用することはできません。
- AllowUsers
-
Comma separated list of user names which may execute jobs on this front end
node. By default, all users may use this front end node.
このフロントエンドノードでジョブを実行できるユーザー名のカンマ区切りリスト。既定では、すべてのユーザーがこのフロントエンドノードを使用できます。
May not be used with the DenyUsers option.
DenyUsersオプションと一緒に使用することはできません。
- DenyGroups
-
Comma separated list of group names which are prevented from executing jobs on
this front end node.
このフロントエンドノードでジョブを実行できないようにするグループ名のカンマ区切りリスト。
May not be used with the AllowGroups option.
AllowGroupsオプションと一緒に使用することはできません。
- DenyUsers
-
Comma separated list of user names which are prevented from executing jobs on
this front end node.
このフロントエンドノードでジョブを実行できないようにするユーザー名のカンマ区切りリスト。
May not be used with the AllowUsers option.
AllowUsersオプションと一緒に使用することはできません。
- FrontendName
-
Name that Slurm uses to refer to a frontend node.
Slurmがフロントエンドノードを参照するために使用する名前。
Typically this would be the string that "/bin/hostname -s" returns.
通常、これは "/ bin / hostname -s"が返す文字列です。
It may also be the fully qualified domain name as returned by "/bin/hostname -f" (e.g. "foo1.bar.com"), or any valid domain name associated with the host through the host database (/etc/hosts) or DNS, depending on the resolver settings.
また、 "/ bin / hostname -f"によって返される完全修飾ドメイン名(例: "foo1.bar.com")、またはホストデータベース(/ etc / hosts)を介してホストに関連付けられた有効なドメイン名のいずれかです。またはリゾルバーの設定に応じてDNS。
Note that if the short form of the hostname is not used, it may prevent use of hostlist expressions (the numeric portion in brackets must be at the end of the string).
ホスト名の短い形式が使用されていない場合、ホストリスト式の使用が妨げられる可能性があることに注意してください(括弧内の数値部分は文字列の最後にある必要があります)。
If the FrontendName is "DEFAULT", the values specified with that record will apply to subsequent node specifications unless explicitly set to other values in that frontend node record or replaced with a different set of default values.
FrontendNameが「DEFAULT」の場合、そのレコードで指定された値は、そのフロントエンドノードレコードの他の値に明示的に設定されていないか、別のデフォルト値のセットで置き換えられない限り、後続のノード仕様に適用されます。
Each line where FrontendName is "DEFAULT" will replace or add to previous default values and not a reinitialize the default values.
FrontendNameが "DEFAULT"である各行は、以前のデフォルト値を置換または追加しますが、デフォルト値を再初期化しません。
Note that since the naming of front end nodes would typically not follow that of the compute nodes (e.g. lacking X, Y and Z coordinates found in the compute node naming scheme), each front end node name should be listed separately and without a hostlist expression (i.e. frontend00,frontend01" rather than "frontend[00-01]").
フロントエンドノードの名前は通常、計算ノードの名前に従っていないため(たとえば、計算ノードの名前付けスキームにあるX、Y、Z座標がないため)、各フロントエンドノード名はホストリスト式なしで個別にリストする必要があります。 (つまり、「frontend [00-01]」ではなく、frontend00、frontend01」)。
- FrontendAddr
-
Name that a frontend node should be referred to in establishing
a communications path.
通信パスを確立するときにフロントエンドノードを参照する必要がある名前。
This name will be used as an argument to the gethostbyname() function for identification.
この名前は、識別のためにgethostbyname()関数の引数として使用されます。
As with FrontendName, list the individual node addresses rather than using a hostlist expression.
FrontendNameと同様に、hostlist式を使用するのではなく、個々のノードアドレスをリストします。
The number of FrontendAddr records per line must equal the number of FrontendName records per line (i.e. you can't map to node names to one address).
1行あたりのFrontendAddrレコードの数は、1行あたりのFrontendNameレコードの数と同じである必要があります(つまり、1つのアドレスにノード名をマッピングすることはできません)。
FrontendAddr may also contain IP addresses.
FrontendAddrにはIPアドレスが含まれる場合もあります。
By default, the FrontendAddr will be identical in value to FrontendName.
デフォルトでは、FrontendAddrの値はFrontendNameと同じになります。
- Port
-
The port number that the Slurm compute node daemon, slurmd, listens
to for work on this particular frontend node.
Slurm計算ノードデーモンslurmdがこの特定のフロントエンドノードでの作業をリッスンするポート番号。
By default there is a single port number for all slurmd daemons on all frontend nodes as defined by the SlurmdPort configuration parameter.
デフォルトでは、SlurmdPort構成パラメーターで定義されているように、すべてのフロントエンドノード上のすべてのslurmdデーモンに単一のポート番号があります。
Use of this option is not generally recommended except for development or testing purposes.
このオプションの使用は、開発またはテストの目的を除いて、一般的には推奨されません。
Note: On Cray systems, Realm-Specific IP Addressing (RSIP) will automatically try to interact with anything opened on ports 8192-60000.
注:Crayシステムでは、レルム固有のIPアドレッシング(RSIP)は、ポート8192〜60000で開いているものと自動的に対話しようとします。
Configure Port to use a port outside of the configured SrunPortRange and RSIP's port range.
構成されたSrunPortRangeおよびRSIPのポート範囲外のポートを使用するようにポートを構成します。
- Reason
-
Identifies the reason for a frontend node being in state "DOWN", "DRAINED"
"DRAINING", "FAIL" or "FAILING".
フロントエンドノードが「DOWN」、「DRAINED」、「DRAINING」、「FAIL」、または「FAILING」の状態になっている理由を示します。
Use quotes to enclose a reason having more than one word.
引用符を使用して、複数の単語がある理由を囲みます。
- State
-
State of the frontend node with respect to the initiation of user jobs.
ユーザージョブの開始に関するフロントエンドノードの状態。
Acceptable values are "DOWN", "DRAIN", "FAIL", "FAILING" and "UNKNOWN".
許容値は、「DOWN」、「DRAIN」、「FAIL」、「FAILING」、および「UNKNOWN」です。
"DOWN" indicates the frontend node has failed and is unavailable to be allocated work.
「DOWN」は、フロントエンドノードに障害が発生し、作業を割り当てることができないことを示します。
"DRAIN" indicates the frontend node is unavailable to be allocated work.
「DRAIN」は、フロントエンドノードに割り当てられた作業を使用できないことを示します。
"FAIL" indicates the frontend node is expected to fail soon, has no jobs allocated to it, and will not be allocated to any new jobs.
"FAIL"は、フロントエンドノードがすぐに失敗することが予想され、ジョブが割り当てられておらず、新しいジョブに割り当てられないことを示します。
"FAILING" indicates the frontend node is expected to fail soon, has one or more jobs allocated to it, but will not be allocated to any new jobs.
「FAILING」は、フロントエンドノードがすぐに失敗することが予想され、1つ以上のジョブが割り当てられているが、新しいジョブには割り当てられないことを示します。
"UNKNOWN" indicates the frontend node's state is undefined (BUSY or IDLE), but will be established when the slurmd daemon on that node registers.
"UNKNOWN"は、フロントエンドノードの状態が未定義(BUSYまたはIDLE)であることを示しますが、そのノードのslurmdデーモンが登録されると確立されます。
The default value is "UNKNOWN".
デフォルト値は "UNKNOWN"です。
Also see the DownNodes parameter above.
上記のDownNodesパラメータも参照してください。
For example: "FrontendName=frontend[00-03] FrontendAddr=efrontend[00-03] State=UNKNOWN" is used to define four front end nodes for running slurmd daemons.
例:「FrontendName = frontend [00-03] FrontendAddr = efrontend [00-03] State = UNKNOWN」は、slurmdデーモンを実行するための4つのフロントエンドノードを定義するために使用されます。
The nodeset configuration allows you to define a name for a specific set of
nodes which can be used to simplify the partition configuration section,
especially for heterogenous or condo-style systems.
ノードセット構成を使用すると、パーティション構成セクションを簡略化するために使用できる特定のノードセットの名前を定義できます。これは、特に異種システムまたはコンドスタイルシステムの場合に役立ちます。
Each nodeset may be defined
by an explicit list of nodes, and/or by filtering the nodes by a particular
configured feature.
各ノードセットは、ノードの明示的なリストによって、または特定の構成済み機能によってノードをフィルタリングすることによって定義できます。
If both Feature= and Nodes= are used the
nodeset shall be the union of the two subsets.
Feature =とNodes =の両方を使用する場合、ノードセットは2つのサブセットの和集合になります。
Note that the nodesets are only used to simplify the partition definitions
at present, and are not usable outside of the partition configuration.
ノードセットは現在のところパーティション定義を単純化するためにのみ使用され、パーティション構成の外では使用できないことに注意してください。
- Feature
-
All nodes with this single feature will be included as part of this nodeset.
この単一の機能を持つすべてのノードは、このノードセットの一部として含まれます。
- Nodes
-
List of nodes in this set.
このセットのノードのリスト。
- NodeSet
-
Unique name for a set of nodes. Must not overlap with any NodeName definitions.
ノードのセットの一意の名前。NodeName定義と重複してはなりません。
The partition configuration permits you to establish different job
limits or access controls for various groups (or partitions) of nodes.
パーティション構成により、ノードのさまざまなグループ(またはパーティション)に対して異なるジョブ制限またはアクセス制御を確立できます。
Nodes may be in more than one partition, making partitions serve
as general purpose queues.
ノードは複数のパーティションに存在し、パーティションを汎用キューとして機能させることができます。
For example one may put the same set of nodes into two different
partitions, each with different constraints (time limit, job sizes,
groups allowed to use the partition, etc.).
たとえば、同じノードのセットを2つの異なるパーティションに配置し、それぞれに異なる制約(時間制限、ジョブサイズ、パーティションの使用を許可するグループなど)を設定できます。
Jobs are allocated resources within a single partition.
ジョブには、単一のパーティション内のリソースが割り当てられます。
Default values can be specified with a record in which
PartitionName is "DEFAULT".
デフォルト値は、PartitionNameが「DEFAULT」であるレコードで指定できます。
The default entry values will apply only to lines following it in the
configuration file and the default values can be reset multiple times
in the configuration file with multiple entries where "PartitionName=DEFAULT".
デフォルトのエントリー値は、構成ファイル内の次の行にのみ適用され、デフォルト値は、「PartitionName = DEFAULT」の複数のエントリーを持つ構成ファイルで複数回リセットできます。
The "PartitionName=" specification must be placed on every line
describing the configuration of partitions.
「PartitionName =」の指定は、パーティションの構成を説明するすべての行に配置する必要があります。
Each line where PartitionName is "DEFAULT" will replace or add to previous
default values and not a reinitialize the default values.
PartitionNameが "DEFAULT"である各行は、デフォルト値を再初期化するのではなく、以前のデフォルト値を置換または追加します。
A single partition name can not appear as a PartitionName value in more than
one line (duplicate partition name records will be ignored).
1つのパーティション名を複数行のPartitionName値として表示することはできません(重複するパーティション名レコードは無視されます)。
If a partition that is in use is deleted from the configuration and slurm
is restarted or reconfigured (scontrol reconfigure), jobs using the partition
are canceled.
使用中のパーティションが構成から削除され、slurmが再起動または再構成された場合(scontrol reconfigure)、そのパーティションを使用しているジョブはキャンセルされます。
NOTE: Put all parameters for each partition on a single line.
注:各パーティションのすべてのパラメータを1行で入力してください。
Each line of partition configuration information should
represent a different partition.
パーティション構成情報の各行は、異なるパーティションを表す必要があります。
The partition configuration file contains the following information:
パーティション構成ファイルには、次の情報が含まれています。
- AllocNodes
-
Comma separated list of nodes from which users can submit jobs in the
partition.
ユーザーがパーティション内のジョブを送信できるノードのカンマ区切りリスト。
Node names may be specified using the node range expression syntax described above.
ノード名は、上記のノード範囲式構文を使用して指定できます。
The default value is "ALL".
デフォルト値は「ALL」です。
- AllowAccounts
-
Comma separated list of accounts which may execute jobs in the partition.
パーティションでジョブを実行できるアカウントのカンマ区切りリスト。
The default value is "ALL".
デフォルト値は「ALL」です。
NOTE: If AllowAccounts is used then DenyAccounts will not be enforced.
注:AllowAccountsが使用されている場合、DenyAccountsは適用されません。
Also refer to DenyAccounts.
DenyAccountsも参照してください。
- AllowGroups
-
Comma separated list of group names which may execute jobs in the partition.
パーティションでジョブを実行できるグループ名のカンマ区切りリスト。
If at least one group associated with the user attempting to execute the job is in AllowGroups, he will be permitted to use this partition.
ジョブを実行しようとしているユーザーに関連付けられた少なくとも1つのグループがAllowGroupsにある場合、そのユーザーはこのパーティションの使用を許可されます。
Jobs executed as user root can use any partition without regard to the value of AllowGroups.
ユーザーrootとして実行されるジョブは、AllowGroupsの値に関係なく、任意のパーティションを使用できます。
If user root attempts to execute a job as another user (e.g. using srun's --uid option), this other user must be in one of groups identified by AllowGroups for the job to successfully execute.
ユーザーrootが別のユーザーとしてジョブを実行しようとする場合(たとえば、srunの--uidオプションを使用)、ジョブを正常に実行するには、この他のユーザーがAllowGroupsによって識別されるグループの1つに属している必要があります。
The default value is "ALL".
デフォルト値は「ALL」です。
When set, all partitions that a user does not have access will be hidden from display regardless of the settings used for PrivateData.
設定すると、PrivateDataで使用される設定に関係なく、ユーザーがアクセスできないすべてのパーティションが非表示になります。
NOTE: For performance reasons, Slurm maintains a list of user IDs allowed to use each partition and this is checked at job submission time.
注:パフォーマンス上の理由から、Slurmは各パーティションの使用を許可されたユーザーIDのリストを保持し、これはジョブの送信時にチェックされます。
This list of user IDs is updated when the slurmctld daemon is restarted, reconfigured (e.g. "scontrol reconfig") or the partition's AllowGroups value is reset, even if is value is unchanged (e.g. "scontrol update PartitionName=name AllowGroups=group").
このユーザーIDのリストは、slurmctldデーモンが再起動、再構成(たとえば、「scontrol reconfig」)されるか、値が変更されていなくても(たとえば、「scontrol update PartitionName = name AllowGroups = group」)、パーティションのAllowGroups値がリセットされるときに更新されます
For a user's access to a partition to change, both his group membership must change and Slurm's internal user ID list must change using one of the methods described above.
ユーザーのパーティションへのアクセスを変更するには、グループメンバーシップを変更する必要があり、Slurmの内部ユーザーIDリストを上記のいずれかの方法を使用して変更する必要があります。
- AllowQos
-
Comma separated list of Qos which may execute jobs in the partition.
パーティションでジョブを実行する可能性があるQoSのカンマ区切りリスト。
Jobs executed as user root can use any partition without regard to the value of AllowQos.
ユーザーrootとして実行されるジョブは、AllowQosの値に関係なく、任意のパーティションを使用できます。
The default value is "ALL".
デフォルト値は「ALL」です。
NOTE: If AllowQos is used then DenyQos will not be enforced.
注:AllowQosが使用されている場合、DenyQosは適用されません。
Also refer to DenyQos.
DenyQosも参照してください。
- Alternate
-
Partition name of alternate partition to be used if the state of this partition
is "DRAIN" or "INACTIVE."
このパーティションの状態が「DRAIN」または「INACTIVE」の場合に使用される代替パーティションのパーティション名。
- CpuBind
-
If a job step request does not specify an option to control how tasks are bound
to allocated CPUs (--cpu-bind) and all nodes allocated to the job do not have
the same CpuBind option the node.
ジョブステップ要求で、割り当てられたCPUにタスクをバインドする方法を制御するオプション(--cpu-bind)が指定されておらず、ジョブに割り当てられたすべてのノードに同じCpuBindオプションがない場合。
Then the partition's CpuBind option will control how tasks are bound to allocated resources.
次に、パーティションのCpuBindオプションは、タスクが割り当てられたリソースにバインドされる方法を制御します。
Supported values forCpuBind are "none", "board", "socket", "ldom" (NUMA), "core" and "thread".
CpuBindでサポートされている値は、「none」、「board」、「socket」、「ldom」(NUMA)、「core」、「thread」です。
- Default
-
If this keyword is set, jobs submitted without a partition
specification will utilize this partition.
このキーワードが設定されている場合、パーティション指定なしで送信されたジョブはこのパーティションを利用します。
Possible values are "YES" and "NO".
可能な値は「YES」と「NO」です。
The default value is "NO".
デフォルト値は「NO」です。
- DefCpuPerGPU
-
Default count of CPUs allocated per allocated GPU.
割り当てられたGPUごとに割り当てられたCPUのデフォルト数。
- DefMemPerCPU
-
Default real memory size available per allocated CPU in megabytes.
割り当てられたCPUごとに使用可能なデフォルトの実メモリサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
DefMemPerCPU would generally be used if individual processors are allocated to jobs (SelectType=select/cons_res or SelectType=select/cons_tres).
DefMemPerCPUは通常、個々のプロセッサがジョブに割り当てられている場合に使用されます(SelectType = select / cons_resまたはSelectType = select / cons_tres)。
If not set, the DefMemPerCPU value for the entire cluster will be used.
設定しない場合、クラスター全体のDefMemPerCPU値が使用されます。
Also see DefMemPerGPU, DefMemPerNode and MaxMemPerCPU.
DefMemPerGPU、DefMemPerNode、MaxMemPerCPUもご覧ください。
DefMemPerCPU, DefMemPerGPU and DefMemPerNode are mutually exclusive.
DefMemPerCPU、DefMemPerGPU、およびDefMemPerNodeは相互に排他的です。
- DefMemPerGPU
-
Default real memory size available per allocated GPU in megabytes.
割り当てられたGPUごとに使用可能なデフォルトの実メモリサイズ(メガバイト単位)。
Also see DefMemPerCPU, DefMemPerNode and MaxMemPerCPU.
DefMemPerCPU、DefMemPerNode、MaxMemPerCPUもご覧ください。
DefMemPerCPU, DefMemPerGPU and DefMemPerNode are mutually exclusive.
DefMemPerCPU、DefMemPerGPU、およびDefMemPerNodeは相互に排他的です。
- DefMemPerNode
-
Default real memory size available per allocated node in megabytes.
割り当てられたノードごとに使用可能なデフォルトの実メモリサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
DefMemPerNode would generally be used if whole nodes are allocated to jobs (SelectType=select/linear) and resources are over-subscribed (OverSubscribe=yes or OverSubscribe=force).
ノード全体がジョブに割り当てられ(SelectType = select / linear)、リソースがオーバーサブスクライブされている場合(OverSubscribe = yesまたはOverSubscribe = force)、DefMemPerNodeが一般的に使用されます。
If not set, the DefMemPerNode value for the entire cluster will be used.
設定しない場合、クラスター全体のDefMemPerNode値が使用されます。
Also see DefMemPerCPU, DefMemPerGPU and MaxMemPerCPU.
DefMemPerCPU、DefMemPerGPU、MaxMemPerCPUもご覧ください。
DefMemPerCPU, DefMemPerGPU and DefMemPerNode are mutually exclusive.
DefMemPerCPU、DefMemPerGPU、およびDefMemPerNodeは相互に排他的です。
- DenyAccounts
-
Comma separated list of accounts which may not execute jobs in the partition.
パーティションでジョブを実行できない可能性のあるアカウントのカンマ区切りリスト。
By default, no accounts are denied access NOTE: If AllowAccounts is used then DenyAccounts will not be enforced.
デフォルトでは、アクセスを拒否されるアカウントはありません。注:AllowAccountsが使用されている場合、DenyAccountsは適用されません。
Also refer to AllowAccounts.
AllowAccountsも参照してください。
- DenyQos
-
Comma separated list of Qos which may not execute jobs in the partition.
パーティションでジョブを実行しない可能性があるQoSのカンマ区切りリスト。
By default, no QOS are denied access NOTE: If AllowQos is used then DenyQos will not be enforced.
デフォルトでは、QOSはアクセスを拒否されません。注:AllowQosが使用されている場合、DenyQosは適用されません。
Also refer AllowQos. - DefaultTime
-
Run time limit used for jobs that don't specify a value.
値を指定しないジョブに使用される実行時間制限。
If not set then MaxTime will be used.
設定しない場合、MaxTimeが使用されます。
Format is the same as for MaxTime.
形式はMaxTimeと同じです。
- DisableRootJobs
-
If set to "YES" then user root will be prevented from running any jobs
on this partition.
「YES」に設定すると、ユーザーrootはこのパーティションでジョブを実行できなくなります。
The default value will be the value of DisableRootJobs set outside of a partition specification (which is "NO", allowing user root to execute jobs).
デフォルト値は、パーティション指定の外に設定されたDisableRootJobsの値になります(これは「NO」であり、ユーザーrootがジョブを実行できるようにします)。
- ExclusiveUser
-
If set to "YES" then nodes will be exclusively allocated to users.
「YES」に設定すると、ノードはユーザーに排他的に割り当てられます。
Multiple jobs may be run for the same user, but only one user can be active at a time.
同じユーザーに対して複数のジョブを実行できますが、一度にアクティブにできるユーザーは1人だけです。
This capability is also available on a per-job basis by using the --exclusive=user option.
この機能は、--exclusive = userオプションを使用することにより、ジョブごとにも利用できます。
- GraceTime
-
Specifies, in units of seconds, the preemption grace time
to be extended to a job which has been selected for preemption.
プリエンプション用に選択されたジョブまで延長されるプリエンプション猶予時間を秒単位で指定します。
The default value is zero, no preemption grace time is allowed on this partition.
デフォルト値はゼロで、このパーティションではプリエンプション猶予時間は許可されていません。
Once a job has been selected for preemption, its end time is set to the current time plus GraceTime.
ジョブがプリエンプション用に選択されると、その終了時刻は現在の時刻とGraceTimeを足したものに設定されます。
The job's tasks are immediately sent SIGCONT and SIGTERM signals in order to provide notification of its imminent termination.
差し迫った終了の通知を提供するために、ジョブのタスクにはすぐにSIGCONTおよびSIGTERMシグナルが送信されます。
This is followed by the SIGCONT, SIGTERM and SIGKILL signal sequence upon reaching its new end time.
その後、新しい終了時間に達すると、SIGCONT、SIGTERM、およびSIGKILLシグナルシーケンスが続きます。
This second set of signals is sent to both the tasks and the containing batch script, if applicable.
この2番目の信号セットは、該当する場合、タスクとそれを含むバッチスクリプトの両方に送信されます。
See also the global KillWait configuration parameter.
グローバルなKillWait構成パラメーターも参照してください。
- Hidden
-
Specifies if the partition and its jobs are to be hidden by default.
パーティションとそのジョブをデフォルトで非表示にするかどうかを指定します。
Hidden partitions will by default not be reported by the Slurm APIs or commands.
非表示のパーティションは、デフォルトではSlurm APIまたはコマンドによって報告されません。
Possible values are "YES" and "NO".
可能な値は「YES」と「NO」です。
The default value is "NO".
デフォルト値は「NO」です。
Note that partitions that a user lacks access to by virtue of the AllowGroups parameter will also be hidden by default.
AllowGroupsパラメータによってユーザーがアクセスできないパーティションも、デフォルトで非表示になることに注意してください。
- LLN
-
Schedule resources to jobs on the least loaded nodes (based upon the number
of idle CPUs).
(アイドル状態のCPUの数に基づいて)最も負荷の少ないノードのジョブにリソースをスケジュールします。
This is generally only recommended for an environment with serial jobs as idle resources will tend to be highly fragmented, resulting in parallel jobs being distributed across many nodes.
これは通常、アイドルジョブが非常に断片化される傾向があり、並列ジョブが多くのノードに分散されるため、シリアルジョブのある環境でのみ推奨されます。
Note that node Weight takes precedence over how many idle resources are on each node.
ノードの重みは、各ノードにあるアイドルリソースの数よりも優先されることに注意してください。
Also see the SelectParameters configuration parameter CR_LLN to use the least loaded nodes in every partition.
すべてのパーティションで最も負荷の少ないノードを使用するには、SelectParameters構成パラメータCR_LLNも参照してください。
- MaxCPUsPerNode
-
Maximum number of CPUs on any node available to all jobs from this partition.
このパーティションのすべてのジョブで使用可能な任意のノードのCPUの最大数。
This can be especially useful to schedule GPUs.
これは、GPUのスケジュールに特に役立ちます。
For example a node can be associated with two Slurm partitions (e.g. "cpu" and "gpu") and the partition/queue "cpu" could be limited to only a subset of the node's CPUs, ensuring that one or more CPUs would be available to jobs in the "gpu" partition/queue.
たとえば、ノードを2つのSlurmパーティション(「cpu」と「gpu」など)に関連付けることができ、パーティション/キュー「cpu」をノードのCPUのサブセットのみに制限して、1つ以上のCPUが利用できるようにすることができます。 「gpu」パーティション/キューのジョブに。
- MaxMemPerCPU
-
Maximum real memory size available per allocated CPU in megabytes.>
割り当てられたCPUごとに使用可能な最大実メモリサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
MaxMemPerCPU would generally be used if individual processors are allocated to jobs (SelectType=select/cons_res or SelectType=select/cons_tres).
MaxMemPerCPUは通常、個々のプロセッサがジョブに割り当てられている場合に使用されます(SelectType = select / cons_resまたはSelectType = select / cons_tres)。
If not set, the MaxMemPerCPU value for the entire cluster will be used.
設定しない場合、クラスター全体のMaxMemPerCPU値が使用されます。
Also see DefMemPerCPU and MaxMemPerNode.
DefMemPerCPUおよびMaxMemPerNodeも参照してください。
MaxMemPerCPU and MaxMemPerNode are mutually exclusive.
MaxMemPerCPUとMaxMemPerNodeは相互に排他的です。
- MaxMemPerNode
-
Maximum real memory size available per allocated node in megabytes.
割り当てられたノードごとに使用可能な最大実メモリサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
MaxMemPerNode would generally be used if whole nodes are allocated to jobs (SelectType=select/linear) and resources are over-subscribed (OverSubscribe=yes or OverSubscribe=force).
MaxMemPerNodeは通常、ノード全体がジョブに割り当てられ(SelectType = select / linear)、リソースがオーバーサブスクライブされている(OverSubscribe = yesまたはOverSubscribe = force)場合に使用されます。
If not set, the MaxMemPerNode value for the entire cluster will be used.
設定しない場合、クラスター全体のMaxMemPerNode値が使用されます。
Also see DefMemPerNode and MaxMemPerCPU.
DefMemPerNodeおよびMaxMemPerCPUも参照してください。
MaxMemPerCPU and MaxMemPerNode are mutually exclusive.
MaxMemPerCPUとMaxMemPerNodeは相互に排他的です。
- MaxNodes
-
Maximum count of nodes which may be allocated to any single job.
単一のジョブに割り当てることができるノードの最大数。
The default value is "UNLIMITED", which is represented internally as -1.
デフォルト値は「無制限」で、内部的には-1として表されます。
This limit does not apply to jobs executed by SlurmUser or user root.
この制限は、SlurmUserまたはユーザーrootによって実行されるジョブには適用されません。
- MaxTime
-
Maximum run time limit for jobs.
ジョブの最大実行時間制限。
Format is minutes, minutes:seconds, hours:minutes:seconds, days-hours, days-hours:minutes, days-hours:minutes:seconds or "UNLIMITED".
形式は、分、分:秒、時間:分:秒、日-時間、日-時間:分、日-時間:分:秒、または「無制限」です。
Time resolution is one minute and second values are rounded up to the next minute.
時間分解能は1分で、秒の値は次の分に切り上げられます。
This limit does not apply to jobs executed by SlurmUser or user root.
この制限は、SlurmUserまたはユーザーrootによって実行されるジョブには適用されません。
- MinNodes
-
Minimum count of nodes which may be allocated to any single job.
単一のジョブに割り当てることができるノードの最小数。
The default value is 0.
デフォルト値は0です。
This limit does not apply to jobs executed by SlurmUser or user root.
この制限は、SlurmUserまたはユーザーrootによって実行されるジョブには適用されません。
- Nodes
-
Comma separated list of nodes or nodesets which are associated with this
partition.
このパーティションに関連付けられているノードまたはノードセットのカンマ区切りリスト。
Node names may be specified using the node range expression syntax described above.
ノード名は、上記のノード範囲式構文を使用して指定できます。
A blank list of nodes (i.e. "Nodes= ") can be used if one wants a partition to exist, but have no resources (possibly on a temporary basis).
ノードの空のリスト(つまり、「Nodes =」)は、パーティションを存在させたいがリソースがない(おそらく一時的に)場合に使用できます。
A value of "ALL" is mapped to all nodes configured in the cluster.
「ALL」の値は、クラスターに構成されているすべてのノードにマップされます。
- OverSubscribe
-
Controls the ability of the partition to execute more than one job at a
time on each resource (node, socket or core depending upon the value
of SelectTypeParameters).
各リソース(SelectTypeParametersの値に応じてノード、ソケット、またはコア)で一度に複数のジョブを実行するパーティションの機能を制御します。
If resources are to be over-subscribed, avoiding memory over-subscription is very important.
リソースがオーバーサブスクライブされる場合、メモリのオーバーサブスクライブを回避することが非常に重要です。
SelectTypeParameters should be configured to treat memory as a consumable resource and the --mem option should be used for job allocations.
SelectTypeParametersは、メモリを消費可能なリソースとして扱うように構成する必要があり、ジョブの割り当てには--memオプションを使用する必要があります。
Sharing of resources is typically useful only when using gang scheduling (PreemptMode=suspend,gang).
リソースの共有が通常役立つのは、ギャングスケジューリング(PreemptMode = suspend、gang)を使用する場合のみです。
Possible values for OverSubscribe are "EXCLUSIVE", "FORCE", "YES", and "NO".
OverSubscribeの可能な値は、「EXCLUSIVE」、「FORCE」、「YES」、および「NO」です。
Note that a value of "YES" or "FORCE" can negatively impact performance for systems with many thousands of running jobs.
「YES」または「FORCE」の値は、何千ものジョブが実行されているシステムのパフォーマンスに悪影響を及ぼす可能性があることに注意してください。
The default value is "NO".
デフォルト値は「NO」です。
For more information see the following web pages:
詳細については、次のWebページを参照してください。
cons_res,
cons_res_share,
gang_scheduling, and
preempt.-
- EXCLUSIVE
-
Allocates entire nodes to jobs even with SelectType=select/cons_res or
SelectType=select/cons_tres configured.
SelectType = select / cons_resまたはSelectType = select / cons_tresが構成されている場合でも、ノード全体をジョブに割り当てます。
Jobs that run in partitions with "OverSubscribe=EXCLUSIVE" will have exclusive access to all allocated nodes.
「OverSubscribe = EXCLUSIVE」のパーティションで実行されるジョブは、割り当てられたすべてのノードに排他的にアクセスできます。
- FORCE
-
Makes all resources in the partition available for oversubscription without
any means for users to disable it.
ユーザーがパーティションを無効にする手段なしに、パーティション内のすべてのリソースをオーバーサブスクリプションに使用できるようにします。
May be followed with a colon and maximum number of jobs in running or suspended state.
コロンと実行中または一時停止状態のジョブの最大数が続く場合があります。
For example "OverSubscribe=FORCE:4" enables each node, socket or core to oversubscribe each resource four ways.
たとえば、「OverSubscribe = FORCE:4」は、各ノード、ソケット、またはコアが4つの方法で各リソースをオーバーサブスクライブできるようにします。
Recommended only for systems running with gang scheduling (PreemptMode=suspend,gang).
ギャングスケジューリング(PreemptMode = suspend、gang)で実行されているシステムにのみ推奨されます。
NOTE: PreemptType=preempt/qos will permit one additional job to be run on the partition if started due to job preemption.
注:PreemptType = preempt / qosを指定すると、ジョブのプリエンプションが原因で開始された場合、パーティションで1つの追加ジョブを実行できます。
For example, a configuration of OverSubscribe=FORCE:1 will only permit one job per resources normally, but a second job can be started if done so through preemption based upon QOS.
たとえば、OverSubscribe = FORCE:1の構成では、通常、リソースごとに1つのジョブのみが許可されますが、QOSに基づくプリエンプションによってそうする場合、2番目のジョブを開始できます。
The use of PreemptType=preempt/qos and PreemptMode=SUSPEND only applies with SelectType=select/cons_res or SelectType=select/cons_tres.
PreemptType = preempt / qosおよびPreemptMode = SUSPENDの使用は、SelectType = select / cons_resまたはSelectType = select / cons_tresでのみ適用されます。
- YES
-
Makes all resources in the partition available for sharing upon request by
the job.
ジョブの要求に応じて、パーティション内のすべてのリソースを共有できるようにします。
Resources will only be over-subscribed when explicitly requested by the user using the "--oversubscribe" option on job submission.
リソースがオーバーサブスクライブされるのは、ジョブの送信時に「--oversubscribe」オプションを使用してユーザーが明示的に要求した場合のみです。
May be followed with a colon and maximum number of jobs in running or suspended state.
コロンと実行中または一時停止状態のジョブの最大数が続く場合があります。
For example "OverSubscribe=YES:4" enables each node, socket or core to execute up to four jobs at once.
たとえば、「OverSubscribe = YES:4」は、各ノード、ソケット、またはコアが最大4つのジョブを一度に実行できるようにします。
Recommended only for systems running with gang scheduling (PreemptMode=suspend,gang).
ギャングスケジューリング(PreemptMode = suspend、gang)で実行されているシステムにのみ推奨されます。
- NO
-
Selected resources are allocated to a single job.
選択したリソースが単一のジョブに割り当てられます。
No resource will be allocated to more than one job.
リソースは複数のジョブに割り当てられません。
-
- PartitionName
-
Name by which the partition may be referenced (e.g. "Interactive").
パーティションの参照に使用される名前(「インタラクティブ」など)。
This name can be specified by users when submitting jobs.
この名前は、ジョブの送信時にユーザーが指定できます。
If the PartitionName is "DEFAULT", the values specified with that record will apply to subsequent partition specifications unless explicitly set to other values in that partition record or replaced with a different set of default values.
PartitionNameが "DEFAULT"の場合、そのレコードで指定された値は、そのパーティションレコードの他の値に明示的に設定されたり、別のデフォルト値のセットで置き換えられたりしない限り、後続のパーティション指定に適用されます。
Each line where PartitionName is "DEFAULT" will replace or add to previous default values and not a reinitialize the default values.
PartitionNameが "DEFAULT"である各行は、デフォルト値を再初期化するのではなく、以前のデフォルト値を置換または追加します。
- PreemptMode
-
Mechanism used to preempt jobs or enable gang scheduling for this
partition when PreemptType=preempt/partition_prio is configured.
PreemptType = preempt / partition_prioが設定されている場合に、ジョブをプリエンプトするか、このパーティションのギャングスケジューリングを有効にするために使用されるメカニズム。
This partition-specific PreemptMode configuration parameter will override the cluster-wide PreemptMode for this partition.
このパーティション固有のPreemptMode構成パラメーターは、このパーティションのクラスター全体のPreemptModeをオーバーライドします。
It can be set to OFF to disable preemption and gang scheduling for this partition.
これをOFFに設定して、このパーティションのプリエンプションとギャングスケジューリングを無効にすることができます。
See also PriorityTier and the above description of the cluster-wide PreemptMode parameter for further details.
詳細については、PriorityTierおよび上記のクラスター全体のPreemptModeパラメーターの説明も参照してください。
- PriorityJobFactor
-
Partition factor used by priority/multifactor plugin in calculating job priority.
ジョブの優先順位を計算するときに優先順位/多要素プラグインによって使用されるパーティションファクター。
The value may not exceed 65533.
値は65533を超えることはできません。
Also see PriorityTier.
PriorityTierも参照してください。
- PriorityTier
-
Jobs submitted to a partition with a higher priority tier value will be
dispatched before pending jobs in partition with lower priority tier value and,
if possible, they will preempt running jobs from partitions with lower priority
tier values.
優先度の高いティア値を持つパーティションに送信されたジョブは、優先度の低いティア値を持つパーティション内の保留中のジョブの前にディスパッチされ、可能であれば、優先度の低いティア値を持つパーティションから実行中のジョブをプリエンプトします。
Note that a partition's priority tier takes precedence over a job's priority.
パーティションの優先度階層は、ジョブの優先度よりも優先されることに注意してください。
The value may not exceed 65533.
値は65533を超えることはできません。
Also see PriorityJobFactor.
PriorityJobFactorも参照してください。
- QOS
-
Used to extend the limits available to a QOS on a partition.
パーティション上のQOSで利用可能な制限を拡張するために使用されます。
Jobs will not be associated to this QOS outside of being associated to the partition.
ジョブは、パーティションに関連付けられていない限り、このQOSに関連付けられません。
They will still be associated to their requested QOS.
それらは引き続き要求されたQOSに関連付けられます。
By default, no QOS is used.
デフォルトでは、QOSは使用されません。
NOTE: If a limit is set in both the Partition's QOS and the Job's QOS the Partition QOS will be honored unless the Job's QOS has the OverPartQOS flag set in which the Job's QOS will have priority.
注:パーティションのQOSとジョブのQOSの両方に制限が設定されている場合、ジョブのQOSにジョブのQOSが優先されるOverPartQOSフラグが設定されていない限り、パーティションQOSが優先されます。
- ReqResv
-
Specifies users of this partition are required to designate a reservation
when submitting a job.
このパーティションのユーザーがジョブを送信するときに予約を指定する必要があることを指定します。
This option can be useful in restricting usage of a partition that may have higher priority or additional resources to be allowed only within a reservation.
このオプションは、優先度の高いパーティションの使用や、予約内でのみ許可される追加のリソースを制限するのに役立ちます。
Possible values are "YES" and "NO".
可能な値は「YES」と「NO」です。
The default value is "NO".
デフォルト値は「NO」です。
- RootOnly
-
Specifies if only user ID zero (i.e. user root) may allocate resources
in this partition.
ユーザーIDゼロ(つまり、ユーザーroot)のみがこのパーティションにリソースを割り当てることができるかどうかを指定します。
User root may allocate resources for any other user, but the request must be initiated by user root.
ユーザーrootは他のユーザーにリソースを割り当てることができますが、リクエストはユーザーrootが開始する必要があります。
This option can be useful for a partition to be managed by some external entity (e.g. a higher-level job manager) and prevents users from directly using those resources.
このオプションは、パーティションが外部エンティティ(たとえば、より高いレベルのジョブマネージャー)によって管理され、ユーザーがそれらのリソースを直接使用できないようにするのに役立ちます。
Possible values are "YES" and "NO".
可能な値は「YES」と「NO」です。
The default value is "NO".
デフォルト値は「NO」です。
- SelectTypeParameters
-
Partition-specific resource allocation type.
パーティション固有のリソース割り当てタイプ。
This option replaces the global SelectTypeParameters value.
このオプションは、グローバルなSelectTypeParameters値を置き換えます。
Supported values are CR_Core, CR_Core_Memory, CR_Socket and CR_Socket_Memory.
サポートされている値は、CR_Core、CR_Core_Memory、CR_Socket、およびCR_Socket_Memoryです。
Use requires the system-wide SelectTypeParameters value be set to any of the four supported values previously listed; otherwise, the partition-specific value will be ignored.
システム全体のSelectTypeParameters値は、前述の4つのサポートされている値のいずれかに設定する必要があります。それ以外の場合、パーティション固有の値は無視されます。
- Shared
-
The Shared configuration parameter has been replaced by the
OverSubscribe parameter described above.
Shared構成パラメーターは、上記のOverSubscribeパラメーターに置き換えられました。
- State
-
State of partition or availability for use.
パーティションの状態または使用できるかどうか。
Possible values are "UP", "DOWN", "DRAIN" and "INACTIVE".
可能な値は、「UP」、「DOWN」、「DRAIN」、および「INACTIVE」です。
The default value is "UP".
デフォルト値は「UP」です。
See also the related "Alternate" keyword.
関連する「代替」キーワードも参照してください。
-
- UP
-
Designates that new jobs may be queued on the partition, and that
jobs may be allocated nodes and run from the partition.
新しいジョブがパーティションのキューに入れられること、およびジョブがノードに割り当てられ、パーティションから実行されることを指定します。
- DOWN
-
Designates that new jobs may be queued on the partition, but
queued jobs may not be allocated nodes and run from the partition.
新しいジョブがパーティションのキューに入れられる可能性があることを指定しますが、キューに入れられたジョブはノードに割り当てられず、パーティションから実行されません。
Jobs already running on the partition continue to run.
パーティションですでに実行されているジョブは引き続き実行されます。
The jobs must be explicitly canceled to force their termination.
ジョブを強制的に終了するには、ジョブを明示的にキャンセルする必要があります。
- DRAIN
-
Designates that no new jobs may be queued on the partition (job
submission requests will be denied with an error message), but jobs
already queued on the partition may be allocated nodes and run.
新しいジョブはパーティションでキューに入れられないことを指定します(ジョブの送信要求はエラーメッセージで拒否されます)が、パーティションで既にキューに入れられているジョブはノードに割り当てられ、実行される可能性があります。
See also the "Alternate" partition specification.
「代替」パーティション仕様も参照してください。
- INACTIVE
-
Designates that no new jobs may be queued on the partition,
and jobs already queued may not be allocated nodes and run.
新しいジョブがパーティションでキューに入れられないこと、およびすでにキューに入れられたジョブがノードに割り当てられて実行されないことを指定します。
See also the "Alternate" partition specification.
「代替」パーティション仕様も参照してください。
-
- TRESBillingWeights
-
TRESBillingWeights is used to define the billing weights of each TRES type that
will be used in calculating the usage of a job.
TRESBillingWeightsは、ジョブの使用量の計算に使用される各TRESタイプの請求加重を定義するために使用されます。
The calculated usage is used when calculating fairshare and when enforcing the TRES billing limit on jobs.
計算された使用量は、フェアシェアを計算するとき、およびジョブにTRES課金制限を適用するときに使用されます。
Billing weights are specified as a comma-separated list of <TRES Type>=<TRES Billing Weight> pairs.
請求の重みは、<TRES Type> = <TRES Billing Weight>のペアのコンマ区切りのリストとして指定されます。
Any TRES Type is available for billing.
どのTRESタイプも請求に使用できます。
Note that the base unit for memory and burst buffers is megabytes.
メモリとバーストバッファの基本単位はメガバイトであることに注意してください。
By default the billing of TRES is calculated as the sum of all TRES types multiplied by their corresponding billing weight.
デフォルトでは、TRESの請求は、すべてのTRESタイプの合計に対応する請求ウェイトを掛けたものとして計算されます。
The weighted amount of a resource can be adjusted by adding a suffix of K,M,G,T or P after the billing weight.
リソースの加重量は、請求加重の後にK、M、G、TまたはPのサフィックスを追加することで調整できます。
For example, a memory weight of "mem=.25" on a job allocated 8GB will be billed 2048 (8192MB *.25) units.
たとえば、8 GBが割り当てられたジョブのメモリの重みが「mem = .25」の場合、2048(8192MB * .25)単位で課金されます。
A memory weight of "mem=.25G" on the same job will be billed 2 (8192MB * (.25/1024)) units.
同じジョブのメモリウェイトが「mem = .25G」の場合、2(8192MB *(.25 / 1024))単位で課金されます。
Negative values are allowed.
負の値を使用できます。
When a job is allocated 1 CPU and 8 GB of memory on a partition configured with TRESBillingWeights="CPU=1.0,Mem=0.25G,GRES/gpu=2.0", the billable TRES will be: (1*1.0) + (8*0.25) + (0*2.0) = 3.0.
TRESBillingWeights = "CPU = 1.0、Mem = 0.25G、GRES / gpu = 2.0"で構成されたパーティションにジョブに1 CPUと8 GBのメモリが割り当てられると、請求可能なTRESは(1 * 1.0)+(8 * 0.25)+(0 * 2.0)= 3.0。
If PriorityFlags=MAX_TRES is configured, the billable TRES is calculated as the MAX of individual TRES' on a node (e.g. cpus, mem, gres) plus the sum of all global TRES' (e.g. licenses).
PriorityFlags = MAX_TRESが構成されている場合、請求可能なTRESは、ノード(例:cpus、mem、gres)上の個々のTRES 'の最大値と、すべてのグローバルTRES'(例:ライセンス)の合計として計算されます。
Using the same example above the billable TRES will be MAX(1*1.0, 8*0.25) + (0*2.0) = 2.0.
上記の同じ例を使用すると、請求可能なTRESはMAX(1 * 1.0、8 * 0.25)+(0 * 2.0)= 2.0になります。
If TRESBillingWeights is not defined then the job is billed against the total number of allocated CPUs.
TRESBillingWeightsが定義されていない場合、ジョブは割り当てられたCPUの総数に対して課金されます。
NOTE: TRESBillingWeights doesn't affect job priority directly as it is currently not used for the size of the job.
注:TRESBillingWeightsは現在ジョブのサイズに使用されていないため、ジョブの優先順位に直接影響を与えません。
If you want TRES' to play a role in the job's priority then refer to the PriorityWeightTRES option.
TRESがジョブの優先順位で役割を果たすようにしたい場合は、PriorityWeightTRESオプションを参照してください。
Prolog and Epilog Scripts
There are a variety of prolog and epilog program options that execute with various permissions and at various times.さまざまな権限でさまざまなタイミングで実行されるさまざまなプロローグおよびエピローグプログラムオプションがあります。
The four options most likely to be used are: Prolog and Epilog (executed once on each compute node for each job) plus PrologSlurmctld and EpilogSlurmctld (executed once on the ControlMachine for each job).
最も使用される可能性が高い4つのオプションは、PrologとEpilog(各ジョブの各計算ノードで1回実行)に加えて、PrologSlurmctldとEpilogSlurmctld(各ジョブのControlMachineで1回実行)です。
NOTE: Standard output and error messages are normally not preserved.
注:通常、標準出力とエラーメッセージは保持されません。
Explicitly write output and error messages to an appropriate location
if you wish to preserve that information.
情報を保持したい場合は、出力メッセージとエラーメッセージを適切な場所に明示的に書き込みます。
NOTE: By default the Prolog script is ONLY run on any individual
node when it first sees a job step from a new allocation; it does not
run the Prolog immediately when an allocation is granted.
注:デフォルトでは、Prologスクリプトは、新しい割り当てからのジョブステップを最初に検出したときに、個々のノードでのみ実行されます。割り振りが許可されても、Prologはすぐには実行されません。
If no job steps
from an allocation are run on a node, it will never run the Prolog for that
allocation.
ノードで割り当てのジョブステップが実行されない場合、その割り当てのプロローグは実行されません。
This Prolog behaviour can be changed by the
PrologFlags parameter.
このPrologの動作は、PrologFlagsパラメーターによって変更できます。
The Epilog, on the other hand, always
runs on every node of an allocation when the allocation is released.
一方、Epilogは、割り当てが解放されると、常に割り当てのすべてのノードで実行されます。
If the Epilog fails (returns a non-zero exit code), this will result in the
node being set to a DRAIN state.
Epilogが失敗した場合(ゼロ以外の終了コードを返す)、これによりノードがDRAIN状態に設定されます。
If the EpilogSlurmctld fails (returns a non-zero exit code), this will only
be logged.
EpilogSlurmctldが失敗した場合(ゼロ以外の終了コードを返す)、これはログに記録されるだけです。
If the Prolog fails (returns a non-zero exit code), this will result in the
node being set to a DRAIN state and the job being requeued in a held state
unless nohold_on_prolog_fail is configured in
SchedulerParameters.
Prologが失敗した場合(ゼロ以外の終了コードを返す)、これによりノードがDRAIN状態に設定され、SchedulerParametersでnohold_on_prolog_failが構成されていない限り、ジョブは保留状態で再度キューに入れられます。
If the PrologSlurmctld fails (returns a non-zero exit code), this will result
in the job requeued to executed on another node if possible.
PrologSlurmctldが失敗した場合(ゼロ以外の終了コードを返す)、これにより、可能であれば、ジョブが別のノードで実行されるようにキューに再登録されます。
Only batch jobs
can be requeued.
再キューイングできるのはバッチジョブのみです。
Interactive jobs (salloc and srun) will be cancelled if the
PrologSlurmctld fails.
対話型ジョブ(sallocおよびsrun)は、PrologSlurmctldが失敗するとキャンセルされます。
Information about the job is passed to the script using environment
variables.
ジョブに関する情報は、環境変数を使用してスクリプトに渡されます。
Unless otherwise specified, these environment variables are available
to all of the programs.
特に指定のない限り、これらの環境変数はすべてのプログラムで使用できます。
- SLURM_ARRAY_JOB_ID
-
If this job is part of a job array, this will be set to the job ID.
このジョブがジョブ配列の一部である場合、これはジョブIDに設定されます。
Otherwise it will not be set.
それ以外の場合は設定されません。
To reference this specific task of a job array, combine SLURM_ARRAY_JOB_ID with SLURM_ARRAY_TASK_ID (e.g. "scontrol update ${SLURM_ARRAY_JOB_ID}_{$SLURM_ARRAY_TASK_ID} ..."); Available in PrologSlurmctld and EpilogSlurmctld only.
ジョブアレイのこの特定のタスクを参照するには、SLURM_ARRAY_JOB_IDとSLURM_ARRAY_TASK_IDを組み合わせます(例: "scontrol update $ {SLURM_ARRAY_JOB_ID} _ {$ SLURM_ARRAY_TASK_ID} ..."); PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_ARRAY_TASK_ID
-
If this job is part of a job array, this will be set to the task ID.
このジョブがジョブ配列の一部である場合、これはタスクIDに設定されます。
Otherwise it will not be set.
それ以外の場合は設定されません。
To reference this specific task of a job array, combine SLURM_ARRAY_JOB_ID with SLURM_ARRAY_TASK_ID (e.g. "scontrol update ${SLURM_ARRAY_JOB_ID}_{$SLURM_ARRAY_TASK_ID} ..."); Available in PrologSlurmctld and EpilogSlurmctld only.
ジョブアレイのこの特定のタスクを参照するには、SLURM_ARRAY_JOB_IDとSLURM_ARRAY_TASK_IDを組み合わせます(例: "scontrol update $ {SLURM_ARRAY_JOB_ID} _ {$ SLURM_ARRAY_TASK_ID} ..."); PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_ARRAY_TASK_MAX
-
If this job is part of a job array, this will be set to the maximum
task ID.
このジョブがジョブ配列の一部である場合、これは最大タスクIDに設定されます。
Otherwise it will not be set.
それ以外の場合は設定されません。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_ARRAY_TASK_MIN
-
If this job is part of a job array, this will be set to the minimum
task ID.
このジョブがジョブ配列の一部である場合、これは最小タスクIDに設定されます。
Otherwise it will not be set.
それ以外の場合は設定されません。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_ARRAY_TASK_STEP
-
If this job is part of a job array, this will be set to the step
size of task IDs.
このジョブがジョブ配列の一部である場合、これはタスクIDのステップサイズに設定されます。
Otherwise it will not be set.
それ以外の場合は設定されません。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_CLUSTER_NAME
-
Name of the cluster executing the job.
ジョブを実行しているクラスターの名前。
- SLURM_JOB_ACCOUNT
-
Account name used for the job.
ジョブに使用されるアカウント名。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_JOB_CONSTRAINTS
-
Features required to run the job.
ジョブの実行に必要な機能。
Available in Prolog, PrologSlurmctld and EpilogSlurmctld only.
Prolog、PrologSlurmctld、およびEpilogSlurmctldでのみ使用できます。
- SLURM_JOB_DERIVED_EC
-
The highest exit code of all of the job steps.
すべてのジョブステップの最高の終了コード。
Available in EpilogSlurmctld only.
EpilogSlurmctldでのみ使用できます。
- SLURM_JOB_EXIT_CODE
-
The exit code of the job script (or salloc).
ジョブスクリプト(またはsalloc)の終了コード。
The value is the status as returned by the wait() system call (See wait(2)) Available in EpilogSlurmctld only.
値は、wait()システムコール(wait(2)を参照)によって返されるステータスです。EpilogSlurmctldでのみ使用できます。
- SLURM_JOB_EXIT_CODE2
-
The exit code of the job script (or salloc).
ジョブスクリプト(またはsalloc)の終了コード。
The value has the format <exit>:<sig>.
値の形式は、<exit>:<sig>です。
The first number is the exit code, typically as set by the exit() function.
最初の番号は、通常はexit()関数によって設定された終了コードです。
The second number of the signal that caused the process to terminate if it was terminated by a signal.
プロセスがシグナルによって終了された場合にプロセスを終了させたシグナルの2番目の番号。
Available in EpilogSlurmctld only.
EpilogSlurmctldでのみ使用できます。
- SLURM_JOB_GID
-
Group ID of the job's owner.
ジョブの所有者のグループID。
Available in PrologSlurmctld, EpilogSlurmctld and TaskProlog only.
PrologSlurmctld、EpilogSlurmctld、およびTaskPrologでのみ使用できます。
- SLURM_JOB_GPUS
-
GPU IDs allocated to the job (if any).
ジョブに割り当てられたGPU ID(存在する場合)。
Available in the Prolog only.
プロローグでのみ使用できます。
- SLURM_JOB_GROUP
-
Group name of the job's owner.
ジョブの所有者のグループ名。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_JOB_ID
-
Job ID.
ジョブID。
CAUTION: If this job is the first task of a job array, then Slurm commands using this job ID will refer to the entire job array rather than this specific task of the job array.
注意:このジョブがジョブ配列の最初のタスクである場合、このジョブIDを使用するSlurmコマンドは、ジョブ配列のこの特定のタスクではなく、ジョブ配列全体を参照します。
- SLURM_JOB_NAME
-
Name of the job.
ジョブの名前。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_JOB_NODELIST
-
Nodes assigned to job.
ジョブに割り当てられたノード。
A Slurm hostlist expression.
Slurmホストリスト式。
"scontrol show hostnames" can be used to convert this to a list of individual host names.
「scontrol show hostnames」を使用して、これを個々のホスト名のリストに変換できます。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_JOB_PARTITION
-
Partition that job runs in.
ジョブが実行されるパーティション。
Available in Prolog, PrologSlurmctld and EpilogSlurmctld only.
Prolog、PrologSlurmctld、およびEpilogSlurmctldでのみ使用できます。
- SLURM_JOB_UID
-
User ID of the job's owner.
ジョブの所有者のユーザーID。
- SLURM_JOB_USER
-
User name of the job's owner.
ジョブの所有者のユーザー名。
NETWORK TOPOLOGY
Slurm is able to optimize job allocations to minimize network contention.Slurmはジョブの割り当てを最適化して、ネットワークの競合を最小限に抑えることができます。
Special Slurm logic is used to optimize allocations on systems with a three-dimensional interconnect.
特別なSlurmロジックを使用して、3次元相互接続を持つシステムでの割り当てを最適化します。
and information about configuring those systems are available on web pages available here: <https://slurm.schedmd.com/>.
これらのシステムの構成に関する情報は、こちらのWebページ(<https://slurm.schedmd.com/>)で入手できます。
For a hierarchical network, Slurm needs to have detailed information about how nodes are configured on the network switches.
階層型ネットワークの場合、Slurmには、ネットワークスイッチでのノードの構成方法に関する詳細情報が必要です。
Given network topology information, Slurm allocates all of a job's
resources onto a single leaf of the network (if possible) using a best-fit
algorithm.
ネットワークトポロジー情報が与えられると、Slurmは最適なアルゴリズムを使用して、ジョブのすべてのリソースを(可能な場合)ネットワークの単一のリーフに割り当てます。
Otherwise it will allocate a job's resources onto multiple leaf switches
so as to minimize the use of higher-level switches.
それ以外の場合は、上位レベルのスイッチの使用を最小限に抑えるために、ジョブのリソースを複数のリーフスイッチに割り当てます。
The TopologyPlugin parameter controls which plugin is used to
collect network topology information.
TopologyPluginパラメータは、ネットワークトポロジ情報を収集するために使用されるプラグインを制御します。
The only values presently supported are "topology/3d_torus" (default for
Cray XT/XE systems, performs best-fit logic over three-dimensional topology),
"topology/none" (default for other systems,
best-fit logic over one-dimensional topology),
"topology/tree" (determine the network topology based
upon information contained in a topology.conf file,
see "man topology.conf" for more information).
現在サポートされている唯一の値は、「topology / 3d_torus」(Cray XT / XEシステムのデフォルト、3次元トポロジで最適なロジックを実行)、「topology / none」(他のシステムのデフォルト、1次元で最適なロジック)次元トポロジ)、「トポロジ/ツリー」(topology.confファイルに含まれる情報に基づいてネットワークトポロジを決定します。詳細については、「man topology.conf」を参照してください)。
Future plugins may gather topology information directly from the network.
将来のプラグインはトポロジー情報をネットワークから直接収集する可能性があります。
The topology information is optional.
トポロジー情報はオプションです。
If not provided, Slurm will perform a best-fit algorithm assuming the
nodes are in a one-dimensional array as configured and the communications
cost is related to the node distance in this array.
指定しない場合、Slurmは、ノードが構成済みの1次元配列にあり、通信コストがこの配列のノード距離に関連していると想定して、最適なアルゴリズムを実行します。
RELOCATING CONTROLLERS
If the cluster's computers used for the primary or backup controller will be out of service for an extended period of time, it may be desirable to relocate them.プライマリコントローラーまたはバックアップコントローラーに使用されているクラスターのコンピューターが長期間サービスを停止する場合は、それらを再配置することが望ましい場合があります。
In order to do so, follow this procedure:
これを行うには、次の手順に従います。
1. Stop the Slurm daemons
1. Slurmデーモンを停止します
2. Modify the slurm.conf file appropriately
2. slurm.confファイルを適切に変更します
3. Distribute the updated slurm.conf file to all nodes
3.更新されたslurm.confファイルをすべてのノードに配布します
4. Restart the Slurm daemons
4. Slurmデーモンを再起動します
There should be no loss of any running or pending jobs.
実行中または保留中のジョブが失われることはありません。
Ensure that any nodes added to the cluster have the current
slurm.conf file installed.
クラスターに追加されたすべてのノードに現在のslurm.confファイルがインストールされていることを確認します。
CAUTION: If two nodes are simultaneously configured as the
primary controller (two nodes on which SlurmctldHost specify
the local host and the slurmctld daemon is executing on each),
system behavior will be destructive.
注意:2つのノードが同時にプライマリコントローラーとして構成されている場合(SlurmctldHostがローカルホストを指定し、slurmctldデーモンがそれぞれで実行されている2つのノード)、システムの動作が破壊されます。
If a compute node has an incorrect SlurmctldHost
parameter, that node may be rendered
unusable, but no other harm will result.
計算ノードに誤ったSlurmctldHostパラメーターがある場合、そのノードは使用できなくなる可能性がありますが、その他の害は発生しません。
EXAMPLE
#
# Sample /etc/slurm.conf for dev[0-25].llnl.gov
# Author: John Doe
# Date: 11/06/2001
#
SlurmctldHost=dev0(12.34.56.78) # Primary server
SlurmctldHost=dev1(12.34.56.79) # Backup server
#
AuthType=auth/munge
Epilog=/usr/local/slurm/epilog
Prolog=/usr/local/slurm/prolog
FirstJobId=65536
InactiveLimit=120
JobCompType=jobcomp/filetxt
JobCompLoc=/var/log/slurm/jobcomp
KillWait=30
MaxJobCount=10000
MinJobAge=3600
PluginDir=/usr/local/lib:/usr/local/slurm/lib
ReturnToService=0
SchedulerType=sched/backfill
SlurmctldLogFile=/var/log/slurm/slurmctld.log
SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmctldPort=7002
SlurmdPort=7003
SlurmdSpoolDir=/var/spool/slurmd.spool
StateSaveLocation=/var/spool/slurm.state
SwitchType=switch/none
TmpFS=/tmp
WaitTime=30
JobCredentialPrivateKey=/usr/local/slurm/private.key
JobCredentialPublicCertificate=/usr/local/slurm/public.cert
#
# Node Configurations
#
NodeName=DEFAULT CPUs=2 RealMemory=2000 TmpDisk=64000
NodeName=DEFAULT State=UNKNOWN
NodeName=dev[0-25] NodeAddr=edev[0-25] Weight=16
# Update records for specific DOWN nodes
DownNodes=dev20 State=DOWN Reason="power,ETA=Dec25"
#
# Partition Configurations
#
PartitionName=DEFAULT MaxTime=30 MaxNodes=10 State=UP
PartitionName=debug Nodes=dev[0-8,18-25] Default=YES
PartitionName=batch Nodes=dev[9-17] MinNodes=4
PartitionName=long Nodes=dev[9-17] MaxTime=120 AllowGroups=admin
INCLUDE MODIFIERS
The "include" key word can be used with modifiers within the specified pathname.「include」キーワードは、指定されたパス名内の修飾子とともに使用できます。
These modifiers would be replaced with cluster name or other information depending on which modifier is specified.
これらの修飾子は、指定された修飾子に応じて、クラスター名またはその他の情報に置き換えられます。
If the included file is not an absolute path name (i.e. it does not start with a slash), it will searched for in the same directory as the slurm.conf file.
インクルードされたファイルが絶対パス名でない場合(つまり、スラッシュで始まっていない場合)、slurm.confファイルと同じディレクトリで検索されます。
- %c
-
Cluster name specified in the slurm.conf will be used.
slurm.confで指定されたクラスター名が使用されます。
- EXAMPLE
-
ClusterName=linux
include /home/slurm/etc/%c_config
# Above line interpreted as
# "include /home/slurm/etc/linux_config"
FILE AND DIRECTORY PERMISSIONS
There are three classes of files:ファイルには3つのクラスがあります。
Files used by slurmctld must be accessible by user SlurmUser and accessible by the primary and backup control machines.
slurmctldが使用するファイルには、ユーザーSlurmUserがアクセスでき、プライマリおよびバックアップ制御マシンがアクセスできる必要があります。
Files used by slurmd must be accessible by user root and accessible from every compute node.
slurmdが使用するファイルは、ユーザーrootがアクセスでき、すべての計算ノードからアクセスできる必要があります。
A few files need to be accessible by normal users on all login and compute nodes.
すべてのログインノードと計算ノードの通常のユーザーがアクセスできる必要があるファイルがいくつかあります。
While many files and directories are listed below, most of them will not be used with most configurations.
多くのファイルとディレクトリが以下にリストされていますが、それらのほとんどはほとんどの構成で使用されません。
- AccountingStorageLoc
-
If this specifies a file, it must be writable by user SlurmUser.
これがファイルを指定する場合、ユーザーSlurmUserが書き込み可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルは、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
It is recommended that the file be readable by all users from login and compute nodes.
ログインノードと計算ノードからすべてのユーザーがファイルを読み取れるようにすることをお勧めします。
- Epilog
-
Must be executable by user root.
ユーザーrootが実行可能でなければなりません。
It is recommended that the file be readable by all users.
すべてのユーザーがファイルを読み取れるようにすることをお勧めします。
The file must exist on every compute node.
ファイルはすべての計算ノードに存在する必要があります。
- EpilogSlurmctld
-
Must be executable by user SlurmUser.
ユーザーSlurmUserによって実行可能である必要があります。
It is recommended that the file be readable by all users.
すべてのユーザーがファイルを読み取れるようにすることをお勧めします。
The file must be accessible by the primary and backup control machines.
このファイルは、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- HealthCheckProgram
-
Must be executable by user root.
ユーザーrootが実行可能でなければなりません。
It is recommended that the file be readable by all users.
すべてのユーザーがファイルを読み取れるようにすることをお勧めします。
The file must exist on every compute node.
ファイルはすべての計算ノードに存在する必要があります。
- JobCompLoc
-
If this specifies a file, it must be writable by user SlurmUser.
これがファイルを指定する場合、ユーザーSlurmUserが書き込み可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルは、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- JobCredentialPrivateKey
-
Must be readable only by user SlurmUser and writable by no other users.
ユーザーSlurmUserのみが読み取り可能で、他のユーザーは書き込み不可である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルは、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- JobCredentialPublicCertificate
-
Readable to all users on all nodes.
すべてのノードのすべてのユーザーが読み取ることができます。
Must not be writable by regular users.
通常のユーザーが書き込み可能であってはなりません。
- MailProg
-
Must be executable by user SlurmUser.
ユーザーSlurmUserによって実行可能である必要があります。
Must not be writable by regular users.
通常のユーザーが書き込み可能であってはなりません。
The file must be accessible by the primary and backup control machines.
このファイルは、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- Prolog
-
Must be executable by user root.
ユーザーrootが実行可能でなければなりません。
It is recommended that the file be readable by all users.
すべてのユーザーがファイルを読み取れるようにすることをお勧めします。
The file must exist on every compute node.
ファイルはすべての計算ノードに存在する必要があります。
- PrologSlurmctld
-
Must be executable by user SlurmUser.
ユーザーSlurmUserによって実行可能である必要があります。
It is recommended that the file be readable by all users.
すべてのユーザーがファイルを読み取れるようにすることをお勧めします。
The file must be accessible by the primary and backup control machines.
このファイルは、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- ResumeProgram
-
Must be executable by user SlurmUser.
ユーザーSlurmUserによって実行可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルは、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- SallocDefaultCommand
-
Must be executable by all users.
すべてのユーザーが実行できる必要があります。
The file must exist on every login and compute node.
このファイルは、すべてのログインおよび計算ノードに存在する必要があります。
- slurm.conf
-
Readable to all users on all nodes.
すべてのノードのすべてのユーザーが読み取ることができます。
Must not be writable by regular users.
通常のユーザーが書き込み可能であってはなりません。
- SlurmctldLogFile
-
Must be writable by user SlurmUser.
ユーザーSlurmUserによる書き込みが可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルは、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- SlurmctldPidFile
-
Must be writable by user root.
ユーザーrootが書き込み可能でなければなりません。
Preferably writable and removable by SlurmUser.
できればSlurmUserによる書き込みと削除が可能です。
The file must be accessible by the primary and backup control machines.
このファイルは、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- SlurmdLogFile
-
Must be writable by user root.
ユーザーrootが書き込み可能でなければなりません。
A distinct file must exist on each compute node.
各計算ノードに個別のファイルが存在する必要があります。
- SlurmdPidFile
-
Must be writable by user root.
ユーザーrootが書き込み可能でなければなりません。
A distinct file must exist on each compute node.
各計算ノードに個別のファイルが存在する必要があります。
- SlurmdSpoolDir
-
Must be writable by user root.
ユーザーrootが書き込み可能でなければなりません。
A distinct file must exist on each compute node.
各計算ノードに個別のファイルが存在する必要があります。
- SrunEpilog
-
Must be executable by all users.
すべてのユーザーが実行できる必要があります。
The file must exist on every login and compute node.
このファイルは、すべてのログインおよび計算ノードに存在する必要があります。
- SrunProlog
-
Must be executable by all users.
すべてのユーザーが実行できる必要があります。
The file must exist on every login and compute node.
このファイルは、すべてのログインおよび計算ノードに存在する必要があります。
- StateSaveLocation
-
Must be writable by user SlurmUser.
ユーザーSlurmUserによる書き込みが可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルは、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- SuspendProgram
-
Must be executable by user SlurmUser.
ユーザーSlurmUserによって実行可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルは、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- TaskEpilog
-
Must be executable by all users.
すべてのユーザーが実行できる必要があります。
The file must exist on every compute node.
ファイルはすべての計算ノードに存在する必要があります。
- TaskProlog
-
Must be executable by all users.
すべてのユーザーが実行できる必要があります。
The file must exist on every compute node.
ファイルはすべての計算ノードに存在する必要があります。
- UnkillableStepProgram
-
Must be executable by user SlurmUser.
ユーザーSlurmUserによって実行可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルは、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
LOGGING
Note that while Slurm daemons create log files and other files as needed,
it treats the lack of parent directories as a fatal error.
Slurmデーモンは必要に応じてログファイルやその他のファイルを作成しますが、親ディレクトリの不足を致命的なエラーとして扱います。
This prevents the daemons from running if critical file systems are
not mounted and will minimize the risk of cold-starting (starting
without preserving jobs).
これにより、重要なファイルシステムがマウントされていない場合にデーモンが実行されなくなり、コールドスタート(ジョブを保持せずに起動)のリスクが最小限に抑えられます。
Log files and job accounting files,
may need to be created/owned by the "SlurmUser" uid to be successfully
accessed.
ログファイルとジョブアカウンティングファイル。正常にアクセスするには、「SlurmUser」uidによって作成/所有される必要がある場合があります。
Use the "chown" and "chmod" commands to set the ownership
and permissions appropriately.
「chown」および「chmod」コマンドを使用して、所有権と権限を適切に設定します。
See the section FILE AND DIRECTORY PERMISSIONS for information
about the various files and directories used by Slurm.
Slurmで使用されるさまざまなファイルとディレクトリの詳細については、「ファイルとディレクトリの権限」を参照してください。
It is recommended that the logrotate utility be used to ensure that
various log files do not become too large.
さまざまなログファイルが大きくなりすぎないように、logrotateユーティリティを使用することをお勧めします。
This also applies to text files used for accounting,
process tracking, and the slurmdbd log if they are used.
これは、アカウンティング、プロセス追跡、およびslurmdbdログが使用されている場合はそれらに使用されるテキストファイルにも適用されます。
Here is a sample logrotate configuration.
以下はlogrotate設定のサンプルです。
Make appropriate site modifications
and save as /etc/logrotate.d/slurm on all nodes.
適切なサイト変更を行い、すべてのノードで/etc/logrotate.d/slurmとして保存します。
See the logrotate man page for more details.
詳細については、logrotateのマニュアルページを参照してください。
## # Slurm Logrotate Configuration ## /var/log/slurm/*.log { compress missingok nocopytruncate nodelaycompress nomail notifempty noolddir rotate 5 sharedscripts size=5M create 640 slurm root postrotate pkill -x --signal SIGUSR2 slurmctld pkill -x --signal SIGUSR2 slurmd pkill -x --signal SIGUSR2 slurmdbd exit 0 endscript }
COPYING
Copyright (C) 2002-2007 The Regents of the University of California. Produced at Lawrence Livermore National Laboratory (cf, DISCLAIMER).Copyright (C) 2008-2010 Lawrence Livermore National Security.
Copyright (C) 2010-2017 SchedMD LLC.
This file is part of Slurm, a resource management program. For details, see <https://slurm.schedmd.com/>.
Slurm is free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version 2 of the License, or (at your option) any later version.
Slurm is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.
FILES
/etc/slurm.confSEE ALSO
cgroup.conf(5), gethostbyname (3), getrlimit (2), gres.conf(5), group (5), hostname (1), scontrol(1), slurmctld(8), slurmd(8), slurmdbd(8), slurmdbd.conf(5), srun(1), spank(8), syslog (2), topology.conf(5)
Index
- NAME
- DESCRIPTION
- PARAMETERS
- Prolog and Epilog Scripts
- NETWORK TOPOLOGY
- RELOCATING CONTROLLERS
- EXAMPLE
- INCLUDE MODIFIERS
- FILE AND DIRECTORY PERMISSIONS
- LOGGING
- COPYING
- FILES
- SEE ALSO
This document was created by man2html using the manual pages.
Time: 20:44:46 GMT, May 21, 2020