knl.conf
Section: Slurm Configuration File (5)Updated: Slurm Configuration File
Index
NAME
knl.conf - Slurm configuration file for Intel Knights Landing processor.knl.conf-Intel Knights Landingプロセッサー用のSlurm構成ファイル。
DESCRIPTION
This ASCII file which describes configuration information for Intel Knights Landing processors and its name may depend upon the NodeFeatures plugin configured in Slurm. For example, on Cray systems NodeFeatures should be configured to "knl_cray" and its configuration file will be read from "knl_cray.conf".Intel Knights Landingプロセッサーの構成情報とその名前を記述したこのASCIIファイルは、Slurmで構成されたNodeFeaturesプラグインに依存する場合があります。たとえば、Crayシステムでは、NodeFeaturesを「knl_cray」に構成する必要があり、その構成ファイルは「knl_cray.conf」から読み取られます。
The file location can be modified at system build time using the DEFAULT_SLURM_CONF parameter or at execution time by setting the SLURM_CONF environment variable. The file will always be located in the same directory as the slurm.conf file.
ファイルの場所は、システム構築時にDEFAULT_SLURM_CONFパラメータを使用して変更するか、実行時にSLURM_CONF環境変数を設定して変更できます。ファイルは常にslurm.confファイルと同じディレクトリにあります。
This file is optional.
このファイルはオプションです。
Parameter names are case insensitive.
Any text following a "#" in the configuration file is treated
as a comment through the end of that line.
Changes to the configuration file take effect upon restart of
Slurm daemons, daemon receipt of the SIGHUP signal, or execution
of the command "scontrol reconfigure" unless otherwise noted.
パラメータ名は大文字と小文字を区別しません。構成ファイルで「#」に続くテキストは、その行の終わりまでコメントとして扱われます。特に明記されていない限り、構成ファイルへの変更は、Slurmデーモンの再起動、SIGHUPシグナルのデーモン受信、またはコマンド「scontrol reconfigure」の実行時に有効になります。
The overall configuration parameters available include:
利用可能な全体的な構成パラメータは次のとおりです。
- AllowMCDRAM
-
Specify the MCDRAM modes which jobs are allowed to use.
This may be a subset of MCDRAM modes supported by the node.
If not specified, all MCDRAM modes supported by the node are available for use.
The comma separated list of allowed MCDRAM modes may include any of the modes
listed below.
ジョブが使用を許可されるMCDRAMモードを指定します。これは、ノードでサポートされているMCDRAMモードのサブセットである場合があります。指定しない場合、ノードでサポートされているすべてのMCDRAMモードを使用できます。許可されたMCDRAMモードのコンマ区切りリストには、以下にリストされたモードのいずれかが含まれる場合があります。
-
- cache
-
All of MCDRAM to be used as cache.
キャッシュとして使用されるすべてのMCDRAM。
- equal
-
MCDRAM to be used partly as cache and partly combined with primary memory.
一部はキャッシュとして、一部はプライマリメモリと組み合わせて使用されるMCDRAM。
- flat
-
MCDRAM to be combined with primary memory into a "flat" memory space.
MCDRAMをプライマリメモリと組み合わせて「フラットな」メモリ空間にします。
-
- AllowNUMA
-
Specify the NUMA modes which jobs are allowed to use.
This may be a subset of NUMA modes supported by the node.
If not specified, all NUMA modes supported by the node are available for use.
The comma separated list of allowed NUMA modes may include any of the modes
listed below.
ジョブが使用を許可されるNUMAモードを指定します。これは、ノードでサポートされているNUMAモードのサブセットである可能性があります。指定しない場合、ノードでサポートされているすべてのNUMAモードを使用できます。許可されたNUMAモードのコンマ区切りリストには、以下にリストされたモードのいずれかが含まれる場合があります。
Note that Slurm can only support homogeneous nodes (e.g. the same number of cores per NUMA node). KNL scn4 and quad modes are not homogeneous, but each each NUMA mode will have either 16 or 18 cores.
Slurmは同種ノードのみをサポートできることに注意してください(たとえば、NUMAノードごとに同じ数のコア)。KNL scn4およびquadモードは同種ではありませんが、各NUMAモードは16または18コアを備えています。
This will result in Slurm using the lower core count and finding a total of 256 threads rather than 272 threads and setting the node to a DOWN state. Therefore it is recommended that snc4 and quad mode not be allowed at this time.
これにより、Slurmはより少ないコア数を使用し、272スレッドではなく合計256スレッドを見つけ、ノードをDOWN状態に設定します。したがって、現時点ではsnc4およびquadモードを許可しないことをお勧めします。
- AllowUserBoot
-
A comma delimited list of users allowed to modify a node's MCDRAM or NUMA state.
If not specified then any user can change a node's state and reboot it.
ノードのMCDRAMまたはNUMA状態の変更を許可されたユーザーのカンマ区切りリスト。指定しない場合、すべてのユーザーがノードの状態を変更して再起動できます。
- BootTime
-
Estimated time to reboot a node in seconds.
Used as a basis for optimizing scheduling decisions.
The default value is 300 seconds (5 minutes) for the "knl_generic" plugin
and 2700 seconds (45 minutes) for the "knl_cray" plugin.
ノードを再起動するための推定時間(秒)。スケジューリングの決定を最適化するための基礎として使用されます。デフォルト値は、「knl_generic」プラグインの場合は300秒(5分)、「knl_cray」プラグインの場合は2700秒(45分)です。
- CapmcPath
-
Fully qualified path to the capmc program.
The default value is "/opt/cray/capmc/default/bin/capmc".
This parameter is used only by the "knl_cray" plugin.
capmcプログラムへの完全修飾パス。デフォルト値は「/ opt / cray / capmc / default / bin / capmc」です。このパラメーターは「knl_cray」プラグインでのみ使用されます。
- CapmcPollFreq
-
Time interval between when the capmc program should poll for node state
changes, in seconds.
The default value is 45 seconds.
This parameter is used only by the "knl_cray" plugin.
capmcプログラムがノードの状態変化をポーリングする間隔(秒単位)。デフォルト値は45秒です。このパラメーターは「knl_cray」プラグインでのみ使用されます。
- CapmcRetries
-
Number of times to retry failed operations of the capmc program.
Default value is 4.
capmcプログラムの失敗した操作を再試行する回数。デフォルト値は4です。
- CapmcTimeout
-
Time limit for the capmc program to return status information milliseconds.
The default value is 60000 milliseconds and the minimum value is 1000 milliseconds.
This parameter is used by the "knl_cray" plugin, plus the capmc_suspend and
capmc_resume programs used for suspending and resuming nodes.
capmcプログラムがステータス情報をミリ秒で返すための時間制限。デフォルト値は60000ミリ秒で、最小値は1000ミリ秒です。このパラメーターは、「knl_cray」プラグイン、およびノードの一時停止と再開に使用されるcapmc_suspendおよびcapmc_resumeプログラムによって使用されます。
- CnselectPath
-
Fully qualified path to the cnselect program.
The default value is "/opt/cray/sdb/default/bin/cnselect".
This parameter is used only by the "knl_cray" plugin.
cnselectプログラムへの完全修飾パス。デフォルト値は「/ opt / cray / sdb / default / bin / cnselect」です。このパラメーターは「knl_cray」プラグインでのみ使用されます。
- DefaultMCDRAM
-
Specify the default MCDRAM modes for job's which do not specify a value.
This is only used when a node is booted and the job which has been allocated
the node does not specify a desired MCDRAM mode.
The value can include one of the possible values identified with the
AllowMCDRAM configuration parameter above.
The default value is "cache".
値を指定しないジョブのデフォルトのMCDRAMモードを指定します。これは、ノードが起動され、ノードを割り当てられたジョブが目的のMCDRAMモードを指定していない場合にのみ使用されます。この値には、上記のAllowMCDRAM構成パラメーターで識別される可能な値の1つを含めることができます。デフォルト値は「キャッシュ」です。
- DefaultNUMA
-
Specify the default NUMA modes for job's which do not specify a value.
This is only used when a node is booted and the job which has been allocated
the node does not specify a desired NUMA mode.
The value can include one of the possible values identified with the
AllowNUMA configuration parameter above.
The default value is "a2a".
値を指定しないジョブのデフォルトのNUMAモードを指定します。これは、ノードがブートされ、ノードを割り当てられたジョブが目的のNUMAモードを指定していない場合にのみ使用されます。この値には、上記のAllowNUMA構成パラメーターで識別される可能な値の1つを含めることができます。デフォルト値は「a2a」です。
- Force
-
If set to a non-zero value then load the node_features/generic plugin even
on non-KNL nodes.
Used primarily for testing purposes.
ゼロ以外の値に設定した場合、KNL以外のノードでもnode_features / genericプラグインをロードします。主にテスト目的で使用されます。
- LogFile
-
Fully qualified path to a log file.
The default value is SlurmctldLogFile from the slurm.conf configuration file.
This is option is used only by the campc_suspend and campc_resume programs
(which power down and reboot nodes in the appropriate configuration).
ログファイルへの完全修飾パス。デフォルト値は、slurm.conf構成ファイルのSlurmctldLogFileです。このオプションは、campc_suspendおよびcampc_resumeプログラム(適切な構成でノードの電源を切って再起動する)でのみ使用されます。
- McPath
-
Fully qualified path to memory controller device file directory.
Children of this directory with names of the form "mc#/csrow#/ue_count"
(i.e. the count of unrecoverable memory errors) will be monitored for non-zero
values.
If such errors are detected, the node will be set to a DOWN state and the
slurmd daemon will shutdown.
The default value is "/sys/devices/system/edac/mc".
See also UmeCheckInterval.
メモリコントローラーデバイスファイルディレクトリへの完全修飾パス。「mc#/ csrow#/ ue_count」という形式の名前を持つこのディレクトリの子(つまり、回復不可能なメモリエラーの数)は、ゼロ以外の値が監視されます。そのようなエラーが検出されると、ノードはDOWN状態に設定され、slurmdデーモンがシャットダウンします。デフォルト値は「/ sys / devices / system / edac / mc」です。UmeCheckIntervalも参照してください。
- NodeRebootWeight
-
If a compute node requires a reboot to be usable for a pending job, then reset
the node's weight to the specified value.
The default value is 4,294,967,294 (0xfffffffe).
See also "Weight" in the node configuration specification of slurm.conf.
計算ノードが保留中のジョブで使用できるように再起動が必要な場合は、ノードの重みを指定された値にリセットします。デフォルト値は4,294,967,294(0xfffffffe)です。slurm.confのノード構成仕様の「重み」も参照してください。
- NumaCpuBind
-
Contains pairs of NUMA modes and the CpuBind mode to set a node to for that mode.
Any compute node found with or set to the specified NUMA mode will have that
node's CpuBind field set to the configured value.
The NUMA node will be followed by an equal sign the desired CpuBind mode for
that NUMA mode. Multiple NUMA mode and CpuBind modes should be in a semicolon
separated list.
By default changes to a node's NUMA mode will not effect that node's CpuBind
mode.
See the example below.
NUMAモードとCpuBindモードのペアが含まれ、そのモードにノードを設定します。指定されたNUMAモードで検出または設定された計算ノードは、そのノードのCpuBindフィールドが設定された値に設定されます。NUMAノードの後には、そのNUMAモードに必要なCpuBindモードの等号が続きます。複数のNUMAモードとCpuBindモードは、セミコロンで区切られたリストに含める必要があります。デフォルトでは、ノードのNUMAモードを変更しても、そのノードのCpuBindモードには影響しません。以下の例を参照してください。
- SyscfgPath
-
Fully qualified path to Intel's syscfg program, which identifies current
KNL configuration by viewing BIOS settings.
If not defined, the current BIOS setting will not be available.
The default value is "/usr/bin/syscfg".
This parameter is used only by the "knl_generic" plugin.
BIOS設定を表示して現在のKNL構成を識別するIntelのsyscfgプログラムへの完全修飾パス。定義されていない場合、現在のBIOS設定は使用できません。デフォルト値は「/ usr / bin / syscfg」です。このパラメーターは、「knl_generic」プラグインでのみ使用されます。
- SyscfgTimeout
-
Timeout for syscfg program in milliseconds.
Default value is 1000 milliseconds.
For Dell KNL systems, experience has shown that a higher value of 10000
milliseconds is more appropriate.
ミリ秒単位のsyscfgプログラムのタイムアウト。デフォルト値は1000ミリ秒です。Dell KNLシステムの場合、経験上、10000ミリ秒という高い値がより適切であることが示されています。
- SystemType
-
Used to distinguish the flavor of knl we are dealing with.
Possible options are "Dell" and "Intel".
The default value is "Intel".
This parameter is used only by the "knl_generic" plugin.
私たちが扱っているknlのフレーバーを区別するために使用されます。可能なオプションは「Dell」と「Intel」です。デフォルト値は「Intel」です。このパラメーターは、「knl_generic」プラグインでのみ使用されます。
- UmeCheckInterval
-
Interval, in microseconds, between checks for Uncorrectable Memory Errors (UME).
If such errors are detected, the node will be set to a DOWN state and the
slurmd daemon will shutdown.
The default value is 0 (disabled).
See also McPath.
訂正不能メモリエラー(UME)のチェックの間隔(マイクロ秒単位)。そのようなエラーが検出されると、ノードはDOWN状態に設定され、slurmdデーモンがシャットダウンします。デフォルト値は0(無効)です。McPathも参照してください。
- ValidateMode
-
If set to 1 then validate, but do not modify the node's configured MCDRAM and
NUMA modes from the slurm.conf file. If the actual modes do not match configured
values the node will be set to a DOWN state. Every KNL nodes MCDRAM and NUMA
states must both be listed in the slurm.conf file.
This parameter is used only by the "knl_cray" plugin.
1に設定した場合は検証されますが、slurm.confファイルからノードの構成済みMCDRAMおよびNUMAモードを変更しないでください。実際のモードが構成された値と一致しない場合、ノードはDOWN状態に設定されます。すべてのKNLノードのMCDRAMとNUMAの状態は、両方ともslurm.confファイルにリストされている必要があります。このパラメーターは「knl_cray」プラグインでのみ使用されます。
EXAMPLE
###################################################################
# knl_cray.conf
# Slurm configuration file for Intel Knights Landing on Cray system
###################################################################
CapmcPath=/opt/cray/capmc/default/bin/capmc
CapmcTimeout=6000
DefaultMCDRAM=flat
DefaultNUMA=a2a
NumaCpuBind=a2a=core;snc2=thread;snc4=thread
LogFile=/var/tmp/slurm_node_feature.log
SyscfgPath=/usr/sbin/syscfg
COPYING
Copyright (C) 2015-2017 SchedMD LLC.This file is part of Slurm, a resource management program. For details, see <https://slurm.schedmd.com/>.
Slurm is free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version 2 of the License, or (at your option) any later version.
Slurm is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.
SEE ALSO
slurm.conf(5)
Index
This document was created by man2html using the manual pages.
Time: 20:44:46 GMT, May 21, 2020