strigger
Section: Slurm Commands (1)Updated: Slurm Commands
Index
NAME
strigger - Used set, get or clear Slurm trigger information.strigger-Slurmトリガー情報の使用、設定、取得、クリア。
SYNOPSIS
strigger --set [OPTIONS...]strigger --get [OPTIONS...]
strigger --clear [OPTIONS...]
DESCRIPTION
strigger is used to set, get or clear Slurm trigger information. Triggers include events such as a node failing, a job reaching its time limit or a job terminating. These events can cause actions such as the execution of an arbitrary script. Typical uses include notifying system administrators of node failures and gracefully terminating a job when its time limit is approaching. A hostlist expression for the nodelist or job ID is passed as an argument to the program.striggerは、Slurmトリガー情報を設定、取得、またはクリアするために使用されます。トリガーには、ノード障害、時間制限に達したジョブ、ジョブの終了などのイベントが含まれます。これらのイベントは、任意のスクリプトの実行などのアクションを引き起こす可能性があります。一般的な用途としては、ノードの障害をシステム管理者に通知したり、制限時間に近づいたときにジョブを適切に終了したりすることが挙げられます。ノードリストまたはジョブIDのホストリスト式は、引数としてプログラムに渡されます。
Trigger events are not processed instantly, but a check is performed for
trigger events on a periodic basis (currently every 15 seconds).
Any trigger events which occur within that interval will be compared
against the trigger programs set at the end of the time interval.
The trigger program will be executed once for any event occurring in
that interval.
トリガーイベントはすぐには処理されませんが、トリガーイベントのチェックが定期的(現在15秒ごと)に実行されます。その間隔内で発生するすべてのトリガーイベントは、時間間隔の最後に設定されたトリガープログラムと比較されます。トリガープログラムは、その間隔で発生するイベントに対して1回実行されます。
The record of those events (e.g. nodes which went DOWN in the previous
15 seconds) will then be cleared.
The trigger program must set a new trigger before the end of the next
interval to ensure that no trigger events are missed OR the trigger must be
created with an argument of "--flags=PERM".
If desired, multiple trigger programs can be set for the same event.
これらのイベント(たとえば、直前の15秒間にDOWNになったノード)の記録は消去されます。トリガープログラムは、次の間隔が終了する前に新しいトリガーを設定して、トリガーイベントを見逃さないようにするか、「-flags = PERM」の引数を指定してトリガーを作成する必要があります。必要に応じて、同じイベントに複数のトリガープログラムを設定できます。
IMPORTANT NOTE: This command can only set triggers if run by the
user SlurmUser unless SlurmUser is configured as user root.
This is required for the slurmctld daemon to set the appropriate
user and group IDs for the executed program.
Also note that the trigger program is executed on the same node that the
slurmctld daemon uses rather than some allocated compute node.
To check the value of SlurmUser, run the command:
重要な注意:このコマンドは、SlurmUserがユーザーrootとして構成されていない限り、ユーザーSlurmUserによって実行された場合にのみトリガーを設定できます。これは、slurmctldデーモンが実行されるプログラムに適切なユーザーIDとグループIDを設定するために必要です。また、トリガープログラムは、割り当てられた計算ノードではなく、slurmctldデーモンが使用するのと同じノードで実行されることに注意してください。SlurmUserの値を確認するには、次のコマンドを実行します。
scontrol show config | grep SlurmUser
ARGUMENTS
- -a, --primary_slurmctld_failure
-
Trigger an event when the primary slurmctld fails.
プライマリslurmctldが失敗したときにイベントをトリガーします。
- -A, --primary_slurmctld_resumed_operation
-
Trigger an event when the primary slurmctld resuming operation after failure.
障害後にプライマリslurmctldが操作を再開したときにイベントをトリガーします。
- -b, --primary_slurmctld_resumed_control
-
Trigger an event when primary slurmctld resumes control.
プライマリslurmctldが制御を再開したときにイベントをトリガーします。
- -B, --backup_slurmctld_failure
-
Trigger an event when the backup slurmctld fails.
バックアップslurmctldが失敗したときにイベントをトリガーします。
- -c, --backup_slurmctld_resumed_operation
-
Trigger an event when the backup slurmctld resumes operation after failure.
失敗後にバックアップslurmctldが操作を再開したときにイベントをトリガーします。
- -C, --backup_slurmctld_assumed_control
-
Trigger event when backup slurmctld assumes control.
バックアップslurmctldが制御を引き継ぐときにイベントをトリガーします。
- --burst_buffer
-
Trigger event when burst buffer error occurs.
バーストバッファエラーが発生したときにイベントをトリガーします。
- --clear
-
Clear or delete a previously defined event trigger.
The --id, --jobid or --user
option must be specified to identify the trigger(s) to
be cleared.
Only user root or the trigger's creator can delete a trigger.
以前に定義したイベントトリガーをクリアまたは削除します。クリアするトリガーを特定するには、-id、-jobid、または--userオプションを指定する必要があります。ユーザーrootまたはトリガーの作成者のみがトリガーを削除できます。
- -d, --down
-
Trigger an event if the specified node goes into a DOWN state.
指定されたノードがDOWN状態になった場合にイベントをトリガーします。
- -D, --drained
-
Trigger an event if the specified node goes into a DRAINED state.
指定されたノードがDRAINED状態になった場合にイベントをトリガーします。
- -e, --primary_slurmctld_acct_buffer_full
-
Trigger an event when primary slurmctld accounting buffer is full.
プライマリslurmctldアカウンティングバッファーがいっぱいになったときにイベントをトリガーします。
- -F, --fail
-
Trigger an event if the specified node goes into a FAILING state.
指定されたノードがFAILING状態になった場合にイベントをトリガーします。
- -f, --fini
-
Trigger an event when the specified job completes execution.
指定したジョブの実行が完了したときにイベントをトリガーします。
- --flags=type
-
Associate flags with the reservation. Multiple flags should be comma separated.
Valid flags include:
フラグを予約に関連付けます。複数のフラグはカンマで区切る必要があります。有効なフラグは次のとおりです。
-
- PERM
-
Make the trigger permanent. Do not purge it after the event occurs.
トリガーを永続化します。イベントの発生後は削除しないでください。
-
- --front_end
-
Trigger events based upon changes in state of front end nodes rather than
compute nodes. Applies to Cray ALPS architectures only, where the
slurmd daemon executes on front end nodes rather than the compute nodes.
Use this option with either the --up or --down option.
計算ノードではなく、フロントエンドノードの状態の変化に基づいてイベントをトリガーします。slurmdデーモンが計算ノードではなくフロントエンドノードで実行されるCray ALPSアーキテクチャにのみ適用されます。このオプションは、-upまたは--downオプションのいずれかと一緒に使用します。
- -g, --primary_slurmdbd_failure
-
Trigger an event when the primary slurmdbd fails. The trigger is launched by
slurmctld in the occasions it tries to connect to slurmdbd, but receives no
response on the socket.
プライマリslurmdbdが失敗したときにイベントをトリガーします。トリガーは、slurmdbdに接続しようとするときにslurmctldによって起動されますが、ソケットで応答を受け取りません。
- -G, --primary_slurmdbd_resumed_operation
-
Trigger an event when the primary slurmdbd resumes operation after failure.
This event is triggered when opening the connection from slurmctld to slurmdbd
results in a response. It can happen also in different situations, periodically
every 15 seconds when checking the connection status, when saving state,
when agent queue is filling, and so on.
プライマリslurmdbdが障害後に操作を再開したときにイベントをトリガーします。このイベントは、slurmctldからslurmdbdへの接続を開くと応答が発生したときにトリガーされます。これはさまざまな状況でも発生する可能性があり、接続ステータスのチェック時、状態の保存時、エージェントキューがいっぱいになるときなど、15秒ごとに定期的に発生します。
- --get
-
Show registered event triggers.
Options can be used for filtering purposes.
登録されたイベントトリガーを表示します。オプションはフィルタリングの目的で使用できます。
- -h, --primary_database_failure
-
Trigger an event when the primary database fails. This event is triggered when
the accounting plugin tries to open a connection with mysql and it fails and
the slurmctld needs the database for some operations.
プライマリデータベースに障害が発生したときにイベントをトリガーします。このイベントは、アカウンティングプラグインがmysqlとの接続を開こうとしたときにトリガーされ、失敗し、slurmctldで一部の操作にデータベースが必要になります。
- -H, --primary_database_resumed_operation
-
Trigger an event when the primary database resumes operation after failure.
It happens when the connection to mysql from the accounting plugin is restored.
障害後にプライマリデータベースが操作を再開したときにイベントをトリガーします。これは、アカウンティングプラグインからmysqlへの接続が復元されたときに発生します。
- -i, --id=id
-
Trigger ID number.
トリガーID番号。
- -I, --idle
-
Trigger an event if the specified node remains in an IDLE state
for at least the time period specified by the --offset
option. This can be useful to hibernate a node that remains idle,
thus reducing power consumption.
指定されたノードが少なくとも--offsetオプションで指定された期間IDLE状態のままである場合、イベントをトリガーします。これは、アイドル状態のノードを休止状態にして、電力消費を削減するのに役立ちます。
- -j, --jobid=id
-
Job ID of interest.
NOTE: The --jobid option can not be used in conjunction
with the --node option. When the --jobid option is
used in conjunction with the --up or --down option,
all nodes allocated to that job will considered the nodes used as a
trigger event.
対象のジョブID。注記:--jobidオプションは、-nodeオプションと組み合わせて使用することはできません。--jobidオプションを--upまたは--downオプションと組み合わせて使用すると、そのジョブに割り当てられたすべてのノードが、トリガーイベントとして使用されているノードと見なされます。
- -M, --clusters=<string>
-
Clusters to issue commands to.
Note that the SlurmDBD must be up for this option to work properly.
コマンドを発行するクラスター。このオプションが正しく機能するには、SlurmDBDが稼働している必要があります。
- -n, --node[=host]
-
Host name(s) of interest.
By default, all nodes associated with the job (if --jobid
is specified) or on the system are considered for event triggers.
NOTE: The --node option can not be used in conjunction
with the --jobid option. When the --jobid option is
used in conjunction with the --up, --down or
--drained option,
all nodes allocated to that job will considered the nodes used as a
trigger event. Since this option's argument is optional, for proper
parsing the single letter option must be followed immediately with
the value and not include a space between them. For example "-ntux"
and not "-n tux".
対象のホスト名。デフォルトでは、ジョブに関連付けられているすべてのノード(--jobidが指定されている場合)またはシステム上にあり、イベントトリガーと見なされます。注記:--nodeオプションは、-jobidオプションと組み合わせて使用することはできません。--jobidオプションを--up、-down、または--drainedオプションと組み合わせて使用すると、そのジョブに割り当てられたすべてのノードは、トリガーイベントとして使用されているノードと見なされます。このオプションの引数はオプションであるため、適切な解析を行うには、1文字のオプションの直後に値を入れ、間にスペースを入れないでください。たとえば、「-ntux」であり、「-n tux」ではありません。
- -N, --noheader
-
Do not print the header when displaying a list of triggers.
トリガーのリストを表示するときにヘッダーを印刷しません。
- -o, --offset=seconds
-
The specified action should follow the event by this time interval.
Specify a negative value if action should preceded the event.
The default value is zero if no --offset option is specified.
The resolution of this time is about 20 seconds, so to execute
a script not less than five minutes prior to a job reaching its
time limit, specify --offset=320 (5 minutes plus 20 seconds).
指定されたアクションは、この時間間隔でイベントに続く必要があります。イベントの前にアクションを実行する必要がある場合は、負の値を指定してください。--offsetオプションが指定されていない場合、デフォルト値はゼロです。この時間の分解能は約20秒です。したがって、ジョブが制限時間に達する前に5分以上スクリプトを実行するには、-offset = 320(5分+ 20秒)を指定します。
- -p, --program=path
-
Execute the program at the specified fully qualified pathname
when the event occurs.
You may quote the path and include extra program arguments if desired.
The program will be executed as the user who sets the trigger.
If the program fails to terminate within 5 minutes, it will
be killed along with any spawned processes.
イベントの発生時に、指定された完全修飾パス名でプログラムを実行します。パスを引用し、必要に応じて追加のプログラム引数を含めることができます。プログラムは、トリガーを設定したユーザーとして実行されます。プログラムが5分以内に終了しない場合、作成されたプロセスとともにプログラムが強制終了されます。
- -Q, --quiet
-
Do not report non-fatal errors.
This can be useful to clear triggers which may have already been purged.
致命的でないエラーは報告しないでください。これは、すでにパージされている可能性のあるトリガーをクリアするのに役立ちます。
- -r, --reconfig
-
Trigger an event when the system configuration changes.
This is triggered when the slurmctld daemon reads its configuration file or
when a node state changes.
システム構成が変更されたときにイベントをトリガーします。これは、slurmctldデーモンが構成ファイルを読み取るとき、またはノードの状態が変化したときにトリガーされます。
- --set
-
Register an event trigger based upon the supplied options.
NOTE: An event is only triggered once. A new event trigger
must be set established for future events of the same type
to be processed.
Triggers can only be set if the command is run by the user
SlurmUser unless SlurmUser is configured as user root.
指定されたオプションに基づいてイベントトリガーを登録します。注:イベントは1回だけトリガーされます。同じタイプの今後のイベントを処理するには、新しいイベントトリガーを設定する必要があります。トリガーは、SlurmUserがユーザーrootとして構成されていない限り、コマンドがユーザーSlurmUserによって実行される場合にのみ設定できます。
- -t, --time
-
Trigger an event when the specified job's time limit is reached.
This must be used in conjunction with the --jobid option.
指定したジョブの制限時間に達したときにイベントをトリガーします。これは--jobidオプションと組み合わせて使用する必要があります。
- -u, --up
-
Trigger an event if the specified node is returned to service
from a DOWN state.
指定されたノードがDOWN状態からサービスに戻った場合にイベントをトリガーします。
- --user=user_name_or_id
-
Clear or get triggers created by the specified user.
For example, a trigger created by user root for a job created by user
adam could be cleared with an option --user=root.
Specify either a user name or user ID.
指定したユーザーによって作成されたトリガーをクリアまたは取得します。たとえば、ユーザーadamによって作成されたジョブのユーザーrootによって作成されたトリガーは、オプション--user = rootでクリアできます。ユーザー名またはユーザーIDを指定します。
- -v, --verbose
-
Print detailed event logging. This includes time-stamps on data structures,
record counts, etc.
詳細なイベントログを出力します。これには、データ構造、レコード数などのタイムスタンプが含まれます。
- -V , --version
-
Print version information and exit.
バージョン情報を出力して終了します。
OUTPUT FIELD DESCRIPTIONS
- TRIG_ID
-
Trigger ID number.
トリガーID番号。
- RES_TYPE
-
Resource type: job or node
リソースタイプ:ジョブまたはノード
- RES_ID
-
Resource ID: job ID or host names or "*" for any host
リソースID:ジョブIDまたはホスト名、または任意のホストの「*」
- TYPE
-
Trigger type: time or fini (for jobs only),
down or up (for jobs or nodes), or
drained, idle or reconfig (for nodes only)
トリガータイプ:時間またはfini(ジョブのみ)、ダウンまたはアップ(ジョブまたはノード)、またはドレイン、アイドル、または再構成(ノードのみ)
- OFFSET
-
Time offset in seconds. Negative numbers indicated the action should
occur before the event (if possible)
秒単位の時間オフセット。負の数値は、アクションがイベントの前に発生する必要があることを示します(可能な場合)
- USER
-
Name of the user requesting the action
アクションをリクエストしているユーザーの名前
- PROGRAM
-
Pathname of the program to execute when the event occurs
イベント発生時に実行するプログラムのパス名
PERFORMANCE
Executing strigger sends a remote procedure call to slurmctld. If
enough calls from strigger or other Slurm client commands that send remote
procedure calls to the slurmctld daemon come in at once, it can result in
a degradation of performance of the slurmctld daemon, possibly resulting
in a denial of service.
striggerを実行すると、slurmctldにリモートプロシージャコールが送信されます。リモートプロシージャコールをslurmctldデーモンに送信するstriggerまたは他のSlurmクライアントコマンドからの十分な呼び出しが一度に着信すると、slurmctldデーモンのパフォーマンスが低下し、サービス拒否が発生する可能性があります。
Do not run strigger or other Slurm client commands that send remote
procedure calls to slurmctld from loops in shell scripts or other
programs. Ensure that programs limit calls to strigger to the minimum
necessary for the information you are trying to gather.
シェルスクリプトまたは他のプログラムのループからslurmctldにリモートプロシージャコールを送信するstriggerまたは他のSlurmクライアントコマンドを実行しないでください。プログラムがstriggerへの呼び出しを、収集しようとしている情報に必要な最小限に制限していることを確認してください。
ENVIRONMENT VARIABLES
Some strigger options may be set via environment variables. These
environment variables, along with their corresponding options, are listed below.
(Note: commandline options will always override these settings)
一部のstriggerオプションは、環境変数を介して設定できます。これらの環境変数と対応するオプションを以下に示します。(注:コマンドラインオプションは常にこれらの設定を上書きします)
EXAMPLES
Execute the program "/usr/sbin/primary_slurmctld_failure" whenever the primary slurmctld fails.プライマリslurmctldが失敗するたびに、プログラム「/ usr / sbin / primary_slurmctld_failure」を実行します。
> cat /usr/sbin/primary_slurmctld_failure #!/bin/bash # Submit trigger for next primary slurmctld failure event strigger --set --primary_slurmctld_failure \ --program=/usr/sbin/primary_slurmctld_failure # Notify the administrator of the failure using by e-mail /bin/mail slurm_admin@site.com -s Primary_SLURMCTLD_FAILURE > strigger --set --primary_slurmctld_failure \ --program=/usr/sbin/primary_slurmctld_failure
Execute the program "/usr/sbin/slurm_admin_notify" whenever
any node in the cluster goes down. The subject line will include
the node names which have entered the down state (passed as an
argument to the script by Slurm).
クラスター内のいずれかのノードが停止したときは常に、プログラム「/ usr / sbin / slurm_admin_notify」を実行します。件名には、ダウン状態になったノード名が含まれます(Slurmによってスクリプトの引数として渡されます)。
> cat /usr/sbin/slurm_admin_notify #!/bin/bash # Submit trigger for next event strigger --set --node --down \ --program=/usr/sbin/slurm_admin_notify # Notify administrator using by e-mail /bin/mail slurm_admin@site.com -s NodesDown:$* > strigger --set --node --down \ --program=/usr/sbin/slurm_admin_notify
Execute the program "/usr/sbin/slurm_suspend_node" whenever
any node in the cluster remains in the idle state for at least
600 seconds.
クラスタ内のいずれかのノードが少なくとも600秒間アイドル状態のままである場合は常に、プログラム "/ usr / sbin / slurm_suspend_node"を実行します。
> strigger --set --node --idle --offset=600 \ --program=/usr/sbin/slurm_suspend_node
Execute the program "/home/joe/clean_up" when job 1234 is within
10 minutes of reaching its time limit.
ジョブ1234が制限時間に達してから10分以内にプログラム "/ home / joe / clean_up"を実行します。
> strigger --set --jobid=1234 --time --offset=-600 \ --program=/home/joe/clean_up
Execute the program "/home/joe/node_died" when any node allocated to
job 1234 enters the DOWN state.
ジョブ1234に割り当てられたノードがDOWN状態になったときに、プログラム "/ home / joe / node_died"を実行します。
> strigger --set --jobid=1234 --down \ --program=/home/joe/node_died
Show all triggers associated with job 1235.
ジョブ1235に関連付けられているすべてのトリガーを表示します。
> strigger --get --jobid=1235 TRIG_ID RES_TYPE RES_ID TYPE OFFSET USER PROGRAM 123 job 1235 time -600 joe /home/bob/clean_up 125 job 1235 down 0 joe /home/bob/node_died
Delete event trigger 125.
イベントトリガー125を削除します。
> strigger --clear --id=125
Execute /home/joe/job_fini upon completion of job 1237.
ジョブ1237が完了したら、/ home / joe / job_finiを実行します。
> strigger --set --jobid=1237 --fini --program=/home/joe/job_fini
COPYING
Copyright (C) 2007 The Regents of the University of California. Produced at Lawrence Livermore National Laboratory (cf, DISCLAIMER).Copyright (C) 2008-2010 Lawrence Livermore National Security.
Copyright (C) 2010-2013 SchedMD LLC.
This file is part of Slurm, a resource management program. For details, see <https://slurm.schedmd.com/>.
Slurm is free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version 2 of the License, or (at your option) any later version.
Slurm is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.
SEE ALSO
scontrol(1), sinfo(1), squeue(1)
Index
- NAME
- SYNOPSIS
- DESCRIPTION
- ARGUMENTS
- OUTPUT FIELD DESCRIPTIONS
- PERFORMANCE
- ENVIRONMENT VARIABLES
- EXAMPLES
- COPYING
- SEE ALSO
This document was created by man2html using the manual pages.
Time: 20:44:46 GMT, May 21, 2020