Lifematics Corporate Blog

Lifematics社のコーポレートブログへようこそ!

複数のSlurmクラスタの管理

導入時期がずれていたり、役割や使用するユーザーや部署、Computeを構成するハードウェアが異なる場合などに、複数のSlurmクラスタを管理するケースがあります。

いくつかのSlurmクラスタを利用していると、実行したJobIDが重複してしまい、どのSlurmクラスタで実行したジョブかすぐに判断することが分かりにくくなります。

JobIDのナンバリング設定

このような場合、slurm.confへ「FirstJobId」を設定することで、それぞれのSlurmクラスタでJobIDのナンバリング体系を変えることができます。

slurm.confへ追記

FirstJobId=100001

■指定前のJobID履歴

37.batch   
38         
39         
40         
41         
41.batch  

■指定後のJobID履歴

37.batch   
38         
39         
40         
41         
41.batch   
100001
100001.batch 

>> 最新のJobIDが100001になりました。

例えば、cluster_aは100000から、cluster_bは200000から、のようにナンバリングすることで、どのSlurmクラスタで実行したジョブかすぐに判断することができます。

次回はフェデレーション設定を使用することで、より便利に複数のSlurmクラスタを運用する方法をご紹介いたします。