OSSミドルな戯れ
JUGEMテーマ:コンピュータ
インストールできたものの、TPP初期化の失敗で終わってしまったPBSPro、原因を調べてみたところ、ホスト名(PBSサーバ名)に関係していた。
TCP通信に関するエラーなので、OSのネットワークセキュリティがらみの制限にひかかったのではないかと思い、SELinuxのログを調べたが、それらしいものはなにもなかった。次に、原因がlocalhostというホスト名にあるのではという想像でホスト名を付け替えてみたが、実行結果エラーは変わらなかった(実はやり方が半端※)。結局、ソースコードを追っかけることにした。それらしいところに検討をつけて、ファイルを開きつつ読み始めたが途中で疲れてきた。そして、デバッガを使うことにした。デバッガで、処理をトレースしてみたところ、サーバとしてループバックアドレスを使えないことがわかった。
※ KVMで起動してテンプレート化したいため固有のアドレスを割り当てるのが嫌で、ホスト名を変更する際にその名前をループバックアドレスのlocalhost の行に追加していた。
JUGEMテーマ:コンピュータ
PBSPro がインストールできたので、さっそく起動してみたところ、うまくいっているのかいないのか、よくわからない。
[root@localhost ~]# /etc/init.d/pbs start
Starting PBS
PBS Home directory /var/spool/pbs needs updating.
Running /opt/pbs/libexec/pbs_habitat to update it.
***
*** Setting default queue and resource limits.
***
Connecting to PBS dataservice....connected to PBS dataservice@localhost
pbs_iff: cannot connect to host
pbs_iff: cannot connect to host
No Permission.
qmgr: cannot connect to server
Connection refused
qmgr: cannot connect to server
Connection refused
qterm: could not connect to server (111)
*** End of /opt/pbs/libexec/pbs_habitat
Home directory /var/spool/pbs updated.
/opt/pbs/sbin/pbs_comm ready (pid=3919), Proxy Name:localhost:17001, Threads:4
PBS comm
PBS mom
PBS sched
Connecting to PBS dataservice.....connected to PBS dataservice@localhost
Licenses valid for 1000000 Floating hosts
PBS server
一見うまくいってそうなので、サーバに接続してみるとだめだった。
[root@localhost ~]# /opt/pbs/bin/qmgr
Connection refused
qmgr: cannot connect to server
というわけで、調査。。。
JUGEMテーマ:コンピュータ
Altair Engineering社が開発していたPBS(Portable Batch System)の商用製品を、PBSProとして2016年5月にオープンソース化してもう1年以上になる。PBSProは、次のサイトから CentOS-7用のパッケージとopenSUSE-13.2用のrpmパッケージ、および、ソースコードのアーカイブがダウンロードできる。
http://www.pbspro.org/Download.aspx
※PBSはもともと、NASAで開発されたNQS(Network Queueing System)バッチキューイングシステムから派生し、OpenPBSとして公開されいた(バージョン2の頃)。その後PBS Professionalとして商用化された後、オープンソース版は、TORQUE (Terascale Open-source Resource and QUEue Manager)としてフォークして引き継がれていた。
1年以上の間にRHEL7もセキュリティアップデートがあり最新版のCentOS 7.4では、pbspro-server-14.1.0-13.1.x86_64.rpm のインストールはできたものの(CentOS 7.3以降ではlibical.so.0がlibical.so.1になっているため)、残念ながら、そのままでは動かなくなっていた。このため、ソースアーカイブからコンパイルし直す必要があったが、幸い用意されていたSRPM(pbspro-14.1.0-13.1.src.rpm)からビルドし直すことができた。