Pregunta Los trabajos que no se ejecutan en Torque, la instalación de Maui no ayuda


Así que acabo de instalar Torque en un pequeño clúster que estamos configurando, y todo parecía haber ido bastante bien. yo tengo pbs_mon ejecutándose en los nodos de computación y pbs_server ejecutándose en el nodo principal, y pbsnodes -a desde el nodo principal muestra todos los nodos en el estado "libre".

Sin embargo, cuando presento un trabajo trivial, incluso el echo 'sleep 30' trabajo - usando el qsub comando, las cosas simplemente se sientan en la cola y nunca se ejecutan. Tengo cuatro nodos de cálculo y estoy solicitando 4 nodos (memoria / tiempo / ppn no especificados).

Pensé que quizás necesitaba instalar Maui para que la programación de trabajos funcionara bien, pero en retrospectiva, Torque debería poder programar y ejecutar trabajos por sí mismo, ¿no es así? En cualquier caso, instalé Maui (¿con éxito?) En el nodo principal (haciendo un showq muestra mis trabajos enviados como BLOQUEADOS) ... Supongo que está trabajando en el nodo principal, ya que de lo contrario no podría ver mi trabajos qsub-submitted, ¿verdad? ¿Debo instalar Maui en cada uno de los nodos de cálculo para que funcione? ¿Y necesito comenzar con maui también?

Realmente solo quiero que esto funcione para cosas simples ... ya veremos el resto más tarde. Soy bastante nuevo en esto y agradeceré cualquier ayuda que se me ofrezca. Intenté hacer lo que se menciona en las guías de instalación, y como dije, todo parecía funcionar, pero ahora no se está comportando como esperaba.

Aquí está la salida de correr checkjob en un trabajo en la cola ...

  job is deferred.  Reason:  RMFailure  (cannot start job - RM failure, rc: 15043, 
  msg: 'Execution server rejected request MSG=cannot send job to mom, state=PRERUN')
  Holds:    Defer  (hold reason:  RMFailure)
  PE:  1.00  StartPriority:  1
  cannot select job 8 for partition DEFAULT (job hold active)

Creo que pbs_mom se ejecuta en todos los nodos de cálculo:

  [root@host1 ~]# service pbs_mom status
  pbs_mom (pid 27824) is running...

  [root@host2 ~]# service pbs_mom status
  pbs_mom (pid 20164) is running...

  [root@host3 ~]# service pbs_mom status
  pbs_mom (pid 23981) is running...

  [root@host4 ~]# service pbs_mom status
  pbs_mom (pid 23996) is running...

También creo pbs_server se está ejecutando en el nodo principal ... ¿podría ser posible que mi problema sea que tengo que cambiar iptables para asegurarme de que los puertos requeridos no están siendo bloqueados? Una vez más, todos los nodos se muestran como gratuitos después de una pbsnodes -a...

En caso de que esto contenga información útil ...

  [root@headnode maui-3.3.1]# pbsnodes -a
  host1
       state = free
       np = 4
       properties = dual470
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=164038242,gres=,
  loadave=0.00,ncpus=4,physmem=8060460kb,availmem=17684340kb,totmem=18349604kb,
  idletime=241170,nusers=2,nsessions=9,sessions=3444 3328 3564 3574 3604 3620 
  3630 3684 6843,uname=Linux hawc1 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host2
       state = free
       np = 4
       properties = dual480
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=106187454,gres=,
  loadave=0.00,ncpus=8,physmem=8058888kb,availmem=13819772kb,
  totmem=14219264kb,idletime=241201,nusers=1,nsessions=6,sessions=3446 
  3450 3452 3477 3479 3504,uname=Linux hawc2 2.6.32-71.29.1.el6.x86_64 
  #1 SMP Mon Jun 27 19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host3
       state = free
       np = 4
       properties = dual480
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=148456196,gres=,
  loadave=0.00,ncpus=8,physmem=8058888kb,availmem=13722692kb,totmem=14219264kb,
  idletime=241161,nusers=2,nsessions=8,sessions=3482 3362 3584 3594 3624 3640 
  3650 3706,uname=Linux hawc3 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host4
       state = free
       np = 4
       properties = 480C2050
       ntype = cluster
       status = 
  rectime=1317050595,varattr=,jobs=,state=free,netload=154812523,gres=,
  loadave=0.01,ncpus=8,physmem=8058888kb,availmem=13715256kb,totmem=14219264kb,
  idletime=241142,nusers=2,nsessions=9,sessions=3504 3386 3590 3600 3630 3650 
  3655 3712 3829,uname=Linux hawc4 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

SOLUCIONADO

Entonces resulta que iptables me estaba metiendo la pata. Inhabilité iptables en los nodos de cálculo y agregué las entradas correctas en el nodo principal, y ahora parece funcionar bien ... Puedo hacer qsub echo "sleep 30" y ver cómo funciona. Tengo un nuevo problema, pero haré una nueva pregunta ahora ... ¡ojalá sea más fácil!


2


origen


Mira esto pbs_mom se ejecuta en todos los nodos. Parece que es el problema ... - aland
@aland: Por favor revisa mi edición ... - Patrick87


Respuestas: