Estoy trabajando en una máquina de clúster que usa el administrador de trabajos Slurm. Acabo de iniciar un código de subprocesos múltiples y me gustaría verificar el uso del núcleo y del subproceso para una ID de nodo determinada. Por ejemplo,
scoreusage -N 92512
donde "scoreusage" es el comando del que no estoy seguro.
Respuesta aceptada:
Han pasado algunos años desde que ejecuté un clúster de slurm, pero squeue
debe darte lo que quieres. Prueba:
squeue --nodelist 92512 -o "%A %j %C %J"
(eso debería dar su ID de trabajo, nombre de trabajo, CPU y subprocesos para sus trabajos en el nodo 92512)
Por cierto, a menos que solo desee detalles específicos de un nodo en particular, es mejor que busque por ID de trabajo en lugar de ID de nodo.
Hay muchos buenos sitios con documentación sobre el uso de slurm disponible en la web, que se encuentran fácilmente a través de Google:la mayoría de las universidades, etc., que ejecutan un clúster de HPC escriben sus propios documentos, ayuda y "hojas de referencia", personalizadas según los detalles de su clúster específico. (s) (así que tenga eso en cuenta y adapte cualquier ejemplo a SU grupo). También hay buena documentación genérica sobre el uso de slurm
en https://slurm.schedmd.com/documentation.html