GNU/Linux >> Tutoriales Linux >  >> Linux

Descifrado de mensajes continuos de syslog mpt2sas

Solución 1:

Es probable que su mejor apuesta sea un problema de hardware en algún lugar entre sus discos y hasta su controlador sas raid incluido. Recomiendo probar:

  1. Ejecute las herramientas de diagnóstico de los proveedores, si están disponibles.
  2. Revise/vuelva a colocar/reemplace los cables
  3. elimine los componentes de hardware e intercambie el hardware en la cadena que conecta los discos a su controlador RAID, incluido el controlador mismo (es decir, para usted, intente algo diferente al RAID integrado en la placa base).

Tenía uno de dos Dell PowerEdge R515 idénticos que daban mensajes muy similares (los registros se llenaban periódicamente con mensajes mpt2sas0, aunque no tengo los códigos numéricos exactos). El propio diagnóstico de arranque de Dell los detectó como "errores de hardware" y el reemplazo del backplane RAID sas resolvió el problema.

Cuando estaba investigando, no pude encontrar un recurso completo de lo que significan varios códigos de error mpt2sas0. Sospecho que incluso pueden ser específicos del proveedor de hardware (alguien que sepa más sobre SAS debe confirmarlo o negarlo). Por lo tanto, sus códigos de error podrían significar algo muy diferente, pero si SMART está limpio, es difícil imaginar otras buenas razones para que mpt2sas0 informe códigos de error.

Estos errores pueden ser muy graves. Mi R515 aparentemente funcionó bien con estos mensajes durante una semana con un software RAID 6 de Ubuntu Linux de 12 discos, pero luego, de repente, expulsó los 12 discos de la matriz como rotos (!)

Además en mi caso los SMART para todos los discos quedaron completamente limpios. Una buena comprobación es una prueba inteligente de autodiagnóstico:smartctl -t long /dev/sdX y luego verifique los resultados aproximadamente un día después con smartctl -l selftest /dev/sdX . Si todo está bien, la prueba debería decir Completed y el LBA_first_err la columna debe estar vacía.

Solución 2:

Guau, una difícil.

Esto parece indicar que 0x31120303 es un restablecimiento de bus debido a que uno de sus dispositivos está bajo una gran carga. También dice que no tienes que preocuparte por eso. (Jaja, sí, claro.)

Esto indica que estos mensajes de registro están sucediendo porque uno de sus dispositivos tarda demasiado en responder a los comandos. Esto dice lo mismo y también indica que ocurre bajo una carga pesada.

Si bien esta no es una respuesta completa, con suerte lo guiará en una dirección útil.


Linux
  1. "upowerd[4116]:Mensajes de acción no controlada 'bind'" que llenan Syslog?

  2. ¿Cuál es la especificación de hardware de su nodo de servidor principal?

  3. Servicio de sistema operativo Linux 'syslog'

  4. Btrfs:RAID 1 en más de 3 dispositivos

  5. Después de la expansión de la matriz RAID de hardware, fdisk no me permitirá usar sectores disponibles adicionales

Cómo configurar RAID de hardware usando MegaCLI

Comprender las acciones de rsyslog

Mensajes de error "Cancelar comando emitido nexus" en el archivo /var/log/messages

hacer un archivo de registro

¿Cómo encontrar mensajes de error de los scripts Linux init.d/rc.d?

¿Cómo leer los mensajes de syslog de oom-killer?