GNU/Linux >> Tutoriales Linux >  >> Linux

Cómo interpretar estos datos de smartctl (smartmon)

Solución 1:

Para los discos de Seagate (y posiblemente también algunos antiguos de WD), Seek_Error_Rate y Raw_Read_Error_Rate son números de 48 bits, donde los 16 bits más significativos son un recuento de errores y los 32 bits más bajos son un número de operaciones.

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Entonces su disco ha realizado 2440858991 búsquedas, de las cuales 46 fallaron. Mi experiencia con las unidades Seagate es que tienden a fallar cuando la cantidad de errores supera los 1000. YMMV.

Solución 2:

La "tasa de error de búsqueda" y la "tasa de error de lectura sin procesar" RAW_VALUES son prácticamente insignificantes para cualquiera que no sea el soporte de Seagate. Como señalaron otros, es más probable que los valores sin procesar de parámetros como "recuento de sectores reasignados" o entradas en el registro de errores de la unidad indiquen una mayor probabilidad de falla.

Pero puede echar un vistazo a los datos interpretados en las columnas VALOR, PEOR y UMBRAL que deben leerse como indicadores:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

Lo que significa que su índice de error de búsqueda actualmente se considera "77% bueno" y SMART lo informa como un problema cuando alcanza el "30% bueno". Había sido tan bajo como "60% bueno" una vez, pero se ha recuperado mágicamente desde entonces. Tenga en cuenta que los valores interpretados son calculados internamente por la lógica SMART de la unidad y que el fabricante puede publicar o no el cálculo exacto y, por lo general, el usuario no puede modificarlo.

Personalmente, considero que una unidad que contiene entradas de registro de errores "falla" e insto a que se reemplace tan pronto como ocurran. Pero en general, los datos SMART han resultado ser un indicador bastante débil para la predicción de fallas, como descubrió un artículo de investigación publicado por Google.

Solución 3:

En mi experiencia, Seagates tiene números extraños para esos dos atributos SMART. Cuando diagnostico un Seagate, tiendo a ignorarlos y mirar más de cerca otros campos como Recuento de sectores reasignados. Por supuesto, en caso de duda, reemplace la unidad, pero incluso los nuevos Seagates tendrán números altos para esos atributos.

Solución 4:

Me di cuenta de que esta discusión es un poco antigua, pero quiero agregar mis 2 centavos. He descubierto que la información inteligente es un buen indicador de prefallo. Cuando se dispare un umbral inteligente, reemplace la unidad. Para eso están esos umbrales.

La gran mayoría de las veces comenzará a ver sectores defectuosos. Esa es una señal segura de que la unidad está comenzando a fallar. SMART me ha salvado muchas veces. Yo uso el software RAID 1 y es muy útil ya que simplemente reemplaza la unidad que falla y reconstruye la matriz.

También realizo autoevaluaciones cortas y largas semanalmente.

smartctl -t short /dev/sda
smartctl -t long /dev/sda 

O agréguelo /etc/smartd.conf y obtenga un correo electrónico si hay errores

/dev/sda -s L/../../3/22 -I 194 -m [email protected]
/dev/sdb -s L/../../7/22 -I 194 -m [email protected]

Asegúrese de instalar logwatch y redirigir la raíz a una dirección de correo electrónico y verifique los correos electrónicos diarios de logwatch. Las banderas disparadas de SMARTD aparecerán allí, pero no sirve de nada si nadie lo está monitoreando regularmente.

Solución 5:

Perdón por cometer necromancia en esta publicación, pero en mi experiencia, los campos "Tasa de error de lectura sin formato" y "ECC de hardware recuperado" para una unidad Seagate se irán literalmente por todas partes. e incrementar constantemente en el rango de billones en cuyo punto volverán a cero para continuar el proceso nuevamente. Tengo un Seagate ST9750420AS que ha tenido ese problema desde el primer día y todavía funciona muy bien incluso después de varios años y más de 3500 horas de uso.

Creo que esos campos se pueden ignorar de manera segura si está ejecutando uno en su caso. Solo asegúrese de que los dos campos informen el mismo número y estén sincronizados constantemente. Si no lo son... bueno... Eso en realidad podría significar un problema.


Linux
  1. Por qué los datos son importantes y cómo protegerlos

  2. Cómo interpretar la información capturada de Wireshark

  3. ¿Cómo corregir el error de instalación de Ruby:EC_GROUP_new_curve_GF2m no declarado (primer uso en esta función)?

  4. Así es como funciona un servidor Linux

  5. ¿Cómo interpretar y corregir un error de entrada/salida en Linux?

Cómo solucionar problemas de ERR_TOO_MANY_REDIRECTS

Cómo instalar OpenSC en IPFire Firewall

Cómo corregir el error de conversión con Calibre

Cómo fusionar datos en Linux

¿Cómo eliminar este directorio indeleble?

Cómo agregar una fuente de datos a Redash