Aunque esta es una pregunta relativamente antigua, la respuesta sigue siendo la misma. Tiene una máquina virtual (que se ejecuta en un host físico) y algún tipo de almacenamiento (ya sea almacenamiento compartido, un FC SAN, almacenamiento iSCSI, un recurso compartido NFS, o almacenamiento local).
Con la virtualización, muchas máquinas virtuales intentan acceder a los mismos recursos físicos al mismo tiempo. Debido a las limitaciones físicas (cantidad de operaciones de lectura/escritura - IOPS; rendimiento; latencia) puede haber un problema para satisfacer todas las solicitudes de almacenamiento de todas las máquinas físicas al mismo tiempo. Lo que suele suceder:podrá ver "Reintentos SCSI" y operaciones SCSI fallidas en los sistemas operativos de sus máquinas virtuales. Si obtiene demasiados errores/reintentos en un cierto período de tiempo, el kernel configurará los sistemas de archivos montados como de solo lectura para evitar daños al sistema de archivos.
Para acortar la larga historia:su almacenamiento físico no es lo suficientemente "poderoso". Hay demasiados procesos (máquinas virtuales) que acceden al sistema de almacenamiento al mismo tiempo, sus máquinas virtuales no obtienen la respuesta del almacenamiento lo suficientemente rápido y el sistema de archivos pasa a ser de solo lectura.
No hay muchas cosas que puedas hacer. La solución obvia es mejor/almacenamiento adicional. También puede modificar los parámetros para los tiempos de espera de SCSI en el kernel de Linux. Los detalles se describen, por ejemplo, en:
http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1009465
http://www.cyberciti.biz/tips/vmware-esx-server-scsi-timeout-for-linux-guest.html
Sin embargo, esto solo "pospondrá" sus problemas, porque el kernel solo tiene más tiempo antes de que el sistema de archivos se configure como de solo lectura. (Es decir, no resuelve la causa del problema).
Mi experiencia (varios años con VMware) es que este problema solo existe con los kernels de Linux (estamos usando RHEL y SLES) y no con los servidores de Windows. Además, este problema ocurre en todo tipo de almacenamiento:FC, iSCSI, almacenamiento local. Para nosotros, el componente más crítico (y costoso) de nuestra infraestructura virtual es el almacenamiento. (Ahora usamos HP LeftHand con conexiones iSCSI de 1 Gbps y no hemos tenido ningún problema de almacenamiento desde entonces. Elegimos LeftHand (sobre las soluciones FC tradicionales) por su escalabilidad.
Una posible explicación es que hay un problema de hardware (falla parcial del disco) y que el kernel volvió a montar el sistema de archivos raíz como de solo lectura tan pronto como detectó el problema, para minimizarlo. Una forma más fiable¹ de comprobar las opciones de montaje actuales es cat /proc/mounts
(grep ' / ' /proc/mounts
para el sistema de archivos raíz, ignore un rootfs / …
línea que es un artefacto del proceso de arranque). Presumiblemente encontrará que rw,errors=remount-ro
ha cambiado a ro
(se pueden mostrar otras opciones además).
Los registros del núcleo probablemente contienen el mensaje Remounting filesystem read-only
, precedido por errores de acceso al disco. Los registros normalmente viven en /var/log/kern.log
, sin embargo, si esto está en un sistema de archivos ahora de solo lectura, el mensaje no aparecerá allí, aunque los errores anteriores deberían hacerlo. También puede ver los últimos errores del kernel con el dmesg
comando.
Aparte, en Ubuntu, el lugar habitual para los puntos de montaje (utilizados por la interfaz de escritorio) es /media
(por ejemplo, /media/cdrom0
), aunque puedes usar /mnt
o /mnt/cdrom
si quieres.
¹ mount
informes de /etc/mtab
. Si el sistema de archivos raíz es de solo lectura, /etc/mtab
no se puede mantener actualizado.
Lo que sucedió fue que hubo una falla de energía en el centro de datos recientemente. Desde entonces, no he tocado mi servidor. Una vez que nuestro centro de datos pierde energía, VSphere hace que el sistema de archivos de Ubuntu sea de solo lectura hasta que se reinicie. Habría intentado reiniciar, pero no quería que todo el monitoreo se volviera loco. He silenciado Nagios (servicio de monitoreo) y todo funciona bien ahora que reinicié el sistema. Gracias por todos los aportes. Se agradece mucho.