Este artículo es una historia de mi pasado. Solía trabajar como administrador de sistemas para una empresa que tenía una tienda en línea que vendía hardware y software para computadoras.
En la parte de atrás, docenas de empleados usaban un servidor terminal para trabajar con el software ERP que administraba todos los bienes y el comercio. Los servidores de terminales y las bases de datos eran fundamentales para el proceso comercial de venta de nuestros productos. Cuando uno de estos sistemas falló, decenas de empleados no pudieron hacer su trabajo y los clientes ya no pudieron comprar nada.
¿Cuánto tiempo tenemos?
Así que nos sentamos con el propietario del proceso de negocios y le preguntamos:"Bueno, piense en una situación en la que el sistema está roto y ya no se puede utilizar. ¿Cuánto tiempo tiene para recuperarse hasta que el daño a la empresa sea devastador?" El gerente lo pensó por un tiempo y dijo:"¡Dos horas, máximo!"
Nos sentamos con los muchachos que ejecutan la aplicación ERP y les preguntamos:"¿Cuánto tiempo llevaría reinstalar la aplicación y configurar el servidor terminal si tuviéramos que recuperarnos de una falla fatal del sistema?" La respuesta fue:"¡Dos días, mínimo!" Supongo que puedes ver la brecha aquí.
Para mí, la primera prioridad era reducir el tiempo de restauración de dos días a menos de dos horas. Reinstalar el sistema operativo, las aplicaciones y restaurar las copias de seguridad de datos no era una opción porque lleva demasiado tiempo. Elegí una aplicación de copia de seguridad de imágenes que puede realizar una copia de seguridad completa del sistema, es decir, el sistema operativo, las aplicaciones instaladas, las bibliotecas y los datos. Con este software, podría restaurar el sistema sin tener que completar ninguna tarea de instalación manual.
¿Qué necesitamos?
Una configuración clásica es ejecutar la copia de seguridad por la noche cuando nadie está trabajando. En caso de fallar, tendríamos que restaurar la imagen de anoche o quizás una versión aún más antigua. En este escenario, una prueba mostró que necesitábamos cinco horas para una restauración completa. Eso es mejor que dos días, pero aún no es lo suficientemente bueno. Y hay otra cuestión oculta en este enfoque. Si el sistema se bloqueó por la noche y tenemos que restaurar desde la copia de seguridad de la noche anterior, perderemos todos los cambios del día actual. Eso no era aceptable para nuestra tienda en línea. Bueno, nuestro primer pensamiento fue ejecutar una copia de seguridad incremental cada hora. En ese caso, perderíamos solo la última hora de datos. Pero, ¿qué sucede cuando el problema que daña nuestro sistema ya está en la imagen de respaldo cuando descubrimos el problema? Bueno, esto es lo que hicimos.
Nos sentamos nuevamente y discutimos cuánto tiempo lleva descubrir un problema devastador que conduciría a una recuperación del sistema. Acordamos un plazo de cuatro horas. En resumen, queríamos perder la menor cantidad de trabajo posible, restaurar en un máximo de dos horas y asegurarnos de que no hubiera un problema en la copia de seguridad cuando lo descubrimos. Con esta información, configuré un enfoque de copia de seguridad al que los proveedores de software se refieren como restauración instantánea, restauración en la sombra, restauración preventiva o un término similar. Ejecutamos trabajos de copia de seguridad incrementales cada hora y restauramos las copias de seguridad en segundo plano en una nueva máquina virtual. Cada hora completa, teníamos un sistema listo que estaba cuatro horas atrás en el tiempo y solo necesitaba ser terminado. Entonces, si elijo restaurar el incremental desde hace una hora, tomaría menos tiempo que una restauración completa del sistema porque solo los pequeños incrementos tuvieron que restaurarse en la máquina virtual casi lista.
Y el esfuerzo valió la pena
Un día, estaba de vacaciones, haciendo una barbacoa y tomando una cerveza, cuando recibí una llamada de mi colega diciéndome que el servidor de la terminal con la aplicación ERP estaba averiado debido a una actualización fallida y que el tipo que ejecutó la actualización se olvidó de tomar una instantánea primero.
Lo único que necesitaba decirle a mi colega era que apagara la máquina averiada, buscara la interfaz de usuario de nuestro sistema de respaldo/restauración y luego identificara el trabajo de restauración. Finalmente, le dije cómo elegir la marca de tiempo de las últimas cuatro horas cuando debería finalizar la restauración. La restauración finalizó 30 minutos después y el sistema estaba listo para usarse nuevamente. Regresamos a la acción después de un total de 30 minutos, ¡y solo se perdió el trabajo de las últimas dos horas más o menos! ¡Impresionante! Ahora, de vuelta a las vacaciones.
Terminar
Por lo tanto, tenga en cuenta que el tiempo y el dinero para una solución de copia de seguridad y recuperación adecuada están bien invertidos cuando se trata de una restauración de emergencia.
[ Curso en línea gratuito:Resumen técnico de Red Hat Enterprise Linux. ]