Prácticas recomendadas para la recuperación ante desastres en un entorno VMware
La recuperación ante desastres es un proceso que incluye un conjunto de medidas dirigidas a recuperar los componentes de una infraestructura después de que se haya producido un fallo. Además, la RD pretende minimizar los efectos negativos que puede causar un desastre, así como garantizar la continuidad del negocio. Para prepararse ante los posibles tipos de desastres, las empresas suelen elaborar un plan de recuperación ante desastres que debe formar parte de un plan de continuidad de la actividad.
Las máquinas virtuales son los componentes que corren peligro en caso de desastre; por este motivo, debe prepararse para la catástrofe elaborando un plan de recuperación ante desastres. Esta entrada de blog explora las prácticas recomendadas de recuperación ante desastres (DR) del entorno virtual VMware.
Elabore un plan de recuperación ante desastres
Un plan de recuperación ante desastres es un documento estructurado que describe un proceso de recuperación ante desastres como un conjunto de acciones que deben realizar las personas adecuadas en una situación desastrosa. Además, el documento determina los criterios de lo que se necesita para poner en marcha el plan. Tanto los catalizadores naturales como los provocados por el hombre pueden causar una catástrofe. Un plan de RD debe incluir diferentes escenarios de recuperación para distintos tipos de catástrofes e incidentes imprevistos. Por ejemplo, un plan de RD puede describir qué hacer en caso de un ataque de ransomware, un apagón, un fallo de hardware, un terremoto, un tifón, etc. Un plan de RD puede clasificarse en categorías: por ejemplo, la primera sección podría explicar la recuperación de la red, la segunda podría centrarse en la recuperación del centro de datos, mientras que la tercera explicaría la recuperación de las máquinas virtuales, etc.
Prepare su sitio de recuperación
Un centro de recuperación ante desastres es un lugar al que puede recurrir una empresa para recuperar la infraestructura y las cargas de trabajo cuando deja de funcionar un centro primario que se utiliza con fines de producción. Las instalaciones de recuperación ante desastres pueden ser calientes, templadas o frías.
- Un sitio caliente es un sitio de DR totalmente funcional que está equipado con servidores ESXi configurados, almacenamiento, réplicas de máquinas virtuales y datos de usuario. Si un sitio primario falla tras un desastre, un sitio caliente está listo para ser utilizado inmediatamente. La instalación de un sitio caliente es costosa, pero ofrece la posibilidad de una recuperación lo más rápida posible.
- Un sitio caliente contiene algunos equipos, como equipos de red, servidores de pasarela, hosts ESXi, así como almacenamiento, pero puede no contener máquinas virtuales ni datos de usuario. En este caso, las máquinas virtuales deben recuperarse a partir de backups, y es posible que también haya que copiar los datos de usuario. Durante el proceso de recuperación ante desastres pueden instalarse equipos y software adicionales, por lo que utilizar un emplazamiento caliente es una solución comprometida que requiere costes medios, pero proporciona un tiempo de recuperación asequible.
- Un sitio frío es un sitio de RD que sólo dispone de la infraestructura básica. Cuando se produce un desastre, hay que configurar los servidores, hacer backups del almacenamiento, recuperar las máquinas virtuales y extraer los datos de los usuarios de los backups. El uso de este tipo de sitio de DR requiere más esfuerzo para recuperar las máquinas virtuales y las cargas de trabajo. Este proceso de recuperación lleva mucho tiempo, pero el precio de tener un sitio frío es el más bajo en comparación con otros tipos de sitios.
Hacer backups y réplicas automáticamente
Los backups y las réplicas de VM son los componentes más importantes de la recuperación ante desastres en un entorno virtual VMware vSphere. El backup incluye una copia de los datos de la máquina virtual, que se almacena en un lugar seguro. Los datos de las copias de seguridad pueden comprimirse y necesitan tiempo para recuperarse. Una réplica de máquina virtual es una copia idéntica de la máquina virtual de origen que reside en un host ESXi, está lista para iniciarse cuando sea necesario y se utiliza durante la conmutación por error. Evite hacer backup de las máquinas virtuales manualmente con demasiada frecuencia, ya que algunos cambios importantes pueden perderse en caso de desastre. Utilice un software adecuado de protección de datos de máquinas virtuales a nivel de host que pueda crear backups de máquinas virtuales y réplicas de máquinas virtuales de forma automática estableciendo una programación.
Utilizar las funciones de agrupación en clústeres de VMware
VMware proporciona funciones de agrupación en clúster, como el clúster de programador de recursos distribuidos (DRS), el clúster de alta disponibilidad (HA) y la tolerancia a fallos (disponible para máquinas virtuales en un clúster HA). Un clúster de HA le ayuda a minimizar el tiempo de inactividad de las máquinas virtuales, mientras que la tolerancia a fallos (FT) le permite evitar el tiempo de inactividad de las máquinas virtuales en caso de fallo del hardware. Tenga en cuenta que las funciones de clustering no sustituyen a las de backup y replicación. La alta disponibilidad con tolerancia a fallos y el backup con replicación se complementan. La cuestión es que HA y FT no pueden proteger los datos contra la corrupción, el borrado de archivos dentro de las máquinas virtuales, actualizaciones de software fallidas u otros fallos de software, etc.
Utilice el orden de recuperación de máquinas virtuales adecuado
Las máquinas virtuales deben recuperarse en el orden apropiado. Imagine que tiene varias máquinas virtuales con diferentes aplicaciones que dependen unas de otras. El ejemplo clásico es tener una máquina virtual con un controlador de dominio de Active Directory, una máquina virtual con un servidor de base de datos y una máquina virtual con un servidor web. Las máquinas virtuales deben iniciarse en el siguiente orden:
- La máquina virtual con el controlador de dominio debe iniciarse en primer lugar.
- La VM con un servidor de base de datos se inicia cuando la VM con Domain Controller se está ejecutando porque un servidor de base de datos utiliza Domain Controller para la autenticación de usuarios.
- La VM con un servidor web se inicia cuando la VM con un servidor de base de datos se está ejecutando, ya que en este caso el servidor web utiliza la base de datos para su correcto funcionamiento.
Si tiene una VM con servidor de correo MS Exchange, esa VM debe iniciarse después de la VM con Domain Controller porque MS Exchange está integrado con Active Directory para la autenticación de usuarios.
Utilice una configuración de red de máquina virtual adecuada
Un sitio de producción y un sitio de recuperación ante desastres pueden tener redes diferentes para la conexión de máquinas virtuales. Los adaptadores de red virtuales de las máquinas virtuales se conectan a los puertos de los conmutadores virtuales (vSwitches). Los grupos de puertos representan diferentes redes con nombres de red y las direcciones correspondientes. Si recupera una máquina virtual a un sitio de DR, pero la máquina virtual está configurada para conectarse a la red de un sitio de producción (que difiere de la red utilizada para las máquinas virtuales en un sitio de DR), no se puede establecer la conexión de red de la máquina virtual. En este caso, no olvide cambiar los ajustes de red de las máquinas virtuales cuando las recupere en el sitio de DR.
Prepare el almacenamiento de su máquina virtual
Debe haber suficiente espacio libre en el almacenamiento que se utiliza en un sitio de DR con el fin de almacenar las máquinas virtuales. Este es el primer requisito y el más importante. El almacenamiento también debe proporcionar un rendimiento suficiente; de lo contrario, los servicios críticos para la empresa que se ejecutan en las máquinas virtuales pueden sufrir retrasos. Si se utiliza almacenamiento basado en red, como NAS (Network Attached Storage) o SAN (Storage Area Network), la velocidad de la red debe ser lo suficientemente rápida como para soportarlo. La red de almacenamiento en un sitio de DR debe ser una red dedicada que esté separada de otras redes.
Ponga a prueba su plan de recuperación con regularidad
Un plan de recuperación ante desastres puede parecer bueno sobre el papel, pero puede resultar inútil en caso de catástrofe si no se pone a prueba con antelación. Por lo tanto, asegúrese de probar su plan de DR con regularidad. Las pruebas permiten comprobar si el plan de RD es viable y si se pueden cumplir los objetivos RTO y RPO. Las pruebas también permiten detectar los inconvenientes del plan de RD y, por tanto, realizar ajustes para solucionarlos.
Pruebe su plan de DR regularmente para asegurarse de que su entorno virtual vSphere puede recuperarse. La infraestructura puede cambiar con el tiempo y, tras los cambios, un plan de RD que hace poco era viable puede dejar de cumplir los requisitos adecuados. Por ejemplo, se pueden añadir algunas máquinas virtuales, cambiar direcciones IP, migrar aplicaciones de una máquina virtual a otra, etc. Las pruebas periódicas permiten detectar qué partes del plan deben actualizarse después de introducir cambios en la infraestructura, con el fin de mantener el plan de RD en un estado eficiente.
Encuentre la solución de restauración del entorno adecuada
Cuando haya compuesto el plan de DR, encuentre la solución de restauración del entorno que mejor se adapte a sus necesidades. En caso de utilizar VMware vSphere, una solución debe ser compatible con la copia de seguridad/replicación de máquinas virtuales a nivel de host, la restauración rápida desde backups, la conmutación por error a una réplica de máquina virtual, la recuperación de toda la máquina virtual y la recuperación de objetos individuales. Intente elegir una solución adecuada con las funciones apropiadas, que permita realizar pruebas y actualizaciones periódicas del plan de RD.
NAKIVO Backup & Replication para la recuperación ante desastres de VMware.
NAKIVO Backup & Replication es una solución de protección de datos de máquinas virtuales rápida, fiable y asequible que puede proteger sus máquinas virtuales de VMware. Entre otras muchas cosas, el producto puede hacer backup y replicación de máquinas virtuales a nivel de host, recuperación de objetos individuales, recuperación instantánea de máquinas virtuales y conmutación por error a una réplica de máquina virtual. No es necesario instalar agentes en las máquinas virtuales, ya que se utiliza la API de VMware vStorage para la protección de datos. Además, NAKIVO Backup & Replication incluye una nueva función Site Recovery, con la que podrá hacer una recuperación ante desastres de sitios enteros con (no sólo) VMware VMs.
Descripción general de la función Site Recovery
La función Site Recovery es una potente función que le ayuda a recuperar sus máquinas virtuales de un sitio a otro en caso de desastre. Esta función también puede utilizarse para la migración planificada de máquinas virtuales entre sitios. Puede crear flujos de trabajo de recuperación automatizados y ejecutarlos para conmutaciones por error planificadas o de emergencia, así como para realizar pruebas.
Funciones de restauración del entorno
La función Site Recovery permite automatizar y orquestar un proceso de recuperación ante desastres de máquinas virtuales. La función incluye un conjunto de acciones y condiciones que puede combinar en un flujo de trabajo de recuperación del entorno (job) de acuerdo con su plan de recuperación ante desastres. Estas acciones son:
- Conmutación por recuperación de máquinas virtuales. Puede conmutar por error a una réplica de VM (la réplica de VM debe crearse antes de realizar la acción de conmutación por error).
- VMs en conmutación por error. Puede volver a transferir cargas de trabajo desde una réplica de VM almacenada en un sitio de DR a una VM de origen almacenada en un sitio de producción.
- Iniciar máquinas virtuales. Puede iniciar una o varias máquinas virtuales.
- Detener máquinas virtuales. Puede detener una o varias máquinas virtuales.
- Ejecutar jobs. Puede ejecutar jobs (backup, replicación, Flash VM Boot, etc.) creados en su instancia NAKIVO Backup & Replication.
- Stop jobs. Puede detener la ejecución de jobs.
- Ejecutar script. Puede ejecutar un script en un equipo con la instancia de NAKIVO Backup & Replication, en un equipo Windows remoto, en un equipo Linux remoto, en una VMware VM, en una Hyper-V VM o en una instancia EC2.
- Adjuntar repositorio. Puedes adjuntar un repositorio de backups.
- Separar repositorio. Puede separar el repositorio de backups ya conectado.
- Enviar correos electrónicos. Puede enviar un correo electrónico tras la acción correspondiente, por ejemplo, si la conmutación por recuperación de la máquina virtual se ha completado correctamente.
- Espera. Puede esperar un tiempo definido antes de pasar a la siguiente acción.
- Comprueba el estado. Puede comprobar las siguientes condiciones antes de pasar a la siguiente acción: si existe un recurso, si un recurso se está ejecutando y si se puede acceder a la IP/nombre de host.
Puede utilizar de forma flexible las acciones enumeradas para crear diferentes jobs de restauración del entorno para diferentes casos prácticos y escenarios. Pulse el botón Ejecutar job y todas las acciones se iniciarán automáticamente en el orden definido. Los jobs de recuperación del entorno se pueden ejecutar manualmente en los modos de producción y pruebas, pero cuando configura sus jobs de recuperación del entorno para que se ejecuten automáticamente como tareas programadas, se ejecutan en modo de pruebas.
Ventajas de la función Site Recovery
La función Site Recovery es potente, cómoda e intuitiva. Esta función puede simplificar la recuperación ante desastres para entornos virtuales VMware vSphere, además de permitirle dedicar menos esfuerzo e inversión a la continuidad del negocio.
Para resumir las ventajas de la función Site Recovery:
- Le ayuda a aplicar sus complejos planes de restauración del entorno en el marco de su estrategia de recuperación ante desastres.
- Automatiza el proceso de recuperación ante desastres.
- Reduce el tiempo dedicado a la recuperación ante desastres. (Como resultado, tendrá menos tiempo de inactividad, menos interrupciones de los servicios y reducirá costes).
- Los jobs de recuperación del entorno se pueden probar automáticamente para detectar si el plan de recuperación del entorno está actualizado, así como si se pueden cumplir los RPO y RTO.
- La restauración del entorno no es una función independiente, sino que está integrada en la potente y universal solución de protección de datos de máquinas virtuales, que puede gestionarse desde un único panel.
- Tiene una política de precios asequible. No es necesario adquirir una licencia independiente para utilizar Site Recovery si ya dispone de una licencia para la edición NAKIVO Backup & Replication correspondiente.
Conclusión
La recuperación ante desastres de un entorno virtual VMware vSphere es un proceso importante para garantizar la continuidad del negocio. Las prácticas recomendadas de recuperación ante desastres de VMware incluyen la creación de un plan de recuperación ante desastres, así como la creación automática de réplicas de máquinas virtuales necesarias para la conmutación por error de máquinas virtuales. Se recomienda utilizar el backup y la replicación de VM además de las funciones de clustering de vSphere. Defina su orden de recuperación de máquinas virtuales, prepare su sitio de recuperación ante desastres (incluidos los componentes de red y almacenamiento), asegúrese de probar su plan de recuperación ante desastres con regularidad y utilice una solución de protección de datos adecuada que admita backup, replicación y restauración de máquinas virtuales a nivel de host.
NAKIVO Backup & Replication es una solución universal de protección de datos de máquinas virtuales compatible con las máquinas virtuales de VMware. Site Recovery es una nueva y potente función incluida en NAKIVO Backup & Replication desde la versión 8.0. La función Site Recovery le permite aplicar su plan de recuperación ante desastres mediante la creación de jobs automatizados de restauración del entorno. Esta útil función le ayuda a orquestar y automatizar un proceso de recuperación ante desastres, recuperar datos de máquinas virtuales con rapidez y garantizar un alto nivel de protección de los datos.
Descargue NAKIVO Backup & Replication with Site Recovery y pruebe el producto en su entorno VMware vSphere.