Descripción general de los escenarios de pruebas de recuperación ante desastres

Se espera que las empresas de hoy en día funcionen 24 horas al día, 7 días a la semana. Incluso un pequeño retraso en las operaciones comerciales y la prestación de servicios puede socavar la credibilidad de la organización y provocar pérdidas significativas. Hay múltiples factores que pueden provocar la inactividad de una empresa, el principal de los cuales es una catástrofe, que siempre se produce cuando menos se espera. Por eso, para seguir siendo competitivas en el mercado y garantizar la continuidad de la empresa, es importante que las organizaciones diseñen un plan eficaz de recuperación ante desastres (DR) y lo pongan a prueba periódicamente. Esta entrada del blog enumera los factores que merece la pena tener en cuenta antes de probar un plan de recuperación ante desastres y describe cómo la realización de pruebas de recuperación ante desastres puede ayudarle a prepararse para la recuperación.

Ensure Availability with NAKIVO

Ensure Availability with NAKIVO

Meet strict requirements for service availability in virtual infrastructures. Achieve uptime objectives with robust DR orchestration and automation features.

¿Qué es un plan de RD?

Por lo general, una catástrofe es imposible de predecir y siempre llega de forma inesperada. Por lo tanto, una organización interesada en la alta disponibilidad debe diseñar un plan de DR. Un plan de RD es un conjunto documentado de tareas y procedimientos que deben aplicarse cuando una catástrofe afecta a la infraestructura informática de una organización. Su principal objetivo es minimizar el impacto negativo de un evento de RD y prevenir posibles daños. Un plan integral de RD dicta qué acciones emprender antes, durante y después de una catástrofe.

Se diferencian dos tipos de catástrofes: naturales (tornados, huracanes, inundaciones, etc.) y provocadas por el hombre (errores de servidor, actualizaciones fallidas, ataques de hackers, etc.). Su plan de RD debe crearse en función de los riesgos y amenazas a los que su organización es más propensa. Además, las operaciones y aplicaciones más críticas para el funcionamiento de su empresa deben identificarse y recibir la máxima prioridad en la orden de recuperación. Si revisa estos factores de antemano, se asegurará de que su plan de RD pueda abordar cualquier problema que pueda surgir durante un evento de RD real.

Tipos de catástrofes

Factores a tener en cuenta antes de probar un plan de RD

Después de haber creado un plan de DR, debería estar listo para probarlo. Aunque esté seguro de haber diseñado un plan de RD eficaz y complejo, debe verificar que todo funciona según lo previsto e identificar cualquier problema de antemano. Sin embargo, antes de poner a prueba su plan de RD, hay varios factores que merece la pena considerar para garantizar el éxito del proceso, como las hipótesis de prueba, el alcance de la prueba y los criterios de éxito de la prueba.

Supuestos de prueba

El primer paso en la preparación de las pruebas es definir los supuestos de las mismas. Antes de las pruebas de RD, el equipo de recuperación debe debatir qué dirección tomar para lograr resultados óptimos. Esencialmente, las hipótesis de las pruebas proporcionan la base sobre la que se construiría el proceso de las pruebas de RD. Las hipótesis de las pruebas exhaustivas son las siguientes:

  • Los riesgos y amenazas a los que está más expuesta su organización, y los respectivos mecanismos de respuesta que debe probar
  • Escenarios de pruebas de RD a aplicar y el razonamiento en que se basa esta elección
  • Condiciones y circunstancias previas necesarias para realizar las pruebas de RD
  • Condiciones y circunstancias posteriores a la prueba que deben cumplirse al final de la misma
  • Los resultados que se espera obtener tras el proceso de ensayo

Alcance de la prueba

Otro factor importante que hay que tener en cuenta es el alcance de la prueba, que describe las áreas que se van a cubrir durante el proceso de prueba. El equipo de recuperación debe establecer claramente qué componentes y funciones del sistema deben probarse y, a continuación, notificar al personal de los sistemas que participarían en las pruebas de RD. Además, el equipo de recuperación debe definir las limitaciones y exclusiones del proceso de prueba para saber exactamente qué se probará y qué no y evitar cualquier confusión de antemano.

Criterios de éxito de las pruebas

Los criterios de éxito de las pruebas determinan cuándo se puede considerar que el proceso de pruebas de RD se ha llevado a cabo con éxito. Al revisar los resultados de las pruebas, puede definir si se han cumplido sus expectativas y qué áreas requieren mejoras. Por lo general, se considera que las pruebas de RD han tenido éxito si el plan de RD ha demostrado su funcionalidad y validez. Sin embargo, si se han identificado los puntos débiles del plan de RD como resultado del proceso de prueba de RD, esto también puede considerarse un éxito. El equipo de recuperación puede ahora actualizar el plan de RD desarrollando contramedidas y corrigiendo sus fallos. Además, los criterios de éxito de las pruebas permiten al personal evaluar su rendimiento durante las pruebas de RD y mejorar los mecanismos de respuesta ante catástrofes de la organización.

Por lo tanto, es importante documentar cada paso del proceso y determinar de antemano las hipótesis, el alcance y los criterios de éxito de las pruebas para estar preparados ante cualquier imprevisto y actuar en consecuencia.

¿Qué es un escenario de pruebas de RD?

No resulta práctico probar todos los componentes de su plan de RD sin una preparación previa, ya que realizar pruebas de RD puede ser una tarea muy desalentadora. Para asegurarse de que su plan de RD funcione correctamente durante un evento de RD, debe comprobar cómo respondería su organización a un evento de emergencia específico. Para ello, puede utilizarse un escenario de pruebas DR. El equipo de recuperación puede crear un escenario de catástrofe que tenga en cuenta todos los aspectos de su organización, o puede aplicar las plantillas de escenarios de RD listas para usar disponibles en línea.

Un escenario típico de pruebas de RD suele describir un evento de RD, sus circunstancias y cómo ha afectado a la organización en cuestión. Mediante la simulación de un evento de RD, puede evaluar la preparación de su organización para el proceso de RD e identificar mejores formas de responder y recuperarse de un desastre real (natural o provocado por el hombre).

Tipos de escenarios de pruebas de RD

Los escenarios de las pruebas de recuperación ante desastres abarcan múltiples situaciones de emergencia y catástrofes, que pueden afectar al rendimiento de su organización de un modo u otro. Veamos con más detalle qué representan estos escenarios de pruebas de RD.

Interrupción de las operaciones

La mayoría de las organizaciones representan un sistema complejo, cuyos componentes son altamente interdependientes. Por tanto, si falla uno de esos componentes, todo el sistema correría el riesgo de sufrir una avería. Deben diseñarse escenarios de pruebas de RD que abarquen una amplia variedad de cuestiones operativas. Para ello, piense en cualquier operación/proceso crítico y en el evento de RD que podría afectarlo negativamente o perjudicarlo.

Este tipo de escenarios de pruebas de recuperación ante desastres suele incluir cualquier emergencia que pueda interrumpir el rendimiento de las operaciones de la organización. Los ejemplos de sucesos de RD relacionados con el funcionamiento son los siguientes: incendio o explosión en el centro de producción, fallo de la línea de montaje principal debido a un mal funcionamiento del software o interrupciones del flujo de trabajo por errores humanos.

Cuestiones tecnológicas

Si la mayor parte de sus operaciones se ejecutan en el entorno de servidores virtuales, la simulación de escenarios de RD relacionados con la tecnología debe ser su principal prioridad. En caso de fallo del sistema, puede pasar algún tiempo antes de que se reanuden las operaciones comerciales. Por lo tanto, es esencial diseñar un escenario de pruebas de RD que refleje los problemas tecnológicos, que pueden afectar significativamente al rendimiento de su organización. Estos problemas pueden incluir fallos del servidor, interrupciones en la conectividad de la red, fallos del software, pérdida de datos o imposibilidad de acceder a los backups.

Pérdida de personal clave

El personal es una parte esencial de cualquier organización, ya que los empleados son los primeros en enfrentarse y responder a una emergencia. La dirección debe formar un equipo de recuperación responsable de dirigir y supervisar el proceso de RD de principio a fin. Sin embargo, algunos miembros del equipo de recuperación -los que tienen conocimientos críticos sobre los procedimientos de RD- pueden enfermar o renunciar. Por lo tanto, debe tener en cuenta las posibles repercusiones de una pérdida de este tipo y preparar un escenario de pruebas de DR preparado para cubrir esta cuestión. Los posibles escenarios de RD presentan las siguientes funciones: huelga del personal, sabotaje de los empleados, epidemia de gripe o piratería informática por parte de un empleado despedido y descontento.

Catástrofes naturales

Las catástrofes naturales, como tornados, huracanes o terremotos, pueden afectar a las personas y a los bienes materiales, así como a la infraestructura de una organización. Las catástrofes naturales suelen ser inesperadas y los daños que pueden causar suelen ser bastante difíciles de predecir. Por lo tanto, considere la posición geográfica de su centro de producción e identifique los posibles riesgos y amenazas a los que está más sometida esta zona. Basándose en esto, puede diseñar el escenario de pruebas de RD más adecuado para su organización. Algunos ejemplos de catástrofes naturales son: una tormenta de hielo que dañe la infraestructura de comunicaciones, un terremoto que destruya el centro de producción o inundaciones que provoquen problemas de transporte.

Riesgos empresariales

Los escenarios de RD relacionados con la empresa deben diseñarse específicamente para su organización, lo que significa que, en primer lugar, debe definir cómo funciona su empresa y qué componentes críticos garantizan su continuidad. Para determinar qué áreas necesitan un mayor nivel de protección, realice un Análisis de Impacto en el Negocio (BIA), que evalúa las operaciones empresariales más críticas y el efecto de su interrupción. A partir de ahí, la dirección puede identificar los riesgos más probables y diseñar el correspondiente escenario de RD. Estos escenarios de RD suelen incluir: caída de la bolsa, filtración de datos, pérdida de clientes a manos de la competencia o insolvencia de proveedores clave.

Acontecimientos improbables

Como ya se ha comentado, hay varios eventos de RD que pueden afectar a las organizaciones de vez en cuando. Sin embargo, también debe estar preparado para responder a sucesos fuera de escala. La probabilidad de que se produzca un suceso de este tipo es extremadamente baja, pero aun así el personal debe ser consciente de ellos y saber cómo reaccionar cuando llegue el momento. Por lo tanto, debe crear un escenario de pruebas de RD que incluya situaciones de emergencia como: el avión estrellándose contra el centro de producción, la erupción de un volcán o un conflicto civil.

La importancia de probar un plan de RD

Ni siquiera el plan de DR más meditado puede demostrarse válido hasta que no se pone a prueba. Poner a prueba un plan de recuperación ante desastres le permite identificar cualquier fallo o incoherencia en su estrategia de recuperación ante desastres, garantizando así que se prevea y prevenga cualquier posible daño antes de que se produzca un desastre real. En este caso, es muy recomendable revisar su plan de RD en el contexto de los escenarios de pruebas de RD.

El equipo de recuperación puede simplemente repasar todos los pasos del plan diseñado y discutirlos en detalle, lo que no requiere gastos y es fácil de llevar a cabo. Sin embargo, este método de prueba sólo proporciona una visión básica de cómo sería el proceso de RD, ya que no se prueba realmente ningún componente del sistema. Por otro lado, se puede ejecutar una prueba de simulación a escala real, que es una actividad más cara y compleja, ya que implica probar todos los componentes del plan de RD en el entorno de trabajo real. Aunque pueda interrumpir el proceso de producción, esta forma de probar le permite ver la capacidad de su personal para responder a varios tipos de escenarios de RD y verificar la validez de su plan de RD. Así, puede poner a prueba el plan de RD de su organización con regularidad aplicando diversos escenarios de RD para perfeccionarlo y asegurarse de que ni siquiera un desastre inesperado le supondrá un contratiempo.

Pruebas de restauración del entorno con NAKIVO

Para garantizar que su sistema está debidamente protegido y puede recuperarse fácil y rápidamente, no basta con tener un plan de RD. La organización debe tener instalado un potente software de backup y replicación para garantizar un proceso de RD sin fisuras. NAKIVO Backup & Replication es la solución ideal, ya que ofrece una función exclusiva de restauración del entorno (Site Recovery) que permite satisfacer las necesidades de recuperación de desastres de cualquier empresa. Puede crear un flujo de trabajo de restauración del entorno (es decir, un job SR) que incluya una serie de acciones o condiciones, como conmutación por error, conmutación por recuperación, inicio/detención de máquinas virtuales, ejecución/detención de trabajos, conexión/desconexión del repositorio y otras, dispuestas en el orden de su elección. Un job SR representa un algoritmo automatizado que permite diseñar un proceso de recuperación de cualquier escala. Puede modificar, complementar o probar fácilmente los jobs SR sin afectar al entorno de producción. Después, el proceso se automatiza por completo y puede ejecutarse de forma programada o bajo demanda.

Puede realizar un job de SR en los modos de producción y prueba. Para realizar las pruebas del job SR bajo demanda, primero debe asegurarse de que ya tiene un job SR, o bien crear uno. Después, puedes seguir los pasos que se indican a continuación:

  1. En el panel Jobs , seleccione el job SR que desea probar y haga clic en Run Job.
  2. A continuación, se abrirá un cuadro de diálogo con dos opciones: Probar job de restauración del entorno o Ejecutar job de restauración del entorno. Haga clic en Probar job de restauración del entorno.Ejecutar un job SR en modo de prueba
  3. A continuación, se abre un nuevo cuadro de diálogo en el que se puede configurar el objetivo de tiempo de recuperación (RTO). RTO es el periodo de tiempo de inactividad tolerable durante el cual se espera que se restablezca el sistema para evitar grandes pérdidas. En este cuadro de diálogo, puede desactivar o activar la opción Objetivos de tiempo de recuperación. Si está activada, asegúrese de configurar el valor del objetivo de tiempo de recuperación, que define la cantidad de tiempo permitido para que se complete la prueba del job SR.Ajuste del valor RTO
  4. Haga clic en Probar para iniciar el job.

    Nota: La prueba de job SR también puede ejecutarse de forma programada. La opción Test Schedule puede configurarse al crear un nuevo job SR. Así, puede configurar un job SR para que ejecute una prueba periódica en función del calendario que elija.
    Configuración del calendario de pruebas

Existe otra forma de configurar el programa de pruebas con jobs SR creados previamente. En este caso, debe ir al panel izquierdo de la página de inicio y, a continuación, hacer clic con el botón derecho del ratón en el job SR para el que desea configurar el calendario de pruebas. Aparece el menú emergente que incluye diversas opciones para la gestión de jobs, como Ejecutar job, Renombrar, Editar, Eliminar y Desactivar. Haga clic en Editar.

A continuación, haga clic en la sección Programación de pruebas e introduzca los ajustes de programación que desee. El menú es idéntico al del Asistente para nueva función Site Recovery.

De este modo, puede configurar un job SR para ejecutar una prueba periódica según el calendario más adecuado para su organización.

Conclusión

Toda organización consciente de las repercusiones de un evento de RD es consciente de la importancia de contar con un plan de RD completo. Sin embargo, se ha demostrado que muchos planes de RD no son válidos por falta de pruebas. Para asegurarse de que su plan de recuperación ante desastres es eficaz y está actualizado, es importante diseñar varios escenarios de recuperación ante desastres y aplicarlos como parte del proceso de pruebas de recuperación ante desastres. Los escenarios de RD le permiten formar a su personal sobre cómo responder a un desastre, independientemente de lo inesperado o improbable que pueda ser, evitando así cualquier posible pánico o confusión.

Con NAKIVO Backup & Replication, puede estar seguro de que su sistema está protegido de forma fiable y se puede recuperar fácilmente. La nueva función Site Recovery es una herramienta multifunción automatizada que alivia la presión de realizar manualmente el proceso de recuperación ante desastres. Además, puede ejecutar las pruebas del job SR en cualquier momento, sin afectar al entorno de producción. Tras recibir los resultados de las pruebas, podrá identificar los fallos de su estrategia de recuperación y actualizar el job de SR en consecuencia. Así, la función Site Recovery le proporciona una serie de ventajas destinadas a garantizar la continuidad de su negocio y la protección de datos.

Descargue la versión de prueba gratuita y pruebe hoy mismo el producto en su entorno VMware, Hyper-V o mixto.

Try NAKIVO Backup & Replication

Try NAKIVO Backup & Replication

Get a free trial to explore all the solution’s data protection capabilities. 15 days for free. Zero feature or capacity limitations. No credit card required.

Artículos recomendados