RTO vs RPO: Entendiendo las diferencias clave para DR
Las organizaciones confían cada vez más en los backups para proteger sus datos y garantizar la continuidad del negocio en caso de desastre. Sin embargo, se calcula que más del 72% de las empresas son incapaces de cumplir sus expectativas de recuperación de TI relacionadas con sus objetivos de punto de recuperación (RPO) y sus objetivos de tiempo de recuperación (RTO).
Para ayudarle a crear un plan de recuperación eficiente, es esencial que desarrolle una comprensión completa de RTO y RPO y conozca las diferencias. Este post explica todo lo que necesita saber sobre estos dos parámetros para una estrategia fiable de recuperación ante desastres. Siga leyendo para descubrir cómo puede conseguir unos RPO y RTO más ajustados para minimizar la pérdida de datos y reanudar las operaciones empresariales normales lo antes posible tras un desastre.
¿Qué es RTO?
El objetivo de tiempo de recuperación (RTO) se refiere a la cantidad máxima de tiempo de inactividad que una organización puede tolerar tras un evento perturbador. En otras palabras, RTO es la duración entre la ocurrencia de un desastre y la recuperación de las cargas de trabajo críticas afectadas.
El cálculo de la RTO suele depender de su plan de recuperación ante desastres, los recursos disponibles y el presupuesto. Mientras su infraestructura informática no esté disponible, necesitará algo de tiempo para identificar la razón o razones del fallo y tomar las medidas necesarias para solucionar el problema. Sin embargo, deben adoptarse medidas de recuperación ante desastres para garantizar que los sistemas y cargas de trabajo críticos sean accesibles y estén disponibles mientras se resuelve el problema de producción. Su RTO es el tiempo que transcurre entre el fallo y la disponibilidad de los sistemas mediante backups o réplicas de cargas de trabajo.
¿Qué es la RPO?
El objetivo de punto de recuperación (RPO) representa la cantidad máxima de datos que una organización puede soportar perder en una catástrofe sin consecuencias críticas. Esta métrica se mide en horas/minutos desde el último proceso de backups/replicación. Utilícelo para determinar la frecuencia con la que debe hacer backups de datos y réplicas para reducir la pérdida de datos tras un evento perturbador.
En una situación ideal, un job de backup o replicación se completa justo antes de que la máquina original falle. Sin embargo, esto es poco frecuente en la vida real, por lo que existe un intervalo entre el momento en que se creó la última copia de seguridad correcta y el momento en que falla la máquina original. Durante este tiempo, la máquina virtual estaba realizando operaciones y almacenando datos, y lo más probable es que estos datos se pierdan.
Qué es RTO y RPO en la recuperación ante desastres
El objetivo último de la protección de datos es claro: usted quiere estar seguro de que los datos críticos no se pierden si algo va mal y de que puede cumplir los SLA de su organización en términos de tiempo de actividad y disponibilidad. Sin embargo, es bastante costoso reflejar todos los cambios de su entorno virtual en un sitio de recuperación ante desastres (DR) en tiempo real. Por eso debe aceptar la idea de que perderá algunos datos y sus servicios informáticos se verán interrumpidos en caso de avería. Por tanto, su tarea consiste en minimizar esas pérdidas e interrupciones.
Ilustremos los conceptos de RPO y RTO en un sencillo diagrama:
El diagrama muestra un escenario común: Una máquina virtual se bloquea por alguna razón. La línea amarilla representa el RPO, que es el tiempo transcurrido entre el último backup y la interrupción. La línea naranja es el RTO y refleja el tiempo necesario para restaurar la máquina virtual.
Diferencias entre RTO y RPO
Para saber cómo determinar la RTO y la RPO, hay que ver sus diferencias y su papel en el proceso de RD.
Evaluación
- La RTO se refiere principalmente al periodo de tiempo en el que se espera reanudar las operaciones comerciales durante una catástrofe. Los puntos a tener en cuenta son:
- Evalúe las necesidades y prioridades de su organización, ya que son únicas para cada organización.
- Considere qué aplicaciones son las más críticas para los servicios y aplicaciones fundamentales para la supervivencia de la organización, así como cuáles pueden ser las repercusiones si estas aplicaciones fallaran.
- Determine el orden en que debe restaurarse cada sistema/aplicación para garantizar el éxito de la recuperación ante desastres con las mínimas pérdidas de tiempo de inactividad.
- La RPO se centra más en la cantidad de datos que pueden perderse durante el tiempo de inactividad sin causar ningún daño grave a los resultados de una organización. Los puntos a tener en cuenta son:
- Identifique la frecuencia de backup/replicación y cuántos datos podrían perderse entre la última copia de seguridad de la máquina virtual y un desastre real.
- Considere la cantidad de datos que su organización puede permitirse perder para cada tipo de carga de trabajo.
Costes
La principal diferencia entre RTO y RPO es que la primera tiene en cuenta todos los aspectos de la estructura empresarial y el proceso de RD en su conjunto, mientras que la segunda sólo considera la criticidad de los datos y las aplicaciones para la continuidad de la actividad. Por lo tanto, cumplir los valores de RTO puede ser una tarea exigente y costosa para garantizar una recuperación rápida. Del mismo modo, tener RPOs más pequeños significa que hay que hacer más backups y crear puntos de recuperación adicionales, lo que puede aumentar los costes de almacenamiento.
Automatización
- Como el RPO se centra en los datos y en la resiliencia del sistema ante las pérdidas, se recomienda hacer backups de datos con frecuencia. Muchas soluciones modernas de backup permiten hacer backups automatizados de máquinas virtuales, lo que significa que las estrategias de backup pueden adaptarse de forma que cumplan los objetivos de RPO de forma eficaz y con una intervención mínima por su parte.
- Conseguir la RTO es un proceso más complejo de gestionar, ya que tiene en cuenta todos los procesos empresariales y componentes del sistema que deben recuperarse durante un evento de RD. Dicho esto, se recomienda automatizar y orquestar todo el proceso de recuperación ante desastres de principio a fin para garantizar el cumplimiento de los objetivos de RTO.
Facilidad de cálculo
- La métrica RPO es fácil de calcular, ya que sólo cubre un aspecto del proceso de recuperación: los datos.
- La RTO tiene en cuenta todos los aspectos de su organización, incluida la importancia de sus datos y servicios, el coste del tiempo de inactividad, la inversión en actividades de RD, etc. Al calcular la RTO, hay que tener en cuenta los distintos tipos de cargas de trabajo y aplicaciones, ya que pueden tener procesos de recuperación diferentes. Es aconsejable calcular el RTO sobre la base de un plan de continuidad de la actividad, en el que se expongan los posibles riesgos y amenazas para la empresa y se describan las medidas que deben tomarse para reanudar las operaciones.
Para definir el RTO aplicable a las distintas cargas de trabajo de su organización, responda a la siguiente pregunta:
¿Cuánto tiempo puede estar inactiva una aplicación/sistema/máquina específica sin tener un impacto significativo en las operaciones principales de su organización?
Después de responder a esta pregunta para diferentes máquinas, considere si los resultados esperados pueden satisfacer sus necesidades empresariales actuales. Si no es así, piense en cómo podría mejorar sus estrategias de backup y DR para mantener los datos de las copias de seguridad lo más actualizados posible.
Cómo conseguir RPO y RTO más ajustados con NAKIVO
NAKIVO Backup & Replication permite hacer backups de máquinas virtuales y físicas con mayor frecuencia, mejorando el RPO. Sólo tienes que programar backups regulares con un intervalo que no supere tu objetivo.
La solución también ayuda a reducir el RTO con funciones de recuperación instantánea de máquinas virtuales y replicación para VMware vSphere, Microsoft Hyper-V y Amazon EC2. Integre sus servicios de supervisión de red y active un proceso de recuperación inmediatamente después de que una máquina virtual deje de estar disponible. También puede crear réplicas externas (copias exactas) de máquinas virtuales críticas. Si la máquina virtual original fallara, las réplicas se encenderían automáticamente. Si el mantenimiento de réplicas requiere más recursos de los que puede permitirse, puede elegir la función de arranque instantáneo de máquinas virtuales desde backups.
Para alcanzar los RTO más ajustados, NAKIVO Backup & Replication ha introducido la función de orquestación Site Recovery. Automatice completamente la conmutación por error y recuperación de máquinas virtuales para diferentes escenarios de DR y realice pruebas no disruptivas para garantizar la recuperación dentro del plazo previsto.