Plan de Continuidad

PLAN DE CONTINUIDAD DEL NEGOCIO EN EL ÁREA DE TI MSc Franz Heredia Gómez Septiembre de 2011 Planificación Procesamient

Views 88 Downloads 0 File size 6MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

PLAN DE CONTINUIDAD DEL NEGOCIO EN EL ÁREA DE TI

MSc Franz Heredia Gómez Septiembre de 2011

Planificación Procesamiento Ejecución

PLAN DE CONTINUIDAD DEL NEGOCIO

BC es mucho mas que infraestructura de hard y soft, debe considerarse además: Personal, procesos, notificaciones, arboles de decisión, disponibilidad de infraestructura, telecomunicaciones y otros.

Recordemos que BC es también mas que DR. Un buen plan de continuidad debe proveer valor incremental al negocio a diario aun en caso de desastres fortuitos.

PLAN DE CONTINUIDAD DEL NEGOCIO

CONSIDERACIONES GENERALES o Los negocios tienden a depender cada vez mas de TI en su interacción con los clientes, además de su operación interna o BC es una de las prioridades pues interrupciones tecnológicas tienen consecuencias altamente negativas en el negocio o Las regulaciones sobre mantenimiento de la operatividad son crecientes o Los negocios demandan soporte 24x7x365 por lo que el respaldo y recuperación de datos y procesos son un desafío en la planificación de TI o Las áreas de TI deben encarar un crecimiento sin precedentes en complejidad y magnitud de la cantidad de los datos por administrar.

EVOLUCIÓN DE UN BCP Un BCP es único en el hecho de que involucra todas las áreas del negocio, procesos, infraestructura y recurso humano. Por tanto implementar un adecuado BCP implica un PROCESO CONTINUO que debe alcanzarse y perfeccionarse con el tiempo

EVOLUCIÓN DE UN BCP o La curva promueve un proyecto factible no solo en lo técnico, también en el ámbito financiero, integrado con otros objetivos de la organización con TTM, calidad y funcionalidad de los servicios. o La Infraestructura de TI debe estar alineada a estos objetivos integrales o Para gestionar adecuadamente los tiempos de la curva, debe considerarse: • Planificar un proceso paso a paso agregando valor al negocio en cada etapa (fijar con propiedad las expectativas) • No tratar de solucionar todo al mismo tiempo, acordar con la alta gerencia un programa paulatino y multi-fase • Planificar, documentar y proporcionar valor en cada etapa del programa haciendo evidente la provisión de un continuo retorno de la inversión

PROCESO IDEAL PARA LA PLANIFICACIÓN DEL BCP La planificación del BCP es un proceso continuo cuya optimización es permanente

PRIORIZACIÓN DEL NEGOCIO Priorización del negocio implica definir el alcance del BCP mediante identificación de riesgos, amenazas y vulnerabilidades, estableciendo prioridades El siguiente paso será comparar estas prioridades con las expectativas del negocio para desarrollar una línea de base en la construcción del BCP

• Evaluación de Riesgos • Análisis de Impacto en el Negocio (BCI) • Auto evaluación del BCP

EVALUACIÓN DE RIESGOS Estudio de análisis y gestión del riesgo incluyendo una tipología de desastres (naturales, tecnológicas y humanas) para posterior evaluación del impacto Este estudio determina el alcance y los escenarios que deben mitigarse, implica: o Identificar riesgos y estimar su probabilidad de ocurrencia o Evaluar y priorizar los riesgos o Sistematizar los riesgos y vulnerabilidades identificadas Interrupciones en sistemas TI pueden ser desde ligeros (caídas cortas de energía, fallas en los discos, etc.) hasta severos (destrucción de equipos, incendios, etc.) Muchas vulnerabilidades pueden eliminarse mediante soluciones tecnológicas (estrategia), operacionales (controles de seguridad) o por gestión del riesgo. Por lo general no es posible eliminar completamente los riesgos En esta fase se identifican riesgos y vulnerabilidades pero no se define el alcance de la evaluación de riesgos, esto se realiza en su evaluación de impacto

EVALUACIÓN DE RIESGOS

EVALUACIÓN DE RIESGOS Debe analizarse cada área funcional para determinar e identificar riesgos potenciales, su probabilidad de ocurrencia y sus impactos. El análisis debe hacerse a nivel de procesos del negocio, no únicamente a nivel de TI Son varios los factores de riesgo pero se clasifican en: o Naturales (Huracanes, Incendios, Inundaciones y otros) o Humanos (Errores del operador, sabotaje, código malicioso, etc.) o Tecnología (Fallas de equipo, de software, interrupciones en telecom, etc.) No todos los riesgos son potenciales en todos los sitios, esto debe documentarse También deben identificarse su incidencia en situaciones normales y en caso de verdaderos desastres (virus, corrupción accidental de datos, destrucción de edificios) Es recomendable efectuar un filtro inicial de los riesgos potenciales hasta una lista de riesgos identificados que incluya aquellos con alta probabilidad de ocurrencia. En pasos siguientes se efectúa un refinamiento final

EVALUACIÓN DE RIESGOS Los elementos para identificar la probabilidad de ocurrencia de una vulnerabilidad especifica y riesgo, sin ser limitantes, pueden ser: o Ubicación geográfica y su topografía o Proximidad a plantas de energía, ríos, mares, aeropuertos, etc. o Grado de accesibilidad (acceso) para la organización o Histórico de ocurrencia de interrupción de servicios (propias o ajenas) o Histórico de eventos naturales del área o Proximidad de carreteras por donde se trasladan productos riesgosos o Otros incluyendo inestabilidad política o social

EVALUACIÓN DE RIESGOS Los riesgos cambian a través del tiempo, nuevos reemplazan antiguos a medida que los sistemas evolucionan, su gestión es un proceso continuo y dinámico EVALUACION DEL RIESGO EN EL MARCO DEL BCP

EVALUACIÓN DE RIESGOS Idealmente todo riesgo identificado debiera ser anulado, esto es poco probable o bien no es eficiente en costos, mas bien se intenta identificarlos hasta un nivel aceptable y mantenerse conscientes y documentar los riesgos residuales Los riesgos reconocidos serán el conjunto de situaciones de mayor importancia que puedan afectar la operativa, disponibilidad, integridad y seguridad. Así se puede ajustar el alcance del BPC, preservando recursos y enfocando los esfuerzos sobre los riesgos mas importantes y adecuada capacidad de recuperación PLANILLA DE DEFINICION DE VULNERABILIDADES (Data Center)

EVALUACIÓN DE RIESGOS (RESUMEN DE PROCESOS)

ANÁLISIS DE IMPACTO EN EL NEGOCIO BIA Efectuado el análisis de riesgos, con base en la lista de riesgos identificados se efectúa una detallada evaluación sobre los impactos relativos y su prioridad

IMPACTO DE LA INTERRUPCIÓN El BIA hace posible precisar los procesos críticos del negocio y su interdependencia para refinar la clasificación y alcance del BCP Organizaciones con altos ingresos y con mayor dependencia de sistemas en línea son mas vulnerables ante interrupciones en TI Dependiendo del tipo de negocio las perdidas por interrupciones son diferentes entre las que destacan: energía, telecomunicaciones, manufactura y servicios financieros La magnitud de las perdidas están en función de la criticidad de procesos de negocio y los sistemas que son interrumpidos (grado de interacción con clientes, paliativos y periodos pico) así como el numero de usuarios afectados. También perdidas significativas e inmediatas pueden residir en mala publicidad y perdida de confianza de los usuarios, lo que afecta ingresos futuros

PROCESO DETALLADO DEL BIA

Paso 1 Recursos Críticos  Evaluar el proceso del negocio,  Identificar funciones criticas realizadas por el sistema y  Especificar los recursos TI involucrados

Paso 2

Paso 3

Impactos y tiempos aceptables Establecer prioridades de de interrupción recuperación  Analizar recursos críticos y  Clasificar impacto y tiempos su impacto en el negocio  Proceso paulatino de consenso  A través del tiempo  Define prioridades, tiempos y  En la interacción de estrategias de recuperación recursos y sistemas dependientes

PROCESO DETALLADO DEL BIA El BIA define el alcance del BCP Identifica y confirma el conjunto de condiciones definidos, tipología de interrupciones y eventos que el BCP debe gestionar El alcance inicialmente considera una línea de base y se expande a través del tiempo, esto permite abordar vulnerabilidades importantes de inmediato

ANÁLISIS DEL IMPACTO EN EL NEGOCIO

EVALUACION DEL PROGRAMA VIGENTE Esta etapa de evaluación implica la recopilación de importantes cantidades de datos para establecer y documentar la línea de base del BCP

EVALUACION DEL PROGRAMA VIGENTE Documentar las funciones ejecutadas por cada departamento del negocio. La profundidad del análisis varia en función del alcance del proyecto BCP Se calcula un tiempo de entre dos semanas a un mes para documentar completamente todas las funciones principales ejecutadas al interior y exterior de cada departamento Una plantilla simple si no es necesario todo el análisis puede resumirse como: Recolección de datos de análisis o

Seleccionar inicialmente algunos procesos clave 

o

Cada proceso de negocio es un bloque de recuperación, no la infraestructura de TI, ni los servidores, ni aplicaciones parciales

Recolectar indicadores de rendimiento (KPI’s) 

En lo procedimental: Duración de la ventana de respaldo, tiempo de recuperación, frecuencia de pruebas, tiempo de respuesta promedio, tiempo promedio de solución de problemas



En lo financiero: Costos y magnitud de ancho de banda, cantidad de datos replicados, crecimiento porcentual del almacenamiento

EVALUACION DEL PROGRAMA VIGENTE I N D I CAD O R E S D E R E N D I M IENTO Los KPI’s un concepto de administración perfectamente aplicables al proyecto BCP, reflejan los requerimientos de los clientes del BCP de TI que determinan su éxito Su interpretación debe representar con precisión los objetivos del BCP, medir con precisión las claves de éxito. Deben ser medibles y cuantificables Para definir KPI’s del BCP se recomienda considerar: o o o o

Su funcionalidad alcanza el largo plazo Que y como miden un hecho, no debe cambiar con frecuencia Deben ser precisamente definidos y dimensionados Deben tener objetivos cuantificables y definiciones de tiempos

Veamos un ejemplo:    

NOMBRE: ALCANCE: MEDICION: OBJETIVO:

Optimizar la ventana de Back up y Recovery Reducir el tiempo de recuperación mes a mes Tiempo de la recuperación Mejorar cada mes Es un indicador correcto??? Parece que NO!!!

EVALUACION DEL PROGRAMA VIGENTE I N D I CAD O R E S D E R E N D I M IENTO Para analizar el ejemplo consideremos: 1. La MEDICION establece mejorar los tiempos en horas, minutos o segundos? 2. Si son minutos, que medimos? Interrupciones planeadas o fortuitas? 3. Hablamos del tiempo entre el momento de inacción hasta la recuperación de la aplicación? Es RTO, RPO, ambos o ninguno? 4. Como probamos y medimos el tiempo de recuperación? 5. Cuanto queremos mejorar el tiempo de Back up y Recovery cada mes? SE REQUIERE MAYOR PRECISION!!

EVALUACION DEL PROGRAMA VIGENTE I N D I CAD O R E S D E R E N D I M IENTO Un buen ejemplo de indicador de continuidad es: NOMBRE:

Reducción del tiempo de proceso de la ventana de Back up

ALCANCE:

Interrupción diaria planificada por el tiempo que los procesos 1, 3 y 7 requieren para efectuar el back up del día. La ventana inicia cuando el sistema detiene transacciones en línea de usuarios genéricos y concluye al rehabilitar completamente el sistema

MEDICION: Cada noche el back up es medido y documentado Información de los datos involucrados (cantidad de datos, procesos paralelos, etc.) también son medidos y documentados El análisis de tendencias (del proceso) son efectuados automáticamente y los resultados publicados semanalmente entre los empleados Las mejoras son probadas en ambiente de desarrollo, los objetivos establecidos y validados cuando son habilitados en producción OBJETIVO:

Reducir la ventana de back up a: 30 minutos el primer cuatrimestre, a 10 minutos el segundo y a 1 minuto al tercero

EVALUACION DEL PROGRAMA VIGENTE I N D I CAD O R E S D E R E N D I M IENTO Conjunto inicial de indicadores KPI para BCP de TI  Instrumento de administración  Dan una visión a toda la organización de lo importante  Definen que es lo que se busca alcanzar  Publicitar su objetivo y el progreso paulatino  Generan compromiso en su cumplimiento

EVALUACION DEL PROGRAMA VIGENTE Después de definir los KPI’s es preciso registrar información sobre el entorno de TI, los componentes que soportan los procesos de negocio seleccionados

Inventario de componentes de TI Datos a ser recopilados (por proceso de negocio) 1. Aplicaciones (de procesos de negocio seleccionados) 2. Datos y su administración (de las aplicaciones) 3. Bases de datos (características, configuración, etc.) 4. Infraestructura de Hardware (servidores, almacenamiento, etc.) 5. Redes de datos (LAN, MAN, Wireless que conectan procesos) 6. Procedimientos y herramientas 7. Personal (gente, posición y habilidades requeridas) 8. Instalaciones (ubicaciones e infraestructura física) 9. Costo estimado por hora de interrupción 10. Vulnerabilidades conocidas

EVALUACION DEL PROGRAMA VIGENTE R E C U R S O S Y S U I M PACTO E N E L N E G O C I O

Matriz simplificada de recursos y su impacto en el negocio Corresponde a un BIA sencillo

EVALUACION DEL PROGRAMA VIGENTE R E C U R S O S Y S U I M PACTO E N E L N E G O C I O Consideraciones adicionales para definir el impacto en el negocio  En caso de una interrupción, cuanto tiempo podría funcionar el proceso?  Cuales las tareas de mayor prioridad incluyendo procesos críticos manuales? Con que periodicidad se realizan?  Cual la dotación de personal, equipos, formularios y suministros son necesarios para realizar las tareas de mayor prioridad?  Como el equipo critico, formularios y suministros pueden ser reemplazados en caso de interrupciones?  Son tiempos largos necesarios para reemplazar estos insumos?  Que manuales (de referencia, operación, procesos, etc.) son utilizados en el departamento? Como se reemplazan en caso de desastres?  Pueden formularios, suministros, equipamiento, manuales y otros almacenados en un diferente sitio?

EVALUACION DEL PROGRAMA VIGENTE R E C U R S O S Y S U I M PACTO E N E L N E G O C I O Consideraciones adicionales para definir el impacto en el negocio  Identificar el almacenamiento y seguridad de documentos originales. Como esta información puede ser reemplazada? Alguna requiere de mayor protección?  Cuales los actuales procedimientos de Back up? Han sido estos restaurados? Se requiere algún almacenamiento de respaldo fuera del sitio?  Cuales los procedimientos de operación temporales en caso de desastres?  Como serian afectados otros departamentos por una interrupción en este?  Cual seria el impacto de desastre en el computador principal?  Que servicios externos son utilizados en operaciones normales?  Pone un desastre peligro el cumplimiento de exigencias legales de información?  Esta el personal debidamente entrenado para estos casos?  Quien es responsable por mantener el BCP?

EVALUACION DEL PROGRAMA VIGENTE R E C U R S O S Y S U I M PACTO E N E L N E G O C I O Adicionalmente es recomendable recopilar información sobre: •

Ubicación de reportes de back up



Inventario de partes de servidores



Plan de Back ups de soft y datos



Números telefónicos críticos



Lista maestra de llamadas



Inventario mecanismos de comunicación



Inventario de comunicaciones



Lista maestra de proveedores





Registros de distribución



Inventario de Hard y Soft de pc’s

Especificaciones de sitios alternos o temporales



Otros materiales



Inventario de documentación



Checklist de notificaciones



Otra documentación



Inventario de equipos





Inventario de formularios

Inventario de suministros de oficina



Inventario de almacenamiento de datos fuera de sitio



Inventario de pólizas de seguros

EVALUACION DEL PROGRAMA VIGENTE I D E N T IFI CAC IÓ N D E C O N T RO L ES V I G E N TES Luego debe analizarse el grado de preparación, medidas preventivas y controles habilitados en un determinada instancia a fin de incorporar nuevas en la fase de implementación La evaluación de técnicas de prevención incluyen dos categorías: o Prevención procedimental  Sobre actividades periódicas (diarias, mensuales o anuales) de seguridad  Asignación de responsabilidad de toda la seguridad de la organización a un funcionario con adecuada capacitación, autoridad y competencias  El objetivo es definir las actividades necesarias para la prevención de desastres y asegurar que estas se desarrollen con regularidad

o Prevención física  La seguridad física comienza cuando un sitio es construido, existen condiciones particulares para la infraestructura física  Protección contra incendios para un conjunto de equipos y componentes  Todo aspecto referido a la seguridad perimetral, energía, procedimientos de emergencia y sistemas de archivo/respaldo/recuperación

EVALUACION DEL PROGRAMA VIGENTE A N ÁL I SI S D E L A CA PACI DAD AC T UAL D E R E C U P E R ACI Ó N En un ambiente TI dependiente, todo usuario percibe las interrupciones de sistemas, estas medidas en dos componentes independientes o Restauración del sistema (Recovery Time Objective – RTO) Es el tiempo transcurrido desde el inicio de la interrupción hasta cuando los servicios del sistema están completamente restaurado o Perdida de datos (Recovery Point Objective – RPO) Perdida de datos experimentada o cuanto debe restaurarse antes de restaurar el sistema para alcanzar el nivel de información en sistema antes de la interrupción Aplicaciones y procesos del negocio no son equivalentes. RTO y RPO deben ser identificados y segmentados dentro del tiempo de recuperación total Otros componentes a identificar son: o Objetivo de distancia de recuperación (DRO) que mide la distancia a la que bloques de datos deben ser transferidos. o Objetivo de recuperación de la red (NRO) que es el tiempo de rehabilitación de la red en el mismo sitio o en el alterno (dependiendo cual la política)

EVALUACION DEL PROGRAMA VIGENTE D E T E R MI NACI Ó N D E R TO Y R P O

EVALUACION DEL PROGRAMA VIGENTE D E T E R MI NACI Ó N D E R TO Y R P O Ejecución del proceso de recuperación de servicios IT 1. Dada una interrupción el primer paso es evaluar la necesidad de administrarla. Declarar un desastre y administrarlo implica costos, asumirlos es una decisión. Tomada esta opción, comienza la ejecución del BCP 2. La primera etapa del BCP es recuperar la operativa del Hard, los SO y los datos. Operaciones, redes, telecomunicaciones, infraestructura física y el personal involucrado están incluidos en esta fase 3. En este punto, SO y los datos se han recuperado, teóricamente los datos son los correctos y consistentes en la instancia anterior a la interrupción. El tiempo transcurrido hasta este momento representa el RTO de hardware e integridad de datos (data integrity)

EVALUACION DEL PROGRAMA VIGENTE D E T E R MI NACI Ó N D E R TO Y R P O 4. A pesar de esto la recuperación no es a nivel de usuario, sino a nivel de servidor. La integridad del Hardware no es equivalente a integridad de Transacciones. 5. El equipo de aplicaciones o DB efectúan el proceso de recuperación a nivel de transacciones (commit/rollback via DB restart) restaurando la integridad lógica 6. En este punto las aplicaciones y DB están listas para el acceso de usuarios. Este tiempo es el RTO de la integridad de transacciones 7. El RTO de hard e integridad de datos es diferente al RTO de la integridad de transacciones. 8. El RPO que son datos que deben ser regenerados se completa en un tiempo adicional a la ocurrencia de la interrupción, al procesar la integridad transaccional. El servidor y componentes de almacenamiento no controlan las relaciones lógicas entre múltiples aplicaciones y los bloques de datos

EVALUACION DEL PROGRAMA VIGENTE Evaluación integral del BCP vigente. Debe ser efectuado para el proceso completo (end-to-end) no es útil por componentes

EVALUACION DEL PROGRAMA VIGENTE E VA LUAR E L G R A D O D E M A D U R E Z D E L B C P NO ENFOCADO Programa incompleto, No se cumple CONSCIENTE Conocimiento de DR Alta disponibilidad BCP documentado Estrategias parciales CAPAZ Programa BCP/DR implementado Estrategias y planes establecidos MADURO Pruebas regulares Ejecutivos involucrados Buen manejo de crisis Gobernabilidad

EVALUACION DEL PROGRAMA VIGENTE E VA LUAR E L F I N ANCIAMI ENTO Y R E TO R NO D E L A I N V E R SI Ó N Por ultimo evaluamos los orígenes y niveles de financiamiento para el BCP vigente El objetivo es establecer el modelo, procedimientos y criterios para disponer de recursos existentes o adicionales También determinamos si el programa de BC es percibido como un costo, una ventaja competitiva o como que. Proyectos de BCP no comparten el modelo de financiamiento de un proyecto TI, los primeros deben alcanzar resultados tangibles, los de BCP son medidas preventivas cuyo valor se evidencia a través de un exitoso proceso de recuperación o en la prevención de interrupciones del negocio

PRIORIZACIÓN DEL NEGOCIO R E S U M E N D E AC T IV IDAD ES

INTEGRACIÓN CON TI Tomando como información de entrada el conocimiento del negocio y el estado del modelo de continuidad vigente, estamos en condiciones de efectuar el diseño completo (end-to-end) del BCP

INTEGRACIÓN CON TI El diseño u optimización del BCP difiere de la definición de la estrategia de TI en que esta incluye todos los aspectos del negocio, particularmente los externos como son:  Procesos y procedimientos (no TI) del negocio  Gestión del equipo de operación en caso de crisis (TI y no TI)  Especificación de cómo los procesos no TI son reanudados  Aspectos no IT de los procesos de negocio referidos a Alta Disponibilidad y Recuperación de Desastres

INTEGRACIÓN CON TI El diseño u optimización del BCP difiere de la definición de la estrategia de TI en que esta incluye adicionalmente todos los aspectos del negocio, particularmente los externos como son:  Procesos y procedimientos (no TI) del negocio  Gestión del equipo de operación en caso de crisis (TI y no TI)  Especificación de cómo los procesos no TI son reanudados  Aspectos no IT de los procesos de negocio referidos a Alta Disponibilidad y Recuperación de Desastres

INTEGRACIÓN CON TI P RO C E S O S Y P RO C E D I MI ENTO S Los aspectos externos a ser cubiertos por el BCP son los de Personal, Procesos y Procedimientos

INTEGRACIÓN CON TI P RO C E S O S Y P RO C E D I MI ENTO S

INTEGRACIÓN CON TI P RO C E S O S Y P RO C E D I MI ENTO S  Diseñar procesos y procedimientos para acciones tendientes a proteger los procesos de la organización de manera confiable y permanente  Son procedimientos y acciones adicionales a esquemas cotidianos de alta disponibilidad y operación continua  Es fundamental el gestionar los incidentes satisfactoriamente a través de procedimientos de alta calidad, probados, repetibles y confiables  Se diseñan primero para luego recién seleccionar la tecnología que mejor se ajuste  El BCP implica mas que almacenamiento fuera de línea y procedimientos de backup, incluye las funciones no TI necesarias para restablecer las operaciones  Esta fase de planificación implica diseñar procedimientos que dirijan el proceso de recuperación de las capacidades operativas del negocio  El plan incluye documentos y procedimientos probados cuyo seguimiento asegura la progresiva disponibilidad de recursos críticos y la continuidad de las operaciones  Establece la forma como el personal de TI habrá de reaccionar ante algún desastre, el objetivo es alcanzar predictibilidad probada de las acciones humanas

INTEGRACIÓN CON TI P RO C E S O S Y P RO C E D I MI ENTO S

INTEGRACIÓN CON TI P RO C E S O S Y P RO C E D I MI ENTO S

INTEGRACIÓN CON TI A LCA NCE Y C O B E R T U R A D E L B C P

 EL BCP se aplica a eventos planeados y no planeados, esto implica negación de normal acceso a infraestructura de TI por periodos extensos.  Interrupciones planificadas deben ser incluidas tal como el caso de procesos de rotación de cargas de trabajo entre sitios  Su orientación promueve la disposición de una declaración consistente de acciones a realizar antes, durante y después de la ocurrencia de un desastre  El alcance determinado mediante el BIA es ahora usado para definir el nivel de planificación de los procesos y procedimientos que aseguren recursos críticos  Generalmente los procesos de negocio se crean y establecen a través de los años, el BCP busca que en caso de desastres sean restablecidos en horas o días  Este es un problema serio que requiere de planes claros, suficientemente detallados, muy bien elaborados, capacidad de ejecución y pruebas permanentes de consistencia

INTEGRACIÓN CON TI RO L D E L A G E S T I Ó N D E R I E S G O S La gestión de riesgos comprende acciones para identificar, controlar y mitigar riesgos sobre la infraestructuras de TI y deben cumplir dos funciones primarias  Prevención Reducir el impacto al reducir o eliminar riesgos. Controles de alta disponibilidad, seguridad y disponibilidad

 Recuperación Reducir o limitar las consecuencias ante interrupciones. Planificadas antes y ejecutadas al producirse el hecho

INTEGRACIÓN CON TI P ROT E C CI Ó N D E DATO S

 Protección de datos implican medidas de la organización para resguardar sus activos, asegurar la precisión y fiabilidad de registros y promover la eficiencia operativa  Los controles internos incluyen medidas de salvaguarda de sistemas TI y la determinación de conjuntos de datos que requieren mayores niveles de protección  La naturaleza de los controles implica que algunos determinan la operación propia de otros, esta interdependencia determina la necesidad de su apropiado diseño  La seguridad es un concepto progresivo y comprende el análisis de las crecientes vías de acceso (proliferación de pc’s, redes wireless, VPN’s, etc.). Mayor riesgo  Áreas de importancia para controles internos son: controles organizativos, de desarrollo y mantenimiento de sistemas, de acceso, seguridad física y del entorno de comunicaciones

INTEGRACIÓN CON TI C O B E R T U R A D E S E G U RO S E X T E R NO S  Los seguros son una herramienta de mitigación de riesgos, proveen un nivel de confianza y previenen de impactos financieros u organizacionales  Por si solos, no son suficientes pues no son capaces de compensar apropiadamente todas las incalculables perdidas en caso de interrupciones  Dimensionar su cobertura es clave en el entorno del BCP, su precisión, prueba y mejoramiento no determina menores coberturas, debe siempre haber balance  Las aseguradoras son una fuente de información sobre el impacto de un desastre pues deben soportar al negocio en caso de inhabilitación de servicios  Cubren la perdida de ingresos y gastos extraordinarios a ser efectuados hasta la recuperación de la operatividad de los servicios  Los efectos de un suceso de desastre deben ser documentados y cuantificados a detalle para formalizar el reclamo  Deben considerarse: reemplazo de hadr y soft, costos adicionales, cobertura de perdidas en el negocio, cobertura a documentos y registros, errores y omisiones, fidelidad de empleados y transporte de personal y medios de recuperación

INTEGRACIÓN CON TI C L A S I FI CAC IÓ N D E DATO S Y R E G I S T RO S

 Identificar datos y registros críticos para procesos del negocio, no todos tienen el mismo grado de requerimientos, algunos son irremplazables, otros tienen un alto costo de recuperación (financiero o en tiempo) y otros pueden recuperarse con poco impacto o con mayor facilidad  El análisis define cuales deben ser duplicados, como y donde almacenarlos en función de los riesgos contingentes y su importancia emergente del BIA  Para soluciones de replicación en tiempo real, la integridad del sitio alterno es una consideración importante particularmente en eventos de efecto progresivo, aspectos que la tecnología moderna soporta en las perspectivas de prevención y mitigación  Deben incluirse datos no electrónicos tendiendo a su manipulación segura y ordenada identificando su naturaleza  Existe normativa legal que debe ser cumplida con respecto a su mantenimiento en tiempo y forma para efectos de control, seguimiento y auditoria

INTEGRACIÓN CON TI T I P O S D E P L A N E S D E C O N T I NG ENC IA B C P

 El BCP representa un amplio espectro de actividades para soportar y recuperar procesos críticos del negocio y servicios de TI posterior a una emergencia  En definitiva una organización usa un conjunto de planes para preparar apropiadas respuestas de recuperación y continuidad en el ámbito de las TI, procesos del sistema y sus instalaciones  Existiendo una conexa relación entre sistemas TI y los procesos del negocio que soportan, debe haber coordinación entre ambos en su desarrollo y optimización a fin de que las estrategias de recuperación y recursos de soporte no se afecten entre si ni se dupliquen esfuerzos  Definiciones conceptuales sobre planes de contingencia y otros relacionados no existen, esto genera algunas confusiones sobre sus alcances y objetivos  Un BCP enfrenta los efectos de interrupciones en los procesos del negocio y como debe reiniciar la operatividad de los mismos, cualquiera haya sido el origen. El punto es recuperar el control de gestión y capacidad de operación

INTEGRACIÓN CON TI T I P O S D E P L A N E S D E C O N T I NG ENC IA B C P Hay una variedad de planes de contingencia necesarios e interrelacionados que se convierten en componentes del BCP

INTEGRACIÓN CON TI T I P O S D E P L A N E S D E C O N T I NG ENC IA B C P Es recomendable que un BCP contemple la mayoría si no todos estos elementos  Plan de reanudación del negocio – Business Resumption Plan (BRP) Un BRP orienta el restitución de los procesos del negocio, se diferencia con el BCP en que carece de procedimientos de continuidad durante una emergencia

 Plan de continuidad de operaciones – Continuity of Operations (COOP) Se enfoca en restaurar funciones esenciales (generalmente de la oficina central) en un sitio alterno y su mantenimiento hasta el retorno de las condiciones normales en unos 30 dias

 Plan de respuesta a incidentes – Incident Response Plan (IRP) Establece procedimientos para identificar ataques cibernéticos contra la infraestructura TI. Identifica, mitiga y recupera operatividad ante incidentes maliciosos

 Plan de emergencia para empleados – Occupant Emergency Plan (OEP) Estrategia de seguridad física para ocupantes de las instalaciones del negocio. Tienen un alcance geográfico particular

 Plan de recuperación de desastres – Disaster Recovery Plan (DRP) Aplica a las acciones para enfrentar imposibilidad de acceso a instalaciones del negocio. Frecuentemente refieren a planes basados en TI para restaurar operatividad de datos, sistemas o infraestructura en un sitio alterno. No efectivo en incidentes menores

INTEGRACIÓN CON TI EQUIPO DE GESTIÓN DE LA CRISIS La mayor parte de procesos y procedimientos se orientan a garantizar la gestión de la organización y sus recursos durante el proceso de recuperación.  Compromiso de la alta gerencia La alta gerencia debe respaldar y estar involucrado en el desarrollo, coordinación y aseguramiento de la efectividad del plan. Recursos y tiempos adecuados deben ser provistos

 Un comité estable de planificación Incluirá representantes de toda área funcional, los componentes clave incluirán a los gerentes de operaciones y TI, este define el alcance e informa a la alta gerencia regularmente debido a la naturaleza sensible del tema y por las inversiones involucradas

 Un alcance definido Si bien por lo general se consideran actividades relacionadas con TI, un plan coherente incluirá áreas operativas fuera de la cobertura de TI. El BCP debe tener una visión amplia para contemplar los muchos escenarios que puedan afectar a la organización

INTEGRACIÓN CON TI C O N S I D E R ACI O NES D E L E Q U I P O D E G E S T I Ó N D E C R I S I S

Al planificar, debe considerarse el escenario mas critico, así situaciones menos complejas pueden manejarse con partes del plan con escasas modificaciones El plan se basa en suposiciones, estas son función del alcance definido y limitan la magnitud de desastres que la organización podrá enfrentar, se identifican con base en cuestionamientos como los siguientes:    

Que equipos o infraestructura puede ser dañada? Cual el tiempo esperado de la interrupción? Que registros, archivos y materiales tienen protección? Que recursos se tendrán disponibles después de la ocurrencia del desastre? o o o o o

Dotación de personal Equipamiento Comunicaciones Transporte Sitio alternativo

INTEGRACIÓN CON TI C O N S I D E R ACI O NES D E L E Q U I P O D E G E S T I Ó N D E C R I S I S Supuestos a considerar (no limitativos) en la planificación son: o La infraestructura principal de la organización es destruida o Existe personal para efectuar las tareas funciones definidas en el plan o El personal puede ser notificado y puede reportar al sitio de respaldo para acciones criticas de procesamiento, recuperación y rehabilitación de servicios o El plan esta siempre probado y vigente o Un subconjunto del plan puede soportar interrupciones menores o Un sitio e infraestructura alternos están disponibles o Un stock suficiente de formularios y suministros están disponibles off-site o Un sitio de trabajo alterno puede ser habilitado para gestionar la crisis o Las comunicaciones locales y de larga distancia (respaldo) están habilitadas o Transporte por tierra es factible en el área o Los proveedores se comportaran de acuerdo a los convenios para dar soporte a la organización

INTEGRACIÓN CON TI C O M I T ÉS I N T ER NO S Y S U S R E S P O N SAB I L IDAD ES

 El BCP se construye con un enfoque de trabajo en equipo, son necesarios comités para funciones administrativas, instalaciones. Logística, soporte al usuario, procesos de back-up, transmisión y recuperación, etc. Funciones que deben ser asignadas  La estructura del equipo de crisis no podrá ser equivalente a la de la organización, usualmente se configuran para responder a las funciones de mayor impacto  Los comités no necesitan atomizar funciones, algunos podrán ser responsables por mas de una actividad pero no se deben recargar funciones ni asignarlas sin propiedad  El personal de los equipos debe seleccionarse con base en sus habilidades y liderazgo, preferentemente a responsables ordinarios de las mismas funciones  Los equipos deben entender no solo el propósito del plan sino los procedimientos necesarios para completar la estrategia de recuperación  También deben conocer los objetivos y procedimientos de otros grupos para garantizar colaboración y coordinación

INTEGRACIÓN CON TI C O M I T ÉS I N T ER NO S Y S U S R E S P O N SAB I L IDAD ES

 Un líder dirige las operaciones de cada equipo, lo representa ante superiores y coordina con los otros lideres. Distribuye información y aprueba las decisiones al interior del equipo. Debe designarse un líder alterno en caso de ausencia  El equipo de mayor importancia es el de administración de la crisis, provee guía al resto de equipos. Es un gerente de amplia experiencia (CIO) con autoridad para decidir en función de costos, riesgo aceptable y niveles de coordinación  Sus funciones de mayor importancia son: • Responsable por activas el BCP y supervisar su ejecución • Supervisa las pruebas y entrenamiento • Facilita la comunicación entre equipos • Dirige acciones en los equipos especializados • Coordina el proceso de recuperación • Evalúa los desastres, define su activación y convoca a otros equipos • Toma las decisiones sobre prioridades, políticas y procedimientos

INTEGRACIÓN CON TI C O M I T ÉS I N T ER NO S Y S U S R E S P O N SAB I L IDAD ES

INTEGRACIÓN CON TI P RO C E D I MI ENTO S D E N OT I FI CAC IÓ N Y AC T I VAC IÓ N

 Son necesarios buenos procedimientos de notificación y activación como acciones iniciales en caso de emergencia  Implica actividades de notificación al personal, evaluación de los daños e implementación del plan  El resultado de esta fase, los equipos de recuperación están preparados para tomar medidas de contingencia para restaurar las funciones de forma temporal  Las emergencias pueden ser anticipadas o imprevistas, los procedimientos deben considerar los mecanismos de notificación en ambos casos y en cualquier horario  Una respuesta temprana reduce efectos en la infraestructura de TI y puede dar opción a tomar medidas preventivas  El equipo de evaluación de daños debe ser informado con prontitud para determinar la gravedad de la situación y así tomar las medidas mas adecuadas  Concluida la evaluación, los equipos apropiados de soporte y recuperación también deben ser notificados

INTEGRACIÓN CON TI P RO C E D I MI ENTO S D E N OT I FI CAC IÓ N Y AC T I VAC IÓ N

 El proceso de notificación deberá considerar medios alternativos. Su estrategia definirá cual utilizar según la coyuntura y deberán estar claramente documentados  Un mecanismo generalizado es el llamado «árbol de notificación» y plantea un proceso paulatino y por niveles, cada uno con medios alternos identificados en una lista de comunicación incluyendo niveles jerárquicos, nombres, información y medios formales e informales de contacto  Para la cabeza del «árbol» debe definirse uno alterno para que este asuma el liderazgo por la ejecución del plan  También debe notificarse a puntos de contacto externos o socios empresariales que puedan ser afectados, dependerá del tipo de interrupción para que tengan responsabilidades en el proceso

INTEGRACIÓN CON TI P RO C E D I MI ENTO S D E N OT I FI CAC IÓ N Y AC T I VAC IÓ N Un ejemplo de árbol de comunicaciones que define el flujo de la cadena de información en situaciones de crisis puede ser:

INTEGRACIÓN CON TI P RO C E D I MI ENTO S D E N OT I FI CAC IÓ N Y AC T I VAC IÓ N Ejemplo de procedimiento de recuperación en caso de indisponibilidad de suministro eléctrico

INTEGRACIÓN CON TI P RO C E D I MI ENTO S D E N OT I FI CAC IÓ N Y AC T I VAC IÓ N Debe documentarse el tipo de información a ser transmitida, su cantidad y nivel de detalle. Esto dependerá del equipo especifico a ser convocado, esta podrá incluir:  Naturaleza del incidente  Perdida de vidas humanas o heridos  Estimación de la magnitud de los daños  Detalles de acciones emergentes y detalles de recuperación  Lugares de reunión para coordinación y toma de decisiones  Instrucciones de reubicación y tiempos estimados  Instrucciones para continuar el árbol de comunicación

PROCESOS Y PROCEDIMIENTOS AC T I VAC IO N D E L P L A N

El BCP debe ser iniciado cuando la evaluación de la crisis indica que algún criterio de activación ha sido alcanzado, estos son particulares para cada organización y deben ser descritos el la política de recuperación, pueden estar basados en criterios como:  Seguridad del personal o daño masivo de las instalaciones  Daño masivo de la infraestructura de TI (físico, operacional o de costos)  Situación critica del sistema que afecte la misión de la organización  Interrupción prevista de larga duración Después de particularizado el daño, el coordinador de recuperación debe seleccionar la estrategia y equipos de recuperación apropiados

PROCESOS Y PROCEDIMIENTOS R E A N UDAC IO N D E L N E G O C I O El plan de reanudación del negocio refiere estrategias para reiniciar operaciones de TI rápida y efectivamente Se gestiona en dos fases, recuperación que habilita la operatividad de procesos críticos de forma temporal y restauración que retorna la operación del negocio a condiciones originales La estrategia debe cubrir los riesgos residuales del BIA considerando alternativas a seguir considerando costos, tiempos aceptables, seguridad e integración con planes integrales de recuperación de la organización Este proceso requiere un buen nivel de automatización debido a su criticidad y volumen de trabajo especializado y considera los siguientes tópicos:    

El sistema (hosting de aplicaciones criticas a nivel central y descentralizado) Servicios de red (LAN, WAN y telecomunicaciones criticas) Activación de los equipos de restauración (coordinación) End-user (mecanismos para conectarse con sistemas y redes restauradas)

PROCESOS Y PROCEDIMIENTOS P RO C E D I MI ENTO S D E R E C U P E R AC IO N Inician cuando el BCP ha sido activado (evaluación de la crisis completa) y se enfoca en procedimientos de emergencia para recuperar temporalmente la operatividad de los procesos de negocio definidos en el BCP Pueden implicar procesos manuales temporales, operación en sitios alternos (failover) En sistemas complejos el procedimiento refleja las prioridades del BIA y la secuencia de acciones responde a los tiempos permisibles de interrupción de sistemas y procesos correspondientes también definidos en el BIA El procedimiento definirá el equipo humano y la disposición o traslado de equipos, datos y todo material requerido para el proceso, entre otros:       

Notificaciones internas y externas Disposición e instalación de los componentes de hard necesarios Disposición y habilitación de los datos necesarios Activación de los procesos críticos del negocio (sistemas y aplicaciones) Pruebas de funcionalidad incluyendo condiciones de seguridad Conexión de equipos, redes y conexiones a sistemas externos Operación satisfactoria de las instalaciones alternas

PROCESOS Y PROCEDIMIENTOS FA S E D E R E S TAUR AC IO N

Es la fase final que completa la reanudación del negocio cuando los efectos de la crisis se han superado y se deben alcanzar las condiciones iniciales Cuando las condiciones físicas y de infraestructura de las instalaciones del negocio están rehabilitadas, la operatividad del negocio puede retornar al sitio original (o uno nuevo), este proceso es conocido como Failback Las actividades de este proceso desarrollaran las siguientes actividades        

Verificar el cumplimiento de todas las condiciones exigidas (sitio original) Instalar hard, soft, redes y comunicaciones Habilitar conectividad e interfaces internas y externas Pruebas de funcionalidad para todas sus operaciones Recuperar e instalar datos y aplicaciones desde el sitio alterno Bajar y finalizar operaciones en el sitio de contingencia Reubicar material y documentos críticos del sitio alterno Reubica al personal en el sitio original

PROCESOS Y PROCEDIMIENTOS S I T I O S A LT E R NO S O D E C O N T I NG ENCIA Parte del BCP implica diseñar características del sitio alterno, este puede ser: • • •

Un sitio dedicado y gestionado por la organización Un sitio compartido con alguna otra entidad Un sitio comercial

Independientemente de su tipo, debe ser capaz de soportar las operaciones definidas en el BCP En función de su disponibilidad operacional podrá ser: • • •

• •

Cold sites (frío) Solo instalaciones, sin facilidades ni equipamiento (traslado) Warm sites (templado) Facilidades y equipamiento parcial, requiere preparación para para recibir transferencia de sistemas, datos y personal Hot sites (caliente) Equipamiento y personal dedicados y preparados para operar en caso de contingencias, gestionados 24x7. En función del tiempo de RTO pueden espejarse o iniciar operaciones desde medios de back-up Mobile sites (movil) Data center transportable (trailers), pueden ubicarse a decisión de la organización, requieren instalación previa por su compleja configuración Mirrored sites (espejados) Completa redundancia y mirroring en tiempo real, el mas alto grado de continuidad. Usualmente usados en modelos de distribución (rotación) de cargas de trabajo

PROCESOS Y PROCEDIMIENTOS S I T I O S A LT E R NO S O D E C O N T I NG ENCIA

PROCESOS Y PROCEDIMIENTOS S I T I O S A LT E R NO S O D E C O N T I NG ENCIA  Ameritan un balance entre costos y funcionalidad por lo que ameritan un estudio apropiado  También debe considerarse la compatibilidad del hard, soft, e instrumentos de conectividad y control

 Las consideraciones de costo determina la consideración de los métodos de disponibilidad: En propiedad, Compartido o Alquilado  La solución podrá considerar la combinación y complementariedad de métodos a objeto de proporcionar la mayor capacidad de recuperación a una mayor cantidad de riesgos y con el mejor índice de retorno de la inversión

PROCESOS Y PROCEDIMIENTOS S I T I O S A LT E R NO S O D E C O N T I NG ENCIA  La discusión de costos involucran aspectos de amplio espectro pues deben cubrir las necesidades del BCP  Estos incluyen: soft, hard, viajes, envío de materiales, pruebas, entrenamiento, concientización, horas de trabajo, servicios contratados y todo el equipamiento de oficina  La organización debe efectuar un análisis de costo-beneficio para completar la identificación del plan de recuperación mas adecuado

PROCESOS Y PROCEDIMIENTOS S I T I O S A LT E R NO S O D E C O N T I NG ENCIA La distancia entre sitios es una consideración adicional a definir

Una solución combinada se estructura a nivel del software de aplicación por lo general usando duplex standby DB y message queuing en middleware

PROCESOS Y PROCEDIMIENTOS

Los aspectos revisados cubren aspectos tales como:  La importancia de procesos y procedimientos para conocer con precisión como el personal y la infraestructura de TI van a reaccionar en casos de crisis  Diferentes tipos de planes de contingencia incorporados en el BCP  Los equipos de gestión de la crisis y procedimientos de notificación y activación del BCP  Consideraciones de costos en la selección de alternativas de Alta Disponibilidad, Recuperación de Desastres y selección de Sitios Alternos

DISEÑO DE LA ESTRATEGIA DE TI Estamos ahora en condiciones para diseñar las estrategias, arquitecturas y tecnologías de TI apropiadas para soportar un BCP end-to-end Consideremos las mejores practicas referidas a:  Simplificación de infraestructura de TI  Diseño en alta disponibilidad  Servidores de alta disponibilidad  Replicación de datos  Diseño de Bases de Datos y software

DISEÑO DE LA ESTRATEGIA DE TI S I M P L I FI CAC IO N D E L A I N F R AE STRU CTU RA D E T I El primer paso de la estrategia debe evaluar las disponibilidades desde un punto de vista de consistencia de: operaciones, herramientas y en gestión de los datos Alta heterogeneidad en la infraestructura requiere una variedad de herramientas, políticas y habilidades, que requieren procesos complejos de recuperación Una buena practica consiste en iniciar en paralelo un proceso de consolidación y estandarización de la infraestructura Los beneficios a lograr son:  Mayor facilidad al administrar menos componentes  Disponibilidad para reinvertir los recursos que se ahorren en el BCP  Posibilidad de sincronizar proyectos de consolidación con el del BCP, logrando incorporar mejoras como en: • • • •

gestión de cargas, gestión de los datos, administración del sistema, cambios de control y otros

DISEÑO DE LA ESTRATEGIA DE TI S I M P L I FI CAC IÓ N D E L A I N F R AE STRU CTU RA D E T I

DISEÑO DE LA ESTRATEGIA DE TI O B J E T IVO S D E L A A R Q U I T ECTU RA D E T I

DISEÑO DE LA ESTRATEGIA DE TI A LTA D I S P O N I B IL I DAD

 Soluciones de servidores en cluster a través del SO e infraestructura de hardware  Estructura dúctil y dinámica que respalda (esconde) fallas en sus componentes •

Sin puntos únicos de fallo

 Provee acceso continuo a las aplicaciones

DISEÑO DE LA ESTRATEGIA DE TI O P E R AC I Ó N C O N T I NUA

 Permanente acceso a la infraestructura de TI en condiciones normales  No es necesario bajar las aplicaciones para efectuar procesos de soporte o mantenimiento •

Back-ups programados



Mantenimientos planificados

DISEÑO DE LA ESTRATEGIA DE TI R E C U P E R AC IÓ N D E D E SA S TR ES

 Capacidad de recuperación ante interrupciones generalmente en un sitio alternativo •

Usualmente en hardware diferente

 Efectuado después de que algo ha afectado la operatividad a lo largo del sitio original

DISEÑO DE LA ESTRATEGIA DE TI M O D E LO D E CA PA S D E C O N T I NUI DAD  Un modelo de “buenas practicas” en la gestión de continuidad es el modelo de capas para organizar los múltiples productos tecnológicos  El concepto es organizar la infraestructura en conjuntos para facilitar su evaluación y gestión. Dados valores de RTO del usuario, los productos y tecnologías del BCP pueden ser ordenados generando grupos que responden los valores particulares de RTO  Luego, categorizando las opciones de tecnología de continuidad según valores de RTO en una serie de capas, es posible cotejar los RTO deseados con el conjunto optimo de tecnologías  A medida que el tiempo de RTO decrece, la tecnología que debe ser aplicada es mas agresiva, consiguientemente de mayor costo.  El concepto es dinámico, mientras el RTO por capa es mas bien fijo, la tecnología asociada es cambiante. Es posible actualizar las tecnologías asociadas a cada capa de continuidad en función de su RTO  Asimismo, si la criticidad de un proceso de negocio se incrementa, reduce su tiempo de RTO, por tanto estará en condiciones para cambiar de capa según corresponda al nuevo tiempo de RTO

DISEÑO DE LA ESTRATEGIA DE TI M O D E LO D E CA PA S D E C O N T I NUI DAD

 Como parte de la estrategia de TI se deberá ajustar las escalas al entorno particular y hacer de estas un instrumento de planificación, comunicación y toma de decisiones, pues facilita la asignación de la o las capas corresponden al RTO deseado, así como la tecnología requerida

DISEÑO DE LA ESTRATEGIA DE TI S E G M E NTAC IO N D E P RO C E S O S  Como siguiente paso se deben segmentar los procesos del negocio y las aplicaciones de TI asociadas, al modelo de capas de continuidad.  Una tecnología de continuidad no es aplicable a todos los procesos de negocio  Esta segmentación se hace en (idealmente) tres segmentos según el RTO  Luego debe mapearse la segmentación de procesos con las capas de continuidad

DISEÑO DE LA ESTRATEGIA DE TI S E G M E NTAC IO N D E P RO C E S O S  Con este modelo se mapean segmentos de procesos de negocio con capas de tecnologías de recuperación, identificando las tecnologías apropiadas a los niveles de recuperación (procesos) necesarios  La consideración de particularidades de cada segmento son variables, se definen de acuerdo al contexto, en líneas generales se consideran:  Disponibilidad Continua • • • •

Disponibilidad de datos 24x7 (servidores, almacenamiento, network) Failover automático de aplicaciones o sitios Recuperación ágil y transparente (servidores, almacenamiento, network) RTO entre minutos a 2 horas

 Recuperación Ágil de Datos • • • •

Alta disponibilidad de datos y sistemas de almacenamiento (storage resilency) Failover automático o manual de sistemas de almacenamiento Recuperación ágil de sistemas de almacenamiento RTO de entre 2 a 8 horas

 Back-up/Restore • •

Back-up y recuperación desde cinta o disco RTO de 8 horas a varios días dependiendo del volumen de datos

DISEÑO DE LA ESTRATEGIA DE TI S E G M E NTAC IO N D E P RO C E S O S  La segmentación muestra su valor estratégico en su perspectiva de aplicación progresiva en el tiempo

DISEÑO DE LA ESTRATEGIA DE TI S E G M E NTAC IO N D E P RO C E S O S  Construcción de Disponibilidad Continua • • •

Identificar datos y aplicaciones de mayor criticidad que requieren disponibilidad continua e inmediata recuperación en caso de fallas Definidas estas aplicaciones y procesos de negocio, asignarle recursos específicos de alta disponibilidad (servidores, almacenamiento, bases de datos, software y recursos de red) Estos recursos constituyen la infraestructura de alta disponibilidad del el negocio

 Bajo el mismo modelo se construyen ambientes de Ágil Recuperación de Datos y el de Back-up/Recovery, definiendo los estándares e infraestructura de cada segmento  Construcción de un ambiente estandarizado de BC • • •

Este modelo construye una estrategia de Consolidación y Simplificación que estandariza la infraestructura de TI de manera horizontal (múltiples procesos y líneas de negocios) Con esto construimos un conjunto estándar de recursos en infraestructura del negocio Asimismo obtiene una metodología con economías de escala estratégicas que reforzada con buenas políticas y gobernabilidad de TI constituyen una arquitectura dinámica de BC

 Valor estratégico •

En el tiempo, la implementación de nuevas aplicaciones y procesos de negocios, la definición de capacidades de recuperación esta ya estandarizada en un modelo de BC flexible, escalable y consistente

DISEÑO DE LA ESTRATEGIA DE TI R E S U M E N D E L D I S E Ñ O E N A LTA D I S P O N I B IL I DAD

 Se han revisado conceptos de Capas para BC y segmentación de procesos para establecer una arquitectura homogénea y optimizada de BC  Los pasos a seguir son: •

Categorizar el conjunto de procesos del negocio en segmentos en función de la tolerancia esperada ante interrupciones (baja, media y alta). Procesos que independientes no son críticos pero que inciden en la operativa de otros que lo son, deben clasificarse en la categoría correspondiente



Para cada segmento se tienen varias capas de continuidad que corresponden a sus mejores opciones de tecnología de continuidad. No es necesario utilizar todas la capas y por ende todas las tecnologías



Segmentados los procesos del negocio y las aplicaciones en tres bandas, seleccionamos la mejor tecnología de continuidad para la banda.

 El resultado de este proceso logra optimizar y mapear las variables necesidades de tiempos de recuperación con la tecnología apropiada y a costos racionalizados, es decir la mejor cobertura de las aplicaciones a los menores costos

DISEÑO DE LA ESTRATEGIA DE TI S E RV I D O R E S D E A LTA D I S P O N I BI L IDAD

 Debe establecerse cuidadosamente las condiciones de alta disponibilidad requeridos por el negocio. Esta configuración es la línea de base de consolidación y residencia requerida en servidores y SO  Con un apropiado nivel de tolerancia a fallos, redundancia, residencia y capacidades de clustering, los servidores pueden ser parte de un proceso de diseño de BC para capacidad de recuperación end-to-end  Por lo general, alta disponibilidad en servidores “enmascaran” interrupciones de manera interna y automática, este diseño aplicado sobre sus componentes (CPU, memoria y discos) permite su operación ininterrumpida  Varios servidores habilitados con alta disponibilidad son configurados para trabajar juntos y asegurar recuperación automática en casa de fallos en un mínimo tiempo de interrupción.  En este tipo de sistemas el SO detecta las fallas del hard y administra la supervivencia de las aplicaciones reiniciándolas el el mismo u otro disponible (que asume la identidad del primero)

DISEÑO DE LA ESTRATEGIA DE TI S E RV I D O R E S D E A LTA D I S P O N I BI L IDAD  También es necesario eliminar todo punto de falla con relación a equipos o servicios externos, si los equipos tienen una sola interface y conexión de red, una segunda de respaldo debe ser habilitada  Una alternativa para alta disponibilidad es una arquitectura de servidores en cluster lo que permite compartir recursos entre ellos. Generalmente el almacenamiento reside en arreglos compartidos de discos accesibles desde cualquier servidor  Los conceptos de consolidación y simplificación son aplicables a los servidores para establecer una arquitectura de alta disponibilidad a un costo racionalizado  Soluciones de virtualización son altamente recomendados y deben ser utilizados para mejorar el control, la eficiencia y gestión.

DISEÑO DE LA ESTRATEGIA DE TI R E P L I CAC IO N D E DATO S  Como parte de la estrategia de TI para BC con sitios alternos, la pregunta a responder es: Cual la mejor manera de replicar datos al sitio de respaldo?  Existen dos categorías de protección de datos en el entorno de la replicación:  Corrupción de datos: Producido por lo general debido a errores humanos o de las aplicaciones para el cual, copias locales “point-in-time” en disco o cinta son una opción  Perdida de datos: Generada normalmente por perdida de capacidad de acceso, fallas físicas o destrucción de las estructuras de almacenamiento. Para este caso, la replicación remota es la tecnología de recuperación usualmente utilizada

 La replicación de datos puede efectuarse de manera valida en diferentes niveles:  Bases de Datos y/o Aplicaciones (software)  Servidores y SO  Estructuras de almacenamiento (storage)

DISEÑO DE LA ESTRATEGIA DE TI R E P L I CAC IO N D E DATO S

DISEÑO DE LA ESTRATEGIA DE TI R E P L I CAC IO N D E DATO S

DISEÑO DE LA ESTRATEGIA DE TI R E P L I CAC IO N A N I V E L D E A P L I CACI O NES O B A S E D E DATO S  El software y los RDBMS’s actuales tienen facilidades para replicar datos (remoto)  En este modelo el desde el soft o la DB direccionan datos (unidades logicas de datos o transacciones) a una diferente instancia (sitio remoto) en forma de log-files  En el sitio remoto, estos log-files pueden ser aplicados a una copia sombra (shadow) de la DB

DISEÑO DE LA ESTRATEGIA DE TI R E P L I CAC IO N A N I V E L D E A P L I CACI O NES O B A S E D E DATO S  Este modelo es útil cuando se requiere minimizar anchos de banda.  La aplicación o DB tiene pleno conocimiento de datos y transacciones, el software tiene inteligencia para eliminar información innecesaria antes de enviarla  La cobertura de consistencia y recuperación están en el entorno de la aplicación  En el sitio remoto se regeneran problemas de consistencia (roll-back/commit)  Se utilizan ciclos de tiempo ajustables para transmisión automática  Organizaciones con entornos de TI altamente homogéneos en aplicaciones y DB, con fuerte tendencia estratégica de estandarización bajo el mismo entorno, son las que pueden aprovechar sustancialmente el modelo

DISEÑO DE LA ESTRATEGIA DE TI R E P L I CAC IO N A N I V E L D E L S E RV I D O R  Es realizado por el SO o algún software en este (file system) y efectúa la replicación a nivel de I/O (write-I/O-level)  No tiene conocimiento de las frontera de transacción o unida lógica de trabajo

DISEÑO DE LA ESTRATEGIA DE TI R E P L I CAC IO N A N I V E L D E L S E RV I D O R  Como el servidor tiene control de todas las aplicaciones y bases de datos que administra, la replicacion (de alguna unidad espejada o en cluster) es enviada con cada cambio (write/update) al sitio remoto  Es independiente de las aplicaciones y datos por lo que toma ventaja cuando hay muchas y diferentes aplicaciones corriendo en el servidor o cuando hay muchos y diferentes tipos y cantidades de datos, los interpreta como bloques indistintamente  La cobertura de consistencia y recuperacion sera con una plataforma equivalente  Como quiera que en este modelo no se tiene conocimiento completo del significado logico de los datos que se transmiten, usa un mayor ancho de banda  Cuando se requiere iniciar la instancia remota, se tiene una imagen no consistente de los datos (crashed-image). DB y aplicaciones precisan un apropiado proceso de consistenciacion (Roll-back)  Utilizan ciclos programables para su ejecución automatica  Es en resumen menos compleja de implementar y es independiente de las aplicaciones, pero esta limitada a plataformas equivalentes

DISEÑO DE LA ESTRATEGIA DE TI R E P L I CAC IO N A N I V E L D E I N F R AE STRU CTU RA D E DATO S  Modelo muy util cuando el entorno a nivel del servidor es heterogéneo, algunos sistemas novedosos de cinta (virtual-tape) también lo aplican

DISEÑO DE LA ESTRATEGIA DE TI R E P L I CAC IO N A N I V E L D E I N F R AE STRU CTU RA D E DATO S  Aplica en ambientes en los que la cobertura de recuperación debe abarcar plataformas de SO multiples, cuando la magnitud de la replicación es grande y requerirían ciclos grandes de descarga desde el servidor  Como implica replicar desde una infraestructura común de almacenamiento que soportan a todos los servidores, es un medio común de replicación a todos ellos, es independiente de los servidores, de sus plataformas y de las aplicaciones  La cobertura de consistencia y recuperación implica la misma plataforma de estructura de almacenamiento (marca y familia). Esto debido a que el proceso transfiere una imagen del controlador cache del storage (estructura del cahce)  Del mismo modo que a nivel de servidor, la instancia remota tiene una imagen no consistente de los datos (crashed-image) y requiere consistenciacion  Tampoco tiene control sobre el significado lógico de los datos, incluso menos que el servidor por lo que su volumen es alto y requiere un mayor ancho de banda LA REPLICACION DE DATOS ES SOLAMENTE UNA PARTE DE LA SOLUCION

DISEÑO DE LA ESTRATEGIA DE TI S E L E C C IÓ N D E L M O D E LO D E R E P L I CACI Ó N

DISEÑO DE LA ESTRATEGIA DE TI S E L E C C IÓ N D E L M O D E LO D E R E P L I CACI Ó N

DISEÑO DE LA ESTRATEGIA DE TI R E P L I CAC IO N S I N C RO NI CA Y A S I N CRO NICA

Análisis del Impacto en el negocio Y los costos Impacto del tiempo máximo aceptable de respuesta

Máximo aceptable de perdida de transacciones (por proceso) Un equilibrio entre costos relativos y beneficios

• • • • •

REPLICACION SINCRONICA El impacto del tiempo de respuesta es aceptable La distancia es metropolitana Ninguna perdida de datos es un requisito Para una recuperación rápida Próximo a Disponibilidad Continua

• • • • • •

REPLICACION ASINCRONICA Un pequeño impacto a la operatividad del sitio primario es requerido La distancia es amplia Es aceptable la regeneración de datos Necesita mayor esfuerzo para su implementación Provee rápida bajada y subida de sistema No cataloga como Disponibilidad Continua

DISEÑO DE LA ESTRATEGIA DE TI R E P L I CAC IO N S I N C RO NI CA Y A S I N CRO NICA

 Un modelo de replicación asincrónica requiere de mayor tiempo y esfuerzo para su implementación  El estado de los datos en el sitio remoto tiene un rezago  Una cierta cantidad de datos deben recrearse en el sitio remoto  Dependiendo del rezago puede tener un efecto domino con otras aplicaciones

 El estado de los datos puede variar en el sitio remoto  Esta variación implica que se debe considerar diferentes formas de interacción entre los diferentes procesos del negocio que son recuperados  La variación, frecuencia y sus efectos deben ser analizados y verificados para dimensionarlos y administrarlos adecuadamente  Existen varias técnicas para manejar con suficiencia estas consideraciones per requerirán de mayor proceso de planificación e integración de infraestructura

GESTION DEL BCP  Con el plan diseñado y la estrategia de TI definida, estamos preparados para iniciar la gestión del BCP  El primer elemento de gestión del plan es la implementación que se desarrolla en el marco de la implementación de cualquier proyecto tecnológico

IMPLEMENTACION DEL BCP La implementación del BCP implica integrar de manera operativa todos los elementos que han sido diseñados y establecidos Se deben tomar en cuenta los siguientes principios • Incluir como base del BCP la consolidación y simplificación de la infraestructura de TI • No tratar de hacer todo al mismo tiempo Planificar para construir el BCP de TI paso a paso • Comenzar donde se esta hoy y planificar un proceso multifase progresivo hacia el objetivo final • Cada paso establece las bases para el siguiente

IMPLEMENTACION DEL BCP

IMPLEMENTACION DEL BCP E S TA MACI O N D E L T I E MP O D E R E C U P E R AC IO N En la elaboración del BCP se definen KPI’s para tiempos y otras métricas

VALIDACION DEL PROGRAMA La validación implica el diseño de un conjunto de pruebas y planes de entrenamiento

VALIDACION DEL PROGRAMA U N E N TO R NO A S E Q U IB L E D E P RU E B A

 Los requerimientos son: CONFIABILIDAD, REPETITIBILIDAD, ESCALABILIDAD  Estos tres aspectos no pueden probarse o mejorarse sin la capacidad de efectuar pruebas frecuentes a costos accesibles  Un entorno asequible no debe requerir mano de obra intensa o distraer el tiempo de otras tareas  Por tanto debe explotar en alto grado la AUTOMATIZACION  La automatización hace factible hacer pruebas repetitivas con una frecuencia programada  Eliminando requerimientos de personal adicional lo convierten en un proceso altamente repetible  El componente de escalabilidad es también mas alcanzable

VALIDACION DEL PROGRAMA L A S P RU E B A S  La estrategia integral de continuidad requiere probar integralmente el BCP empresarial conjuntamente con el de TI  Las pruebas identifican deficiencias y ayuda a evaluar la capacidad del equipo de recuperación para implementar el plan rápida y efectivamente  Cada elemento del BCP debe ser probado para confirmar la precisión de los procesos individuales y su efectividad integral  Deben ser cubiertas las siguientes áreas: •

Recuperación en plataformas alternas desde cintas de Back-up



Coordinación entre equipos de recuperación



Conectividad interna y externa



Rendimiento del sistema en equipamiento alterno



Restauración de operaciones normales

 Para cada ítem deben establecerse objetivos y criterios de éxito explicitos. Los resultados deben ser documentados y revisados  Los resultados y datos recopilados del test son un insumo para la optimizacion

VALIDACION DEL PROGRAMA VA L I DAR R TO ’ S C O N P E R S O NAL O P E R ATI VO

 La validación debe expresar las condiciones normales, deben diseñarse y conducirse en un ambiente de situaciones no ideales  Una buena practica es ejecutarlo asumiendo la ausencia de sus diseñadores y otros expertos en el tema, estos deben participar como simples observadores  El ejercicio del BCP será entonces ejecutado completamente por el personal del sitio alterno (asumiendo ausencia del equipo primario) siguiendo con precisión los procesos y procedimientos vigentes  El plan de pruebas debe mantener neutralidad sobre las capacidades del cliente  La automatización es un componente importante de este proceso, reduce dependencia de habilidades del personal por lo que reduce el impacto del BCP ante ausencia de algún grupo de recuperación

VALIDACION DEL PROGRAMA E N T R ENAMIE NTO

 Entrenar al personal sobre sus responsabilidades complementa la prueba  Debe ser efectuado al menos una ves al año y personal de reciente incorporación deben ser inducidos apropiadamente  A la larga, el personal involucrado con el Plan de Contingencia debe capacitarse al extremo de poder ejecutar los procedimientos sin apoyo de la documentación  Los ámbitos de capacitación son: •

Propósito del plan



Coordinación y comunicación cruzada entre equipos



Procedimientos de reporte



Requerimientos de seguridad



Procesos específicos por equipo (activación, notificación, recuperación y reconstrucción)



Responsabilidades individuales (activación, notificación, recuperación y reconstrucción)

VALIDACION DEL PROGRAMA G E S T I Ó N D E R E S I L I E NCIA ( A DA PTAB IL I DAD ) D E L P RO G R A MA  Por ultimo el BCP debe considerar procesos que le otorguen capacidades de dinamicidad y adaptabilidad a las cambiantes condiciones del negocio  Se deben definir los siguientes aspectos: • • • •

Concientización progresiva Validación periódica Gestión del cambio y del sistema Sesiones periódicas de administracion

VALIDACION DEL PROGRAMA C O N C I E NTIZAC IÓ N Y VA L I DAC IÓ N P E R I Ó D I CA  El manejo de KPI’s son esenciales tanto para la difusión del rendimiento como de la efectividad del BCP  Se recomienda publicarlos en lugares clave de las instalaciones de la organización mostrando los objetivos de cada indicador y el progreso en su alcance  Con una buena gestión del programa, el personal tomara conciencia del estado del proceso y sus progresos  Así el personal será motivado para y sentirá el orgullo de alcanzar los objetivos

VALIDACION DEL PROGRAMA G E S T I Ó N D E L CA M B IO Y D E LO S S I S T EMAS

 El BCP debe ser mantenido y estar siempre preparado y actualizado reflejando los requerimientos del sistema, sus políticas y procedimientos  El ambiente de TI soporta cambios frecuentes debido a los ajustes a las necesidades del negocio, actualizaciones tecnológicas o nueva normativa  Es esencial revisar y actualizar regularmente el plan para asegurar que las nuevas condiciones han sido documentadas y las medidas de contingencia ajustadas  Este análisis deberá hacerse al menos cada cuatro meses aunque ciertos elementos requerirán revisiones mas frecuentes (inventario de equipos, versiones de las aplicaciones, etc.)  Las actualizaciones deben cubrir también al personal, equipos de recuperación, listas y método de comunicaciones, listas de contactos, proveedores y otros  La automatización apoya este proceso facilitando la evaluación de componentes y usuarios y procedimientos con mayor frecuencia

VALIDACION DEL PROGRAMA G E S T I Ó N D E L CA M B IO Y D E LO S S I S T EMAS

 Como mínimo las revisiones deben enfocar los siguientes elementos: • • • • • • • •

Requerimientos operacionales Requerimientos de seguridad Procedimientos tecnológicos Hardware, software y otro equipamiento Nombres e información de contacto de los integrantes de equipos Nombres e información de contacto de proveedores (fijos y alternos) Requerimientos de recursos de sitios alternos u off-site Registros vitales del negocio (electrónicos u otros)

 El BCP contiene información altamente sensible sobre las operaciones y personal del negocio, su distribución debe efectuarse con precisión y de manera controlada  Copias del plan se distribuyen al personal clave para su resguardo en oficina y fuera de ella así como en el sitio alterno. Una lista de las copias entregadas y acuerdos de confidencialidad de receptores son parte de la documentación  Asimismo, información sobre contratos, SLA suscritos, licencias de software, manuales y procedimientos deben ser incluidos

VALIDACION DEL PROGRAMA G E S T I Ó N D E L CA M B IO Y D E LO S S I S T EMAS

 Cambios en el plan, estrategias y políticas deben coordinarse con el coordinador del BCP. Estos difundidos según corresponda  Los cambios serán apropiadamente documentados manteniendo información histórica de su ocurrencia

 El coordinador interactuara frecuentemente con asociaos internos y externos para garantizar que los cambios en cualquiera de estos se reflejen en el BCP. Deberá hacer un estricto control de versiones del plan

VALIDACION DEL PROGRAMA G E S T I Ó N D E L CA M B IO Y D E LO S S I S T EMAS

 El coordinador también evaluara la información de soporte asegurando que este vigente y mantenga el cumplimiento de los requerimientos del sistema. Deberá validar por lo menos la siguiente información: • • • • • • • • •

Contratos del sitio alterno incluyendo histórico de pruebas Licencias de software Acuerdos SLA con vendedores Requerimientos de hardware y software Requerimientos de seguridad Estrategia de recuperación Políticas de contingencia Material de concientización y capacitación Cobertura de las pruebas

 Algunos cambios no son tan evidentes por lo que el BIA también debe ser revisado y actualizado periódicamente

VALIDACION DEL PROGRAMA S E S I O N ES C UATR I MESTR AL ES D E A D M I NIS TR ACI Ó N

 Las KPI’s son un instrumento para informar a la alta gerencia sobre el progreso del BCP, es recomendable que con frecuencia cuatrimestral el estado de cambios sea presentado para revisión  En sesiones de administración deben ser abordados los siguientes puntos clave: • TI presenta el estado de su BCP a responsables de las líneas del negocio para asegurar que ambos están alineados con el BCP de la organización • Se usan los KPI’s para fundamentar la reunión, reafirmar el valor del negocio y la justificación del BCP • En definitiva, son las líneas del negocio que tienen los riesgos teniendo el soporte operacional de TI • TI asume su responsabilidad por lo que busca que los responsables de líneas de negocios sean socios en garantizar la continuidad

RESUMEN DEL PROYECTO

1. 2. 3. 4.

5. 6. 7.

Revisión de la Infraestructura (hardware, software, networking, comunicaciones, servicios contratados, proveedores, etc.) Evaluación de estrategias (del negocio, de TI, medio ambiente, tendencias) Revision de metodologías y tecnología de BC Priorización del Negocio  Evaluación de Riesgos  Análisis del impacto en el negocio (BIA)  Evaluación del BCP vigente

Integración con TI

 Diseño del BCP  Diseño de la estrategia de TI

Gestión del BCP

 Implementación del programa  Validación del BCP

Programa de resiliencia (adaptabilidad)

BISINESS CONTINUIT Y PLAN PARA TI

GRACIAS . . .