Citation preview

http://cristher-dataw.blogspot.com/2011/02/datawarehouse.html dataw.blogspot.com/2011/02/datawarehouse.html

INDICE 1.1. Data WareHouse 1.1.1 Introducción 1.2.1 Qué es un data warehouse? 1.2. Objetivos fundamentales de un data warehouse 1.3. Elementos básicos de un data warehouse 1.4. Procesos básicos del data warehouse 1.4.1. Extracción de datos 1.4.2. Transformación de datos 1.4.3. Carga de datos 1.5. Razonas básicas para implementar un Data WareHouse 1.6. Ventajas del Data WareHouse 1.6.1. Beneficios para los usuarios 1.6.2. Beneficios para el área de sistemas 1.7. Costos de un Data WareHouse 1.7.1. Costos de construcción 1.7.2. Costos de operación 1.8. Bibliografía 1.9. Linkografía Anexos

DATAWAREHOUSE Introducción Las áreas de tecnología de la mayor parte de empresas financieras y comerciales, que hasta hace poco dedicaban la mayor parte de sus esfuerzos a proveer sistemas de información transaccionales que soportaban la carga de la mayoría de actividades de sus cadenas de valor, están concentrados en lograr la explotación coherente de su data almacenada: histórica y transaccional, la realidad en torno a ello, es el ingente tamaño de data obtenido de las operaciones diarias de sus sistemas transaccionales, y el problema de analizar y extraer conocimiento de toda ésta información que permanece sepultada dentro de sí misma. Datawarehouse es un repositorio de datos de muy fácil acceso, alimentado de numerosas fuentes, transformadas en grupos de información sobre temas específicos de negocios, para permitir nuevas consultas, análisis, reportador y decisiones. De acuerdo con W. H. lnmon, quien es considerado como el padre del Data WareHouse: Un Data WareHouse es un conjunto de datos integrados orientados a una material que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de una administración."

QUÉ ES UN DATA WAREHOUSE? Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. El DataWarehouse aísla los sistemas operacionales de las necesidades de información para la gestión. Un cambio en los sistemas operacionales no debe afectar al DW/DM No diseñar y estructurar convenientemente y desde un punto de vista corporativo el DataWarehouse y los DataMarts generará problemas que pueden condenar al fracaso cualquier esfuerzo posterior: información para la gestión obtenida directamente a los sistemas operacionales, florecimiento de DataMarts descoordinados en diferentes departamentos, etc. Objetivos fundamentales de un Datawarehouse •





• •



El Datawarehouse hace que la información de la organización sea accesible: Sus contenidos son entendibles y navegables, y el acceso a ellos son caracterizado por el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles de información sean correctos y obvios. Y navegables es reconocer el destino en la pantalla y llegar a donde queramos con un solo clic. Su rápido desempeño, nos da a entender, el cero tiempo de espera. El Datawarehouse hace que la información de la organización sea consistente: La información de una parte de la organización puede hacerse coincidir con la información de la otra parte de la organización. Si dos medidas de la organización tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. La información consistente significa, información de alta calidad. esta información es contabilizada y completada. El data warehouse es información adaptable y elástica: El data warehouse está diseñado para cambios continuos. Cuando se le hace nuevas preguntas, los datos existentes y las tecnologías tampoco cambian ni se corrompen. Cuando se agregan datos nuevos, los datos existentes y las tecnologías tampoco cambian ni se corrompen. El diseño del Data Marts separados que hacen al Data WareHouse, deben ser distribuidos e incrementados. El data warehouse es un seguro baluarte que protege los valores de la información: El data warehouse no solo controla el acceso efectivo de los datos, si no que da a los dueños de la información gran visibilidad en el uso y abuso de los datos, aun después de haber dejado el data warehouse.



El data warehouse es la fundación de la toma de decisiones: El data warehouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera, las decisiones que son hechas después de que haya presentado las evidencias. La mejor etiqueta que preside sigue siendo la mejor descripción de lo que queremos construir: Un sistema de soporte a las decisiones. Elementos básicos de un data warehouse Los elementos básicos de un data warehouse son: Sistema fuente Area de tráfico de datos Servidor de presentación Modelo dimensional Procesos de negocios Data mart Data warehouse Almacenamiento operacional de datos Olap • •

• • • • • • •

• • • • •

• • •

Rolap Molap Aplicaciones para usuarios finales Herramientas de acceso a datos por usuarios finales Ad Hoc Query Tool Modelado de aplicaciones Meta data

Sistema fuente: Son sistemas operacionales de registros donde sus funciones son capturar las transacciones del negocio. A los sistemas fuentes también se le conoce como Legacy System. Área de tráfico de datos: Es un area de almacenamiento y grupo de procesos, que limpian, transforman, combinan, remover los duplicados, guardan, archivan, y preparan los datos fuentes para ser usados en el data warehouse. Servidor de presentación: Es la maquina física objetivo en donde los datos del data warehouse son organizados y almacenados por los usuarios finales, reportes y otras aplicaciones. Modelo dimensional: Es una disciplina específica para el modelado de datos que es una alternativa para los modelos de entidad – relación. Procesos de negocios: Es el grupo coherente de actividades de negocios que hacen sentido a los usuarios del negocio del data warehouse. Data mart: Es el subgrupo lógico del data warehouse completo. Data warehouse: Son búsquedas fuentes de datos de la empresa. Y es la unión de todos los data marts que la constituyen. Almacenamiento operacional de datos: Es el punto de integración por los sistemas operacionales. Es el acceso al soporte de decisiones por los ejecutivos. OLAP: Es la actividad general de búsquedas para presentación de texto y números del data warehouse, también es un estilo dimensional especifico de búsqueda y presentación de información y que es ejemplificada por vendedores de OLAP. ROLAP: Es un grupo de interfaces de usuarios y aplicaciones que le dan a la base de datos relacional un estilo dimensional. MOLAP: Es un grupo de interfaces de usuarios, aplicaciones y propietarios de tecnología de bases de datos que tienen un fuerte estilo dimensional. Aplicaciones para usuarios finales: Es una colección de herramientas que hacen los queries, analizan y presentan la información objetivo para el soporte de las necesidades del negocio. Herramientas de acceso a datos por usuarios finales: Es un cliente de data warehouse. Ad Hoc Query Tool: Es un tipo especifico de herramientas de acceso a datos por usuarios finales que invita al usuario a formar sus propios queries manipulando directamente las tablas relacionales y sus uniones. Modelado de aplicaciones: Es un tipo de cliente de data warehouse con capacidades analíticas que transforma o digiere las salidas del data warehouse. Meta data: La meta base es toda la información en el ambiente del data warehouse que no son asi mismo los datos actuales.

Procesos básicos del data warehouse •





Extracción de datos: Este es el primer paso para obtener la información hacia el ambiente del data warehouse. Es la selección sistemática de datos operacionales usados para poblar el componente de almacenamiento físico DW. Transformación de datos: Una vez que la información es extraída hacia el área de tráfico de datos, hay posibles paso de transformación como; limpieza de la información, tirar la basura que no nos sirve, seleccionar únicamente los datos necesarios para el data warehouse, combinar fuentes de datos, haciéndolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensión. Son los procesos para sumar y realizar otros cambios en los datos operacionales para reunir los objetivos de orientación a temas e integración principalmente. Carga de datos: Al final del proceso de transformación, los datos están en forma para ser cargados. La carga de datos es la inserción sistemática de datos en el componente de almacenamiento físico DW.

Las razones básicas de porque una organización implementa data warehouse: •







Para realizar tareas en los servidores y discos, asociados queries y reportes en servidores y discos que no son utilizados por sistemas de procesos de transacciones. Muchas de las empresas quieren instalar sistemas de procesos de transacciones para que haya una alta probabilidad de que las transacciones sean completadas en un tiempo razonable. Estos sistemas de procesos de transacciones hacen que las transacciones y peticiones sean más rápidas en menores tiempos dados a que los queries y reportes consumen mucho más de su límite permitido en los recursos de servidores y discos, por tal motivo las empresas han implementado una arquitectura de data warehouse que utiliza sus servidores y discos por separados para algunos de los queries y reportes. Para utilizar modelos de datos o tecnologías de servidores que agilizan los queries y reportes, y que no son apropiados para los procesos de transacciones. Existen maneras de modelar los datos que usualmente agilizan los queries y reportes (ejemplo: el esquema del modelo de estrella) y que no son apropiados para los procesos de transacciones porque la técnica de modelado bajaría el rendimiento y complicaría el proceso de transacciones. También existen tecnologías que aceleran el proceso de queries y reportes pero baja la velocidad en el proceso de transacciones (ejemplo: La indexación de bitmaps ). Y tecnologías de servidores que incrementan la velocidad en el proceso de transacciones, pero que disminuye la velocidad del proceso de queries y reportes (ejemplo: La tecnología de recuperación de transacciones). Todo esto entonces esta en el cómo se hacen l.ops modelos de datos y que tecnología se utiliza, inclusive que productos se adquieren para el impacto de los procesos de los queries y reportes. Para proveer un ambiente donde relativamente una muy poca cantidad de conocimiento de los aspectos técnicos de tecnologías de bases de datos es requerida para escribir y mantener queries y reportes. Frecuentemente un data warehouse puede ser instalado de manera que los queries y reportes puedan ser escritos por personal sin tantos conocimientos técnicos, lo que hace que su mantenimiento y construcción se haga sin más complejidad. Para proveer un repositorio del sistema de proceso de transacciones limpio que puede ser reportado y que no necesariamente requiere que se arregle el sistema de proceso de transacciones. El data warehouse provee la oportunidad de limpiar los datos sin cambiar los sistemas de proceso de transacciones, sin embargo algunas implementaciones de data warehouse provee el significado para capturar las correcciones hechas a los datos del data warehouse y alimenta las correcciones hacia el sistema de procesos de transacciones. Muchas veces hace más sentido hacer las correcciones de esta manera que aplicar las correcciones directamente al sistema de proceso de transacciones.



Para hacer los querys y reportes de datos básicamente más fácil de los múltiples procesos de transacciones y de las fuentes externas y de los datos que deben ser almacenados solamente para el propósito de hacer querys y reportes. Desde hace mucho tiempo que las compañías necesitan reportes con la información de múltiples sistemas y han hecho extracciones de datos para después correrlos bajo la lógica de búsqueda combinando la información de las extracciones con los reportes generados, lo que en muchas ocasiones es una buena estrategia. Pero cuando se tienen muchos datos y las búsquedas se vuelven muy pesadas y después limpiar la búsqueda, entonces lo apropiado seria un data warehouse.

Ventajas del data warehouse Beneficios Para los usuarios: Confianza en el uso de sistemas: El incremento en la rapidez de las consultas afianzara el uso de los sistemas operativos de la empresa. Reducción en tiempos de consultas: Se adquiere una solución que reduce tiempos de espera por parte de los usuarios. Apoyo a la toma de decisiones: Los empresarios tendrán a la mano los resúmenes de información para armar reportes comparativos, utilizando los indicadores más comunes de la empresa, para apoyarse en la toma de decisiones.

Para el área de sistemas Facilidad de uso: La facilidad de uso de esta herramienta le permitirá tener un DW en minutos. Acceso a cualquier base de datos: El soporte para accesar múltiples bases de datos amplía las áreas de aplicación de estas herramienta, para generar resúmenes operativos de su información. Mayor rendimiento: El rendimiento de los servidores de su empresa se verá altamente beneficiado, debido a que el tiempo de consulta se verá disminuido. Costos de un data warehouse Los costos de un data warehouse se clasifican en: • •

Costos de construcción Costos de operación

Costos de construcción: Los costos de construir un DW son similares para cualquier proyecto de tecnología de información. Estos pueden ser clasificados en tres categorías: • • •

RRHH: La gente necesita contar con un enfoque fuerte sobre el conocimiento del área de la empresa y de los procesos empresariales. Tiempo: Se debe a establecer el tiempo no tan solo para la construcción y entrega de resultados de DW, sino también para la planeación del proyecto y la definición de la arquitectura. Tecnología: Muchas tecnologías nuevas son introducidas por el DW. El costo de esta nueva tecnología puede ser tan solo la inversión inicial del proyecto.

Costos de operación: Una vez que está construido y entregado un DW debe ser soportado para que tenga un valor empresarial, son estas actividades de soporte, las fuentes de continuos costos operacionales para un DW. Se puede distinguir tres costos de operación: • • •

Evolutivos: Ajustes continuos del DW a través del tiempo, como cambio de expectativas y productos del aprendizaje del RRHH del proyecto mediante su experiencia usando el DW. Crecimiento: Incremento en el tiempo en volúmenes de datos, del numero de usuario del DW, lo cual con llevara a un incremento de los recursos necesarios como a la demanda de monitoreo. Cambios: El DW requiere soportar cambios que ocurren tanto en el origen de datos que éste usa, como en las necesidades de la información que éste soporta. Los dos primeros tipos de costo de operación, son básicos en la mantención de cualquier sistema de información; sin embargo, se debe tener esencial cuidado en los costos de operación por cambio, ya que ellos consideran el impacto producto de la relación del OLTP y del ambiente empresarial, con el DW.

Errores más comunes al crear un Datawarehouse Muchas cosas en la vida se afrontan acertadamente, sin embargo de las cosas que se precia tener mas experiencia, quedan aquellas que surgen de errores cometidos, debido a que se sabe el resultado negativo obtenido, las causas de su contexto que influenciaron al error y el tratar de no-repetirlo en la medida de lo posible. Este listado de 5 errores en la construcción de un Datawarehouse corporativo: 1do Error: No asignar un presupuesto adecuado para el proyecto completo. Una adecuada asignación de capital y recursos que permita dar soporte y funcionamiento a la plataforma e infraestructura tecnológica que requiere un datawarehouse corporativo debe de ser uno de los aspectos iníciales al considerarlo como proyecto. 2do Error: Bases de Datos redundantes, no transparentes y sin documentar. 3er Error: Falta de compromiso de la alta dirección. El éxito del datawarehouse corporativo requiere del apoyo completo de la alta dirección basada en la seguridad y confianza brindada a la gerencia del proyecto y su equipo de desarrollo, para permitir que el trabajo sea fluido en todas las áreas organizacionales involucradas en el proyecto. 4to Error: No fomento de un ambiente de cooperación completa entre DBA´s y el equipo de datawarehouse. Cuando se empieza un proyecto de datawarehouse en una empresa, generalmente ya existe el área de Administradores de Bases de Datos DBAs, por ello se recomienda crear el Área de datawarehouse al mismo nivel de los DBAs - y no bajo el control de los DBAs. Muchas DBAs son responsables del mantenimiento de las bases de datos para dar soporte a las transacciones del día a día. El crear una plataforma alterna suficiente para el desarrollo del datawarehouse, tener acceso a las fuentes de información del dominio del datawarehouse en forma directa y no como intermediarios los DBAs, es uno de los factores importantes que contribuye a un desarrollo más rápido del proyecto y que apunte hacia el éxito. 5to Error: Asumir la solución de los problemas que puedan presentarse como una cuestión netamente técnica El datawarehouse requiere de la participación activa de los usuarios gerenciales tomadores de decisiones.

Bibliografía • Laudon Keneth C. , Laudon Jane P. New Edition año(2006) • C.J.DATE capitulo 21 pag (708 - 713) • Silberschatz korth • Sudarshan pag(274 - 278) Linkografía • • • • • •

http://www.dwinfocenter.org/casefor.html http://datawarehouse.ittoolbox.com/ http://www.sinnexus.com/business_intelligence/datawarehouse.aspx http://www.dataprix.com/es/data http://www.dataprix.com/es/data-warehose http://www.materiabiz.com/mbz/ityoperaciones/nota.vsp?nid=33043 http://todobi.blogspot.com/2005/12/once http://todobi.blogspot.com/2005/12/once-pasos-para-construir-un.html

Anexos Datawarehouse

Metadata

Proceso básico Datawarehouse

Querys y Reportes