Data Warehouse

DATA WAREHOUSE I. OBJETIVOS a) General: Con el presente trabajo pretendemos Conocer a profundidad sobre data warehouse.

Views 596 Downloads 3 File size 247KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

DATA WAREHOUSE I.

OBJETIVOS a) General: Con el presente trabajo pretendemos Conocer a profundidad sobre data warehouse. b) Especificos:     

Definir qué es data warehouse así como su relación con data warehousing. Indicar las diferencias y similitudes entre data warehouse y data mart. Definir y diferenciar OLTP Y OLAP Conocer la arquitectura de data warehouse y su metodología. analizar el proceso de construcción e implantación de las herramientas Data Warehouse en las empresas.

II. MARCO TEORICO 1.

Definiciones de data Warehouse y data Warehousing análisis de las definiciones. 1.1. Data Warehouse a. ¿Qué es Data Warehouse? Antes veamos algunas definiciones concebidas por diversos expertos en el tema:  “Un Data Warehouse es un conjunto integrado de bases de datos, con orientación temática, que están diseñados para el apoyo a la Toma de Decisiones, y donde cada unidad de datos es relevante en algún momento del tiempo” Bill H. Inmon b. Características: Un Data Warehouse se caracteriza por ser un conjunto de datos orientados a temas, integrado, variante en el tiempo y no volátiles, que dan soporte al proceso de toma de decisiones. Vamos a analizar esto por partes. i.

Orientado a temas 1

Orientado a los temas principales de la organización. La información se clasifica en función de los aspectos que son de interés para la organización. Se organizan por temas para facilitar el acceso y el entendimiento por parte de los usuarios finales. ii.

Integrado En un sistema operacional no hay integración, pero en un Data Warehouse todos los datos se encuentran integrados. Esta integración se muestra de diferentes maneras: consistencia en codificación de estructuras, en unidades de medida de las variables, en múltiples fuentes, en convenciones de nombres, en atributos físicos de los datos etc.

iii.

Variante en el tiempo En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente, por el contrario, la información almacenada en el Data Warehouse refleja un histórico de los datos en un horizonte de tiempo mucho más amplio (del orden de años). De esta forma podemos detectar tendencias en el tiempo.

iv.

No volátil El Data Warehouse existe para ser leído y no para ser modificado, la información es por tanto permanente, la actualización del Data Warehouse significa la incorporación de los últimos valores que tomaron las distintas variables contenidas en él, sin ningún tipo de acción sobre lo que ya existía. Los datos más recientes no sustituyen a los precedentes, sino que suelen mantenerse con un mayor nivel de detalle.

1.2. Data Warehousing: Data Warehousing es el proceso de extraer y filtrar los datos de las operaciones comunes a la organización, procedentes de los distintos sistemas de información y/o sistemas externos, para transformarlos, integrarlos y almacenarlos en un depósito o almacén de datos (Data Warehouse) con el fin de acceder a ellos para dar soporte en el proceso de toma de decisiones de una organización. El objetivo es convertir los datos operacionales en información relacionada y estructurada, homogénea, de mayor calidad y que se mantenga en el tiempo, es decir, los datos más recientes no sustituyen a los precedentes, pero tampoco se acumulan de cualquier manera, sino que se suelen mantener con un mayor nivel de detalle los datos actuales y de manera más agregada los datos anteriores. 2

1.3. ¿Qué diferencia hay entre Data Warehousing y Data Warehouse? Cuando queremos hacer referencia al proceso global en el que a partir de diferentes fuentes de datos (SGDB, ficheros planos, .csv, etc.) se crea y se mantiene un almacén central de datos y que puede ser consultado por herramientas con un propósito de análisis concreto y de ayuda a la toma de decisiones, se debe utilizar el término de Data Warehousing. Para referirnos no al proceso en sí, sino al repositorio central de datos sobre el que se construye el sistema y que integra todos los datos de la organización desde el punto de vista del usuario y no de los procesos, nos estamos refiriendo a Data Warehouse. 2.

Principales aportaciones de un Data Warehouse. Entre las principales aportaciones o beneficios de un Data Warehouse, podemos mencionar las siguientes:  Proporciona una herramienta para la toma de decisiones en cualquier área funcional, basándose en información integrada y global del negocio.  Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar relaciones ocultas entre los datos del almacén; obteniendo un valor añadido para el negocio de dicha información.  Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.  Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación con el cliente.

3.

Diferencias y similitudes entre data Warehouse y data 3.1. Diferencias

Data warehouse Data Mart Almacén de datos de un Almacén de datos de una sistema completo por área específica; ventas, ejemplo de una empresa compras, marketing, etc. Conjunto de datos mart Es único

3

Mart.

3.2. Similitud: Ambos son almacén de datos, que facilitan la información para la buena gestión de la organización.

4.

Definición y comparación entre OLTP y OLAP. 4.1. OLTP (On-Line Transaction Processing) Son aplicaciones que definen el comportamiento habitual de un entorno operacional de gestión y ejecutan las operaciones del día a día. Algunas de las características más comunes de este tipo de transacciones podrían ser:  Altas/Bajas/Modificaciones.  Consultas rápidas, escuetas y predecibles.  Poco volumen de información e información disgregada  Transacciones rápidas  Gran nivel de concurrencia  Modo de actualización on-line  Baja redundancia de datos 4.2. OLAP (On-Line Analytical Process) Son aplicaciones que se encargan de analizar datos del negocio para generar información táctica y estratégica que sirve de soporte para la toma de decisiones. Mientras que las transacciones OLTP utilizan Bases de Datos Relacionales u otro tipo de archivos, OLAP logra su máxima eficiencia y flexibilidad operando sobre Bases de datos Multidimensionales. 4.3. Diferencias entre OLTP y OLAP Mientras que las aplicaciones OLTP se caracterizan por estar actualizadas constantemente por varios usuarios a través de transacciones operacionales sobre datos individuales, las aplicaciones OLAP son utilizadas por personal de niveles ejecutivos que requieren datos con alto grado de agregación y desde distintas perspectivas (dimensiones), como ser: totales de venta por región, por producto, por período de tiempo,..., etc.

5.

Arquitectura de un Data Warehouse. Una de las razones por las que el desarrollo de un data warehouse crece rápidamente, es que realmente es una tecnología muy entendible. De hecho, data warehousing puede representar mejor la estructura amplia de una empresa para administrar los datos informacionales dentro de la organización. A fin de comprender cómo se relacionan todos los componentes involucrados en una estrategia data warehousing, es 4

esencial tener una Arquitectura Data Warehouse. 5.1. Elementos Warehouse

constituyentes

de

una

Arquitectura

Data

Una Arquitectura Data Warehouse (Data Warehouse Architecture DWA) es una forma de representar la estructura total de datos, comunicación, procesamiento y presentación, que existe para los usuarios finales que disponen de una computadora dentro de la empresa. La arquitectura interconectadas:        

se

constituye

de

un

número

de

partes

Base de datos operacional / Nivel de base de datos externo Nivel de acceso a la información Nivel de acceso a los datos Nivel de directorio de datos (Metadata) Nivel de gestión de proceso Nivel de mensaje de la aplicación Nivel de data warehouse Nivel de organización de datos

5.2. Elementos Warehouse

constituyentes

de

una

Arquitectura

Data

En la Figura se muestra algunos de los tipos de operaciones que se efectúan dentro de un ambiente data warehousing.

5

6.

Proceso de construcción de un Data Warehouse. 6.1. Componentes a tener en cuenta a la hora de construir un Data Warehose    

Hardware Software de almacenamiento (SGBD) Software de extracción y manipulación de datos Herramientas Middleware

a) Hardware Un componente fundamental a la hora de poder contar con un Data Warehouse que responda a las necesidades analíticas avanzadas de los usuarios, es el poder contar con una infraestructura hardware que la soporte. b) Software de almacenamiento (SGBD) Como hemos comentado, el sistema que gestione el almacenamiento de la información (Sistema de Gestión de Base de Datos o SGBD), es otro elemento clave en un Data Warehouse. Independientemente de que la información almacenada en el Data Warehouse se pueda analizar mediante visualización multidimensional, el SGBD puede estar realizado utilizando tecnología de Bases de Datos Relacionales o Multidimensionales. Las bases de datos relacionales, se han popularizado en los sistemas operacionales, pero se han visto incapaces de enfrentarse a las necesidades de información de los entornos Data Warehouse. Por ello, y puesto que, como hemos comentado, las necesidades de información suelen atender a consultas multidimensionales, parece que unas Bases de Datos multidimensionales, parten con ventaja. En este sentido son de aplicación los comentarios que realizamos en el apartado de hardware, por requerimientos de prestaciones, escalabilidad y consolidación tecnológica. c) Software de extracción y manipulación de datos Para la extracción y manipulación de datos, es crítico el poder contar con herramientas que permitan controlar y automatizar los continuos "mimos" y necesidades de actualización del Data Warehouse. Estas herramientas deberán proporcionar las siguientes funcionalidades: Control de la extracción de los datos y su automatización. 6

Acceso a diferentes tecnologías, haciendo un uso efectivo del hardware, software, datos y recursos humanos existentes. Proporcionar la gestión integrada del Data Warehouse y los Data Marts existentes. Uso de la arquitectura de metadatos. Acceso a una gran variedad de fuentes de datos diferentes. Manejo de excepciones. Planificación, logs, interfaces a schedulers de terceros. Interfaz independiente de hardware. Soporte en la explotación del Data Warehouse. d) Herramientas Middleware Como herramientas de soporte a la fase de gestión de un Data Warehouse, analizaremos a continuación dos tipos de herramientas:  Por un lado herramientas Middleware, que provean conectividad entre entornos diferentes, para ayudar en la gestión del Data Warehouse. Con el uso de estas herramientas de Middleware lograremos:  Maximizar los recursos ejecutando las aplicaciones en la plataforma más adecuada.  Integrar los datos y aplicaciones existentes en una plataforma distribuida.  Automatizar la distribución de datos y aplicaciones desde un sistema centralizado.  Reducir tráfico en la red, balanceando los niveles de cliente servidor.  Explotar las capacidades de sistemas remotos sin tener que aprender múltiples entornos operativos.  Asegurar la escalabilidad del sistema.  Desarrollar aplicaciones en local y explotarlas en el servidor.  Por otro, analizadores y aceleradores de consultas, que permitan optimizar tiempos de respuestas en las necesidades analíticas, o de carga de los diferentes datos desde los sistemas operacionales hasta el Data Warehouse. El implantar un sistema analizador de consultas, en el entorno real tiene además una serie de ventajas tales como:  Se pueden monitorizar los tiempos de respuesta del entorno real.  Se pueden implantar mecanismos de optimización de las consultas, reduciendo la carga del sistema.  Se puede imputar costes a los usuarios por el coste del Data 7

Warehouse.  Se pueden implantar mecanismos de bloqueo para las consultas que vayan a implicar un tiempo de respuesta excesivo. 6.2. Fases de implantación de un Data Warehouse La construcción e implantación de un Data Warehouse es un proceso evolutivo. Este proceso se tiene que apoyar en una metodología específica para este tipo de procesos, siendo importante el realizar un control para asegurar el seguimiento de la misma. Planteamos aquí la metodología propuesta por SAS Institute: la "Rapid Warehousing Methodology". Dicha metodología es iterativa, y está basada en el desarrollo incremental del proyecto de Data Warehouse dividido en cinco fases:

a. Definición de los objetivos b. Definición de los requerimientos de información: Tal como sucede en todo tipo de proyectos, es importante analizar las necesidades y hacer comprender las ventajas que este sistema puede reportar. c. Diseño y modelización Los requerimientos de información identificados durante la anterior fase proporcionarán las bases para realizar el diseño y la modelización del Data Warehouse. En esta fase se identificarán las fuentes de los datos (sistema operacional, fuentes externas) y las transformaciones necesarias para, a partir de dichas fuentes, obtener el modelo lógico de datos del Data Warehouse. Este modelo estará formado por entidades y relaciones que permitirán resolver las necesidades de negocio de la organización. El modelo lógico se traducirá posteriormente en el modelo físico de datos que se almacenará 8

en el Data Warehouse y que definirá la arquitectura de almacenamiento del Data Warehouse adaptándose al tipo de explotación que se realice del mismo. d. Implementación La implantación de un Data Warehouse lleva implícitos los siguientes pasos:  Extracción de los datos del sistema operacional y transformación de los mismos.  Carga de los datos validados en el Data Warehouse.  Explotación del Data Warehouse mediante diversas técnicas dependiendo del tipo de aplicación que se dé a los datos Con la finalización de esta fase se obtendrá un Data Warehouse disponible para su uso por parte de los usuarios finales y el departamento de informática. e. Revisión La construcción del Data Warehouse no finaliza con la implantación del mismo, después de implantarse, debería realizarse una revisión del Data Warehouse planteando preguntas que permitan, después de los seis o nueve meses posteriores a su puesta en marcha, definir cuáles serían los aspectos a mejorar o potenciar en función de la utilización que se haga del nuevo sistema. 7. Metodología para la implementación de un Data Warehouse. Existen muchas metodologías de diseño y construcción de DW. Sin embargo, se imponen entre la mayoría 3 metodologías más conocidas: la de Ralph Kimball, Barry Devlin y la de Wiliam Inmon. Desarrollaremos la primera. 7.1. Metologia de Ralph Kimball. Conocido también como El ciclo de Vida del Data Warehouse de Ralph Kimball. Ciclo de Vida se refiere a todos los pasos del proceso completo de desarrollo de software: planeación, diseño, codificación, prueba, implementación y administración, el ciclo de vida de Kimball es una metodología paso a paso para diseñar, desarrollar y desplegar Data Marts y Data Warehouses. a) Administración del Proyecto y Requerimientos:

9

a.1. Planeación y Gestión del Proyecto: Este es el primer paso que se debe efectuar al iniciar la construcción de un DataWarehouse: a.2. definir el proyecto: En esta etapa se debe determinar la preparación de la organización para afrontar dicho proyecto. a.3. Obtención de Requerimientos: Cada organización es única en si misma, por tanto se debe de hacer uso de entrevistas o sesiones con facilitador para lograr obtener datos de la información necesaria en la empresa b) Diseño de Datos o Modelado Dimensional: Este es el corazón de la metodología de Kimball, El Modelado Dimensional, es el diseño físico y lógico que transformará las antiguas fuentes de datos en las estructuras finales del Data Warehouse. b.1. La Arquitectura de Bus del Data Warehouse: Cualquier implementador de Data Warehouse que quiera ser exitoso inevitablemente realiza los siguientes pasos:  Crear una arquitectura circundante que defina el alcance e implementación del Data Warehouse completo.  Supervisar la construcción de cada pieza del Data Warehouse completo. b.2. Técnicas de Modelado Dimensional: Los elementos esenciales del modelado dimensional son: Hechos, Atributos y Dimensiones. b.3. Método de Diseño de cuatro pasos para diseñar una tabla de hechos individual: el diseño lógico detallado de un esquema dimensional es dirigido por los siguientes cuatro pasos:  Escoger el Data Mart  Declarar la Granularidad de la tabla de Hechos  Escoger las Dimensiones  Escoger los Hechos b.4. Construcción de Modelos Dimensionales: en la siguiente etapa, una vez que ya se han identificado los Data Marts y sus dimensiones asociadas, se procede con los diseños físico y lógico detallados de las tablas individuales, se utiliza el método de cuatro pasos para diseñar cada tabla de hechos. c) Arquitectura. c.1. Arquitectura de Datos: en el área de arquitectura de datos se incluye el contenido del Warehouse, el diseño físico y lógico de los modelos de datos, agregaciones, jerarquías y más. 10

c.2. Arquitectura Técnica: el área de arquitectura técnica cubre los procesos y herramientas que se aplican a los datos. En el área técnica existen dos conjuntos que tienen distintos requerimientos: El back room (habitación trasera) y el front room (habitación frontal).  El back room es el responsable de la obtención y preparación de los datos, por lo que también se conoce como adquisición de datos.  El front room es responsable de entregar los datos a la comunidad de usuario y también se le conoce como acceso de datos. A pesar de esta separación ambos componentes interactúan de manera significativa. c.3. Arquitectura de Infraestructura y Metadatos: El área de arquitectura de infraestructura se refiere a las plataformas que soportan los datos y procesos. Es la planta física del Data Warehouse y provee los cimientos para todos los elementos de la arquitectura ya descritos. La Infraestructura incluye el hardware, la red y funciones de bajo nivel que los componentes de más alto nivel. d) Implementación Antes de iniciar la implementación es importante decidir qué hechos deben ser agregados con respecto a que dimensiones con el objetivo de mejorar el desempeño general del Data Warehouse. e) Despliegue y Crecimiento Un despliegue exitoso de un Data Warehouse requiere planeación consistente y coordinación previa a la culminación de los esfuerzos de desarrollo. Un apropiado mantenimiento y crecimiento evidencian el éxito de llevar a cabo un proyecto importante como es un Data Warehouse, una correcta gestión que ponga en primer lugar satisfacer a los usuarios de negocio, sin sacrificar atención al back room y entorno técnico permite asegurar una adecuada evolución del Data Warehouse si es acompañado de mediciones y rastreo en el Data Warehouse y retroalimentación de parte de los usuarios. 8. Herramientas para la implementación de data Warehouse. Las herramientas se clasifican en cuatro categorías básicas: a. Herramientas de Almacenamiento: corresponde a la herramienta en la cual se irán a almacenar los datos. Existen muchas opciones dependiendo del volumen de los datos, presupuesto y capacidad de su sistema. Cada uno de los sistemas de administración de bases de datos, como Oracle, DB2, Informix, TeraData, Sybase, etc, tienen una facilidad de Data Warehouse. b. Herramientas de Extracción y Colección: Ayudan a definir, acumular, totalizar y filtrar los datos de sus sistemas transaccionales 11

en el Data Warehouse. La mayoría de esas herramientas son desarrolladas por el personal interno de la compañía dado el gran conocimiento que tienen de los sistemas transaccionales. c. Herramientas para Elaboración de Reportes a Usuarios Finales: Es la interfase vista por el usuario. Al usuario se le debe proveer un mecanismo para que vea los datos a un alto nivel y que entonces obtenga con ello la solución a preguntas específicas. Existen muchas herramientas, incluyendo Cognos Powerplay, Business Objects, SAS, ShowCase Strategy etc. d. Herramientas de Análisis Inteligente: Entre ellas están las de empresas como IBM, SAS, Arbor, Cognos, Business Objects, entre otras. Estas herramientas han sido construidas utilizando inteligencia artificial que buscan alrededor del Data Warehouse modelos y relaciones en los datos. Estas herramientas utilizan una técnica conocida como Data Minning o Minería de datos. Además de estos tenemos herramientas: -

Herramientas de consultas / reportes, con interfaz gráfica, sin usar sentencias SQL, realizar queries o peticiones complejas. Herramientas OLAP (On-Line Analytical Processing). Permiten obtener información generando consultas multidimensionales, con columnas y filas móviles y diversos grados de agrupamiento para diferentes parámetros.

12