Data Warehouse

“Base de Datos II” DATA WAREHOUSEALMACÉN DE DATOS INTEGRANTES: MARIA ROCIO VASQUEZ ESPINOZA LUISA VEGA MONTENGRO CICLO:

Views 282 Downloads 16 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

“Base de Datos II”

DATA WAREHOUSEALMACÉN DE DATOS INTEGRANTES: MARIA ROCIO VASQUEZ ESPINOZA LUISA VEGA MONTENGRO CICLO: VIII-B CURSO: BASE DE DATOS II CARRERA: ING.SISTEMAS Y TELEMATICA DOCENTE: ING. MARCO AURELIO PORRO CHULLI

“Data Warehouse-Almacén de Datos”. 0

“Base de Datos II”

ÍNDICE I.

Tema ...................................................................................................................................................... 2

1.

Data Warehouse - Almacén de Datos .................................................................................................... 2

A.

Contenido ............................................................................................................................................... 2 B.

C.

Para Qué Sirve una Data WareHouse ........................................................................................4

Pasado y presente del Data Warehouse ............................................................................................... 4



Objetivos ..........................................................................................................................................5



Características .................................................................................................................................5

D.

Bases de datos tradicionales vs data warehouse ............................................................................5

E.

Pasos para la carga de una data Warehouse ...................................................................................5

F.

Estructuras de un Data Warehouse ....................................................................................................... 6

G. Diferencias clave entre ........................................................................................................................... 7 H.

Data Warehouse en la nube .................................................................................................................. 8 ¿Por qué migrar a la nube? .................................................................................................................9 

Principales ventajas de mover el data warehouse a la nube ............................................... 10

I.

Ejemplos: .............................................................................................................................................. 11

II.

Resumen .............................................................................................................................................. 15

III. Summary .............................................................................................................................................. 16 IV. Recomendaciones................................................................................................................................ 17 V.

Conclusiones ........................................................................................................................................ 18

VI. Apreciación del Equipo......................................................................................................................... 19 VII. Glosario de Términos ........................................................................................................................... 19 VIII. Bibliografía o Linkografía ..................................................................................................................... 21

“Data Warehouse-Almacén de Datos”. 1

“Base de Datos II” I. Tema 1. Data Warehouse - Almacén de Datos

A. Contenido El concepto de data warehouse se originó en 1988 con el trabajo de los investigadores de IBM, Barry Devlin y Paul Murphy aunque el término data warehouse fue acuñado por William H. Inmon, el cual es conocido como el padre de Data Warehousing.  Definición: Un Data Warehouse (almacén de datos): Es un repositorio unificado para todos los datos que recogen los diversos sistemas de una empresa. El repositorio puede ser físico o lógico y hace hincapié en la captura de datos de diversas fuentes sobre todo para fines analíticos y de acceso. Normalmente, un data warehouse se aloja en un servidor corporativo o cada vez más, en la nube. Data Warehouse es una arquitectura de almacenamiento de datos que permite a los ejecutivos de negocios organizar, comprender y utilizar sus datos para tomar decisiones estratégicas. Un data warehouse es una arquitectura conocida ya en muchas empresas modernas. Las empresas que utilizan data warehouse son fundamentalmente aquellas que manejan grandes volúmenes de datos relativos a clientes, compras, marketing, transacciones, operaciones. como lo son las empresas de telecomunicaciones, transporte, Turismo, fabricación de bienes de consumo masivo etc.

“Data Warehouse-Almacén de Datos”. 2

“Base de Datos II”

“Data Warehouse-Almacén de Datos”. 3

“Base de Datos II”

B. Para Qué Sirve una Data WareHouse     

Para tener un mayor conocimiento del negocio. Para tomar mejores decisiones y en un tiempo menor. Para mejorar y ser más efectivos. Para no perder distancia con la competencia. En definitiva, para aumentar los ingresos.

C. Pasado y presente del Data Warehouse Históricamente, los data Warehouse se habían formado utilizando datos repetitivos estructurados que eran filtrados antes de entrar en la data Warehouse. Sin embargo, en los últimos años, la data Warehouse ha evolucionado debido a información contextual que ahora se puede adjuntar a los datos no estructurados y que también puede ser almacenada. Aquellos primeros datos relacionales estructurados no podían ser mezclados y emparejados para temas analíticos con datos textuales no estructurados. Pero con el advenimiento de la contextualización, estos tipos de análisis ahora sí pueden hacerse de forma naturales y fácil.

“Data Warehouse-Almacén de Datos”. 4

“Base de Datos II”  Objetivos 

Accesibilidad de información por parte de la organización.



Consistencia de la información entre las distintas unidades de una organización.



Ayuda a la toma de decisiones.



Generación de información de forma flexible.



Controlar el acceso de la información.

 Características 

Administra grandes cantidades de información



Guarda histórico de datos



Condesa y agrega información



Integra y asocia información de muchas fuentes

D. Bases de datos tradicionales vs data warehouse BASES DE DATOS TRADICIONALES

DATA WAREHOUSE

Orientación a transacciones

Orientado a las consultas la consulta Análisis y toma de decisiones estratégicas Proceso batch masivos Dinamismo Niveles de detalle/agregación Evolución del dato

Actividad operativa Proceso puntual Estabilidad Datos desagregados Dato actual Respuesta de la transacción inmediata Modelo relacional Usuarios de perfiles bajos Trata información relacionada con operatividad de cada aplicación

Respuesta masiva Modelo multidimensional Usuarios de perfiles altos Trata información interna y externa relacionada con el negocio

E. Pasos para la carga de una data Warehouse Usualmente un Data warehouse sigue una serie de pasos para la carga de datos:

“Data Warehouse-Almacén de Datos”. 5

“Base de Datos II”  



Extracción: usualmente de múltiples fuentes en procesos batch, para no influir en los operacionales, interfaces con diferentes tecnologías Transformación: Manipula información compleja reuniéndola de diferentes fuentes. Implementan reglas de negocio. Realiza una limpieza de los datos, para el desempeño y para grandes volúmenes Carga: almacena los datos en modelos multidimensionales y crea históricos de los datos

F. Estructuras de un Data Warehouse La arquitectura de una data Warehouse puede ser dividida en tres estructuras simplificadas: básica, básica con un área de ensayo y data marts.  Estructura básica: sistemas operativos y archivos planos proporcionan datos en bruto que se almacenan junto con metadatos. Los usuarios finales pueden acceder a ellos para su análisis, generación de informes y minería.  Estructura básica con área de ensayo: Se puede colocar entre las fuentes de datos y el almacén, ésta proporciona un lugar donde los datos se pueden limpiar antes de entrar en el almacén. Es posible personalizar la arquitectura del almacén para diferentes grupos dentro de la organización.  Estructura data marts: Son sistemas diseñados para una línea de negocio en particular. Se pueden tener data marts separados para ventas, inventario y compras, por ejemplo, y los usuarios finales pueden acceder a datos de uno o de toda la data marts del departamento.

“Data Warehouse-Almacén de Datos”. 6

“Base de Datos II”

G. Diferencias clave entre data lake y data warehouse  Datos: Una data warehouse sólo almacena datos que han sido modelados o estructurados, mientras que un Data Lake no hace acepción de datos. Lo almacena todo, estructurado, semiestructurado y no estructurado.  Procesamiento: Antes de que una empresa pueda cargar datos en un data warehouse, primero debe darles forma y estructura, es decir, los datos deben ser modelados. Eso se llama schema-on-write. Con un data lake, sólo se cargan los datos sin procesar, tal y como están, y cuando esté listo para usar los datos, es cuando se le da forma y estructura. Eso se llama schema-on-read. Dos enfoques muy diferentes.  Almacenamiento: Una de las principales características de las tecnologías de big data, como Hadoop, es que el coste de almacenamiento de datos es relativamente bajo en comparación con el de una data warehouse. Hay dos razones principales para esto: en primer lugar, Hadoop es software de código abierto, por lo que la concesión de licencias y el soporte de la comunidad es gratuito. Y segundo, Hadoop está diseñado para ser instalado en hardware de bajo coste.  Agilidad: Un almacén de datos es un repositorio altamente estructurado, por definición. No es técnicamente difícil cambiar la estructura, pero puede tomar mucho tiempo dado todos los procesos de negocio que están vinculados a ella. Una data lake, por otro lado, carece de la estructura de “Data Warehouse-Almacén de Datos”. 7

“Base de Datos II” una data warehouse, lo que da a los desarrolladores y a los científicos de datos la capacidad de configurar y reconfigurar fácilmente y en tiempo real sus modelos, consultas y aplicaciones.  Seguridad: La tecnología del data warehouse existe desde hace décadas, mientras que la tecnología de big data (la base de un Data Lake) es relativamente nueva. Por lo tanto, la capacidad de asegurar datos en una data warehouse es mucho más madura que asegurar datos en un data lake. Cabe señalar, sin embargo, que se está realizando un importante esfuerzo en materia de seguridad en la actualidad en la industria de Big Data.

H. Data Warehouse en la nube La data Warehouse están atravesando actualmente dos transformaciones muy importantes que tienen el potencial de impulsar niveles significativos de innovación empresarial: 



La primera área de transformación es el impulso para aumentar la agilidad general. La gran mayoría de los departamentos de TI están experimentando un rápido aumento de la demanda de datos. Los directivos quieren tener acceso a más y más datos históricos, mientras que, al mismo tiempo, los científicos de datos y los analistas de negocios están explorando formas de introducir nuevos flujos de datos en el almacén para enriquecer el análisis existente, así como impulsar nuevas áreas de análisis. La segunda área de transformación gira en torno a la necesidad de mejorar el control de costes. Existe una creciente necesidad de hacer más con cada vez menos recursos, al mismo tiempo que se garantiza que todos los datos sensibles y estratégicos estén completamente asegurados, a lo largo de todo el ciclo de vida, de la manera más rentable. La nube está demostrando ser un facilitador dominante. Permite a las organizaciones enfrentarse de forma activa a los desafíos que presentan estas dos transformaciones clave.

“Data Warehouse-Almacén de Datos”. 8

“Base de Datos II”

¿Por qué migrar a la nube? Las 3 tecnologías que ya tienen y seguirán teniendo un gran impacto en la transformación de negocios son: la nube, datos y análisis, e Internet de las Cosas. Estas tres tecnologías son parte clave del ecosistema de la data Warehouse actual. Por lo tanto, es posible sacar la conclusión de que la data Warehouse en la nube tiene un gran potencial para generar un impacto significativo en los negocios.

La importancia de la nube para la data Warehouse está directamente vinculado a tres factores clave:   

Mayor agilidad Mejor control de costes Co-localización

“Data Warehouse-Almacén de Datos”. 9

“Base de Datos II” Mejora de la agilidad Muchos data warehouses están embarcados en una fase de actualización. Con mucho trabajo puesto ahora en torno al big data, las empresas buscan aprovechar los nuevos flujos de datos y nuevos tipos de análisis más ricos para apoyar e impulsar nuevas áreas, tales como:analítica de clientes de 360º, anaĺisis predictivo, detección de fraude, análisis de IoT y el establecimiento de los datos como centro de beneficio. Muchos de estos proyectos requieren el aprovisionamiento de nuevos entornos de hardware y el despliegue de software. Es más rápido, más fácil y más eficiente iniciar estos nuevos proyectos centrados en los datos utilizando los servicios en la nube. Mayor control de costes Muchos equipos de TI están buscando maneras de consolidar los data marts existentes, cada uno ejecutándose en hardware dedicado o incluso en hardware propietario, en un único entorno integrado. Los servicios en la nube de calidad ofrecen la oportunidad perfecta para iniciar este tipo de proyectos. El cumplimiento legal no puede ser visto como un extra opcional cuando se planifica un traslado a la nube. Los activos de datos deben estar protegidos a lo largo de todo el ciclo de vida. Los servicios en la nube deben facilitar todo esto, siendo más rentables ya que todas las características de seguridad se pueden habilitar de forma predeterminada y mejorada, y actualizada de forma transparente. Co-Localización para una carga más rápida La mayoría de los data warehouses generan datos directamente desde aplicaciones clave, como entrada de pedidos, ventas, finanzas y fabricación. Por lo tanto, tiene mucho sentido ubicar conjuntamente el data warehouse junto con los sistemas fuente que ya se estén ejecutándose en la nube. La ubicación conjunta ofrece una carga de datos más rápida, lo que significa que los usuarios obtienen un acceso más oportuno a sus datos.  Principales ventajas de mover el data warehouse a la nube Existen tres ventajas principales para mover un data warehouse a la nube, y estas están directamente vinculados a los tres controladores clave enumerados anteriormente:   

Más fácil consolidación y racionalización Monetización más rápida de los datos en la nube La nube ofrece mejor protección

“Data Warehouse-Almacén de Datos”. 10

“Base de Datos II”

I. Ejemplos: a)“La compañía de alquiler de vehículos Rent4you desea diseñar un datawarehouse como sistema de soporte de ayuda a la toma de decisiones estratégicas. La compañía tiene varias sucursales, en las cuales ofertan alquileres de una amplia variedad de vehículos como, coches, motos, caravanas, furgonetas, etc. El datawarehouse pretende centralizar la información de todas las sucursales con el objetivo de definir nuevas estrategias de negocio. Se quiere analizar tanto las ventas (alquileres realizados en cada sucursal) así como los gastos para poder estudiar cuáles son los puntos de venta que más beneficios aportan, los perfiles de los clientes por tipo de vehículo para ajustar los seguros, la eficiencia de los empleados por sucursal, etc. El datawarehouse se va a alimentar de grandes bases de datos operacionales como son la de ventas, gastos, clientes y administración de RRHH.” Fases de Construcción En la etapa de construcción vamos a modelar las tablas relacionales en una gran estructura desnormalizada compuesta por tabla de hechos, y tablas más pequeñas que definirán las n-dimensiones llamadas tablas de dimensiones. El modelo dimensional divide el mundo de los datos en dos grandes tipos: las medidas y las dimensiones de estas medidas. Las medidas, siempre son numéricas, se almacenan en las tablas de hechos y las dimensiones son textuales y se almacenan en las tablas de dimensiones. La tabla de hechos es, por tanto, la tabla primaria del modelo dimensional, y contiene los valores del negocio que se desea analizar. Entendidos estos conceptos pasamos a detallar a continuación los pasos a seguir en la construcción del datawarehouse. 1.Análisis y diseño del modelo en estrella En esta primera etapa de construcción se lleva a cabo el modelado de los datos, en el que se determinan las tablas de dimensiones y la tabla de hechos.

“Data Warehouse-Almacén de Datos”. 11

“Base de Datos II”

2. Programa de carga de las tablas de dimensiones y de hechos En esta etapa se debe llevar a cabo el proceso ETL (Extracción, transformación y carga) que permita leer las tablas de los sistemas transaccionales para que puedan ser cargadas en las tablas de dimensiones. En este proceso se deben considerar todas las restricciones y lógica exclusiva y necesaria para almacenar los datos. Por ejemplo, puede ocurrir que dos empleados de sucursales diferentes tengan el mismo código de empleado, por lo que será necesario el uso de tablas de equivalencias o conversión durante el proceso ETL para evitar inconsistencia y duplicidad de los datos. Lo primero a tener en cuenta para el proceso ETL es la periocidad, la cual debe establecerse en base a las necesidades del negocio, es decir, con qué frecuencia es necesario tener los datos actualizados para el análisis. También debe contemplarse la disponibilidad de los recursos, tanto de las fuentes de datos (de las que se nutre el datawarehouse) como la del propio datawarehouse, ya que el rendimiento será afectado durante el proceso ETL. En nuestro caso de estudio, se podría establecer la política de actualización de los datos de manera mensual, extrayendo las transacciones del mes vencido en la madrugada del primer día del mes siguiente. Esta periocidad es suficiente para los analistas, y se “Data Warehouse-Almacén de Datos”. 12

“Base de Datos II” establece en un período de tiempo en el que hay disponibilidad de recursos para el procesamiento y no se interrumpe el uso normal de las fuentes de datos.

3. Desarrollo de cubo OLAP Los cubos OLAP son las herramientas que se basan en la capacidad de analizar y explorar los datos, nos proporcionan un análisis interactivo por las diferentes dimensiones de los datos (por ejemplo, tiempo, producto, cliente, criterios geográficos, etc.) y por los diferentes niveles de detalle. En el siguiente enlace se explica cómo crear un cubo OLAP a partir de Excel 2010. En conclusión, en el desarrollo de un datawarehouse o almacén de datos se debe tener muy clara la información que se pretende analizar y qué objetivos se persiguen, ya que es la base del proceso ETL que nos permite nutrir de información las tablas de hechos y dimensiones definidas para nuestro almacén de datos.

b)

“Data Warehouse-Almacén de Datos”. 13

“Base de Datos II”

“Data Warehouse-Almacén de Datos”. 14

“Base de Datos II”

II. Resumen Un Data Warehouse es un almacén electrónico donde generalmente una empresa u organización mantiene una gran cantidad de información. Los datos de un data warehouse deben almacenarse de forma segura, fiable, fácil de recuperar y fácil de administrar. Un data warehouse es un repositorio unificado para todos los datos que recogen los diversos sistemas de una empresa. El repositorio puede ser físico o lógico y hace hincapié en la captura de datos de diversas fuentes sobre todo para fines analíticos y de acceso. Normalmente, un data warehouse se aloja en un servidor corporativo o cada vez más, en la nube. Los datos de diferentes aplicaciones de procesamiento de transacciones Online (OLTP) y otras fuentes se extraen selectivamente para su uso por aplicaciones analíticas y de consultas por usuarios. Data Warehouse es una arquitectura de almacenamiento de datos que permite a los ejecutivos de negocios organizar, comprender y utilizar sus datos para tomar decisiones estratégicas. Un data warehouse es una arquitectura conocida ya en muchas empresas modernas.

“Data Warehouse-Almacén de Datos”. 15

“Base de Datos II”

III. Summary A Data Warehouse is an electronic warehouse where usually a company or organization maintains a large amount of information. Data from a data warehouse should be stored securely, reliably, easily retrieved and easy to administer. A data warehouse is a unified repository for all data collected by the various systems of a company. The repository can be physical or logical and emphasizes the capture of data from various sources, especially for analytical and access purposes. Normally, a data warehouse is hosted on a corporate server or increasingly, in the cloud. Data from different Online Transaction Processing (OLTP) applications and other sources are selectively extracted for use by analytical applications and user queries. Data Warehouse is a data storage architecture that allows business executives to organize, understand and use their data to make strategic decisions. A data warehouse is an architecture already known in many modern companies.

“Data Warehouse-Almacén de Datos”. 16

“Base de Datos II”

IV. Recomendaciones  Recomendamos implementar un data warehouse en una empresa u organización ya que permite a los ejecutivos de negocios organizar, comprender y utilizar sus datos para tomar decisiones estratégicas.  Al hacer uso de un data warehouse estamos haciendo que nuestra empresa mejore mucho en cuanto al manejo de la información.  Mayormente se recomienda a todas las empresas que manejan gran cantidad de datos hacer uso de un Datawarehouse para que mejore en cuanto al procesamiento de información y también mejore la calidad de las decisiones tomadas.  Se recomienda hacer uso de un Data warehouse para agilizar sus negocios y darle mayor seguridad a la información.  Además, se recomienda utilizar el data warehouse en la nube ya que tiene un gran potencial para generar un impacto significativo en los negocios.

“Data Warehouse-Almacén de Datos”. 17

“Base de Datos II” V. Conclusiones  Un data warehouse ayuda a mejorar el manejo de información en una empresa u organización.  La pieza fundamental de un sistema de negocios es el data warehouse ya que todos los listados y análisis que se hagan se harán a partir de esta única base de datos.  En el data warehouse la información está limpia, unificada y verificada, y gracias a esto todo lo que hagamos será para bien de nuestra empresa.  La implementación de un Data warehouse en una empresa ayuda muchísimo a organizar, comprender y utilizar sus datos para que los ejecutivos puedan tomar decisiones estratégicas.  Un Data warehouse Permite una mayor flexibilidad y rapidez en el acceso a la información.

“Data Warehouse-Almacén de Datos”. 18

“Base de Datos II”

Ingeniería de Sistemas y Telemática

VI. Apreciación del Equipo  Me a gustado mucho la aplicación de un Data warehouse ya que ayuda bastante en una empresa en el almacén de sus datos.  El Data warehouse es muy interesante para mi porque facilita mucho en cuanto al manejo de la información de una empresa. VII. Glosario de Términos  Data Warehouse: Almacén de datos  Almacén: significa almacenar.  Repositorio: almacén o lugar donde se guardan ciertas cosas.  Sistema: Conjunto de reglas, principios o medidas que tienen relación entre sí.  Arquitectura: se refiere a toda una estructura y a los detalles necesarios para que sea funcional, es decir, cubre sistemas informáticos, microprocesadores, circuitos y programas del sistema.  Advenimiento: Llegada, venida o aparición, especialmente de un acontecimiento importante  Estructura: es la forma en como esta estructurado o dividido una cosa.  Accesibilidad: Posibilidad de acceder a cierta cosa o facilidad para hacerlo.  Consistencia: significa posibles modelos de consistencia de datos.  Generar: Producir cierto efecto o dar lugar a cierta consecuencia.  Controlar: Dirigir o dominar a una persona o una cosa.  Procesamiento: acción de procesar.  Agilidad: es ser veloz.  Extracción: es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora.  Transformación: acción de transformar algo.  Dato: Es una representación simbólica (numérica, alfabética, algorítmica, espacial, etc.) de un atributo o variable cuantitativa o cualitativa. Los datos describen hechos empíricos.  Compacto: Es un espacio que tiene propiedades similares a un conjunto finito,  Hardware: Hace referencia a todos los componentes materiales y físicos de un dispositivo, es decir, aquellos que se pueden ver y tocar.  Software: Conjunto de programas que permiten al usuario comunicarse con el sistema en sí.  Eficiente: Que realiza o cumple un trabajo o función a la perfección.  Ejecución: Realización de una acción, especialmente en cumplimiento de un proyecto, un encargo o una orden.  Consolidación: se utiliza en diversos ámbitos con la idea general de dar solidez a algo, o bien integrar varios elementos en uno solo  Estrategia: Es un plan para dirigir un asunto.

“Data Warehouse-Almacén de Datos”. 19

“Base de Datos II”       

Flexibilidad: Capacidad para adaptarse con facilidad a las diversas circunstancias o para acomodar las normas a las distintas situaciones o necesidades. Planificar: Elaborar o establecer el plan conforme al que se ha de desarrollar algo, especialmente una actividad. Transformación: Hace referencia a la acción o proceso mediante el cual algo se modifica, altera o cambia de forma manteniendo su identidad. Impulso: Fuerza que se aplica a una cosa para que se mueva, en especial la que imprime un movimiento rápido. Información: Noticia o dato que informa acerca de algo. Organización: Son estructuras administrativas y sistemas administrativos creadas para lograr metas u objetivos Hincapié: Dar importancia a una cosa, destacándola o insistiendo en ella

“Data Warehouse-Almacén de Datos”. 20

“Base de Datos II”

VIII. Bibliografía o Linkografía https://www.powerdata.es/data-warehouse https://sites.google.com/site/bidawasig/Home http://artemisa.unicauca.edu.co/~ecaldon/docs/bd/fundamentosdedatawarehou se.pdf http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/ydirin_p_mm/capitulo2.pdf http://informatica.uv.es/iiguia/DBD/Teoria/data-warehouses.pdf https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/406541/tutorialessobre-datawarehouse-en-pdf https://cdn.ttgtmedia.com/searchDataManagement/downloads/Data_Warehous e_Design.pdf

“Data Warehouse-Almacén de Datos”. 21