10042020_procesos ETL

TRABAJO FINAL Programa formativo: • Máster en Big Data y Business Intelligence Bloque: 5. EL PROCESO DE ETL Enviar a:

Views 272 Downloads 1 File size 138KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

TRABAJO FINAL Programa formativo: •

Máster en Big Data y Business Intelligence

Bloque: 5. EL PROCESO DE ETL Enviar a: [email protected]

Apellidos: HURTADO TOVAR Nombres: DIANA CAROLINA ID/Pasaporte/DNI/NIE/Otros: 35254650 Dirección: TV 85 # 54-19 Provincia/Región: BOGOTA País: COLOMBIA Teléfono: 57-3508331421 E-mail: [email protected] Fecha: 10/Abril/2020

Página 1

CONTENIDO Hierros .................................................................................................................3 Importancia Implementar ETL......................................................................................5 Nuevos Datos ...........................................................................................................5 Actividades en cada proceso ETL...............................................................................6 Calidad Datos...............................................................................................................7 Bibliografía.............................................................................................................9

Página 2

ENUNCIADO

Hierros S.A. es una empresa familiar dedicada a la venta de productos de ferretería y maquinaria ubicada en el barrio del Eixample en Barcelona. La empresa lleva más de cien años en activo y dispone de una importante cartera de clientes, tanto a nivel personal como profesional, cuyos datos conforman una enorme base de datos con información realmente valiosa pero a la que no se le da un uso correcto. En relación a esta información, comentar que disponemos de datos de hace unos ochenta años, aproximadamente. Por supuesto los datos de los primeros años se registraron en formato papel, pero poco a poco fueron informatizándose.

El principal problema con todos los datos e informaciones de los clientes reside en el hecho de que dichos datos no se encuentran unificados, es decir, cada departamento cuenta con su propia base de datos y los valores utilizados no coinciden, además de encontrarse datos registrados en castellano y otros en catalán, y en términos económicos, algunos de ellos están expresados en pesetas y otros en euros. Comentar que todas las bases de datos están informatizadas en archivos Excel, en los que nos encontramos con las siguientes categorías: -

Nombre y apellidos.

-

Nombre de la empresa.

-

DNI o CIF.

-

Teléfono.

-

Dirección.

-

Email.

-

Histórico de compras.

-

Ticket medio.

-

Tipos de productos que compra con más frecuencia y cantidades.

En breve Miguel, el hijo del actual propietario, heredará el negocio y consciente de la importancia que tiene para el desarrollo del negocio disponer de una buena base de datos que le permita conocer de primera mano cómo son sus clientes así como

Página 3

poder tomar decisiones estratégicas acertadas, acude a ti para que le ayudes a ordenar y unificar los datos, así como a comprobar que los datos de que dispone son válidos y a eliminar aquellos que han perdido validez, como pueden ser registros duplicados o disponer de informaciones de clientes que ya han fallecido.

Página 4

Teniendo en cuenta lo aprendido durante el curso y el enunciado presentado:

1. Valorando la situación de la actual base de datos de Hierros S.A., ¿consideras bueno que se lleve a cabo un proceso de ETL?

IMPORTANCIA IMPLEMENTACION DEL PROCESO ETL

Sería muy bueno para la empresa la implementación de un proceso de ETL, debido a que las bases de datos con las que cuenta hoy en día no contienen la seguridad, y confiabilidad con las cuales se pueda n obtener datos reales y confiables, debido a que han sido varias las personas que las han trabajado y más aun porque cada área trabaja una base de datos cuando lo aconsejable e es que sea una única para toda la empresa. El hecho de NO contar con una base única y consolidada es se puede presentar duplicidad en la información, ejemplo un cliente se podrá duplicar en cada una diferentes bases de datos, por esto es que se debe implementar este proceso. Las ventajas y beneficios •

Asegurar la calidad de los datos



Ayuda a la toma de decisiones estratégicas



Crear un repositorio central estandarizado de todos los datos de la organización.



El proceso de ETL es muy útil y beneficioso para la organizacion por su capacidad para integrar grandes bases de datos

2. Teniendo en cuenta la información que se tiene de la empresa recogida en las bases de datos, ¿crees que sería interesante recoger otro tipo de información?, ¿qué información añadirías? Justifica tu respuesta.

NUEVOS DATOS

SI sería necesario recoger la fecha compuesta del día/mes/año, valor Unitario del producto, Idproducto, Tipo Moneda, pues con la que esta permite

crear una

estrategia de marketing basándose en el análisis de los datos anteriores.

Página 5

3. Describe las actividades que llevarías a cabo en cada fase del proceso de ETL (limpieza, extracción, transformación y carga). ACTIVIDADES EN CADA FASE Limpieza

Unificar la estructura de los nuevos archivos que se cargaran al Data warehouse con cada una de las áreas, esto para futuros cargues.

Extracción 1. Crear una carpeta y en esta se crearán subcarpetas con el nombre de cada área de trabajo que servirá como Source de los archivos Excel 1.1 En caso de tener archivos por años, los deberá se deberán renombrar así: Areaaño 1.2 En caso de solo contener un archivo Areaañoactual 2. Se hará la carga inicial de los datos contenidos los archivos en un Data warehouse (staging) los cuales se llevaran a tablas temporales identificadas con el nombre de cada área ejemplo tmp_tesoreria cada tabla, estará creada con la estructura actual de cada archivo, pero con la particularidad de que todos los campos estarán en tipo Varchar. 3. Crear tareas que me identifiquen los siguientes errores y se enviaran a unas tablas identificadas con el nombre de cada área Tmp_Error_Tesoreria con la particularidad de que todos los campos estarán en tipo Varchar, los cuales se le enviaran a la persona encargada del proyecto para que sean validados con el dueño y productor de la información 4. Cuando ya se tenga la data sin ningún tipo de error se procederá a llevar cada una de las tablas Tmp con los datos que serán necesarios para el análisis que la empresa requiere y se almacenaran en una tablas sta_Nombretabla las cuales servirán para cargar las tablas de Data warehouse final 5. Se creará una tarea para el cargue del archivo que contenga en su nombre el año mes actual

Transformación

Página 6

La fase de transformación de los procesos de ETL aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Estas directrices pueden ser declarativas, pueden basarse en excepciones o restricciones, pero, para potenciar su pragmatismo y eficacia, hay que asegurarse de que sean: •

Declarativas



Independientes



Claras



Inteligibles



Con una finalidad útil para el negocio.

Carga

En esta fase, los datos procedentes de la fase anterior (fase de transformación) son cargados en el sistema de destino. Dependiendo de los requerimientos de la organización, este proceso puede abarcar una amplia variedad de acciones diferentes.

4. Tal y como se ha comentado en el enunciado, Hierros S.A. lleva más de cien años en activo, hecho que implica que se disponga de una gran cantidad de datos de la mayoría de sus clientes. Ello provoca que pueda haber datos con valores erróneos, datos mal introducidos, datos duplicados, valores que no coinciden, etc. Ello provocará que sea necesario llevar a cabo un proceso para establecer la calidad de los datos y detectar los errores. Señala aquí los errores con los que puedes toparte en este proceso, teniendo en cuenta lo que hemos expuesto en el enunciado. Propón también de qué manera podemos solucionar dicho error. Es importante que justifiques tu elección.

CALIDAD EN DATOS Errores VACIOS NULL #¡REF! #¡DIV/0!

Tipo texto ND ND ND ND

Tipo Numero/Moneda

Tipo Fecha -1 -1 -1 -1

19000101 19000101 19000101 19000101

Página 7

#¡VALOR! #¿NOMBRE? #¡NULO!

ND ND ND Los caracteres El campo contiene especiales se caracteres remplazarán especiales por espacio en blanco Se quitarán Desbordamiento espacios a la derecha y a la de Datos izquierda

-1 -1 -1 Los caracteres especiales se remplazarán por espacio en blanco

19000101 19000101 19000101 Los caracteres especiales se remplazarán por espacio en blanco

Se quitarán espacios Se hará conversión a fecha a la derecha y a la manejando sentencias de izquierda conversión

Página 8

BIBLIOGRAFIA El proceso del ETL https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/400404/Rendimiento-yfiabilidad-en-los-procesos-ETL

Los Procesos de ETL https://el-valor-de-la-gestion-de-datos/qu-son-los-procesos-etl

Página 9