Ensayo Etl

UNIVERSIDAD REGIONAL AUTONOMA DE LOS ANDES SISTEMA DE TOMA DE DESICIONES Nombre: Marco Calles Nivel: Noveno Sistemas ENS

Views 194 Downloads 3 File size 339KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

UNIVERSIDAD REGIONAL AUTONOMA DE LOS ANDES SISTEMA DE TOMA DE DESICIONES Nombre: Marco Calles Nivel: Noveno Sistemas ENSAYO - ETL

Introducción El presente ensayo se expone los contenidos sobre los procesos ETL (Extraer, transformar y cargar). ETL, esencialmente, es el proceso que permite a las empresas manejar y movilizar datos desde distintos tipos de fuentes, para transformarlos, limpiarlos y cargarlos en otra base de datos, Data Mart, o Data Warehose para analizarlos, o en otro sistema operativo para apoyar un proceso de negocio. Asimismo el ETL se lo puede utilizar para integrar sistemas heredados a los nuevos sistemas emergentes en las empresas. El principal propósito de ETL es transportar la información de la empresa desde las aplicaciones de producción a los sistemas de Inteligencia de Negocio (BI), este proceso consta de tres etapas:   

Extracción de datos Transformación de datos Carga de datos

La primera etapa esencialmente extrae los datos desde los sistemas de origen. La segunda etapa de transformación aplica una serie de funciones o reglas de negocio sobre los datos extraídos para convertirlos en datos que serán cargados. En ocasión existe la posibilidad de que algunas fuentes de datos requieran alguna manipulación de los datos. La etapa de carga se refiere al momento en el cual los datos de la fase de transformación se cargan en el sistema de destino. Dependiendo de los requisitos de la empresa, este proceso puede contener una extensa diversidad de acciones. En algunas bases de datos se sobrescribe la información anterior con nuevos datos. Los Data Warehose es un repositorio de datos que mantienen un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.

Desarrollo ETL (Extact-Transform-Load) son la base de la construcción de cualquier sistema Data Warehouse. Un sistema bien diseñado extrae la información de los sistemas origen, asegura la calidad y consistencia de los datos, homogeniza los datos de sistemas opuestos para que puedan ser utilizados de una forma conjunta (procesando y transformando la información si es necesario) y finalmente genera los datos en el formato apropiado para que puedan ser utilizados por las herramientas de análisis. La extracción, transformación y carga (el proceso ETL) es necesario para acceder a los datos de las fuentes de información al datawarehouse. (Cano, 2007) Según (Cano, 2007) El proceso ETL se divide en 5 subprocesos:     

Extracción Limpieza Transformación Integración Actualización

Extracción La primera fase del proceso ETL radica en extraer los datos iniciando en los sistemas de origen. Es común que se utilice un ETL para fusionar datos provenientes de otros sistemas. Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación. (Espinosa, s.f.) La extracción de los datos se puede realizar bien de forma manual o bien utilizando herramientas de ETL. De forma manual significa programar rutinas utilizando lenguajes de programación (por ejemplo: COBOL) que extraigan los datos de las fuentes de datos origen, aunque en otros casos se opta por las utilidades de replicar la base de datos que tienen los motores de bases de datos. La alternativa más rentable es la que provee las herramientas especializadas de ETL, ya que han sido diseñadas para llevar a cabo esta función y nos permiten visualizar el proceso y detectar los errores durante el proceso o durante la carga. Cada vez más los motores de bases de datos tienen mejores funcionalidades de ETL. El principal objetivo de la extracción es extraer tan sólo aquellos datos de los sistemas transaccionales que son necesarios y prepararlos para el resto de los subprocesos de ETL. Para ello se deben determinar las mejores fuentes de información, las de mejor calidad. Con tal finalidad, deberemos analizar las fuentes disponibles y escoger aquellas que sean mejores.

Limpieza La limpieza se realiza, si es posible, en cada fuente de datos de origen. Si no en la tarea de transformación. La limpieza se efectúa en los datos incompletos, atributos sin valor, falta de atributos interesantes para el contexto o el valor del atributo. Las herramientas ETL tienen funcionalidades de limpieza de datos, aunque existen herramientas especializadas para ello. En proyectos de CRM, la limpieza de los datos es clave: los nombres y las direcciones de los clientes siempre necesitan ser limpiados, eliminar duplicados, etc. Según (Cano, 2007) La limpieza de datos se divide en distintas etapas, que vamos a describir a continuación: Depurar los valores: Este proceso localiza e identifica los elementos individuales de información en las fuentes de datos y los aísla en los ficheros destino. Por ejemplo: separar el nombre completo en nombre, primer apellido, segundo apellido, o la dirección en: calle, numero, piso, etcétera. Corregir: Este proceso corrige los valores individuales de los atributos usando algoritmos de corrección y fuentes de datos externas. Por ejemplo: comprueba una dirección y el código postal correspondiente. Estandarizar: Este proceso aplica rutinas de conversión para transformar valores en formatos definidos y consistentes aplicando procedimientos de estandarización y definidos por las reglas del negocio. Por ejemplo: trato de Sr., Sra., etc. o sustituyendo los diminutivos de nombres por los nombres correspondientes. Relacionar: Este proceso busca y relaciona los valores de los registros, corrigiéndolos y estandarizándolos, basándose en reglas de negocio para eliminar duplicados. Por ejemplo: identificando nombres y direcciones similares. Consolidar: Este proceso analiza e identifica relaciones entre registros relacionados y los junta en una sola representación.

Transformación Los datos originarios de repositorios digitales diferentes no suelen coincidir en formato. Por tanto, para lograr integrarlos resulta indispensable realizar operaciones de transformación. El objetivo no es otro que evitar duplicidades innecesarias e impedir la generación de islas de datos inconexas. Las transformaciones aplican una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos destino. Las reglas de negocios describe las políticas, normas, operaciones, definiciones y restricciones presentes en una organización y que son de vital importancia para alcanzar los objetivos. La transformación de los datos se hace partiendo de los datos una vez “limpios”. Transformamos los datos de acuerdo con las reglas de negocio y los estándares que han sido

establecidos. La transformación incluye: cambios de formato, sustitución de códigos, valores derivados y agregados.

Integración El proceso de integración o carga es el momento en el cual los datos de la fase de transformación se cargan en el sistema de destino. La etapa de carga interactúa en forma directa con la base de datos de destino. Es fundamental comprobar que se ha desarrollado correctamente, ya que en caso contrario pueden llevar a decisiones erróneas a los usuarios.

Actualización Este proceso determina la periodicidad con el que haremos nuevas cargas de datos al datawarehouse.

HERRAMIENTAS ETL La herramienta de ETL se utiliza para transferir los archivos a una nueva ubicación, que puede ser la ubicación original, una computadora nueva, una nueva base de datos, o un nuevo servidor. Los siguientes programas son exitosos herramientas ETL que le proporcionan todo lo necesario para extraer, transformar y cargar datos Oracle Data Integrator (ODI): Es una herramienta de carga y trasformación de datos desde múltiples sistemas fuentes a destinos heterogéneos. SAS Warehouse Administrator: Solución de extracción, transformación, carga y limpieza de datos que facilita la definición visual de los procesos corporativos y su documentación. Teradata Warehouse Builder: Herramienta de carga y descarga que permite al usuario generar un job o secuencia de comandos para acceder a datos heterogéneos, comprobar la integridad de los mismos o fusionarlos con otros. Incorpora puntos de control para el relanzamiento del proceso en caso de caída del sistema.

CONCLUSIÓN Como conclusión podemos decir que los ETL son proceso que organizan los flujos datos entre distintos sistemas en una organización y aporta los métodos y herramientas necesarias para movilizar los datos desde múltiples fuentes a un almacén de datos, para transformarlos, limpiarlos y cargarlos en otra base de datos. ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de los Datos” (Data Management).

Bibliografía Cano, J. L. (2007). Business intelligence: competir con información. Espinosa, R. (s.f.). dataprix. Obtenido de http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-quevalen-productos-mas-conocidos-etl-s-open-sour