TallerPractico2 PentahoPDI V02

REQUERIMIENTOS PREVIOS Para trabajar los ejercicios correspondientes a la presente práctica es necesario disponer de las

Views 313 Downloads 4 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

REQUERIMIENTOS PREVIOS Para trabajar los ejercicios correspondientes a la presente práctica es necesario disponer de las siguientes herramientas: - Postgressql - PgAdmin (III o IV) - Pentaho PDI

TALLER PRÁCTICO 2

OBJETIVO: Mediante la aplicación de un proceso ETL llenar tablas correspondientes a una base de datos Postgres. 1. Bajar el archivo de nacidos vivos 2017 (.csv) de la pagina del INEC (https://www.ecuadorencifras.gob.ec/nacimientos_y_defunciones/)

Obtendremos un archivo .zip. Tenemos que descomprimirlo y quedarnos con el archivo ENV_2017.csv.

2. Abrir el PgAdmin y conectarlo a nuestro servidor.

localhost Win: 127.0.0.1 Servidor Externo: 192.168.100.217

Por defecto esta opción aparece marcada, por seguridad dejar desactivado

3.Crear una base de datos nueva en el PgAdmin (click derecho sobre “Databases” - “New Database” ). Llamaremos inec a esta nueva base.



La nueva base de datos tiene una estructura por defecto creada por el pgAdmin, pero si buscamos dentro de esta estructura no encontraremos ninguna tabla.



Esta base será llenada con información tomada de un archivo externo que en este caso será el archivo .csv con los datos de natalidad.

4. El siguiente paso es llenar la base de datos a través de un proceso ETL. Para esto nos apoyaremos en Pentaho pdi. Para ejecutar Pentaho pdi ubicamos su directorio y desde el cmd ejecutamos el archivo Spoon.bat (en ubuntu sería el archivo spoon.sh)

5. Al abrir Pentajo pdi veremos menús horizontales y verticales. En este ejercicios nos centraremos en las opciones del menú Transformaciones. Hay algunos opciones disponibles dentro de Transformaciones.

6. Ahora crearemos una estructura que nos permita por una parte cargar los datos de la CSV y por la otra llenar una tabla de la base de datos en postgres.



Como entrada debemos seleccionar un “CSV file input” y como salida una “Table output”.



Al hacer doble click sobre los componentes, estos se cargan automáticamente en el area de trabajo.

7. Ahora debemos configurar los componentes de entrada y salida (Doble click o Click derecho – Edit).

Paso

Salto

Paso

Indicamos el path al directorio donde alojamos el csv

UTF-8

8. Nos pide el número de registros que debe extraer. Solicitamos un número grande para que no nos de problemas con el número de registros que extrae:

Esperar a que recupere datos:

9. Así se nos muestran la ventana CSV Input una vez recuperados los datos desde el CSV:

10. Ahora editar las opciones de la tabla de salida. Usar el wizard. Con1

11. En la segunda pantalla nos piden la dirección del host. Podemos revisar esta info en el PgAdmin:

12. Colocamos la IP del Host, el puerto por defecto no lo modificamos y colocamos el nombre de la base de datos que habíamos creado al inicio con la ayuda del PgAdmin.

13. En el siguiente paso debemos colocar el user y password con el que nos vamos a conectar a postgresql. Debemos probar si la conección esta hecha de forma correcta con el btn correspondiente.

14. Si todo es correcto se nos mostrará una ventana similar a esta:

[Con1]

15. Seleccionar “Ignore Insert Errors”, “Specify database fields”.

16. En la pestaña Database fields, la opción Get fields nos permite recuperar los archivos a insertar.

17. El btn SQL, nos mostrará la sentencia completa que se ha ejecutado para obtener la tabla NacVivos.

Le damos a Execute. En este momento se creará la tabla NacVivos en la DB inec de postgres. 18. Una vez ya terminada la configuración debemos correr el proceso ETL:

Se nos mostrará la siguiente ventana. Mantenemos la configuración por defecto.

Si deseamos, podemos grabar la transformación que hemos realizado.

Si todo va bien se empezará a recuperar los datos para ser cargados en la tabla. Los visto verdes significan que la sentencia se ha ejecutado sin problemas. Ahora ya tenemos datos en la tabla nacvivos de postgresql.

19. Ir a PgAdmin y constatar que la tabla “nacvivos” ha sido creada y contiene registros.

20. Para constatar la existencia de registros en la tabla nacvivos, podemos hacer algunas consultas y crear vistas.

21. El proceso ETL ha terminado y hemos logrado recuperar los registros del archivo .csv (fuente primaria externa). Con estas vistas y esta tabla continuaremos trabajando en la realización del Taller 3.