Analisis dimensional

UNIVERSIDAD TECNOLOGICA DE MÉXICO – CAMPUS ECATEPEC Análisis dimensional y tablas de hechos Datamaning y Data WareHouse

Views 199 Downloads 0 File size 822KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

UNIVERSIDAD TECNOLOGICA DE MÉXICO – CAMPUS ECATEPEC

Análisis dimensional y tablas de hechos Datamaning y Data WareHouse Beatriz Adriana Morales Rosales Prof. Felipe Salazar Vargas Grupo : SCC09V 11/02/2018

Contenido Análisis dimensional ............................................................................................................................ 2 Definición del modelo dimensional .................................................................................................... 2 Tablas de hechos y tablas de dimensiones ......................................................................................... 4 Tabla de hechos............................................................................................................................... 4 Tabla de dimensiones...................................................................................................................... 4 Construcción de modelos dimensionales ........................................................................................... 5 Llaves artificiales ................................................................................................................................. 6 Conclusiones ....................................................................................................................................... 8 Bibliografía .......................................................................................................................................... 8

Análisis dimensional El Implementar una base de datos dimensional muestra cómo utilizar SQL para implementar este modelo de datos dimensional. Un modelo de datos dimensional resulta más difícil de mantener para depósitos de datos muy grandes que un modelo de datos relacionales. Por este motivo, los depósitos de datos se suelen basar en un modelo de datos relacionales. Sin embargo, un modelo de datos dimensional resulta especialmente adecuado para crear almacenes de datos (un subconjunto de un depósito de datos). Para comprender los conceptos del modelado de datos dimensional, debe tener unos conocimientos básicos de SQL y de la teoría de bases de datos relacionales. Este capítulo sólo proporciona un resumen de los conceptos de depósitos de datos y describe un modelo de datos dimensional simple.

Definición del modelo dimensional Para crear una base de datos dimensional, debe comenzar con un modelo de datos dimensional. El modelo de datos dimensional proporciona un método para simplificar y facilitar la comprensión de las bases de datos. Una base de datos dimensional se puede concebir como un cubo de tres o cuatro dimensiones en el que los usuarios pueden acceder a una porción de la base de datos a lo largo de cualquiera de sus dimensiones. Para crear una base de datos dimensional, necesita un modelo que le permita visualizar los datos. Supongamos que la empresa vende productos en distintos mercados y evalúa el rendimiento durante un periodo de tiempo. Resulta fácil interpretar este proceso empresarial como un cubo de datos, que contiene dimensiones correspondientes a tiempo (Time), productos (Product) y mercados (Market). La figura siguiente muestra este modelo dimensional. Las diversas intersecciones entre las líneas del cubo contendrían las medidas de la empresa. Las medidas corresponden a una determinada combinación de datos correspondientes a producto (product), mercado (market) y tiempo (time).

Otro nombre que se utiliza para el modelo dimensional es esquema de estrellaunión. Los diseñadores de bases de datos utilizan este nombre porque el diagrama de este modelo parece una estrella con una tabla central alrededor de la cual se muestran un conjunto de otras tablas. La tabla central es la única tabla del esquema con varias uniones que la conectan con todas las demás tablas. Esta tabla central se denomina la tabla de hechos y las demás tablas se denominan tablas de dimensiones. Todas las tablas de dimensiones tienen una sola unión que las conecta con la tabla de hechos, independientemente de la consulta. La figura siguiente muestra un modelo dimensional sencillo de una empresa que vende productos en distintos mercados y evalúa el rendimiento de la empresa a lo largo del tiempo.

Tablas de hechos y tablas de dimensiones Tabla de hechos La tabla de hechos almacena las medidas de la empresa y apunta al valor clave en el nivel inferior de cada tabla de dimensiones. Las medidas son datos cuantitativos o de hechos sobre el tema. Las medidas suelen ser numéricas y corresponden a la cantidad de aspectos de una pregunta. Ejemplos de medidas son el precio, las ventas de productos, el inventario de productos, los ingresos, etc. Una medida se puede basar en una columna de una tabla o se puede calcular. La tabla siguiente muestra una tabla de hechos cuyas medidas son sumas de unidades vendidas, los ingresos y los beneficios de las ventas de dicho producto en esa cuenta en ese día. Código de producto (Product Code)

Código de cuenta (Account code)

Código de día (Day code)

Unidades vendidas (Units sold)

Ingresos Beneficios (Revenue) (Profit)

1

5

32104

1

82,12

27,12

3

17

33111

2

171,12

66,00

1

13

32567

1

82,12

27,12

Antes de diseñar una tabla de hechos, debe determinar la granularidad de la tabla de hechos. La granularidad corresponde a cómo define un registro individual de nivel bajo en dicha tabla de hechos. La granularidad puede ser la transacción individual, una instantánea diaria o una instantánea mensual. La tabla de hechos anterior contiene una fila para cada producto vendido en cada cuenta cada día. Por lo tanto, la granularidad de la tabla de hechos se expresa como producto por cuenta por día.

Tabla de dimensiones Una tabla de dimensiones es una tabla que almacena las descripciones textuales de las dimensiones de la empresa. Una tabla de dimensiones contiene un elemento y un atributo, si procede, para cada nivel de la jerarquía. El nivel inferior de detalles

que se necesita para el análisis de los datos determina el nivel inferior de la jerarquía. Los niveles superiores a este nivel base almacenan datos redundantes. Esta tabla no normalizada reduce el número de uniones necesarias para una consulta y facilita a los usuarios la consulta de niveles superiores y luego la profundización a niveles inferiores de detalle. El término profundización significa añadir cabeceras de filas a partir de las tablas de dimensiones que el usuario consulta. La tabla siguiente muestra un ejemplo de una tabla de dimensiones que se basa en la dimensión de cuenta (account).

Acct code Account name

Territory Salesman

Region

Region size

Region manager

1

Jane's Mfg.

101

B. Adams

Midwest Over 50

T. Sent

2

TBD Sales

101

B. Adams

Midwest Over 50

T. Sent

3

Molly's Wares

101

B. Adams

Midwest Over 50

T. Sent

4

The Golf Co.

201

T. Scott

Midwest Over 50

T. Sent

Construcción de modelos dimensionales Para crear un modelo de datos dimensional, necesita una metodología que resalte las decisiones que tiene que tomar para completar el diseño de la base de datos. Esta metodología utiliza un enfoque descendente porque primero identifica los principales procesos de la organización en los que se recopilan datos. Una tarea importante del diseñador de la base de datos consiste en comenzar con las fuentes de datos existentes que utiliza la organización. Una vez identificados los procesos, se crean una o más tablas de hechos a partir de cada proceso empresarial. Los pasos siguientes describen la metodología que debe seguir para crear el modelo de datos. Aunque una base de datos dimensional se puede basar en varios procesos empresariales y puede contener varias tablas de hechos, el modelo de datos que describe esta sección se basa en un solo proceso empresarial y tiene una tabla de hechos. Para crear una base de datos dimensional:

1. Elija los procesos empresariales que desea utilizar para analizar el área temática que se debe modelar.

2. 3. 4. 5. 6.

Determine la granularidad de las tablas de hechos. Identifique dimensiones y jerarquías para cada tabla de hechos. Identifique medidas para las tablas de hechos. Determine los atributos correspondientes a cada tabla de dimensiones. Solicite a los usuarios que verifiquen el modelo de datos.

Llaves artificiales Llave artificial: columna que arbitrariamente adiciona el diseñador y que le sirve para un propósito específico, por ejemplo, para identificar de manera inequívoca una fila. En este caso esta llave artificial se pasa a las tablas asociadas que utilicen esa llave como llave foránea. Ejemplo: Se supone una empresa donde se asignan empleados a proyectos varias veces en diferentes fechas.

En la tabla ASIGNADO_A la llave primaria es: empleado, proyecto, fecha_inicio. Por conveniencia el diseñador puede inventarse una columna llamada código con característica de llave artificial, quedando así el ejemplo:

Conclusiones Una base de datos dimensional está diseñada y ajustada para dar soporte al análisis de tendencias y previsiones. Este tipo de proceso de información se conoce como proceso analítico en línea (OLAP) o proceso de soporte de decisiones. OLAP es también el término que utilizan los diseñadores de bases de datos para describir un enfoque dimensional al proceso de información. Una base de datos dimensional está optimizada para la recuperación y el análisis de datos. Cualquier dato nuevo que cargue en la base de datos se suele actualizar por lotes, a menudo desde diversas fuentes. Mientras que los sistemas OLTP tienden a organizar los datos alrededor de procesos específicos (como la entrada de pedidos), una base de datos dimensional tiende a estar orientada a temas y está destinada a responder a preguntas como las siguientes: “¿Qué productos se están vendiendo bien?”, “¿En qué época del año se venden mejor los productos?”, “¿En qué zonas son más flojas las ventas?”

Bibliografía IBM (2009). Modelo de datos dimensional. Recuperado el 11 de febrero de 2018, del Sitio web: https://www.ibm.com/support/knowledgecenter/es/SSGU8G_11.50.0/com.ibm.ddi.doc/ids_ddi_3 50.htm

Unal (2012). Generalidades del diseño de bases de datos relacionales. Recuperado el 11 de febrero de 2018, del Sitio web: http://dis.unal.edu.co/~icasta/consejero/BD_dise_ICF.pdf