Descripción de un conjunto de datos: Métodos numéricos 1 Estadística Descriptiva Tablas y Gráficos Medidas Descripti
Views 99 Downloads 0 File size 1MB
Descripción de un conjunto de datos: Métodos numéricos
1
Estadística Descriptiva
Tablas y Gráficos
Medidas Descriptivas
de Frecuencias
1
Estadísticos
Tendencia central Indican valores con respecto a los que los datos parecen agruparse.
Dispersión Indican la mayor o menor concentración de los datos con respecto a las medidas de tendencia central.
Varianza, Desvío estándar, coeficiente de variación, rango intercuartílico
Posición Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.
Media, mediana, moda
Cuartiles, deciles, percentiles
Forma Indican como se distribuyen los datos
Ceficiente de asimetría y Coeficiente de curtosis
3
Relacionando gráficos de distribución de frecuencias con estadísticos
2
Estadísticos de tendencia central Son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse. 150
151
152
154 155
Son valores numéricos que tienden a localizar la parte central de un conjunto de datos.
155 155 Media Mediana Modo
157
157 160
162
Media Mediana Modo
Media o promedio aritmético: Es la suma de los valores de una variable dividido por el total de datos. Media de 2,2,3,7 es x
2 23 7 4 n
x
x i 1
i
n
Centro de gravedad de los datos 6
3
Media – Propiedades La suma algebraica de los desvíos de cada observación, respecto de la media, considerando los signos, es cero. ∑ x - x 0 i
La suma de los desvíos cuadráticos de cada observación respecto de su media, es un mínimo. ∑
x
i
- x
2
Mínimo
Es un valor típico o representativo porque su valor puede utilizarse para estimar la suma total en la muestra. Suma Total =
n * x
Dado que todos los valores entran en el cálculo de la media, ésta se ve afectada por valores extremos.
Media aritmética En tablas de datos sin agrupar
En tablas de datos agrupados
x
f
x
mc
f
3
1
x . fa
2a4
3
2
6
8
4a6
5
9
9
15
6a8
7
10
n
12
4
8 a 10
9
total
28
total
n
x i1
i
1 22
n
3.1 6.8 9.1512.4 x 8.35 28
mc. f
x i1
n
3.25.97.109.1 5.90 22
4
Media
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9 10
Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos.
MEDIA PONDERADA La media ponderada nos permite calcular un promedio que toma en cuenta la importancia de cada valor con
respecto al total.
10
5
Mediana
Es un valor que divide a las observaciones ordenadas en dos grupos con el mismo número de individuos Mediana de 1,2,4,5,6,6,8 es Mediana de 1,2,4,5,6,6,8,9 es Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos.
Altura mediana
Número par de datos: promedio de los valores centrales de la serie ordenada
150 152 154 155 155
157 157 157 157 160
Número impar de datos: valor que está justo en el centro de la serie ordenada 150 151 152 154 155 155 157 157 157 157 160
Me0 = 5,5
Me0 = 6
Me = ( 155 +157 ) / 2 = 156 gr.
Me = 155 gr.
Propiedad Su valor está afectado por el número de observaciones, pero no por los valores que adopta la variable.
6
Mediana
Datos sin agrupar Número de observaciones impar: la mediana corresponde al valor central 2, 3, 5, 5, 7 Mn=5 Número de observacionales par: la mediana corresponde al promedio de los dos valores centrales 2, 3, 5, 7 Mn=(3+5)/2=4
X
f
F
2-8
6
6
8-14
10
16
14-20
15
31
20-26
9
40
26-32
8
48
Moda
Es el valor de la variable que más se repite Moda de 1,2,4,5,6,6,8 es Moda de 1,2,2,5,6,6,8 es Moda de 1,2,4,5,6,7,8,9 es Es el único estadístico calculable en variables cualitativas En variables continuas, es el/los valor/es donde la distribución de frecuencia alcanza un máximo, relativo o absoluto.
7
Moda
X
f
0-5
1
5-10
13
10-15 17 15-20 21 20-25 12 25-30 7
La elección de la Medida de Tendencia Central depende....
Del tipo de variable cuantitativa o cualitativa
Del tipo de distribución simétrica o asimétrica
En general: Variables cuantitativas Si la distribución es simétrica, puede elegirse la Media, Mediana o el Modo; se recomienda la Media por que posee propiedades útiles, como estimador en Inferencia Estadística. Si la distribución es asimétrica, se recomienda el uso de la Mediana. Variables Cualitativas Nominales, solo es factible calcular el Modo. Ordinales, se recomienda el Modo o la Mediana.
8
Estadísticos de posición
Se define el fractil de orden k como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada k.
Casos particulares son los cuartiles, deciles, percentiles,...
Estadísticos de posición
Cuartiles: Dividen a la muestra en 4 grupos con la misma cantidad de datos. Q1 = Valor de la variable correspondiente a la (n+1)/4 observación ordenada. Deja por debajo el 25% de los datos Q2 = Valor de la variable correspondiente a la 2(n+1)/4 observación ordenada. Deja por debajo el 50% de los datos = mediana Q3 = Valor de la variable correspondiente a la 3(n+1)/4 observación ordenada. Deja por debajo el 75% de los datos
9
Estadísticos de posición
Deciles: Dividen a la muestra en 10 grupos con la misma cantidad de datos
El D1 deja por debajo al 10% de las observaciones. Por encima queda el 90%
Percentiles: Dividen a la muestra en 100 grupos con la misma cantidad de datos
La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%
Estadísticos de posición
Cuartiles: dividen a la muestra en cuatro grupos con la misma cantidad de datos K .n QK li 4
FA
fa
.h
Deciles: dividen a la muestra en diez grupos con la misma cantidad de datos K .n FA DK li 10 .h fa
K=1, 2, 3
K=1, ….., 9
Percentiles: dividen a la muestra en cien grupos con la misma cantidad de datos Kn FA 100 PK li .h fa
K=1, ….., 99
20
10
Ejemplo ¿Qué peso no llega a alcanzar el 25% de los individuos? Primer cuartil = percentil 25 = 60 Kg.
¿Qué peso es superado por el 25% de los individuos? – Tercer cuartil= percentil 75= 80 kg.
¿Entre qué valores se encuentra el 50% de los individuos con un peso “más normal”? – Entre el primer y tercer cuartil = entre 60 y 80 kg.
50%
Gráfico de caja (Box Plot)
Dato atípico 20
15
Q3 10
RIQ
Ordenar los datos de menor a mayor Hallar los 5 números resumen: mín, Q1, mediana, Q3 y máx Los dos cuartiles determinan los bordes de la caja y la mediana, la línea que la atraviesa Calcular el RIQ = Q3 – Q1 Calcular los límites inferior y superior como min y max, respectivamente Prolongar la línea hasta el valor menor y mayor, respectivamente, dentro de los límites
variable
Med Q1
5
0
11
Un experto en estándares de trabajo observa el tiempo que se requiere para preparar una muestra de 10 cartas de negocios, en una oficina y obtiene los siguientes resultados: 7 14 5 9 15 16 5 18 15 Calcula las medidas de posición
23
Diagrama de Caja y Sesgo (Box and Whisker Plot) Un resumen de cinco números .... Xmin
Q1
Q2
Q3
Xmax
X m X m aax x
17 1 5
13
H ora s
11 9
Q 3
M e d ia
7
M ee ddi ai a nn a a M
5
Q 1 3
X m X m i ni n
1
La longitud de la caja representa el Rango o Amplitud intercuartil (Q3 – Q1). El 50% de las observaciones (ordenadas por su magnitud) se encuentran dentro de la caja. El box plot incluye y representa valores extremos (alejados o outliers).
12
¿Cómo podemos interpretar nuestros datos a partir del diagrama de caja ? Ubicación de la mediana en la caja No esta en el centro de la caja entonces la distribución presenta asimetría. • Si se localiza cerca del extremo inferior (Q1), distribución asimétrica positiva, con una cola (sesgo) alargado a la derecha.
• Si se localiza cerca del extremo superior (Q3), distribución asimétrica negativa, con una cola (sesgo) alargado a la izquierda.
Esta en el centro de la caja entonces la distribución es simétrica ( o aproximadamente simétrica).
Preguntas, dudas, cuestiones...... Las Medidas de Tendencia Central son suficientes para caracterizar un conjunto de datos??? Puedo comparar dos o mas conjuntos de datos solo con el Promedio??? Cuando dos conjuntos de datos, tienen un mismo valor promedio
Podemos suponer que los datos de ambos son iguales???
Podemos suponer que los datos son distintos???
13
Medidas de Dispersión La dispersión de un conjunto de observaciones, se refiere a la magnitud de la variabilidad que presentan las mismas.
Rango
Xmin
Amplitud intercuartil Variancia Desvío Estándar Coeficiente de Variación Xmax Media Rango
Grupo 1 150 152 154 155 155 157 157 157 157 160 155,4 gr 10 gr
Grupo 2 148 152 154 155 155 157 157 157 157 162 155,4 gr 14 gr
Grupo 3 140 148 150 155 155 158 160 162 162 164 155,4 gr 24 gr
Estadísticos de dispersión Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa.
Amplitud o Rango:
La diferencia entre las observaciónes extremas. 2,1,4,3,8,4. El rango es Es muy sensible a los valores extremos. Su uso sólo es válido para conjuntos de datos pequeños
Rango intercuartílico (RIQ):
Es la distancia entre el primer y tercer cuartil.
Rango intercuartílico = Q3 - Q1 = P75
- P25
Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. No es tan sensible a valores extremos.
28
14
Varianza
x n
Varianza
i 1
i
x
n -1
n
2
i 1
fa x i x
n
2
n -1
fa mc x
2
i 1
n -1
Es el promedio de las desviaciones (al cuadrado) de cada dato con respecto a la media A mayor variabilidad, mayor varianza Es sensible a valores extremos Sus unidades son las de la variable pero al cuadrado!
29
Desvío estándar o típico
x n
Desvío estándar
var ianza
i 1
i
x
2
n
Tiene las mismas unidades que la variable A mayor variabilidad, mayor desvío estándar No confundir con error estándar o típico
30
15
Variancia y Desvío Estándar La Variancia y el Desvío Estándar miden la dispersión de los valores observados, con respecto a su media. Variancia
S2=
∑
(x i
- x (n - 1)
Desvío Estándar
)2
Media D.E. Var(n-1)
S =
S
Grupo 1
Grupo 2
Grupo 3
155,4 2,9 8,3
155,4 3,7 13,6
155,4 7,5 56,7
2
Unidades S2 = 8,3 (gr)2
S =2,9 gr
Un experto en estándares de trabajo observa el tiempo que se requiere para preparar una muestra de 9 cartas de negocios, en una oficina y obtiene los siguientes resultados: 7 14 5 9 15 16 5 18 15 Calcula las medidas de dispersión
32
16
•Dada la siguiente distribución de salarios, en pesos, observada en una jurisdicción provincial: 1)Calcula el sueldo promedio, moda y mediana. 2)Calcula la desviación estándar S 1250012600
f
6
12600–
12700-
12800-
12900-
13000-
13100-
12700
12800
12900
13000
13100
13200
9
16
12
9
5
3
33
Coeficiente de variación
CV
s 100 x
No tiene unidades Es una medida de variabilidad relativa: Mide que proporción de la media representa el desvío estándar Se utiliza para comparar variabilidad
34
17
Coeficiente de Variación Medida relativa de variabilidad. Es adimensional y permite comparar conjuntos de datos medidos en diferentes unidades
C .V . =
S x
* 100
A modo de ejemplo para la variable altura de dos grupos de niños....... Grupo 1: Media = 48 pulgadas D. Estándar = 6 pulgadas C.V. = 12.5% Grupo 2: Media = 120 cm
D. Estándar = 15 cm
C.V. = 12.5%
Un señor desea invertir en la bolsa y tiene los siguientes datos: Acción A: media = $ 5120 y desviación estándar = $ 330 Acción B: media = $ 5300 y desviación estándar = $ 450 Sabiendo que para los negocios siempre adopta una posición muy conservadora (no asume riesgos) ¿Podrías ayudarlo a tomar una decisión respecto a dónde debe invertir?
36
18
Asimetría
Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de tendencia central son indicación de asimetría. 37
Asimetría
Propiedad de los datos que tiene en cuenta la forma de distribución de los mismos
Posición de la media con respecto a la mediada
Media > Mediana Media = Mediana Media < Mediana
Asimétrica positiva Simétrica Asimétrica negativa
Coeficiente Pearsoniano S KP
3( Media Mediana) Desvío
Valores negativos: asimetría negativa Valores positivos: asimetría positiva Valores aproximados a cero: simétrica
38
19
Coeficiente de curtosis 1 (Q3 Q1 ) K 2 P90 P10
K=0 K=0.26 K=0.5
platicurtica mesocurtica leptocurtica
39
Estadísticos y gráficos recomendados según el tipo de variable Tipo de variable
Tipo de gráfico
Medida de tend. central
Medida de dispersión
Circular De barras
modo
-
De barras
modo
-
modo
-
media
desvío std
mediana
RIQ
Histograma
modo
-
Box
media
desvío std
mediana
RIQ
Cualitativa Nominal
Cualitativa ordinal
Cuantitativa Discreta Cuantitativa Continua
De
barras Box Plot
Plot
20