Formación Complementaria ADVANCE (Estadística) 2.- Estadística Descriptiva Prof.: Dr. Marco Riquelme A. 2020. UNAB Pro
Views 87 Downloads 0 File size 873KB
Formación Complementaria ADVANCE (Estadística) 2.- Estadística Descriptiva Prof.: Dr. Marco Riquelme A.
2020. UNAB
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
1 / 47
Conceptos Básicos
Unidad Experimental: es el ente que proporciona una información. También recibe el nombre de unidad de análisis.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
2 / 47
Conceptos Básicos
Unidad Experimental: es el ente que proporciona una información. También recibe el nombre de unidad de análisis. Población: es el universo o conjunto total de unidades experimentales. Sobre este conjunto se obtendrán las conclusiones finales.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
2 / 47
Conceptos Básicos
Unidad Experimental: es el ente que proporciona una información. También recibe el nombre de unidad de análisis. Población: es el universo o conjunto total de unidades experimentales. Sobre este conjunto se obtendrán las conclusiones finales. Muestra: es cualquier subconjunto de la población.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
2 / 47
Conceptos Básicos
Unidad Experimental: es el ente que proporciona una información. También recibe el nombre de unidad de análisis. Población: es el universo o conjunto total de unidades experimentales. Sobre este conjunto se obtendrán las conclusiones finales. Muestra: es cualquier subconjunto de la población. Parámetro: característica relacionada con la población y que es de interés para el investigador.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
2 / 47
Conceptos Básicos
Unidad Experimental: es el ente que proporciona una información. También recibe el nombre de unidad de análisis. Población: es el universo o conjunto total de unidades experimentales. Sobre este conjunto se obtendrán las conclusiones finales. Muestra: es cualquier subconjunto de la población. Parámetro: característica relacionada con la población y que es de interés para el investigador. Estimadores: aproximaciones de los parámetros basadas en la muestra.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
2 / 47
Tipos de variables Definición (Variable estadística) Es cualquier característica o atributo que es deseable conocer acerca de las unidades experimentales y que se espera varíe de una unidad a otra. El conjunto de todos los posibles valores de ésta se denomina “recorrido de la variable”.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
3 / 47
Tipos de variables Definición (Variable estadística) Es cualquier característica o atributo que es deseable conocer acerca de las unidades experimentales y que se espera varíe de una unidad a otra. El conjunto de todos los posibles valores de ésta se denomina “recorrido de la variable”.
Variable
Nominal Cualitativa o categórica (cualidad o atributo) Ordinal Discreta (contable) Cuantitativa o numérica (cantidad) Continua (no contable)
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
3 / 47
Variables cualitativas
Variable Nominal: Sólo permite la clasificación (etiquetar), y no se puede establecer ningún tipo de orden. Ejemplos: Nacionalidad; sexo...
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
4 / 47
Variables cualitativas
Variable Nominal: Sólo permite la clasificación (etiquetar), y no se puede establecer ningún tipo de orden. Ejemplos: Nacionalidad; sexo...
Variable Ordinal: Existe una clasificación con cierto orden natural (no numérico). Ejemplos: Estrato socio-económico; Nivel educacional; Jerarquía del empleado...
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
4 / 47
Variables cuantitativas
Si la variable cuantitativa toma valores en un conjunto contable (conjunto finito o infinito numerable) entonces se dice que es de tipo “discreta”.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
5 / 47
Variables cuantitativas
Si la variable cuantitativa toma valores en un conjunto contable (conjunto finito o infinito numerable) entonces se dice que es de tipo “discreta”. Ejemplos: Número de artículos defectuosos; número de clientes que llegan a una estación de servicio durante un día.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
5 / 47
Variables cuantitativas
Si la variable cuantitativa toma valores en un conjunto contable (conjunto finito o infinito numerable) entonces se dice que es de tipo “discreta”. Ejemplos: Número de artículos defectuosos; número de clientes que llegan a una estación de servicio durante un día. Si la variable cuantitativa toma valores en un conjunto no contable (conjunto infinito no numerable) entonces se dice que es de tipo “continua”.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
5 / 47
Variables cuantitativas
Si la variable cuantitativa toma valores en un conjunto contable (conjunto finito o infinito numerable) entonces se dice que es de tipo “discreta”. Ejemplos: Número de artículos defectuosos; número de clientes que llegan a una estación de servicio durante un día. Si la variable cuantitativa toma valores en un conjunto no contable (conjunto infinito no numerable) entonces se dice que es de tipo “continua”. Ejemplos: Tiempo ( en horas) en una fila de espera; Temperatura (Co ) de una reacción química.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
5 / 47
Organización de Datos Supongamos que se desea estudiar una variable que esta agrupada en k clases excluyentes, digamos c1 , c2 , . . . , ck .
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
6 / 47
Organización de Datos Supongamos que se desea estudiar una variable que esta agrupada en k clases excluyentes, digamos c1 , c2 , . . . , ck .
Definición (Frecuencia Absoluta) Corresponde al número de unidades de análisis que pertenecen a la clase ci y se denota por ni , (i = 1, . . . , k), donde k X
ni = n.
i=1
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
6 / 47
Organización de Datos Supongamos que se desea estudiar una variable que esta agrupada en k clases excluyentes, digamos c1 , c2 , . . . , ck .
Definición (Frecuencia Absoluta) Corresponde al número de unidades de análisis que pertenecen a la clase ci y se denota por ni , (i = 1, . . . , k), donde k X
ni = n.
i=1
Definición (Frecuencia Relativa) Corresponde a la proporción de unidades de análisis que pertenecen a la clase ci y se denota por fi , (i = 1, . . . , k), donde ni fi = ; n Prof.: Dr. Marco Riquelme A. (UNAB)
k X
fi = 1.
i=1
Formación Complementaria
2020
6 / 47
Organización de Datos Observación En algunos casos, para un mejor entendimiento, las frecuencias relativas suelen transformarseP en frecuencias porcentuales de la siguiente forma: hi = fi · 100, donde ki=1 hi = 100%.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
7 / 47
Organización de Datos Observación En algunos casos, para un mejor entendimiento, las frecuencias relativas suelen transformarseP en frecuencias porcentuales de la siguiente forma: hi = fi · 100, donde ki=1 hi = 100%.
Definición (Frecuencia Acumulada Absoluta) Corresponde al número acumulado de unidades de análisis que pertenecen a las clases c1 , c2 , . . . , ci y se denota por Ni , (i = 1, . . . , k), donde Ni =
i X
nj , i = 1, . . . , k.
j=1
Así N1 = n1 y Nk = n. Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
7 / 47
Organización de Datos
Definición (Frecuencia Relativa Acumulada) Corresponde a la proporción acumulada de unidades de análisis que pertenecen a las clases c1 , c2 , . . . , ci y se denota por Fi , (i = 1, . . . , k), donde i X Ni Fi = fj o Fi = , i = 1, . . . , k. n j=1
Así, Fi = f1 y Fk = 1. En forma análoga, es posible definir frecuencias acumuladas porcentuales por: Hi = Fi · 100, con H1 = h1 y Hk = 100%.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
8 / 47
Presentación de Datos: Tablas de distribución de frecuencias
El esquema de la tabla es el siguiente: Table: Distibución de frecuencias de...
Clases c1 c2 .. .
ni n1 n2 .. .
fi f1 f2 .. .
Ni N1 N2 .. .
Fi F1 F2 .. .
ck
nk
fk
Nk = n
Fk = 1
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
9 / 47
Presentación de Datos: Tablas de distribución de frecuencias Variable Continua: Si la variable bajo estudio es cuantitativa continua (o discreta con un alto rango de variabilidad), entonces el esquema de tabla anterior sufre un leve modificación que está relacionada con la creación de los “intervalos de clases”. En este caso el esquema de la tabla es el siguiente: Intervalos (Clases) [min; min +A[ [min +A; min +2A[ .. .
Marca de clase m1 m2 .. .
ni n1 n2 .. .
fi f1 f2 .. .
Ni N1 N2 .. .
Fi F1 F2 .. .
[min +(k − 1)A; max]
mk
nk
fk
Nk
Fk
Donde la marca de clase i-ésima (mi ) corresponde al promedio del intervalo i-ésimo (i = 1, ..., k).
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
10 / 47
Presentación de Datos: Tablas de distribución de frecuencias Construcción Tablas para Variables Continuas: Se supone que la amplitud de los intervalos es la misma, se puede seguir los siguientes pasos para la construcción de tablas de frecuencias de variables continuas. Paso 1: Contar el número n de datos. Paso 2: Calcular el rango (R), R = max − min, donde min y max corresponden a los valores mínimos y máximos de los datos, respectivamente. Paso 3: Escoger el número de clases (intervalos). Se sugiere ,el entero más próximo de la denominada fórmula de Sturges, dada por k = 1 + 3, 3 log(n), donde log(•) es el logaritmo en base 10. Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
11 / 47
Presentación de Datos: Tablas de distribución de frecuencias
Paso 4: Calcular la amplitud (A) A=
R . k
Paso 5: Para determinar los extremos de la primera clase (intervalo) se debe tomar como límite inferior el valor min y como límite superior el valor min +A. Paso 6: Para obtener las restantes clases, se suma sucesivamente A al límite inferior, donde el límite inferior de las sucesivas clases corresponderá a límite superior de la clase anterior.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
12 / 47
Ejemplo
Considere los siguientes datos 0,36 0,48 0,60 0,61 0,68
0,68 0,71 0,72 0,73 0,79
0,8 0,81 0,81 0,82 0,85
0,87 0,87 0,88 0,92 0,92
0,92 0,94 0,97 0,97 0,97
1,00 1,00 1,13 1,16 1,19
cree una tabla de distribución de frecuencias con la metodología vista anteriormente.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
13 / 47
Solución a mano 1
El valor del tamaño de muestra es n = 30.
2
El rango sería R = 1, 19 − 0, 36 = 0, 83.
3
El número de clases a considerar es k = 1 + 3, 3 log(30) = 5, 87 ≡ 6.
4
La amplitud sería A =
5
La tabla quedaría de la siguiente forma Intervalos [0, 360; 0, 498[ [0, 498; 0, 637[ [0, 637; 0, 775[ [0, 775; 0, 913[ [0, 913; 1, 052[ [1, 052; 1, 190]
Prof.: Dr. Marco Riquelme A. (UNAB)
0,83 6
= 0, 1383.
Marca de clase 0, 429 0, 568 0, 706 0, 844 0, 983 1, 121
ni 2 2 5 9 9 3
Formación Complementaria
fi 0, 067 0, 067 0, 167 0, 3 0, 3 0, 1
Ni 2 4 9 18 27 30
Fi 0, 06 0, 13 0, 3 0, 6 0, 9 1
2020
14 / 47
Solución mediante computador (XLSTAT) Xlstat es una aplicación de la planilla electrónica de Microsoft Excel, este se puede descargar de www.xlstat.com. Cuando se instale y quieran usarlo les preguntará si desean Habilitar las macros, respondan que si.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
15 / 47
Solución mediante computador (XLSTAT)
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
16 / 47
Solución mediante computador (XLSTAT)
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
17 / 47
Presentación de Datos: Gráficos Estadísticos
Las grandes cantidades de datos estadísticos resultan incómodos de interpretar y si éstos no están ordenados de alguna manera.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
18 / 47
Presentación de Datos: Gráficos Estadísticos
Las grandes cantidades de datos estadísticos resultan incómodos de interpretar y si éstos no están ordenados de alguna manera. La principal ventaja de la construcción de gráficos con los datos de una investigación, es que nos permite visualizar más claramente la distribución de éstos, hacer una mejor comparación de resultados y un análisis objetivo de estos últimos.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
18 / 47
Presentación de Datos: Gráficos Estadísticos
Las grandes cantidades de datos estadísticos resultan incómodos de interpretar y si éstos no están ordenados de alguna manera. La principal ventaja de la construcción de gráficos con los datos de una investigación, es que nos permite visualizar más claramente la distribución de éstos, hacer una mejor comparación de resultados y un análisis objetivo de estos últimos. Una buena definición de lo que es un “gráfico” es la siguiente.
Definición (Gráfico) es una representación pictórica, mediante figuras geométricas u otros elementos, que proporciona un resumen de la información que interesa destacar y, lo más importante, recordar.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
18 / 47
Gráficos Estadísticos: Barra Simple Representa distribuciones de frecuencias de variables cualitativas o cuantitativas discretas. Figure: Título...
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
19 / 47
Gráficos Estadísticos: Histograma Se usa para variables continuas. Es un conjunto de rectángulos adyacentes. En el eje horizontal deben ir los intervalos (clases) y en el eje vertical las frecuencias. Figure: Título...
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
20 / 47
Gráficos Estadísticos: Sectorial Muestra una comparación proporcional entre las distintas clases de la variable, en particular se usa para variables cualitativas. Figure: Título...
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
21 / 47
Ojiva: Gráfico de frecuencias relativas acumuladas Se usa para variables continuas. Este se obtiene graficando en el eje vertical la frecuencia relativa acumulada (Fi ) de un intervalo contra el límite inferior del siguiente intervalo sobre el eje horizontal. Luego se unen los puntos consecutivos , generalmente, con una línea recta.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
22 / 47
Medidas Estadísticas de Resumen Estas medidas estadísticas que resumen al conjunto de datos, también se les denomina estadísticos. Se clasifican en medidas de posición y dispersión. Las primeras nos entregan la posición relativa que poseen los individuos dentro de la distribución y se subdividen en dos:
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
23 / 47
Medidas Estadísticas de Resumen Estas medidas estadísticas que resumen al conjunto de datos, también se les denomina estadísticos. Se clasifican en medidas de posición y dispersión. Las primeras nos entregan la posición relativa que poseen los individuos dentro de la distribución y se subdividen en dos: a) Las de centralidad, que tienden a ubicarse en el centro de la distribución, entre las cuales se encuentran:
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
23 / 47
Medidas Estadísticas de Resumen Estas medidas estadísticas que resumen al conjunto de datos, también se les denomina estadísticos. Se clasifican en medidas de posición y dispersión. Las primeras nos entregan la posición relativa que poseen los individuos dentro de la distribución y se subdividen en dos: a) Las de centralidad, que tienden a ubicarse en el centro de la distribución, entre las cuales se encuentran: El promedio o media aritmética. La mediana o valor del centro. La moda, modo o valor más frecuente. La media geométrica. La media armónica. Entre otras.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
23 / 47
Medidas Estadísticas de Resumen Estas medidas estadísticas que resumen al conjunto de datos, también se les denomina estadísticos. Se clasifican en medidas de posición y dispersión. Las primeras nos entregan la posición relativa que poseen los individuos dentro de la distribución y se subdividen en dos: a) Las de centralidad, que tienden a ubicarse en el centro de la distribución, entre las cuales se encuentran: El promedio o media aritmética. La mediana o valor del centro. La moda, modo o valor más frecuente. La media geométrica. La media armónica. Entre otras.
b) Los cuantiles, que tienden a ubicarse en distintas partes de la distribución de la variable, entre las que se encuentran:
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
23 / 47
Medidas Estadísticas de Resumen Estas medidas estadísticas que resumen al conjunto de datos, también se les denomina estadísticos. Se clasifican en medidas de posición y dispersión. Las primeras nos entregan la posición relativa que poseen los individuos dentro de la distribución y se subdividen en dos: a) Las de centralidad, que tienden a ubicarse en el centro de la distribución, entre las cuales se encuentran: El promedio o media aritmética. La mediana o valor del centro. La moda, modo o valor más frecuente. La media geométrica. La media armónica. Entre otras.
b) Los cuantiles, que tienden a ubicarse en distintas partes de la distribución de la variable, entre las que se encuentran: Los cuartiles (dividen al conjunto en cuatro partes iguales). Los percentiles (dividen al conjunto en cien partes iguales). Entre otras. Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
23 / 47
Medidas Estadísticas de Resumen
Las segundas medidas estadísticas de resumen, las de dispersión, nos entregan el grado de dispersión, variabilidad u homogeneidad que poseen los datos dentro del conjunto, generalmente respecto de una medida de tendencia central, entre las que se encuentran: El rango o desviación máxima El rango intercuartil. La varianza. La desviación estándar o típica. El coeficiente de variación. Entre otras.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
24 / 47
Medidas de posición: El promedio (x) El promedio o media aritmética de un conjunto de n datos digamos x1 , x2 , . . . , xn para datos no tabulados, viene dado por: x=
n X xi i=1
n
.
Por otro lado, si los datos se encuentran tabulados, el promedio se obtiene de la siguiente forma: k X x≈ fi · mi . i=1
⇒ El uso de esta medida es exclusivamente para variables cuantitativas. ⇒ Su cálculo puede ser afectado de manera desproporcionada por la existencia de datos atípicos (fuera de lo común). Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
25 / 47
Medidas de posición: Mediana (Me ) Corresponde al valor central cuando las n observaciones se ordenan de menor a mayor. Es decir, considere las siguientes observaciones x1 , x2 , ..., xn , además si ordenamos estas observaciones de menor a mayor tenemos x(1) , x(2) , ..., x(n) , entonces la mediana sería si n es impar; x( n+1 ) , 2 x( n2 ) + x( n2 +1) Me = , si n es par. 2 ⇒ El uso de esta medida es para variables cualitativas que poseen orden jerárquico o cuantitativas. ⇒ Su cálculo no es afectado por la existencia de datos atípicos.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
26 / 47
Medidas de posición: Moda (Mo )
Corresponde al valor o categoría con más alta frecuencia en los datos. ⇒ El uso de esta medida es para cualquier tipo de variable. ⇒ En el caso de variables cuantitativas, los datos pueden ser agrupados en clases y la moda se define como la marca de clase que tiene la mayor frecuencia. ⇒ Si existe un único valor que se repite más hablamos de una distribución unimodal.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
27 / 47
Medidas de posición: Relación Entre Promedio, Mediana y Moda Caso 1: Distribución Simétrica (No Sesgada) x = Me = Mo . Caso 2: Distribución Asimétrica, sesgada a la derecha. Mo < Me < x. Caso 3: Distribución Asimétrica, sesgada a la izquierda. x < Me < Mo . Nota: La mediana (Me ) siempre se hallará entre el promedio x y la moda (Mo ) ya que no es afectada por datos extremos, es decir, es robusta. Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
28 / 47
Medidas de posición: Cuartiles Los cuartiles dividen a un conjunto ordenado de datos en 4 grupos de igual tamaño: ⇒ El cuartil 1 (Q1 ) marca la parte alta del primer cuarto de los datos. ⇒ El cuartil 3 (Q3 ) marca la parte baja del último cuarto de los datos. ⇒ El cuartil 2 (Q2 ) corresponde a la Me . Metodología para el cálculo de Q1 y Q3 Paso 1: Ordene los datos de menor a mayor y encuentre la Me . Paso 2: Divida los datos en 2 mitades, por encima y por debajo de la Me . Si n es impar incluya la mediana en ambas mitades. Paso 3: Encuentre la mediana en ambas mitades, estas son Q1 y Q3 .
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
29 / 47
Medidas de posición: Percentil
Los percentiles dividen a un conjunto ordenado de datos en 100 grupos de igual tamaño.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
30 / 47
Medidas de posición: Percentil
Los percentiles dividen a un conjunto ordenado de datos en 100 grupos de igual tamaño. Pα , el percentil de orden α, corresponde al valor de la variable que es mayor o igual al α% de los datos y es menor o igual que el (100 − α)% de los datos (ordenados de menor a mayor).
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
30 / 47
Medidas de posición: Percentil
Los percentiles dividen a un conjunto ordenado de datos en 100 grupos de igual tamaño. Pα , el percentil de orden α, corresponde al valor de la variable que es mayor o igual al α% de los datos y es menor o igual que el (100 − α)% de los datos (ordenados de menor a mayor). Al Q1 se le denomina también percentil 25, al Q2 percentil 50 y al Q3 percentil 75.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
30 / 47
Medidas de posición: Cálculo del percentil El cálculo exacto del percentil es complicado realizarlo a mano, claro está que los ordenadores pueden hacerlo. Una forma de obtener una aproximación (lineal) del percentil es mediante la fórmula: nα 100 − Ni−1 A , Pα = LI + ni donde α ∈ [0, 100]. LI = Límite inferior del intervalo donde se encuentra Pα , Ni−1 = Frecuencia absoluta acumulada del intervalo anterior donde se encuentra Pα , ni = Frecuencia absoluta del intervalo donde se encuentra Pα , A = Amplitud del intervalo donde se encuentra Pα , n = Tamaño de la muestra. Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
31 / 47
Medidas de Dispersión: Rango (R) y Rango Intercuartil (RI )
Rango (R): Corresponde a la diferencia entre el mayor y menor de los datos. R = Máx − Mín ⇒ Su cálculo es afectado por la existencia de datos atípicos. Rango Intercuartil (RI ): Esta medida de variabilidad es resistente a valores atípicos y se concentra en el 50% central de los datos. RI = Q3 − Q1
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
32 / 47
Medidas de Dispersión: Varianza Muestral Estimada (s 2 ) La varianza de las observaciones x1 , x2 , ..., xn es n
1 X (xi − x)2 . s = n−1 2
i=1
Por otro lado, si los datos se encuentran tabulados, la varianza se obtiene de la siguiente forma: n
s2 ≈
n X fi (mi − x)2 . n−1 i=1
⇒ ⇒ ⇒ ⇒
Su cálculo es afectado por la existencia de datos atípicos. El uso de esta medida es exclusivamente para variables cuantitativas. Valores grandes de s 2 ⇒ una alta variabilidad. Si los datos corresponden a los de una población ⇒ para calcular la 1 varianza poblacional (σ 2 ) se reemplaza el factor n−1 por n1 . √ ⇒ Se define la desviación estándar muestral (típica) como s = s 2 . Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
33 / 47
Medidas de Dispersión: Coeficiente de variación (CV )
Corresponde a una medida de dispersión relativa a la media. Está dada por CV =
s 100% x
⇒ No depende de la unidad de medida de los datos. ⇒ Útil para comparar variabilidad de grupos que poseen unidades de medidas distintas. ⇒ Mientras más pequeño es el valor del CV más homogéneos son los datos.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
34 / 47
Identificación de Datos Atípicos: Método de la puntuación z Regla empírica Para un conjunto de valores que tienen un histograma en forma de campana, el intervalo: x ∓s → contiene aprox. al 68% de los valores x ∓ 2s → contiene aprox. al 95% de los valores x ∓ 3s → contiene aprox. al 100% de los valores Método de la puntuación z Si consideramos la regla empírica, sabemos que aproximadamente el 100% de los datos está en el intervalo [x − 3s; x + 3s]. Es muy improbable que un dato esté fuera de este intervalo, y en caso que fuese, éste se llamaría un dato atípico. Es decir, un dato es no atípico si xi − x xi − x ≤3 xi ∈ [x − 3s; x + 3s] ⇔ ∈ [−3; 3] ⇔ s s ∴ Si consideramos la transformación zi = atípico si |zi | > 3. Prof.: Dr. Marco Riquelme A. (UNAB)
xi −x s ,
Formación Complementaria
entonces un dato xi es
2020
35 / 47
Identificación de Datos Atípicos: Método de Tukey Método de Tukey: Considere las siguientes barreras (bisagras), X Barrera Interior Inferior: BII = Q1 − 1, 5RI X Barrera Interior Superior: BIS = Q3 + 1, 5RI X Barrera Exterior Inferior: BEI = Q1 − 3RI X Barrera Exterior Superior: BES = Q3 + 3RI Entonces, V Cualquier valor fuera de las barreras interiores es considerado como un posible valor atípico. V Cualquier valor fuera de las barreras exteriores es considerado como un potencial valor atípico. No atípico z }| { · · · · · · [ [BEI · · · · · · [ [BII · · · · · · BIS] ] · · · · · · BES] ] · · · · · · | {z } | {z } | {z } | {z } Potencial Posible Posible Potencial Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
36 / 47
Identificación de Datos Atípicos: Diagrama de Caja Definición (Diagrama de Caja o Cajón con Bigote) El diagrama de caja, entrega información sobre la tendencia central y dispersión de los datos, la asimetría de los datos, identifica valores atípicos y es útil para comparar dos o más distribuciones. Procedimiento para realizar esta gráfica Paso 1: Los bordes de la caja se representan por Q1 y Q3 , se debe trazar una linea vertical que atraviese la caja en la Me . Paso 2: Trazar líneas (bigotes) desde los bordes de la caja hasta los valores adyacentes (el menor y mayor de los datos no atípicos). Paso 3: marque los posibles valores atípicos con o y los potenciales con ∗. Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
37 / 47
Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
38 / 47
Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
39 / 47
Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
40 / 47
Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
41 / 47
Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
42 / 47
Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
43 / 47
Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
44 / 47
Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
45 / 47
Propiedades de la Media y la Varianza
Sean x1 , x2 , ..., xn un conjunto de n observaciones donde a cada una se le aplica la siguiente transformación lineal: yi = axi + b
∀i = 1, 2, ...n,
donde a ∈ R (6= 0) y b ∈ R.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
46 / 47
Propiedades de la Media y la Varianza
Sean x1 , x2 , ..., xn un conjunto de n observaciones donde a cada una se le aplica la siguiente transformación lineal: yi = axi + b
∀i = 1, 2, ...n,
donde a ∈ R (6= 0) y b ∈ R. Sean x y Sx2 el promedio y la varianza de las observaciones x1 , x2 , ..., xn . Luego el promedio y la varianza de los datos transformados y1 , y2 , ..., yn , están dados por: y = ax + b
Prof.: Dr. Marco Riquelme A. (UNAB)
y sy2 = a2 sx2
Formación Complementaria
2020
46 / 47
Ejemplo Considere los siguientes datos (ordenados) 0,36 0,48 0,60 0,61 0,68
0,68 0,71 0,72 0,73 0,79
0,80 0,81 0,81 0,82 0,85
0,87 0,87 0,88 0,92 0,92
0,92 0,94 0,97 0,97 0,97
1,00 1,00 1,13 1,16 1,19
V Calcule media, mediana, varianza, desviación estándar, mínimo, máximo, rango, cuartil 1 y cuartil 3. V Identifique posibles y potenciales valores atípicos. V Compruebe la regla empírica. V Cree un diagrama de caja. V Si los datos son incrementados en 1, calcule la media y la desviación estándar.
Prof.: Dr. Marco Riquelme A. (UNAB)
Formación Complementaria
2020
47 / 47