Estadistica Descriptiva

Formación Complementaria ADVANCE (Estadística) 2.- Estadística Descriptiva Prof.: Dr. Marco Riquelme A. 2020. UNAB Pro

Views 87 Downloads 0 File size 873KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Formación Complementaria ADVANCE (Estadística) 2.- Estadística Descriptiva Prof.: Dr. Marco Riquelme A.

2020. UNAB

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

1 / 47

Conceptos Básicos

Unidad Experimental: es el ente que proporciona una información. También recibe el nombre de unidad de análisis.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

2 / 47

Conceptos Básicos

Unidad Experimental: es el ente que proporciona una información. También recibe el nombre de unidad de análisis. Población: es el universo o conjunto total de unidades experimentales. Sobre este conjunto se obtendrán las conclusiones finales.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

2 / 47

Conceptos Básicos

Unidad Experimental: es el ente que proporciona una información. También recibe el nombre de unidad de análisis. Población: es el universo o conjunto total de unidades experimentales. Sobre este conjunto se obtendrán las conclusiones finales. Muestra: es cualquier subconjunto de la población.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

2 / 47

Conceptos Básicos

Unidad Experimental: es el ente que proporciona una información. También recibe el nombre de unidad de análisis. Población: es el universo o conjunto total de unidades experimentales. Sobre este conjunto se obtendrán las conclusiones finales. Muestra: es cualquier subconjunto de la población. Parámetro: característica relacionada con la población y que es de interés para el investigador.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

2 / 47

Conceptos Básicos

Unidad Experimental: es el ente que proporciona una información. También recibe el nombre de unidad de análisis. Población: es el universo o conjunto total de unidades experimentales. Sobre este conjunto se obtendrán las conclusiones finales. Muestra: es cualquier subconjunto de la población. Parámetro: característica relacionada con la población y que es de interés para el investigador. Estimadores: aproximaciones de los parámetros basadas en la muestra.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

2 / 47

Tipos de variables Definición (Variable estadística) Es cualquier característica o atributo que es deseable conocer acerca de las unidades experimentales y que se espera varíe de una unidad a otra. El conjunto de todos los posibles valores de ésta se denomina “recorrido de la variable”.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

3 / 47

Tipos de variables Definición (Variable estadística) Es cualquier característica o atributo que es deseable conocer acerca de las unidades experimentales y que se espera varíe de una unidad a otra. El conjunto de todos los posibles valores de ésta se denomina “recorrido de la variable”.

Variable

   Nominal     Cualitativa o categórica (cualidad o atributo)      Ordinal       Discreta (contable)     Cuantitativa o numérica (cantidad)    Continua (no contable)

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

3 / 47

Variables cualitativas

Variable Nominal: Sólo permite la clasificación (etiquetar), y no se puede establecer ningún tipo de orden. Ejemplos: Nacionalidad; sexo...

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

4 / 47

Variables cualitativas

Variable Nominal: Sólo permite la clasificación (etiquetar), y no se puede establecer ningún tipo de orden. Ejemplos: Nacionalidad; sexo...

Variable Ordinal: Existe una clasificación con cierto orden natural (no numérico). Ejemplos: Estrato socio-económico; Nivel educacional; Jerarquía del empleado...

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

4 / 47

Variables cuantitativas

Si la variable cuantitativa toma valores en un conjunto contable (conjunto finito o infinito numerable) entonces se dice que es de tipo “discreta”.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

5 / 47

Variables cuantitativas

Si la variable cuantitativa toma valores en un conjunto contable (conjunto finito o infinito numerable) entonces se dice que es de tipo “discreta”. Ejemplos: Número de artículos defectuosos; número de clientes que llegan a una estación de servicio durante un día.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

5 / 47

Variables cuantitativas

Si la variable cuantitativa toma valores en un conjunto contable (conjunto finito o infinito numerable) entonces se dice que es de tipo “discreta”. Ejemplos: Número de artículos defectuosos; número de clientes que llegan a una estación de servicio durante un día. Si la variable cuantitativa toma valores en un conjunto no contable (conjunto infinito no numerable) entonces se dice que es de tipo “continua”.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

5 / 47

Variables cuantitativas

Si la variable cuantitativa toma valores en un conjunto contable (conjunto finito o infinito numerable) entonces se dice que es de tipo “discreta”. Ejemplos: Número de artículos defectuosos; número de clientes que llegan a una estación de servicio durante un día. Si la variable cuantitativa toma valores en un conjunto no contable (conjunto infinito no numerable) entonces se dice que es de tipo “continua”. Ejemplos: Tiempo ( en horas) en una fila de espera; Temperatura (Co ) de una reacción química.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

5 / 47

Organización de Datos Supongamos que se desea estudiar una variable que esta agrupada en k clases excluyentes, digamos c1 , c2 , . . . , ck .

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

6 / 47

Organización de Datos Supongamos que se desea estudiar una variable que esta agrupada en k clases excluyentes, digamos c1 , c2 , . . . , ck .

Definición (Frecuencia Absoluta) Corresponde al número de unidades de análisis que pertenecen a la clase ci y se denota por ni , (i = 1, . . . , k), donde k X

ni = n.

i=1

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

6 / 47

Organización de Datos Supongamos que se desea estudiar una variable que esta agrupada en k clases excluyentes, digamos c1 , c2 , . . . , ck .

Definición (Frecuencia Absoluta) Corresponde al número de unidades de análisis que pertenecen a la clase ci y se denota por ni , (i = 1, . . . , k), donde k X

ni = n.

i=1

Definición (Frecuencia Relativa) Corresponde a la proporción de unidades de análisis que pertenecen a la clase ci y se denota por fi , (i = 1, . . . , k), donde ni fi = ; n Prof.: Dr. Marco Riquelme A. (UNAB)

k X

fi = 1.

i=1

Formación Complementaria

2020

6 / 47

Organización de Datos Observación En algunos casos, para un mejor entendimiento, las frecuencias relativas suelen transformarseP en frecuencias porcentuales de la siguiente forma: hi = fi · 100, donde ki=1 hi = 100%.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

7 / 47

Organización de Datos Observación En algunos casos, para un mejor entendimiento, las frecuencias relativas suelen transformarseP en frecuencias porcentuales de la siguiente forma: hi = fi · 100, donde ki=1 hi = 100%.

Definición (Frecuencia Acumulada Absoluta) Corresponde al número acumulado de unidades de análisis que pertenecen a las clases c1 , c2 , . . . , ci y se denota por Ni , (i = 1, . . . , k), donde Ni =

i X

nj , i = 1, . . . , k.

j=1

Así N1 = n1 y Nk = n. Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

7 / 47

Organización de Datos

Definición (Frecuencia Relativa Acumulada) Corresponde a la proporción acumulada de unidades de análisis que pertenecen a las clases c1 , c2 , . . . , ci y se denota por Fi , (i = 1, . . . , k), donde i X Ni Fi = fj o Fi = , i = 1, . . . , k. n j=1

Así, Fi = f1 y Fk = 1. En forma análoga, es posible definir frecuencias acumuladas porcentuales por: Hi = Fi · 100, con H1 = h1 y Hk = 100%.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

8 / 47

Presentación de Datos: Tablas de distribución de frecuencias

El esquema de la tabla es el siguiente: Table: Distibución de frecuencias de...

Clases c1 c2 .. .

ni n1 n2 .. .

fi f1 f2 .. .

Ni N1 N2 .. .

Fi F1 F2 .. .

ck

nk

fk

Nk = n

Fk = 1

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

9 / 47

Presentación de Datos: Tablas de distribución de frecuencias Variable Continua: Si la variable bajo estudio es cuantitativa continua (o discreta con un alto rango de variabilidad), entonces el esquema de tabla anterior sufre un leve modificación que está relacionada con la creación de los “intervalos de clases”. En este caso el esquema de la tabla es el siguiente: Intervalos (Clases) [min; min +A[ [min +A; min +2A[ .. .

Marca de clase m1 m2 .. .

ni n1 n2 .. .

fi f1 f2 .. .

Ni N1 N2 .. .

Fi F1 F2 .. .

[min +(k − 1)A; max]

mk

nk

fk

Nk

Fk

Donde la marca de clase i-ésima (mi ) corresponde al promedio del intervalo i-ésimo (i = 1, ..., k).

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

10 / 47

Presentación de Datos: Tablas de distribución de frecuencias Construcción Tablas para Variables Continuas: Se supone que la amplitud de los intervalos es la misma, se puede seguir los siguientes pasos para la construcción de tablas de frecuencias de variables continuas. Paso 1: Contar el número n de datos. Paso 2: Calcular el rango (R), R = max − min, donde min y max corresponden a los valores mínimos y máximos de los datos, respectivamente. Paso 3: Escoger el número de clases (intervalos). Se sugiere ,el entero más próximo de la denominada fórmula de Sturges, dada por k = 1 + 3, 3 log(n), donde log(•) es el logaritmo en base 10. Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

11 / 47

Presentación de Datos: Tablas de distribución de frecuencias

Paso 4: Calcular la amplitud (A) A=

R . k

Paso 5: Para determinar los extremos de la primera clase (intervalo) se debe tomar como límite inferior el valor min y como límite superior el valor min +A. Paso 6: Para obtener las restantes clases, se suma sucesivamente A al límite inferior, donde el límite inferior de las sucesivas clases corresponderá a límite superior de la clase anterior.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

12 / 47

Ejemplo

Considere los siguientes datos 0,36 0,48 0,60 0,61 0,68

0,68 0,71 0,72 0,73 0,79

0,8 0,81 0,81 0,82 0,85

0,87 0,87 0,88 0,92 0,92

0,92 0,94 0,97 0,97 0,97

1,00 1,00 1,13 1,16 1,19

cree una tabla de distribución de frecuencias con la metodología vista anteriormente.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

13 / 47

Solución a mano 1

El valor del tamaño de muestra es n = 30.

2

El rango sería R = 1, 19 − 0, 36 = 0, 83.

3

El número de clases a considerar es k = 1 + 3, 3 log(30) = 5, 87 ≡ 6.

4

La amplitud sería A =

5

La tabla quedaría de la siguiente forma Intervalos [0, 360; 0, 498[ [0, 498; 0, 637[ [0, 637; 0, 775[ [0, 775; 0, 913[ [0, 913; 1, 052[ [1, 052; 1, 190]

Prof.: Dr. Marco Riquelme A. (UNAB)

0,83 6

= 0, 1383.

Marca de clase 0, 429 0, 568 0, 706 0, 844 0, 983 1, 121

ni 2 2 5 9 9 3

Formación Complementaria

fi 0, 067 0, 067 0, 167 0, 3 0, 3 0, 1

Ni 2 4 9 18 27 30

Fi 0, 06 0, 13 0, 3 0, 6 0, 9 1

2020

14 / 47

Solución mediante computador (XLSTAT) Xlstat es una aplicación de la planilla electrónica de Microsoft Excel, este se puede descargar de www.xlstat.com. Cuando se instale y quieran usarlo les preguntará si desean Habilitar las macros, respondan que si.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

15 / 47

Solución mediante computador (XLSTAT)

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

16 / 47

Solución mediante computador (XLSTAT)

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

17 / 47

Presentación de Datos: Gráficos Estadísticos

Las grandes cantidades de datos estadísticos resultan incómodos de interpretar y si éstos no están ordenados de alguna manera.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

18 / 47

Presentación de Datos: Gráficos Estadísticos

Las grandes cantidades de datos estadísticos resultan incómodos de interpretar y si éstos no están ordenados de alguna manera. La principal ventaja de la construcción de gráficos con los datos de una investigación, es que nos permite visualizar más claramente la distribución de éstos, hacer una mejor comparación de resultados y un análisis objetivo de estos últimos.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

18 / 47

Presentación de Datos: Gráficos Estadísticos

Las grandes cantidades de datos estadísticos resultan incómodos de interpretar y si éstos no están ordenados de alguna manera. La principal ventaja de la construcción de gráficos con los datos de una investigación, es que nos permite visualizar más claramente la distribución de éstos, hacer una mejor comparación de resultados y un análisis objetivo de estos últimos. Una buena definición de lo que es un “gráfico” es la siguiente.

Definición (Gráfico) es una representación pictórica, mediante figuras geométricas u otros elementos, que proporciona un resumen de la información que interesa destacar y, lo más importante, recordar.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

18 / 47

Gráficos Estadísticos: Barra Simple Representa distribuciones de frecuencias de variables cualitativas o cuantitativas discretas. Figure: Título...

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

19 / 47

Gráficos Estadísticos: Histograma Se usa para variables continuas. Es un conjunto de rectángulos adyacentes. En el eje horizontal deben ir los intervalos (clases) y en el eje vertical las frecuencias. Figure: Título...

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

20 / 47

Gráficos Estadísticos: Sectorial Muestra una comparación proporcional entre las distintas clases de la variable, en particular se usa para variables cualitativas. Figure: Título...

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

21 / 47

Ojiva: Gráfico de frecuencias relativas acumuladas Se usa para variables continuas. Este se obtiene graficando en el eje vertical la frecuencia relativa acumulada (Fi ) de un intervalo contra el límite inferior del siguiente intervalo sobre el eje horizontal. Luego se unen los puntos consecutivos , generalmente, con una línea recta.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

22 / 47

Medidas Estadísticas de Resumen Estas medidas estadísticas que resumen al conjunto de datos, también se les denomina estadísticos. Se clasifican en medidas de posición y dispersión. Las primeras nos entregan la posición relativa que poseen los individuos dentro de la distribución y se subdividen en dos:

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

23 / 47

Medidas Estadísticas de Resumen Estas medidas estadísticas que resumen al conjunto de datos, también se les denomina estadísticos. Se clasifican en medidas de posición y dispersión. Las primeras nos entregan la posición relativa que poseen los individuos dentro de la distribución y se subdividen en dos: a) Las de centralidad, que tienden a ubicarse en el centro de la distribución, entre las cuales se encuentran:

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

23 / 47

Medidas Estadísticas de Resumen Estas medidas estadísticas que resumen al conjunto de datos, también se les denomina estadísticos. Se clasifican en medidas de posición y dispersión. Las primeras nos entregan la posición relativa que poseen los individuos dentro de la distribución y se subdividen en dos: a) Las de centralidad, que tienden a ubicarse en el centro de la distribución, entre las cuales se encuentran: El promedio o media aritmética. La mediana o valor del centro. La moda, modo o valor más frecuente. La media geométrica. La media armónica. Entre otras.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

23 / 47

Medidas Estadísticas de Resumen Estas medidas estadísticas que resumen al conjunto de datos, también se les denomina estadísticos. Se clasifican en medidas de posición y dispersión. Las primeras nos entregan la posición relativa que poseen los individuos dentro de la distribución y se subdividen en dos: a) Las de centralidad, que tienden a ubicarse en el centro de la distribución, entre las cuales se encuentran: El promedio o media aritmética. La mediana o valor del centro. La moda, modo o valor más frecuente. La media geométrica. La media armónica. Entre otras.

b) Los cuantiles, que tienden a ubicarse en distintas partes de la distribución de la variable, entre las que se encuentran:

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

23 / 47

Medidas Estadísticas de Resumen Estas medidas estadísticas que resumen al conjunto de datos, también se les denomina estadísticos. Se clasifican en medidas de posición y dispersión. Las primeras nos entregan la posición relativa que poseen los individuos dentro de la distribución y se subdividen en dos: a) Las de centralidad, que tienden a ubicarse en el centro de la distribución, entre las cuales se encuentran: El promedio o media aritmética. La mediana o valor del centro. La moda, modo o valor más frecuente. La media geométrica. La media armónica. Entre otras.

b) Los cuantiles, que tienden a ubicarse en distintas partes de la distribución de la variable, entre las que se encuentran: Los cuartiles (dividen al conjunto en cuatro partes iguales). Los percentiles (dividen al conjunto en cien partes iguales). Entre otras. Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

23 / 47

Medidas Estadísticas de Resumen

Las segundas medidas estadísticas de resumen, las de dispersión, nos entregan el grado de dispersión, variabilidad u homogeneidad que poseen los datos dentro del conjunto, generalmente respecto de una medida de tendencia central, entre las que se encuentran: El rango o desviación máxima El rango intercuartil. La varianza. La desviación estándar o típica. El coeficiente de variación. Entre otras.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

24 / 47

Medidas de posición: El promedio (x) El promedio o media aritmética de un conjunto de n datos digamos x1 , x2 , . . . , xn para datos no tabulados, viene dado por: x=

n X xi i=1

n

.

Por otro lado, si los datos se encuentran tabulados, el promedio se obtiene de la siguiente forma: k X x≈ fi · mi . i=1

⇒ El uso de esta medida es exclusivamente para variables cuantitativas. ⇒ Su cálculo puede ser afectado de manera desproporcionada por la existencia de datos atípicos (fuera de lo común). Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

25 / 47

Medidas de posición: Mediana (Me ) Corresponde al valor central cuando las n observaciones se ordenan de menor a mayor. Es decir, considere las siguientes observaciones x1 , x2 , ..., xn , además si ordenamos estas observaciones de menor a mayor tenemos x(1) , x(2) , ..., x(n) , entonces la mediana sería  si n es impar;  x( n+1 ) , 2 x( n2 ) + x( n2 +1) Me =  , si n es par. 2 ⇒ El uso de esta medida es para variables cualitativas que poseen orden jerárquico o cuantitativas. ⇒ Su cálculo no es afectado por la existencia de datos atípicos.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

26 / 47

Medidas de posición: Moda (Mo )

Corresponde al valor o categoría con más alta frecuencia en los datos. ⇒ El uso de esta medida es para cualquier tipo de variable. ⇒ En el caso de variables cuantitativas, los datos pueden ser agrupados en clases y la moda se define como la marca de clase que tiene la mayor frecuencia. ⇒ Si existe un único valor que se repite más hablamos de una distribución unimodal.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

27 / 47

Medidas de posición: Relación Entre Promedio, Mediana y Moda Caso 1: Distribución Simétrica (No Sesgada) x = Me = Mo . Caso 2: Distribución Asimétrica, sesgada a la derecha. Mo < Me < x. Caso 3: Distribución Asimétrica, sesgada a la izquierda. x < Me < Mo . Nota: La mediana (Me ) siempre se hallará entre el promedio x y la moda (Mo ) ya que no es afectada por datos extremos, es decir, es robusta. Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

28 / 47

Medidas de posición: Cuartiles Los cuartiles dividen a un conjunto ordenado de datos en 4 grupos de igual tamaño: ⇒ El cuartil 1 (Q1 ) marca la parte alta del primer cuarto de los datos. ⇒ El cuartil 3 (Q3 ) marca la parte baja del último cuarto de los datos. ⇒ El cuartil 2 (Q2 ) corresponde a la Me . Metodología para el cálculo de Q1 y Q3 Paso 1: Ordene los datos de menor a mayor y encuentre la Me . Paso 2: Divida los datos en 2 mitades, por encima y por debajo de la Me . Si n es impar incluya la mediana en ambas mitades. Paso 3: Encuentre la mediana en ambas mitades, estas son Q1 y Q3 .

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

29 / 47

Medidas de posición: Percentil

Los percentiles dividen a un conjunto ordenado de datos en 100 grupos de igual tamaño.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

30 / 47

Medidas de posición: Percentil

Los percentiles dividen a un conjunto ordenado de datos en 100 grupos de igual tamaño. Pα , el percentil de orden α, corresponde al valor de la variable que es mayor o igual al α% de los datos y es menor o igual que el (100 − α)% de los datos (ordenados de menor a mayor).

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

30 / 47

Medidas de posición: Percentil

Los percentiles dividen a un conjunto ordenado de datos en 100 grupos de igual tamaño. Pα , el percentil de orden α, corresponde al valor de la variable que es mayor o igual al α% de los datos y es menor o igual que el (100 − α)% de los datos (ordenados de menor a mayor). Al Q1 se le denomina también percentil 25, al Q2 percentil 50 y al Q3 percentil 75.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

30 / 47

Medidas de posición: Cálculo del percentil El cálculo exacto del percentil es complicado realizarlo a mano, claro está que los ordenadores pueden hacerlo. Una forma de obtener una aproximación (lineal) del percentil es mediante la fórmula:   nα 100 − Ni−1 A , Pα = LI + ni donde α ∈ [0, 100]. LI = Límite inferior del intervalo donde se encuentra Pα , Ni−1 = Frecuencia absoluta acumulada del intervalo anterior donde se encuentra Pα , ni = Frecuencia absoluta del intervalo donde se encuentra Pα , A = Amplitud del intervalo donde se encuentra Pα , n = Tamaño de la muestra. Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

31 / 47

Medidas de Dispersión: Rango (R) y Rango Intercuartil (RI )

Rango (R): Corresponde a la diferencia entre el mayor y menor de los datos. R = Máx − Mín ⇒ Su cálculo es afectado por la existencia de datos atípicos. Rango Intercuartil (RI ): Esta medida de variabilidad es resistente a valores atípicos y se concentra en el 50% central de los datos. RI = Q3 − Q1

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

32 / 47

Medidas de Dispersión: Varianza Muestral Estimada (s 2 ) La varianza de las observaciones x1 , x2 , ..., xn es n

1 X (xi − x)2 . s = n−1 2

i=1

Por otro lado, si los datos se encuentran tabulados, la varianza se obtiene de la siguiente forma: n

s2 ≈

n X fi (mi − x)2 . n−1 i=1

⇒ ⇒ ⇒ ⇒

Su cálculo es afectado por la existencia de datos atípicos. El uso de esta medida es exclusivamente para variables cuantitativas. Valores grandes de s 2 ⇒ una alta variabilidad. Si los datos corresponden a los de una población ⇒ para calcular la 1 varianza poblacional (σ 2 ) se reemplaza el factor n−1 por n1 . √ ⇒ Se define la desviación estándar muestral (típica) como s = s 2 . Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

33 / 47

Medidas de Dispersión: Coeficiente de variación (CV )

Corresponde a una medida de dispersión relativa a la media. Está dada por CV =

s 100% x

⇒ No depende de la unidad de medida de los datos. ⇒ Útil para comparar variabilidad de grupos que poseen unidades de medidas distintas. ⇒ Mientras más pequeño es el valor del CV más homogéneos son los datos.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

34 / 47

Identificación de Datos Atípicos: Método de la puntuación z Regla empírica Para un conjunto de valores que tienen un histograma en forma de campana, el intervalo: x ∓s → contiene aprox. al 68% de los valores x ∓ 2s → contiene aprox. al 95% de los valores x ∓ 3s → contiene aprox. al 100% de los valores Método de la puntuación z Si consideramos la regla empírica, sabemos que aproximadamente el 100% de los datos está en el intervalo [x − 3s; x + 3s]. Es muy improbable que un dato esté fuera de este intervalo, y en caso que fuese, éste se llamaría un dato atípico. Es decir, un dato es no atípico si xi − x xi − x ≤3 xi ∈ [x − 3s; x + 3s] ⇔ ∈ [−3; 3] ⇔ s s ∴ Si consideramos la transformación zi = atípico si |zi | > 3. Prof.: Dr. Marco Riquelme A. (UNAB)

xi −x s ,

Formación Complementaria

entonces un dato xi es

2020

35 / 47

Identificación de Datos Atípicos: Método de Tukey Método de Tukey: Considere las siguientes barreras (bisagras), X Barrera Interior Inferior: BII = Q1 − 1, 5RI X Barrera Interior Superior: BIS = Q3 + 1, 5RI X Barrera Exterior Inferior: BEI = Q1 − 3RI X Barrera Exterior Superior: BES = Q3 + 3RI Entonces, V Cualquier valor fuera de las barreras interiores es considerado como un posible valor atípico. V Cualquier valor fuera de las barreras exteriores es considerado como un potencial valor atípico. No atípico z }| { · · · · · · [ [BEI · · · · · · [ [BII · · · · · · BIS] ] · · · · · · BES] ] · · · · · · | {z } | {z } | {z } | {z } Potencial Posible Posible Potencial Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

36 / 47

Identificación de Datos Atípicos: Diagrama de Caja Definición (Diagrama de Caja o Cajón con Bigote) El diagrama de caja, entrega información sobre la tendencia central y dispersión de los datos, la asimetría de los datos, identifica valores atípicos y es útil para comparar dos o más distribuciones. Procedimiento para realizar esta gráfica Paso 1: Los bordes de la caja se representan por Q1 y Q3 , se debe trazar una linea vertical que atraviese la caja en la Me . Paso 2: Trazar líneas (bigotes) desde los bordes de la caja hasta los valores adyacentes (el menor y mayor de los datos no atípicos). Paso 3: marque los posibles valores atípicos con o y los potenciales con ∗. Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

37 / 47

Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

38 / 47

Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

39 / 47

Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

40 / 47

Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

41 / 47

Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

42 / 47

Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

43 / 47

Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

44 / 47

Identificación de Datos Atípicos: Diagrama de Caja Detalles de un Diagrama de Caja

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

45 / 47

Propiedades de la Media y la Varianza

Sean x1 , x2 , ..., xn un conjunto de n observaciones donde a cada una se le aplica la siguiente transformación lineal: yi = axi + b

∀i = 1, 2, ...n,

donde a ∈ R (6= 0) y b ∈ R.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

46 / 47

Propiedades de la Media y la Varianza

Sean x1 , x2 , ..., xn un conjunto de n observaciones donde a cada una se le aplica la siguiente transformación lineal: yi = axi + b

∀i = 1, 2, ...n,

donde a ∈ R (6= 0) y b ∈ R. Sean x y Sx2 el promedio y la varianza de las observaciones x1 , x2 , ..., xn . Luego el promedio y la varianza de los datos transformados y1 , y2 , ..., yn , están dados por: y = ax + b

Prof.: Dr. Marco Riquelme A. (UNAB)

y sy2 = a2 sx2

Formación Complementaria

2020

46 / 47

Ejemplo Considere los siguientes datos (ordenados) 0,36 0,48 0,60 0,61 0,68

0,68 0,71 0,72 0,73 0,79

0,80 0,81 0,81 0,82 0,85

0,87 0,87 0,88 0,92 0,92

0,92 0,94 0,97 0,97 0,97

1,00 1,00 1,13 1,16 1,19

V Calcule media, mediana, varianza, desviación estándar, mínimo, máximo, rango, cuartil 1 y cuartil 3. V Identifique posibles y potenciales valores atípicos. V Compruebe la regla empírica. V Cree un diagrama de caja. V Si los datos son incrementados en 1, calcule la media y la desviación estándar.

Prof.: Dr. Marco Riquelme A. (UNAB)

Formación Complementaria

2020

47 / 47