Datos Agrupados

INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADO (INED), ZONA 21 METROPOLITANO DEL SUR ESTADÍSTICA 5TO BACO DATOS AGRUPADO

Views 101 Downloads 0 File size 617KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADO (INED), ZONA 21 METROPOLITANO DEL SUR ESTADÍSTICA 5TO BACO

DATOS AGRUPADOS Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las características de la muestra y por consiguiente las de la población de donde fue tomada. Antes de pasar a definir cuál es la manera de determinar las características de interés (media, mediana, moda, etc.) cuando se han agrupado en clases los datos de la muestra, es necesario que sepamos cómo se agrupan los datos. Una tabla de frecuencias se puede construir a partir de intervalos o clases, para ello se utiliza: el rango, el número de intervalos y el tamaño del intervalo. Rango (R): También se le llama RECORRIDO y es una forma de medir la variación de un conjunto de valores. Se calcula restándole al dato mayor el dato menor. 𝑅 = 𝑋𝑚𝑎𝑦 − 𝑋𝑚𝑒𝑛 Números de Intervalos (I): El número de intervalos es la cantidad de veces que se debe de realizar las iteraciones, es decir la cantidad de filas que se deben de realizar en la tabla. Se calcula de la siguiente manera: 𝐼 = 1 + (log 𝑁)(3.33) Donde N es el total de datos.

Tamaño o Amplitud del intervalo (A): La amplitud del intervalo es el tamaño de cada intervalo y se calcula: 𝐴 = 𝑅⁄𝐼 Ejemplo: Construir una tabla de frecuencias con datos agrupados, con los datos que corresponden a la información de tiempo de parqueo de 40 motos. (Tiempo expresado en minutos) 30

32

32

34

44

45

47

47

50

52

52

55

57

57

60

60

62

62

62

63

63

63

64

64

65

65

65

75

75

76

77

78

79

80

81

82

83

83

84

84

Lo primero que debemos hacer es hallar el rango, luego el número de intervalos que hay que tener en la tabla, 𝑅 = 84 − 30 = 54 𝐼 = 1 + (log 40)(3.33) = 6.334859 ≅ 7 El dato del número de intervalos generalmente se aproxima al número entero próximo, salvo el caso de que el valor sea muy, pero muy, cercano al menor; por ejemplo en este caso que el valor de I fuera 6.01, 6.02 o incluso 6.1 Luego para encontrar el tamaño del intervalo lo que debemos de encontrar la amplitud del intervalo. 𝐴 = 54⁄7 = 7.71428 ≅ 8 Si el resultado del tamaño del intervalo es un número decimal realizamos el mismo procedimiento anterior. Entonces concluimos que el número de intervalos o filas que debe de tener la tabla de frecuencias es de 7 y el tamaño de los intervalos es de 8, construimos la tabla de frecuencias sencillas y acumuladas. Para construir la tabla con los intervalos el primero siempre se comienza con el dato menor del total de datos (30) y le sumamos el tamaño del intervalo es decir (8). Pero debe incluir en esa amplitud al primer número (30), es decir, 30, 31, 32, 33, 34, 35, 36 y 37. Si nos damos cuenta allí hay 8 números que son cabalmente la amplitud o tamaño del intervalo. Para el segundo intervalo comenzamos en el siguiente número al que quedamos en el primer intervalo. Y así sucesivamente hasta que lleguemos al séptimo intervalo, el cual debe incluir el dato mayor del total de los datos (84). Después de haber colocado todos los intervalos procedemos a hallar la frecuencia absoluta (que es la cantidad de veces que se repite un número), como es con intervalos debemos de buscar todos los números que se encuentren entre el rango incluyendo el dato inferior (30) y el dato superior (37) de cada intervalo. Y así sucesivamente con cada intervalo 30

32

32

34

44

45

47

47

50

52

52

55

57

57

60

60

62

62

62

63

63

63

64

64

65

65

65

75

75

76

77

78

79

I Lim - Apa 1 30 – 37

80

fi 4

Fa 4

2

38 – 45

2

6

3

46 – 53

5

11

4 5 6 7

54 – 61 62 – 69 70 – 77 78 – 85

5 11 4 9

16 27 31 40

Σ

40

81

82

83

83

84

84

Al contar cuantos datos hay comprendidos entre 30 y 37, se contabilizaron 4, ese 4 es el valor de la frecuencia absoluta del primer intervalo y también el valor de la primera frecuencia acumulada. En este segundo intervalo, solo hay 2 datos comprendidos entre 38 y 45, sin embargo la frecuencia acumulada es 6, debido a que es la suma de la primera frecuencia acumulada y 2. Hay 5 datos comprendidos entre 46 y 53, siendo este valor la tercera frecuencia absoluta. Y la suma de esta frecuencia con la frecuencia acumulada anterior da 11. Los procesos de conteo y de acumulación anteriores se van repitiendo en cada uno de los intervalos respectivos. La frecuencia acumulada del último intervalo deberá ser siempre igual al total de los datos La sumatoria de todas las frecuencias absolutas es igual al total de los datos.

Cada intervalo tiene un límite aparente inferior y un límite aparente superior, en el caso del primer intervalo el límite aparente inferior es 30 y el límite aparente superior es 37. De igual manera para cada uno de los siguientes intervalos. La construcción de la tabla lleva consigo el ir aperturando nuevas columnas, las cuales nos van a permitir realizar los cálculos posteriores, tanto de, las medidas de tendencia central, de posición, de forma y de dispersión. Para poder generar mayor información en la tabla, además de los límites aparentes (Lim – Apa), frecuencias absolutas (fi) y frecuencias acumuladas (Fa) es necesario construir los límites reales (Lim – Real), frecuencias relativas o porcentuales (fi % y Fa %) y las marcas de clase (xi). Para calcular los límites reales, sumamos el 1er límite aparente superior (37) con el 2do 37+38 límite aparente inferior (38) y dicha suma se divide entre 2, 2 = 37.5 dicho valor será el primer límite real superior. Luego ese valor es el segundo límite real inferior. Nuevamente sumamos el 2do límite aparente superior (45) con el 3er límite aparente 45+46 inferior (46) y dicha suma se divide entre 2, 2 = 45.5 dicho valor será el 2do límite real superior. Luego ese valor es el 3er límite real inferior. Y así sucesivamente hasta que lleguemos al último límite real inferior, que en este caso será 78.5. Para poder calcular el 1er límite real inferior y último límite real superior, le restamos

la amplitud al 1er límite real superior y le sumamos la amplitud al último límite real inferior.

De esa manera nos queda la tabla de la siguiente manera: Lim – Real 29.5 – 37.5 37.5 – 45.5 45.5 – 53.5 53.5 – 61.5 61.5 – 69.5 69.5 – 77.5 77.5 – 85.5

Lim - Apa 30 – 37 38 – 45 46 – 53 54 – 61 62 – 69 70 – 77 78 – 85 Σ

fi 4 2 5 5 11 4 9 40

Fa 4 6 11 16 27 31 40

Para obtener las frecuencias relativas, tanto para, las absolutas como para las acumuladas, cada una de las frecuencias se divide entre el total de los datos y se multiplica por 100. Lim - Apa 30 – 37 38 – 45 46 – 53 54 – 61 62 – 69 70 – 77 78 – 85 Σ

Lim – Real 29.5 – 37.5 37.5 – 45.5 45.5 – 53.5 53.5 – 61.5 61.5 – 69.5 69.5 – 77.5 77.5 – 85.5

fi 4 2 5 5 11 4 9 40

fi % 10 % 5% 12.5 % 12.5% 27.5 % 10 % 22.5 % 100 %

Fa 4 6 11 16 27 31 40

Fa % 10 % 15 % 27.5 % 40 % 67.5 % 77.5 % 100 %

Por último es necesario que se construyan las marcas de clase (xi) que son los puntos medios, ya sea de, los límites aparentes o bien de los límites reales. Lim - Apa 30 – 37 38 – 45 46 – 53 54 – 61 62 – 69 70 – 77 78 – 85 Σ

Lim – Real 29.5 – 37.5 37.5 – 45.5 45.5 – 53.5 53.5 – 61.5 61.5 – 69.5 69.5 – 77.5 77.5 – 85.5

fi 4 2 5 5 11 4 9 40

xi 33.5 41.5 49.5 57.5 65.5 73.5 81.5

fi % 10 % 5% 12.5 % 12.5% 27.5 % 10 % 22.5 % 100 %

Fa 4 6 11 16 27 31 40

Fa % 10 % 15 % 27.5 % 40 % 67.5 % 77.5 % 100 %

Con esta información se pueden hacer ya dos cosas: la primera construir las gráficas (las cuales se explicará cómo se realizan en el siguiente curso) y segunda calcular las medidas de tendencia central, de posición, de forma y de dispersión.

MEDIDAS DE TENDENCIA CENTRAL: MEDIA ARITMÉTICA, MODA Y MEDIANA. En la parte de series simples están definidas las medidas de tendencia central, de modo que en esta parte iniciaremos de una vez con los respectivos cálculos de las medidas de tendencia central. ̅= 𝒙

MEDIA ARITMÉTICA

∑𝒏 𝒊=𝟏 𝒇𝒊 𝒙𝒊 ∑𝒏 𝒊=𝟏 𝒇𝒊

donde:

∑ 𝒇𝒊 𝒙𝒊 Es la sumatoria de los productos de las frecuencias absolutas por las marcas de clases. ∑ 𝒇𝒊 Es la sumatoria de las frecuencias absolutas. 𝑴𝒐 = 𝑳𝑹 𝒊−𝟏 + (∆

MODA

∆𝟏 𝟏 +∆𝟐

𝑳𝑹𝒊−𝟏 Es el límite real inferior del intervalo donde se localiza la Moda. ∆𝟏 Es la diferencia entre la mayor frecuencia y la frecuencia anterior. ∆𝟐 Es la diferencia entre la mayor frecuencia y la frecuencia posterior. A Es la amplitud del intervalo de donde se encuentra localizada la Moda. 𝑵

𝑴𝒆 = 𝑳𝑹 𝒊−𝟏 + ( 𝟐

MEDIANA

) 𝑨 donde:

− 𝑭𝒂𝒊−𝟏

𝒇𝒎𝒆

) 𝑨 donde:

𝑳𝑹𝒊−𝟏 Es el límite real inferior del intervalo donde se localiza la Mediana. 𝑵 Es la mitad del total de los datos. 𝟐 𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior al intervalo donde se encuentra localizada la Mediana. 𝑓𝑚𝑒 Es la frecuencia del intervalo donde se encuentra localizada la Mediana. A Es la amplitud del intervalo donde se

encuentra localizada la Mediana.

Veamos el siguiente ejemplo: L 10 15 20 25 30 35 40

-

A 14 19 24 29 34 39 44

L 9.5 14.5 19.5 24.5 29.5 34.5 39.5

-

R 14.5 19.5 24.5 29.5 34.5 39.5 44.5

fi 2 30 26 20 10 4 2 94

xi 12 17 22 27 32 37 42

Fa 2 32 58 78 88 92 94

fixi 24 510 572 540 320 148 84 2198

Para calcular la media aritmética sabemos que debemos multiplicar cada frecuencia absoluta con su respectiva marca de clase y luego sumar todos los productos. Por lo que en este caso es:

L 10 15 20 25 30 35 40

-

A 14 19 24 29 34 39 44

L 9.5 14.5 19.5 24.5 29.5 34.5 39.5

-

R 14.5 19.5 24.5 29.5 34.5 39.5 44.5

fi 2 30 26 20 10 4 2 94

xi 12 17 22 27 32 37 42

Fa 2 32 58 78 88 92 94

fixi 24 510 572 540 320 148 84 2198

Para calcular la moda, se procede primeramente a identificar donde está la mayor frecuencia, en este caso la mayor frecuencia es de 30 y hemos rotulado con amarillo dicho intervalo.

𝑥̅ =

∑ 𝑓𝑖 𝑥𝑖 2198 = = 23.38297 ≅ 23.38 ∑ 𝑓𝑖 94

Por lo que ∆1 = 30 − 2 = 28 y ∆2 = 30 − 26 = 4 Entonces: 𝑀𝑜 = 𝐿𝑅 𝑖−1 + (

∆1 )𝐴 ∆1 + ∆2

28 ) (5) 𝑀𝑜 = 14.5 + ( 28 + 4 𝑀𝑜 = 18.875 ≅ 18.88

L 10 15 20 25 30 35 40

-

A 14 19 24 29 34 39 44

L 9.5 14.5 19.5 24.5 29.5 34.5 39.5

-

R 14.5 19.5 24.5 29.5 34.5 39.5 44.5

fi 2 30 26 20 10 4 2 94

xi 12 17 22 27 32 37 42

Fa 2 32 58 78 88 92 94

fixi 24 510 572 540 320 148 84 2198

Ahora para calcular la mediana se calcula N/2 = 94/2 = 47, con este valor de 47 se busca la frecuencia acumulada que contenga al 47, en este caso 58 es la frecuencia acumulada que la contiene, por lo cual, ese es el intervalo donde se encuentra localizada la mediana, en este caso, el intervalo está rotulado de color mostaza. Entonces: 𝑵

𝑴𝒆 = 𝑳𝑹 𝒊−𝟏 + ( 𝟐 𝑴𝒆 = 𝟏𝟗. 𝟓 + (

− 𝑭𝒂𝒊−𝟏

𝒇𝒎𝒆

)𝑨

𝟒𝟕 − 𝟑𝟐 )𝟓 𝟐𝟔

𝑴𝒆 = 𝟐𝟐. 𝟑𝟖𝟒𝟔𝟏𝟓 ≅ 𝟐𝟐. 𝟑𝟖

MEDIDAS DE DISPERSIÓN. 𝐷𝑀 =

DESVIACIÓN MEDIA

∑ 𝑓𝑖 |𝑥𝑖 −𝑥̅ | ∑ 𝑓𝑖

donde:

|𝑥𝑖 − 𝑥̅ | es el valor absoluto de la diferencia entre cada marca de clase y la media aritmética, esta diferencia se llama desviación. El valor absoluto es una función que siempre devuelve valores positivos. ∑ 𝑓𝑖 |𝑥𝑖 − 𝑥̅ | es la sumatoria de los productos de las frecuencias por las desviaciones. ∑ 𝑓𝑖 es la sumatoria de las frecuencias, es decir, el total de los datos. 𝑉𝑎𝑟 =

∑ 𝑓𝑖 (𝑥𝑖 −𝑥̅ )2 ∑ 𝑓𝑖

donde:

(𝑥𝑖 − 𝑥̅ )2 es el cuadrado de las desviaciones.

VARIANZA

∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 es la sumatoria de los productos de las frecuencias por los cuadrados de las desviaciones. ∑ 𝑓𝑖 es la sumatoria de las frecuencias, es decir, el total de los datos.

∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 𝑠=𝜎=√ = √𝑉𝑎𝑟 ∑ 𝑓𝑖

DESVIACIÓN ESTÁNDAR O TÍPICA La desviación estándar o desviación típica es la raíz cuadrada de la varianza.

𝐶. 𝑉. =

COEFICIENTE DE VARIACIÓN

𝑠 × 100 𝑥̅

EJEMPLO: Calcule las medidas de tendencia central y de dispersión para el siguiente juego de datos. L 10.5 20.5 30.5 40.5 50.5 60.5 70.5

-

R 20.5 30.5 40.5 50.5 60.5 70.5 80.5

fi 10 20 50 70 90 20 10 270

xi 15.5 25.5 35.5 45.5 55.5 65.5 75.5

Fa 10 30 80 150 240 260 270

fixi 155 510 1775 3185 4995 1310 755 12685

Para calcular la media aritmética sabemos que debemos multiplicar cada frecuencia absoluta con su respectiva marca de clase y luego sumar todos los productos. Por lo que en este caso es:

L 10.5 20.5 30.5 40.5 50.5 60.5 70.5

-

R 20.5 30.5 40.5 50.5 60.5 70.5 80.5

fi 10 20 50 70 90 20 10 270

xi 15.5 25.5 35.5 45.5 55.5 65.5 75.5

Fa 10 30 80 150 240 260 270

fixi 155 510 1775 3185 4995 1310 755 12685

Para calcular la moda, se procede primeramente a identificar donde está la mayor frecuencia, en este caso la mayor frecuencia es de 90 y hemos rotulado con amarillo dicho intervalo.

𝑥̅ =

∑ 𝑓𝑖 𝑥𝑖 12685 = = 46.9814 ≅ 46.98 ∑ 𝑓𝑖 270

Por lo que ∆1 = 90 − 70 = 20 y ∆2 = 90 − 20 = 70 Entonces: 𝑀𝑜 = 𝐿𝑅 𝑖−1 + (

∆1 )𝐴 ∆1 + ∆2

20 ) (10) 𝑀𝑜 = 50.5 + ( 20 + 70 𝑀𝑜 = 52.7222 ≅ 52.72

L 10.5 20.5 30.5 40.5 50.5 60.5 70.5

-

R 20.5 30.5 40.5 50.5 60.5 70.5 80.5

fi 10 20 50 70 90 20 10 270

xi 15.5 25.5 35.5 45.5 55.5 65.5 75.5

Fa 10 30 80 150 240 260 270

fixi 155 510 1775 3185 4995 1310 755 12685

Ahora para calcular la mediana se calcula N/2 = 270/2 = 135, con este valor de 135 se busca la frecuencia acumulada que contenga al 135, en este caso 150 es la frecuencia acumulada que la contiene, por lo cual, ese es el intervalo donde se encuentra localizada la mediana, en este caso, el intervalo está rotulado de color celeste. Entonces: 𝑵

𝑴𝒆 = 𝑳𝑹 𝒊−𝟏 + ( 𝟐 𝑴𝒆 = 𝟒𝟎. 𝟓 + (

− 𝑭𝒂𝒊−𝟏

𝒇𝒎𝒆

)𝑨

𝟏𝟑𝟓 − 𝟖𝟎 ) 𝟏𝟎 𝟕𝟎

𝑴𝒆 = 𝟒𝟖. 𝟑𝟓𝟕𝟏𝟒 ≅ 𝟒𝟖. 𝟑𝟔

L

-

R

10.5 - 20.5 20.5 - 30.5 30.5 - 40.5

fi xi Fa 10 15.5 10 20 25.5 30 50 35.5 80

fixi

| xi - x |

fi | xi - x |

155 31.48148148 314.8148148 510 21.48148148 429.6296296 1775 11.48148148 574.0740741 3185 1.481481481 103.7037037

60.5 - 70.5

70 45.5 150 90 55.5 240 20 65.5 260

70.5 - 80.5

10 75.5 270

755 28.51851852 285.1851852

40.5 - 50.5 50.5 - 60.5

270

4995 8.518518519 766.6666667 1310 18.51851852 370.3703704 12685

2844.444444

Para poder calcular la desviación media es necesario que calculemos dos columnas más, la primera donde calculamos los valores absolutos de las desviaciones y la segunda donde multiplicamos cada frecuencia por su correspondiente valor absoluto de su desviación. Entonces: 𝐷𝑀 =

𝐷𝑀 =

∑ 𝑓𝑖 |𝑥𝑖 − 𝑥̅ | ∑ 𝑓𝑖

2844.444444 270

𝐷𝑀 = 10.53497 ≅ 10.53

L

-

R

10.5 - 20.5 20.5 - 30.5 30.5 - 40.5

fi xi Fa 10 15.5 10 20 25.5 30 50 35.5 80

60.5 - 70.5

70 45.5 150 90 55.5 240 20 65.5 260

70.5 - 80.5

10 75.5 270

40.5 - 50.5 50.5 - 60.5

270

fixi

| xi - x |

(xi - x)2

fi | xi - x |

fi(xi-x)2

155 31.48148148 314.8148148 991.0836763 9910.836763 510 21.48148148 429.6296296 461.4540466 9229.080933 1775 11.48148148 574.0740741

131.824417

6591.22085

3185 1.481481481 103.7037037

2.19478738 153.6351166

4995 8.518518519 766.6666667 72.56515775 6530.864198 1310 18.51851852 370.3703704 342.9355281 6858.710562 755 28.51851852 285.1851852 813.3058985 8133.058985 12685

2844.444444

47407.40741

Para poder calcular la varianza es necesario que calculemos dos columnas más, la primera donde calculamos los cuadrados de las desviaciones y la segunda donde multiplicamos cada frecuencia por su correspondiente cuadrado de su desviación. Entonces: 𝑉𝑎𝑟 =

∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 ∑ 𝑓𝑖

𝑉𝑎𝑟 =

47407.40741 270

𝑉𝑎𝑟 = 175.582990 ≅ 175.58

Para poder calcular la desviación estándar o típica, es únicamente necesario sacarle la raíz cuadrada a la varianza. ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 𝑠=𝜎=√ = √𝑉𝑎𝑟 ∑ 𝑓𝑖

𝑠 = √175.582990 = 13.25077 ≅ 13.25 Obsérvese que nuevamente se cumple que

𝐷𝑀 < 𝑠

Para poder calcular el coeficiente de variación necesitamos saber la desviación estándar y la media aritmética 𝑠 𝐶. 𝑉. = × 100 𝑥̅ 𝐶. 𝑉. =

13.25 × 100 46.98

𝐶. 𝑉. = 28.20%

Esto significa que los datos se encuentran a un 28.20% dispersos o dicho de otra manera se encuentran 71.80% concentrados alrededor de la media aritmética. Lo cual nos permite establecer que las medidas de tendencia central tienen un alto grado (71.80%) de representatividad del juego de datos.

Ejemplo: Calcule las medidas de tendencia central y de dispersión para el siguiente juego de datos. xi

Fa

fixi

| xi - x |

fi | xi - x |

(xi - x)2

fi(xi-x)2

15.5

5

77.5

30

150

900

4500

20.5 - 30.5 25 25.5 30 637.5 30.5 - 40.5 35 35.5 65 1243 40.5 - 50.5 70 45.5 135 3185 50.5 - 60.5 35 55.5 170 1943

20

500

400

10000

10

350

100

3500

0

0

0

0

10

350

100

3500

60.5 - 70.5 25 65.5 195 1638 70.5 - 80.5 5 75.5 200 377.5

20

500

400

10000

30

150

900

4500

L

-

R

10.5 - 20.5

fi 5

200

Media. Moda Mediana DM Var s C.V.

9100

45.50 45.50 45.50 10.00 180.00 13.42 29.49%

2000

36000

HOJA DE TRABAJO # 1 MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS SERIE I: Instrucciones: Para cada uno de los siguientes juegos de datos calcule: Las medidas de tendencia central y las medidas de dispersión 1)

3)

Lim-Apa 10 – 20

fi 10 Media.

49.66

2)

Lim-Apa 20 - 24

fi 10

21 – 31

25 Moda

55.82

25 – 29

100

32 – 42

45 Mediana

51.37

30 – 34

90

43 – 53

75 DM

11.53

35 – 39

40

54 – 64

95 Var

212.37

40 – 44

20

65 – 75

20 s

14.57

45 – 49

8

76 - 86

10 C.V.

29.35%

50 - 54

2

fi 8

Lim-Apa 10 – 15

fi 10 Media.

4) 30.50

Lim-Apa 10 – 14

16 – 21

20 Moda

30.50

15 – 19

14

22 – 27

30 Mediana

30.50

20 – 24

20

28 – 33

40 DM

7.50

25 – 29

8

34 – 39

30 Var

90.00

30 – 34

9

40 – 45

20 s

9.49

35 – 39

10

46 - 51

10 C.V.

31.10%

40 – 44

2

5)

Lim-Apa 15 – 20

fi 8

6) Media.

39.98

Lim-Apa 10 – 15

fi 10

21 – 26

16 Moda

45.13

16 – 21

20

27 – 32

24 Mediana

41.91

22 – 27

50

33 – 38

35 DM

6.63

28 – 33

20

39 – 44

80 Var

69.00

34 – 39

10

45 – 50

90 s

8.31

40 – 45

50

51 – 56

4

20.78%

46 - 51

10

C.V.

SERIE II: Instrucciones: Para el siguiente juego de datos: construya la tabla y calcule las medidas de tendencia central y medidas de dispersión. 7)

10 29 12 31 14 33 16 35 18 37

27 46 39 48 41 50 43 52 45 20

44 14 33 15 12 16 10 17 15 54

25 14 44 15 14 13 10 17 47 22

42 13 55 15 20 14 20 16 18 56

23 25 60 16 22 15 12 13 49 24

40 12 12 20 24 35 15 20 19 58

21 24 13 21 26 45 18 22 51 26

38 59 23 57 22 55 21 53 20 60

19 36 17 34 15 32 13 30 11 28

MEDIDAS DE POSICIÓN O DE DISTRIBUCIÓN. Partiendo del concepto de la mediana, la cual divide una serie de datos en dos partes iguales, es decir, 50% a la izquierda de la mediana y el otro 50% a la derecha de la mediana, se pueden establecer un conjunto de medidas que fraccionan a la serie de datos en cuantas partes se requiera en un momento determinado, según las necesidades de análisis estadístico. Por ejemplo, se puede fraccionar cualquier serie de datos en cuatro, cinco, seis, diez, etc., hasta en cien partes iguales; debido a que el concepto de fraccionamiento se deriva del concepto de la mediana, los cálculos correspondientes son similares al cálculo de la mediana. En una distribución de frecuencias, cierta cantidad de los datos cae en un fractil o por debajo de éste. Los fractilos tienen nombres especiales, dependiendo del número de partes iguales en que se dividen los datos. En resumen, una medida de posición, es un número que representa un punto específico dentro de una serie de valores, por debajo del cual se localiza un determinado porcentaje de los casos. Los fractilos más comunes son: Cuartiles (Q): Los cuartiles dividen los datos en cuatro partes iguales. Donde cada una de las partes representa el 25% 𝑄𝑘 Es el cuartil buscado, donde 𝑘 = 1,2,3 𝑳𝑹𝒊−𝟏 Es el límite real inferior del intervalo donde se localiza el cuartil buscado. 𝒌𝑵

Es el valor del cuartil que se desea encontrar. 𝟒

𝑘𝑁

𝑄𝑘 = 𝐿𝑅 𝑖−1 + ( 4

− 𝐹𝑎𝑖−1

𝑓𝑄

)𝐴

𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior al intervalo donde se encuentra localizado el cuartil buscado. 𝑓𝑄 Es la frecuencia del intervalo donde se encuentra localizado el cuartil. A Es la amplitud del intervalo donde se encuentra localizado el cuartil.

Deciles (D): Los deciles dividen a todos los datos en diez partes iguales. Donde cada una de las partes representa el 10%. 𝐷𝑘 Es el decil buscado, donde 𝑘 = 1,2,3,….,9 𝑳𝑹𝒊−𝟏 Es el límite real inferior del intervalo donde se localiza el decil buscado. 𝒌𝑵 𝟏𝟎

𝐷𝑘 = 𝐿𝑅 𝑖−1 + (

𝑘𝑁 − 𝐹𝑎𝑖−1 10

𝑓𝐷

)𝐴

Es el valor del decil que se desea encontrar.

𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior al intervalo donde se encuentra localizado el decil buscado. 𝑓𝐷 Es la frecuencia del intervalo donde se encuentra localizado el cuartil. A Es la amplitud del intervalo donde se encuentra localizado el decil.

Percentiles (P): Los percentiles dividen el conjunto de datos en 100 partes iguales. Donde cada una de las partes representa el 1%. 𝑃𝑘 Es el cuartil buscado, donde 𝑘 = 1,2,3,..,99 𝑳𝑹𝒊−𝟏 Es el límite real inferior del intervalo donde se localiza el percentil buscado. 𝒌𝑵 𝟏𝟎𝟎

Es el valor del percentil que se desea encontrar. 𝑘𝑁

𝑃𝑘 = 𝐿𝑅 𝑖−1 + (100

− 𝐹𝑎𝑖−1

𝑓𝑃

)𝐴

𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior al intervalo donde se encuentra localizado el percentil buscado. 𝑓𝑃 Es la frecuencia del intervalo donde se encuentra localizado el percentil. A Es la amplitud del intervalo donde se encuentra localizado el percentil.

La mediana es el segundo cuartil, 5º decil y 50º percentil, así: Me = Q 2 = D5 = P50, así también, el decil uno y el percentil 10 son iguales: D1 = P10. Y otros fractilos que coinciden según el porcentaje que representan. EJEMPLO: Calcule las medidas de tendencia central y de dispersión para el siguiente juego de datos; además los siguientes fractilos: Q1, D6, Q3, D9 y P33. En este caso recuerde que hay que calcular todas las columnas que hasta el momento se deben de tener para la información que se necesita. xi

Fa

fixi

| xi - x |

fi | xi - x |

(xi - x)2

fi(xi-x)2

17.5

6

105

22.85

137.088

522.031

3132.19

352.5

16.85

252.72

283.855

4257.83

649

10.85

238.656

117.679

2588.94

1172

4.848

159.984

23.5031

775.602

38.5 - 44.5 80 41.5 156 3320 44.5 - 50.5 90 47.5 246 4275 50.5 - 56.5 4 53.5 250 214

1.152

92.16

1.3271

106.168

7.152

643.68

51.1511

4603.6

13.15

52.608

172.975

691.9

L

-

R

14.5 - 20.5

fi 6

20.5 - 26.5 15 23.5 21 26.5 - 32.5 22 29.5 43 32.5 - 38.5 33 35.5 76

250

10087

1576.9

16156.2

Las medidas de tendencia central y de dispersión son (queda al estudiante la respectiva comprobación de los resultados): Media. Moda Mediana DM Var s C.V.

40.35 45.13 42.18 6.31 64.62 8.04 19.92%

Los fractilos buscados son: L

-

R

14.5 - 20.5

fi 6

xi

Fa

17.5 6 15 20.5 - 26.5 23.5 21 22 26.5 - 32.5 29.5 43 33 32.5 - 38.5 35.5 76

Q1

38.5 - 44.5 80 41.5 156 44.5 - 50.5 90 47.5 246 50.5 - 56.5 4 53.5 250 250

El rango del Q1, es el que se encuentra de color amarillo, pues al calcular kN/4 = (1)(250)/4 = 62.5, en este caso la frecuencia acumulada que lo contiene es 76. 𝑘𝑁

𝑄𝑘 = 𝐿𝑅 𝑖−1 + ( 4

𝑄1 = 32.5 + (

− 𝐹𝑎𝑖−1

𝑓𝑄

)𝐴

62.5 − 43 )6 33

𝑄1 = 36.04545 ≅ 36.05

Esto significa que por debajo de 36.05 se encuentra el 25% de los datos y por encima de ese valor se encuentra el 75%

L

-

R

14.5 - 20.5

fi 6

xi

Fa

17.5 6 15 20.5 - 26.5 23.5 21 22 26.5 - 32.5 29.5 43 33 32.5 - 38.5 35.5 76

Q3

38.5 - 44.5 80 41.5 156 44.5 - 50.5 90 47.5 246 50.5 - 56.5 4 53.5 250 250

El rango del Q3, es el que se encuentra de color mostaza, pues al calcular kN/4 = (3)(250)/4 = 187.5, en este caso la frecuencia acumulada que lo contiene es 246. 𝑄𝑘 = 𝐿𝑅 𝑖−1 + (

𝑄3 = 44.5 + (

𝑘𝑁 − 𝐹𝑎𝑖−1 4

𝑓𝑄

)𝐴

187.5 − 156 )6 90

𝑄3 = 46.60

Esto significa que por debajo de 46.60 se encuentra el 75% de los datos y por encima de ese valor se encuentra el 25%

L

-

R

14.5 - 20.5

fi 6

xi

Fa

17.5 6 15 20.5 - 26.5 23.5 21 26.5 - 32.5 22 29.5 43 32.5 - 38.5 33 35.5 76

D6

38.5 - 44.5 80 41.5 156 44.5 - 50.5 90 47.5 246 50.5 - 56.5 4 53.5 250 250

El rango del D6, es el que se encuentra de color verde, pues al calcular kN/10 = (6)(250)/10 = 150, en este caso la frecuencia acumulada que lo contiene es 156. 𝑘𝑁

𝐷𝑘 = 𝐿𝑅 𝑖−1 + ( 10 𝐷6 = 38.5 + (

− 𝐹𝑎𝑖−1

𝑓𝐷

)𝐴

150 − 76 )6 80

𝐷6 = 44.05

Esto significa que por debajo de 44.05 se encuentra el 60% de los datos y por encima de ese valor se encuentra el 40%

L

-

R

14.5 - 20.5

fi 6

xi

Fa

17.5

6

20.5 - 26.5 15 23.5 21 26.5 - 32.5 22 29.5 43 32.5 - 38.5 33 35.5 76 38.5 - 44.5 80 41.5 156 44.5 - 50.5 90 47.5 246 50.5 - 56.5 4 53.5 250 250

D9

El rango del D9, es el que se encuentra de color mostaza, pues al calcular kN/10 = (9)(250)/10 = 225, en este caso la frecuencia acumulada que lo contiene es 246. 𝑘𝑁

𝐷𝑘 = 𝐿𝑅 𝑖−1 + ( 10 𝐷9 = 44.5 + (

− 𝐹𝑎𝑖−1

𝑓𝐷

)𝐴

225 − 156 )6 90

𝐷9 = 49.10

Esto significa que por debajo de 49.10 se encuentra el 90% de los datos y por encima de ese valor se encuentra el 10%. En este caso en particular, es necesario hacer notar que tanto el intervalo del Q3 y D9 coinciden, por lo tanto los cálculos se hacen sobre el mismo intervalo, sin embargo pese a coincidir los intervalos los resultados de los fractilos no son los mismos. (𝑄3 ≠ 𝐷9 )

L

-

R

14.5 - 20.5

fi 6

xi

Fa

17.5 6 15 20.5 - 26.5 23.5 21 26.5 - 32.5 22 29.5 43 32.5 - 38.5 33 35.5 76 38.5 - 44.5 80 41.5 156 44.5 - 50.5 90 47.5 246 50.5 - 56.5 4 53.5 250 250

P33

El rango del P33, es el que se encuentra de color verde, pues al calcular kN/100 = (33)(250)/100 = 82.5, en este caso la frecuencia acumulada que lo contiene es 156. 𝑘𝑁

𝑃𝑘 = 𝐿𝑅 𝑖−1 + (100 𝑃33 = 38.5 + (

− 𝐹𝑎𝑖−1

𝑓𝑃

)𝐴

82.5 − 76 )6 80

𝑃33 = 38.9875 ≅ 38.99

Esto significa que por debajo de 38.99 se encuentra el 33% de los datos y por encima de ese valor se encuentra el 67%. En este caso en particular, es necesario hacer notar que tanto el intervalo del D6 y P33 coinciden, por lo tanto los cálculos se hacen sobre el mismo intervalo, sin embargo pese a coincidir los intervalos los resultados de los fractilos no son los mismos. (𝐷6 ≠ 𝑃33 )

HOJA DE TRABAJO 2 MEDIDAS DE POSICIÓN Instrucciones: Para cada uno de los siguientes juegos de datos calcule las medidas de posición que se le solicitan en cada inciso 1)

Lim-Apa 10 – 20 21 – 31 32 – 42 43 – 53 54 – 64 65 – 75 76 - 86

fi 10 Q1,Q3 25 D1,D4,D7 45 P10,P25 75 P33,P45 95 P67,P82 20 10

2)

Lim-Apa 20 - 24 25 – 29 30 – 34 35 – 39 40 – 44 45 – 49 50 - 54

fi 10 Q2,Q3 100 D2,D7,D9 90 P15,P25 40 P38,P55 20 P72,P98 8 2

3)

Lim-Apa 10 – 15 16 – 21 22 – 27 28 – 33 34 – 39 40 – 45 46 - 51

fi 10 Q1,Q2 20 D2,D4,D8 30 P19,P28 40 P47,P65 30 P88,P99 20 10

4)

Lim-Apa 10 – 14 15 – 19 20 – 24 25 – 29 30 – 34 35 – 39 40 – 44

fi 8 Q1,Q3 14 D1,D3,D5 20 P15,P25 8 P62,P76 9 P80,P82 10 2

5)

Lim-Apa 15 – 20 21 – 26 27 – 32 33 – 38 39 – 44 45 – 50 51 – 56

fi 8 Q1,Q2 16 D5,D6,D9 24 P8,P38 35 P63,P78 80 P80,P90 90 4

6)

Lim-Apa 10 – 15 16 – 21 22 – 27 28 – 33 34 – 39 40 – 45 46 - 51

fi 10 Q1,Q3 20 D1,D4,D7 50 P11,P22 20 P35,P45 10 P70,P93 50 10

MEDIDAS DE SESGO Y CURTOSIS SESGO: Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media aritmética). La asimetría presenta tres estados diferentes, cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la media. Sk < 0 La curva es asimétricamente negativa por lo que los valores se tienden a reunir más en la parte derecha de la media. Estas medidas guardan la siguiente relación 𝑥̅ < 𝑀𝑒 < 𝑀𝑜 Sk = 0 Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.05). Estas medidas guardan la siguiente relación 𝑥̅ = 𝑀𝑒 = 𝑀𝑜

Sk > 0 La curva es asimétricamente positiva por lo que los valores se tienden a reunir más en la parte izquierda de la media. Estas medidas guardan la siguiente relación 𝑀𝑜 < 𝑀𝑒 < 𝑥̅ La simetría de un juego de datos se puede calcular con cualquiera de las siguientes fórmulas, en cada caso el análisis del resultado será el mismo, aunque los valores que cada uno presentan son diferentes.

FÓRMULAS

𝑆𝑘1 =

𝑆𝑘2 =

𝑥̅ − 𝑀𝑜 𝜎

3(𝑥̅ − 𝑀𝑒) 𝜎

COEFICIENTE DE PEARSON(1) En este caso hay que tener cuidado pues en algunos casos la Moda puede que no esté bien definida, es decir, que el juego de datos tenga más de una moda. O sea, que el juego de datos sea bimodal, trimodal, etc. Razón la cual sería necesario utilizar cualquiera de los otros coeficientes de simetría. COEFICIENTE DE PEARSON(2) Este coeficiente es más seguro al calcular, pues la mediana es una medida de tendencia central que está definida para cualquier juego de datos.

COEFICIENTE DE BOWLEY (CUARTILICO) Este coeficiente depende únicamente de las medidas de 𝑄3 − 2𝑄2 + 𝑄1 𝑆𝑘𝑞 = posición y que no tiene necesidad de calcular la desviación 𝑄3 − 𝑄1 estándar o típica. Lo cual lo hace muy seguro. COEFICIENTE DE BOWLEY (PERCENTILICO) Este coeficiente depende únicamente de las medidas de 𝑃90 − 2𝑃50 + 𝑃10 𝑆𝑘p = posición y que no tiene necesidad de calcular la desviación 𝑃90 − 𝑃10 estándar o típica. Lo cual lo hace muy seguro.

CURTOSIS: Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica). K = 0.263 la distribución es Mesocúrtica: Al igual que en la asimetría es bastante difícil encontrar un coeficiente de Curtosis por lo que se suelen aceptar los valores cercanos.

K > 0.263 la distribución es Leptocúrtica

K < 0.263 la distribución es Platicúrtica

FÓRMULAS K=

0.5(𝑄3 − 𝑄1 ) 𝑃90 − 𝑃10

COEFICIENTE DE CURTOSIS Este coeficiente depende únicamente de las medidas de posición y hay necesidad de calcular otro tipo de medidas. Lo cual lo hace muy seguro.

EJEMPLO 1: Calcule las medidas de sesgo y curtosis para el siguiente juego de datos. L 10.5 20.5 30.5 40.5 50.5 60.5 70.5

-

R 20.5 30.5 40.5 50.5 60.5 70.5 80.5

fi 10 20 50 70 90 20 10 270

xi 15.5 25.5 35.5 45.5 55.5 65.5 75.5

Las medidas de tendencia central, dispersión y posición, para calcular el sesgo y curtosis son las siguientes:

Fa 10 30 80 150 240 260 270

Media s Moda Mediana Q1 Q3 P10 P90

COEFICIENTE DE PEARSON(1) 𝑥̅ − 𝑀𝑜 𝑆𝑘1 = 𝜎 𝑆𝑘1 =

46.98 − 52.72 13.25

=

−5.74 13.25

𝑆𝑘1 = − 0.4332 ≅ −0.43 Esto indica que la gráfica es asimétrica negativa, puesto que Sk < 0.

COEFICIENTE DE PEARSON(2) 3(𝑥̅ − 𝑀𝑒) 𝑆𝑘2 = 𝜎 𝑆𝑘2 = 𝑆𝑘2 =

3(46.98 − 48.36) 13.25 3(−1.38) 13.25

=

−4.14 13.25

𝑆𝑘2 = − 0.3125 ≅ −0.31 Esto indica que la gráfica es asimétrica negativa, puesto que Sk < 0.

46.98 13.25 52.72 48.36 38.00 56.33 29.00 62.00

COEFICIENTE DE BOWLEY (CUARTILICO) 𝑄3 − 2𝑄2 + 𝑄1 𝑆𝑘𝑞 = 𝑄3 − 𝑄1 𝑆𝑘𝑞 =

56.33 − 2(48.36) + 38.00 56.33 − 38.00

𝑆𝑘𝑞 =

−2.39 ≅ −0.13 18.33

Esto indica que la gráfica es asimétrica negativa, puesto que Sk < 0.

COEFICIENTE DE BOWLEY (PERCENTILICO) 𝑃90 − 2𝑃50 + 𝑃10 𝑆𝑘p = 𝑃90 − 𝑃10 𝑆𝑘p =

62.00 − 2(48.36) + 29.00 62.00 − 29.00

𝑆𝑘p =

−5.72 ≅ −0.17 33.00

Esto indica que la gráfica es asimétrica negativa, puesto que Sk < 0.

COEFICIENTE DE CURTOSIS 0.5(𝑄3 − 𝑄1 ) K= 𝑃90 − 𝑃10 K=

0.5(18.33) 33.00

K = 0.277727 ≅ 0.277 Esto indica que la gráfica es leptocúrtica, puesto que K > 0.263

Como se puede comprobar todos los coeficientes de simetría son negativos, aunque no son iguales, lo cual nos dice que hay un sesgo y por lo cual la gráfica es asimétrica negativa. Además el coeficiente de curtosis es mayor a 0.263, lo que nos indica que la gráfica es leptocúrtica.

EJEMPLO 2: Calcule las medidas de sesgo y curtosis para el siguiente juego de datos. L 10.5 20.5 30.5 40.5 50.5 60.5 70.5

-

R 20.5 30.5 40.5 50.5 60.5 70.5 80.5

fi 6 15 22 33 22 15 6 119

xi 15.5 25.5 35.5 45.5 55.5 65.5 75.5

Las medidas de tendencia central, dispersión y posición, para calcular el sesgo y curtosis son las siguientes:

Fa 6 21 43 76 98 113 119

Media s Moda Mediana Q1 Q3 P10 P90

45.50 15.12 45.50 45.50 34.48 56.52 24.43 66.57

COEFICIENTE DE PEARSON(1) 𝑥̅ − 𝑀𝑜 𝑆𝑘1 = 𝜎 𝑆𝑘1 =

45.50 − 45.50 15.12

=

0 15.12

𝑆𝑘1 = 0 Esto indica que la gráfica es simétrica, puesto que Sk = 0.

COEFICIENTE DE PEARSON(2) 3(𝑥̅ − 𝑀𝑒) 𝑆𝑘2 = 𝜎 𝑆𝑘2 = 𝑆𝑘2 =

3(45.50 − 45.50) 15.12 3(0) 15.12

=

0 15.12

𝑆𝑘2 = 0 Esto indica que la gráfica es simétrica, puesto que Sk = 0.

COEFICIENTE DE BOWLEY (CUARTILICO) 𝑄3 − 2𝑄2 + 𝑄1 𝑆𝑘𝑞 = 𝑄3 − 𝑄1 𝑆𝑘𝑞 =

56.52 − 2(45.50) + 34.48 56.52 − 34.48 𝑆𝑘𝑞 =

0 =0 22.04

Esto indica que la gráfica es simétrica, puesto que Sk = 0.

COEFICIENTE DE BOWLEY (PERCENTILICO) 𝑃90 − 2𝑃50 + 𝑃10 𝑆𝑘p = 𝑃90 − 𝑃10 𝑆𝑘p =

66.57 − 2(45.50) + 24.43 66.57 − 24.43 𝑆𝑘p =

0 =0 42.14

Esto indica que la gráfica es simétrica, puesto que Sk = 0.

COEFICIENTE DE CURTOSIS 0.5(𝑄3 − 𝑄1 ) K= 𝑃90 − 𝑃10 K=

0.5(22.04) 42.14

K = 0.261509 ≅ 0.262 Esto indica que la gráfica es mesocúrtica, puesto que K ≅ 0.263

En este caso los 4 coeficientes de simetría si son iguales, todos son cero, la gráfica es simétrica, y en el caso del coeficiente de curtosis el valor es muy cercano a 0.263, es una milésima la aproximación, por lo cual se toma el valor como si fuese mesocúrtica.

HOJA DE TRABAJO # 3 MEDIDAS DE SESGO Y FORMA Con los siguientes juegos de datos calcule: Las medidas de sesgo y forma (asimetría y curtosis). 1)

Lim-Apa 10 – 20 21 – 31 32 – 42 43 – 53 54 – 64 65 – 75 76 - 86

fi 2) 10 15 30 45 30 15 10

Lim-Apa 20 - 24 25 – 29 30 – 34 35 – 39 40 – 44 45 – 49 50 - 54

fi 3) 8 20 25 50 70 10 4

Lim-Apa 10 – 15 16 – 21 22 – 27 28 – 33 34 – 39 40 – 45 46 - 51

fi 4 15 45 80 100 10 4

4)

Lim-Apa 10 – 14 15 – 19 20 – 24 25 – 29 30 – 34 35 – 39 40 – 44

fi 5) 10 50 10 30 10 50 10

Lim-Apa 15 – 20 21 – 26 27 – 32 33 – 38 39 – 44 45 – 50 51 – 56

fi 6) 8 20 80 60 50 20 12

Lim-Apa 10 – 15 16 – 21 22 – 27 28 – 33 34 – 39 40 – 45 46 - 51

fi 14 50 33 22 11 8 3