Estadistica Paso3

Unidad 2 Paso 3 Análisis de la Información Presentado a: Olman De Jesus Zapata Tutor Estadística Descriptiva Presentad

Views 61 Downloads 3 File size 668KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Unidad 2 Paso 3 Análisis de la Información

Presentado a: Olman De Jesus Zapata Tutor Estadística Descriptiva

Presentado por: xxxxxxxxxxxxxxxxxxxxxxxxxxxx Código: xxxxxxxxx Grupo: 204040_4

Universidad Nacional Abierta y a Distancia UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Ingeniería de Telecomunicaciones Estadística Descriptiva (n) - (204040A_766) CEAD JAG Bogotá, febrero de 2021

Introducción

A partir de la base de datos de los indicadores de empleabilidad relacionados con la pandemia del covid-19 para 180 trabajadores se realizará el estudio de una de sus variables encontrando los valores solicitados en la guía basados en las lecturas propuestas en la unidad los cuales son la media, mediana, moda, y para completar el análisis de la información obtenida se hallará en la asimétrica, curtosis, cuartiles y percentil. .

Justificación

El presente trabajo se realiza para fortalecer y demostrar los conocimientos adquiridos en la unidad 2 Análisis de la información para en la investigación de la estadística descriptiva aplicando las medidas estadísticas univariantes, a través del cálculo e interpretación del software estadístico, en función de la problemática de estudio.

Objetivos



Realizar tabla de frecuencia respecto a una variable cuantitativa.



Hallar la moda, mediana y media de la variable cuantitativa escogida.



Hallar la asimétrica y curtosis de los datos analizados para series simples y agrupadas.



Encontrar la moda, mediana y media en una serie de datos agrupados.

Actividad 1 Mapa Mental

Ilustración 1 Esquema mapa mental, Recuperado de: https://app.creately.com/diagram/4JmLjFh0V3c/edit

Actividad 2. Medidas Univariantes -variable Discreta A partir de la base de datos: Anexo 1- Indicadores de empleabilidad relacionados con la pandemia del Covid-19 para 180 trabajadores 2020 (16-6) se eligió la variable continua discreta “Horas laborales durante la pandemia”. a. Tabla de frecuencia datos no agrupados.

fi=cantidad de vecesque se encuentra el valor en la base de datos

k

Frecuencia absoluta acomulada=∑ ni=N Frecuencia relativa=hi= i=1

ni N

k

Frecuencia relativa acomulada=∑ hi=H i i=1

Horas laborales durante la pandemia

Frecuencia absoluta (fi)

0 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Total

Ilustración 2 Tabla de Frecuencia

55 4 2 9 8 4 7 6 6 6 5 3 5 9 13 4 9 7 4 2 4 8 180

Frecuencia acomulada (Fi) 55 59 61 70 78 82 89 95 101 107 112 115 120 129 142 146 155 162 166 168 172 180 -

Frecuencia relativa (hi) 0,31 0,02 0,01 0,05 0,04 0,02 0,04 0,03 0,03 0,03 0,03 0,02 0,03 0,05 0,07 0,02 0,05 0,04 0,02 0,01 0,02 0,04 1,00

Frecuencia relativa acomulada (Hi) 0,31 0,33 0,34 0,39 0,43 0,46 0,49 0,53 0,56 0,59 0,62 0,64 0,67 0,72 0,79 0,81 0,86 0,90 0,92 0,93 0,96 1,00 -

Frecuencia absoluta (fi) Frecuencia absoluta (fi) 60 50 40 30 20 10 0

0

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

Ilustración 3 Frecuencia absoluta (fi)

Frecuencia absoluta acomulada (Fi) Frecuencia acomulada (Fi) 200 180 160 140 120 100 80 60 40 20 0

0

40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

Ilustración 4 Frecuencia absoluta acumulable

60

Frecuencia relativa (hi) Frecuencia relativa (hi) 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00

0

40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

Ilustración 5 Frecuencia Relativa

Frecuencia relativa acomulada (Hi) Frecuencia relativa acomulada (Hi) 1.20 1.00 0.80 0.60 0.40 0.20 0.00

0

40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

Ilustración 6 Frecuencia Relativa acumulable

Frecuencia absoluta (fi) Frecuencia absoluta (fi) 6055 50 40 30 20

13 9

10 0

4 0

40

8 4

2 41

42

43

44

7

45

6

46

6

47

6

48

9 5 49

3 50

9

5

4

51

52

53

54

55

7

56

8 4 57

2 58

4 59

60

Ilustración 7 Frecuencia absoluta por diagrama de línea y puntos

Frecuencia absoluta acomulada (Fi) Frecuencia acomulada (Fi) 200 180 160

142 146

140 120 100 80 55 60

59

61

40

41

70

78

82

43

44

89

95 101

115 120 107 112

155

168 172 162 166

180

129

40 20 0

0

42

45

46

47

48

49

50

51

52

53

54

Ilustración 8 Frecuencia absoluta acumulada por diagrama de línea y puntos

55

56

57

58

59

60

Frecuencia relativa (hi) Frecuencia relativa (hi) 0.35 0.31 0.30 0.25 0.20 0.15 0.10

0.07 0.05 0.04

0.05 0.00

0.02 0

40

0.02

0.01 41

42

43

0.04 0.03 0.03 0.03 0.03

44

45

46

47

48

0.05 0.02

49

50

0.05

0.03 51

0.02 52

53

54

55

0.04

56

0.04 0.02 57

0.01 58

0.02 59

60

Ilustración 9 Frecuencia relativa por diagrama de línea y punto

Frecuencia relativa acomulada (Hi) Frecuencia relativa acomulada (Hi) 1.20 1.00 0.79 0.81

0.80 0.60 0.34 0.40 0.31 0.33

0.39

0.43 0.46

0.49

0.53

0.56

0.64 0.67 0.59 0.62

0.86

0.93 0.96 0.90 0.92

1.00

0.72

0.20 0.00

0

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

Ilustración 10 Frecuencia relativa acumulada por diagrama de línea y punto

b. Medidas de tendencias central y de Posición. Media k

∑ Xi f i

´x = i=1

N

=

0 ( 55 ) +41 ( 4 ) +42 ( 9 ) + 43 ( 8 ) +…+58( 2)+59( 4)+60(8) 6271 = =34.8 55+ 4+ 9+8+…+ 2+ 4+ 8 180

58

59

60

Mediana Para determinar la media debemos sacar primero la posición

(n+1) 180+ 1 = =90.5 por 2 2

lo tanto se encuentra la media entre dos valores intermedios entre 46 y 46.

Mediana=Md =

46+ 46 =46 2

Moda La moda es el valor de frecuencia más alto para esta variable es 0 horas laboradas ya que cuenta con una frecuencia de 55. Cuartil 1

Q 1=

1 ( n+1 ) 1 ( 180+1 ) 181 = = =45.25 4 4 4

El primer cuartil se encuentra en la posición 45 de la serie, es decir 0. Cuartil 2

Q 2=

2 ( n+1 ) 2 ( 180+1 ) 362 = = =90.5 4 4 4

El segundo cuartil se encuentra en la posición 90 de la serie, es decir 46. Cuartil 3

Q 3=

3 ( n+1 ) 3 (180+1 ) 573 = = =135.75 4 4 4

El tercer cuartil se encuentra en la posición 135 de la serie, es decir 53. Percentil 30

P30=

30 ( n+1 ) 30 ( 180+1 ) 5730 = = =57.3 100 100 100

El percentil 30 se encuentra en la posición 57 de la serie, es decir 40.

Percentil 60

P60=

60 ( n+1 ) 60 ( 180+1 ) 11460 = = =114.6 100 100 100

El percentil 60 se encuentra en la posición 114 de la serie, es decir 50. El tipo de asimetría es negativa lo cual significa que tiene tendencia de cola a la izquierda y la mediana se encuentra a la derecha de la moda, y la media a la derecha de la moda. 2

La varianza es de S x =560,337026 y la desviación estándar es s=√ 560.33=23.67143905 n

∑ f i ( x i− x´ ) 4 La curtosis

g2 =

m4 S

4 x

i=1

−3=

n S4

−3=−1.32

Es de distribución platocúrtica (achatada) c. Medidas de Dispersión Rango

X max=60 X min =0ℜ=X max −X min=60−0=60 ℜ=60 Varianza n

∑ f i ( x i−´x )2

S2x = i=1

n−1

=560.337026

Desviación estándar o típica

S= √ S2x =√ 560,337026=23.67143905 Coeficiente de variación

S 23.67 C .v= = ∗100 ≈ 67.94 % ´x 34.8 Después de obtener los resultados del análisis de las horas laboradas durante la pandemia podemos observar que la moda fue 0 horas laborada no indica que la mayor parte de las personas que estaba laborando antes de la pandemia dejaron de trabajar, y

que se está trabajando 46 horas, al calcular la asimétrica indica que tiene cola a la izquierda indicando que las horas laboradas disminuye, acorde con lo que se presentó en Colombia para esa época donde el trabajo fue baja y solo una parte continuó con la virtualidad para poder sostener su economía.

Actividad 3. Medidas Univariantes -variable Continua a. Tabla de frecuencia datos agrupados. Rango

X max=7557664 X min =289641,5ℜ=X max −X min=7557664−289641,5=7268022,5 ℜ=7268022,5 Intervalos Números de intervalos es el número de casillas o filas se debe tener en la tabla.

Nc=√ n=√ 180=13.4164 ≈13 Amplitud Es el tamaño que va a tener cada intervalo.

Av=1+ ℜ=1+ 7268022.5=7268023.5 Tc=

Av 7268023.5 = =559078,7308 Nc 13

Promedio salarial ultimos seis meses

Frecuencia absoluta (fi)

Clase

[289641.5 , 848720.2308] [848720.2309 , 1407798.9617] [1407798.9618 , 1966877.6926] [1966877.6927 , 2525956.4235] [2525956.4236 , 3085035.1544] [3085035.1545 , 3644113.8853] [3644113.8854 , 4203192.6162] [4203192.6163 , 4762271.3471] [4762271.3472 , 5321350.078] [5321350.0781 , 5880428.8089] [5880428.809 , 6439507.5398] [6439507.5399 , 6998586.2707] [6998586.2708 , 7557665.0016] total

569180.8654 1128259.596 1687338.327 2246417.058 2805495.789 3364574.52 3923653.251 4482731.982 5041810.713 5600889.444 6159968.174 6719046.905 7278125.636

Frecuencia acomulada (Fi)

78 38 0 0 8 5 12 14 12 4 5 1 3 180

Frecuencia relativa acomulada (Hi) 0.43 0.64 0.64 0.64 0.69 0.72 0.78 0.86 0.93 0.95 0.98 0.98 1.00

Frecuencia relativa (hi)

78 116 116 116 124 129 141 155 167 171 176 177 180

0.43 0.21 0.00 0.00 0.04 0.03 0.07 0.08 0.07 0.02 0.03 0.01 0.02 1.00

Ilustración 11 Tabla de frecuencia de series agrupadas

Frecuencia absoluta (fi ) 90 80

78

70 60 50 40

38

30 20 8

10 0

14

5

12 4

5

1

3

56 91 80 .8 7 11 28 25 9. 6 16 87 33 8. 33 22 46 41 7. 06 28 05 49 5. 79 33 64 57 4. 52 39 23 65 3. 25 44 82 73 1. 98 50 41 81 0. 71 56 00 88 9. 44 61 59 96 8. 17 67 19 04 6. 91 72 78 12 5. 64

0

0

12

Ilustración 12 Histograma de frecuencia de serie agrupada

Frecuencia absoluta (fi ) 90 78 80 70 60 50

38

40 30 20

8

10

0

0

14

12

12

5

5

4

1

3

0

Ilustración 13 Grafica de polígono de frecuencias

b. Medidas de tendencias central y de Posición. Media k

∑ γi f i

´x = i=1 N

=

378637448.8 =2103541.382 180

Mediana Para determinar la media debemos sacar primero la posición tanto

se

aplica

( n+1 ) 180+ 1 = =90.5 por lo 2 2 la

formula

n 180 −( ∑ f )i −78 2 2 Md=Li + ∗ Av=289641.5+ ∗7268023.5 Md=2584806.816 f mediana 38

(

)

(

)

Moda La moda es el valor más alto de frecuencia la cual está en el intervalo con clase 569180.8654 ya que cuenta con una frecuencia de 78.

Cuartil 1

Q 1=Li +

pn−( fa) 0.25 ( 180 )−0 =289641.5+ ∗7268023.5=4482731.9808 f 78

El primer cuartil es decir 4482731.9808. Cuartil 2

Q 2=Li +

pn−( fa) 0.5 ( 180 )−78 =848720.2309+ ∗7268023.5=3143885.547 f 38

El segundo cuartil es decir 3143885.547. Cuartil 3

Q 3=Li +

pn−( fa) 0.75 ( 180 ) −129 =3644113.885+ ∗7268023.5=7278125.6354 f 12

El tercer cuartil es decir 7278125.6354 . Percentil 50

P50=Li +

pn−( fa) 0.5 ( 180 )−78 =848720.2309+ ∗7268023.5=3143885.547 f 38

El percentil 50 es 3143885.547. Percentil 70

P50=Li +

pn−( fa) 0.7 ( 180 )−124 =3085035.1545+ ∗7268023.5=5992244.5544 f 5

El percentil 70 es 5992244.5544. El tipo de asimetría es positiva ya que el coeficiente de asimétrica a 0.94 lo cual significa que tiene tendencia de cola a la derecha y la mediana se encuentra a la derecha de la moda, y la media a la derecha de la moda.

n

∑ f i ( x i− x´ ) 4 La curtosis

g2 =

m4

i=1

−3= 4

Sx

n S4

indicando que su distribución es

−3=−0.544

platocúrtica (achatada). La interpretación de los datos que podemos sustraer de la información de la estadística descriptiva es que el salario no tuvo una elevación o pico elevados durante la pandemia y se mantuvo casi equivalente con una tendencia de cola hacia la derecha que significa atenuación de aumento de sueldo en este periodo de tiempo. c. Medidas de Dispersión Rango

ℜ=X max −X min=7557664−289641,5=7268022,5 Varianza n

∑ f i ( γ i−´x )2

S2x = i=1

n−1

=3.83856E+12

Desviación estándar o típica

S= √ S2x =√ 3.83856E+12=1959225.602 Coeficiente de variación

S 1959225.602 C .v= = ∗100 ≈ 93.14 % ´x 2103541.382 Como el coeficiente de variación es del 93% nos está indicando que los datos no están agrupados y se encuentra dispersos para el análisis de nuestra variable del promedio de salario de los últimos 6 meses es que no ha estado estable para este grupo de personas y no es equitativo con una desviación de aproximadamente 2 millones de pesos y con un margen de oscilación del promedio de 7 millones a partir del valor mínimo registrado en la tabla.

Conclusiones

Podemos concluir, que las horas laboradas durante el agosto y septiembre durante la pandemia tiene una moda de 0 horas de trabajo indicando que la empleabilidad entre estos meses no fue la mejor para el País. La asimétrica de los datos de hora laboradas durante la pandemia muestran tendencia de cola hacia la izquierda expresando que las personas no están trabajando una gran cantidad de horas de lo establecido. Por último, fortalecimos los conocimientos de la estadística descriptiva en descripción de serie de valores simples y agrupadas, Frecuencia acumulada, frecuencia relativa, frecuencia absoluta, frecuencia porcentual, moda, muestra, muestra, valores percentil, cuartil, para el análisis de información.

Referencias García, J. E (2005). Análisis de Datos Unidimensionales.et al. Madrid: Paraninfo. (pp 26 -42). Recuperado de https://link.gale.com/apps/doc/CX4052300007/GVRL? u=unad&sid=GVRL&xid=c94d9295 Montero, J. M. (2007). Características de Una Distribución de Frecuencias. Statistical Descriptive. Cengage Learning Paraninfo, S.A. (pp 17 – 60). Recuperado de https://link.gale.com/apps/doc/CX4052100008/GVRL?u=unad&sid=GVRL&xid=d49ed557 Monroy, S. S. (2005). Estadística descriptiva. México, D.F., MX: Instituto Politécnico Nacional. (pp 55-79). Recuperado de https://elibro-net.bibliotecavirtual.unad.edu.co/es/ereader/unad/74722 Sánchez, S. E. A., Inzunza, C. S., & Ávila, A. R. (2015). Probabilidad y estadística 1. Distrito Federal, MÉXICO: Grupo Editorial Patria. (pp 107-137) Recuperado de https://elibronet.bibliotecavirtual.unad.edu.co/es/ereader/unad/40413?page=1