Fase 2 Grupo 160

Unidad 1 - Fase 2 - Identificación de variables estadísticas JOSE ALEXANDER SUAREZ- Cod. CRISTIAN AUGUSTO BETANCUR – Co

Views 172 Downloads 7 File size 440KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Unidad 1 - Fase 2 - Identificación de variables estadísticas

JOSE ALEXANDER SUAREZ- Cod. CRISTIAN AUGUSTO BETANCUR – Cod. LUIS EDUARDO SANCHEZ - Cód. 1032416016

GRUPO: 300046_160

Tutor: BIVIANA ESPERANZA ROCHA

CURSO: ESTADÍSTICA DESCRIPTIVA (PARA AGRARIAS)

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD

INTRODUCCION La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad, y es usada para la toma de decisiones. Esta actividad se fundamenta en el reconocimiento y profundización de la temática propuesta dentro de la unidad 1 del curso y la puesta en práctica de algunos de los conocimientos adquiridos en proceso académico del curso. Para el desarrollo de esta actividad fue necesario poner en práctica conceptos de gran importancia tales como media aritmética, mediana rango, varianza, desviación, mediana, entre otros conceptos. Y a partir del programa “R”, desarrollar las competencias para en cuanto un uso y manejo de las variables estadísticas.

OBJETIVOS -

Interpretar los fundamentos de los tipos de variables estadísticas cuantitativas y cualitativas y su forma de procesamiento. Aplicar y definir los conceptos de tipos de variables , varianza y medidas de tendencia central, como lo son la media, la mediana, la moda. Realizar los gráficos que obtenga al ejecutar el código en el programa “R”.

DESARROLLO DE LOS PUNTOS 1. Resolver las siguientes preguntas: a. Qué es una variable cuantitativa continua. Las continuas son aquellas definidas sobre recorridos infinitos no numerables; pueden tomar cualquier valor dentro de un recorrido dado. b. Qué es una variable cuantitativa discreta. Son aquellas que están definidas sobre recorridos finitos o infinitos numerables; no pueden tomar valores intermedios entre dos valores dados. c. Qué es una variable cualitativa nominal. Esta presenta modalidades no numéricas que no admiten un criterio de orden. Por ejemplo: El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo. d. Qué es una variable cualitativa categórica. Una variable categórica es una variable que puede tomar uno de un número limitado, y por lo general fijo, de posibles valores, asignando a cada unidad individual u otro tipo observación a un grupo en particular o categoría nominal sobre la base de alguna característica cualitativa.

e. Cuál es la diferencia entre media poblacional y media muestral. La media poblacional es toda la totalidad de los datos para realizar la estimación, mientras que la media muestra se basa en una muestra significativa de esa población. f. Qué es la varianza de una población. Es el valor medio de las desviaciones con respecto a la media, elevadas al cuadrado. Se calcula de la siguiente forma:

En el que:

g. Qué es desviación estándar. También conocida como la desviación típica, esta basada en un valor promedio de las desviaciones con respecto a la media es usada para estimar la dispersión de los datos. Para el caso en vez de coger los valores absolutos de las desviaciones, se usan los cuadrados de las desviaciones; pero en este caso hay que considerar que desviaciones grandes pueden influir directamente en el resultado final. En cuanto a sus propiedades esta siempre será positiva y adquirirá un valor nulo solo cuando las observaciones convienen con el valor de la media. Gorgas García, Otros (2011) h. Qué es la Regla de Sturges ¿para qué sirve? Es un criterio aplicado cuando se desea proyectar la información con histogramas de frecuencia, esta regla fue publicada en 1926 por Herbert Stuges. Es método emperico, en el que se usan como datos el numero de muestras; se determinan el numero de clases que deben existir en un histograma de frecuencias y de este modo facilitar la clasificación de los conjuntos de datos representativos de una muestra o población. Es decir que permite la visualización de la forma en que se tornan los datos en los contenedores gráficos. Esta regla sirve para gestionar histogramas de frecuencias ya que permite realizar una distribución de las frecuencias, conociéndose el numero de clases o intervalos (k) la longitud o amplitud expresándose esta como:

Es de esta forma que los valores obtenidos son viables, es decir representativos aleatoriamente de una población o muestra. i. Qué es frecuencia absoluta. Que a partir de una muestra se tienen varios datos que a menudo son reiterativos; es por ello por lo que la frecuencia absoluta define el numero de veces en que se repite algún valor en una muestra. Romero Ramos, E. (2016). j. Qué es frecuencia relativa. Hace referencia a ciertos datos que componen la muestra; entonces es el coeficiente entre la frecuencia y el número total de datos (n), además indica la relación de correspondencia entre los individuos cuando la variable adquiere un determinado valor. Romero Ramos, E. (2016). k. Qué es frecuencia relativa acumulada esta es calculada al momento de reunir y sumar todas las frecuencias relativas anteriores al caso; obteniendo como resultado la proporción de individuos que presentan un determinado valor anterior al caso evaluado. Romero Ramos, E. (2016). l. ¿Cuál es la diferencia entre una tabla de frecuencias absolutas de una variable continua y de una discreta? La frecuencia absoluta de una variable continua y de una discreta se difiere en que variables discretas (las variables se ordenan de menor a mayor) y para variables continuas (las variables se ordenan de menor a mayor agrupadas por intervalos). Y con base a esto la frecuencia absoluta se utiliza para calcular la frecuencia relativa. m. Qué es un Boxplot o diagrama de cajas, para qué sirve. Son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría. Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente. n. En qué tipo de variables se usa el histograma. El histograma se utiliza en variables cuantitativas o de tipo numérica. o. En qué tipo de variables se usa el gráfico de barras. El grafico de barras se utiliza para representar datos de variables cualitativas o discretas. 2. Con los siguientes datos de la variable cuantitativa continua “Edad”: 18.4 20.4 17

19.2 19.4 22

19.6 21.4 15

23 18 22

20 24 25

Como lo indica es una variable cuantitativa continua por lo que los datos tienen una continuidad entre sí, donde se expresa la edad en años y meses. Hallar: a. Media. De acuerdo con la tabla se tienen datos de 15 individuos de cierta población por lo cual para proceder a hallar la media se aplica la siguiente formula: Media=

( 18.4+19.2+19.6+ 23+20+20.4+19.4 +21.4+18+ 24+17+ 22+15+ 22+ 25 ) 15

Media=20.3 b. Mediana. Como primera medida y de acuerdo con la información suministrada en la unidad 1, por manejo de la información se organiza los datos de menor a mayor y se procede: 15-17-18-18,4-19,2-19,4-19,6-20-20,4-21,4-22-22-23-24-25 Por tanto, la Mediana=20 c. Moda. 15-17-18-18.4-19.2-19,4-19.6-20-20.4-21.4-22-22-23-24-25 Por tanto Moda=22 que corresponde al dato de la edad de dos individuos que reportan el mismo valor. d. Varianza. Como nos estamos refiriendo a una población aplicamos la siguiente formula: σ 2=

∑ (x− ´x )2 N

Así que reemplazamos con los valores ya conocidos: ´x =20.3

σ 2=∑ ( 15−20.3 )2+ ( 17−20.3 )2 + ( 18−20.3 )2+ (18.4−20.3 )2 + ( 19.2−20.3 )2+ (1 9.4−20.3 )2 + ( 19.6−20 .3 )2+ ( 20−20 = despejamos el cuadrado

σ 2=∑ 28.09+10.89+5.29+3.61+1.21+0.81+0.49+0.09+ 0.01+ 1.21+2.89+ 2.89+ 7.29+13.69+22.09 =realizamos la suma

σ 2=

100.55 =6.7 años2 15

e. Desviación estándar. Y a con datos anteriores podemos determinar la desviación estándar con la siguiente formula σ=



∑ ( x− x´ )2 N

Como ya obtuvimos la varianza entonces evaluamos la raíz cuadrada σ =√ 6.7 σ =2.6 años f. Rango de datos. Como al ordenar los números ya determinamos los valores que se están usando entonces: R=Max x −Min x R=25−15 R=10 años

g. Indicar el valor de los cuatro cuartiles. De acuerdo con lo repasado en la unidad se tienen que hallar los cuartiles Q 1 ,Q2 y Q3 previamente, se puede determinar que Q 2=mediana entonces se procede hallar los siguientes datos: Se organizan los valores de acuerdo a la medida de posición. 15-17-18-18.4-19.2-19.4-19.6-20-20.4-21.4-22-22-23-24-25 Lo que a continuación se hará es determinar la posición y así indicar el respectivo valor del cuartil: Q 1=

k ( n+1) 4

Q 1=

1(15+1) =4=18.4 años 4

Q 2=

2(15+1) 3(15+1) =8=20 años Q3= =12=22 años 4 4

h. Realice el gráfico de frecuencia absoluta utilizando la regla de Sturges. Teniendo en cuenta que los datos como edad están representados de forma continua, es decir que hay ciertos datos con decimales que conectan un valor con otro; es por ello por lo que una forma de representarlos es a través de los histogramas: Se determina el intervalo considerando que son 15 datos; entonces:

m=1+1.33∗lon ( 15 ) m=1+3.3 ( 1.17 ) m=1+3.86 m=4.86 Al aproximar aun número entero: m=5 Ahora hallamos la amplitud ya que se conoce el rango (10 años) C=

R m

C=

10 5

C=2 años

Tabla de frecuencia absoluto a partir de lo anterior: INTERVALO

MARCA (AMPLITUD)

MARCA DE CLASE

FRECUENCIA ABSOLUTA

1

15

17

16

2

2

17

19

18

2

3

19

21

20

5

4

21

23

22

4

5

23

25

24

2

De acuerdo con la información obtenida se puede afirmar que hay mas personas con una edad entre 19 y 21 y la frecuencia de los demás se va alejando hasta llegar a 2.

3. Con los siguientes datos de la variable cuantitativa discreta “Número de hermanos”: 0 3 0

1 2 5

4 3 4

1 1 3

2 2 2

a. LA MEDIA: es el centro de gravedad de la distribución, o fiel de la balanza entre todos los datos. Se calcula sumando los datos y dividiendo entre el tamaño de la muestra.

media=

( 0+1+ 4 +1+ 2+ 3+2+3+1+2+0+5+ 4+ 3+2 ) 15

media=2,2

b. LA MEDIANA: es el valor que está en el centro de la distribución, es decir, el valor que supera a la mitad de los de la muestra y se ve superado por la otra mitad.

mediana=0 0 11 1 22 22 3 3 3 4 4 5 mediana=2

c. LA MODA: es el valor de la variable que tiene mayor frecuencia en la muestra, es decir, el que se repite más.

moda=0 0 1 11 2 22 2 33 3 4 4 5 moda=2 d. Varianza. Numero de hermanos Frecuencia (hermanos) fi xi 0 1 2 3 4 5

Xi*fi

2 3 4 3 2 1 15

Σ

Xi2*fi 0 3 8 9 8 5 33

0 3 16 27 32 25 103

Aplicando la siguiente formula ∑ xifi = 33 =2.2 ´x = N 15 ( x− x´ )2 ∑ xi 2 fi ∑ 2 σ x= = − x´ 2 N N 103 2 2 σ x= −(2.2) 15 σ 2 x=2.026( hermanos)2 e. Desviación estándar.

σ =√ σ 2= √2.026 hermanos 2=1.42hermanos f.

Rango de datos.

R=Max x −Min x R=4−0 R=4 g. Indicar el valor de los cuatro cuartiles. Numero de hermanos Frecuencia (hermanos) fi xi 0 1 2 3 4

2 3 4 3 2

Frecuencia acumulada 2 5 9 12 14

5

1 15  

Σ

15

CUARTIL 1

Nx=

Px ∗N 100

Nx=

25 ∗15=3.75=4=1 100

CUARTIL 2

Nx=

Px ∗N 100

Nx=

50 ∗15=7.5=8=2 100

CUARTIL 3

Nx=

Px ∗N 100

Nx=

75 ∗15=11. 25=11=3 100

h. Realice el gráfico de frecuencia absoluta. A través de un diagrama de barras se representa la frecuencia absoluta del numero de hermanos.

N° HERMANOS 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0

0

1

2

3

4

5

ACTIVIDAD PROGRAMA R VARIABLE CUANTITATIVA CONTINUA

3 2 0

1

Frequency

4

5

PERIODO 764 - Histograma con Regla de Sturges variable edad

16

18

20

22

24

edad

Considerando que la regla de sturges, permite agrupar la información por una cantidad de clases a través de unos cálculos matemáticos; la información se representa toda a través del histograma que permite evidenciar los rectángulos desde el valor mínimo hasta el valor máximo solo en este rango de datos y de esta forma agruparlos de manera coherente para realizar el grafico. En el grafico se evidencia que única y exclusivamente a partir de la información capturada se puede hacer la representación de los datos. Aquí por ejemplo se identifica claramente el valor máximo 25 años y el valor mínimo 15 años, donde las clases están ligadas a la amplitud permitiendo inferir que esta corresponde a 2 años. Además, que esta información de edades al estar agrupada por intervalos me permite observar la frecuencia con respecto a los individuos entrevistados.

3 2 0

1

Frecuencia

4

5

PERIODO 764 - Histograma de la variable continua Edad

14

16

18

20

22

24

26

edad

El histograma es una herramienta muy importante para expresar información continua es decir datos que estan expresados con decimales. Se dice que es una funcion experimental de densidades; es por ello que se deduce a una representación grafica a traves de rectangulos en el que usa información del intervalo de clase y la frescuencia. Gutierrez Behar, Pere Grima (2013). Ahora bien el histograma que representa los datos de esdades muestra unos datos de frecuencia con respecto a la cantidad de individuos de la muestra. Siendo el caso que 5 personas de 15 su edad esta conprendida entre 18 y 20 años, asu ves si trasamo una linea imaginaria sobre el comportamiento de los datos se observa que la mediana es 20 años.. Visualmente permite analizar la tendencia de la informacion mientra se aleja de la mediana; ya que por ejemplo hay mas personas menores de 20 años que mayores a 20 años. Es de este modo que se puede conocer la distribución grafica de una variable.

20 16

18

E dad (años)

22

24

PERIODO 764 - Boxplot o diagrama de cajas variable continua

Conocido como grafico de cajas o boxplot; es una menera de representar datos estadisticos en el tratamiento de datos, este metodo permite revelar aspectos de distribución de ciertos datos. Es una grafica coon unica escala, que incluye la caja, la mediana, bigotes, cercados interiores, cercados exteriores. Palladino Alberto C (2011) De acuerdo al deagrama se puede observar que la caja comprende el tramo entre el primer cuartil (Q1) al tercer cuartil (Q3), correspondiendo al 50% de las observaciones, dentro de esta caja se observa la mediana por medio de una linea y corresponde a 20 años. Tambien se puede inferir que a partir de este grafico se observa datos agrupados centrales de la distribución que son la caja pero tambien el 50 % que estan fueran a los costados de la caja que son los bigotes y permite enterder las edades que se extienden hacia los extremos maximos y minimos de los datos.

Graficos de variable cuantitativa discreta

Grafico 1

3 2

número de herm anos

4

5

PERIODO 764 - Boxplot o diagrama de cajas variable discreta

0

1

Como podemos observar en este Boxplot o diagrama de cajas de variable discreta el número de la cantidad de hermanos esta entre uno a tres siendo el dos una variable muy equitativa

Grafico 2

3 2 0

1

F r e c u e n c i a s a b s o l u ta s

4

PERIODO 764 - Diagrama de barras Frecuencia Absoluta

0

1

2

3

4

5

Número de hermanos

En este diagrama de barras de frecuencia absoluta se puede observar las frecuencias de datos absolutas que hay en el número de hermanos, siendo el dos el mayor, seguidamente del uno y el tres que tienen una frecuencia absoluta de 3, luego siguen el cuatro y el cero que también tienen la misma cantidad de frecuencia absoluta siendo 2 y finalizando en cinco que es el número de hermanos con la frecuencia más baja de todos la cual es 1.

Grafico 3

0 .2 0 0 .2 5 0 .1 5 0 .1 0 0 .0 0

0 .0 5

F r e c u e n c i a s r e l a ti v a s

PERIODO 764 - Diagrama de barras Frecuencia relativa

0

1

2

3

4

5

Número de hermanos

En este diagrama de barras de frecuencia relativa se obtienen datos un poco más variados que los de la anterior grafica porque en esta grafica se obtienen datos con decimales, pero el número de hermanos es el mismo y siendo igual el orden de mayor a menor, ya que el dos sigue siendo el número de hermanos mayor con un frecuencia relativa mayor de 0.25, seguidamente del número de hermanos uno y tres tienen una frecuencia relativa de 0.20, siguen el número de hermanos cuatro y cero que tienen una frecuencia relativa entre 0.10 y 0.15, y finalizando con el número de hermanos cinco ya que tiene una frecuencia relativa mayor a 0.05 pero menor a 0.10.

Grafica 4

0.6 0.4 0.0

0.2

Frecuencias relativas

0.8

1.0

PERIODO 764 - Diagrama de barras Frecuencias relativas acumuladas

0

1

2

3

4

5

Número de hermanos

En este grafico de diagramas de barras de frecuencia relativa acumulada podemos observar que es bastante diferente a los demás respecto a los datos ya que el número de hermanos están en acenso en proporción al número de hermano siendo cero el número de hermanos que tiene la frecuencia relativa más baja estando por encima del 0.0 pero menor a 0.2, y siendo el número de hermanos cinco el mayor obteniendo una frecuencia relativa de 1.0

Grafico 5

PERIODO 764 - Gráfico de tarta de Hermanos

1

0 2

5

4 3

En este grafico circular o grafico de tarta se observa que el dos es el número de hermanos con mayor porción ya que es de 26,67%, siguen las porciones de la cantidad de hermanos uno y tres que son del 20%, seguidamente la cantidad de los hermanos cero y cuatro que tienen una porción de 13% y por último la cantidad de los cinco hermanos que tienen una porción del 6,67%

0.13333333 0.20000000 0.26666667 0.20000000 0.13333333 0.06666667 |

CONCLUSIONES A partir de una revisión bibliográfica se interpreto conceptos fundamentales de la estadística descriptiva y a través de dos ejercicios se aplico a través de las formulas de variables estadísticas cuantitativas y cualitativas. Con la herramienta informática “R”, se ejecutó para el procesamiento de una serie de datos para realizar los gráficos de variables cuantitativas (continua y discreta) y cualitativas

BIBLIOGRAFIA Romero, E. (2016). Estadística para todos. Análisis de datos: estadística descriptiva, teoría de la probabilidad e inferencia. Ediciones Pirámide. Disponible en https://elibronet.bibliotecavirtual.unad.edu.co/es/ereader/unad/49136 García, P. A. (2014). La interpretación de los datos: Una introducción a la estadística aplicada. Recuperado de https://elibro-net.bibliotecavirtual.unad.edu.co/es/ereader/unad/48802 Mendoza, H, Bautista, G. (2002). Probabilidad y Estadística. Universidad Nacional de Colombia, http://red.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_102_02.html. Licencia: Creative Commons BY-NC-ND. Matus, R., Hernández, M., & García, E. (2010). Estadística. Recuperado de https://elibronet.bibliotecavirtual.unad.edu.co/es/ereader/unad/76119 Los textos de Perpiñán (s.f.) y Saenz (2010), lo ayudarán para la realización de la estrategia de aprendizaje de la Fase 2, manejo del programa R Project: Perpiñan, O. (s.f.). Introducción a R. Recuperado de: https://oscarperpinan.github.io/R/#datos. Licencia Creative Commons CC-BY-SA 4.0. Sáenz J. (2010). Métodos estadísticos con R y R comander. Recuperado de https://cran.rproject.org/doc/contrib/Saez-Castillo-RRCmdrv21.pdf Cáceres, L. (2020). OVI Medidas https://repository.unad.edu.co/handle/10596/33960

de

resumen.

Recuperado

de:

Copia de los resultados que aparecen en R Console, después de ejecutar la totalidad del código. Procedimiento en el programa R, > edad=c(18.4,19.2,19.6,23,20,20.4,19.4,21.4,18,24,17,22,15,22,25) > summary(edad)# Resumen estadístico Min. 1st Qu. Median Mean 3rd Qu. Max. 15.00 18.80 20.00 20.29 22.00 25.00 > mean(edad)#media aritmética [1] 20.29333 > var(edad)#varianza [1] 7.182095 > sd(edad)#desviación estándar [1] 2.679943 > min(edad) #Mínimo [1] 15 > max(edad)# Máximo [1] 25 > range(edad) #Rango [1] 15 25 > median(edad)# Mediana [1] 20 > length(edad)# Número de datos [1] 15 > quantile(edad, 0.25)# Cuantil Q1 25% 18.8 > quantile(edad, 0.75)# Cuantil Q3 75% 22 > quantile(edad, 0.5)# Cuantil Q2 que es la mimsa mediana 50% 20 > IQR(edad) #Rango intercuartílico [1] 3.2 > sort(edad)# Ordenar [1] 15.0 17.0 18.0 18.4 19.2 19.4 19.6 20.0 20.4 21.4 22.0 22.0 23.0 24.0 25.0 > range(edad,na.rm=TRUE) # incluimos na.rm=TRUE para que ignore la presencia de valores perdidos [1] 15 25 > nclass.Sturges(edad)#Número de intervalos [1] 5 > seq(15,25,length=nclass.Sturges(edad)) # Límites de los intervalos [1] 15.0 17.5 20.0 22.5 25.0 > intervalosEdad=cut(edad,breaks=seq(15,25,length=nclass.Sturges(edad)),include.lowest=TRU E)

> intervalosEdad # Se muestran los intervalos de edad, uno correspondiente a cada edad observada [1] (17.5,20] (17.5,20] (17.5,20] (22.5,25] (17.5,20] (20,22.5] (17.5,20] [8] (20,22.5] (17.5,20] (22.5,25] [15,17.5] (20,22.5] [15,17.5] (20,22.5] [15] (22.5,25] Levels: [15,17.5] (17.5,20] (20,22.5] (22.5,25] > puntos=min(edad)+(0:nclass.Sturges(edad))*(max(edad)-min(edad))/nclass.Sturges(edad) > hist(edad,main="PERIODO 764 - Histograma con Regla de Sturges variable edad",breaks=puntos) # este comando crea el gráfico de histograma con la regla de Sturges > install.packages("agricolae") # Esperar que salga una lista de países y seleccionar USA(IA) Installing package into ‘C:/Users/suare/Documents/R/win-library/4.0’ (as ‘lib’ is unspecified) --- Please select a CRAN mirror for use in this session --probando la URL 'https://mirror.las.iastate.edu/CRAN/bin/windows/contrib/4.0/agricolae_1.33.zip' Content type 'application/zip' length 1294556 bytes (1.2 MB) downloaded 1.2 MB package ‘agricolae’ successfully unpacked and MD5 sums checked The downloaded binary packages are in C:\Users\suare\AppData\Local\Temp\RtmpuGBsVF\downloaded_packages > hist(edad,ylab="Frecuencia",main="PERIODO 764 - Histograma de la variable continua Edad") > > hist(edad,ylab="Frecuencia",main="PERIODO 764 - Histograma de la variable continua Edad") > boxplot(edad,ylab="Edad (años)",main="PERIODO 764 - Boxplot o diagrama de cajas variable continua") # Gráfico de diagrama de cajas o Boxplot