Taller 2 Solucionado

Estadística 2 – Práctica 2: Medidas de dispersión y Reglas básicas de probabilidad. Para llevar a cabo estos ejercicios

Views 97 Downloads 0 File size 921KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Estadística 2 – Práctica 2: Medidas de dispersión y Reglas básicas de probabilidad. Para llevar a cabo estos ejercicios de práctica es necesario que descargue la base de datos”BD Prácticas”del curso maestro en Moodle. En esta base de datos encontrará datos de varios estudiantes con las siguientes características: §

ID: Un número aleatorio asignado a cada estudiante diferente.

§

Color Favorito: El color favorito del estudiante.

§

Music Sem: La cantidad semanal de minutos de música escuchada.

§

Asignaturas: La cantidad de asignaturas inscritas este semestre.

§

Sexo: El sexo del estudiante.

§

Altura: La altura en centímetros del estudiante.

§

Peso: El peso en kilogramos del estudiante.

§

Semestre: El semestre en el cual se encuentra el estudiante.

Ejercicios de Práctica Ejercicio 01. Indique cuál es el rango de la variable Music Sem, luego dé una interpretación a ese valor según el contexto.

En cualquier celda podemos primero calcular el valor máximo de la variable, luego el mínimo y esta diferencia será el rango solicitado. Para el máximo ubicarce en cualquier celda vacía y escribir: =MAX(D3:D227) donde D3:D227 indica el rango de celdas que contienen los valores de la variable Music Sem. El mínimo se obtiene de forma similar: =MIN(D3:D227). Los valores obtenidos deben ser: Máximo = 3419, Mínimo = 622. Posterior a ello en cualquier otra celda vacía, se hará la diferencia entre estos dos valores, en el caso de esta solución el máximo se ubicó en la celda K2, y el mínimo en la K3, por lo que la fórmula en Excel queda: =K2-K3, y cuyo resultado es: Rango = 2797.

Ejercicio 02. Calcule la varianza y desviación estándar muestrales de la variable Music Sem usando la fórmula matemática de cada una, puede usar Excel para los cálculos con formulaciones para las celdas, llene una tabla en Excel como la siguiente:

Xi

Xi - Xmed

(Xi – Xmed)2

Donde la columna Xi contiene los datos de la variable Music Sem y Xmed es la media de Music Sem. Así Xi – Xmed es la columna que contiene la diferencia entre cada valor de Music Sem y su media, la columna (Xi – Xmed)2 es cada una de estas diferencias al cuadrado. Luego compare sus resultados con el dado por Excel al usar las fórmulas VAR.S y DESVEST.M. Primero se seleccionarán todos los datos en la columna D, correspondientes a los valores de la variable Music Sem, se copiarán y pegarán en la columna M bajo el título: Xi, así cómo lo muestra el gráfico:

Escribimos posterior a ello en la celda K10, la fórmula: =PROMEDIO(M3:M227), para obtener el promedio o media de la variable. M3:M227 se refiere al rango de celdas que contienen los valores de la variable. El resultado allí debe ser 2032,38 aproximadamente. Haremos ahora la diferencia de cada x con la media, para esto nos ubicamos en la celda N3 y escribimos la fórmula: =M3-$K$10, seleccionando la celda M3, poniendo el signo menos, la celda K10 que contiene la media e inmediatamente después de su selección, oprimimos F4 para bloquearla, de tal manera que al extender la fórmula K10 se mantenga en todas las “restas”. Allí el resultado debe ser -688,38. Extendemos la formula de la celda N3 hasta N227. Recordemos que ello se logra fácilmente parándose en la esquina inferior de la celda N3 hasta que el cursos se vuelva una “cruz” negra, en dicho momento dar doble clic y automáticamente la fórmula se extenderá hasta abajo, donde hayan datos. Ahora, en la celda O3 calcularemos el cuadrado de estas diferencias, para ello escribimos la fórmula: =N3^2, que nos permite elevar al cuadrado el valor que hay en la celda N3. Luego extendemos la fórmula hasta O227, como se hizo antes. Para calcular la varianza sumaremos los valores en la columna O, por lo que podríamos ubicarnos al final de la tabla en esta columna, es decir en la celda O228 y escribir la fórmula: =SUMA(O3:O227), el rango O3:O227 lo podemos obtener seleccionando dichas celdas.

La suma debe dar: 55600569,89. Por tanto la varianza se obtiene tomando este valor y dividiéndolo entre n-1, donde n es la cantidad de datos. En la celda K11 podemos obtener n usando la fórmula: =CONTAR(M3:M227), donde M3:M227 es el rango de celdas que contiene los valores de la variable como ya sabemos. n = 225, así que si deseamos, en la celda K12 podemos obtener la varianza muestral así: =O228/(K11-1) donde O228 contiene la suma hecha antes, y K11 el valor de n. El resultado debe ser: Varianza = 248214,825. Obsérvese que lo aquí descrito es la aplicación de la fórmula que define la varianza muestral: 𝑠! =

∑(𝑥" − 𝑥̅ )! 𝑛−1

Donde primero se encuentran las diferencias entre cada xi con la media, luego se elevan al cuadrado, se suman todos los cuadrados y ello se divide entre n-1. Para la desviación estándar muestral el proceso es el mismo, salvo que al final sacamos raíz cuadrada de lo obtenido: ∑(𝑥" − 𝑥̅ )! 𝑠=+ = ,𝑠 ! 𝑛−1 Por lo que para obtenerla podemos, en la celda K13 escribir: =RAIZ(K12), allí se obtiene la raíz cuadrada de la varianza ya calculada en la celda K12. En este caso el resultado debe ser: Desviación estándar muestral = 498,21 aproximadamente. Para próximos cálculos no es necesario hacer todo esto para calcular la varianza y desviaciones, basta usar: =VAR.S(M3:M227) para la varianza muestral (La poblacional es VAR.P) y =DESVEST.M(M3:M227) para la desviación estándar muestral (La poblacional es DESVEST.P). Con estas dos verificamos que los resultados obtenidos son iguales.

Ejercicio 03. Calcule el coeficiente de variación para la variable Music Sem y luego conteste:

a.

Imagine que el coeficiente de variación de la variable Music Sem en una muestra diferente conformada por profesionales y adultos con edad superior a 30 años, es mayor al que usted encontró aquí. ¿Qué interpretación le daría a ello? b. Una muestra con mayor varianza que otra respecto a una variable, ¿qué indica sobre la dispersión de los datos en cada una?. Si ocurre esto pero a nivel poblacional ¿su respuesta es igual? Primero se calcula el coeficiente de variación usando los cálculos del ejercicio 02: En la celda K14 ubicamos la fórmula: =K13/K10*100 en donde K13 es la celda que contiene el valor de la desviación estándar muestral, K10 es la media de la variable Music Sem y multiplicamos por 100 para leer como porcentaje. Allí el resultado debe ser: Coeficiente de variación = 24,5%.

a.

Un coeficiente de variación mayor indica una mayor variabilidad en los datos. En nuestro caso al ser 24,5% podemos imaginar la desviación estándar como el 24,5% de la magnitud de la media, lo cual dependiendo el contexto es relativamente bajo e indica una una acumulación de los datos cerca a la media. b. Una varianza más alta que otra corresponde a datos con una mayor variabilidad, es decir una alta dispersión. Comparando, la Varianza menor es la que indica una menor dispersión en los datos y la conclusión es la misma si se comparan poblacionales o muestras.

Ejercicio 04. Usando la base de datos, contestar las preguntas siguientes:

a.

¿Cuál es la probabilidad de seleccionar aleatoriamente de allí un estudiante (uno de los registros allí consignados)?, así mismo ¿cuál es la probabilidad de seleccionar 2 de ellos? 1/225 = 0,0044… Uno de 225 posibles resultados.

b. ¿Cuántos posibles grupos de 50 estudiantes es posible formar con los estudiantes registrados en la base de datos? Use el concepto de combinación y Excel para realizar el cálculo. !!# Aquí realizamos la combinación: 𝐶#$ , la cual es demasiado compleja de calcular a mano, por ello en Excel podemos escribir la fórmula, en cualquier celda: =COMBINAT(225;50), lo que dá como resultado 3,68 × 10#$ , el cual es un número con 48 ceros después del 8, ¡Muy grande!.

c.

Calcule las siguientes probabilidades a partir de la base de datos: - Probabilidad de seleccionar aleatoriamente un registro y que éste sea de una persona de sexo femenino. Para responder a esta y las preguntas a continuación haremos filtros a la base de datos, para ello seleccionamos desde la celda B2 hasta la celda I2:

En la pestaña Datos, como lo muestra la imagen anterior, ubicar el ícono llamado “Filtro” y pulsarlo. Deben aparecer triángulos en cada celda seleccionada. Ahora filtraremos por sexo y contaremos cuántos registros corresponden a mujeres. En la columna Sexo pulsamos en el tríangulo al lado del título y en el menú que se despliega quitamos la marcación para “(Seleccionar todo)” y dejamos activo F:

De esta manera logramos filtrar solo por sexo femenino. Luego seleccionando desde la celda F3 y hasta la última celda con datos de la columna, se aprecia en el recuento que hay 101 registros:

Recuerde que para hacer una selección rápida hasta el final de la columna puede teniendo seleccionada la primer celda, oprimir Ctrl + Shift + Flecha Abajo. Por lo tanto la probabilidad es aproximadamente 101/225 = 0,448889 -

Probabilidad de seleccionar aleatoriamente un registro y que éste sea de una persona de sexo masculino. Repetimos el proceso y contamos los registros correspondientes al sexo masculino, aunque también sabiendo la cantidad de mujeres y el total, el resto es la cantidad que necesitamos, o usando la regla del complemento: 1 – 0,448889 = 0,551111

-

Probabilidad de seleccionar aleatoriamente un registro y que éste sea de una persona que le guste el color amarillo. Al igual que antes se usarán filtros para contar cuántos corresponden a personas que degusten del color amarillo, sin embargo es importante recordar quitar los filtros que previamente se hayan implementado. Con la base de datos original y completa, procedemos a filtrar por color amarillo:

Al seleccionar y contar la cantidad de “Amarillo” obtenemos 44 registros. Por lo que la probabilidad de que entre 225 registros se seleccione uno cuya preferencia es amarillo es redondeando: 44/225 = 0,195556. -

Probabilidad de seleccionar aleatoriamente un registro y que éste sea de una persona de sexo femenino y que le guste el color amarillo. Aquí es posible aplicar dos filtros, primero por sexo y (sin retirarlo) filtrar por Amarillo, al contar obtendríamos 20 registros por lo que la probabilidad es: 20/225 = 0,088889.

-

Probabilidad de seleccionar aleatoriamente un registro y que éste sea de una persona de sexo femenino o que le guste el color amarillo. En este caso se pregunta por una probabilidad de la forma: 𝑃(𝐴 ∪ 𝐵), que por la ley de la adición es: 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵). Sea A el evento de seleccionar un registro correspondiente a una mujer y B el de seleccionar uno con preferencia por el color Amarillo, por los ejercicios anteriores 𝑃(𝐴) = 0,448889, 𝑃(𝐵) = 0,195556 y 𝑃(𝐴 ∩ 𝐵) = 0,088889. Entonces, 𝑃(𝐴 ∪ 𝐵) = 0,448889 + 0,195556 − 0,088889 = 0,555556. Lo que indica que la probabilidad de seleccionar una mujer que le guste el color amarillo en esta muestra es un poco mayor al 50%.

-

Probabilidad de seleccionar aleatoriamente un registro y que éste sea de una persona de sexo femenino dado que le gusta el color amarillo. En este caso tenemos una probabilidad condicional, siguiendo la definición de los eventos A y B dada en el punto anterior, tendríamos 𝑃(𝐴|𝐵), que se calcula como: 𝑃(𝐴|𝐵) =

𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵)

Probabilidades conocidas de los puntos anteriores, así que calculamos:

𝑃(𝐴|𝐵) =

𝑃(𝐴 ∩ 𝐵) 0,088889 = = 0,454545 𝑃(𝐵) 0,195556

Obsérvese que también se pudo analizar como: Número de registros “Amarillo”: 44, Número de registros Femenino dentro de los 44 amarillos: 20, luego: 𝑃(𝐴|𝐵) = !$ = 0,454545. %%

-

Probabilidad de seleccionar aleatoriamente un registro y que éste sea de una persona cuyo peso esté entre 40 y 50 Kg. Para responder a ello contaremos la cantidad de casos positiivos, para ello filtraremos las personas con peso superior a 40 kg y menor a 50 kg, lo primero es crear el filtro para peso superior a 40 kg.

Seleccionamos el filtro para peso y en la opción “Elige uno” desplegamos y seleccionamos mayor o igual, luego escribimos en la casilla correspondiente 40:

Abajo aparece seleccionado “Y” que indica que se deben cumplir las dos condiciones que vamos a establecer. El la nueva casilla “Elige uno” vamos a seleccionar: Menor o igual que, y ubicamos el 50 así:

Así queda aplicado el filtro con las dos condiciones. Seleccionamos y contamos la cantidad de registros, que en este caso son: 23, luego la probabilidad es: 23/225 = 0,102222. De ello decimos que la probabilidad de seleccionar un registro aleatorio de la base de datos y que éste corresponda a uno de una persona con un peso entre 40 y 50 kg es del 10,2% aproximadamente. d. Defina 7 variables aleatorias dada la información consignada en la base de datos, luego indique de ellas cuáles son contínuas y cuáles son discretas, describa los valores que puede tomar. Ejemplo: Variable Sexo, tomará los valores 0-Masculino, 1Femenino, es discreta. Para ello definamos como variable aleatoria cada una de las variables de la base de datos: o

o

o o o o o

Color Favorito: Variable discreta, toma por ejemplo los valores: 0 para cuando sea Amarillo, 1 para Azul, 2 para Morado, 3 para Rojo y 4 para el Verde. Music Sem: Si se considera una cantidad entera como aparece en la base de datos, dirémos que es discreta con valores entre 622 y 3419 como se vió en el primer punto de este taller. Asignaturas: Variable discreta ya que sus valores son enteros entre 3 y 8. Sexo: Se definió en el ejemplo como discreta con valores 0 para Masculino y 1 para Femenino. Altura: En este caso al ser una medición que admite números decimales dirémos que es contínua con valores entre 141,25 y 194,09. Peso: De igual forma que Altura, esta variable es contínua con valores entre: 16,31 y 150,45. Semestre: Esta por su parte es discreta con valores entre 1 y 8.