En el siguiente trabajo, cada estudiante debe contribuir a la solución de los ejercicios planteados y esta se debe evide
Views 152 Downloads 4 File size 760KB
En el siguiente trabajo, cada estudiante debe contribuir a la solución de los ejercicios planteados y esta se debe evidenciar en una participación activa dentro de cada una de las semanas 3, 4 y 5. ●
La evaluación de su participación semanal se basará en los siguientes rúbrica: http://bit.ly/2F1s9Cx
●
La evaluación del consolidado del Trabajo final se basará en la siguiente rúbrica: http://bit.ly/2tYeciq
Tenga presente que para cada uno de los ejercicios debe ser explícito con la solución que obtiene, son necesarios procedimientos.
Competencia ● ●
Identifica variables constantes y parámetros, y las relaciones que pueden existir entre ellos y su representación matemática. Desarrolla la estimación de parámetros mediante el uso de intervalos de confianza.
Objetivo Comprender el procedimiento para construir intervalo de confianza para estimar la diferencia de dos promedios poblacionales e interpretarlo.
Descripción El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor el comportamiento de compra del cliente frente a diferentes productos. Específicamente, el problema que estamos tratando de predecir la variable dependiente (el monto de la compra) con la ayuda de la información contenida en las otras variables. Las variables del archivo adjunto son las siguientes:
User_ID
Identificador único del comprador
Product_ID
Identificador único del producto.
Gender
Sexo del comprador
Age
Edad del comprador dividida en contenedores
Occupation
Ocupación del comprador.
City_Category
Lugar de residencia del comprador.
Stay_In_Current_City_Years
Número de años en la ciudad actual.
Marital_Status
Estado civil del comprador
Product_Category_1
Categoría de producto de compra
Product_Category_2
El producto puede pertenecer a otra categoría
Product_Category_3
El producto puede pertenecer a otra categoría
Purchase
Valor de la compra en dólares
En el siguiente link podrá descargar el archivo: http://bit.ly/2M8AZmG Por lo anterior se sugiere que realice la siguiente: Utilizando la variable del valor de la compra (Purchase), realice lo siguiente: 1. Realice un histograma y explique la forma y la curtosis según el contexto. 2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e interprete los resultados. En relación a las variables dadas en la tabla anterior, responda y justifique los resultados: 3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday? 3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra? 3.3 ¿La proporción de hombres que compran es mayor que la de mujeres? 3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres? Intervalos de confianza 4.1 ¿Cuál es el tamaño de la muestra que se requiere?. Si se exige un error al calcular la media del 2% y un nivel de confianza del 95%
4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.
Importante: En el Foro: Desarrollo del trabajo colaborativo. se debe evidenciar el borrador de cada uno de los anteriores interrogantes. Consolidar la información en un archivo PDF y con soporte de un archivo en excel, el cual debe ser subido en el Foro: Desarrollo del trabajo colaborativo. Este PDF debe tener (portada, objetivos, desarrollo de la actividad, resultados y referencias), el excel los cálculos y procedimientos.
Bibliografía Dagdoug, M. (10 de Julio de 2019). Black Friday Sales: Analysis an Prediction. Obtenido de Kaggle: https://www.kaggle.com/mehdidag/black-friday
DESARROLLO 1. Para la construcción de un histograma, es necesario que se genere una tabla de frecuencias Donde el rango= máximo-mínimo y el número de clases (o intervalos) se puede obtener usando la ecuación de Sturges 𝑁𝑐 = 1 + 3.322 ∗ log(𝑛) Entonces n Máximo Mínimo Rango Número de clases Amplitud
537577 23961 185 23776 20 1189
Nc Límite inferior Límite superior Marca de clase Frecuencia Absoluta 1 185 1374 779.5 8149 2 1374 2563 1968.5 24026 3 2563 3752 3157.5 28957 4 3752 4941 4346.5 28280
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
4941 6130 7319 8508 9697 10886 12075 13264 14453 15642 16831 18020 19209 20398 21587 22776
6130 7319 8508 9697 10886 12075 13264 14453 15642 16831 18020 19209 20398 21587 22776 23965
5535.5 6724.5 7913.5 9102.5 10291.5 11480.5 12669.5 13858.5 15047.5 16236.5 17425.5 18614.5 19803.5 20992.5 22181.5 23370.5
68558 61551 69588 35033 39737 39433 18846 5967 30227 33727 2071 11484 23404 6223 10 2306 537577
TOTAL
HISTOGRAMA DE FRECUENCIAS 70000 60000 50000 40000 30000 20000 10000
23370.5
22181.5
20992.5
19803.5
18614.5
17425.5
16236.5
15047.5
13858.5
12669.5
11480.5
10291.5
9102.5
7913.5
6724.5
5535.5
4346.5
3157.5
1968.5
0
779.5
fRECUENCIA ABSOLUTA
80000
PURCHASE (dólares)
La variable PURCHASE muestra una distribución aproximadamente normal con un sesgo a la izquierda, o lo que es lo mismo, una asimetría en la derecha. El coeficiente de curtosis de -0.343 sugiere que se trata de una distribución donde hay menor concentración de los datos alrededor de la media, por lo que su curva es más achatada (platicúrtica). Lo anterior, indica que el valor de compra no siempre ronda alrededor del promedio estimado sino que se presenta variabilidad y mayor dispersión.
2. A continuación, se muestran los parámetros para la variable PURCHASE o VALOR DE COMPRA MODA 6855 MEDIA 9334 MEDIANA 8062 DEVIACIÓN ESTÁNDAR 4981 COEF. VARIACIÓN 0.534 La moda, la media y la mediana son medidas de tendencia central del conjunto de datos. Así, se tiene que la moda representa el valor de compra con mayor frecuencia, la media es el valor promedio de las compras para la muestra de clientes y la mediana se refiere al punto medio donde la mitad de los datos está por debajo, y la otra mitad se encuentra por encima, es decir que el 50% del valor de las compras está por debajo de los 8062 dólares y el otro 50% del valor de las compras es superior a este monto. Ahora, con respecto a la desviación estándar de la muestra, se puede inferir una variabilidad y una dispersión significativa entre los valores de compra del conjunto de clientes y la media de esta variable. El coeficiente de variación, que tambien es una medida de dispersión, permite inferir una variación o dispersión de los valores de las compras con respecto a la media de la muestra del 53.4%. 3. 3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday? Categoría Edad
Frecuencia absoluta
0-17 14707 18-25 97634 26-35 214690 36-45 107499 46-50 44526 51-55 37618 55+ 20903 TOTAL 537577 Dada la frecuencia de cada categoría de edad, se encuentra que la categoría que más realiza compras en el Black Friday es la de 26-35 años. 3.2 ¿Cuál es promedio de gastos de la categoría de la edad que más compra? Los clientes de la categoría de edad entre 26 y 35 años, quienes son los que más compas realizan, gastan en promedio 9314.6 dólares. 3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?
Género F M TOTAL
Número de clientes 132197 405380 537577
Proporción % 24.6 75.4 100
Dada la frecuencia para las categorías de género, los hombres representan la mayor proporción de los clientes que compran en el Black Friday, siendo de 75.4% de total. 3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres? Los hombres gastan en promedio 9504.8 dólares y las mujeres gastan en promedio 8809.8 dólares. 4. Intervalos de confianza 4.1 ¿Cuál es el tamaño de la muestra que se requiere? Si se exige un error al calcular la media del 2% y un nivel de confianza del 95% El tamaño de muestra se calcula teniendo como fundamento la variable PURCHASE o Valor de compra, siendo esto, este será: 𝑍2𝜎 2 𝑛= 2 𝑒 𝑛=
1.962 ∗ 48912 = 2.38 ∗ 1011 0.022
Se usa Z=1.96 para una confianza de 95% y se usa el valor de la varianza para la variable. 4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido. Se procede a determinar el intervalo de confianza para la diferencia de medias, refiriéndonos a la diferencia en el gasto promedio entre hombres y mujeres. 𝜎12 𝜎22 𝜇1 − 𝜇2 = 𝑥̅1 − 𝑥̅2 ± 𝑧 ∗ √ + 𝑛1 𝑛2 (5051.1)2 (4721.4)2 𝜇1 − 𝜇2 = (9504.8 − 8809.8) ± 1.96 ∗ √ + 405380 132197 655.2𝑑ó𝑙𝑎𝑟𝑒𝑠 ≤ 𝜇1 − 𝜇2 ≤ 724.8𝑑ó𝑙𝑎𝑟𝑒𝑠
El intervalo de confianza construido es un rango de valores en el cual se encuentra con un nivel de confianza del 95% (alta probabilidad) el valor real de la diferencia de medias poblacionales para el gasto promedio en compras entre hombres y mujeres en el Black Friday, teniendo como base los parámetros muestrales.