Black Friday

En el siguiente trabajo, cada estudiante debe contribuir a la solución de los ejercicios planteados y esta se debe evide

Views 152 Downloads 4 File size 760KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

En el siguiente trabajo, cada estudiante debe contribuir a la solución de los ejercicios planteados y esta se debe evidenciar en una participación activa dentro de cada una de las semanas 3, 4 y 5. ●

La evaluación de su participación semanal se basará en los siguientes rúbrica: http://bit.ly/2F1s9Cx



La evaluación del consolidado del Trabajo final se basará en la siguiente rúbrica: http://bit.ly/2tYeciq

Tenga presente que para cada uno de los ejercicios debe ser explícito con la solución que obtiene, son necesarios procedimientos.

Competencia ● ●

Identifica variables constantes y parámetros, y las relaciones que pueden existir entre ellos y su representación matemática. Desarrolla la estimación de parámetros mediante el uso de intervalos de confianza.

Objetivo Comprender el procedimiento para construir intervalo de confianza para estimar la diferencia de dos promedios poblacionales e interpretarlo.

Descripción El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor el comportamiento de compra del cliente frente a diferentes productos. Específicamente, el problema que estamos tratando de predecir la variable dependiente (el monto de la compra) con la ayuda de la información contenida en las otras variables. Las variables del archivo adjunto son las siguientes:

User_ID

Identificador único del comprador

Product_ID

Identificador único del producto.

Gender

Sexo del comprador

Age

Edad del comprador dividida en contenedores

Occupation

Ocupación del comprador.

City_Category

Lugar de residencia del comprador.

Stay_In_Current_City_Years

Número de años en la ciudad actual.

Marital_Status

Estado civil del comprador

Product_Category_1

Categoría de producto de compra

Product_Category_2

El producto puede pertenecer a otra categoría

Product_Category_3

El producto puede pertenecer a otra categoría

Purchase

Valor de la compra en dólares

En el siguiente link podrá descargar el archivo: http://bit.ly/2M8AZmG Por lo anterior se sugiere que realice la siguiente: Utilizando la variable del valor de la compra (Purchase), realice lo siguiente: 1. Realice un histograma y explique la forma y la curtosis según el contexto. 2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e interprete los resultados. En relación a las variables dadas en la tabla anterior, responda y justifique los resultados: 3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday? 3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra? 3.3 ¿La proporción de hombres que compran es mayor que la de mujeres? 3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres? Intervalos de confianza 4.1 ¿Cuál es el tamaño de la muestra que se requiere?. Si se exige un error al calcular la media del 2% y un nivel de confianza del 95%

4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.

Importante: En el Foro: Desarrollo del trabajo colaborativo. se debe evidenciar el borrador de cada uno de los anteriores interrogantes. Consolidar la información en un archivo PDF y con soporte de un archivo en excel, el cual debe ser subido en el Foro: Desarrollo del trabajo colaborativo. Este PDF debe tener (portada, objetivos, desarrollo de la actividad, resultados y referencias), el excel los cálculos y procedimientos.

Bibliografía Dagdoug, M. (10 de Julio de 2019). Black Friday Sales: Analysis an Prediction. Obtenido de Kaggle: https://www.kaggle.com/mehdidag/black-friday

DESARROLLO 1. Para la construcción de un histograma, es necesario que se genere una tabla de frecuencias Donde el rango= máximo-mínimo y el número de clases (o intervalos) se puede obtener usando la ecuación de Sturges 𝑁𝑐 = 1 + 3.322 ∗ log⁡(𝑛) Entonces n Máximo Mínimo Rango Número de clases Amplitud

537577 23961 185 23776 20 1189

Nc Límite inferior Límite superior Marca de clase Frecuencia Absoluta 1 185 1374 779.5 8149 2 1374 2563 1968.5 24026 3 2563 3752 3157.5 28957 4 3752 4941 4346.5 28280

5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

4941 6130 7319 8508 9697 10886 12075 13264 14453 15642 16831 18020 19209 20398 21587 22776

6130 7319 8508 9697 10886 12075 13264 14453 15642 16831 18020 19209 20398 21587 22776 23965

5535.5 6724.5 7913.5 9102.5 10291.5 11480.5 12669.5 13858.5 15047.5 16236.5 17425.5 18614.5 19803.5 20992.5 22181.5 23370.5

68558 61551 69588 35033 39737 39433 18846 5967 30227 33727 2071 11484 23404 6223 10 2306 537577

TOTAL

HISTOGRAMA DE FRECUENCIAS 70000 60000 50000 40000 30000 20000 10000

23370.5

22181.5

20992.5

19803.5

18614.5

17425.5

16236.5

15047.5

13858.5

12669.5

11480.5

10291.5

9102.5

7913.5

6724.5

5535.5

4346.5

3157.5

1968.5

0

779.5

fRECUENCIA ABSOLUTA

80000

PURCHASE (dólares)

La variable PURCHASE muestra una distribución aproximadamente normal con un sesgo a la izquierda, o lo que es lo mismo, una asimetría en la derecha. El coeficiente de curtosis de -0.343 sugiere que se trata de una distribución donde hay menor concentración de los datos alrededor de la media, por lo que su curva es más achatada (platicúrtica). Lo anterior, indica que el valor de compra no siempre ronda alrededor del promedio estimado sino que se presenta variabilidad y mayor dispersión.

2. A continuación, se muestran los parámetros para la variable PURCHASE o VALOR DE COMPRA MODA 6855 MEDIA 9334 MEDIANA 8062 DEVIACIÓN ESTÁNDAR 4981 COEF. VARIACIÓN 0.534 La moda, la media y la mediana son medidas de tendencia central del conjunto de datos. Así, se tiene que la moda representa el valor de compra con mayor frecuencia, la media es el valor promedio de las compras para la muestra de clientes y la mediana se refiere al punto medio donde la mitad de los datos está por debajo, y la otra mitad se encuentra por encima, es decir que el 50% del valor de las compras está por debajo de los 8062 dólares y el otro 50% del valor de las compras es superior a este monto. Ahora, con respecto a la desviación estándar de la muestra, se puede inferir una variabilidad y una dispersión significativa entre los valores de compra del conjunto de clientes y la media de esta variable. El coeficiente de variación, que tambien es una medida de dispersión, permite inferir una variación o dispersión de los valores de las compras con respecto a la media de la muestra del 53.4%. 3. 3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday? Categoría Edad

Frecuencia absoluta

0-17 14707 18-25 97634 26-35 214690 36-45 107499 46-50 44526 51-55 37618 55+ 20903 TOTAL 537577 Dada la frecuencia de cada categoría de edad, se encuentra que la categoría que más realiza compras en el Black Friday es la de 26-35 años. 3.2 ¿Cuál es promedio de gastos de la categoría de la edad que más compra? Los clientes de la categoría de edad entre 26 y 35 años, quienes son los que más compas realizan, gastan en promedio 9314.6 dólares. 3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?

Género F M TOTAL

Número de clientes 132197 405380 537577

Proporción % 24.6 75.4 100

Dada la frecuencia para las categorías de género, los hombres representan la mayor proporción de los clientes que compran en el Black Friday, siendo de 75.4% de total. 3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres? Los hombres gastan en promedio 9504.8 dólares y las mujeres gastan en promedio 8809.8 dólares. 4. Intervalos de confianza 4.1 ¿Cuál es el tamaño de la muestra que se requiere? Si se exige un error al calcular la media del 2% y un nivel de confianza del 95% El tamaño de muestra se calcula teniendo como fundamento la variable PURCHASE o Valor de compra, siendo esto, este será: 𝑍2𝜎 2 𝑛= 2 𝑒 𝑛=

1.962 ∗ 48912 = 2.38 ∗ 1011 0.022

Se usa Z=1.96 para una confianza de 95% y se usa el valor de la varianza para la variable. 4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido. Se procede a determinar el intervalo de confianza para la diferencia de medias, refiriéndonos a la diferencia en el gasto promedio entre hombres y mujeres. 𝜎12 𝜎22 𝜇1 − 𝜇2 = 𝑥̅1 − 𝑥̅2 ± 𝑧 ∗ √ + 𝑛1 𝑛2 (5051.1)2 (4721.4)2 𝜇1 − 𝜇2 = (9504.8 − 8809.8) ± 1.96 ∗ √ + 405380 132197 655.2⁡𝑑ó𝑙𝑎𝑟𝑒𝑠 ≤ 𝜇1 − 𝜇2 ≤ 724.8⁡𝑑ó𝑙𝑎𝑟𝑒𝑠

El intervalo de confianza construido es un rango de valores en el cual se encuentra con un nivel de confianza del 95% (alta probabilidad) el valor real de la diferencia de medias poblacionales para el gasto promedio en compras entre hombres y mujeres en el Black Friday, teniendo como base los parámetros muestrales.