Descripción El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las transacciones realiz
Views 146 Downloads 1 File size 691KB
Descripción El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor el comportamiento de compra del cliente frente a diferentes productos. Específicamente, el problema que estamos tratando de predecir la variable dependiente (el monto de la compra) con la ayuda de la información contenida en las otras variables. Las variables del archivo adjunto son las siguientes: User_ID
Identificador único del comprador
Product_ID
Identificador único del producto.
Gender
Sexo del comprador
Age
Edad del comprador dividida en contenedores
Occupation
Ocupación del comprador.
City_Category
Lugar de residencia del comprador.
Stay_In_Current_City_Years
Número de años en la ciudad actual.
Marital_Status
Estado civil del comprador
Product_Category_1
Categoría de producto de compra
Product_Category_2
El producto puede pertenecer a otra categoría
Product_Category_3
El producto puede pertenecer a otra categoría
Purchase
Valor de la compra en dólares
Utilizando la variable del valor de la compra (Purchase), realice lo siguiente: 1. Realice un histograma y explique la forma y la curtosis según el contexto.
n
537577,00 185,00 23961
Mín Máx el rango(R): R = Xmax– Xmin
23961-185=23776
• Número de intervalos. Aplicando la Regla de Sturges:
k = 1+ 3.322 log n =20,09 • Amplitud de los intervalos de clase. 𝐴=
𝑅 23776 = = 1188,8 𝐾 20
Tabla de frecuencias Variable Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase Purchase
Clase
LI 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
LS 185,0 1373,8 2562,6 3751,4 4940,2 6129,0 7317,8 8506,6 9695,4 10884,2 12073,0 13261,8 14450,6 15639,4 16828,2 18017,0 19205,8 20394,6 21583,4 22772,2
MC 1373,8 2562,6 3751,4 4940,2 6129,0 7317,8 8506,6 9695,4 10884,2 12073,0 13261,8 14450,6 15639,4 16828,2 18017,0 19205,8 20394,6 21583,4 22772,2 23961,0
FA 779,40 1968,20 3157,00 4345,80 5534,60 6723,40 7912,20 9101,00 10289,80 11478,60 12667,40 13856,20 15045,00 16233,80 17422,60 18611,40 19800,20 20989,00 22177,80 23366,60
FR 8116 24059 28913 28324 68478 61631 69581 34863 39891 39347 18874 6047 30066 33862 2098 11339 23486 6286 10 2306
0,020 0,040 0,050 0,050 0,130 0,110 0,130 0,060 0,070 0,070 0,040 0,010 0,060 0,060 0,000 0,020 0,040 0,010 0,000 0,000
70000 60000 50000 40000 30000 20000 10000 0 FA Series1
Series2
Series3
Series4
Series5
Series6
Series7
Series8
Series9
Series10
Series11
Series12
Series13
Series14
Series15
Series16
Series17
Series18
Series19
Series20
2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e interprete los resultados.
Media 9333,86 D.E. 4981,02
CV 53,37 Mediana 8062,00 Kurtosis -0,34 En relación a la variables dadas en la tabla anterior, responda y justifique los resultados: 3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday? edad 0-17 18-25 26-35 36-45 46-50 51-55 55+
f 14707 97634 214690 107499 44526 37618 20903 537577
f re 0,02735794 0,18161863 0,39936604 0,19996949 0,0828272 0,06997695 0,03888373
f% 2,73579413 18,1618633 39,9366044 19,9969493 8,28272043 6,99769521 3,8883732
F% 39.93660443
19.99694927
18.16186332
8.2827204296.997695214 3.8883732
2.735794128
0-17
18-25
26-35
36-45
46-50
51-55
55+
3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra? Aplicando la funcion (=PROMEDIO.SI.CONJUNTO(L2:L537578;D2:D537578;D198715)) a la hoja de calculo del ejercicio elresultado es:
9314,6 3.3 ¿La proporción de hombres que compran es mayor que la de mujeres? Usando la funcion (=CONTAR.SI(datos!C2:C537578;datos!C4) para el conteo de los hombres y (=CONTAR.SI(datos!C2:C537578;datos!C3) para las mujers
frecuencia fr re fr % hombres 405380 0,7541 75,409 mujeres 132197 0,2459 24,591 537577
Vemos que el % de hombres es 75.4% pocom,as de 3 veces el de la mujer 3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?
promedio hombres promedio mujeres
9504,771713 8809,761349
Intervalos de confianza 4.1 ¿Cuál es el tamano ̃ de la muestra que se requiere?. Si se exige un error relativo del 2% y un nivel de confianza del 95% 4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.
Importante: En el Foro: Desarrollo del trabajo colaborativo. se debe evidenciar el borrador de cada uno de los anteriores interrogantes. Consolidar la información en un archivo PDF y con soporte de un archivo en excel, el cual debe ser subido en el Foro: Desarrollo del trabajo colaborativo. Este PDF debe tener (portada, objetivos, desarrollo de la actividad, resultados y referencias), el excel los cálculos y procedimientos.
Bibliografía Dagdoug, M. (10 de Julio de 2019). Black Friday Sales: Analysis an Prediction. Obtenido de Kaggle: https://www.kaggle.com/mehdidag/black-friday