POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL INSTITUCION UNIVERSITARIA POLITECNICO GRAN COLOMBIANO ESTADISTICA I
Views 299 Downloads 7 File size 443KB
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
INSTITUCION UNIVERSITARIA POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
INTEGRANTES:
ESTEFANIA JIMENEZ OSORIO COD: 1811021001. JOHNATAN FELIPE TORRES HERNANDEZ
COD:
JOSE LIZARDO RODRIGUEZ AVILA
COD: 1711023302.
MARIA LUISA GARCIA BARRETO
COD: 1811025615.
SEBASTIAN VARGAS CRUZ
COD: 1821021181.
FACULTAD DE INGENIERIA Y CIENCIAS BASICAS
2019
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
INTRODUCCION La Estadística inferencial se considera como el concepto más simple que se tiene para definir la facilitación y solución de problemas, de esta manera es sencillo identificar características que normalmente no vemos, esta se relaciona con los procesos y la utilización de datos, también genera modelos, inferencias y predicciones basándose en cuentas aleatorias. El contraste de hipótesis, la estimación de parámetros y la toma de muestras son algunas de las características que la estadística inferencial muestra. A partir de este documento se observara mediante una serie de ejercicios la mejor manera de implementar todas las técnicas que este módulo nos brinda, aprenderemos a ejecutar la estadística, elaborando un modelo que resultara siendo práctico para la solución del problema, estimaremos parámetros y trataremos una serie de datos que plasmaremos en cada etapa de este trabajo grupal.
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
OBJETIVO GENERAL Desarrollar el trabajo grupal planteado por el tutor de área, simplificando cada ejercicio y aplicando cada uno de los conceptos básicos
OBJETIVOS ESPECIFICOS ➢ Conocer cada uno de los métodos que nos plantea el módulo de Estadística Inferencial. ➢ Determinar la solución de la problemática planteada basados en formulas, procesos e identificaciones de términos. ➢ Identificar las probabilidades en cada situación. ➢ Desarrollar el trabajo de manera óptima, consultando y aprovechando aportes grupales de todos los compañeros.
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
TRABAJO GRUPAL FORO SEMANA 3, 4 Y 5 ESTADISTICA INFERENCIAL El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor el comportamiento de compra del cliente frente a diferentes productos. Específicamente, el problema que estamos tratando de predecir la variable dependiente (el monto de la compra) con la ayuda de la información contenida en las otras variables. Las variables del archivo adjunto son las siguientes:
Identificador único del comprador User_ID Identificador único del producto. Product_ID Sexo del comprador Gender Edad del comprador dividida en contenedores Age Ocupación del comprador. Occupation Lugar de residencia del comprador. City_Category Número de años en la ciudad actual Stay_In_Current_City_Years Estado civil del comprador Marital_Status Categoría de producto de compra Product_Category_1 El producto puede pertenecer a otra categoría Product_Category_2 El producto puede pertenecer a otra categoría Product_Category_3
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
Valor de la compra en dólares Purchase
En el siguiente link podrá descargar el archivo: http://bit.ly/2M8AZmG Por lo anterior se sugiere que realice la siguiente: Utilizando la variable del valor de la compra (Purchase), realice lo siguiente: 1. Realice un histograma y explique la forma y la curtosis según el contexto. 2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e interprete los resultados. En relación a las variables dadas en la tabla anterior, responda y justifique los resultados: 3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday? 3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra? 3.3 ¿La proporción de hombres que compran es mayor que la de mujeres? 3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres? Intervalos de confianza 4.1 ¿Cuál es el tamaño de la muestra que se requiere?. Si se exige un error relativo del 2% y un nivel de confianza del 95% 4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
SOLUCION 1. Realice un histograma y explique la forma y la curtosis según el contexto. Se realiza el histograma teniendo en cuenta la variable Purchase, luego se saca los siguientes datos: cálculos previos numero de datos
537577
límite inferior
185
límite superior
23961
rango
23776
numero de clases
21
tamaño de clase
1133
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
Con en base a los datos anteriores se sacan los intervalos de clase: intervalos de clase numero de clases límite inferior
límite superior
1
185
1318
2
1318
2451
3
2451
3584
4
3584
4717
5
4717
5850
6
5850
6983
7
6983
8116
8
8116
9249
9
9249
10382
10
10382
11515
11
11515
12648
12
12648
13781
13
13781
14914
14
14914
16047
15
16047
17180
16
17180
18313
17
18313
19446
18
19446
20579
19
20579
21712
20
21712
22845
21
22845
23978
0
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
Teniendo los datos anteriores Se forma el histograma con la siguiente información: marca se clase
clases
Frecuencia
f % de acomulada frecuencia
% acumulado
185
1318
751,5
7918
7918
1%
1,47%
1318
2451
1884,5
24257
32175
5%
5,99%
2451
3584
3017,5
20378
52553
4%
9,78%
3584
4717
4150,5
36575
89128
7%
16,58%
4717
5850
5283,5
44191
133319
8%
24,80%
5850
6983
6416,5
53750
187069
10%
34,80%
6983
8116
7549,5
89583
276652
17%
51,46%
8116
9249
8682,5
45174
321826
8%
59,87%
9249
10382
9815,5
37276
359102
7%
66,80%
10382
11515
10948,5
15204
374306
3%
69,63%
11515
12648
12081,5
37410
411716
7%
76,59%
12648
13781
13214,5
15793
427509
3%
79,53%
13781
14914
14347,5
1106
428615
0%
79,73%
14914
16047
15480,5
49343
477958
9%
88,91%
16047
17180
16613,5
15712
493670
3%
91,83%
17180
18313
17746,5
544
494214
0%
91,93%
18313
19446
18879,5
20359
514573
4%
95,72%
19446
20579
20012,5
16579
531152
3%
98,81%
20579
21712
21145,5
4108
535260
1%
99,57%
21712
22845
22278,5
16
535276
0%
99,57%
22845
23978
23411,5
2300
537576
0%
100,00%
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
100000 90000 80000 70000 60000 50000 40000 30000 20000 10000 0
120,00%
100,00% 80,00% 60,00% 40,00%
Frecuencia
20,00%
% acumulado
0,00%
751,5 1884,5 3017,5 4150,5 5283,5 6416,5 7549,5 8682,5 9815,5 10948,5 12081,5 13214,5 14347,5 15480,5 16613,5 17746,5 18879,5 20012,5 21145,5 22278,5 23411,5
Frecuencia
Histograma
CURTOSIS Si observamos cuando la concentración de la media es baja, la curva tiende a ser llamada platykurtica. Gráfico de intervalos:
frecuencias
gráfico de frecuencias 100000 89583 90000 80000 70000 53750 60000 49343 45174 44191 50000 37410 37276 36575 40000 24257 30000 20378 20359 16579 15793 15712 15204 20000 7918 4108 10000 1106 544 16 2300 0
clases
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e interprete los resultados. En base a la variable Purchase se saca la siguiente información: Media
9333,86
Mediana
6875,00
Moda
6855,00
varianza desv.estándar coef. De variacion
24810581,49 4981,02 0,53
En relación con las variables dadas en la tabla anterior, responda y justifique los resultados: 3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday? Para dar solución a este punto, vamos a usar la siguiente formula contar.si para obtener la totalidad de datos. TOTAL DE DATOS 537577 Age 0-17
14707
55+
20903
26-35
214690
46-50
44526
51-55
37618
36-45
107499
18-25
97634
Copiamos la variable age y usamos la opción quitar datos y usamos la formula contar.si.conjunto para definir la cantidad de la variable age que más compra ; Si observamos los datos, la edad que más compro es: EDAD QUE MAS COMPRA 26-35 con 214690
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra? Teniendo en cuenta el punto anterior se sabe que la categoría de edad que más realizo compras fue 26-35 se copia la variable age y purchase para filtrar la edad y así obtener los distintos valores. El siguiente paso es hacer uso de la formula promedio para sacar la totalidad del valor de compra: PROMEDIO 9315
3.3 ¿La proporción de hombres que compran es mayor que la de mujeres? Para dar solución tomamos una copia de la categoría gender y usamos la etiqueta quitar duplicados, luego hacemos uso de la formula contar.si.conjunto para hallar la cantidad de cada género; también se hace uso de la formula contar.si para definir el total de datos. TOTAL DE DATOS 537577 Gender F M
132197 405380
La solución de la anterior pregunta es: sí, la proporción de hombres hace más compras en un total de 405380, y las mujeres que comprando fueron 132197.
3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres? Teniendo en cuenta el punto anterior se sabe que la categoría de gender el que menos realizo compras fue la mujer se copia la variable gender y purchase para filtrar la variable hombres y así obtener los distintos valores. El siguiente paso es hacer uso de la formula promedio para sacar el promedio de compras de la variable hombre: PROMEDIO DE COMPRAS HOMBRES 9505
Teniendo en cuenta el punto anterior se sabe que la categoría de gender el que menos realizo compras fue la mujer se copia la variable gender y purchase para filtrar la variable mujeres y así obtener los distintos valores.
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
El siguiente paso es hacer uso de la formula promedio para sacar el promedio de compras de la variable mujer: PROMEDIO COMPRAS MUJERES 8809 4.1 ¿Cuál es el tamaño de la muestra que se requiere? Si se exige un error relativo del 2% y un nivel de confianza del 95%. Si estimamos una media, debemos usar una estimación de dicha varianza en la fórmula. De esta forma, el tamaño de la muestra cuando se trabaja con universos finitos es: Donde N= tamaño de la poblacion z=1,96
El tamaño de la muestra seria 2390. 4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.
Para dar solución primero copiamos de la base blackfriday las categorias gender y puechase, luego filtramos primero la variable hombre, en base a los datos seleccionados sacamos la mediana, desviación estandar y la confianza; después sacamos el valor de z y el alfa, con estos datos hacemos uso de esta fórmula x+-*d/raiz(n).
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
HOMBRES DATOS MEDIA
8112
DESV EST
5051
CONFIANZA
95%
TAMAÑO DE MUESTRA
z
405380
1,96
alfa
5%
RESPUESTA Para sacar esta respuesta se usa la formula intervalo.confianza: 15,55
8096,45
límite inferior
8127,55
límite superior
intervalos x+-*d/raiz(n)
1
8096,45
2
8127,55
Para dar solución primero copiamos de la base blackfriday las categorias gender y puechase, luego filtramos primero la variable hombre, en base a los datos seleccionados sacamos la mediana, desviación estandar y la confianza; después sacamos el valor de z y el alfa, con estos datos hacemos uso de esta fórmula x+-*d/raiz(n).
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
MUJERES DATOS MEDIA
7929
DESV EST
4721
CONFIANZA
95%
TAMAÑO DE MUESTRA
132197
intervalos x+-*d/raiz(n)
z
1,96
alfa
5% 1
7903,55
2
7954,45
RESPUESTA Para sacar esta respuesta se usa la formula intervalo.confianza: 25,45
7903,55
límite inferior
7954,45
límite superior
POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL
CONCLUSIÓN Se realiza un histograma para identificar la frecuencia y acumulado de la variable purchase con el uso de las diferentes formulas para generar el resultado, también se idéntica una curtosis con la concentración de la media es baja, la curva tiende a ser llamada platykurtica; En base a los datos nombrados en la base black-Friday se saca la media, mediana, moda, varianza, dev.estandar y coef de variación de la variable purchase. Para los siguientes puntos se hace uso de diferentes formulas un ejemplo: contar.si, contar.si.conjunto para dar la solución de las preguntas don se nombran las variables age, gender y purchase, un ejemplo es: si los hombres generaban mas compras que las mujeres, la edad que más compra es, también se sacan los promedios de las compras de las variables age y gender. Por último, también hacemos uso de distintas formulas como
x+-*d/raiz(n) la fórmula de intervalo.confianza Para definir el tamaño de la muestra y el intervalo de confianza de las preguntas 4.1 y 4.2.