CONSOLIDADO

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL INSTITUCION UNIVERSITARIA POLITECNICO GRAN COLOMBIANO ESTADISTICA I

Views 299 Downloads 7 File size 443KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

INSTITUCION UNIVERSITARIA POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

INTEGRANTES:

ESTEFANIA JIMENEZ OSORIO COD: 1811021001. JOHNATAN FELIPE TORRES HERNANDEZ

COD:

JOSE LIZARDO RODRIGUEZ AVILA

COD: 1711023302.

MARIA LUISA GARCIA BARRETO

COD: 1811025615.

SEBASTIAN VARGAS CRUZ

COD: 1821021181.

FACULTAD DE INGENIERIA Y CIENCIAS BASICAS

2019

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

INTRODUCCION La Estadística inferencial se considera como el concepto más simple que se tiene para definir la facilitación y solución de problemas, de esta manera es sencillo identificar características que normalmente no vemos, esta se relaciona con los procesos y la utilización de datos, también genera modelos, inferencias y predicciones basándose en cuentas aleatorias. El contraste de hipótesis, la estimación de parámetros y la toma de muestras son algunas de las características que la estadística inferencial muestra. A partir de este documento se observara mediante una serie de ejercicios la mejor manera de implementar todas las técnicas que este módulo nos brinda, aprenderemos a ejecutar la estadística, elaborando un modelo que resultara siendo práctico para la solución del problema, estimaremos parámetros y trataremos una serie de datos que plasmaremos en cada etapa de este trabajo grupal.

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

OBJETIVO GENERAL Desarrollar el trabajo grupal planteado por el tutor de área, simplificando cada ejercicio y aplicando cada uno de los conceptos básicos

OBJETIVOS ESPECIFICOS ➢ Conocer cada uno de los métodos que nos plantea el módulo de Estadística Inferencial. ➢ Determinar la solución de la problemática planteada basados en formulas, procesos e identificaciones de términos. ➢ Identificar las probabilidades en cada situación. ➢ Desarrollar el trabajo de manera óptima, consultando y aprovechando aportes grupales de todos los compañeros.

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

TRABAJO GRUPAL FORO SEMANA 3, 4 Y 5 ESTADISTICA INFERENCIAL El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor el comportamiento de compra del cliente frente a diferentes productos. Específicamente, el problema que estamos tratando de predecir la variable dependiente (el monto de la compra) con la ayuda de la información contenida en las otras variables. Las variables del archivo adjunto son las siguientes:

Identificador único del comprador User_ID Identificador único del producto. Product_ID Sexo del comprador Gender Edad del comprador dividida en contenedores Age Ocupación del comprador. Occupation Lugar de residencia del comprador. City_Category Número de años en la ciudad actual Stay_In_Current_City_Years Estado civil del comprador Marital_Status Categoría de producto de compra Product_Category_1 El producto puede pertenecer a otra categoría Product_Category_2 El producto puede pertenecer a otra categoría Product_Category_3

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

Valor de la compra en dólares Purchase

En el siguiente link podrá descargar el archivo: http://bit.ly/2M8AZmG Por lo anterior se sugiere que realice la siguiente: Utilizando la variable del valor de la compra (Purchase), realice lo siguiente: 1. Realice un histograma y explique la forma y la curtosis según el contexto. 2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e interprete los resultados. En relación a las variables dadas en la tabla anterior, responda y justifique los resultados: 3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday? 3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra? 3.3 ¿La proporción de hombres que compran es mayor que la de mujeres? 3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres? Intervalos de confianza 4.1 ¿Cuál es el tamaño de la muestra que se requiere?. Si se exige un error relativo del 2% y un nivel de confianza del 95% 4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

SOLUCION 1. Realice un histograma y explique la forma y la curtosis según el contexto. Se realiza el histograma teniendo en cuenta la variable Purchase, luego se saca los siguientes datos: cálculos previos numero de datos

537577

límite inferior

185

límite superior

23961

rango

23776

numero de clases

21

tamaño de clase

1133

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

Con en base a los datos anteriores se sacan los intervalos de clase: intervalos de clase numero de clases límite inferior

límite superior

1

185

1318

2

1318

2451

3

2451

3584

4

3584

4717

5

4717

5850

6

5850

6983

7

6983

8116

8

8116

9249

9

9249

10382

10

10382

11515

11

11515

12648

12

12648

13781

13

13781

14914

14

14914

16047

15

16047

17180

16

17180

18313

17

18313

19446

18

19446

20579

19

20579

21712

20

21712

22845

21

22845

23978

0

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

Teniendo los datos anteriores Se forma el histograma con la siguiente información: marca se clase

clases

Frecuencia

f % de acomulada frecuencia

% acumulado

185

1318

751,5

7918

7918

1%

1,47%

1318

2451

1884,5

24257

32175

5%

5,99%

2451

3584

3017,5

20378

52553

4%

9,78%

3584

4717

4150,5

36575

89128

7%

16,58%

4717

5850

5283,5

44191

133319

8%

24,80%

5850

6983

6416,5

53750

187069

10%

34,80%

6983

8116

7549,5

89583

276652

17%

51,46%

8116

9249

8682,5

45174

321826

8%

59,87%

9249

10382

9815,5

37276

359102

7%

66,80%

10382

11515

10948,5

15204

374306

3%

69,63%

11515

12648

12081,5

37410

411716

7%

76,59%

12648

13781

13214,5

15793

427509

3%

79,53%

13781

14914

14347,5

1106

428615

0%

79,73%

14914

16047

15480,5

49343

477958

9%

88,91%

16047

17180

16613,5

15712

493670

3%

91,83%

17180

18313

17746,5

544

494214

0%

91,93%

18313

19446

18879,5

20359

514573

4%

95,72%

19446

20579

20012,5

16579

531152

3%

98,81%

20579

21712

21145,5

4108

535260

1%

99,57%

21712

22845

22278,5

16

535276

0%

99,57%

22845

23978

23411,5

2300

537576

0%

100,00%

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

100000 90000 80000 70000 60000 50000 40000 30000 20000 10000 0

120,00%

100,00% 80,00% 60,00% 40,00%

Frecuencia

20,00%

% acumulado

0,00%

751,5 1884,5 3017,5 4150,5 5283,5 6416,5 7549,5 8682,5 9815,5 10948,5 12081,5 13214,5 14347,5 15480,5 16613,5 17746,5 18879,5 20012,5 21145,5 22278,5 23411,5

Frecuencia

Histograma

CURTOSIS Si observamos cuando la concentración de la media es baja, la curva tiende a ser llamada platykurtica. Gráfico de intervalos:

frecuencias

gráfico de frecuencias 100000 89583 90000 80000 70000 53750 60000 49343 45174 44191 50000 37410 37276 36575 40000 24257 30000 20378 20359 16579 15793 15712 15204 20000 7918 4108 10000 1106 544 16 2300 0

clases

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e interprete los resultados. En base a la variable Purchase se saca la siguiente información: Media

9333,86

Mediana

6875,00

Moda

6855,00

varianza desv.estándar coef. De variacion

24810581,49 4981,02 0,53

En relación con las variables dadas en la tabla anterior, responda y justifique los resultados: 3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday? Para dar solución a este punto, vamos a usar la siguiente formula contar.si para obtener la totalidad de datos. TOTAL DE DATOS 537577 Age 0-17

14707

55+

20903

26-35

214690

46-50

44526

51-55

37618

36-45

107499

18-25

97634

Copiamos la variable age y usamos la opción quitar datos y usamos la formula contar.si.conjunto para definir la cantidad de la variable age que más compra ; Si observamos los datos, la edad que más compro es: EDAD QUE MAS COMPRA 26-35 con 214690

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra? Teniendo en cuenta el punto anterior se sabe que la categoría de edad que más realizo compras fue 26-35 se copia la variable age y purchase para filtrar la edad y así obtener los distintos valores. El siguiente paso es hacer uso de la formula promedio para sacar la totalidad del valor de compra: PROMEDIO 9315

3.3 ¿La proporción de hombres que compran es mayor que la de mujeres? Para dar solución tomamos una copia de la categoría gender y usamos la etiqueta quitar duplicados, luego hacemos uso de la formula contar.si.conjunto para hallar la cantidad de cada género; también se hace uso de la formula contar.si para definir el total de datos. TOTAL DE DATOS 537577 Gender F M

132197 405380

La solución de la anterior pregunta es: sí, la proporción de hombres hace más compras en un total de 405380, y las mujeres que comprando fueron 132197.

3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres? Teniendo en cuenta el punto anterior se sabe que la categoría de gender el que menos realizo compras fue la mujer se copia la variable gender y purchase para filtrar la variable hombres y así obtener los distintos valores. El siguiente paso es hacer uso de la formula promedio para sacar el promedio de compras de la variable hombre: PROMEDIO DE COMPRAS HOMBRES 9505

Teniendo en cuenta el punto anterior se sabe que la categoría de gender el que menos realizo compras fue la mujer se copia la variable gender y purchase para filtrar la variable mujeres y así obtener los distintos valores.

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

El siguiente paso es hacer uso de la formula promedio para sacar el promedio de compras de la variable mujer: PROMEDIO COMPRAS MUJERES 8809 4.1 ¿Cuál es el tamaño de la muestra que se requiere? Si se exige un error relativo del 2% y un nivel de confianza del 95%. Si estimamos una media, debemos usar una estimación de dicha varianza en la fórmula. De esta forma, el tamaño de la muestra cuando se trabaja con universos finitos es: Donde N= tamaño de la poblacion z=1,96

El tamaño de la muestra seria 2390. 4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.

Para dar solución primero copiamos de la base blackfriday las categorias gender y puechase, luego filtramos primero la variable hombre, en base a los datos seleccionados sacamos la mediana, desviación estandar y la confianza; después sacamos el valor de z y el alfa, con estos datos hacemos uso de esta fórmula x+-*d/raiz(n).

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

HOMBRES DATOS MEDIA

8112

DESV EST

5051

CONFIANZA

95%

TAMAÑO DE MUESTRA

z

405380

1,96

alfa

5%

RESPUESTA Para sacar esta respuesta se usa la formula intervalo.confianza: 15,55

8096,45

límite inferior

8127,55

límite superior

intervalos x+-*d/raiz(n)

1

8096,45

2

8127,55

Para dar solución primero copiamos de la base blackfriday las categorias gender y puechase, luego filtramos primero la variable hombre, en base a los datos seleccionados sacamos la mediana, desviación estandar y la confianza; después sacamos el valor de z y el alfa, con estos datos hacemos uso de esta fórmula x+-*d/raiz(n).

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

MUJERES DATOS MEDIA

7929

DESV EST

4721

CONFIANZA

95%

TAMAÑO DE MUESTRA

132197

intervalos x+-*d/raiz(n)

z

1,96

alfa

5% 1

7903,55

2

7954,45

RESPUESTA Para sacar esta respuesta se usa la formula intervalo.confianza: 25,45

7903,55

límite inferior

7954,45

límite superior

POLITECNICO GRAN COLOMBIANO ESTADISTICA INFERENCIAL

CONCLUSIÓN Se realiza un histograma para identificar la frecuencia y acumulado de la variable purchase con el uso de las diferentes formulas para generar el resultado, también se idéntica una curtosis con la concentración de la media es baja, la curva tiende a ser llamada platykurtica; En base a los datos nombrados en la base black-Friday se saca la media, mediana, moda, varianza, dev.estandar y coef de variación de la variable purchase. Para los siguientes puntos se hace uso de diferentes formulas un ejemplo: contar.si, contar.si.conjunto para dar la solución de las preguntas don se nombran las variables age, gender y purchase, un ejemplo es: si los hombres generaban mas compras que las mujeres, la edad que más compra es, también se sacan los promedios de las compras de las variables age y gender. Por último, también hacemos uso de distintas formulas como

x+-*d/raiz(n) la fórmula de intervalo.confianza Para definir el tamaño de la muestra y el intervalo de confianza de las preguntas 4.1 y 4.2.