Black Friday (2).docx

PORTADA Objetivos  Reconocer los elementos y conceptos de una tabla de frecuencia.  Organizar los datos en tablas de

Views 109 Downloads 1 File size 723KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

PORTADA

Objetivos  Reconocer los elementos y conceptos de una tabla de frecuencia.  Organizar los datos en tablas de frecuencias.  Interpretar tablas de frecuencias.  Elaborar graficas a partir de las tablas de frecuencia.  Desarrollar destrezas para calcular medidas de dispersión como el coeficiente de variación.  Utilizar los conceptos aprendidos en la materia de Estadística II en un caso de la vida real.  El estudiante debe aprender a construir un intervalo de confianza y entender este que significa.  El estudiante debe aprender a manejar datos, construir graficas y tabular datos por medio de Excel. Desarrollo de la actividad Utilizando la variable del valor de la compra (Purchase), realice lo siguiente:

1. Realice un histograma y explique la forma y la curtosis según el contexto. Lo primero que se debe hacer para realizar el histograma es construir la tabla de frecuencias, para ello se mira cual es el valor máximo, el valor mínimo, el numero de datos y el rango de la variable Purchase por intermedio de Excel y se obtuvo: Numero de datos

537.577

Valor máximo

23.961

Valor mínimo

185

Rango

23.776

Luego se utilizo la regla de Sturges para determinar el número de clases, para esto utilizamos la fórmula: K = (1 + 3,3 * log10 n) Y la amplitud se obtiene dividiendo el rango en la amplitud, los valores que se obtuvieron en Excel fueron: Numero de datos Valor máximo

537.577

23.961 Valor mínimo

185

Rango

23.776

Numero de intervalos

20

19,91

Amplitud

1188

1.188,80

Con esto y por medio de Excel se procedió a realizar la tabla de frecuencia, esta tabla se presenta a continuación:

Intervalo No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Límite inferior Límite superior Intervalos Marca de clase Frecuencia absoluta Frecuencia relativa 185 1.374 185 - 1374 780 8.149 1,52% 1.375 2.564 1375 - 2564 1.970 24.026 4,47% 2.565 3.754 2565 - 3754 3.160 29.080 5,41% 3.755 4.944 3755 - 4944 4.350 28.159 5,24% 4.945 6.134 4945 - 5134 5.540 68.929 12,82% 6.135 7.324 6135 - 6324 6.730 61.179 11,38% 7.325 8.514 7325 - 7514 7.920 69.613 12,95% 8.515 9.704 8515 - 8704 9.110 35.606 6,62% 9.705 10.894 9705 - 9894 10.300 39.256 7,30% 10.895 12.084 10895 - 10084 11.490 39.804 7,40% 12.085 13.274 12085 - 11274 12.680 18.620 3,46% 13.275 14.464 13275 - 12464 13.870 5.720 1,06% 14.465 15.654 14465 - 13654 15.060 30.973 5,76% 15.655 16.844 15655 - 14844 16.250 33.087 6,15% 16.845 18.034 16845 - 15034 17.440 1.949 0,36% 18.035 19.224 18035 - 16224 18.630 12.055 2,24% 19.225 20.414 19225 - 17414 19.820 23.038 4,29% 20.415 21.604 20415 - 18604 21.010 6018 1,12% 21.605 22.794 21605 - 19794 22.200 11 0,00% 22.795 23.984 22795 - 20984 23.390 2305 0,43% TOTAL 537.577 100,00%

Con esto se procedió a graficar el histograma por medio de Excel, el cual es mostrado a continuación:

FRECUENCIA

Histograma 80,000 70,000 60,000 50,000 40,000 30,000 20,000 10,000 -

CLASE Series1

Para este caso se tiene asimetría positiva, esto significa que la cola de la distribución se alarga (a la derecha) para valores superiores a la media. Para la curtosis no es muy claro gráficamente como podemos ver a continuación que tipo de curtosis se presenta, por ello se calculo la curtosis por medio de Excel y se obtuvo: Curtosis

-0,343121373

Curtosis 80,000 70,000

FRECUENCIA

60,000 50,000 40,000 30,000 20,000 10,000 0

5

10

15 CLASE Series1

20

25

Al ser este valor menor que cero, se puede afirmar que la distribución es Platicúrtica. 2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e interprete los resultados. Todos estos datos fueron calculados por medio de las funciones que ofrece Excel y se obtuvo los siguientes valores: Media Mediana Moda Desviación estándar Coeficiente de variación

9333,86 8062 6855 4981,02 53,37%

La media es el valor promedio de los datos, para este caso podemos ver que esta mas a la derecha en el histograma de los valores de mayor recurrencia. La mediana representa el valor de la variable de posición central, para este caso podemos ver que es algo menor que la media. La moda es el valor que mas se repite en los datos, como podemos ver este valor se encuentra en la barra de mayor tamaño del histograma. La desviación estándar, nos indica qué tan dispersos están los datos con respecto a la media, para este caso se puede decir que la desviación estándar es aproximadamente la mitad de la media. El coeficiente de variación se obtiene dividiendo la desviación estándar en la media, se obtuvo un valor de 53,37%, este valor es algo elevado y por ello se puede afirmar que los datos de la variable Purchase se encuentran bastante dispersos. 3. En relación a la variables dadas en la tabla anterior, responda y justifique los resultados: 3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday? Para esta parte calculamos una tabla de frecuencias pero esta vez con las edades y se obtuvo: Rango

Frecuencia

0-17

14.707

18-25

97.634

26-35

214.690

36-45 46-50

107.499

44.526 51-55

37.618

55+

20.903

TOTAL

537.577

Como podemos ver las edades que más compran en el Black Friday son las ubicados en el rango de 26 a 35 años. 3.2 ¿Cuál es promedio de gastos de la categoría de la edad que más compra? Filtramos la edad de 26 a 35 años por medio de Excel y calculamos el promedio, para este caso toca utilizar la función subtotal y la opción uno, para que nos devuleva el promedio de los datos filtrados y se obtuvo: Gastos promedio de 26 35

9.314,59

3.3 ¿La proporción de hombres que compran es mayor que la de mujeres? De nuevo calculamos una nueva tabla de frecuencias, pero esta vez teniendo en cuenta el genero de los compradores y se obtuvo: Rango Frecuencia M

405.380

F

132.197

TOTAL

537.577

Podemos ver claramente como la cantidad de hombres que compran es superior a la de mujeres. 3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres? De forma similar a la realizada en el punto 3.2 calculamos el promedio de los gastos de los hombres y de las mujeres, con esto se tienen los siguientes valores: Gastos promedio hombres

9.504,77

Gastos promedio mujeres 8.809,76

Podemos ver como los hombres gastan más que las mujeres. Intervalos de confianza 4.1 ¿Cuál es el tamaño de la muestra que se requiere?. Si se exige un error relativo del 2% y un nivel de confianza del 95% Se va a utilizar la formula para calcular la muestra de una población finita, la cual es:

Estimación de la proporción de mujeres La estimación de la proporción de mujeres es igual a p, que lo vamos a tomar como la cantidad de hombres que compraron en el brack friday, dividido entre N. N = 537577 Cantidad de mujeres = 132197 Cantidad de hombres = 405380 𝑝=

𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 ℎ𝑜𝑚𝑏𝑟𝑒 405380 = = 0.75 𝑁 537577

Ahora se realiza el mismo calculo, para los hombres:

𝑞=

𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 132197 = = 0.25 𝑁 537577

Nivel de confiabilidad Los valores de confianza en la tabla Z son:

Para este caso se va a utilizar un nivel de confiabilidad del 95%, esto significa que Z=1,96 Error de estimación Se va a utilizar un error de estimación del 2%, esto equivale a que e=0,02. Cálculo del tamaño de la muestra Se reemplazan todos los valores en la formula anterior y se obtiene: 𝑛=

(537.577) (1,96)2 (0,75)(0,25) = 1794,74 (0,02)2 (537.576) + ((1,96)2 (0,75)(0,25))

Por ello se dice que nuestra muestra debe tener un total de 1795 datos. 4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido. Para esta parte se debe utilizar la formula para calcular un intervalo de confianza para diferencias la cual es:

Z sabemos que es de 1.96 por que el intervalo de confianza se mantiene al 95%, n depende del tamaño si es de los hombres o de las mujeres. 𝑋1 = 9.504,77 Media de gastos de hombres 𝑋2 = 8.809,76 Media de gastos de mujeres 𝑛1 = 405.380 Cantidad de hombres 𝑛2 = 132.197 Cantidad de mujeres Ahora nos falta calcular la desviación estándar de hombres y mujeres, esto se realiza por medio de Excel y se obtiene: 𝑆1 = 4.721,44 Desviación estándar de hombres 𝑆2 =5.051,05 Desviación estándar de hombres de mujeres

Ahora reemplazamos valores

4.721,442 5.051,052 9.504,77 − 8.809,76 ± 1.96 √ + 9.504,77 8.809,76 695.01 ± 141.89 Este intervalo de confianza tendría su límite inferior en 553.12 y el superior en 836.9 Conclusiones     

Las tablas de frecuencias son herramientas muy útiles en la vida cotidiana puesto que nos ayudan a las personas que las utilizan a darse cuenta de la situación que guarda los datos que la componen. Una tabla de frecuencia nos permite analizar con mayor facilidad un grupo de datos sin que se tenga que considerar individualmente cada dato. Por medio de la estadística se puede analizar un conjunto de datos y predecir lo que pueda pasar en un futuro como con el precio de las acciones. Cuando los datos son muy grandes es bastante complicado analizarlos, por ello se hace conveniente tomar una muestra, pero toca tener en cuenta el tamaño de la muestra, no se puede tomar de cualquier tamaño. El manejo de base de datos grandes es mucho más sencillo por medio de Excel, ya que sus funciones nos permiten analizar los datos.

 

Las gráficas de Excel son una herramienta muy útil, ya que nos permite desde otra perspectiva analizar valores numéricos La estadística descriptiva tiene muchas aplicaciones en la vida real, como en este caso el análisis de los datos obtenidos en las ventas del Black Friday.