estadistica unidad 1

Introducción. ¿Por qué estudiar estadística? Los conceptos y métodos estadísticos nos permiten tomar decisiones ante la

Views 160 Downloads 0 File size 122KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

  • Author / Uploaded
  • tano
Citation preview

Introducción. ¿Por qué estudiar estadística? Los conceptos y métodos estadísticos nos permiten tomar decisiones ante la presencia de incertidumbre y variación. Sin incertidumbre y variación, habría poca necesidad de métodos estadísticos. En el mundo de los negocios, se usa la estadística para analizar resultados de estudios de marketing sobre nuevos productos, para ayudar a predecir ventas, o para medir el desempeño de un empleado. En …nanzas para decidir entre inversiones de diferente riesgo. En investigaciones médicas para evaluar si un nuevo tratamiento para una enfermedad es mejor que otro. En general se trata de tomar una decisión o dar una respuesta inteligente a alguna pregunta de interés. En la actualidad, la mayoría de las decisiones se toman basándose en métodos estadísticos. Todos tenemos una idea de lo que signi…ca la palabra estadística. Pero tratemos de dar una de…nición. Estadística es el arte y la ciencia de diseñar estudios, analizar los datos provenientes de esos estudios y utilizar esos datos para tener un mejor entendimiento del mundo que nos rodea. Más brevemente podríamos decir que la estadística es el arte y la ciencia de aprender a partir de los datos. Cuando se plantea una pregunta, la primera parte del proceso estadístico involucra el diseño y plani…cación de un estudio con el que se obtendrán los datos relevantes para obtener una respuesta. Una parte importante del diseño de un estudio es seleccionar una muestra de una población. Para nosotros la población consiste de todos los sujetos de interés, y una muestra es una parte de ese conjunto. Después de recolectar los datos se pueden realizar dos tipos de análisis estadísticos: Los métodos que sirven para organizar y resumir la información contenida en el conjunto de datos componen la estadísitica descriptiva. Los métodos que sirven para hacer inferencias sobre toda una población estudiando los datos provenientes de una muestra, constituyen la estadística inferencial.

1

Capítulo 1: Estadística Descriptiva Diferentes tipos de datos En cualquier estudio se analizarán algunas características de los objetos o individuos de la población de interés a esas características las llamaremos variables. Una variable es cualquier característica observada en un individuo del estudio Por ejemplo, algunas características que pueden preguntarse en una encuesta de salud infantil, son sexo, edad, peso, talla, grupo sanguineo, grado de escolaridad, etc. Todas estas son variables, que en cada individuo toman diferentes valores que llamaremos observaciones. Esas observaciones pueden ser números como el peso o la talla del individuo, o pertenecer a una categoría, como sexo o grupo sanguineo. Una variable se llama categórica si cada observación pertenece a un conjunto de categorías. Una variable se llama cuantitativa si las observaciones toman valores numéricos. Las variables cuantitativas pueden ser discretas, cuando las observaciones son valores aislados (generalmente números enteros), o continuas, cuando las observaciones pueden ser cualquier valor de un intervalo de números reales. Los métodos usados para analizar los datos, dependen del tipo de variables. Para una variable cuantitativa, los aspectos clave que la describen son el centro y la variabilidad. Por ejemplo: cuál es el promedio anual de precipitaciones y la dispersión año a año. Para una variable categórica, el aspecto clave es el porcentaje de observaciones en cada categoría.

Resúmen grá…co de los datos Tablas y grá…cos para variables categóricas o numéricas discretas Tabla de frecuencias: Una tabla de frecuencias es una lista de posibles valores para la variable, junto con el número de observaciones y/o el porcentaje para cada valor.

Grá…co de barras: El grá…co de barras es una representación de la tabla de frecuencias. Sobre un eje horizontal se representan las diferentes categorías de la variable, y se dibuja una barra vertical para cada categoría. La altura de la barra es el porcentaje de observaciones en cada categoría. También se pueden gra…car simultaneamente dos conjuntos de datos, como en el siguiente ejemplo. Ejemplo: La mayor parte de la generación de energía eléctrica, proviene de recursos no renovables, que además contribuyen a la emisión de dióxido de carbono, un factor involucrado en el cambio climático. En consecuencia se ha enfocado la atención en el desarrollo de fuentes de energía renovables, como la hidraúlica, solar, eólica, etc. La siguiente tabla muestra el porcentaje de uso de diferentes fuentes de energía en USA y Canadá en 2009. Fuente Carbón Gas natural Nuclear Hidraúlica Petróleo Otras renovables Total

(%) en USA 45 23 20 7 1 4 100

(%) en Canadá 17 7 15 59 1 1 100

La grá…ca de barras correspondiente a este ejemplo es: 2

Grá…co de torta: El grá…co de torta es otra forma de representar la tabla de frecunecias. Es un círculo, dividido en porciones que corresponden a cada categoría. El tamaño de la porción es igual al porcentaje de observaciones en cada categoría. Siguiendo con el mismo ejemplo, la grá…ca es:

3

Tablas y grá…cos para variables numéricas o cuantitativas Tabla de frecuencia para variables cuantitativas La tabla de frecuencias sirve para resumir un conjunto grande de datos. Para construirla, se divide el intervalo de medidas en un conjunto de intervalos disjuntos, de modo que cada observación esté contenida en uno de estos intervalos (intervalos de clase). La cantidad de observaciones que cae en cada intervalo es su frecuencia. La frecuencia, dividida por el número total de observaciones, es la frecuencia relativa. De modo que la suma de las frecuencias de todas las clases es igual al número de observaciones, y la suma de las frecuencias relativas es igual a 1.

Histograma El histograma es una representación grá…ca de la distribución de frecuencias. Sobre un eje horizontal se marcan los límites de los intervalos de clase. Sobre cada intervalo se dibuja un rectángulo cuya área es proporcional a la frecuencia (o a la frecuencia relativa) de ese intervalo. Si los intervalos de clase son de igual longitud, las alturas de los rectángulos serán proporcionales a las frecuencias (o frecuencias relativas). De modo que el área total del histograma será igual al número de observaciones si gra…camos frecuencias, y será igual a 1 si gra…camos frecuencias relativas. Ejemplo: La directora de marketing de una importante compañía de telefonía móvil, obtuvo los registros de los minutos consumidos por una muestra aleatoria de 110 abonados al plan más barato de la empresa (250 minutos mensuales como máximo en hora punta). La siguiente tabla contiene una lista de los minutos consumidos por cada abonado de la muestra durante un mes. 271 262 262 252 263 263 288 263 263 263

236 237 288 242 242 244 245 274 246 247

294 247 247 248 288 249 251 252 294 252

252 282 252 263 252 252 269 252 252 269

254 224 264 255 226 256 256 256 231 261

263 263 263 294 263 263 264 254 265 266

266 267 247 268 269 252 252 269 269 269

222 254 225 255 227 261 232 234 235 236

262 271 281 272 273 245 275 285 275 276

278 278 279 271 281 252 284 275 288 248

288 263 238 291 267 294 252 263 294 298

Para construir una tabla de frecuencias correspondiente este conjunto de datos, consideramos 8 intervalos de clase de longitud 10 minutos, y se obtuvo: Uso de teléfono (en min) [220 ; 230) [230 ; 240) [240 ; 250) [250 ; 260) [260 ; 270) [270 ; 280) [280 ; 290) [290 ; 300) Total

Frecuencia 5 8 13 22 32 13 10 7 110

Porcentaje 4:5 7:3 11; 8 20; 0 29; 1 11; 8 9; 1 6; 4 100

4

El histograma correspondiente a estos datos es:

Medidas de centro para datos cuantitativos: Media aritmética, mediana, media ponderada y media geométrica Media aritmética: La media aritmética o promedio (también llamada simplemente media) es una medida de tendencia central, se calcula simplemente sumado todas las observaciones, y dividiendo esa suma por el número de observaciones.

x=

n P

xi

i=1

n

En el ejemplo del uso del teléfono celular la media es x = 263; 61

Mediana: La mediana es otra medida de tendencia central, y es el valor que está en el "centro" de los datos ordenados Para calcular la mediana se deben ordenar los datos de menor a mayor (en forma ascendente). a. Si el número de observaciones es impar, la mediana es el valor central. b. Si el número de observaciones es par, la mediana es el promedio de las dos observaciones centrales En el ejemplo del uso del teléfono celular la mediana es x e = 263 5

Media ponderada: La media ponderada es un promedio, pero tomando en cuenta la importancia o ponderación de cada valor con respecto al total. La media ponderada de un conjunto de datos es:

xp =

n P

wi xi

i=1 n P

wi

i=1

donde wi es la ponderación de la i-ésima observación. Consideremos el siguiente ejemplo, una compañía utiliza tres niveles de trabajo — no cali…cado, semicali…cado y cali…cado— para la producción de un producto. La compañía desea saber el promedio del costo de trabajo por hora para es producto. Estos son los datos: Nivel de mano de obra No cali…cado Semicali…cado Cali…cado

Salario por hora ($) $5 $7 $9

Horas de mano de obra por unidad producida 5 3 2

Un promedio simple de los salarios sería x = (5 + 7 + 9) =3 = 21=3 = 7, y usando este salario promedio el costo de mano de obra para producir una unidad sería: 7 (5 + 3 + 2) = 70 y dado que en total se necesitan 10 horas de trabajo, diríamos que el costo promedio de producción por hora sería 70=10 = 7::Sin embargo este cálculo no es el correcto, para calcular el verdadero costo de mano de obra de un producto se debe tener en cuenta que se utilizan diferentes niveles de mano de obra. El costo total del trabajo por unidad es (5 5) + (7 3) + (9 2) = 64, entonces el costo promedio de mano de obra es: 64=10 = 6; 4 Es decir el costo promedio de mano de obra por hora se debe calcular haciendo un promedio ponderado de los 3 tipos de salarios, usando como ponderación la cantidad la cantidad de horas de cada tipo.

Media geométrica:

es otra medida de tendencia central, para otro tipo de datos p M G = n x1 x2 ::: xn = (x1 x2 ::: xn )1=n

Se usa cuando queremos promediar varios porcentajes aplicados sucesivamente, por ejemplo, el crecimiento de una cuenta de ahorros. Suponga que inicialmente depositamos $100 y dejamos que acumule intereses a diferentes tasas durante cinco años, y las tasas de interés varían durante ese período, como se indica en la tabla: Año 1 2 3 4 5

tasa de interés (%) 25 40 20 10 30

factor de crecimiento 1,25 1,40 1,20 1,10 1,30

monto al …nal del año 125 175 210 231 300,3

El factor de crecimiento es la cantidad por la que multiplicamos los ahorros al inicio del año para obtener el saldo al …nal del mismo. 6

La media geométrica de los factores de crecimiento es: M G = (1; 25

1; 40

1; 20

1; 10

1; 30)1=5 = 1; 246

Si durante los 5 años el factor de crecimiento fuera igual a M G = 1; 246, (que equivale a un tasa de interés constante de 24,6%), el monto al …nal de los 5 años sería el mismo que se obtuvo con esas tasas variables: 300,3 Por otra parte, la media aritmética o promedio de los factores de crecimiento es x = 1; 25; si durante los 5 años, se aplicara un factor de crecimiento igual a x = 1; 25; (que equivale a una tasa constante de 25%), el monto al …nal de los 5 años sería 305,2. Este valor es superior al monto obtenido con las tasas reales. Por ese motivo se utiliza la media geométrica en este tipo de problemas.

Medidas de variabilidad para datos cuantitativos Varianza: La varianza es una medida de la variabilidad alrededor de la media. s2 =

1 n

1

n X

(xi

x)2

1=1

Para el cálculo, se puede usar n X

(xi

2

x) =

x2i

nx2

1=1

1=1

Desviación típica:

n X

La desviación típica o desviación estándar, es la raiz de la varianza. v u n u 1 X t s= (xi x)2 n 1 1=1

En el ejemplo del uso del teléfono celular s2 = 253; 49 y s = 15; 92

Rango: El rango es la diferencia entre el valor más grande y el más chico En el ejemplo del uso del teléfono celular rango = 74

Otras medidas de posición para datos cuantitativos Percentiles: Para un valor p, 0 p 100 se de…ne el percentil-p (xp ), como un valor tal que el p% de las observaciones son menores o iguales que (xp ) Ejemplo: Supongamos que le informan que su cali…cación en un examen de admisión en una empresa está en el percentil-90. Eso signi…ca que el 90% de los presentados tienen una cali…cación menor o igual a la suya, y solamente el 10% la supera. Obviamente la mediana es igual al percentil-50.

7

Cuartiles: los cuartiles son los percentiles 25, 50 y 75. y suelen designarse como primer cuartil: Q1 = percentil 25 segundo cuartil: Q2 = percentil 50 = mediana tercer cuartil: Q3 = percentil 75 Cálculo de Cuartiles Q1 1er cuartil: se puede calcular como la mediana del conjunto de datos inferior a la mediana del total. Q2 2do cuartil, es igual a la mediana. Q3 3er cuartil, se puede calcular como la mediana del conjunto de datos superior a la mediana del total. Resumen de cinco números: En el resumen de cinco números se usan los cinco números siguientes para resumir los datos. valor mínimo

Q1

Q2 = x e

Q3

valor máximo

Diagrama de caja: Un diagrama de caja es un resumen grá…co de los datos con base en el resumen de cinco números. También se necesita calcular el rango intercuartílico, RIC = Q3 Q1 . Los pasos para elaborar un diagrama de caja son los siguientes: 1. Se dibuja una caja cuyos extremos se localicen en el primer y tercer cuartiles. Esta caja contiene 50% de los datos.. 2. En el punto donde se localiza la mediana se traza una línea vertical. 3. Usando el rango intercuartílico, RIC = Q3 Q1 , se localizan los siguientes límites. Límite inferior = Q1 1; 5(RIC) y límie superior = Q3 + 1:5(RIC): Los datos que quedan fuera de estos límites se consideran observaciones atípicas. 4. Se trazan las líneas, llamadas bigotes, que van desde los extremos de la caja hasta los valores menor y mayor que estén dentro de los límites calculados en el paso 3. 5. Por último mediante un asterisco se indica la localización de las observaciones atípicas. Ejemplo: Los siguientes datos representan los salarios iniciales de 12 empleados: 3450 - 3490 - 3550 - 3730 - 3650 - 3540 - 3480 - 3925 - 3355 - 3520 - 3310 - 3480 Para calcular los cuartiles ordenamos los datos de menor a mayor: 3310 - 3355 - 3450 - 3480 - 3480 - 3490 - 3520 - 3540 - 3550 - 3650 - 3730 - 3925 Como son 12 observaciones la mediana es el promedio de la sexta y la séptima observaciones: x e = (3490 + 3520)=2 = 3505 Para calcular Q1 considero el conjunto de datos: 3310 - 3355 - 3450 - 3480 - 3480 - 3490 como es un número par, el primer cuartil será el promedio de los dos centrales: Q1 = (3450 + 3480)=2 = 3465 Analogamente el tercer cuartil es el promedio de las dos observacionmes centrales de la segunda mitad de los datos Q3 = (3550 + 3650)=2 = 3600 El resumen de 5 número será: min = 3310; Q1 = 3465, x e = 3505, Q3 = 3600, max = 3925. Para gra…car el diagrama de caja, calculamos: Límite inferior = Q1 1; 5 RIC = 3465 1; 5 (3600 3465) = 3264; 5 todas las observaciones son mayores que el límite inferior Límite superior= Q3 + 1:5 RIC = 3600 + 1; 5 (3600 3465) = 3802; 5, hay una observación (3925) que es mayor que el límite superior

8

Algunos ejemplos resueltos 1. Se desea estudiar la cantidad que gastan al día, en alimento y bebidas, las familias que visitan un parque de diversiones. Una muestra de 51 familias que visitaron ese parque revela que gastaron las siguientes cantidades (medidas en cientos de pesos): 5 1 8

3 14 4

3 1 7

1 2 6

4 4 5

4 4 9

5 4 11

6 5 3

2 6 12

6 3 4

6 5 7

6 3 6

(a) Organice los datos como distribución de frecuencias. (b) Determine la distribución de frecuencias relativas (c) Gra…que un histograma. (d) Calcule la media y la desviación estándar (e) Calcule la mediana, el rango y el rango intercuartil (f) Gra…car un diagrama de caja Resolución (a) y (b) (0 - 3] (3 - 6] (6 - 9] (9 -12] (12 -15] total (c)

9

frec 14 24 7 4 2 51

frec. rel 0,27 0,47 0,14 0,08 0,04 1

7 4 5

1 5 15

4 6 1

1 8 2

10 9 12

(d)

x =

s =

51 P

xi

i=1

= 5; 39 v51 u 51 uP 2 u t i=1 (xi x) 50

= 3; 33

(e) Para calcular la mediana debemos ordenar los datos, como el número de observaciones es 51, la mediana es el valor central x e = x(26) = 5

RIC = 7

Q1 = x(12) = 3

3=3

Q3 = x(39) = 7 rango = 15

1 = 14

(f)

2. A continuación se presentan los días de plazo de vencimiento en una muestra de cinco fondos de mercado de dinero. Aparecen también las cantidades, en dólares, invertidas en los fondos. Emplee la media ponderada para determinar el número medio de días en los plazos de vencimiento de los dólares invertidos en estos cinco fondos de mercado de dinero. Días de plazo de vencimiento 20 12 7 5 6

Valor en dólares 20 30 10 15 10

Resolución En este caso se desea tener un promedio de los días de plazo de los dólares invertidos en estos 5 fondos, pero la cantidad de dólares invertida en cada uno es diferente. Por eso debemos calcular la media ponderada de los días de plazo, usando como pesos de ponderación la cantidad de dólares invertidos en cada fondo. Entonces la media ponderada es: xp =

20

20 + 30 12 + 10 7 + 15 5 + 10 20 + 30 + 10 + 15 + 10 10

6

=

965 = 10; 16 95

3. La recuperación de una inversión realizada por Atkins Construction Company durante cuatro años consecutivos fue de 30%; 20%; 40% y 200%. ¿Calcular la recuperación media de la inversión en ese período? Resolución En este caso la media aritmética no es adecuada. Primero debemos calcular los factores de crecimiento de cada año, recordando que factor de crecimiento = 1 +

tasa de interés 100

entonces para estos 4 años son: 1; 30 1; 20 0; 60 3; 00, y la media geométrica de estos factores es: M G = (1; 30 1; 20 0; 60 3; 00)1=4 = 1; 2945 Luego la recuperación media anual de la inversión en estos 4 años fue 29; 45% 4. En 2001 había 42 millones de suscriptores al servicio de buscapersonas. Para el año 2006 el número de suscriptores aumentó a 70 millones. Calcular el porcentaje promedio de incremento anual de dicho periodo Resolución En este caso la media geométrica de los factores de crecimiento es: MG =

70 42

1=5

= 1; 1076

luego el porcentaje promedio de incremento anual es 10; 76%

11