Estimaciones

ESTIMACIÓN POR INTERVALOS La estimación por intervalos consiste en establecer el intervalo de valores donde es más prob

Views 64 Downloads 0 File size 518KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

ESTIMACIÓN POR INTERVALOS

La estimación por intervalos consiste en establecer el intervalo de valores donde es más probable se encuentre el parámetro. La obtención del intervalo se basa en las siguientes consideraciones: • •



Si conocemos la distribución muestral del estimador podemos obtener las probabilidades de ocurrencia de los estadísticos muéstrales. Si conociéramos el valor del parámetro poblacional, podríamos establecer la probabilidad de que el estimador se halle dentro de los intervalos de la distribución muestral. El problema es que el parámetro poblacional es desconocido, y por ello el intervalo se establece alrededor del estimador. Si repetimos el muestreo un gran número de veces y definimos un intervalo alrededor de cada valor del estadístico muestral, el parámetro se sitúa dentro de cada intervalo en un porcentaje conocido de ocasiones. Este intervalo es denominado "intervalo de confianza".

Ejemplo: Se generan 100000 muestras aleatorias (n=25) de una población que sigue la distribución Normal, y resulta:

Se generan 100000 muestras aleatorias (n=25) de una población que sigue la distribución Normal, y resulta:

En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias muéstrales es:

Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución muestral son los valores cuya función de distribución es igual a 0.975 y 0.025 respectivamente y se pueden obtener en las tablas de la distribución Normal estandarizada o de funciones en aplicaciones informáticas como Excel). Seguidamente generamos una muestra de la población y obtenemos su Media, que es igual a 4.5. Si establecemos el intervalo alrededor de la Media muestral, el parámetro poblacional (5.1) está incluido dentro de sus límites:

Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por esa razón, la distancia desde m a la Media muestral es la misma que va de la Media muestral a m. En consecuencia, si hacemos un muestreo con un número grande de muestras observamos que el 95% de las veces (aproximadamente) el valor de la Media de la población (m) se encuentra dentro del intervalo definido alrededor de cada uno de los valores de la Media muestral. El porcentaje de veces que el valor de m se halla dentro de alguno de los intervalos de confianza es del 95%, y es denominado nivel de confianza. Si queremos establecer un intervalo de confianza en que el % de veces que m se halle dentro del intervalo sea igual al 99%, la expresión anterior es:

Obtenemos el valor +-2.58 que multiplica la Desviación Típica de la distribución muestral en las tablas de la distribución Normal estandarizada o de funciones en aplicaciones informáticas como Excel), y son los valores cuya función de probabilidad es igual a 0.995 y 0.005 respectivamente.

INTERVALO DE CONFIANZA PARA LA MEDIA Dada una muestra, X1 ... Xn de una población con media (desconocida) µ y varianza conocida σ2, un intervalo de 95 % de confianza para la media poblacional µ es x¯ ± 1,96σ/√ n NOTA: El cálculo del intervalo se puede hacer con calculadora y Excel

Ejemplo: Se quería estimar la velocidad media en una calle con un límite teórico de 50km por hora. Con un radar oculto, se observó que la velocidad media de una muestra de 25 coches fue de 58km/hora. Si la desviación típica de la velocidad en esta calle es de 6km/hora, calcular un intervalo de 95 % de confianza para la verdadera velocidad media.

Un intervalo de confianza es 58 ± 1,96 ∗ 6/ √ 25 = 58 ± 2,35 = (55,65, 60,35).

Se estima que la verdadera velocidad media en esta calle es entre 55,65km/hora y 60,35km/hora.

¿Qué pasa si la varianza poblacional es desconocida? El supuesto que se conoce la desviación típica de velocidades en la calle cuando no se conoce la media es poco realista en la práctica. Una alternativa en esta situación es usar la (cuasi) desviación típica muestral, s para estimar la desviación típica de la población. Ahora si la muestra es de tamaño grande, el intervalo es: x¯ ± 1,96s/ √ n.

Ejemplo: En 100 pruebas de alcoholemia de conductores que han saltado un semáforo en Aranjuez el nivel medio de alcohol en aire era de 0,65 mg/litro con una cuasi desviación típica de 0,1mg/litro. hallar un intervalo de 95 % de confianza para el verdadero nivel media de alcohol en el aire para conductores que saltan el semáforo.

El intervalo es 0,65 ± 0, 02 = (0,63, 0,67).

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS Sean X11, X12, ... X 1n1, una muestra aleatoria de n1 observaciones tomadas de una primera población con valor esperado μ1, y varianza σ21; y X21, X22, ... X2n2, una muestra aleatoria de n2 observaciones tomada de la segunda población con valor esperado μ2 y varianza σ2 2. Si X1 y X2 son las medias muéstrales, la estadística X1 − X2 es un estimador puntual de μ1 − μ 2, y tiene una distribución normal si las dos poblaciones son normales, o aproximadamente normal si cumple con las condiciones del teorema del límite central (tamaños de muestras relativamente grandes). Por lo tanto,

Para calcular el intervalo de confianza para la diferencia de dos medias se debe saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de que sean desconocidas, se debe probar si son igual es o diferentes. Cada uno de estos tres casos se analizarán por separado. Varianzas conocidas pero diferentes, σ1 ≠ σ2 Si las varianzas poblacionales son conocidas y diferentes, los pasos a seguir para encontrar el intervalo de confianza son los siguientes: a) El estadístico usado como estimador puntual de la diferencia de medias μ1 − μ 2, será T = x1 − x2, que es un estimador suficiente. b) La variable aleatoria asociada con el estimador será la variable normal estándar dada por:

c) Para calcular el intervalo de confianza se debe tener en cuenta el nivel de confianza que se quiere considerar. Teorema. Si x1 − x2 son las medias de dos muestras aleatorias independientes de tamaño n1 y n2 tomadas de poblaciones que tienen varianzas conocidas σ 21 y σ21, respectivamente, entonces el intervalo de confianza para μ 1 – μ2 es:

Ejemplo Construya un intervalo de confianza del 94% para la diferencia real entre las duraciones de dos marcas de focos, si una muestra de 40 focos tomada al azar de la primera marca dio una duración media de 418 horas, y una muestra de 50 focos de otra marca dieron una duración media de 402 horas. Las desviaciones estándares de las dos poblaciones son 26 horas y 22 horas, respectivamente. Solución. Tenemos que: x1 = 418, x1 = 402, σ1 = 26, σ2 = 22, n1 = 40, n2 = 50, Z = 1.88 El intervalo de confianza es, entonces:

Varianzas desconocidas e iguales (σ21 = σ21 = σ2) Cuando las varianzas son desconocidas, se debe realizar previamente una prueba estadística para verificar si éstas son iguales o diferente s. Para hacerlo debemos hace r uso de la distribución F, bien sea mediante el cálculo de la probabilidad de

que la muestra tomada provenga de dos poblaciones con varianzas iguales, o mediante el uso de un intervalo de confianza para la relación de dos varianzas, según se estudiará más adelante. Como se desconocen las varianzas de la población, se usa n las varianzas de las muestras como estimadores. El procedimiento a seguir para el cálculo del intervalo de confianza para la diferencia de dos medias será el siguiente: a) El estadístico usado como estimador puntual de la diferencia de medias μ 1 − μ2 será x1 – x2, que es un estimador suficiente. b) La variable aleatoria asociada con el estimador será la variable definida como (se usa t en caso de muestras pequeñas):

donde Sp es un estimador combinado de las S2, “mejor” que S21, S22 por separado, donde

c) Para calcular el intervalo de confianza se debe tener en cuenta el nivel de confianza que se quiere considerar y los grados de libertad que se calculan g.l.= n1 + n2 – 2 De nuevo, manipulando la expresión anterior en forma similar al caso previo se llega al siguiente teorema que nos define el intervalo de confianza para la diferencia entre dos medias μ1 − μ2 con varianzas desconocidas pero iguales: Teorema. Si x1, x2, s21, s22 son las medias y las varianzas de dos muestras aleatorias de tamaños n1, n2, respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas pero iguales, entonces un intervalo de confianza para la diferencia entre medias μ 1 − μ2 es:

Ejemplo. La siguiente tabla presenta los resultados de dos muestras aleatorias para comparar el contenido de nicotina de dos marcas de cigarrillos.

Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de poblaciones normales con varianzas desconocidas e iguales, construya un intervalo de confianza del 95% para la diferencia real de nicotina de las dos marcas. Solución. Como las varianzas son iguales, calculamos s2p que está dado por: S2p = (9)0.52 + (7)0.72 = 0.355 ------→

0.355 --------→ Sp=0.596

16 El intervalo de confianza del 95% está dado por (t (0.025, g.l.16) = 2.21):

3.1-2.7-2.21 (0.596) √ 1/10 + 1/8 < μ1 − μ2 < 3.1-2.7+2.21 (0.596) √ 1/10 + 1/8 -0.2 < μ1 − μ2 < 1.0 Varianzas desconocidas y diferentes σ21 ≠ σ22 a) El estadístico usado como estimador puntual de la diferencia de medias μ 1 − μ 2, será x1 − x2, que es un estimador suficiente b) La variable aleatoria asociada con el estimador será la variable t definida como:

c) El intervalo de confianza está dado por el siguiente teorema, basado en la distribución t con n grados de libertad. Teorema. Si x1, x2, s21, s21 son las medias y las varianzas de dos muestras aleatorias de tamaños n1, n2, respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas y diferentes, entonces un intervalo de confianza para la diferencia entre medias μ 1 − μ2 es (nuevamente para el caso de muestras pequeñas):

Los grados de libertad están dados por:

Nota: el valor obtenido se redondea al entero más próximo. Nota. Si llevamos a cabo un cálculo de intervalo de confianza para diferencia de medias, suponiendo que las varianzas no son iguales, en el dado caso que sí lo fueran, perderíamos muy poco, y el intervalo obtenido sería un poco conservador. El caso de que supongamos que las varianzas son iguales, siendo que no lo son, nos produce un error mayor que puede ser considerable por lo que una sugerencia es usar varianzas diferentes como regla general. Ejemplo Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un nuevo proceso en el que se añade una aleación a la producción del metal. Los fabricantes se encuentran interesados en estimar la verdadera diferencia entre las tensiones de ruptura de los metales producidos por los dos procesos. Para cada metal se seleccionan 12 ejemplares y cada uno de éstos se somete a una tensión

hasta que se rompe. La siguiente tabla muestra las tensiones de ruptura de los ejemplares, en kilogramos por centímetro cuadrado: Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e independientes, obtener los intervalos de confianza estimados del 95 y 99% para la diferencia entre los dos procesos. Interprete los resultados. Solución: Calculamos los valores que necesitamos. n

Media

S

12

443.3

24.8

12

451.4

14.9

95% de confianza t1 = 2.10, t2 = -2.10

Por lo tanto:

Y para 99% de confianza t1 = 2.88, t2 = -2.88

INTERVALO DE CONFIANZA PARA LA PROPORCIÓN Un estimador puntual de la proporción P en un experimento binomial está dado por la estadística P=X/N, donde X representa el número de éxitos en N pruebas. Por tanto, la proporción de la muestra p=x/n se utilizaría como estimador puntual del parámetro P. Si no se espera que la proporción P desconocida este demasiado cerca de 0 o de 1, se puede establecer un intervalo de confianza para P al considerar la distribución muestral de proporciones. Considerando el valor z para la distribución de proporciones

Ejemplo La probabilidad de obtener un 3 en un dado trucado es de 0,18. Encuentra el intervalo característico para la proporción de treses en tandas de 100 lanzamientos, correspondiente a una probabilidad del 95,44%.

Solución: La proporción de treses en tandas de 100 lanzamientos sigue una distribución normal de media P=0,18 y de desviación típica

Para una probabilidad del 95,44%, tenemos que:

P [z  z /2] = 0,9544 + 0,0228 = 0,9772 → z /2 = 2 El intervalo característico será: (0,18 - 2 · 0,038; 0,18 + 2 · 0,038); es decir: (0,104; 0,256) Esto significa que, en el 95,44% de las tandas de 100 lanzamientos, la proporción de treses está entre 0,104 y 0,256.