ESTADISTICA 2

MATERIA: ESTADISTICA INFERENCIAL I UNIDAD 1: INFERENCIA ESTADISTICA: ESTIMACION PRESENTA: MA. SABINA MARTINEZ GONZALEZ

Views 108 Downloads 5 File size 401KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

MATERIA: ESTADISTICA INFERENCIAL I

UNIDAD 1: INFERENCIA ESTADISTICA: ESTIMACION

PRESENTA: MA. SABINA MARTINEZ GONZALEZ

CATEDRATICO: RAUL JIMENEZ SALINAS

MODALIDAD ABIERTA: ING. EN GESTION EMPRESARIAL

SEMESTRE: 4

GRUPO: ÚNICO

SAN PEDRO COMITANCILLO, OAXACA. A 2 MARZO DEL 2013.

2. INFERENCIA ESTADÍSTICA 2.1 CONCEPTOS BÁSICOS Más especialmente, podemos decir que la inferencia estadística consiste en el proceso de selección y utilización de un estadístico muestral, mediante el cual, utilizando la información que nos proporciona una muestra aleatoria, nos permite sacar conclusiones sobre caracter´ısticas poblacionales. Es decir, supóngase que se tiene una población, la cual se representa por su función de distribución y el parámetro poblacional se denota por θ, que toma valores dentro del espacio paramétrico Θ, el parámetro puede ser cualquiera, por ejemplo, la media μ, la varianza σ2 , o la proporcione poblacional π. Seleccionamos una función de las variables aleatorias maestrales X1, X2, ..., Xn, que la denotaremos por θˆ = g(X1, X2, ..., Xn) y la utilizaremos para obtener la inferencia sobre el valor del parámetro θ.

Las inferencias sobre el valor de un parámetro poblacional θ se pueden obtener básicamente de dos maneras: a partir de estimación o bien a partir de la prueba de hipótesis. En la estimación, basta seleccionar un estadístico muestral cuyo valor se utilizara como estimador del valor del parámetro poblacional. En la prueba de hipótesis, se hace una hipótesis sobre el valor del par´ametro θ y se utiliza la información proporcionada por la muestra.

2.2 DISTRIBUCIONES DE MUESTREO El Muestreo es el Proceso de selección de muestras, se utiliza cuando no es posible contar o medir todos los elementos de la población objeto de estudio Existen dos métodos para seleccionar muestras de poblaciones entre estos están el Muestreo no aleatorio o de juicio Se emplea el conocimiento y la opinión personal para identificar aquellos elementos de la población que deben incluirse en la muestra, el Muestreo aleatorio o de probabilidad es en el cual todos los elementos de la población tienen la oportunidad de ser escogidos para la muestra Dentro de este tipo de muestreo se encuentran Muestreo aleatorio simple el cual es un método de selección de muestras que permite que cada muestra posible pueda ser elegida con la misma probabilidad Por su parte cada elemento de la población tiene la misma oportunidad igual de ser incluido en la muestra, Muestreo sistemático método en el cual los elementos que se muestrearán se seleccionan de la población en un intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio, Muestreo estratificado, método en el que la población se divide en grupos homogéneos o estratos y después se toma una muestra aleatoria simple de cada estrato, Aquí la variabilidad dentro de cada grupo es pequeña y entre los grupos es grande, Muestreo de racimo método en el que la población se

divide en grupos o racimos de elementos, y luego se selecciona una muestra aleatoria de estos racimos. La variabilidad dentro de cada grupo es grande y entre los grupos es pequeña; es como si cada racimo fuese un pequeña representación de la población en si mima de la distribución muestral que realiza una lista de todos los valores posibles de un estadístico y la probabilidad asociada a cada valor. Se considerarán la distribución muestral de medias y la de proporciones. en estos experimentos pueden existir error muestral que hace la diferencia entre el parámetro de la población y el estadístico de la muestra utilizado para estimar el parámetro.

Cada muestra de tamaño n que podemos extraer de una población proporciona una media. Si consideramos cada una de estas medias como valores de una variable aleatoria podemos estudiar su distribución que llamaremos distribución muestral de medias.

Si tenemos una población normal N y extraemos de ella muestras de tamaño n, la distribución muestral de medias sigue también una distribución normal. Si la población no sigue una distribución normal pero n>30, aplicando el llamado Teorema central del limite la distribución muestral de medias se aproxima también a la normal anterior. Consideremos todas las posibles muestras de tamaño n en una población. Para cada muestra podemos calcular un estadístico (media y la desviación típica, proporción…) que variará de una a otra. Así obtenemos una distribución del estadístico que se llama distribución muestral. Las dos medidas fundamentales de esta distribución son la media y la desviación típica, también denominada error típico. Hay que hacer notar que si el tamaño de la muestra es lo suficientemente grande las distribuciones muéstrales son normales y en esto se basarán todos los resultados que alcancemos. El teorema de central del límite dice que si tenemos un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribución (cualesquiera que éste sea), la suma de ellas se distribuye según una distribución normal.

El teorema del límite central o teorema central del límite indica que, en condiciones muy generales, si Sn es la suma de n variables aleatorias independientes, entonces la función de distribución de Sn «se aproxima bien» a una distribución normal (también llamada distribución gaussiana, curva de Gauss o campana de Gauss). Así pues, el teorema asegura que esto ocurre cuando la suma de estas variables aleatorias e independientes es lo suficientemente grande.

2.3 ESTIMACIÓN PUNTUAL Una estimación es puntual cuando se usa un solo valor extraído de la muestra para estimar el parámetro desconocido de la población. Al valor usado se le llama estimador. La media de la población se puede estimar puntualmente mediante la media de la muestra: La proporción de la población se puede estimar puntualmente mediante la proporción de la muestra: La desviación típica de la población se puede estimar puntualmente mediante la desviación típica de la muestra, aunque hay mejores estimadores:

2.4 ESTIMACIÓN DE INTERVALOS Con la estimación puntual se estima el valor del parámetro poblacional desconocido, a partir de una muestra. Para cada muestra se tendrá un valor que estima el parámetro. Esta estimación no es muy útil si desconocemos el grado de aproximación de la estimación al parámetro. Es deseable conocer un método que nos permita saber dónde se encuentra el parámetro con un cierto grado de certeza. Este método va a ser la determinación de un intervalo donde estará el parámetro con un nivel de confianza.

El intervalo se construye a partir de una muestra, entonces, para cada muestra se tendrá un intervalo distinto. Llamaremos a al error que se permite al dar el intervalo y el nivel de confianza será 1-. Un intervalo tiene un nivel de confianza 1cuando el 100· (1-)% de los intervalos que se construyen para el parámetro lo contienen.

Es deseable para un intervalo de confianza que tenga la menor amplitud posible, esta amplitud dependerá de: El tamaño de la muestra, mientras mayor sea el tamaño mejor será la estimación, aunque se incurre en un aumento de costes.

2.5 INTERVALO DE CONFIANZA PARA LA MEDIA

En la realidad, normalmente no se conoce cómo es una población ( se conoce  , pero no se conoce  ). Sin embargo, se puede estudiar una muestra de esa población y del conocimiento de la muestra sacar conclusiones sobre la población.

Si de una población se conoce su desviación típica  y buscamos un intervalo en el que esté la media  con un nivel de confianza del 1    %, el intervalo es:      X  z  , X  z   n n  2 2  Siempre que la población de partida sea Normal o el tamaño de la muestra n  30.

Error máximo admisible: z 

Error =



2

n

Ejemplo: Si conocemos que la desviación típica para la altura de las chicas de 18 años en Aragón es 10 cm. Supongamos que hemos tomado una muestra de 100 chicas sale que la altura media de la muestra: X =170. a) Hallar los intervalos de confianza para la altura media de las chicas de 18 años en Aragón para un nivel de confianza del 90%, 95% y 99% y el error máximo en cada caso:

(170 

170 

1,645

100

Nivel de conf.del 90%:

Error  1,645 

10

,

10

1,645 )

100

= (168,355 , 171,645)

10 100 = 1,645 (170 

Nivel de conf.del 95%:

10 100

1,96

170 

,

10 100

1,96 )

= (168,04, 171,96)

10

Error  1,96 

100 = 1,96

(170 

Nivel de conf.del 99%: 172,575)

10 100

 2,575

170 

,

10 100

 2,575 )

= (167,425 ,

10

Error  2,575 

100 = 2,575

b) Para un nivel de confianza del 95% ¿ Cuál debe ser el tamaño de la muestra para que el error máximo admisible sea menor que 1 cm.?

Error  1,96 

10

1

2 , despejado n queda: 19,6< n  n  (19 ,6)  n  384,16 es decir, el tamaño de la muestra debe ser 385 o más.

n

2.6 INTERVALOS DE CONFIANZA PARA DIFERENCIA ENTRE MEDIAS

Intervalo de confianza para la media de una población De una población de media μ y desviación típica σ se pueden tomar muestras de n elementos. Cada una de estas muestras tiene a su vez una media (). Se puede demostrar que la media de todas las medias muéstrales coincide con la media poblacional: Pero además, si el tamaño de las muestras es lo suficientemente grande,3 la distribución de medias maestrales es, prácticamente, una distribución normal (o gaussiana) con media μ y una desviación típica dada por la siguiente expresión: . Esto se representa como sigue: Si estandarizamos, se sigue que: En una distribución Z ~ N (0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo

hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado (véase el uso de las tablas en una distribución normal). Se desea obtener una expresión tal que En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral (), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamará 1 − α (debido a que α es el error que se cometerá, un término opuesto). Para ello se necesita calcular el punto Xα / 2 —o, mejor dicho, su versión estandarizada Zα / 2— junto con su "opuesto en la distribución" X − α / 2. Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen: Dicho Y z Así:

punto en −

la α

es versión /

el

número

estandarizada 2 =

se −

tal

que:

cumple zα /

que: 2

Haciendo operaciones es posible despejar μ para obtener el intervalo: De

lo

cual

se

obtendrá

el

intervalo

de

confianza:

Si no se conoce σ y n es grande (habitualmente se toma n ≥ 30):4 , donde s es la desviación típica de una muestra. Aproximaciones para el valor zα / 2 para los niveles de confianza estándar son 1,96 para 1 − α = 95% y 2,576 para 1 − α = 99%.

2.7 INTERVALOS DE CONFIANZA PARA PROPORCIONES. Se le llama intervalo de confianza a un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.[1] El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error.

Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro presente una distribución normal. También pueden construirse intervalos de confianza con la desigualdad de Chebyshev. En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.

2.8 INTERVALOS PROPORCIONES

DE

CONFIANZA

PARA

DIFERENCIAS

ENTRE

Los límites para el intervalo de una diferencia de proporciones correspondientes a dos muestras independientes son:

Donde el símbolo zα/2 es el mismo valor crítico que antes, prob(Z > zα/2) = α/2, y corresponde a un intervalo de confianza 1 − α %. Este intervalo puede utilizarse de manera alternativa al contraste de hipótesis para decidir (con nivel de significación α %) si hay igualdad de los dos grupos. Se decidirá por la igualdad de los grupos si el valor 0 queda incluido en cualquier posición en el intervalo. Aunque se haga el contraste de dos proporciones, en primer lugar, es aconsejable obtener el intervalo de confianza de la diferencia de medias, si éste ha resultado significativo, puesto que ayudará a interpretar si existe significación aplicada además de la estadística. Si se dispone de alguna información previa y sólo quiere calcularse alguno de los dos intervalos unilaterales, bastará sustituir zα/2 por zα y descartar el límite superior o inferior del intervalo según el caso. Por ejemplo, el intervalo unilateral derecho corresponde a:

2.9 INTERVALOS DE CONFIANZA PARA VARIANZA De una población con distribución normal con media m y varianza s 2 se obtiene una muestra aleatoria de tamaño n. Para obtener el intervalo de confianza para la varianza ( s 2 ) se parte de la expresión (1.4):

Se divide por ns2 :

Se invierte:

Reescribiendo:

(2.6) Donde y pertenecen a una distribución chi-cuadrado con (n-1) grado de libertad, por lo tanto, y son diferentes y < . Ejemplo La varianza de la resistencia a la rotura de 30 cables probados fue de 32.000 lbs 2. Halle un intervalo de confianza del 90 por ciento, para la varianza de la resistencia de todos los cables de ésta marca. Solución. Se utiliza la expresión 2.6. Los valores de y pertenecen a una distribución chi-cuadrado con 29 grados de libertad. como puede observarse en la figura 2.3 el área que hay por debajo de Z a /2 es 0,05, por lo tanto =17,71 y el área que hay por debajo de es 0,95, por lo tanto =42,56

Figura 2.3 Percentiles de la distribución chi-cuadrado Reemplazando en la expresión 2.6 se obtiene:

Por razones de utilidad se halla el intervalo de confianza para la desviación estándar, sacando la raíz cuadrada de los límites, por lo tanto:

Interpretación. El promedio de variación o de dispersión de la rotura de los cables de dicha marca, está entre 150 y 233 lbs . Con una confiabilidad del 90 por ciento. 2.10 INTERVALOS DE CONFIANZA PARA RAZONES DE DOS VARIANZAS

Cuando se desea hacer inferencias acerca de las varianzas de dos poblaciones, es necesario colocarlas en forma de razón. Si las varianzas son iguales, entonces el cociente es igual a 1, en caso de que sean diferentes, su cociente también se alejará de 1. Como por lo general no se conocen las varianzas de las poblaciones de interés, cualquier comparación que se desee, tendrá que estar basada en las 2 s2 varianzas muestrales 1 y s 2 , las cuales deberán ser de muestras independientes y extraídas de poblaciones normales.

(n1  1) s12 2 2 Entonces, s1 es un estimador insesgado de  1 y  2 con n  1 grados de libertad.

1

 12

tendrá una distribución

(n2  1) s 22 2 2 De manera similar s 2 será un estimador de  2 y  2 con n  1 grados de libertad.

 22

tendrá una distribución

2

s12

 12 s 22

F

2 La razón de estos dos estimadores: 2 sigue una distribución F de Fisher, o simplemente distribución F que posee las siguientes propiedades: 1. 1. La distribución F depende de dos valores de grados de libertad, uno correspondiente al numerador y otro al denominador, a los cuales nos referiremos como grados de libertad del numerador (glnum= 1 = n1 – 1) y grados de libertad del denominador (glden= 2 = n2 – 1). 2. 2. La densidad de la variable F viene dada por:   1  2     2       1 f (F )       1    2    2   2    2       

1

  F  2

 1   1   2 

 1  1    2  F

 1  2



2

3. 3. La distribución F para cada par de valores de grados de libertad 1 y 2. 4. 4. Hay una distribución F para cada par de valores de grados de libertad. 2 5. 5. Como la distribución  , una distribución F es positivamente asimétrica, pero su asimetría se reduce con los aumentos de los grados de libertad.

6. 6. Si X tiene densidad es

F 2

, 1 , 2



F 1 , 2

Y

, entonces

1 X tendrá una distribución F 2 , 1 , esto

1 F



1 , 2 , 1 2

7. 7. La distribución muestral usada para hacer inferencias entre dos varianzas es la F de Fisher:

s12 F

 12 s22



 22

s12 s22

 12  22

s12  2 s2 R0

con n1  1 y n2  1 grados de libertad en el numerador y denominador, respectivamente.

El intervalo de confianza para el cociente de varianzas está dado por:

F / 2  F  F1 / 2 F / 2

s12 / 12  2 2  F1 / 2 s2 / 2

2 2 Despejando  1 /  2 se tiene:

s12 12 s12   s22 F1 / 2  22 s22 F / 2

NOTA: El valor de cola izquierda de la distribución F de Fisher está dado por: F / 2 ,1 ,2 

1 F1 / 2.2 ,1 , donde  = n  1 y  = n  1 1 1 2 2

Ejemplo 14: Las siguientes son las calificaciones obtenidas en un examen de personalidad por 2 muestras de 9 mujeres casadas y 9 mujeres solteras:

Solteras

88

68

77

82

63

80

78

71

72

Casadas

73

77

67

74

74

64

71

71

72

Suponiendo que estos datos se pueden considerar como muestras aleatorias independientes tomadas de dos poblaciones normales, pruebe la hipótesis de que la varianza de las calificaciones de las mujeres solteras es diferente de la varianza de las calificaciones de las mujeres casadas con  = 0.05.

1) Se supone que las muestras son aleatorias independientes y extraídas de poblaciones normalmente distribuidas.

 12   22  2) H0:

 12 1  22

 12    2 1 2 Ha: 2 1

2 2

3)  = 0.05 4) F

Estadístico

de

2 1

s s R0 2 2

5) Valores críticos:

F0.025,8,8  0.23 F0.975,8,8  4.43 , (tabla T-7)

contraste

2 2 6) Valor calculado de Fc = 3.8636 ya que s1  59.027 y s2  15.27

7) Como 0.23 < 3.8636 < 4.43, No se rechaza H0.

8) Las varianzas de las calificaciones de las solteras y de las casadas no son significativamente diferentes.