Inferencia Estadistica

13 INFERENCIA ESTADISTICA Unidad 13 -TEORIA DE LA ESTIMACIÓN ESTADISTICA Profesor Titular: Eº Mario J. Garber 1 - INTRO

Views 161 Downloads 4 File size 226KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

13

INFERENCIA ESTADISTICA Unidad 13 -TEORIA DE LA ESTIMACIÓN ESTADISTICA Profesor Titular: Eº Mario J. Garber 1 - INTRODUCCION: La “Teoría de la Estimación Estadística” es la parte de la Inferencia Estadística que trata acerca de los procedimientos específicos que posibilitan inferir o estimar, sobre la base de resultados muestrales conocidos, denominados estadísticas (media muestral, variancia muestral, proporción muestral), cuáles son los valores poblacionales desconocidos correspondientes (media poblacional, variancia poblacional, proporción poblacional), denominados parámetros. En estos procedimientos los valores muestrales conocidos, las “estadísticas”, se convierten en estimadores de los valores poblacionales desconocidos, los “parámetros”. El siguiente cuadro permite apreciar más claramente el tema: CUADRO COMPARATIVO CONCEPTOS EN LA MUESTRA EN LA POBLACION Denominación Estadísticas Parámetros 2 x Simbología ; Me; Sx ; Sx; hi µx; σx2;σx; p Función Son Estimadores Deben Ser estimados Características Son conocidos Son desconocidos Son variables Son fijos 2 - TIPOS DE ESTIMACIONES: Hay dos tipos fundamentales de estimaciones: a) Estimación puntual: es un procedimiento de estimación en el que se estima al parámetro mediante un solo valor muestral. b) Estimación por intervalos: es un procedimiento que permite, a partir de un estimador puntual, obtener dos valores que limitan un intervalo denominado intervalo de confianza dentro del cual se encuentra el parámetro a estimar con una cierta probabilidad conocida cercana a uno, denominada nivel de confianza. 2.a) Estimación puntual: como ya se indicó en el Cuadro Comparativo, los estimadores puntuales están constituidos por las estadísticas, denominación que se da a los cálculos muestrales conocidos que permiten estimar a los correspondientes valores poblacionales desconocidos, denominados parámetros. Las estadísticas a las que se hace referencia son, por ejemplo: la media muestral x ; la mediana Me; la variancia muestral Sx2; el desvío estándar Sx; la proporción muestral hi. Cada uno de ellos estima al correspondiente parámetro, es decir, a la media poblacional µx; a la variancia poblacional σx2; al desvío estándar poblacional σx; o a la proporción poblacional p. Siendo las estadísticas variables y los parámetros fijos, es imposible considerar que una estadística sea igual a un parámetro. Por consiguiente, y sólo a modo de ejemplo, no es factible aceptar la igualdad que se indica a continuación: x = µx Como esta igualdad es incorrecta, para indicar el hecho de que una estadística estima a un parámetro (en este ejemplo, que la media muestral estima al parámetro media poblacional), se utiliza la conocida simbología de estimador (denominada comúnmente “sombrerito”): x = µ x , que se lee “mu estimado” o “estimador de mu”. Idéntico criterio se utiliza para indicar que las restantes estadísticas estiman a los correspondientes parámetros, es decir,

13

ˆx Me = µ 2 ˆ x2 Sx = σ ˆx Sx = σ hi = p En todos los casos la simbología utilizada indica que cada una de las estadísticas estima al parámetro, que lleva precisamente el símbolo del “sombrerito” para señalar que se lo está estimando. Ejemplo: El gerente de una sucursal bancaria desea investigar el tema “adelantos en cuenta corriente” por parte de los clientes de la sucursal. De un total de 3400 cuentas que tienen autorización para efectuar adelantos, obtiene una muestra de 40, y luego de consultar los datos, obtiene los siguientes resultados: Número de cuentacorrentistas que solicitaron adelantos: 18 Suma de los importes solicitados por esos clientes: $ 102.000 Suma de los adelantos, al cuadrado: 312.816.160 El gerente desea: a) un estimador puntual del promedio de los adelantos en cta.cte. para todas las cuentas de esa sucursal:



µx = x =

102.000 = $ 2.550. − 40

b) un estimador puntual de la proporción de cuentas corrientes que solicitaron adelantos en cuenta corriente 18 p = h i = = 0 ,4 5 = 4 5 % 40

c) un estimador puntual para la variancia poblacional y para el desvío estándar 312.816.160  2 σ x2 = S x2 = − ( 2550 ) = 1.317.904 40 ⇒ σ x = S

x

=

1 . 3 1 7 . 9 0 4 = 1 .1 4 8

2.b) Estimación por intervalos: como ya se ha dicho, consiste en un procedimiento que permite, a partir de un estimador puntual, encontrar dos valores que limitan un intervalo denominado intervalo de confianza, dentro del cual puede encontrarse el parámetro a estimar con una cierta probabilidad conocida, cercana a uno, que se denomina nivel de confianza y que se simboliza NC. Este punto será desarrollado más adelante con mayor profundidad. 3 - PROPIEDADES DE LOS ESTIMADORES PUNTUALES: Un buen estimador debe cumplir con determinadas propiedades. Las más importantes son: 3.a) Estimador insesgado o no viciado: Se denomina así a aquel estimador cuya esperanza matemática da como resultado el parámetro a estimar. 3.a.1- Caso del estimador x : en la siguiente demostración se verificará si el estimador media muestral es insesgado o no viciado. Para ello, calcularemos su esperanza matemática, recordando, tal como se afirmó en el cuadro inserto en la página anterior, que esa media muestral es una variable y que, como tal, su esperanza matemática puede calcularse. Aplicando Esperanza, se obtiene el siguiente desarrollo, recordando que: a) la esperanza de una suma de variables es la suma de sus esperanzas, y b) la E ( x i ) = µ x .

13

E (x ) = E

1 n

   

1 E n





x i  = 



xi =

1 n



1 n

E (xi) =



µx =

1 n µx = µx n

con lo cual se ha demostrado que el estimador x es no viciado o insesgado. Una demostración diferente de esta propiedad también puede verse en el tema Teoría de las Muestras- 4ª conclusión A diferencia de la media aritmética, los estimadores mediana (Me) y modo (Mo) son viciados. 3.a.2- Caso del estimador hi: Según se ha demostrado en la Unidad 12 – Teoría de las Muestras (ver pag. 128) la E(hi) = p, con lo cual se verifica que hi es un estimador no viciado. 3.a.3- Caso del estimador Sx2: para poder desarrollar esta demostración, debe tenerse presente que: E ( x i − µ x ) 2 = σ x2 (1) y que E ( x − µ x ) 2 =

σ x2 n

(2)

A partir de esto, se obtiene la esperanza matemática de Sx2 procediendo del siguiente x i − x = x i − x + µ x − µ x se agrupan los elementos haciendo modo: en la igualdad x i − x = ( x i − µx ) − ( x − µx ) Elevando al cuadrado ambos miembros y sumando para todo i

∑  x i

−x

 

2

= ∑  ( x i − µ x ) −  x − µ x 

y dividiendo la igualdad por n 1 n





 ( 

=

= 1 n 1 n

= =

∑ 1 n

(xi − x )2 =

1 n



2

2

x i − µ x ) − ( x − µ x )  =

x i − µ x ) 2 − 2 ( x i − µ x ) ( x − µ x ) + ( x − µ x ) 2  = 

(x i − µx ) 2 − 2 (x − µx )



( 

   

( x i − µx )

2

1 n



x i − µx ) +

 



x

 

n

− 2 ( x − µx )

i

(

−n

µx n

1 n (x − µx ) 2 = n     

+ ( x − µx )

) (

2

=

)

2 1 ( xi − µx ) 2 − 2 x − µx + x − µx 2 = ∑ n 2 1 2 = ∑( xi − µx ) − x − µx n

=

(

)

Aplicando Esperanza Matemática, y de acuerdo con lo indicado en (1) y en (2), se obtiene: E (S

=

1 n

2 x

) = E

   

1 n

∑ E( x − µ

=

i

1 n

∑σ x2 −

σ x2 n

∑ x



(xi − x)2 = E  

   

1 n



1 )2 − E( x − µ )2  = x  n

∑ E( x − µ i

x

 2   

=

)2 −E( x − µ )2 =

σ σ 1  n −1  nσ 2 − x = σ 2 − x = σ 2   x x x n n n  n  2

=

( xi − µx )2 − ( x − µx )

x

2

con lo cual se verifica que el estimador Sx2 es un estimador viciado o sesgado: su esperanza matemática no da un resultado igual al parámetro a estimar, porque se obtuvo el parámetro a estimar acompañado por un coeficiente que, precisamente, convierte al estimador en viciado. Se verifica, también, que el estimador Sx2 estima al parámetro σx2 por defecto, ya que el coeficiente que acompaña al estimador da un resultado menor que 1.

13

3.a.4 - Corrección del vicio: Cuando un estimador es viciado, ¿puede corregirse el vicio?. Analizaremos la posibilidad de realizar tal corrección en el caso del estimador Sx2, procediendo del siguiente modo: E ( S x2 ) = E

   

1 n





(xi − x )2  = σ  

n −1 n

2 x

Efectuando el pasaje de los términos del coeficiente que acompaña a σx2 al primer miembro de la igualdad, y recordando que la Esperanza es un operador lineal, obtenemos: n E (S n −1

2 x

) = E

   

1 n





(xi − x)2= E  

   

n 1 n −1 n



(xi − x)

 2   

= E

   

1 n −1





(xi − x)2= σ  

2 x

con lo que se verifica que la esperanza matemática de una nueva “estadística”, que en este caso es

1 n −1



( x i − x ) 2 , da como resultado el parámetro variancia poblacional, por lo que esa

nueva estadística es no viciada. Observándola con detenimiento, se comprueba que tiene forma de una variancia, sólo que en lugar de estar dividida por n, lo está por (n-1). Por eso mismo se la denomina variancia corregida y se la simboliza con Sc2. Por consiguiente, se ha comprobado que Sc2 es insesgada o no viciada, por cuanto su esperanza es el parámetro a estimar, es decir que E ( S c2 ) = E

   

1 n −1

2 donde Sc =





(xi − x )2  = σ  

(

1 ∑ xi − x n −1

)

2 x

2

No siempre es necesario efectuar la corrección del vicio en el caso del estimador Sx2, ya n

que cuando n crece indefinidamente, el término n − 1 tiende a la unidad. Luego, si n → ∞ ⇒

n → 1 n−1

Empíricamente se considera que si el tamaño de la muestra n es menor o igual que 30 se está trabajando con las llamadas “muestras pequeñas”, en cuyo caso debe efectuarse la corrección, transformando Sx2 en Sc2. En cambio, si n > 30, se está trabajando con “muestras grandes”, en cuyo caso no debe corregirse el vicio. En este último caso, además, todas las estadísticas tienen distribución normal (según se demostró en la conclusión número 6 de la unidad temática “Teoría de las muestras”). 3.a.5 – Cálculo de Sc2: En todos los ejemplos planteados a lo largo de este texto, cuando se debió calcular una medida de dispersión, se obtuvo el Sx2. En caso de resultar necesario el cálculo de la variancia corregida Sc 2, se procede del siguiente modo: Se sabe que: 2 y que: Sc =

S x2 = 1 n −1

1 n

∑( x

−x

i

∑( x

i

−x

)

)

2

2

Por consiguiente, en ambas expresiones, por pasaje de términos, se puede obtener: nS x2 = ( n −1 )S c2

∑( xi − x ) = ∑( x − x ) 2

2

i

Se verifica que en estas dos igualdades, sus segundos miembros son iguales, por lo que también lo serán sus dos primeros miembros. O sea que: nS x2 = ( n −1 )Sc2

a partir de lo cual se despeja Sc2:

13

Sc2 =

n S x2 n −1

3.b) Estimador eficiente: Se denomina eficiente a aquel estimador que, de un conjunto de estimadores, posee la menor variancia. Como se ha visto anteriormente, hay varios estimadores que estiman al mismo parámetro. Además, como todos son variables, tienen una variancia que podría llegar a calcularse. Un ejemplo de ello puede verse en el caso que se desee estimar la media poblacional: son estimadores posibles la media aritmética o la mediana. De ambos, la media aritmética posee la menor variancia, por lo que ella resulta ser un estimador eficiente. Para confirmarlo, bastará saber que así como la variancia de la media aritmética es σx2/n, la variancia de la Mediana es (σx2/n)(π/2), resultado éste que, como puede verificarse fácilmente, resulta mayor que el anterior. 3.c) Estimador suficiente: Se denomina suficiente a aquel estimador que contiene toda la información que proviene de la muestra. Para entender este concepto conviene comparar a la media aritmética con la mediana: la primera contiene toda la información contenida en la muestra (recordar que es un “promedio”), mientras la segunda no contiene toda la información disponible en la muestra (recordar que se trata de “otra medida de posición” en cuyo cálculo no intervienen todos los valores de la variable). Luego, la media aritmética es un estimador suficiente, mientras que la mediana no lo es. 4 - VENTAJAS DE LA MEDIA ARITMETICA COMO ESTIMADOR A lo largo de los capítulos anteriores se han desarrollado una serie de demostraciones que han permitido verificar la existencia numerosas ventajas y propiedades de la media aritmética. En este punto se detallará ese conjunto de ventajas, que permiten mostrarla como una herramienta extraordinaria en el campo de la estadística en general y de la estimación en particular. Esas ventajas de la media aritmética son: a) La suma de desvíos respecto de ella es igual a cero. b) La suma de los desvíos respecto de ella, al cuadrado, es un mínimo. c) Puede ser considerada una variable en el campo de la teoría de las muestras. d) Su distribución tiende a ser normal cuando el tamaño de la muestra n → ∞ . e) La media poblacional de su distribución muestral es igual a la media poblacional de la variable xi, es decir que es no viciada. f) La dispersión de su distribución es menor que la distribución de la variable 2 2 xi, es decir que σ x < σ x . g) Es suficiente y eficiente. 5 - ESTIMACIÓN POR INTERVALOS DE CONFIANZA: Recordaremos que la estimación por intervalos de confianza se ha definido como un procedimiento que permite, a partir de un estimador puntual, encontrar dos valores que limitan un intervalo, denominado intervalo de confianza, dentro del cual se encuentra el parámetro a estimar con una cierta probabilidad conocida, cercana a uno, denominada Nivel de Confianza. En este tema deben plantearse dos situaciones completamente diferentes: a) Estimación en el caso de muestras grandes, y b) Estimación en el caso de muestras pequeñas. Algo que es común en el caso de la construcción de todos los intervalos de confianza, cualquiera sea el tamaño de la muestra, es que en primer lugar debe fijarse el Nivel de confianza, que consiste en una probabilidad cercana a uno que se establece de antemano y que es fijada por quien encarga el trabajo de estimación (no puede ser una decisión de quien

13

construye el intervalo). Los valores más comunes (aunque no los únicos) para el nivel de confianza son: 0,99; 0,95 o 0,90. 5.a) Estimación por intervalos en el caso de muestras grandes: Para desarrollar este tema, recordemos que se presentan las siguientes condiciones: 1- La muestra tiene un tamaño mayor que 30. 2- Todas las estadísticas son variables y, como tales, tienen una determinada distribución que tiende a ser normal cuando n es grande. 3- Como n es grande, tampoco se requiere corregir el vicio del estimador Sx2. 5.a.1) Estimación por intervalos de confianza para la media poblacional en el caso de muestras grandes: En este caso, como la variable que se utiliza para estimar la media poblacional es la media muestral x , y ella tiene distribución normal, podemos construir un gráfico que permita observar esta circunstancia. En ese gráfico se observa a la variable x que, como ya se mencionó, tiene distribución normal con media poblacional µ x = µ x , y que, como cualquier variable, puede ser estandarizada mediante su conversión a una variable zi, la cual se representa σx en un segundo eje. Recordemos, además, que el desvío estándar de x es igual a n .

La estandarización mencionada más arriba se realiza del siguiente modo: x −µ x = x − µx zi = σx σ x n

El nivel de confianza (NC) se ubica en el centro de la figura (zona grisada) y una vez determinado cuál es su valor concreto, se verifica que existen dos valores de la variable estandarizada zi, simétricos entre sí (-z1 y +z1), tales que la P ( − z 1 ≤ z i ≤ + z 1 ) = N C Reemplazando en este término la variable zi obtenemos la siguiente expresión: P

   −    

x −µ z1 ≤ σ x ≤ +z x n

       

= N C

Al efectuar en el interior del paréntesis las transformaciones apropiadas, pasando el término que divide en el centro del paréntesis como producto a ambos lados de las desigualdades: 

P  − z 1 

σ

x

n

≤ x − µx ≤ +z1

σ

 x   n 

= N C

Luego se despeja la media poblacional, dejándola en el centro:

13

σ σ   P − x − z1 x ≤ − µ x ≤ − x + z1 x  = NC n n  Finalmente se multiplica todo por menos uno para modificar los signos, con lo cual cambia también el sentido de las desigualdades: σ σ   P x + z1 x ≥ µ x ≥ x − z1 x  = NC n n  La anterior es una primera expresión para el intervalo de confianza, que está compuesta por los siguientes elementos: x : se trata del estimador puntual media muestral, que, como toda estadística, puede ser calculada sin ningún inconveniente a partir de la muestra disponible. +z1 y –z1: se trata de dos valores simétricos que se obtienen a partir de la tabla de la distribución normal una vez fijado el valor de NC. n: es el tamaño de la muestra y como tal debe ser un dato conocido. σx: es el desvío estándar poblacional, un parámetro (y como tal, desconocido). Por consiguiente se lo reemplaza directamente por su estimador Sx sin efectuar corrección alguna por tratarse de muestras grandes, con lo que, en definitiva, la expresión final del intervalo de confianza para estimar la media poblacional queda del siguiente modo. S S   P x + z1 x ≥ µ x ≥ x − z1 x  = NC n n  en el que todos los elementos son conocidos y puede calcularse sin inconvenientes. Ejemplo: En el caso del gerente que desea investigar el tema “adelantos en cuenta corriente”, con los datos de la estimación puntual (ver página 133) construir una estimación por intervalos para el promedio los adelantos en cuenta corriente de todos los clientes de esa sucursal, con un nivel de confianza del 90 %. Hacemos 1.148 1.148   P 2.550 +1,64 ≥ µx ≥ 2.550 −1,64  = 0,90 40 40  

⇒ P ( 2.847,68 ≥ µ x ≥ 2.252,32 ) = 0,90

5.a.2) Algunas características de los intervalos de confianza: 1º) El intervalo de confianza tiene dos límites que se obtienen sumando y restando un mismo valor al estimador puntual media muestral ( x ). Estos límites se denominan límite superior y límite inferior del intervalo de confianza. 2º) Si el Nivel de Confianza aumenta, su superficie en el gráfico sería mayor y eso se correspondería con mayores valores para los z1. En ese caso, a mayor NC, mayor amplitud en el intervalo de confianza. Pero asimismo, una mayor amplitud para el intervalo implica que hay más valores posibles para estimar la media poblacional µx, lo que convierte a la estimación en algo menos precisa, es decir que a mayor amplitud del intervalo, menor precisión en la estimación. Conclusión: a mayor nivel de confianza, menor precisión en la estimación. 3º) Si el Nivel de confianza llegara a tomar el valor extremo máximo para una probabilidad, es decir un valor igual a 1, el valor de los z1 sería, según se puede observar en la tabla normal, el máximo posible, es decir que los z1 serían iguales a ∞ . En ese caso, no sería posible obtener resultados para los límites del intervalo de confianza porque darían un resultado indefinido. Conclusión: no puede exigirse un nivel de confianza igual a la unidad porque no se obtendrían resultados prácticos para los límites del intervalo.

13

4º) La decisión de tomar al Nivel de Confianza entre dos valores simétricos de z1 no sólo es la única solución posible desde el punto de vista de la búsqueda inversa en la tabla; también conduce a un intervalo mínimo, ya que el intervalo conseguido es más pequeño que cualquier otro que pueda obtenerse tomando los valores de zi de cualquier otra forma diferente. 5º) El Nivel de Confianza es una probabilidad, y como tal, según el planteo pascaliano, es el resultado de realizar un cociente entre el número de casos favorables sobre el número de casos posibles. Recordando este concepto, puede decirse entonces que de cada cien intervalos que se construyan, en una proporción de ellos igual a NC el parámetro quedará encerrado en el intervalo construido. Esta es una forma de medir la confianza existente de que en un porcentaje de los casos se estime correctamente el parámetro desconocido. 5.a.3) Estimación por intervalos de confianza para la variancia poblacional en el caso de muestras grandes: Para encarar la construcción de este intervalo de confianza, debe aclararse que la estimación que se realice permitirá construir un intervalo para estimar el desvío estándar poblacional porque el estimador puntual que se utiliza en este caso es Sx. Este estimador es una estadística que, como todas en el caso de muestras grandes, tiene distribución normal con media

σ2 2 poblacional µS x = σx y con variancia poblacional σ S x = x ( ver cuadro resumen final de 2n Teoría de las Muestras en las página 130). Esto permite construir la siguiente variable estandarizada zi: S −σx zi = x Sx 2n Con estos datos, se parte fijando el correspondiente Nivel de Confianza, para el cual existen dos valores de la variable zi, simétricos, tales que la P (− z1 ≤ zi ≤ z1) = N C (Ver la siguiente figura que ilustra esta circunstancia) En este término, reemplazando zi por la expresión a la que es igual, tenemos:     S − σ x P − z1 ≤ x ≤ +z1  = NC Sx     2n  

Procediendo del mismo modo que en el caso del intervalo para la media poblacional, es decir mediante un pasaje de términos en el interior del paréntesis, se obtiene la siguiente

14

expresión final que permite estimar el desvío estándar poblacional por intervalos de confianza: S S   P S x + z1 x ≥ σ x ≥ S x − z1 x  = NC . 2n 2n   Este intervalo se puede convertir en un intervalo para estimar la variancia poblacional simplemente elevando al cuadrado los términos incluidos dentro del paréntesis: 2 2  Sx  Sx    2 P  S x + z1  ≥ σ x ≥  S x − z1   = NC 2n  2n    

Ejemplo : En el caso del gerente que toma una muestra para analizar los anticipos en cuenta corriente (ver página 133), construir una estimación por intervalos para la variancia poblacional con una confianza del 99 %. Se comienza construyendo el intervalo para el desvío estándar: 1.148 1.148   P1.148 + 2,58 ≥ σ x ≥ 1.148 − 2,58  = 0,99 80 80  

⇒ P (1.276,35 ≥ σ x ≥ 1.019,65) = 0,99

(

)

2 y se eleva al cuadrado todo el paréntesis ⇒ P 1.629.069 ≥ σ x ≥ 1.038.361 = 0,99 5.a.3) Estimación por intervalos de confianza para la proporción poblacional en el caso de muestras grandes: En este caso se utilizará la estadística hi y el procedimiento no difiere en nada del aplicado para los casos de la media y de la variancia poblacional. Deberá recordarse, sin embargo, que como toda estadística, el estimador hi es una variable que tiene distribución normal

pq 2 y variancia σ h = n (ver Unidad 12- Teoría de las muestras, página 128). Si se desea calcular la variancia en un caso concreto, como p y q son parámetros desconocidos, se reemplazan por sus estimadores, ˆp = hi y qˆ = ( 1 − hi ) Por consiguiente, la variable estandarizada zi se construye del siguiente modo: hi − p zi = hi (1 − hi ) n y existirán dos valores de zi, simétricos respecto del origen( -z1 y +z1) tales que P (− z1 ≤ zi ≤ + z1) = N C

con media poblacional µ h = p

Reemplazando zi por la expresión indicada más arriba, se tiene que la

14

   P − z1 ≤   

hi − p

hi (1 − hi ) n

   ≤ z1  = NC   

En la última expresión algebraica, efectuando en el interior del paréntesis los pasajes de términos con el propósito de despejar p, objeto de la estimación, finalmente se encuentra que la 

P hi + z1  

hi (1 − hi ) h (1 − hi )  ≥ p ≥ hi − z1 i  = NC  n n 

que constituye el intervalo de confianza buscado. Ejemplo: En el problema del gerente de la sucursal bancaria, construir una estimación por intervalos para proporción de clientes que solicitaron adelantos en cuenta corriente con un nivel de confianza del 95 %. Si hi = 0,45 (ver página 133), luego σ h =

Por consiguiente

p q = n

h i (1 − h i ) = n

( 0 , 4 5 ) ( 0 ,5 5 = 0 ,0 7 9 40

P [0 , 4 5 + 1 , 9 6 ( 0 , 0 7 9 ) ≥ p ≥ 0 , 4 5 − 1 , 9 6 ( 0 , 0 7 9 ) ] = 0 , 9 5

⇒ P ( 0 ,6 0 4 8 ≥ p ≥ 0 ,2 9 5 2 ) = 0 ,9 5

5.b) Estimación por intervalos en el caso de muestras pequeñas: Debe tomarse en consideración que para la construcción de estos intervalos se presentan las siguientes condiciones: 1 – El tamaño de la muestra es menor o igual que 30. 2 – En ese caso la distribución de las estadísticas suele no ser normal. 3 – El estimador Sx2 la variancia poblacional es viciado y corregirse. 5.b.1) Estimación por intervalos de confianza para la media poblacional en el caso de muestras pequeñas: Si la variable bajo estudio posee distribución normal, para la construcción de este intervalo de confianza se utiliza la variable “t de Student”, denominada así en honor a su descubridor, el matemático inglés Gosset (quien se autoasignó el seudónimo de “Student”), la cual tiene la siguiente forma: t Student =

x − µx

∑( x

i

−x

)

2

n ( n −1)

Sabiendo que µx = µx y modificando el denominador, se obtienen las siguientes dos alternativas de solución: x − µx x − µx t St = = Sx Sc n −1 n en las que puede observarse que la variable t de Student no es más que una forma diferente de variable estandarizada. En la variable t de Student aparece el concepto de grados de libertad, que se simboliza con v y que resulta ser el número de variables linealmente independientes que se utilizan en el cálculo de las estadísticas. Gosset demostró que los grados de libertad son iguales al número de elementos de la muestra menos 1. Es decir que

14

v=n–1 La variable t de Student tiene una forma simétrica. Si se desea construir un intervalo de confianza, el nivel de confianza elegido se ubica de tal modo que se genera un intervalo entre dos valores de la variable t (-t1 y +t1), simétricos al igual que en el caso de la normal. Asimismo existe una tabla que corresponde a la distribución t de Student que permite encontrar los valores de los t1, tomando en consideración el nivel de confianza requerido y los grados de libertad con los que se está trabajando. Fijado el nivel de confianza NC, existirán dos valores de la variable tSt, iguales en valor absoluto pero de distinto signo, simétricos entre sí, tales que la P ( − t1 ≤ t St , v ≤ +t1 ) = NC

Reemplazando la variable tSt por una de las expresiones halladas mas arriba, eligiendo aquélla en la que interviene el estimador Sx, esta probabilidad se convierte en     x − µ x  P − t1 ≤ ≤ +t1  = NC Sx     n −1  

Efectuando los correspondientes pasajes de términos en el interior del paréntesis de modo de despejar la media poblacional que debe ser estimada (en un procedimiento ya repetido en los anteriores intervalos de confianza construidos), se obtiene Sx Sx   P x + t1 ≥ µ x ≥ x − t1  = NC n −1 n −1   Esta expresión está compuesta por un conjunto de elementos todos conocidos y, por lo tanto, calculables por lo que el resultado final puede obtenerse sin mayores dificultades. 5.b.2) Estimación por intervalos de confianza para la variancia poblacional en el caso de muestras pequeñas: Para la construcción de este intervalo de confianza se utiliza la estadística Sx2 que, como todas las demás, tiene una distribución cuya determinación se realiza recordando que S x2 =

(

1 ∑ xi − x n

)

2

(

⇒ n S x2 = ∑ xi − x

)

2

Ahora dividimos ambos miembros de la última igualdad por un valor constante, que en 2 este caso será σx2 y obtenemos una variable que llamaremos χvgl (Chi cuadrado) con v grados de libertad.

14

n S x2

∑( x =

i

−x

)

2

= χv2 gl

σ σ Observando el gráfico de esta distribución puede se descubrirán algunas diferencias con las distribuciones utilizadas anteriormente, correspondientes a la normal y a la t de Student: 1 – Se desarrolla sobre el semieje positivo de la variable ( χ 2 ≥ 0 ), y 2 – La forma no es simétrica. Fijado el NC, existen dos valores de la variable χ2 (χ12 y χ22) tales que la 2 x

2 x

P ( χ 12 ≤ χ v2 ≤ χ 22 ) = NC Reemplazando la variable por la expresión a la que es igual, se obtiene  

n S x2

 

σ

P  χ 12 ≤

2 x

 

≤ χ 22  = N C  

Invirtiendo la expresión, se obtiene

 1 σ x2 1  P 2 ≥ 2 ≥ 2  = NC  χ 1 nS x χ 2   nS 2 nS 2  ⇒ P 2x ≥ σ x2 ≥ 2x  = NC χ2   χ1 con lo cual se ha encerrado el parámetro a estimar, σx2, entre dos límites con una cierta probabilidad NC, obteniéndose de ese modo el intervalo de confianza requerido. Resulta importante destacar que, en este caso, el intervalo de confianza conseguido resultará mínimo si las dos superficies que quedan fuera del NC bajo la curva son iguales, cada una de ellas, a

1 − NC (ver gráfico en la página siguiente). 2

Ejemplos: Partiendo del ejemplo del gerente de la sucursal bancaria que desea investigar el tema adelantos en cuenta corriente (ya visto en el caso de estimaciones puntuales y por intervalos para el caso de muestras grandes), tomemos los resultados puntuales ya calculados, pero consideremos que el tamaño de la muestra ahora es de 26 cuentas corrientes, lo que convierte al problema en uno de muestras pequeñas. En ese caso, se pide: a) Construir un intervalo de confianza para el importe promedio de adelantos en cuenta corriente de todos los clientes de la sucursal, con una confianza del 95 %. En este caso, t 25; 0, 95 = 2,06 . Luego 1.148 1.148   P 2.550 + 2,06 ≥ µx ≥ 2550 − 2,06  = 0,95 25 25  

14

⇒P( 2.779,60 ≥ µx ≥ 2.320,40) = 0,95

b) Construir un intervalo de confianza para la variancia poblacional en estas condiciones, con un nivel de confianza de 0,90. Como los valores de χ12 y χ22 son 2 χ 1;25 g .l

χ22;25 g .l .

=37 ,7

=14 ,6

( 26 )(1.317.904 )  = 0,90  ( 26 )(1.317.904 ) ≤ σ x2 ≤ el intervalo se construye haciendo la P   37 ,7 14,6   2 ⇒ P 908.899 ,30 ≤ σ x ≤ 2.346.952 ,30 = 0 ,90

(

)

5.b.3) Estimación por intervalos de confianza para la proporción poblacional en el caso de muestras pequeñas: No resulta conveniente construir intervalos de confianza para estimar la proporción poblacional en el caso de muestras pequeñas. Fundamentalmente ello es debido a que, siendo el tamaño de la muestra menor o igual a 30, la proporción muestral hi resulta mucho menos confiable que en el caso de una muestra grande. Adicionalmente, eso también determina que el valor de la variancia de la proporción, que se obtiene haciendo hi (1-hi) y que interviene en el cálculo de los límites inferior y superior del intervalo de confianza, estén exageradamente distanciados entre sí, por lo que el intervalo en sí mismo carece de sentido.

6 - CALCULO DEL TAMAÑO DE LA MUESTRA: 6.a) Tamaño de la muestra para poblaciones infinitas o bajo muestreo con reposición: Se parte de la siguiente negación: la media muestral no es igual a la media poblacional. Por consiguiente x ≠ µx

Como ambos elementos son diferentes, es lógico entender que entre ellos hay una diferencia, que se simbolizará con d, positiva o negativa, y que se denominará margen de error o tolerancia. Es decir que x − µx = d

Dividimos ambos miembros de esta igualdad por una misma expresión x − µx

Siendo que σx es igual a

σx n

σx

=

d

σx

= z1

, se tiene

x − µx d = = z1 σx σx n n Se toma la segunda parte de la igualdad: d = z1

σx n

14

De allí que se despeja n con el siguiente resultado: n=

z12σ x2 d2

obteniéndose un primer cálculo para el tamaño de la muestra. Si se observa detenidamente la expresión hallada, se verá que el tamaño de la muestra n depende de los siguientes factores: a) de la variancia de la variable bajo estudio (σx2), en forma directa (la variancia aparece multiplicando), con lo cual a mayor variabilidad de la variable bajo estudio, mayor tamaño de la muestra. b) del valor z1, que representa al coeficiente que indica el grado de confianza exigido en la estimación, también en forma directa: a mayor grado de confianza exigido, mayor tamaño de la muestra. Si el grado de confianza fuera igual a 1, z1 sería infinito, por lo que el tamaño de la muestra n = ∞ . c) del valor de la tolerancia d, en forma inversa: a mayor margen de error o tolerancia admitida, menor tamaño de la muestra. Si la tolerancia fuera cero, eso implicaría que la diferencia entre las medias muestral y poblacional debería ser cero, o, lo que es lo mismo, ambas media deberían ser iguales, con lo que el n deberá ser igual al N, es decir, infinito. 6.b) Tamaño de la muestra para poblaciones finitas o bajo muestreo sin reposición: El procedimiento que se sigue es similar al del cálculo para poblaciones infinitas, sólo que en el momento de reemplazar σx , se recurre a la fórmula del desvío estándar para poblaciones finitas o sin reposición, lo cual dará como consecuencia la siguiente igualdad: d = z1 σx N − n n N −1

Operando para despejar n, el proceso permite obtener la siguiente fórmula: n=

z12σ x2 N d ( N − 1) + z12σ x2 2

Puede verificarse fácilmente que si en la última fórmula deducida N ∞ , aplicando algún método de resolución de casos indeterminados (Regla de L´Hopital, por ejemplo), se obtiene la que corresponde a los casos para poblaciones infinitas. 6.c) Análisis de la tolerancia o margen de error d: Para poder efectuar empíricamente el cálculo del tamaño de la muestra, el valor que interviene en la fórmula correspondiente a la tolerancia d se suele presentar como un porcentaje de alguno de los valores conocidos en juego. En este caso aparece el concepto de tolerancia relativa, que resulta ser, por ejemplo, un porcentaje del valor de la media muestral, que es, precisamente, el valor que se ha obtenido para la estimación de la media poblacional. Ejemplo: En el problema del gerente que desea evaluar el uso de los adelantos en cuenta corriente por parte de los clientes de la sucursal: a) calcular cuál debería ser el tamaño de la muestra si se desea efectuar el trabajo de estimación con una confianza del 95 % y una tolerancia relativa del 10 % respecto del valor estimado para la media poblacional. Como la media muestral resultó igual a 2.550, el 10 % de ese dato es 255; el nivel de confianza del 95 % se corresponde con un valor de z1=1,96 (Nota: siempre se utilizan los valores de la distribución normal para el cálculo del tamaño de la muestra), y la variancia (desconocida)

14

se reemplaza por su estimador, igual a 1.317.904. Con estos datos, aplicando la fórmula que corresponde a un tamaño de población finito, que en este caso es igual a 3.400 cuentas, tenemos: n=

(1,96 ) 2 ( 3.400)(1.317.904) ( 3.400 −1)( 255) 2 + (1,96) 2 (1.317.904 )

=

17.213.724.020 = 76,1 ≅ 77 221.019.975 + 5.062.860

(se redondea a un valor superior, en este caso n = 77). b) evaluar cuál es la tolerancia relativa con la que se está trabajando. En este caso se trata de obtener el valor porcentual de la tolerancia relativa d, partiendo de los datos disponibles. Para ello, a partir de la fórmula para n y mediante adecuados pasajes de términos, se obtiene una fórmula de cálculo para d. Este procedimiento culmina con la siguiente expresión: 2 2 1  3.400(1,64) (1.317.904)  1 1  Nz σ  1 d =  −  1 x =  − = 295,9  3400 − 1  n N  N −1  40 3.400  2

Como la tolerancia relativa se obtiene dividiendo el valor de d por la media aritmética (y luego se multiplica por 100 ese resultado para convertirlo en un valor porcentual), queda d 295,9 = = 0,116 ⇒ d = 11,6% 2 .550 x

NOTA: Ver en página 147 un CUADRO SINOPTICO SOBRE TEORIA DE LA ESTIMACION (Colaboración de la Profesora María de los Arcos Martínez)