tema4

Diplomatura en Estad´ıstica 2o curso Apuntes de Teor´ıa de Estad´ıstica Matem´atica Alfonso Ramos Cantari˜no ´Indice

Views 149 Downloads 5 File size 688KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Diplomatura en Estad´ıstica 2o curso

Apuntes de Teor´ıa de Estad´ıstica Matem´atica

Alfonso Ramos Cantari˜no

´Indice ´ Indice

ii

1 Vectores Aleatorios

1

1.1

Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2

Vectores aleatorios discretos y continuos . . . . . . . . . . . . . . . . .

2

1.3

Funci´on de distribuci´on conjunta . . . . . . . . . . . . . . . . . . . . .

4

1.4

Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . .

5

1.5

Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . .

6

1.6

Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . .

8

1.7

Funciones de un vector aleatorio absolutamente continuo . . . . . . . .

9

1.8

Distribuciones de algunas funciones de variables aleatorias . . . . . . .

11

1.8.1

Distribuci´on de la suma . . . . . . . . . . . . . . . . . . . . . .

11

1.8.2

Distribuci´on del producto . . . . . . . . . . . . . . . . . . . . .

13

1.8.3

Distribuci´on del cociente . . . . . . . . . . . . . . . . . . . . . .

13

1.8.4

Distribuci´on del m´aximo y del m´ınimo . . . . . . . . . . . . . .

14

2 Caracter´ısticas Num´ ericas de un Vector Aleatorio

18

2.1

Esperanza Matem´atica . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.2

Esperanza de la suma y el producto de variables aleatorias . . . . . . .

21

2.3

Matriz de varianzas y covarianzas . . . . . . . . . . . . . . . . . . . . .

22

2.4

Varianza de la suma y de la diferencia de variables aleatorias . . . . .

24

2.5

Matriz de correlaciones. . . . . . . . . . . . . . . . . . . . . . . . . . .

25

2.6

Funciones Generatrices. Propiedades . . . . . . . . . . . . . . . . . . .

28

2.7

Funci´on Caracter´ıstica. Propiedades . . . . . . . . . . . . . . . . . . .

33

2.8

Esperanza Condicionada. Propiedades . . . . . . . . . . . . . . . . . .

35

ii

´Indice

3 Introducci´ on a los Teoremas L´ımites

40

3.1

Convergencia de sucesiones de variables aleatorias

. . . . . . . . . . .

41

3.2

Relaciones entre los distintos tipos de convergencias . . . . . . . . . .

42

3.3

Ejemplos y propiedades algebraicas . . . . . . . . . . . . . . . . . . . .

43

3.4

Ley d´ebil de los grandes n´ umeros . . . . . . . . . . . . . . . . . . . . .

47

3.5

Ley Fuerte de los Grandes N´ umeros . . . . . . . . . . . . . . . . . . .

49

3.6

Teorema Central del L´ımite . . . . . . . . . . . . . . . . . . . . . . . .

50

4 Introducci´ on a la Inferencia Estad´ıstica

56

4.1

Introducci´on. Objetivos de la Inferencia Estad´ıstica

. . . . . . . . . .

56

4.2

Conceptos Fundamentales . . . . . . . . . . . . . . . . . . . . . . . . .

58

4.3

Principales tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . .

60

5 Distribuciones Muestrales

63

5.1

Funci´on de distribuci´on emp´ırica o muestral . . . . . . . . . . . . . . .

63

5.2

Media Muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

5.3

Proporci´on Muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

5.4

Varianza y Cuasivarianza Muestral . . . . . . . . . . . . . . . . . . . .

67

5.5

Desviaci´on y Cuasidesviaci´on T´ıpica Muestral . . . . . . . . . . . . . .

68

5.6

Otros Momentos Muestrales . . . . . . . . . . . . . . . . . . . . . . . .

69

6 Distribuci´ on de Estad´ısticos en el Muestreo de Poblaciones Normales

72

6.1

Distribuciones Asociadas a la distribuci´on normal . . . . . . . . . . . .

73

6.2

Teorema de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

6.3

Distribuci´on de la media muestral . . . . . . . . . . . . . . . . . . . . .

82

6.4

Distribuci´on de la varianza, cuasivarianza y desviaci´on t´ıpica muestral

82

6.5

Distribuci´on de la diferencia de medias . . . . . . . . . . . . . . . . . .

83

6.6

Distribuci´on del Cociente de Varianzas . . . . . . . . . . . . . . . . . .

85

iii

´Indice

7 Estimaci´ on Puntual. Propiedades de los estimadores

87

7.1

Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.2

Funci´on de p´erdida. Error cuadr´atico medio . . . . . . . . . . . . . . .

88

7.3

Insesgadez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

7.4

Eficiencia. Estimador insesgado uniformemente de m´ınima varianza . .

90

7.5

Cota de Cramer-Rao. Cantidad de informaci´on de Fisher . . . . . . .

91

7.6

Estimadores Suficientes. Criterio de Factorizaci´on de Neymann-Fisher

95

7.7

Familia de Distribuciones Exponenciales . . . . . . . . . . . . . . . . .

99

7.8

Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

8 M´ etodos de construcci´ on de estimadores

87

102

8.1

Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

8.2

M´etodo de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . 102

8.3

M´etodo de m´axima verosimilitud . . . . . . . . . . . . . . . . . . . . . 105 8.3.1

Estimadores de m´axima verosimilitud en las distribuciones de la familia exponencial . . . . . . . . . . . . . . . . . . . . . . . 109

9 Estimaci´ on por intervalos de confianza

112

9.1

Conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . 112

9.2

M´etodo de la Cantidad Pivotal . . . . . . . . . . . . . . . . . . . . . . 113

9.3

Intervalos de confianza para los par´ametros de una distribuci´on normal 113 9.3.1

Intervalo de confianza para µ con σ conocida . . . . . . . . . . 114

9.3.2

Intervalo de confianza para µ con σ desconocida . . . . . . . . 114

9.3.3

Intervalo de confianza para σ 2

9.3.4

Intervalo de confianza para la diferencia de medias. Muestras

9.3.5

Intervalo de confianza para el cociente de varianzas. . . . . . . 118

9.3.6

Intervalo de confianza para la diferencia de medias. Muestras

. . . . . . . . . . . . . . . . . . 115

independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

apareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 9.4

Otros m´etodos de construcci´on de intervalos de confianza . . . . . . . 120 9.4.1

M´etodos basados en el T.C.L. . . . . . . . . . . . . . . . . . . . 120

9.4.2

M´etodos basados en los estimadores de m´axima verosimilitud . 123

9.4.3

M´etodo de Neyman . . . . . . . . . . . . . . . . . . . . . . . . 125

9.5

Determinaci´on del tama˜ no muestral . . . . . . . . . . . . . . . . . . . 126

9.6

Regiones de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 iv

´Indice

10 Introducci´ on a los contrastes de hip´ otesis 10.1 Introducci´on. Conceptos fundamentales . . . . . . . . . . . 10.2 Un enfoque basado en intervalos de confianza . . . . . . . . 10.3 Contraste de hip´otesis con un nivel de significaci´on prefijado 10.4 Hip´otesis nula y alternativas simples. Test m´as potentes, Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . 10.5 Hip´otesis compuestas. Test uniformemente m´as potentes . . 10.6 Contraste generalizado de la raz´on de verosimilitudes . . . .

v

128 . . . . . . 128 . . . . . . 131 . . . . . . 131 lema de . . . . . . 135 . . . . . . 139 . . . . . . 140

Cap´ıtulo 1 Vectores Aleatorios

1.1

Introducci´ on

En este cap´ıtulo y en los dos siguientes se tratar´an los conceptos y definiciones u ´tiles para estudiar el comportamiento simult´aneo conjunto de varias variables aleatorias. Este estudio conjunto de varias variables permite estudiar las relaciones entre ellas. Por ejemplo, podemos estar interesados en estudiar la relaci´on entre la estatura, el peso y la edad de la poblaci´on espa˜ nola, o bien la poblaci´on y la renta de los pa´ıses del mundo. Formalmente, sea (Ω, A, P ) un espacio probabil´ıstico, es decir, Ω es el conjunto de posibles resultados de un experimento aleatorio, A es una colecci´on de sucesos de inter´es y P es una asignaci´on de probabilidades a los sucesos de A. Una variable aleatoria multidimensional ´o vector aleatorio es una funci´on definida sobre Ω en Rn de la forma, X : Ω −→ Rn X(ω) = (X1 (ω), . . . , Xn (ω)) ,

para todo ω ∈ Ω

y es tal que la imagen inversa, mediante X, de los conjuntos Borel de Rn pertenece a la σ-´algebra A, es decir X−1 (S) = {ω ∈ Ω tales que X(ω) ∈ S} ∈ A para todo S ∈ BRn Si X = (X1 , . . . , Xn ) es un vector aleatorio entonces X1 , . . . , Xn son variables aleatorias. 1

Vectores Aleatorios

Por ejemplo, si consideramos el experimento aleatorio de lanzar un dado dos veces y anotar los resultados obtenidos en las caras superiores, podemos definir las variables aleatorias X1 =“n´ umero obtenido en la primera tirada”, X2 =“n´ umero obtenido en la segunda tirada” y X3 =“diferencia entre el primer y el segundo resultado” sobre el espacio muestral correspondiente a dicho fen´omeno aleatorio y considerar el vector aleatorio de dimensi´on 3 o la variable aleatoria tridimensional X = (X1 , X2 , X3 ). De la misma manera que en el caso univariante ahora pensamos en obtener formalmente la probabilidad de los valores de X a partir de la probabilidad P definida en A. Esta probabilidad P define de manera natural otra funci´on de probabilidad, que podemos denotar PX , en Rn de la forma PX (S) = P ({ω ∈ Ω tales que X(ω) ∈ S})

para todo S ∈ BRn

Esta probabilidad se denomina probabilidad conjunta inducida por el vector aleatorio X. De esta forma deducimos que (Rn , BRn , PX ) es el espacio probabil´ıstico inducido por el vector aleatorio X.

1.2

Vectores aleatorios discretos y continuos

Un vector aleatorio X se llama discreto si todas las variables aleatorias que lo componen son discretas y por lo tanto X toma a lo sumo un conjunto finito o infinito numerable de valores en Rn . En otras palabras, X es discreto si existe un conjunto numerable A de Rn tal que P (X ∈ A) = 1. Para simplificar la notaci´on consideremos una variable aleatoria bidimensional (X, Y ). Si es un vector discreto entonces sean (xi , yj ) para i, j = 1, 2, . . . todos los posibles valores del vector (X, Y ). Entonces, denotamos por pij = p(xi , yj ) = P (X = i, Y = j) a la funci´on de probabilidad del vector (X, Y ). Se verifica que i) pij ≥ 0 para todo i, j = 1, 2, . . . ii)

∞ X ∞ X

pij = 1

i=1 j=1

2

Vectores aleatorios discretos y continuos

Cuando xi e yj recorren todos sus posibles valores la funci´on anterior se denomina distribuci´on de probabilidad conjunta del vector aleatorio (X, Y ) y verifica i) y ii). El rec´ıproco tambi´en es cierto, cualquier funci´on de un par de variables aleatorias reales que satisfaga i) y ii) puede ser considerada como la distribuci´on de probabilidad conjunta de alg´ un vector aleatorio bidimensional. Adem´as, para cualquier conjunto S ∈ BR2 se verifica que X

P ((X, Y ) ∈ S) =

pij

(xi ,yj )∈S

Ejemplo 1.1 Supongamos que tenemos una urna que contiene tres bolas numeradas del 1 al 3. Extraemos dos bolas con reemplamiento, es decir extraemos una bola, observamos su n´ umero y la introducimos de nuevo en la urna antes de extraer la segunda. Si consideramos las variables aleatorias X1 =“n´ umero de la primera bola extra´ıda” y X2 =“n´ umero de la segunda bola extra´ıda” podemos observar que el espacio muestral del experimento aleatorio estar´ a formado por 9 elementos equiprobables de manera que la distribuci´ on de probabilidad conjunta del vector (X1 , X2 ) se puede representar mediante la siguiente tabla de doble entrada X1 1 2 3

X2 2 1/9 1/9 1/9

1 1/9 1/9 1/9

3 1/9 1/9 1/9

Nota: Calcular la distribuci´ on de probabilidad conjunta suponiendo que no hay reemplazamiento. Ejemplo 1.2 Consideremos el experimento aleatorio de lanzar un dado perfecto dos veces y sean X =“resultado del primer lanzamiento” e Y =“resultado del menor de los dos lanzamientos”. Calcular la funci´ on de probabilidad conjunta del vector aleatorio (X, Y ). Por otro lado, se dice que un vector aleatorio X = (X, Y ) es continuo si existe una funci´on f real definida sobre R2 (para este caso bidimensional), denominada funci´on de densidad, que verifica i) f (x, y) ≥ 0 para todo x, y ∈ R 3

Vectores Aleatorios

Z



Z



ii)

f (x, y)dydx = 1 (es decir, el volumen total por debajo de la superficie −∞

−∞

z = f (x, y) y por encima del plano xy debe ser 1)

y es tal que para cualquier conjunto S ∈ BR2 se verifica que Z Z P ((X, Y ) ∈ S) = f (x, y)dydx S

Cualquier funci´on f que satisfaga estas propiedades es la funci´on de densidad de alguna variable aleatoria bidimensional. Rec´ıprocamente, si X e Y tienen una distribuci´on continua conjunta, entonces las dos afirmaciones siguientes deben ser ciertas: (1) Cualquier punto, o cualquier sucesi´ on infinita de puntos, en el plano xy tiene probabilidad cero. (2) Cualquier curva unidimensional en el plano xy tiene probabilidad cero. Ejemplo 1.3 Supongamos que seleccionamos al azar un punto cualquiera del cuadrado unitario B = {(x, y) ∈ R2 : 0 < x < 1, 0 < y < 1}. Sea X el valor num´erico de la coordenada x del punto elegido y sea Y el valor num´erico de la coordenada y. Entonces se puede comprobar que (X, Y ) es un vector aleatorio continuo y que adem´ as, ya que el punto se elige al azar, su funci´ on de densidad ser´ a ½ 1 si 0 < x < 1; 0 < y < 1 f (x, y) = 0 en otro caso

1.3

Funci´ on de distribuci´ on conjunta

Consideremos un vector aleatorio X = (X1 , . . . , Xn ) definido sobre cierto espacio de probabilidad (Ω, A, P ). Se define la funci´on de distribuci´on conjunta como una funci´on F definida sobre Rn con valores en [0, 1] y tal que F (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn )

para todo x1 , . . . , xn ∈ R

Supongamos el caso bidimensional para simplificar la notaci´on. Si X es discreto, entonces:

X X

F (x, y) =

pij

para todo x, y ∈ R

xi ≤x yj ≤y

Si X es continuo, entonces: Z F (x, y) =

x

−∞

Z

y

f (r, s)dsdr −∞

4

para todo x, y ∈ R

Distribuciones marginales

La funci´on de distribuci´on multivariante tiene propiedades an´alogas a las univariantes, es decir i) 0 ≤ F (x1 , x2 ) ≤ 1 para todo x1 , x2 ∈ R ii) F es no decreciente en cada argumento iii) F es continua por la derecha en cada argumento iv) F (+∞, +∞) = 1 y F (−∞, y) = F (x, −∞) = 0 para todo x, y ∈ R v) Para todo x1 < x2 , y1 < y2 se verifica la siguiente desigualdad F (x2 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) − F (x1 , y2 ) ≥ 0 es decir, P ((X, Y ) ∈ (x1 , x2 ] × (y1 , y2 ]) ≥ 0 Ejemplo 1.4 Si consideramos el vector aleatorio (X, Y ) definido por la funci´ on de densidad del ejemplo 1.3 podemos calcular que la funci´ on de distribuci´ on conjunta ser´ a

 0      xy x F (x, y) =    y   1

si si si si si

x1, 0≤y≤1 x>1, y>1

Ejemplo 1.5 Calcular las funciones de distribuci´ on conjuntas asociadas a los vectores aleatorios definidos en los ejemplos 1.1 y 1.2.

1.4

Distribuciones marginales

Sea (X, Y ) un vector aleatorio y sea F (x, y) la funci´on de distribuci´on conjunta del mismo. A partir de este conocimiento se pueden deducir las funciones de distribuci´on de las variables aleatorias X e Y respectivamente de la siguiente manera: FX (x) = P (X ≤ x) = P (X ≤ x, Y < +∞) = lim F (x, y) = F (x, +∞) y→∞

FY (y) = P (Y ≤ y) = P (X < +∞, Y ≤ y) = lim F (x, y) = F (+∞, y) x→∞

Estas funciones de distribuci´on se denominan las funciones de distribuci´on marginales de X e Y respectivamente. 5

Vectores Aleatorios

Si el vector aleatorio (X, Y ) es discreto entonces XX XX FX (x) = pij FY (y) = pij xi ≤x yj

xi yj ≤y

y en el caso continuo tendremos que Z x Z ∞ FX (x) = f (r, y)dydr −∞

Z



Z

y

FY (y) =

−∞

f (x, s)dsdx −∞

−∞

De forma an´aloga si se conoce la funci´on de probabilidad o la funci´on de densidad conjunta se pueden deducir las correspondientes marginales. Z ∞ X P (X = i) = pij fX (x) = f (x, y)dy −∞

yj

An´alogamente para la distribuci´on marginal de Y . En el caso n-dimensional podemos decir que el conocimiento de la distribuci´on conjunta de X = (X1 , . . . , Xn ) permite el conocimiento de la distribuci´on conjunta de cualquier subconjunto de variables o vectores de (X1 , . . . , Xn ). As´ı podemos escribir de manera general que FXi1 ,...,Xij (xi1 , . . . , xij ) =

lim

xi →∞,i6=i1 ,...,ij

F (x1 , x2 , . . . , xn )

El rec´ıproco, en general, no es cierto. Es decir, el conocimiento de las distribuciones marginales no permite conocer la distribuci´on conjunta excepto en el caso de disponer de cierta informaci´on adicional que veremos en las dos siguientes secciones. Nota: En el caso bidimensional discreto es de gran utilidad escribir la funci´on de probabilidad conjunta en una tabla de contingencia o de doble entrada ya que resulta muy sencillo deducir las correspondientes distribuciones marginales en dicha tabla.

1.5

Distribuciones condicionadas

Supongamos que X toma cierto valor x. Dado que X = x, ¿cu´al ser´a la distribuci´on de probabilidad de un futuro valor y de la variable Y ?. Esto parece un problema de probabilidad condicional. En el caso que (X, Y ) es un vector aleatorio discreto, la funci´on definida de la forma  pij P (X = xi , Y = yj )   =  P (X = xi ) P (X = xi ) P (Y = yj |X = xi ) =    0 6

si P (X = xi ) > 0 en otro caso

Distribuciones condicionadas

para j = 1, 2, . . . define una funci´on de probabilidad y se conoce como la funci´on de probabilidad de Y condicionada a que X = xi . Como es una funci´on de probabilidad entonces: P (Y ∈ A|X = xi ) =

X

pij

yj ∈A

En particular si A = (−∞, y] entonces esta funci´on se denomina funci´on de distribuci´on de Y condicionada a que X = xi . Consideremos ahora el caso en que el vector aleatorio (X, Y ) es continuo y est´a definido por una funci´on de densidad conjunta f (x, y) y sean fX (x) y fY (y) las correspondientes funciones de densidad marginales. Entonces la funci´on de densidad de Y condicionada a que X toma cierto valor x es definida de la forma fY |X=x (y) =

f (x, y) fX (x)

siempre que fX (x) > 0. De la misma forma se podr´ıa definir una funci´on de densidad de Y condicionada a que X ∈ A para cualquier A ⊆ R siempre que P (X ∈ A) > 0. An´alogamente se pueden definir las funciones de probabilidad o las funciones de densidad de la variable X condicionada a que Y toma cierto valor y o bien Y ∈ A. Ejemplo 1.6 Consideremos tres lanzamientos independientes de una moneda y se definen las siguientes variables aleatorias: X es el n´ umero de caras en los tres lanzamientos e Y el n´ umero de cruces antes de la primera cara. Calcular la funci´ on de probabilidad conjunta, las funciones de probabilidad marginales y la funci´ on de distribuci´ on de X condicionada a que Y = 0. Ejemplo 1.7 Supongamos que cierta variable X representa la proporci´ on de errores de tipo A en ciertos documentos e Y representa la proporci´ on de errores del tipo B. Se verifica que x + y ≤ 1, es decir, existen otros errores posibles, y la funci´ on de densidad conjunta es ½ f (x, y) =

2 si 0 ≤ x ≤ 1; 0 ≤ y ≤ 1; x + y ≤ 1 0 en otro caso

Calcular las distribuciones marginales y la distribuci´ on de X condicionada a que Y = 0.5. 7

Vectores Aleatorios

1.6

Variables aleatorias independientes

Un problema b´asico de probabilidad es determinar la distribuci´on de probabilidad conjunta de cierto vector aleatorio dado que conocemos las correspondientes marginales. Esto en general, como ya comentamos, no es posible. Necesitamos cierta informaci´on adicional sobre la estructura de la dependencia de las variables. Si esta informaci´on est´a disponible en forma de distribuciones condicionadas entonces podemos conocer la distribuci´on conjunta sin m´as que aplicar lo estudiado en la secci´on anterior puesto que por la regla del producto, P (X1 = x1 , . . . , Xn = xn ) = =

P (X1 = x1 )P (X2 = x2 |X1 = x1 ) · · · P (Xn = xn |X1 = x1 , . . . , Xn−1 = xn−1 )

An´alogamente se puede escribir esta igualdad en el caso continuo. Un caso especialmente importante es el caso de la independencia. Decimos que dos variables aleatorias X e Y son independientes si el conocimiento de una de ellas no aporta informaci´on respecto a los valores de la otra. Formalmente, X e Y variables aleatorias discretas son independientes si para todo yj P (X = xi |Y = yj ) = P (X = xi ) para todo xi con lo cual P (X = xi , Y = yj ) = P (X = xi )P (Y = yj )

para todo xi , yj

es decir, la funci´on de probabilidad conjunta es el producto de las funciones de probabilidad marginales. De manera an´aloga en el caso continuo se puede deducir que dos variables X e Y son independientes si la funci´on de densidad conjunta es el producto de las funciones de densidad marginales, es decir f (x, y) = fX (x)fY (y)

para todo x, y ∈ R

Como consecuencia podemos establecer de manera general el siguiente resultado Proposici´ on 1.8 Si X1 , . . . , Xn son variables aleatorias independientes entonces: i) Cualquier subconjunto de variables de ellas es independiente. ii) Cualquier conjunto de funciones f1 (X1 ) . . . , fn (Xn ) de ellas es independiente. 8

Funciones de un vector aleatorio absolutamente continuo

iii) Cualesquiera funciones f (X1 , . . . , Xj ), g(Xj+1 , . . . , Xn ) de conjuntos disjuntos de ellas son tambi´en independientes. Ejemplo 1.9 Supongamos que un nodo en una red de trabajo de comunicaciones tiene la propiedad de que si dos paquetes de informaci´ on llegan con un tiempo de separaci´ on entre ambos dentro de un tiempo T colisionan y entonces son retransmitidos. Si los tiempos de llegada de los dos paquetes son independientes y uniformes en el intervalo [0, 2], ¿cu´ al es la probabilidad de que colisionen?.

1.7

Funciones de un vector aleatorio absolutamente continuo

Sea (X, Y ) un vector aleatorio con funci´on de densidad f (x, y). Sean U = g1 (X, Y ) y V = g2 (X, Y ) dos transformaciones biun´ıvocas tales que existen las transformaciones inversas que llamaremos X = h1 (U, V ) y Y = h2 (U, V ). Supongamos adem´as que existen las derivadas parciales de h1 y h2 con respecto a u y v respectivamente y son continuas. Entonces podemos construir el Jacobiano de estas transformaciones que ser´a el siguiente determinante: ¯ ¯ ¯ ∂h1 ∂h1 ¯ ¯ ¯ ¯ ∂u ∂v ¯¯ ¯ J =¯ ¯ ¯ ∂h ∂h2 ¯¯ 2 ¯ ¯ ¯ ∂u ∂v y asumimos que J 6= 0 en el rango de las transformaciones. En estas condiciones se verifica que Z P (a < X ≤ b, c < Y ≤ d)

b

Z

d

=

f (x, y)dydx Za Z

c

=

f (h1 (u, v), h2 (u, v))|J|dudv = P ((U, V ) ∈ S) S

sin m´as que hacer uso de m´etodos de c´alculo para cambios de variable en integraci´on m´ ultiple. Por lo tanto, la funci´on de densidad conjunta del vector aleatorio (U, V ) viene dado por la funci´on: g(u, v) = f (h1 (u, v), h2 (u, v))|J| 9

para todo (u, v) ∈ D

Vectores Aleatorios

donde D = {(u, v) : u = g1 (x, y), v = g2 (x, y)}y consecuentemente su funci´on de distribuci´on ser´a Z

u

Z

v

G(u, v) =

g(u, v)dudv −∞

Nota:

para todo (u, v) ∈ R

−∞

Se verifica que el jacobiano ¯ ¯ ∂g1 ¯ ¯ ∂x ¯ J0 = ¯ ¯ ∂g 2 ¯ ¯ ∂x

J es la inversa del jacobiano J0 definido por ¯ ∂g1 ¯ ¯ ∂y ¯¯ , J = J0−1 ¯ ¯ ∂g2 ¯ ¯ ∂y

Ejemplo 1.10 Consideremos un vector aleatorio (X, Y ) dado por la siguiente funci´ on de densidad

½ f (x, y) =

e−(x+y) 0

si x > 0, y > 0 en caso contrario

Determinar la funci´ on de densidad del vector (U, V ) dado por U = X + Y y V = X −Y. Ejemplo 1.11 Consideremos un vector aleatorio (X, Y ) continuo dado por la siguiente funci´ on de densidad ½ f (x, y) =

x+y 0

si 0 < x < 1; 0 < y < 1 en otro caso

Calcular la distribuci´ on de probabilidad del vector (U, V ) dado por U = X + 2Y y V = 3X. Ejemplo 1.12 Sean X e Y dos variables aleatorias uniformes e independientes en el intervalo (0, 1). Calcular la distribuci´ on de probabilidad del vector aleatorio (U, V ) siendo U=



−2 ln x cos 2πy

V =



−2 ln x sin 2πy

Si el vector aleatorio (X, Y ) es discreto entonces es evidente que la funci´on de probabilidad del vector transformado (U, V ) vendr´a dada por X

P (U = uk , V = vl ) =

{(xi ,yj ): uk =g1 (xi ,yj ),vl =g(xi ,yj )}

10

pij

Distribuciones de algunas funciones de variables aleatorias

1.8

Distribuciones de algunas funciones de variables aleatorias

En esta secci´on nos proponemos estudiar la distribuci´on de probabilidad de cualquier transformaci´on Y = g(X1 , . . . , Xn ) de variables aleatorias supuesto que conocemos la funci´on de distribuci´on del vector aleatorio X = (X1 , . . . , Xn ). En general podemos establecer que Z Z FY (y) = P (Y ≤ y) = · · · f (x1 , . . . , xn )dx1 · · · dxn B

siendo B = {(x1 , . . . , xn ) : g(x1 , . . . , xn ) ≤ y} (de manera an´aloga se procede en un caso discreto) Por otro lado, podemos hacer uso de lo estudiado en la secci´on anterior y considerar un nuevo vector aleatorio transformado Y = (Y, X1 , . . . , Xn−1 ) y aplicar el resultado general para obtener la funci´on de distribuci´on conjunta de Y. Basta calcular la funci´on de distribuci´on marginal de Y para concluir. En particular estableceremos las correspondientes funciones de distribuci´on para variables Y de la forma (caso bidimensional): i) g(X1 , X2 ) = aX1 + bX2 ii) g(X1 , X2 ) = X1 X2 iii) g(X1 , X2 ) = X2 /X1 iv) g(X1 , X2 ) = min{X1 , X2 } v) g(X1 , X2 ) = max{X1 , X2 }

1.8.1

Distribuci´ on de la suma

Supongamos primero el caso discreto. Sea (X, Y ) un vector aleatorio discreto con funci´on de probabilidad pij para i, j = 1, 2, . . .. Para calcular la funci´on de probabilidad de Z = X + Y bastar´ıa: P (Z = z) = P (X + Y = z) =

X

P (X = xi , Y = z − xi )

i

siempre que xi y z−xi correspondan a puntos del espacio muestral del vector aleatorio (X, Y ). 11

Vectores Aleatorios

En este caso, si X e Y son independientes los que se obtiene es que la funci´on de probabilidad de la suma es la convoluci´on de las distribuciones marginales de X e Y respectivamente ya que P (Z = z) =

X

PX (X = xi )PY (Y = z − xi )

i

Si (X, Y ) es un vector aleatorio continuo y denotamos por f (x, y) a su funci´on de densidad, podemos hacer uso de las dos herramientas comentadas al principio de la secci´on y de esta forma podemos calcular que si consideramos la transformaci´on Z = X + Y , U = X entonces tendremos las transformaciones inversas que son X = U e Y = Z − U con lo que el jacobiano es igual a 1 y de esta forma: f(U,Z) (u, z) = f (u, z − u)|1| y la densidad marginal de Z nos dar´a la funci´on de densidad de la suma de dos variables aleatorias

Z



fZ (z) =

f (x, z − x)dx −∞

Por otro lado, podemos deducir esta misma funci´on de densidad calculando directamente la funci´on de distribuci´on de la suma y despu´es derivando respecto a z deducimos la funci´on de densidad anterior de la siguiente manera: Z Z FZ (z) = P (Z ≤ z) = P (X + Y ≤ z) = f (x, y)dydx B ¶ Z ∞ µZ z−x = f (x, y)dy dx −∞

−∞

donde B = {(x, y) : x + y ≤ z}. An´ alogamente se puede deducir la distribuci´on de probabilidad cuando Z = X −Y o en general Z = aX + bY siendo a, b ∈ R − {0}. Ejemplo 1.13 Consideremos un vector aleatorio (X, Y ) continuo dado por la siguiente funci´ on de densidad ½ 2 si 0 ≤ x ≤ 1; 0 ≤ y ≤ 1; x + y ≤ 1 f (x, y) = 0 en otro caso Calcular la distribuci´ on de probabilidad de X + Y . 12

Distribuciones de algunas funciones de variables aleatorias

1.8.2

Distribuci´ on del producto

Deducimos directamente el caso continuo y haciendo uso de la herramienta de transformaci´on puesto que lo dem´as ser´ıa repetir las t´ecnicas empleadas en el caso anterior. De esta forma, consideramos ahora Z = XY y definimos U = X, haciendo uso de las transformaciones inversas y del jacobiano se deduce que Z f(U,Z) (u, z) = f (u, z/u)| − 1/u| y fZ (z) =

∞ −∞

1 f (x, z/x)dx |x|

Ejemplo 1.14 Consideremos un vector aleatorio (X, Y ) continuo dado por la siguiente funci´ on de densidad ½ f (x, y) =

x+y 0

si 0 < x < 1; 0 < y < 1 en otro caso

Calcular la distribuci´ on de probabilidad de XY . Ejemplo 1.15 Consideremos un vector aleatorio (X, Y ) continuo dado por la siguiente funci´ on de densidad  xy   96 f (x, y) =   0

si

0 < x < 4; 1 < y < 5

en otro caso

Calcular la distribuci´ on de probabilidad de XY .

1.8.3

Distribuci´ on del cociente

Con argumentos similares a los empleados en los casos anteriores, consideramos ahora Z = Y /X y definimos U = X, haciendo uso de las transformaciones inversas y del jacobiano se deduce que Z f(U,Z) (u, z) = f (u, uz)| − u|



y fZ (z) =

|x|f (x, xz)dx −∞

Ejemplo 1.16 Consideremos un vector aleatorio (X, Y ) continuo dado por la siguiente funci´ on de densidad ½ f (x, y) =

x+y 0

si 0 < x < 1; 0 < y < 1 en otro caso

Calcular la distribuci´ on de probabilidad de Y /X. 13

Vectores Aleatorios

1.8.4

Distribuci´ on del m´ aximo y del m´ınimo

Consideremos un vector aleatorio X = (X1 , . . . , Xn ) donde las variables aleatorias Xi para i = 1, 2, . . . , n son independientes e id´enticamente distribuidas con funci´on de distribuci´on com´ un F (siendo f su funci´on de densidad com´ un). En esta situaci´on, la funci´on de distribuci´on de la variable aleatoria U definida por U = max{X1 , . . . , Xn } viene dada por FU (u) = P (U ≤ u) = P (max{X1 , . . . , Xn } ≤ u) = P (X1 ≤ u, . . . , Xn ≤ u) = F (u)n Por lo tanto, fU (u) = n

dF (u) [F (u)]n−1 = nf (u)[F (u)]n−1 du

De manera an´aloga y bajo estas condiciones, la funci´on de distribuci´on de la variable aleatoria V definida por V = min{X1 , . . . , Xn } viene dada por 1 − FV (v) =

P (V ≥ v) = P (min{X1 , . . . , Xn } ≥ v)

=

P (X1 ≥ v, . . . , Xn ≥ v) = [1 − F (v)]n

Por lo tanto, FV (v) = 1 − [1 − F (v)]n De este modo, fV (v) = nf (v)[1 − F (v)]n−1 Ejemplo 1.17 Supongamos que 12 componentes de un sistema est´ an conectadas en serie, lo que significa que el sistema falla si una de las componentes falla. La distribuci´ on del tiempo de vida de las componentes son independientes e id´enticamente distribuidas seg´ un una exponencial de par´ ametro λ = 70 horas. Calcular la distribuci´ on de probabilidad de V que representa el tiempo que el sistema est´ a funcionando. Hacer lo mismo para un sistema en paralelo. 14

Distribuciones de algunas funciones de variables aleatorias

Ejercicios Ejercicio 1. Consideremos el vector aleatorio (X, Y ) definido por la siguiente funci´on de densidad conjunta: ½ 2(x + y − 3xy 2 ) si 0 < x < 1; 0 < y < 1 f (x, y) = 0 en otro caso Calcular las funciones de distribuci´on marginales y condicionadas. Ejercicio 2. Consideremos el vector aleatorio (X, Y ) definido por la siguiente funci´on de densidad conjunta:  1   (x + y) si 0 < x < 4; 0 < y < 2; y < x 24 f (x, y) =   0 en otro caso Calcular la funci´on de densidad de Y |X. Calcular P (1 ≤ Y ≤ 2 | X < 3) Ejercicio 3. Consideremos un vector aleatorio (X, Y ) dado por la siguiente funci´on de densidad ½ −(x+y) e si x > 0, y > 0 f (x, y) = 0 en caso contrario Comprobar si X e Y son independientes. Ejercicio 4. Si lanzamos una moneda repetidas veces y consideramos la variable X definida como “n´ umero de lanzamientos necesarios hasta obtener la primera cara” y la variable Y definida como “n´ umero de lanzamientos necesarios para obtener la segunda cara”. Comprobar si dichas variables son independientes. Ejercicio 5. Consideremos un vector aleatorio (X, Y ) dado por la siguiente funci´on de probabilidad conjunta: X 0 1

1 0.2 0.1

Y 2 0.25 0.15

3 0.25 0.05

i) Calcular las distribuciones marginales de X e Y . ii) Calcular la distribuci´on de Y |X = 1. 15

Vectores Aleatorios

iii) Calcular las distribuciones de probabilidad de X + Y , XY , X/Y , max{X, Y } y min{X, Y } respectivamente. iv) Calcular P (X + Y < 2|Y = 1). v) Calcular la distribuci´on de probabilidad conjunta del vector aleatorio (U, V ) dado por U = X + Y y V = X − Y .

Ejercicio 6. Consideremos un vector aleatorio (X, Y ) dado por la siguiente funci´on de densidad

 1 + xy(x2 − y 2 )   4 f (x, y) =   0

si

|x| < 1, |y| < 1

en caso contrario

Calcular la distribuci´on de probabilidad de X + Y . Ejercicio 7. Consideremos dos variables aleatorias X e Y independientes e id´enticamente distribuidas seg´ un la siguiente funci´on de densidad  1   2 si x ≥ 1 x fX (x) =   0 en caso contrario Calcular la distribuci´on de probabilidad de Z =



XY .

Ejercicio 8. Consideremos el vector aleatorio (X, Y ) definido por la siguiente funci´on de densidad conjunta: ½ f (x, y) =

2x si 0 < x < 1; 0 < y < 1 0 en otro caso

i) Calcular la distribuci´on de probabilidad del max{X, Y } y del min{X, Y } respectivamente. ii) Calcular la distribuci´on de probabilidad del vector (U, V ) definido por U = max{X, Y } y V = X. iii) Calcular la distribuci´on de probabilidad del vector (U, V ) definido por U = max{X, Y } y V = X + Y . 16

Distribuciones de algunas funciones de variables aleatorias

Ejercicio 9. Consideremos el vector aleatorio (X, Y ) definido por la siguiente funci´on de densidad conjunta: ½ 6x si 0 < x < y < 1 f (x, y) = 0 en otro caso Calcular la distribuci´on de probabilidad del max{X, Y } y del min{X, Y } respectivamente. Ejercicio 10. Consideremos el vector aleatorio (X, Y ) definido por la siguiente funci´on de densidad conjunta: ½ 6x si 0 < x < y < 1; x + y < 1 f (x, y) = 0 en otro caso i) Calcular la distribuci´on de probabilidad de XY . ii) Calcular la distribuci´on de probabilidad del vector (U, V ) definido por U = max{X, Y } y V = X + Y .

17

Cap´ıtulo 2 Caracter´ısticas Num´ ericas de un Vector Aleatorio 2.1

Esperanza Matem´ atica

Comenzamos recordando el caso univariante. Para ello, sean X una variable aleatoria definida sobre un espacio de probabilidad (Ω, A, P ) y g una funci´on real definida sobre R. Definimos la variable aleatoria g(X) de la forma g(X)(ω) = g(X(ω)) para todo ω ∈ Ω. Si g(X) es una variable aleatoria de tipo discreto entonces se define la esperanza matem´atica, el valor esperado o el valor medio de g(X) por E[g(X)] =

∞ X

g(xj )P (X = xj )

j=1

Por el contrario, si g(X) es una variable aleatoria de tipo continuo entonces se define la esperanza matem´atica, el valor esperado o el valor medio de g(X) por Z ∞ E[g(X)] = g(x)f (x)dx −∞

con tal de que

P∞ j=1

|g(xj )|P (X = xj ) < ∞ o bien

R∞ −∞

|g(x)|f (x)dx < ∞ es decir,

E[g(X)] existe si E[|g(X)|] < ∞. Por ejemplo, si consideramos una variable aleatoria definida por la siguiente funci´on de densidad ( 1 si |x| > 1 f (x) = x2 0 en caso contrario 18

Esperanza Matem´ atica

se verifica que E[X] no existe. Algunos casos de especial inter´es son: g(x) x |x|k xk (x − c)k (x − µ)k (x − µ)2

E[g(X)] E[X] E[|X|k ] E[X k ] E[(X − c)k ] E[(X − µ)k ] E[(X − µ)2 ]

Not. µ

Nombre Primer Momento o media de X Momento absoluto de X de orden k > 0 Momento ordinario de X de orden k ≥ 0

αk

Momento ordinario de X de orden k respecto a c

µk σ2

Momento central de X de orden k Varianza

Adem´as, si suponemos que E[X] existe y consideramos a, b ∈ R, entonces se verifican las siguientes propiedades: i) E[aX + b] = aE[X] + b ii) E[X − E[X]] = 0 iii) Si g1 , . . . , gk son funciones reales tales que g1 (X), . . . , gk (X) son variables aleatorias y adem´as E[|gj (X)|] < ∞ para todo j = 1, . . . , k entonces se verifica que k k X X E[ gj (X)] = E[gj (X)] j=1

j=1

Si X = (X1 , . . . , Xn ) es un vector aleatorio (discreto o continuo) se define la esperanza matem´atica del vector aleatorio X y se denota por E[X], al vector de medias cuyas componentes son los valores esperados de las n variables del vector, es decir E[X] = (E[X1 ], . . . , E[Xn ]) Para calcular el vector de medias podemos deducir a partir de la funci´on de distribuci´on conjunta las correspondientes marginales y de esta forma obtener cada componente del vector. Por ejemplo, para i = 1, 2, . . . , n se deduce que

E[Xi ] =

∞ X

xij P (Xi = xij )

caso discreto

j=1 Z ∞

E[Xi ] = −∞

xi fXi (xi )dxi 19

caso continuo

Caracter´ısticas Num´ericas de un Vector Aleatorio

Una forma m´as directa sin necesidad de calcular las distribuciones marginales es evidente que ser´ıa para cualquier i = 1, 2, . . . , n E[Xi ] = Z

∞ X

xij P (X1 = x1j , . . . , Xn = xnj )

caso discreto

j=1

Z





...

E[Xi ] =

xi f (x1 , . . . , xn )dx1 · · · dxn

−∞

caso continuo

−∞

Ejemplo 2.1 Si consideramos un vector aleatorio (X, Y ) con funci´ on de densidad conjunta dada por

½ f (x, y) =

2x si 0 < x, y < 1 0 en otro caso

podemos deducir que E[(X, Y )] = (2/3, 1/2). on de probabilidad Ejemplo 2.2 Si consideramos un vector aleatorio (X, Y ) con funci´ conjunta dada por Y X -1 0 1

0 0.1 0.3 0.1

1 0.2 0.1 0.2

podemos deducir que E[(X, Y )] = (0, 0.5). Por otro lado, si disponemos de una funci´on real g de un vector de variables aleatorias X = (X1 , . . . , Xn ) (discreto o continuo), podemos generalizar esta idea definiendo el valor medio de esta funci´on de la siguiente forma: Z ∞ Z ∞ g(x1 , . . . , xn )f (x1 , . . . , xn )dx1 · · · dxn caso continuo ... E[g(X)] = −∞ ∞ X

E[g(X)] =

−∞

g(x1j , . . . , xnj )P (X1 = x1j , . . . , Xn = xnj )

caso discreto

j=1

Ejemplo 2.3 Sea una barra de longitud la unidad (por ejemplo 1 metro). Se eligen aleatoriamente 2 puntos de esa barra y se corta la barra por esos puntos. Calcular la longitud media del trozo central. Es evidente que si denotamos por X la localizaci´ on del primer punto donde se rompe la barra y por Y la localizaci´ on del segundo punto, ambas son variables aleatorias continuas independientes y distribuidas seg´ un una uniforme en el intervalo [0, 1]. 20

Esperanza de la suma y el producto de variables aleatorias

El objetivo ser´ıa calcular E[|X − Y |] para lo cual s´ olo hay que tener en cuenta que esta funci´ on est´ a definida a trozos y que por tanto Z 1Z 1 Z 1 Z x Z 1 Z 1 E[|X − Y |] = |x − y|1dydx = ( (x − y)dy)dx + ( (y − x)dy)dx 0

2.2

0

0

0

0

x

Esperanza de la suma y el producto de variables aleatorias

De forma general podemos decir que dado un vector aleatorio X = (X1 , . . . , Xn ) y k funciones reales g1 , . . . , gk tales que g1 (X), . . . , gk (X) son variables aleatorias y adem´as E[|gj (X)|] < ∞ para todo j = 1, . . . , k entonces se verifica que   k k X X E gj (X) = E[gj (X)] j=1

j=1

Como caso particular podemos probar que dadas k variables Xi , i = 1, 2, . . . , k tales que E[Xi ], i = 1, 2, . . . , k existe se verifica que E[X1 + · · · + Xk ] = E[X1 ] + · · · + E[Xk ] Esta igualdad se prueba de forma sencilla y adem´as tenemos garantizado que existe E[X1 + · · · + Xk ] puesto que por la desigualdad triangular se verifica que |X1 + · · · + Xk | ≤ |X1 | + · · · + |Xk |. Asimismo, se verifica que si a, bi ∈ R para i = 1, . . . , k entonces " # k k X X E a+ bi Xi = a + bi E[Xi ] i=1

i=1

Como corolario de estas dos u ´ltimas propiedades podemos establecer que si para todo i = 1, . . . , k, E[Xi ] = µ, entonces se verifica que # "P k i=1 Xi =µ E[X] = E k Para el producto de variables aleatorias s´olo podemos establecer una igualdad en el caso particular de que todas las variables Xi , i = 1, . . . , k sean independientes. En esta situaci´on, dadas k variables Xi , i = 1, 2, . . . , k independientes y tales que E[Xi ], i = 1, 2, . . . , k existe se verifica que E[X1 · . . . · Xk ] = E[X1 ] · . . . · E[Xk ] 21

Caracter´ısticas Num´ericas de un Vector Aleatorio

y al igual que en la suma la existencia de la primera esperanza est´a garantizada puesto que |X1 · . . . · Xk | = |X1 | · . . . · |Xk |. Es importante rese˜ nar que el rec´ıproco de esta afirmaci´on no es cierto, es decir si tenemos k variables Xi , i = 1, 2, . . . , k tales que E[Xi ], i = 1, 2, . . . , k existe y se verifica que E[X1 · . . . · Xk ] = E[X1 ] · . . . · E[Xk ] entonces Xi , i = 1, 2, . . . , k no tienen porque ser independientes. on de probabilidad Ejemplo 2.4 Si consideramos un vector aleatorio (X, Y ) con funci´ conjunta dada por Y X -1 0 1

0 0.1 0.3 0.1

1 0.2 0.1 0.2

ya deducimos que E[(X, Y )] = (0, 0.5) y se puede calcular que E[XY ] = −1 · 0.2 + 0 · 0.6+1·0.2 = 0. Por lo tanto E[XY ] = E[X]E[Y ] pero X e Y no son independientes ya que por ejemplo P (X = −1, Y = 0) = 0.1 y sin embargo P (X = −1)P (Y = 0) = 0.15

2.3

Matriz de varianzas y covarianzas

Cuando se considera la distribuci´on conjunta de dos variables aleatorias, las medias, las medianas, las varianzas, etc. de las distribuciones marginales proporcionan informaci´on acerca de las variables aleatorias consideradas individualmente pero no proporcionan ninguna informaci´on acerca de la relaci´on entre las dos variables o de su tendencia de variar juntas o una independientemente de la otra. Estudiaremos en esta secci´on la covarianza de dos variables que es una medida del grado de asociaci´on entre dos variables, concretamente una medida de la intensidad de la relaci´on lineal entre las dos variables. Sean X e Y dos variables aleatorias cuyas esperanzas respectivamente denotamos por µX y µY y las cuales suponemos que existen. Definimos el momento ordinario de orden r en X y orden s en Y de la siguiente forma αr,s = E[X r Y s ] 22

Matriz de varianzas y covarianzas

De esta forma se deduce que algunos momentos ordinarios ya conocidos son α1,0 = E[X] = µX

α2,0 = E[X 2 ] = α2 (x)

α0,1 = E[Y ] = µY

α0,2 = E[Y 2 ] = α2 (y)

Por otro lado, definimos el momento central o centrado respecto al vector de medias de orden r en X y orden s en Y de la siguiente forma µr,s = E[(X − µX )r (Y − µY )s ] De esta forma se deduce que algunos momentos centrados importantes son 2 µ2,0 = V ar[X] = σX

µ0,2 = V ar[Y ] = σY2

µ1,1 = Cov[X, Y ] = E[(X − µX )(Y − µY )] Propiedades i) Cov(X, X) = V ar(X) para cualquier variable aleatoria X ii) Cov(X, Y ) = Cov(Y, X) para cualesquiera variables aleatorias X e Y iii) Cov(X, Y ) = E[XY ] − E[X]E[Y ] para cualesquiera variables aleatorias X e Y iv) Si X e Y son independientes entonces Cov(X, Y ) = 0. El rec´ıproco no es cierto. v) Cov(aX + c, bY + d) = abCov(X, Y ) siendo a, b, c y d constantes cualesquiera ´ P ³ Pn Pm n Pm vi) Cov a + i=1 ai Xi , b + j=1 bj Yj = i=1 j=1 ai bj Cov(Xi , Yj ) Para probar que el rec´ıproco de la propiedad iv) no es cierto basta con tomar una variable aleatoria X que toma tres valores −1, 0 y 1 con probabilidad 1/3 respectivamente. Tomamos la variable aleatoria Y = X 2 y se prueba f´acilmente que Cov(X, Y ) = 0 y sin embargo X e Y est´an relacionadas (aunque claro la relaci´on no es lineal) Si X = (X1 , . . . , Xn ) es un vector aleatorio se define la matriz de varianzascovarianzas o simplemente la matriz de covarianzas como la matriz cuadrada de orden n definida por M = E[(X − E[X])(X − E[X])t ] Esta matriz es sim´etrica y semidefinida positiva (todos los menores principales son positivos) y contiene en la diagonal las varianzas de las variables X1 , . . . , Xn y fuera de ella las correspondientes covarianzas entre las distintas variables. 23

Caracter´ısticas Num´ericas de un Vector Aleatorio

Ejemplo 2.5 Si consideramos un vector aleatorio (X, Y ) con funci´ on de densidad conjunta dada por

½ f (x, y) =

8xy 0

si 0 ≤ y ≤ x ≤ 1 en otro caso

calcular la matriz de covarianzas de (X, Y ). Se puede comprobar f´acilmente que µ 2/75 M= 4/225

4/225 11/225



Ejemplo 2.6 Se lanzan dos monedas independientes y con 2 n´ umeros 1 y 2 en sus respectivas caras. Calcular la covarianza entre la suma de los dos n´ umeros obtenidos y el m´ınimo de los dos n´ umeros obtenidos. Si denotamos por X e Y el resultado obtenido con la primera moneda y la segunda moneda respectivamente, se puede comprobar f´acilmente que si U = X + Y y V = min{X, Y } entonces Cov(U, V ) = 4 − 3 · 5/4 = 1/4. on de densidad Ejemplo 2.7 Si consideramos un vector aleatorio (X, Y ) con funci´ conjunta dada por ½ f (x, y) =

24xy 0

si x ≥ 0; y ≥ 0; x + y ≤ 1 en otro caso

calcular Cov(X, Y ). Se deduce que Cov(X, Y ) = −2/75.

2.4

Varianza de la suma y de la diferencia de variables aleatorias

Si X e Y son dos variables aleatorias, entonces se verifica que V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) Por otro lado, V ar(X − Y ) = V ar(X) + V ar(Y ) − 2Cov(X, Y ) 24

Matriz de correlaciones.

Adem´as, para a y b dos constantes cualesquiera se verifica que V ar(aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(X, Y ) En general, si X1 , . . . , Xn son variables aleatorias y a y bi , i = 1, . . . , n son constantes entonces V ar(a +

n X

bi Xi ) =

i=1

n X

b2i V ar(Xi ) + 2

XX i

i=1

bi bj Cov(Xi , Xj )

j,i6=j

Ejemplo 2.8 Si consideramos un vector aleatorio (X, Y ) con funci´ on de densidad conjunta dada por  1   (x + y) si 0 ≤ x ≤ 1; 0 ≤ y ≤ 2 3 f (x, y) =   0 en otro caso calcular V ar(2X − 3Y + 8). Se prueba que V ar(2X − 3Y + 8) = 4V ar(X) + 9V ar(Y ) − 12Cov(X, Y ). Se tiene que Cov(X, Y ) = −1/243, V ar(X) = 117/1458 y finalmente V ar(Y ) = 414/1458

2.5

Matriz de correlaciones.

Ya hemos visto que la covarianza es una medida del grado de asociaci´on lineal entre dos variables, pero tiene el inconveniente de que es dimensional, es decir, es proporcional a la magnitud de las variables. Una medida del grado de relaci´on lineal entre dos variables que no presenta este inconveniente es el coeficiente de correlaci´on lineal de Pearson. Se denota usualmente como ρ y se define ρ(X, Y ) =

Cov(X, Y ) σX σY

Seg´ un sea ρ(X, Y ) positivo, negativo o cero se dice respectivamente que las variables aleatorias X e Y est´an correlacionadas positivamente, negativamente o bien son incorreladas. Propiedades i) −1 ≤ ρ ≤ 1 25

Caracter´ısticas Num´ericas de un Vector Aleatorio

ii) ρ = ±1 si y s´olo si existe una dependencia lineal exacta, es decir Y = a + bX. Adem´as el signo de b coincide con el signo de ρ. iii) ρ(X, Y ) = ρ(Y, X) iv) ρ(X, X) = 1 v) ρ(aX + b, cY + d) = ρ(X, Y ), siempre que a, c 6= 0 Para demostrar la propiedad i) es necesario recurrir a la desigualdad de Schwartz: “Para cualesquiera variables aleatorias X e Y tales que existen los momentos de primer y segundo orden respectivamente se verifica que 2

(E[XY ]) ≤ E[X 2 ]E[Y 2 ] y adem´as la igualdad se tiene si Y = aX”. Para probar esta desigualdad es suficiente con definir para todo t ∈ R la funci´on g(t) = E[(X + tY )2 ]. Se verifica que g(t) ≥ 0 para todo t y adem´as g(t) = t2 E[Y 2 ] + 2tE[XY ] + E[X 2 ] y puesto que es no negativa, el polinomio de segundo grado en t tendr´a como m´aximo una ra´ız real, es decir su discriminante es ≤ 0. De lo cual se deduce la desigualdad y adem´ as cuando el discriminante sea cero entonces tendremos la igualdad para el caso se˜ nalado de Y = cte · X. Teorema 2.9 Si X e Y son dos variables aleatorias independientes con varianzas no nulas y finitas entonces ρ(X, Y ) = 0, es decir, est´ an incorreladas. El rec´ıproco no es cierto. Si X = (X1 , . . . , Xn ) es un vector aleatorio se define la matriz de correlaciones como la matriz cuadrada de orden n que contiene en la diagonal principal unos y fuera de ella las correlaciones entre las componentes, es decir est´a definida por n

C = (ρ(Xi , Xj ))i,j=1 Esta matriz es sim´etrica y semidefinida positiva (todos los menores principales son positivos). 26

Matriz de correlaciones.

Ejemplo 2.10 Si consideramos un vector aleatorio (X, Y ) con funci´ on de densidad conjunta dada por ½ f (x, y) =

k 0

si 1/2 < x < 1; 1/2 < y < 1 en otro caso

Calcular k para que f (x, y) sea funci´ on de densidad. ¿Son incorreladas X e Y ?. ¿Son incorreladas U y V definidas por U = XY y V = 1 − X?. Ejemplo 2.11 Si consideramos un vector aleatorio (X, Y ) con funci´ on de densidad conjunta dada por

 1   2 f (x, y) =   0

si

(x, y) ∈ S

en otro caso

donde S es el rect´ angulo de v´ertices (−1, 0), (1, 0), (−1, 1) y (1, 1). ¿Son independientes X e Y ?. ¿Son incorreladas X e Y ?. Ejemplo 2.12 Si consideramos un vector aleatorio (X, Y ) con funci´ on de densidad conjunta dada por  1   2 f (x, y) =   0

si

(x, y) ∈ A ´ o (x, y) ∈ B

en otro caso

donde A es el tri´ angulo de v´ertices (−1, 0), (0, 0) y (0, 1) y B es el tri´ angulo de v´ertices (0, 0), (0, −1) y (1, 0). ¿Son independientes X e Y ?. ¿Son incorreladas X e Y ?. Ejemplo 2.13 Si consideramos un vector aleatorio (X, Y ) con funci´ on de densidad conjunta dada por

 1   x f (x, y) =   0

si

0 0 para todo i = 1, . . . , n. De manera que en el caso bidimensional, si consideramos un vector aleatorio (X, Y ) cualquiera, su funci´on generatriz de momentos vendr´ıa dada por

=

M (s, t) = E[exp{sX + tY }]  ∞ ∞ XX    esk etj P (X = k, Y = j) si es discreto    k=0 j=0  Z     



−∞

Z



esx ety f (x, y)dydx

si es continuo

−∞

An´ alogamente se puede demostrar que los momentos ordinarios de (X, Y ) de orden r en X y orden m en Y respectivamente se deducen f´acilmente mediante αr,m =

∂ r+m M (s, t) (0, 0) ∂r s ∂mt

Tambi´en se verifica la siguiente propiedad: Si a1 , . . . , an ∈ R y X1 , . . . , Xn son variables aleatorias no necesariamente independientes entonces si consideramos Sn = Pn i=1 ai Xi tendremos que MSn (s) = M (sa1 , . . . , san ) 32

Funci´ on Caracter´ıstica. Propiedades

donde MSn y M son las funciones generatrices de momentos de Sn y del vector aleatorio X = (X1 , . . . , Xn ) respectivamente.

2.7

Funci´ on Caracter´ıstica. Propiedades

Si X es una variable aleatoria, entonces se define la funci´ on caracter´ıstica de X a la funci´on definida de la forma  P∞ isx k P (X = xk ) si es discreta  k=1 e isX ϕ(s) = E[e ] =  R ∞ isx e f (x)dx si es continua −∞ La funci´on caracter´ıstica siempre existe Propiedades i) ϕ(0) = 1 ii) E[X k ] =

ϕ(k) (0) , k = 1, 2, . . . ik

´nicamente, es iii) Una funci´on caracter´ıstica determina la funci´on de distribuci´on u decir, si X e Y tienen la misma funci´on caracter´ıstica entonces X e Y tienen la misma distribuci´on de probabilidad (y el mismo conjunto de momentos). iv) Si Y = aX + b para a, b ∈ R entonces ϕY (s) = eisb ϕX (as). v) Sean X1 , . . . , Xn variables aleatorias independientes con funciones caracter´ısPn ticas dadas por ϕ1 , . . . , ϕn respectivamente. Entonces Sn = i=1 Xi tiene la funci´on caracter´ıstica dada por ϕSn (s) =

n Y

ϕi (s)

s∈R

i=1

En particular, si Xi son adem´as id´enticamente distribuidas entonces n

ϕSn (s) = [ϕ1 (s)]

s∈R

Ejemplo 2.25 Se puede calcular la funci´ on caracter´ıstica de una variable aleatoria distribuida seg´ un una ley binomial de par´ ametros n y p y comprobar las propiedades anteriores. En este caso ϕ(s) = (1 − p + peis )n 33

Caracter´ısticas Num´ericas de un Vector Aleatorio

De forma an´aloga a lo realizado en la secci´on anterior podemos extender al caso multivariante la funci´on caracter´ıstica. Si X = (X1 , . . . , Xn ) es un vector aleatorio, entonces definimos la funci´on caracter´ıstica de X por

=

ϕ(s1 , . . . , sn ) = E[exp{i(s1 X1 + · · · + sn Xn )}]  ∞ ∞ X X    · · · eis1 k1 · · · eisn kn P (X1 = k1 , . . . , Xn = kn )    k =0 k =0 1

 Z     

si es discreto

n

Z





···

−∞

eis1 x1 · · · eisn xn f (x1 , . . . , xn )dx1 . . . dxn

si es continuo

−∞

De manera que en el caso bidimensional, si consideramos un vector aleatorio (X, Y ) cualquiera, su funci´on caracter´ıstica vendr´ıa dada por

=

ϕ(s, t) = E[exp{i(sX + tY )}]  ∞ ∞ XX    eisk eitj P (X = k, Y = j)    k=0 j=0  Z     

Z



−∞



eisx eity f (x, y)dydx

si es discreto

si es continuo

−∞

An´ alogamente se puede demostrar que los momentos ordinarios de (X, Y ) de orden r en X y orden m en Y respectivamente se deducen f´acilmente mediante αr,m =

1 ir+m

∂ r+m ϕ(s, t) (0, 0) ∂r s ∂mt

Tambi´en se verifica la siguiente propiedad: Si a1 , . . . , an ∈ R y X1 , . . . , Xn son variables aleatorias no necesariamente independientes entonces si consideramos Sn = Pn i=1 ai Xi tendremos que ϕSn (s) = ϕ(sa1 , . . . , san ) donde ϕSn y ϕ son las funciones caracter´ısticas de Sn y del vector aleatorio X = (X1 , . . . , Xn ) respectivamente. Ejemplo 2.26 Si consideramos un vector aleatorio (X, Y ) con funci´ on de densidad conjunta dada por ½ k si 0 < x < y < 1; x + y ≤ 1 f (x, y) = 0 en otro caso 34

Esperanza Condicionada. Propiedades

i) Calcular k para que f (x, y) sea funci´ on de densidad. ii) Calcular M(X,Y ) iii) Calcular ρ(X, Y ) iv) Si U = min{X, Y }, calcular su funci´ on de densidad v) Calcular ϕU vi) Calcular MU vii) Calcular V ar[U ] viii) Si consideramos V = X + Y calcular Cov[U, V ] Para calcular la funci´on de densidad de U es suficiente con Z 1/2 Z 1 − FU (u) = P (U ≥ u) = P (X ≥ u, Y ≥ u) = u

1−x

4dydx x

de donde fU (u) = −8u + 4 si 0 < u ≤ 1/2 y 0 en caso contrario.

2.8

Esperanza Condicionada. Propiedades

Sean X e Y variables aleatorias discretas. Se define la esperanza condicional de Y con respecto a X = xi (supuesto que P (X = xi ) > 0) a la siguiente suma E[Y |X = xi ] =

∞ X

yj P (Y = yj |X = xi )

j=0

siempre que esta serie sea convergente. Si las variables X e Y son continuas, entonces se define la esperanza condicional de Y con respecto a X = x (supuesto que fX (x) > 0) a la siguiente integral Z ∞ E[Y |X = x] = yfY |X=x (y)dy −∞

cuando dicha integral sea convergente. M´as general todav´ıa, la esperanza condicional de una funci´on h(Y ) es  P∞  j=0 h(yj )P (Y = yj |X = xi ) caso discreto E[h(Y )|X = x] =  R∞ h(y)fY |X=x (y)dy caso continuo −∞ 35

Caracter´ısticas Num´ericas de un Vector Aleatorio

Si asumimos que la esperanza de Y condicionada a que X = x est´a bien definida para todo x del rango de valores de la variable aleatoria X, entonces puesto que es una funci´on de x, es una variable aleatoria que denotamos por E[Y |X]. Ejemplo 2.27 Consideremos un proceso de Poisson en un intervalo de tiempo que denotamos [0, 1] (podr´ıa ser una hora) con media λ. Sea X el n´ umero de llamadas en ese intervalo de tiempo. Sea Y el n´ umero de llamadas en [0, 1/4]. Calcular la distribuci´ on de probabilidad de Y dado que X = n. Hallar su media. La soluci´on a dicho ejemplo ser´ıa lo siguiente: en primer lugar calculamos la distribuci´on de probabilidad conjunta de (X, Y ). P (X = n, Y = k) = P (que haya k llamadas en[0, 1/4]y n-k llamadas en[1/4, 1]) Como son independientes los intervalos entonces P (X = n, Y = k) = =

P (k llamadas en[0, 1/4]) · P (n-k llamadas en[1/4, 1]) (λ/4)k e−λ/4 (3λ/4)n−k e−3λ/4 k! (n − k)!

puesto que el n´ umero de llamadas en [0, 1/4] sigue una distribuci´on de Poisson de par´ametro λ/4 y el n´ umero de llamadas en [1/4, 1] sigue una distribuci´on de Poisson de par´ametro 3λ/4. Por lo tanto, PY |X=n (k) =

P (X = n, Y = k) = PX (n)

µ ¶ µ ¶k µ ¶n−k n 1 3 k 4 4

es decir que Y |X = n sigue una distribuci´on binomial de par´ametros n y 1/4. Consecuentemente su esperanza ser´a E[Y |X = n] = n/4 Por lo tanto, E[Y |X] es una variable aleatoria que es funci´on del valor que tome X. Puesto que es una variable aleatoria nos interesa calcular su esperanza y su varianza. El siguiente teorema nos muestra como. Teorema 2.28 Para cualesquiera variables aleatorias X e Y se verifica que E[E[Y |X]] = E[Y ] . 36

Esperanza Condicionada. Propiedades

Lo probaremos para el caso continuo ya que el discreto ser´ıa an´alogo. Z ∞ E[Y |X = x]fX (x)dx E[E[Y |X]] = −∞ Z ∞Z ∞ = yfY |X=x (y)fX (x)dydx −∞ −∞ Z ∞Z ∞ yf (x, y)dydx = E[Y ] = −∞

−∞

Ejemplo 2.29 Supongamos que disponemos de una urna compuesta por 3 bolas blancas y 2 negras. Se realizan 3 extracciones sin reemplazamiento. Consideremos X =“n´ umero de bolas blancas obtenidas tras las extracciones” e Y =“n´ umero de bolas negras extra´ıdas antes de extraer la primera bola blanca”. Calcular E[X|Y = 0] y E[Y |X > 1]. En este caso la primera esperanza condicionada es 2 y la segunda es 2/7. Ejemplo 2.30 Si consideramos un vector aleatorio (X, Y ) con funci´ on de densidad conjunta dada por ½ f (x, y) =

e−x 0

si 0 < y < x < ∞ en otro caso

Calcular E[Y |X = 2] y E[Y |X ≤ 2]. En este caso la primera esperanza condicional es 1 puesto que ser´ıa calcular Z

Z

2

E[Y |X = 2] = 0

yfY |X=2 dy =

2

y 0

f (2, y) dy fX (2)

Para la segunda esperanza es necesario calcular la funci´on de densidad fY |X≤2 y para ello es necesario calcular en primer lugar la funci´on de distribuci´on mediante la probabilidad condicional siguiente FY |X≤2 (y) = P [Y ≤ y|X ≤ 2] y posteriormente derivar con respecto a y. El resto es an´alogo al primer caso. No obR2 stante, es evidente que fX (x) = xe−x y por lo tanto P (X ≤ 2) = 0 fX (x)dx = 0, 59 pero para calcular la probabilidad conjunta de que P (X ≤ 2, Y ≤ y) debemos diferenciar dos situaciones, la primera si y ≥ 2 que nos dar´a una funci´on de distribuci´on que 37

Caracter´ısticas Num´ericas de un Vector Aleatorio

es constante y por lo tanto la funci´on de densidad ser´a cero. La segunda situaci´on, cuando 0 < y < 2 tendremos que Z yZ x Z 2Z y P (X ≤ 2, Y ≤ y) = e−x dydx + e−x dydx = 1 − ye−2 − e−y 0

0

y

0

Nota: Calcular para este u ´ltimo ejemplo las siguientes esperanzas condicionadas: E[X|Y = 2] y E[X|Y ≤ 2]. Ejemplo 2.31 Si consideramos un vector aleatorio (X, Y ) con funci´ on de probabilidad conjunta dada por Y X -1 0 1

0 0.1 0.3 0.1

1 0.2 0.1 0.2

ya deducimos que E[(X, Y )] = (0, 0.5). Calcular el espacio muestral y la funci´ on de probabilidad de la variable aleatoria E[X|Y ]. Calcular su esperanza matem´ atica y comprobar el teorema principal de la esperanza condicionada.

Del mismo modo podemos definir la varianza condicional de la siguiente manera. V ar[Y |X] = E[(Y − E[Y |X])2 |X] ´o an´alogamente se define V ar[Y |X] = E[Y 2 |X] − (E[Y |X])2 Se verifica que V ar[Y ] = EX [V ar[Y |X]] + V arX [E[Y |X]] La demostraci´on ser´ıa de la siguiente manera EX [V ar[Y |X]] = EX [E[Y 2 |X] − (E[Y |X])2 ] = E[Y 2 ] − EX [E[Y |X]2 ]] Si sumamos y restamos E[Y ]2 tendremos la igualdad. Finalmente otra propiedad que no probaremos aqu´ı ser´ıa la siguiente, si E[Y |X] es una funci´on lineal de x, entonces se verifica que E[Y |X] = µY + ρ(X, Y ) 38

σY (X − µX ) σX

Esperanza Condicionada. Propiedades

y EX [V ar[Y |X]] = σY2 (1 − ρ2 ) En general, la idea est´a es que si estamos interesados en predecir Y sin ninguna informaci´on acerca del valor de X la mejor predicci´on ser´ıa E[Y ] y el error cuadr´atico medio que cometer´ıamos ser´ıa V ar[Y ]. Sin embargo, si se puede observar X y tenerla en cuenta para predecir Y , la mejor predicci´on ser´ıa E[Y |X] y su error cuadr´atico medio ser´ıa EX [V ar[Y |X]] que es m´as peque˜ no que V ar[Y ]. Si seg´ un esta u ´ltima propiedad, si E[Y |X] es una recta, la reducci´on del error cuadr´atico medio aumenta con ρ2 . Este hecho conduce al ´area importante del an´alisis de regresi´on, donde la informaci´on sobre una variable se usa para ayudar a explicar el comportamiento de la otra. A E[Y |X] se le conoce como curva de regresi´on. Evidentemente, la ecuaci´on E[Y |X] es un concepto poblacional te´orico y en general desconocido. El an´alisis de regresi´on requiere estimar los par´ametros de esta ecuaci´on a partir de una muestra. No estamos a´ un preparados para afrontar este problema. Volveremos a retomar el estudio de la regresi´on m´as adelante una vez adquiridos las nociones de inferencia necesarias para poder abordar el an´alisis de regresi´on. Un caso importante donde E[Y |X] es una funci´on lineal de X se tiene cuando la distribuci´on conjunta de (X, Y ) es una normal bivariante.

39

Cap´ıtulo 3 Introducci´ on a los Teoremas L´ımites

En los cap´ıtulos anteriores hemos estudiado las diferentes funciones de distribuci´on, funciones generatrices, funciones caracter´ısticas y los principales momentos de vectores aleatorios discretos o continuos as´ı como sus funciones de distribuci´on condicionadas, esperanzas condicionadas y el estudio de independencia y de correlaci´on de un grupo de variables. Sin embargo, en muchos problemas o situaciones estad´ısticas (por ejemplo, de procesado de se˜ nal o imagen, control digital y comunicaciones) disponemos de datos muestreados en un determinado orden temporal; estos datos pueden modelarse como observaciones de una variable aleatoria que va cambiando de distribuci´on a lo largo del tiempo. En otras ocasiones no dispondremos de muestras, sino de los valores verdaderos de la variable en distintos instantes de tiempo (por ejemplo, el valor de un registro en un ordenador o algo tan simple como el lanzamiento repetido de una moneda). Estos problemas se resuelven utilizando un modelo probabil´ıstico m´as general que el estudiado hasta ahora: las secuencias aleatorias. En este cap´ıtulo estudiaremos el concepto y las principales propiedades de estos modelos. Como veremos las secuencias estoc´asticas se pueden pensar como un vector aleatorio infinito-dimensional. Formalmente, diremos que una sucesi´on de variables aleatorias es una familia numerable de variables aleatorias {X1 , . . . , Xn , . . .} definidas sobre el mismo espacio de probabilidad tal que cualquier subfamilia finita de ella es un vector aleatorio n-dimensional. La representaremos por {Xn }∞ n=1 = {Xn }n≥1 . Para un valor concreto de cada variable aleatoria tendremos una sucesi´on de n´ umeros reales llamada realizaci´on o trayectoria de la sucesi´on. En muchas ocasiones es interesante estudiar las propiedades asint´oticas de las secuencias aleatorias, 40

Convergencia de sucesiones de variables aleatorias

propiedades que, inevitablemente vendr´an ligadas a conceptos como l´ımite o convergencia. Al trabajar con variables aleatorias, tendremos que definir una “medida” de convergencia para las sucesiones. En la secci´on siguiente definimos los criterios de convergencia m´as utilizados habitualmente.

3.1

Convergencia de sucesiones de variables aleatorias

Convergencia en Probabilidad. Se dice que {Xn }n≥1 converge en probabilidad a otra variable aleatoria X si para cualquier ε > 0 se verifica que lim P (|Xn − X| > ε) = 0 ( lim P (|Xn − X| ≤ ε) = 1)

n→∞

n→∞

P

y lo denotaremos de la forma Xn → X. Tambi´en se denomina convergencia d´ebil. Debemos tener en cuenta que el suceso {|Xn − X| > ε} = {ω ∈ Ω : |Xn (ω) − X(ω)| > ε} Convergencia en Media Cuadr´ atica. Se dice que {Xn }n≥1 converge en media cuadr´atica a otra variable aleatoria X si se verifica que £ ¤ lim E (Xn − X)2 = 0

n→∞

m.c.

y lo denotaremos de la forma Xn → X. Tambi´en se denomina convergencia en L2 . Debemos tener en cuenta que  PP (xn − x)2 P (Xn = xn , X = x) caso discreto  £ ¤ 2 E (Xn − X) =  RR (xn − x)2 f (xn , x)dxn dx caso continuo Convergencia Casi Segura. Se dice que {Xn }n≥1 converge casi seguramente a otra variable aleatoria X si para cualquier ε > 0 se verifica que ∞ X

P (|Xn − X| > ε) < ∞

n=1 c.s.

es decir, la serie anterior es convergente y lo denotaremos de la forma Xn → X. Tambi´en se denomina convergencia fuerte. 41

Introducci´ on a los Teoremas L´ımites

Otra forma de definir esta convergencia es que se verifique que P ( lim Xn = X) = P (ω ∈ Ω : lim Xn (ω) = X(ω)) = 1 n→∞

n→∞

Se puede interpretar intuitivamente diciendo que con probabilidad arbitrariamente grande, |Xn − X| permanece arbitrariamente peque˜ no para n > N . Las definiciones de convergencia en probabilidad y en media cuadr´atica no ofrecen dificultad porque dependen del c´alculo de probabilidades y esperanzas con respecto a una variable aleatoria finito dimensional y toman l´ımite cuando el n´ umero de variables aumenta. El concepto de convergencia casi segura es m´as profundo. La probabilidad se refiere al conjunto en R∞ donde las sucesiones (puntos) satisfacen la propiedad establecida. Nosotros no profundizamos en el concepto de convergencia casi segura. No nos basamos en la estructura probabil´ıstica definida en R∞ . Lo definimos sin rigurosidad, de una manera intuitiva. Rao, en p´ag. 115 lo define como Dudewicz y M. p´ag. 300 pero a˜ nade, o equivalentemente lim P ( sup |Xn − X| > ε) = 0

n→∞

n≥N

para cada ε > 0. Convergencia en Distribuci´ on o en Ley. Se dice que {Xn }n≥1 converge en distribuci´on o en ley a otra variable aleatoria X si se verifica que lim FXn (t) = FX (t)

n→∞

para todo t ∈ R donde la funci´on de distribuci´on F de la variable X es continua y L siendo FXn la funci´on de distribuci´on de Xn . Lo denotaremos de la forma Xn → X d o bien Xn → X.

3.2

Relaciones entre los distintos tipos de convergencias

i) Si {Xn }n≥1 converge casi seguramente a X entonces {Xn − X}n≥1 converge casi seguramente a 0 (igual para la convergencia en probabilidad) ii) Si {Xn }n≥1 converge casi seguramente a X entonces {Xn }n≥1 converge en P probabilidad a X, puesto que si una serie an es convergente entonces lim an = 0. 42

Ejemplos y propiedades algebraicas

iii) Si {Xn }n≥1 converge en media cuadr´atica a X entonces {Xn }n≥1 converge en probabilidad a X. Basta aplicar la desigualdad de Chebyshev (1821-1894, Rusia), para todo ε > 0 se tiene 1 P (|Xn − c| > ε) ≤ 2 E[(Xn − c)2 ] ε iv) Si {Xn }n≥1 converge en probabilidad a X entonces {Xn }n≥1 converge en distribuci´on a X. Para probar esta convergencia hay que realizar muchos c´alculos. No merece la pena probar a los alumnos esta convergencia v) Si {Xn }n≥1 converge en distribuci´on a una constante c entonces {Xn }n≥1 converge en probabilidad a c.

3.3

Ejemplos y propiedades algebraicas

i) {Xn }n≥1 converge en media cuadr´atica a una constante b si lim E[Xn ] = b

n→∞

y

lim V ar[Xn ] = 0

n→∞

ii) Si {Xn }n≥1 converge casi seguramente a X entonces {g(Xn )}n≥1 converge casi seguramente a g(X), donde g es una funci´on real continua iii) {Xn }n≥1 converge en distribuci´on a X si y s´olo si lim ϕXn (t) = ϕX (t)

n→∞

para todo t ∈ R donde ϕX es la funci´on caracter´ıstica de la variable X y ϕXn es la funci´on caracter´ıstica de Xn (si ϕX es continua en t = 0). Adem´as la convergencia es uniforme en cualquier intervalo finito. Este teorema es conocido como el teorema de continuidad de Levy. iv) {Xn }n≥1 converge en distribuci´on a X si y s´olo si lim MXn (t) = MX (t)

n→∞

para todo t ∈ R donde MX es la funci´on generatriz de momentos de la variable X y MXn es la funci´on generatriz de momentos de Xn (suponemos que existen para todo |t| < ε para alg´ un ε > 0). Este teorema es an´alogo al anterior y es el teorema de continuidad para la funci´on generatriz de momentos. 43

Introducci´ on a los Teoremas L´ımites

Ejemplo 3.1 Sea {Xn } una sucesi´ on de variables aleatorias tal que: ( 0 P (Xn = 0) = 1 − (2/3)n Xn = 1 P (Xn = 1) = (2/3)n ¿Converge en probabilidad? Ejemplo 3.2 Sea {Xn } una sucesi´ on de variables aleatorias tal que: ( 1/n P (Xn = 1/n) = 1 − (1/n)2 Xn = 1 P (Xn = 1) = (1/n)2 ¿Converge en probabilidad? Ejemplo 3.3 Sea {Xn } una sucesi´ on de variables aleatorias tal que su funci´ on de densidad viene dada por: ( nxn−1 si 0 < x < θ θn fn (x) = 0 en caso contrario para cierto θ > 0. ¿Converge en probabilidad a Θ? Ejemplo 3.4 Sea {Xn } una sucesi´ on de variables aleatorias tal que: ( 0 P (Xn = 0) = 1 − 1/n Xn = 1 P (Xn = 1) = 1/n ¿Converge en probabilidad? Ejemplo 3.5 Sea {Xn }n una sucesi´ on de variables aleatorias definidas por la siguiente sucesi´ on de funciones de distribuci´ on  0 si x < 0    1 − 1/n si 0 ≤ x < n Fn (x) =    1 si x ≥ n Estudiar la convergencia en probabilidad. Ejemplo 3.6 Sea {Xn } una sucesi´ on de variables aleatorias tal que: ( 0 P (Xn = 0) = 1 − (1/n)3 Xn = 1 P (Xn = 1) = (1/n)3 ¿Converge en media cuadr´ atica a cero? 44

Ejemplos y propiedades algebraicas

Ejemplo 3.7 Sea {Xn } una sucesi´ on de variables aleatorias tal que su funci´ on de densidad viene dada por: ( nxn−1 si 0 < x < 1 fn (x) = 0 en caso contrario ¿Converge en media cuadr´ atica a uno? Ejemplo 3.8 Sea {Xn } una sucesi´ on de variables aleatorias tal que: ( 2 P (Xn = 2) = (1/n)2 Xn = 0 P (Xn = 0) = 1 − (1/n)2 ¿Converge casi seguramente a 0? Ejemplo 3.9 Sea {Xn } una sucesi´ on de variables aleatorias tal que: ( 1 P (Xn = 1) = (1/n)2 Xn = 0 P (Xn = 0) = 1 − (1/n)2 ¿Converge en distribuci´ on o en ley a 0? Ejemplo 3.10 Sea {Xn } una sucesi´ on de variables aleatorias i.i.d con distribuci´ on uniforme en (0, θ), θ > 0 y consideremos Yn = max{X1 , . . . , Xn }. Probar que {Yn } converge en distribuci´ on a una variable Y tal que P (Y = θ) = 1. Ejemplo 3.11 Sea {Xn } una sucesi´ on de variables aleatorias i.i.d con distribuci´ on 2 N (0, σ ), y consideremos Yn = X n . Probar que {Yn } converge en distribuci´ on a una variable Y tal que P (Y = 0) = 1. En este ejemplo podemos ver que el l´ımite de la funci´on de distribuci´on de Yn no es una funci´on de distribuci´on ya que no es continua por la derecha. Sin embargo si consideramos Y tal que P (Y = 0) = 1, entonces se verifica la convergencia en distribuci´on puesto que s´olo debemos probar dicho l´ımite en los puntos donde la funci´on de distribuci´on l´ımite es continua y en el cero no lo es. Como en el resto se verifica no hay problema. on de variables aleatorias independientes con Ejemplo 3.12 Sea {Xn } una sucesi´ distribuci´ on B(n, p), y consideremos que np = cte = λ. Probar que {Xn } converge en distribuci´ on a una variable Y distribuida seg´ un una P(λ). 45

Introducci´ on a los Teoremas L´ımites

En este caso basta utilizar el teorema de continuidad de la funci´on generatriz de momentos para obtener la convergencia en distribuci´on. Ejemplo 3.13 Sea {Xn } una sucesi´ on de variables aleatorias tal que:  −1 P (Xn = −1) = 1/2(1 − 1/n)    0 P (Xn = 0) = 1/n Xn =    1 P (Xn = 1) = 1/2(1 − 1/n) Estudiar todas las posibles convergencias En este ejemplo se pone de manifiesto las relaciones entre las convergencias. ´ Unicamente converge en distribuci´on a una variable X que no es constante de ah´ı que no se verifique la convergencia en probabilidad. Ejemplo 3.14 Sea {Xn } una sucesi´ on de variables aleatorias tal que: ( 0 P (Xn = 0) = 1 − 1/n Xn = n P (Xn = n) = 1/n Estudiar todas las posibles convergencias En este caso no hay convergencia casi segura ni en media cuadr´atica y sin embargo si existe una convergencia en probabilidad y en ley hacia una variable degenerada en 0. Ejemplo 3.15 Sea {Xn } una sucesi´ on de variables aleatorias tal que:  n 2 P (Xn = 2n ) = (1/2)n+1    −2n P (Xn = −2n ) = (1/2)n+1 Xn =    0 P (Xn = 0) = 1 − (1/2)n Estudiar todas las posibles convergencias En este caso se dan la convergencia casi segura, en probabilidad y en ley evidentemente y no se verifica la convergencia en media cuadr´atica. Ejemplo 3.16 Sea {Xn } una sucesi´ on de variables aleatorias tales que para cada n, Xn toma valores k/n con probabilidad 1/n para k = 1, . . . , n, es decir es la uniforme discreta en {k/n} para k = 1, . . . , n. Probar que {Xn } converge en distribuci´ on a una variable Y uniforme en (0, 1). 46

Ley d´ebil de los grandes n´ umeros

Podemos probar esta convergencia haciendo uso de la funci´on caracter´ıstica de la uniforme continua y la uniforme discreta y aplicar el teorema de Levy para obtener el resultado.

3.4

Ley d´ ebil de los grandes n´ umeros

En esta secci´on vamos a expresar varias versiones de un resultado que se conoce como ley d´ebil de los grandes n´ umeros (LDGN) y que asegura que en muchas situaciones la media aritm´etica de n variables aleatorias converge en probabilidad hacia E[X]. Teorema de Bernoulli. Sea {Xn }n una sucesi´on de variables aleatorias independientes e id´enticamente distribuidas seg´ un una Bernoulli con probabilidad de ´exito p, Pn −1 entonces se verifica que {X n = n Sn = i=1 Xi /n} converge en probabilidad a p. Su demostraci´on es una aplicaci´on directa de la desigualdad de Chebyshev. La conexi´on directa entre el teorema de Bernoulli y la teor´ıa general de variables Pn aleatorias se ve clara si consideramos Sn = i=1 Xi donde Xi ∼ B(1, p), puesto que el teorema demuestra que la media aritm´etica de variables aleatorias i.i.d. conforme a un modelo de Bernoulli converge en probabilidad hacia la esperanza com´ un p. Probemos ahora que esta propiedad es cierta para variables aleatorias incorreladas con cualquier modelo de distribuci´on de probabilidad. Teorema de Chebyshev. Sea {Xn }, n = 1, 2, . . . una sucesi´on de variables aleatorias tales que E[Xi ] = µi y V ar[Xi ] = σi2 existen y supongamos que Cov[Xi , Xj ] = 0 Pn para todo i 6= j. Entonces, si limn→∞ n−2 i=1 σi2 = 0, {X n − E[X n ]} converge en probabilidad a cero. Su demostraci´on es una aplicaci´on directa de la desigualdad de Chebyshev. Recordemos que la desigualdad de Chebyshev dice que: “Si X es una variable aleatoria tal que E[X] = µ < ∞ y E[X 2 ] < ∞ entonces para cualquier ε > 0 se verifica que

1 E[(X − µ)2 ] ε2 Si las varianzas de Xi est´an acotadas por una constante c, es decir para todo P (|X − µ| > ε) ≤

i = 1, 2, . . ., σi2 ≤ c, entonces tambi´en se verifica el resultado puesto que esta acotaci´on Pn implica que limn→∞ n−2 i=1 σi2 = 0. 47

Introducci´ on a los Teoremas L´ımites

Como corolario inmediato de este resultado podemos establecer que si µi = µ y σi2 = σ 2 , entonces si {Xn }, n = 1, 2, . . . es una sucesi´on de variables aleatorias incorreladas se verifica que {X n } converge en probabilidad a µ. En definitiva, diremos que una sucesi´on de variables aleatorias {Xn } satisface o cumple la LDGN si {X n − E[X n ]} converge en probabilidad a cero. Finalmente, una versi´on de la ley d´ebil de los grandes n´ umeros que constituye un resultado muy fuerte sin establecer la existencia de momentos de segundo orden pero con la condici´on de que las variables aleatorias sean i.i.d es debido a Khinchine (1984-1959). Teorema de Khintchine. Sea {Xn }, n = 1, 2, . . . una sucesi´on de variables aleatorias i.i.d tales que E[Xi ] = µ < ∞. Entonces, {X n } converge en probabilidad a µ. La demostraci´on de este resultado utiliza argumentos de truncaci´on, herramienta b´asica de la derivaci´on de varios teoremas l´ımite. Existe otra demostraci´on m´as elegante usando la funci´on caracter´ıstica basada en el teorema de continuidad de Levy. Algunos ejemplos de ilustraci´on de la ley d´ebil de los grandes n´ umeros que tienen una gran aplicaci´on en la inferencia estad´ıstica son: Ejemplo 3.17 Supongamos que una moneda tiene probabilidad p (0 < p < 1) de que al lanzarla salga cara. Supongamos que realizamos el experimento aleatorio que consiste en lanzar la moneda n veces de manera independiente. Definimos para cada i = 1, . . . , n la variable aleatoria ½ 1 si el lanzamiento i-´esimo sale cara Xi = 0 en otro caso Pn Entonces, podemos decidir considerar como aproximaci´ on de p, n−1 i=1 Xi y deP n seamos conocer en que sentido el valor de n−1 i=1 Xi estar´ a cerca de p. La ley d´ebil de los grandes n´ umeros nos da una respuesta: lim P (|n

n→∞

−1

n X

Xi − p| > ε) = 0

i=1

para cualquier ε > 0. 48

Ley Fuerte de los Grandes N´ umeros

Estamos interesados en la convergencia cuando n tiende a infinito porque, aunque realmente n es peque˜ no o moderadamente peque˜ no en muchos casos, es u ´til saber que nuestro procedimiento se comporta bien para n grande. Intuitivamente creemos que si un procedimiento no funciona bien con muchas observaciones posiblemente no ser´ a bueno con unas pocas. Ejemplo 3.18 i) Sean {Xn }n una sucesi´ on de variables aleatorias independientes e id´enticamente distribuidas seg´ un una P(λ), entonces X n converge en probabilidad a λ. ii) Sean {Xn }n una sucesi´ on de variables aleatorias independientes e id´enticamente distribuidas seg´ un una N (µ, σ 2 ), entonces X n converge en probabilidad a µ. iii) Sean {Xn }n una sucesi´ on de variables aleatorias independientes e id´enticamente distribuidas seg´ un una Exp(λ), entonces X n converge en probabilidad a 1/λ.

3.5

Ley Fuerte de los Grandes N´ umeros

La ley d´ebil de los grandes n´ umeros establece que para cada n suficientemente grande, |X n − E[X n ]| es muy probable que sea peque˜ no, pero evidentemente esto no implica que esta expresi´on permanezca peque˜ na para n grande, es decir la LDGN s´olo permite concluir que grandes valores de |X n − E[X n ]| ocurren con poca frecuencia. La ley fuerte de los grandes n´ umeros (LFGN) obtiene conclusiones m´as fuertes. Decimos que una sucesi´on de variables aleatorias {Xn } satisface o cumple la LFGN si {X n − E[X n ]} converge casi seguramente a cero. Por ejemplo, Kolmogorov establece un criterio que justifica la LFGN. Criterio de Kolmogorov. Sea {Xn }, n = 1, 2, . . . una sucesi´on de variables aleatorias independientes tales que E[Xi ] = µi y V ar[Xi ] = σi2 existen. Entonces, si P∞ −2 2 σi < ∞, {X n − E[X n ]} converge casi seguramente a cero. i=1 i Su demostraci´on es una aplicaci´on directa de la desigualdad de Chebyshev. Si las varianzas de Xi est´an acotadas por una constante c, es decir para todo i = 1, 2, . . ., σi2 ≤ c, entonces tambi´en se verifica el resultado puesto que esta acotaci´on P∞ implica que i=1 i−2 σi2 < ∞. 49

Introducci´ on a los Teoremas L´ımites

Como corolario inmediato de este resultado podemos establecer que si {Xn }, n = 1, 2, . . . es una sucesi´on de variables aleatorias i.i.d. con µ < ∞ y σ 2 < ∞ se verifica que {X n } converge casi seguramente a µ.

3.6

Teorema Central del L´ımite

Para una sucesi´on de variables aleatorias {Xn }, n = 1, 2, . . . independientes (o incorreladas a veces) se verifica que bajo ciertas condiciones, si E[Xn ] existe para todo n, entonces {X n } converge en probabilidad o casi seguramente a E[X n ]. Sin embargo estos resultados no nos dan una idea de cual es la distribuci´on aproximada de {X n } cuando n es suficientemente grande. En esta secci´on se expondr´a el teorema central del l´ımite que afirma (bajo ciertas condiciones) que {X n } tiene aproximadamente una distribuci´on normal. Este apartado constituye un estudio m´as profundo que el iniciado anteriormente y aunque ahora daremos una descripci´on detallada de los enunciados de tan diferentes versiones de este teorema e incluso desarrollaremos la demostraci´on del TCL de Lindeberg-Levy, como entonces nos interesa principalmente la interpretaci´on de los resultados y sus aplicaciones. La primera y m´as simple versi´on del resultado se refiere a la distribuci´on de Bernoulli y es debida a De Moivre (1667-1754) y Laplace (1749-1827). Concretamente en 1733 De Moivre estudia la famosa curva de la funci´on de densidad de una distribuci´on normal est´andar, m´as tarde Laplace y luego Gauss contin´ uan sus investigaciones de ah´ı que la curva se denomine Curva Gaussiana. Teorema de De Moivre-Laplace. Sean X1 , X2 , . . ., una sucesi´on de variables aleatorias independientes y distribuidas seg´ un una Bernoulli con probabilidad de ´exito p. Entonces,



´o

n(X n − p) L −→ N (0, 1) √ pq

Pn

Xi − np L −→ N (0, 1) √ npq

i=1

Como la variable

Pn i=1

Xi sigue una distribuci´on B(n, p) se sigue que para n

suficientemente grande la distribuci´on binomial converge a la normal o distribuci´on de Gauss. 50

Teorema Central del L´ımite

En la pr´actica el teorema de De Moivre-Laplace se traduce en que si n es grande y p no est´a muy cercano a cero o a uno, podemos calcular las probabilidades de una variable distribuida seg´ un una B(n, p) est´e en el intervalo (a, b) considerando una √ variable distribuida seg´ un una N (np, npq) y buscando el ´area encerrada entre a y b. La aproximaci´on mejora tomando en la normal el intervalo (a − 0.5, b + 0.5) que tiene en cuenta que un n´ umero entero k equivale al intervalo (k − 0.5, k + 0, 5). En la pr´actica la aproximaci´on se utiliza cuando npq > 5. on por continuidad. En un libro de 200.000 palabras la Ejemplo 3.19 Correcci´ probabilidad de que una palabra est´e escrita incorrectamente es 1/10.000. Calcular i) la probabilidad de que no haya errores as de quince errores ii) la probabilidad de que haya m´ El TCL en su forma m´as simple es una generalizaci´on del teorema de De MoivreLaplace. A principios de la d´ecada de 1920, J.W. Lindeberg y P. L´evy dieron independientemente la demostraci´on del siguiente resultado. Teorema de Lindeberg y L´ evy. Sean X1 , X2 , . . ., una sucesi´on de variables aleatorias independientes e id´enticamente distribuidas tales que E[Xi ] = µ y V ar[Xi ] = σ 2 6= 0. Entonces, Pn Xi − nµ L −→ N (0, 1) Zn = i=1√ nσ es decir, las funciones de distribuci´on, Fn de las variables Zn convergen a Φ cuando n tiende a infinito para −∞ < x < ∞ (siendo Φ la funci´on de distribuci´on de una normal est´andar.) Observar que realmente X n − E[X n ] Xn − µ √ = Zn = q σ/ n V ar[X n ] Demostraci´ on. La demostraci´on de este resultado se basa en el desarrollo de Mclaurin y en el teorema de continuidad de L´evy. Consideremos M (t) la funci´on generatriz de momentos de Xi . Como los dos primeros momentos existen desarrollamos en una serie de Mclaurin y tenemos que M (t) = 1 + M 0 (0)t + 51

M 00 (0) 2 t + O(t2 ) 2

Introducci´ on a los Teoremas L´ımites

Ahora bien, M 0 (0) = µ y M 00 (0) = µ2 + σ 2 Adem´as, n

MPni=1 Xi (t) = [M (t)] Pn y como Zn es una funci´on lineal de i=1 Xi entonces · µ ¶¸n √ t MZn (t) = exp{−( nµ/σ)t} M √ nσ Aplicando logaritmos tenemos que µ µ ¶¶ nµ t t + n ln M √ σ nσ

√ ln MZn (t) = −

µ ¶ (µ2 + σ 2 )t2 nµ µt 2 + t + n ln 1 + √ + O(t ) σ 2nσ 2 nσ

√ ln MZn (t) = −

Usando ahora el desarrollo de Mclaurin de la funci´on ln(1 + x) v´alido para |x| < 1 ln(1 + x) = x −

x2 x3 + − ... 2 3

y deducimos que · nµ µt (µ2 + σ 2 )t2 − t+n √ + + O(t2 ) − σ 2nσ 2 nσ # µ ¶2 1 µt (µ2 + σ 2 )t2 2 √ + + O(t ) + · · · 2 2nσ 2 nσ √

ln MZn (t) = −

lo cual converge cuando n tiende a infinito a t2 /2. Entonces deducimos que lim MZn (t) = et

2

/2

n→∞

que es la funci´on generatriz de momentos de una distribuci´on N (0, 1). Debido a la propiedad de unicidad y al teorema de continuidad de L´evy el resultado queda demostrado.

El teorema de De Moivre-Laplace queda demostrado como caso particular de ´este. La proposici´on que hemos enunciado es v´alida en condiciones mucho m´as generales. Esto lo han demostrado primero Chebyshev y Markov por otro m´etodo, el de los momentos. 52

Teorema Central del L´ımite

El m´etodo de la funci´on caracter´ıstica y la funci´on generatriz de momentos fue aplicado por primera vez por Liapunov. El demostr´o, por este m´etodo, que el TCL es aplicable en situaciones m´as generales que las de Chebyshev y Markov (Markov ha demostrado despu´es que se puede probar tambi´en el resultado de Liapunov por el m´etodo de los momentos). Teorema de Liapunov. Sean X1 , X2 , . . ., una sucesi´on de variables aleatorias independientes. Sean E[Xn ] = µn , V ar[Xn ] = σn2 6= 0 y E[|Xn − µn |3 ] = βn existen para todo n. Entonces, si limn→∞ Bn /Cn = 0 donde Bn =

n X

βi

v u n uX σi2 Cn = t i=1

i=1

entonces

Pn i=1 (Xi − µi ) L −→ N (0, 1) Zn = p Pn 2 i=1 σi

es decir, las funciones de distribuci´on, Fn de las variables Zn convergen a Φ cuando n tiende a infinito para −∞ < x < ∞ (siendo Φ la funci´on de distribuci´on de una normal est´andar.) La demostraci´on es similar a la del teorema de Lindeberg-L´evy. Observemos que la condici´on de Liapunov se cumple autom´aticamente cuando todas las variables aleatorias est´an id´enticamente distribuidas. Adem´as, tambi´en se verifica cuando las variables aleatorias Xk − µk est´an acotadas uniformemente y Pn limn→∞ i=1 σi2 = ∞. En efecto, si |Xk − µk | ≤ A entonces E[|Xn − µn |3 ] ≤ Aσk2 resultando que limn→∞ Bn /Cn = 0. Lindeberg y Feller han demostrado una condici´on a´ un m´as general que es en cierto sentido necesaria y suficiente para que se verifique el TCL. (se puede encontrar en Rao, pag. 128) Ejemplo 3.20 El n´ umero medio de bol´ıgrafos que se venden diariamente en una librer´ıa es de 30 y su desviaci´ on t´ıpica es de 5. Para el n´ umero de cuadernos tenemos que su n´ umero medio diario de ventas es de 20 y su desviaci´ on t´ıpica es de 4. Adem´ as se sabe que el coeficiente de correlaci´ on entre las ventas diarias de bol´ıgrafos 53

Introducci´ on a los Teoremas L´ımites

y cuadernos es de 0.7. Calcular la probabilidad de que el n´ umero total de art´ıculos vendidos en dicha librer´ıa en un trimestre est´e comprendido entre 4300 y 4600. En este caso si Xi es el n´ umero de bol´ıgrafos que se venden diariamente e Yi el n´ umero de cuadernos que se venden diariamente en la librer´ıa entonces tendremos que calcular 90 X P (4300 ≤ (Xi + Yi ) ≤ 4600) i=1

(puesto que un trimestre son 90 d´ıas) Ejemplo 3.21 En un museo se venden diariamente 1000 entradas siendo la proporci´ on de extranjeros que visitan el museo del 35%. ¿Cu´ al es la probabilidad de que en una semana fueran al museo m´ as de 5000 espa˜ noles?. En este caso si Xi es 1 si el visitante es espa˜ nol y 0 si el visitante es extranjero, entonces sigue una distribuci´on de Bernoulli de par´ametro p = 0, 65 y por lo tanto tendremos que calcular 7000 X P( Xi > 5000) i=1

(donde 7000 son las entradas que se venden en una semana) Ejemplo 3.22 50 estudiantes de un curso de una facultad decidieron vender camisetas para el viaje de fin de curso. Por a˜ nos anteriores se sabe que el n´ umero medio de camisetas vendidas por alumno fue 30 y la desviaci´ on t´ıpica 6. a) ¿Cu´ al es el n´ umero m´ aximo de camisetas que se deben encargar para asegurarse una venta total del 90%? b) Si por cada camiseta se obtiene un beneficio de 3 euros, ¿cu´ al es la probabilidad de ganar al menos 3000 euros?. En este caso sea Xi el n´ umero de camisetas vendidas por el alumno i, se sabe que µ = 30 y σ = 6 y por lo tanto tendremos que calcular P(

50 X

Xi ≥ k) = 0, 9

i=1

Para la segunda parte tenemos que calcular P (3

50 X

Xi ≥ 3000)

i=1

54

Teorema Central del L´ımite

Ejemplo 3.23 Un instrumento electr´ onico tiene una duraci´ on T medida en horas que est´ a distribuida exponencialmente con par´ ametro λ = 0.001. Supongamos que se prueban 100 de tales instrumentos. ¿Cu´ al es la probabilidad de que la media aritm´etica de la duraci´ on de estos 100 instrumentos sea mayor de 1100 horas?. Ejemplo 3.24 Supongamos que la longitud de los di´ ametros de los tornillos fabricados por una compa˜ n´ıa est´ a normalmente distribuida con media 2.5 mm. y desviaci´ on 0.12 mm. Un tornillo se considera defectuoso si su di´ ametro es inferior a 2.2 mm. o superior a 2.7 mm. Hallar la probabilidad de que en una muestra de 200 tornillos haya entre 3 y 8 defectuosos. Este problema es en el fondo una binomial de par´ametro n = 200 y probabilidad de ´exito p = P (Ser defectuoso) = 1 − P (2.2 < X < 2.7) siendo X una normal de par´ametros µ = 2.5 y σ = 0.12. Ejemplo 3.25 Se sabe que la probabilidad de que al redondear un n´ umero real para convertirlo en entero se produzca un error cuyo valor absoluto sea menor de 0.3 es 0.6. Por otra parte, la probabilidad del valor absoluto del error cometido sea menor de 0.05 es 0.1. Si redondeamos 100 n´ umeros elegidos al azar, calcular a) la probabilidad de que en m´ as de la mitad de ellos se produzca un error que en valor absoluto es menor de 0.3 b) la probabilidad de que en 10 de ellos se produzca un error que en valor absoluto es menor de 0.05. Ambos apartados son id´enticos, si definimos X como el n´ umero de errores en valor absoluto menores de 0.03 cometidos en los 100 n´ umeros tendremos una distribuci´on binomial de par´ametros 100 y p = 0.6 y para el segundo caso se razona an´alogamente.

55

Cap´ıtulo 4 Introducci´ on a la Inferencia Estad´ıstica

4.1

Introducci´ on. tad´ıstica

Objetivos de la Inferencia Es-

La construcci´on de modelos probabil´ısticos es un t´ıpico razonamiento deductivo: se establecen hip´otesis respecto al mecanismo generador de los datos y con ellas se deducen las probabilidades de los valores posibles. La Inferencia Estad´ıstica realiza el proceso inverso: dadas las frecuencias observadas de una variable, inferir el modelo probabil´ıstico que ha generado los datos. Los procedimientos de inferencia estad´ıstica pueden clasificarse por el objetivo del estudio, por el m´etodo utilizado y por la informaci´on considerada. i) Respecto al objetivo del estudio: Muestreo frente a dise˜ no. Cuando el objetivo es describir una variable o las relaciones entre un conjunto de variables, se utilizan t´ecnicas de muestreo, que consisten en observar una muestra representativa de la poblaci´on o poblaciones de inter´es. Cuando el objetivo es contrastar relaciones entre las variables y predecir sus valores futuros se utilizan t´ecnicas de dise˜ no experimental, que consisten en fijar los valores de ciertas variables y medir la respuesta que inducen en otras.

56

Introducci´ on. Objetivos de la Inferencia Estad´ıstica

ii) Respecto al m´ etodo utilizado: M´ etodos param´ etricos frente a no param´ etricos. Los m´etodos param´etricos suponen que los datos provienen de una distribuci´on que puede caracterizarse por un peque˜ no n´ umero de par´ametros que se estiman a partir de los datos. Para ello suponen la forma de la distribuci´on conocida (Normal, Poisson, etc.) y, deducen procedimientos ´optimos para estimar sus par´ametros. Los m´etodos no param´etricos suponen u ´nicamente aspectos muy generales de la distribuci´on (que es continua, sim´etrica, etc.) y tratan de estimar su forma o contrastar su estructura. Dentro del enfoque param´etrico estos m´etodos se utilizan para contrastar hip´otesis sobre la forma de la distribuci´on. iii) Respecto a la informaci´ on considerada: Enfoque cl´ asico frente a bayesiano. El enfoque cl´asico supone que los par´ametros son cantidades fijas desconocidas sobre los que no se dispone de informaci´on inicial relevante. Por tanto, la inferencia utiliza u ´nicamente la informaci´on de los datos muestrales que se sintetizan mediante los estad´ısticos. El enfoque bayesiano considera a los par´ametros del modelo como variables aleatorias y permite introducir informaci´on inicial sobre sus valores mediante una distribuci´on de probabilidad de los par´ametros que se denomina distribuci´on a priori. La diferencia pr´actica entre ambos procedimientos cuando disponemos de muestras grandes es muy escasa, ya que entonces la informaci´on de la muestra ser´a siempre la determinante. En peque˜ nas muestras, sin embargo, pueden conducir a resultados distintos.

57

Introducci´ on a la Inferencia Estad´ıstica

4.2

Conceptos Fundamentales

Muestra y Poblaci´ on. Llamaremos poblaci´on a un conjunto homog´eneo de elementos en los que se estudia una caracter´ıstica dada. Frecuentemente no es posible estudiar todos ellos, ya que i) El estudio puede implicar la destrucci´on del elemento, como es el caso de ensayos destructivos: por ejemplo, estudiar la vida media de una partida de bombillas, o la tensi´on de rotura de cables. ii) Los elementos pueden existir conceptualmente, pero no en la realidad. Por ejemplo, la poblaci´on de piezas defectuosas que producir´ıa una m´aquina. iii) Puede ser inviable econ´omicamente estudiar toda la poblaci´on. iv) El estudio llevar´ıa tanto tiempo que ser´ıa impracticable e incluso las propiedades de la poblaci´on habr´ıan variado con el tiempo. En estas ocasiones en lugar de hacer un censo (un estudio exhaustivo de todos sus elementos) seleccionaremos un conjunto representativo de elementos que llamaremos muestra. Cuando la muestra est´a bien escogida podemos obtener una informaci´on similar a la del censo con mayor rapidez y menor coste. Esto justifica que en la pr´actica el an´alisis de poblaciones grandes se haga preferentemente mediante muestreo. El n´ umero de elementos de la muestra se llama tama˜ no de la muestra o simplemente tama˜ no muestral. La clave de un procedimiento de muestreo es garantizar que la muestra sea representativa de la poblaci´on. Por tanto, cualquier informaci´on respecto a las diferencias entre sus elementos debe tenerse en cuenta para seleccionar la muestra. Cuando no dispongamos de esta informaci´on y los elementos sean indistinguibles o intercambiables a priori y perfectamente homog´eneos respecto a la variable que estudiamos, la muestra se selecciona con muestreo aleatorio simple.

58

Conceptos Fundamentales

Distribuci´ on Te´ orica y par´ ametros. Estad´ıstico La caracter´ıstica poblacional en estudio es la variable aleatoria. Interesa pues conocer la distribuci´on de probabilidad (te´orica) de la variable aleatoria. Como sabemos la distribuci´on de probabilidad depende de unas constantes que se denominan par´ametros. Una vez identificados los n elementos seleccionados de la muestra, medimos en ellos la variable de inter´es. Antes de identificar los elementos de la muestra y medir la variable X en ellos, consideramos estas observaciones potenciales como variables aleatorias denotadas por X1 , . . . , Xn . Los valores num´ericos obtenidos despu´es de la medici´on ser´an constantes y los denotamos por x1 , . . . , xn . En el m.a.s. las variables aleatorias X1 , . . . , Xn son i.i.d. con la distribuci´on de probabilidad poblacional. Si f es la funci´on de densidad conjunta poblacional y f1 . . . , fn son las funciones de densidad de X1 , . . . , Xn entonces f = f1 = . . . = fn y si denotamos por fc la funci´on de densidad conjunta de la muestra, se verifica que fc (x1 , . . . , xn ) =

n Y

fi (xi )

i=1

que es la condici´on matem´atica de muestra aleatoria simple. Admitiendo que la informaci´on contenida en la muestra es la u ´nica disponible se plantea el problema de sintetizar esta informaci´on adecuadamente, surge as´ı el concepto de estad´ıstico. El estad´ıstico es una funci´on que resume la informaci´on que nos proporciona la muestra T : (X1 , . . . , Xn ) −→ R A la funci´on T se le llama estad´ıstico, el valor de un estad´ıstico en cada muestra se llama estimaci´on. Cada estad´ıstico es una variable aleatoria y su distribuci´on de probabilidad se llama distribuci´on del estad´ıstico en el muestreo. Por ejemplo,

Pn T (X1 , . . . , Xn ) = 59

i=1

n

Xi

Introducci´ on a la Inferencia Estad´ıstica

4.3

Principales tipos de muestreo

Muestreo Aleatorio Simple. Decimos que una muestra es aleatoria simple cuando: i) Cada elemento de la poblaci´on tiene la misma probabilidad de ser elegido. ii) Las observaciones se realizan con reemplazamiento, de manera que la poblaci´on es id´entica en todas las extracciones. La primera condici´on asegura la representatividad de la poblaci´on: si el 20% de los elementos tiene la caracter´ıstica A y garantizamos con la forma de seleccionar los elementos que todos tienen la misma probabilidad de aparecer, por t´ermino medio obtendremos un 20% de datos muestrales con la caracter´ıstica A. La segunda condici´on se impone por simplicidad: si el tama˜ no de la poblaci´on, (N ), es grande con relaci´on al tama˜ no de la muestra (n), es pr´acticamente indiferente realizar el muestreo con o sin reemplazamiento, pero el an´alisis resulta m´as simple cuando suponemos reemplazamiento. Para seleccionar una muestra por este m´etodo de una poblaci´on finita se utilizan frecuentemente los n´ umeros aleatorios simulados por ordenador (Tabla de n´ umeros aleatorios). Muestreo Estratificado. El muestreo aleatorio simple debe utilizarse cuando los elementos de la poblaci´on son homog´eneos respecto a la caracter´ıstica a estudiar, es decir, a priori no conocemos qu´e elementos de la poblaci´on tendr´an valores altos de ella. Cuando dispongamos de informaci´on sobre la poblaci´on conviene tenerla en cuenta al seleccionar la muestra. Un ejemplo cl´asico son las encuestas de opini´on, donde los elementos (personas) son heterog´eneos en raz´on a su sexo, edad, profesi´on, etc. Interesa en estos casos que la muestra tenga una composici´on an´aloga a la poblaci´on, lo que se consigue mediante una muestra estratificada. Se denomina muestreo estratificado aquel en que los elementos de la poblaci´on se dividen en clases o estratos. La muestra se toma asignando un n´ umero o cuota de miembros a cada estrato y escogiendo los elementos por muestreo aleatorio simple dentro del estrato. En concreto, si existen k estratos de tama˜ nos N1 , . . . , Nk y tales que N = N1 + . . . + Nk 60

Principales tipos de muestreo

tomaremos una muestra que garantice una presencia adecuada de cada estrato. Existen dos criterios b´asicos para dividir el tama˜ no total de la muestra (n) entre los estratos (ni ): • Proporcionalmente al tama˜ no relativo del estrato en la poblaci´on. • Proporcionalmente a la variabilidad del estrato. Si conocemos la varianza de la caracter´ıstica a estudiar en cada estrato, tomaremos el tama˜ no muestral en cada uno proporcional a su variabilidad, de manera que los estratos m´as variables est´en m´as representados.

Muestreo por Conglomerados. Existen situaciones donde ni el muestreo aleatorio simple ni el estratificado son aplicables, ya que no disponemos de una lista con el n´ umero de elementos de la poblaci´on ni en los posibles estratos. En estos casos t´ıpicamente los elementos de la poblaci´on se encuentran de manera natural agrupados en conglomerados, cuyo n´ umero si se conoce. Por ejemplo, la poblaci´on se distribuye en provincias, los habitantes de una ciudad en barrios, etc. Si podemos suponer que cada uno de estos conglomerados es una muestra representativa de la poblaci´on total respecto a la variable que se estudia, podemos seleccionar algunos de estos conglomerados al azar y, dentro de ellos, analizar todos sus elementos o una muestra aleatoria simple. Este m´etodo se conoce como muestreo por conglomerados y tiene la ventaja de simplificar la recogida de la informaci´on muestral. El inconveniente obvio es que si los conglomerados son heterog´eneos entre s´ı, como s´olo se analizan algunos de ellos la muestra final puede no ser representativa de la poblaci´on. Por ejemplo, se desea tomar una muestra de la poblaci´on espa˜ nola para estudiar la proporci´on de personas que est´an de acuerdo con las relaciones prematrimoniales. Si suponemos que la edad y el sexo pueden influir en la opini´on, deber´ıamos tomar una muestra donde estas caracter´ısticas sean las mismas que en la poblaci´on base, lo que implica una muestra estratificada. Por otro lado, si suponemos que las provincias son homog´eneas respecto a la opini´on, podemos ahorrar muchos costes seleccionando al azar 4 provincias y dentro de cada una de ellas una muestra aleatoria o, mejor, estratificada. Este procedimiento tiene el inconveniente obvio de que si las provincias no son homog´eneas respecto a la opini´on (por ejemplo las provincias m´as ricas tienen 61

Introducci´ on a la Inferencia Estad´ıstica

opini´on distinta que las m´as pobres) tendremos sesgos (que evitaremos estratificando las provincias por riqueza).

En resumen, las ideas de estratificaci´on y de conglomerado son opuestas: la estratificaci´ on funciona tanto mejor cuanto mayor sean las diferencias entre los estratos y m´as homog´eneos sean ´estos internamente; los conglomerados funcionan si hay muy pocas diferencias entre ellos, y son muy heterog´eneos internamente (incluyen toda la variabilidad de la poblaci´on dentro de cada uno).

Muestreo Sistem´ atico. Cuando los elementos de la poblaci´on est´an ordenados en listas, se utiliza el muestreo sistem´atico. Supongamos que la poblaci´on tiene tama˜ no N y se desea una muestra de tama˜ no n. Sea k el entero m´as pr´oximo a N/n. La muestra sistem´atica se toma eligiendo al azar (con n´ umeros aleatorios) un elemento entre los primeros k. Sea n1 el orden del elegido. Tomaremos a continuaci´on los elementos n1 + k; n1 + 2k; etc., a intervalos fijos de k hasta completar la muestra. Si el orden de los elementos en la lista es al azar, este procedimiento es equivalente al muestreo aleatorio simple, aunque resulta m´as f´acil de llevar a cabo sin errores. Si el orden de los elementos es tal que los individuos pr´oximos tienden a ser m´as semejantes que los alejados, el muestreo sistem´atico tiende a ser m´as preciso que el aleatorio simple, al cubrir m´as homog´eneamente toda la poblaci´on. El muestreo sistem´atico puede utilizarse conjuntamente con el estratificado para seleccionar la muestra dentro de cada estrato.

62

Cap´ıtulo 5 Distribuciones Muestrales

5.1

Funci´ on de distribuci´ on emp´ırica o muestral

Supongamos que estudiamos una caracter´ıstica poblacional descrita mediante una variable aleatoria X con funci´on de distribuci´on F (x). En muchas ocasiones, esta funci´on de distribuci´on es desconocida. En este apartado introducimos una manera de estimar esta funci´on de distribuci´on. Sea (X1 , . . . , Xn ) una muestra aleatoria con reemplazamiento seleccionada de la poblaci´on. La funci´on de distribuci´on emp´ırica o funci´on de distribuci´on muestral de X basada en esta muestra se define para todo x ∈ R como Fn (x) =

n´ umero de observaciones ≤ x n

La justificaci´on te´orica de que la funci´on de distribuci´on emp´ırica es una buena estimaci´on de la funci´on de distribuci´on poblacional est´a avalada por los siguientes resultados: i) {Fn (x)}n converge en probabilidad a F (x) ii) Teorema de Glivenko-Cantelli. Para cualquier ε > 0 se verifica que lim P (sup |Fn (x) − F (x)| < ε) = 1

n→∞

x

es decir, {Fn (x)}n converge casi seguramente a F (x) 63

Distribuciones Muestrales

Nota: En el caso de que la funci´on de distribuci´on te´orica sea absolutamente continua (v.a. continua) y desconocida es importante estimar la funci´on de densidad. Sin embargo, derivando la funci´on de distribuci´on emp´ırica no se obtiene una estimaci´on de la funci´on de densidad te´orica. Para probar la primera propiedad, basta definir para un x fijo arbitrario, i = 1, . . . , n las variables aleatorias ½ Wi =

1 si Xi ≤ x 0 en caso contrario

y entonces, puesto que W1 , . . . , Wn son independientes ya que Xi lo son, est´an distribuidas seg´ un una bernoulli de par´ametro p = P (Xi ≤ x) = F (x) y entonces basta aplicar el teorema de Khinchine para deducir el resultado puesto que n´ umero de observaciones ≤ x W1 + . . . + Wn = = Fn (x) n n

Para el desarrollo de la estad´ıstica inferencial es importante conocer la distribuci´on de los principales estad´ısticos que vamos a estudiar en las siguientes secciones.

5.2

Media Muestral

Consideremos una caracter´ıstica poblacional num´erica definida por una variable aleatoria X cuya distribuci´on te´orica es F (x) y cuyos principales par´ametros son E[X] = µ y V ar[X] = σ 2 . Recordemos que en una m.a.s., las variables aleatorias X1 , . . . , Xn son i.i.d. y que cualquier funci´on de estas variables se llama estad´ıstico, que por este motivo es tambi´en una variable aleatoria. Entre los llamados estad´ısticos de tendencia central uno de los m´as usados es la media muestral, que se define como: Pn T (X1 , . . . , Xn ) = X =

i=1

Xi

n

Es un estad´ıstico, una variable aleatoria que toma el valor x cuando X1 toma el valor x1 , X2 toma el valor x2 , etc. En la pr´actica se utiliza el mismo nombre para designar el estad´ıstico y a su valor (estimaci´on) en una muestra concreta. 64

Proporci´ on Muestral

Sabemos que

σ2 n Como consecuencia del Teorema Central del L´ımite de Lindeberg-L´evy, E[X] = µ

V ar[X] =

X −µ L √ −→ Z σ/ n donde Z ∼ N (0, 1) Por lo tanto, si n es suficientemente grande (n ≥ 100), se verifica que √ (X − µ) n ' N (0, 1) σ ´o equivalentemente

√ X ∼ N (µ, σ/ n)

Ejemplo 5.1 Supongamos que hemos realizado un m.a.s. de cierta variable poblacional X tal que E[X] = θ (desconocido) y su V ar[X] = 4 por estudios anteriores. a) ¿Qu´e tama˜ no muestral ser´ a necesario para que P (|X − θ| < 0.1) ≥ 0.95? b) ¿Qu´e tama˜ no muestral ser´ a necesario para que E[(X − θ)2 ] ≤ 0.1? Ejemplo 5.2 Las estaturas de cierta poblaci´ on se distribuyen seg´ un una N (168, 8). Calcula la probabilidad de que en una muestra de 136 personas la altura media no difiera de la de la poblaci´ on en m´ as de 1 cm. Ejemplo 5.3 La desviaci´ on t´ıpica de la altura de los habitantes de un pa´ıs es de 8 cm. Calcular el tama˜ no m´ınimo que ha de tener una muestra de habitantes de dicho pa´ıs para que el error cometido al estimar la altura media sea inferior a 1 cm con un nivel de confianza del 90%.

5.3

Proporci´ on Muestral

Consideremos ahora una poblaci´on cuyos elementos son suceptibles o no de poseer cierto atributo C (por ejemplo tener coche, tener televisor, ver cierto programa o no, intenci´on de voto a cierto partido). Definimos en la poblaci´on una variable aleatoria X cuyos valores posibles son 0 ´o 1 seg´ un no posean o posean el atributo C. Adem´as sea p = P (X = 1). 65

Distribuciones Muestrales

Si extraemos mediante un m.a.s. muestras de tama˜ no n, la proporci´on de elementos de la muestra que poseen C ser´a Pn i=1

pr =

Xi

n

que es el estad´ıstico denominado proporci´on muestral. A la estimaci´on o valor de este estad´ıstico en determinada muestra se le denota por pb. El teorema de De-Moivre-Laplace implica que √ (pr − p) n L p −→ Z p(1 − p) donde Z ∼ N (0, 1). Entonces, si np(1 − p) ≥ 5 se verifica que √ (pr − p) n p ' N (0, 1) p(1 − p) ´o equivalentemente

à r pr ∼ N

p,

p(1 − p) n

!

Adem´as, si n es suficientemente grande, entonces √ (pr − p) n p ' N (0, 1) pr (1 − pr ) Ejemplo 5.4 Supongamos que hemos realizado un m.a.s. de cierta variable poblacional X distribuida seg´ un una B(p) a) ¿Qu´e tama˜ no muestral ser´ a necesario para que P (|X − p| < 0.1) ≥ 0.95? b) ¿Qu´e tama˜ no muestral ser´ a necesario para que E[(X − p)2 ] ≤ 0.01? Ejemplo 5.5 Una m´ aquina fabrica piezas de precisi´ on y en su producci´ on habitual tiene un 3% de piezas defectuosas. Si se empaquetan en cajas de 200, ¿cu´ al es la probabilidad de encontrar a lo sumo 7 piezas defectuosas en una caja?. 66

Varianza y Cuasivarianza Muestral

5.4

Varianza y Cuasivarianza Muestral

Consideremos una caracter´ıstica poblacional num´erica definida por una variable aleatoria X cuya distribuci´on te´orica es F (x) y cuyos principales par´ametros son E[X] = µ y V ar[X] = σ 2 . Entre los llamados estad´ısticos de dispersi´on uno de los m´as usados es la varianza muestral, que se define como: Pn 2

T (X1 , . . . , Xn ) = S =

i=1 (Xi

− X)2

n

Pn =

i=1

n

Xi2

−X

2

La distribuci´on de S 2 es t´ıpicamente asim´etrica y su forma depende de n y de la poblaci´on base. Aplicando el T.C.L. la distribuci´on de S 2 converge en distribuci´on a una normal cuando n tiende a infinito, pero la convergencia es muy lenta y la distribuci´on de S 2 es aproximadamente normal u ´nicamente cuando el tama˜ no muestral es muy grande puesto que E[S 2 ] =

n−1 2 σ n

En efecto, en primer lugar n X

(Xi − X)2

=

n n X X ¡ ¢2 (Xi − µ + µ − X)2 = Xi − µ − (X − µ)

=

n n X X (Xi − µ)2 + n(X − µ)2 − 2(X − µ) (Xi − µ)

=

n X (Xi − µ)2 + n(X − µ)2 − 2(X − µ)(nX − nµ)

=

n X (Xi − µ)2 − n(X − µ)2

i=1

i=1

i=1

i=1

i=1

i=1

i=1

Entonces, Ã 2

E[S ] = n

−1

! µ ¶ ¤ ¤ £ £ σ2 n−1 2 2 2 = n−1 nσ 2 − n = σ E (Xi − µ) − nE (X − µ) n n i=1

n X

Por otro lado, la varianza de la varianza muestral ser´a µ ¶ ¤ (n − 1)2 £ n−3 4 µ − σ V ar[S 2 ] = E (S 2 − E[S 2 ])2 = 4 n3 n−1 67

Distribuciones Muestrales

donde µ4 = E[(X − µ)4 ]. No obstante, usando el teorema de Cochran ya veremos que la distribuci´on del estad´ıstico S 2 es conocida y probaremos que la varianza de la varianza muestral es mucho m´as sencilla. De hecho, V ar[S 2 ] =

2(n − 1) 4 σ n2

y la distribuci´on de S 2 es tal que n

X nS 2 = σ2 i=1

µ

Xi − X σ

¶2 ∼ χ2n−1

Por otro lado, la cuasivarianza muestral o varianza muestral corregida se define como

Pn T (X1 , . . . , Xn ) = Sc2 =

− X)2 n = S2 n−1 n−1

i=1 (Xi

de forma que es inmediato deducir E[Sc2 ] = σ 2

5.5

V ar[Sc2 ] =

y

2 σ4 n−1

Desviaci´ on y Cuasidesviaci´ on T´ıpica Muestral

Se definen la desviaci´on t´ıpica muestral y la desviaci´on t´ıpica corregida muestral como la ra´ız cuadrada positiva de la varianza y la varianza corregida muestral respectivamente, es decir

s T (X1 , . . . , Xn ) = S = +

y

s

Pn

Pn

i=1 (Xi

n

− X)2 = n−1

i=1 (Xi

T (X1 , . . . , Xn ) = Sc = + 68

− X)2

r

n S n−1

Otros Momentos Muestrales

5.6

Otros Momentos Muestrales

Consideremos, de nuevo, una caracter´ıstica poblacional num´erica definida por una variable aleatoria X cuya distribuci´on te´orica es F (x) y cuyos principales par´ametros son E[X] = µ y V ar[X] = σ 2 . Supongamos que realizamos un m.a. con reemplazamiento. Se define la variable aleatoria, momento muestral de orden k, k = 1, 2, . . ., respecto al origen como

Pn i=1

Ak =

Xik

n

De la misma forma, se define el momento muestral de orden k, k = 1, 2, . . ., respecto a la media o simplemente momento central de orden k como Pn Mk =

i=1 (Xi

− X)k

n

Definamos ahora lo que se denominan estad´ısticos ordenados. Si X1 , X2 , . . . , Xn son las variables aleatorias obtenidas con un m.a. con reemplazamiento (son vv.aa. i.i.d.), supongamos ahora que las n observaciones se ordenan en orden ascendente, de modo que X(1) ≤ X(2) ≤ . . . ≤ X(n) donde X(k) es el k-´esimo elemento de la muestra ordenada. A X(k) se le llama k-´esimo estad´ıstico ordenado. Tiene la propiedad de que exactamente hay (k−1) observaciones que le preceden. Los estad´ısticos ordenados tienen muchas aplicaciones en inferencia estad´ıstica (estad´ıstica no param´etrica, teor´ıa de estimaci´on, etc.) y juegan un papel muy importante en muchos campos de aplicaci´on, por ejemplo en control de calidad y teor´ıa de la probabilidad. Es importante observar que X(1) , . . . X(k) son variables aleatorias independientes. La distribuci´on de los estad´ısticos ordenados depende de la poblaci´on base. La distribuci´on del primero y del u ´ltimo estad´ıstico ordenado ya lo hemos obtenido varias veces en clase al estudiar las distribuciones de probabilidad del m´ınimo y del m´aximo. Hay algunos estad´ısticos muy utilizados en Inferencia que se obtienen a partir de estad´ısticos ordenados como por ejemplo: Mediana Muestral 69

Distribuciones Muestrales

 si n es impar X n + 1!      2      M edn =    1      X n + X n + 2 !  si n es par    2 2 2 Rango Muestral R = X(n) − X(1) Semirango Muestral SR =

1 (X(n) − X(1) ) 2

Cuantiles Muestrales Recordemos que si X es una variable aleatoria con funci´on de distribuci´on F (x), el cuantil de orden p, 0 < p < 1 se define como la ra´ız de la ecuaci´on F (x) = p Lo denotaremos por xp Dada una m.a.s. se define el cuantil muestral de orden p, 0 < p < 1 como la siguiente variable aleatoria   X(np) Qp =



X([np])+1

si

np es entero

si

np no es entero

donde [np] denota el mayor entero menor que np Obs´ervese que la mediana muestral no es el cuantil de orden 0.5, pero si n es suficientemente grande las diferencias no son relevantes. Se puede probar que E[Qp ] = xp

y

V ar[Qp ] =

p(1 − p) nf 2 (xp )

donde f es la funci´on de densidad poblacional que se supone continua y positiva en xp . 70

Otros Momentos Muestrales

Adem´as, por T.C.L. se verifica que √ f (xp ) n(Qp − xp ) p p(1 − p) es asint´oticamente N (0, 1).

71

Cap´ıtulo 6 Distribuci´ on de Estad´ısticos en el Muestreo de Poblaciones Normales

Antes de iniciar este cap´ıtulo con las distribuciones asociadas a la distribuci´on normal repasemos algunos conceptos que utilizaremos como es el de la funci´on gamma. En muchos problemas encontramos la siguiente integral Z



xα−1 e−x dx

0

la cual es convergente para valores α > 0 y divergente para el resto. Esta integral se llama funci´on gamma y es denotada por Γ(α). Se verifica que i) Γ(α + 1) = αΓ(α) ii) Γ(α + 1) = α! si α ∈ Z+ iii) Γ(1/2) =



π

La primera parte se prueba integrando por partes la integral. La segunda parte es consecuencia inmediata de la primera y para probar la u ´ltima parte es necesario realizar el siguiente cambio de variable en la integral, x = y 2 /2, el resto es consecuencia de la funci´on de densidad de una N (0, 1). 72

Distribuciones Asociadas a la distribuci´ on normal

6.1

Distribuciones Asociadas a la distribuci´ on normal

Distribuci´ on χ2 de Pearson. Supongamos que tenemos n variables aleatorias independientes Z1 , . . . , Zn distribuidas seg´ un una N (0, 1). La variable, X = Z12 + . . . + Zn2 est´a distribuida seg´ un una distribuci´on que s´olo depende del n´ umero de sumandos y que recibe el nombre de distribuci´on χ2 de Pearson con n grados de libertad. Para indicar que X tiene esta distribuci´on, se escribe X ∼ χ2n . Su funci´on de densidad, f (x), es:  1   e−x/2 xn/2−1  n/2 2 Γ(n/2) f (x) =    0

si

x>0

si

x≤0

En la siguiente figura se muestran las funciones de densidad de varias distribuciones χ2 con distintos grados de libertad, n,

73

Distribuci´ on de Estad´ısticos en el Muestreo de Poblaciones Normales

Observemos que la funci´on de densidad s´olo depende de los grados de libertad, n. La esperanza y la varianza de la distribuci´on son n y 2n respectivamente. Es decir, si X ∼ χ2n , entonces E[X] = n

y

V ar[X] = 2n

puesto que E[Zi2 ] = 1 al ser la varianza de Zi 1 y su media 0, y por otro lado E[Zi4 ] = 3 (coeficiente de apuntamiento de la N (0, 1), se deduce por la funci´on caracter´ıstica o la generatriz de momentos). Tambi´en podemos establecer que es equivalente una χ2n y una distribuci´on gamma de par´ametros α = 1/2 y β = n/2 En contraste con la distribuci´on normal, no hay una distribuci´on tipificada u ´nica. La distribuci´on χ2 es asim´etrica. Su propiedad fundamental es que si sumamos dos χ2 independientes de grados de libertad n1 y n2 respectivamente, se obtiene una nueva variable χ2 con n1 + n2 grados de libertad. Esta propiedad se deduce de la definici´on de la variable. En la mayor´ıa de los textos b´asicos de Estad´ıstica se pueden encontrar tablas de valores cr´ıticos asociados con la funci´on de distribuci´on de esta distribuci´on de probabilidad en funci´on de n. En estas tablas, el valor cr´ıtico, xp o cuantil de orden p, es el valor con la probabilidad de que P (X ≤ xp ) = p. Ejemplo 6.1 Supongamos que una variable aleatoria X est´ a distribuida seg´ un una χ2 de Pearson con 14 grados de libertad. Haciendo uso de la tabla de los valores cr´ıticos de la distribuci´ on χ2 , calcular i) P (X < 17.1) 74

Distribuciones Asociadas a la distribuci´ on normal

ii) P (X > 5.63) iii) El valor x tal que P (X ≤ x) = 0.25 iv) El valor x tal que P (X > x) = 0.95

Distribuci´ on t de Student. Supongamos que tenemos una variables aleatorias Z distribuida seg´ un una N (0, 1) y otra variable Y con distribuci´on χ2 con n grados de libertad. Si Z e Y son independientes, la variable aleatoria Z

X=p

Y /n

est´a distribuida seg´ un una distribuci´on que s´olo depende del n´ umero de grados de libertad de la variable Y y que recibe el nombre de distribuci´on t de Student con n grados de libertad. Para indicar que X tiene esta distribuci´on, se escribe X ∼ tn . La distribuci´on t fue obtenida por W.S. Gosset, un qu´ımico que trabajaba para la cervecer´ıa Guinnes en Dubl´ın, en 1908 mediante el m´etodo de Montecarlo. La funci´on de densidad de esta variable X es: ¡ ¢ µ ¶− n+1 2 Γ n+1 x2 2 ¡1¢ ¡n¢ 1 + f (x) = √ n nΓ 2 Γ 2

−∞ x) = 0.3

Distribuci´ on F de Fisher. La distribuci´on F surge al comparar la longitud de vectores aleatorios de variables normales independientes. Supongamos que tenemos dos variables aleatorias, Y1 e Y2 , chi-cuadrado de Pearson independientes con n1 y n2 grados de libertad respectivamente. Entonces la variable aleatoria X=

Y1 /n1 Y2 /n2 76

Distribuciones Asociadas a la distribuci´ on normal

es una variable F de Fisher con n1 y n2 grados de libertad. Se denota de la forma X ∼ Fn1 ,n2 . Su funci´on de densidad viene dada por la expresi´on

f (x) =

 ¡ ¢ n1 /2 n2 /2 2  Γ n1 +n n n  2¡  ¢ 1¡ n2 ¢2  ³ n1  Γ Γ 2

    

2

0

x(n1 /2)−1 ´(n1 +n2 )/2 1 + nn12 x

si x > 0

si x ≤ 0

Las funciones de densidad de varias distribuciones F , con distintos grados de libertad, se ilustran en la siguiente figura. Observemos que la distribuci´on es asim´etrica a la derecha y que el grado de asimetr´ıa depende de los grados de libertad.

Como en los casos anteriores, los valores cr´ıticos de la funci´on de distribuci´on de esta distribuci´on est´an tabulados. En las correspondientes tablas, s´olo aparecen los valores cr´ıticos de la cola derecha de la distribuci´on y este hecho es debido a que el valor cr´ıtico asociado con la probabilidad p, Fn1 ,n2 (p) es decir P (X ≤ Fn1 ,n2 (p)) = p 77

Distribuci´ on de Estad´ısticos en el Muestreo de Poblaciones Normales

verifica que Fn1 ,n2 (1 − p) = 1/Fn2 ,n1 (p). Entonces, podemos usar esta relaci´on para obtener los valores cr´ıticos en la cola izquierda de la distribuci´on. Se verifica que si X ∼ Fn1 ,n2 entonces E[X] =

n2 n2 − 2

si n2 > 2

y V ar[X] =

2n22 (n1 + n2 − 2) n1 (n2 − 2)2 (n2 − 4)

si n2 > 4

Se puede notar que la distribuci´on t de Student con n grados de libertad es un caso particular de la distribuci´on F de Fisher con 1 y n grados de libertad en la parte positiva. Ejemplo 6.3 Supongamos que una variable aleatoria X est´ a distribuida seg´ un una F de Fisher con 24 y 18 grados de libertad. Haciendo uso de la tabla de los valores cr´ıticos de la distribuci´ on F , calcular i) P (X ≤ 1.8103) ii) P (X > 2.1497) iii) El valor x tal que P (X ≤ x) = 0.99 iv) El valor x tal que P (X ≤ x) = 0.1

6.2

Teorema de Fisher

En esta secci´on consideramos el caso especial cuando X1 , . . . , Xn constituyen un m.a. con reemplazamiento de una distribuci´on te´orica N (µ, σ). El objetivo es deducir las distribuciones de algunos estad´ısticos que son funci´on de la media muestral y la cuasivarianza muestral. Estos resultados forman la base para inferencia en muestras peque˜ nas o grandes de poblaciones normales. Recordemos que E[X] = µ ,

V ar[X] = 78

σ2 , n

E[Sc2 ] = σ 2

Teorema de Fisher

Ya probamos que para n suficientemente grande X se distribuye como una dis√ tribuci´on N (µ, σ/ n). En este caso, si la distribuci´on te´orica es normal, independientemente de n se verifica que X tiene una distribuci´on normal exacta.

Teorema de Fisher. Supongamos que X1 , . . . , Xn constituyen un m.a. con reemplazamiento de una distribuci´on te´orica N (µ, σ). Entonces se verifica que √ i) X ∼ N (µ, σ/ n) ii) X y Sc2 son variables aleatorias independientes (n − 1) Sc2 ∼ χ2n−1 σ2 √ n(X − µ) iv) ∼ tn−1 Sc

iii)

Como consecuencia inmediata se verifica que equivalentemente, entre la media muestral y la varianza muestral se satisface que ii)’ X y S 2 son variables aleatorias independientes iii)’

n S2 ∼ χ2n−1 σ2

Probemos i). Para cualquier s ∈ R, calculemos la funci´on generatriz de momentos √ de la media muestral y veamos que es exactamente la de una distribuci´on N (µ, σ/ n), con lo cual por la unicidad de la f.g.m. es suficiente.

sX

MX (s) = E[e

]=

n Y

sXi /n

E[e

]=

i=1

n Y

exp{sµ/n + s2 σ 2 /2n2 } = exp{sµ + s2 σ 2 /2n}

i=1

sin m´as que aplicar la independencia de las Xi y el hecho de que si Xi ∼ N (µ, σ), entonces Xi /n ∼ N (µ/n, σ/n). El resultado es la funci´on generatriz de momentos de √ una variable aleatoria N (µ, σ/ n). Por lo tanto √ Z=

n (X − µ) ∼ N (0, 1) σ 79

Distribuci´ on de Estad´ısticos en el Muestreo de Poblaciones Normales

Desde un punto de vista pr´actico σ es habitualmente desconocida y ser´ıa deseable reemplazar σ por su estimaci´on s. El apartado iv) del Teorema nos dice cual ser´ıa la nueva distribuci´on. Probemos ii). En primer lugar probemos que X es independiente de Xi − X para cada i. Sabiendo que X y Xi − X tienen una distribuci´on normal bivariante entonces es suficiente probar que la covarianza de ambas variables es cero.

Cov(X, Xi − X) = =

=

2

E[X(Xi − X)] − E[X]E[Xi − X] = E[Xi X] − E[X ] " # n 1X 2 E Xi Xi − E[X ] n i=1   · 2¸ µ 2 ¶ n X Xi 1 σ 2   E + E Xi Xj − + µ = (∗) n n n j=1,j6=i

puesto que E[Xi − X] = 0 y adem´as como Xi ∼ N (µ, σ), entonces µ ¶2 Xi − µ y por lo tanto ∼ χ21 . Entonces σ "µ E

Xi − µ σ

Xi − µ ∼ N (0, 1) σ

¶2 # =1

y aplicando la linealidad de la esperanza matem´atica tenemos que E[Xi2 ] = σ 2 + µ2 El mismo razonamiento teniendo en cuenta el apartado i) del Teorema nos lleva a σ2 2 deducir que E[X ] = + µ2 . n Por otro lado, puesto que las variables Xi son independientes, entonces E[Xi Xj ] = E[Xi ]E[Xj ] = µ2 . En definitiva, (∗) =

σ 2 + µ2 n−1 2 + µ − n n 80

µ

σ2 + µ2 n

¶ =0

Teorema de Fisher

Entonces, como X y Xi − X siguen una distribuci´on normal y tienen covarianza cero Pn entonces X y i=1 (Xi − X)2 son independientes y por lo tanto lo son X y Sc2 . Probemos iii). Sabemos que Xi ∼ N (µ, σ), entonces µ ¶2 Xi − µ tanto ∼ χ21 . Entonces: σ ¶2 n µ X Xi − µ σ

i=1

Ya probamos que E[S 2 ] =

n−1 n

Xi − µ ∼ N (0, 1) y por lo σ

∼ χ2n

σ 2 y para ello hicimos uso de que

n n n X X X (Xi − X)2 = (Xi − µ + µ − X)2 = (Xi − µ)2 − n(X − µ)2 i=1

i=1

i=1

y por lo tanto n X (Xi − µ)2 i=1

σ2

n X (Xi − X)2

=

σ2

i=1

+n

(X − µ)2 σ2

Multiplicando y dividiendo por n − 1 tenemos que n X (Xi − µ)2 i=1

n−1 2 (X − µ)2 Sc + n 2 σ σ2

=

σ2

La parte izquierda sigue una distribuci´on χ2n y el segundo miembro de la derecha sigue una distribuci´on χ21 con lo cual la demostraci´on concluye. Por lo tanto X=

n−1 2 Sc ∼ χ2n−1 σ2

Probemos iv). En este caso es evidente que √ n(X − µ) Z T = s σ =q

X n−1

n−1 σ2

Sc2 n−1

y por lo tanto

√ T =

∼ tn−1

n (X − µ) ∼ tn−1 Sc 81

Distribuci´ on de Estad´ısticos en el Muestreo de Poblaciones Normales

6.3

Distribuci´ on de la media muestral

Supuesto que hemos realizado un m.a.c.r. de una poblaci´on te´oricamente distribuida seg´ un una ley normal de media µ y desviaci´on t´ıpica σ hemos probado ya por el Teorema de Fisher que la distribuci´on de la media muestral es i) En funci´on de la varianza poblacional, √ X ∼ N (µ, σ/ n) ,

√ por lo tanto

n (X − µ) ∼ N (0, 1) σ

ii) Sin hacer uso de la varianza poblacional hemos probado que √

n (X − µ) ∼ tn−1 Sc

(si n > 30 la distribuci´on tn−1 se parece a la normal y puede sustituirse por una normal est´andar).

6.4

Distribuci´ on de la varianza, cuasivarianza y desviaci´ on t´ıpica muestral

Varianza muestral. n S2 ∼ χ2n−1 σ2 E[S 2 ] = V ar[S 2 ] =

n−1 2 σ n 2(n − 1) 4 σ n2

Cuasivarianza muestral. (n − 1) Sc2 ∼ χ2n−1 σ2 E[Sc2 ] = σ 2 V ar[Sc2 ] = 82

2 σ4 n−1

Distribuci´ on de la diferencia de medias

En el libro de Pe˜ na, pg. 475 se puede ver el c´alculo de la distribuci´on exacta de la funci´on de densidad de la varianza y la cuasivarianza muestral. Desviaci´ on t´ıpica muestral. E[S] '

4n − 5 σ