Introduccion a la Estadistica Bayesiana

Introducción a la Estadística Bayesiana (Segunda parte) Eduardo Gutiérrez Peña1 1 Departamento de Probabilidad y Estadí

Views 104 Downloads 3 File size 480KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Introducción a la Estadística Bayesiana (Segunda parte) Eduardo Gutiérrez Peña1 1

Departamento de Probabilidad y Estadística, IIMAS-UNAM

3 er Taller Mexicano de Estadística Bayesiana Veracruz, México ∼ 25 de junio de 2011

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

1 / 45

Temario

1

Introducción

2

Ideas básicas

3

El enfoque bayesiano

4

El proceso de aprendizaje

5

Distribución predictiva

6

Intercambiabilidad

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

2 / 45

Introducción

¡Toda la Estadística es descriptiva! Caso A: se cuenta con todos los datos posibles del fenómeno bajo estudio (e.g. censos) Descripción: exacta −→ Análisis exploratorio de datos

Caso B: se cuenta solamente con una parte de todos los datos posibles (e.g. encuestas) Descripción: aproximada −→ Inferencia Estadística

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

3 / 45

Introducción En este último caso,

x1 , x2 ,..., xn

Fenomeno

Muestra

Inferencia (Descripcion aproximada)

¿cómo seleccionar la muestra? ¿cómo medir el grado de aproximación?

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

4 / 45

Introducción Solución: Selección probabilística de la muestra (i.e. por sorteo)

x Dato

−→

X Variable (aleatoria)

−→

Pr[X = x] Modelo de probabilidad

Así, Describir el fenómeno ⇐⇒ Describir el modelo

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

5 / 45

Introducción Inferencia paramétrica y no paramétrica - En ocasiones resulta conveniente suponer que Pr[X = x] = p(x|θ), donde p(·|θ) tiene forma conocida, pero el valor de θ es desconocido Así, Describir el fenómeno ⇐⇒ Caracterizar el valor de θ - En otros casos la propia forma funcional de Pr[X = x] se supone desconocida

A fin de cuentas... ¿qué es un modelo?

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

6 / 45

Ideas básicas Métodos estadísticos tradicionales Planteamientos más comunes de la Estadística clásica - Estimación puntual: θˆ ¯ - Estimación por intervalo: θ ∈ (θ, θ) - Prueba de hipótesis: H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1

Criterios: suficiencia, insesgamiento, varianza mínima, consistencia, eficiencia, confianza, significancia, potencia...

¿Cómo y cuándo aplicar cada receta?

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

7 / 45

Conceptos básicos Veamos un ejemplo... Problema: hacer inferencias sobre la proporción de individuos de una población determinada que sufren de cierta enfermedad. Se selecciona una muestra aleatoria de individuos, de manera que cada individuo en la muestra sufra de la enfermedad con probabilidad θ independientemente de los otros individuos en la muestra (θ denota la proporción de individuos enfermos en la población). La variable aleatoria X denota el número de individuos enfermos en la muestra. El valor observado X = x es usado para hacer inferencias acerca del parámetro (característica poblacional) θ.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

8 / 45

Conceptos básicos Las inferencias pueden tomar la forma de: un estimador puntual: θˆ = 0.1 un intervalo de confianza: θ ∈ (0.08,0.12) con 95% de confianza una prueba de hipótesis: rechazar H0 : θ < 0.07 con α = 0.05 un pronóstico: predecir cuántos individuos sufrirán de la enfermedad el año próximo una decisión: invertir en un nuevo proyecto de investigación para estudiar la enfermedad

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

9 / 45

Conceptos básicos Estas inferencias se llevan a cabo especificando un modelo probabilístico, p(x|θ), que determina las probabilidades de los posibles valores de X para un valor dado de θ, e.g. X ∼ Bin(θ, n), de manera que el problema de inferencia estadística se reduce a hacer inferencias sobre θ con base en el valor observado X = x.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

10 / 45

Conceptos básicos

¿Para qué otro enfoque? Notemos lo siguiente: El parámetro θ es desconocido, pero se considera constante, no aleatorio. De ahí que en la terminología clásica se hable de “verosimilitud”, “confianza”, “nivel de significancia”, etc., y no de probabilidad. Sin embargo, es común que la gente interprete intuitivamente a un intervalo de confianza del 95% para θ, digamos (0.08, 0.12), como si Pr(0.08 < θ < 0.12) = 0.95. De manera similar, no es raro que la gente interprete el nivel de significancia descriptivo (p-value) como la probabilidad de que la hipótesis nula sea verdadera.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

11 / 45

Conceptos básicos Interpretación subjetiva de la probabilidad ¿Cómo debe interpretarse la probabilidad? Existen al menos tres interpretaciones: • Clásica: basada en ciertas simetrías o en propiedades físicas de objetos tales como dados, cartas de una baraja, bolas dentro de una urna, etc. • Frecuentista: basada en el límite de frecuencias relativas de eventos repetibles bajo condiciones similares. • Subjetiva: refleja juicios personales acerca de eventos únicos. Un ejemplo... ¿Cuál es la probabilidad que tú asignarías en este momento al evento A = “El PRI ganará las elecciones presidenciales en 2012”?

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

12 / 45

Conceptos básicos - ¿Quiere decir esto que podemos usar cualquier número que queramos? No. Las probabilidades que asignemos deben ser coherentes, i.e., deben obedecer las leyes de la probabilidad. Además, deben reflejar honestamente nuestro estado de conocimiento. Ejemplo: Preguntas de opción múltiple

- Para ser tomadas en serio, las probabilidades que asignemos deben tener relación con la realidad. - Usualmente estas probabilidades son asignadas por expertos y/o con base en información (muestral) previa.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

13 / 45

El enfoque bayesiano Idea: diseñar una Teoría Estadística, basada en una pequeña serie de principios básicos, que nos permita estructurar la solución a cualquier problema de inferencia. La vía: la Teoría de la Decisión

¿Para qué una Teoría Estadística? - Para darle a la Estadística una estructura coherente - Porque con otros enfoques se presentan casos en los que: (i) no hay una solución razonable; (ii) se presentan paradojas.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

14 / 45

El enfoque bayesiano Teoría de la decisión En el contexto de la Estadística, los elementos de un problema de decisión en ambiente de incertidumbre son los siguientes: 1

El espacio de acciones potenciales disponibles: A

2

El espacio parametral, que contiene los posibles estados de la naturaleza: Θ

3

El espacio de las consecuencias: C = A × Θ

Para poder resolver un problema de decisión, es necesario cuantificar tanto la incertidumbre sobre Θ como las consecuencias en C. Los axiomas implican que la única forma racional de cuantificar la incertidumbre es a través de una medida de probabilidad, p(θ), y que las consecuencias deben cuantificarse por medio de una función de pérdida, L(a, θ).

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

15 / 45

El enfoque bayesiano El resultado fundamental de la teoría es que debe elegirse aquella acción que minimice la pérdida esperada Z L∗ (a) = L(a, θ)p(θ) dθ. Θ

Por supuesto, en problemas estadísticos se cuenta con información adicional en la forma de una muestra X1 , . . . , Xn ∼ p(x|θ). ¿Cómo incorporar esta información? El Teorema de Bayes nos permite combinar las dos fuentes de información, p(θ) y x = (x1 , . . . , xn ), y de esta manera producir la distribución final p(θ|x).

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

16 / 45

El enfoque bayesiano Teorema de Bayes En términos de funciones de densidad, el Teorema de Bayes toma la forma p(θ|x) = R El denominador, p(x) = escribir

R

p(θ)p(x|θ) . ˜ ˜ θ˜ p(θ)p(x| θ)d

˜ ˜ θ, ˜ no depende de θ, por lo que es común p(θ)p(x| θ)d p(θ|x) ∝ p(θ)p(x|θ).

Es este caso, la mejor acción será aquella que minimice la pérdida esperada final Z L∗x (a) = L(a, θ)p(θ|x) dθ. Θ

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

17 / 45

El enfoque bayesiano Estimación puntual En este caso A = Θ. Las funciones de pérdida más comunes son: 1

2

3

˜ θ) = (θ˜ − θ)2 . Cuadrática: L(θ, ˜ = Var(θ|x) + {E(θ|x) − θ} ˜ 2 , de manera que el valor de θ˜ que Notemos que L∗x (θ) ∗ ˜ ˆ minimiza a Lx (θ) es θ = E(θ|x). ˜ θ) = |θ˜ − θ|. Valor absoluto: L(θ, Puede demostrarse que en este caso el valor que minimiza la pérdida esperada final es θˆ = Mediana(θ|x). Lineal: Para g, h > 0, ˜ θ) = L(θ,



En este caso θˆ = Cuantil de orden

E. Gutiérrez Peña (UNAM)

g · (θ˜ − θ) ˜ h · (θ − θ) h g+h

si θ˜ > θ si θ˜ < θ

de p(θ|x).

Estadística Bayesiana

3TAMEB

18 / 45

El enfoque bayesiano Contraste de hipótesis Supongamos que se desea contrastar las hipótesis H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1

(Θ0 ∩ Θ1 = ∅; Θ0 ∪ Θ1 = Θ).

En este caso A = {a0 , a1 } = {H0 , H1 }. Supongamos que se utiliza una función de pérdida de la forma  ki si θ ∈ / Θi L(ai , θ) = (i = 0, 1), 0 si θ ∈ Θi donde k0 , k1 > 0. Entonces L∗x (ai ) = ki (1 − Pr[θ ∈ Θi |x])

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

(i = 0, 1)

3TAMEB

19 / 45

El enfoque bayesiano Por lo tanto, debe rechazarse H0 si y sólo si L∗x (a0 ) > L∗x (a1 ). Es decir, si y sólo si Pr[θ ∈ Θ0 |x] k0 < . Pr[θ ∈ Θ1 |x] k1

En particular, si k0 = k1 entonces la mejor acción es rechazar H0 si Pr[θ ∈ Θ0 |x] < Pr[θ ∈ Θ1 |x].

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

20 / 45

El enfoque bayesiano Las probabilidades finales requeridas pueden calcularse de la siguiente manera. Por el Teorema de Bayes, Pr[θ ∈ Θi |x] =

Pr[θ ∈ Θi ]p(x|θ ∈ Θi ) , p(x)

donde

Z Pr[θ ∈ Θi ] =

p(θ) dθ Θi

y (

Z p(x|θ ∈ Θi ) =

p(x|θ) Θi

p(θ) R ˜ θ˜ p(θ)d Θ

) dθ.

i

Entonces, el criterio para rechazar H0 toma la forma p(x|θ ∈ Θ0 ) k0 Pr[θ ∈ Θ1 ] < . p(x|θ ∈ Θ1 ) k1 Pr[θ ∈ Θ0 ]

[Factores de Bayes]

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

21 / 45

El enfoque bayesiano Notemos lo siguiente: Si las dos hipótesis fueran simples, i.e. si Θi = {θi } (i = 0, 1), entonces se rechazaría H0 siempre que p(x|θ0 ) k0 Pr[θ = θ1 ] < . p(x|θ1 ) k1 Pr[θ = θ0 ] Esta “región de rechazo” tiene la misma forma que la producida por el Lema de Neyman-Pearson. Si las dos hipótesis son compuestas, el criterio Bayesiano se basa en el cociente de verosimilitudes integradas; en contraste, el criterio clásico se basa en el cociente de verosimilitudes maximizadas. Otras funciones de pérdida dan lugar a otros “criterios de rechazo”.

[Hipótesis múltiples]

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

22 / 45

El proceso de aprendizaje

Los cuatro pasos a seguir dentro del enfoque bayesiano: 1

Especificación de un modelo (verosimilitud), p(x|θ)

2

Especificación de una distribución inicial, p(θ)

3

Cálculo de la distribución final, p(θ|x), vía el Teorema de Bayes

4

Resumen de la información contenida en p(θ|x) para hacer inferencias sobre las cantidades de interés.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

23 / 45

El proceso de aprendizaje Robustez En Estadística, independientemente del enfoque que se utilice, es importante entender hasta qué punto el modelo usado es robusto antes posibles violaciones a los supuestos. Lo anterior también es cierto dentro del enfoque Bayesiano en lo que se refiere a la especificación de la distribución inicial. En ocasiones el modelo es tal que las inferencias no se modifican sustancialmente ante cambios moderados en la distribución final. Esto ocurre, por ejemplo, cuando el tamaño de la muestra es suficientemente grande. En otros casos, sin embargo, puede ocurrir que incluso cambios aparentemente insignificantes en la distribución inicial produzcan inferencias completamente distintas.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

24 / 45

El proceso de aprendizaje Inferencia El enfoque bayesiano proporciona inferencias más completas en el sentido de que toda la información disponible sobre el valor de θ queda representada a través de la distribución final. Es decir, desde el punto de vista bayesiano, el problema de inferencia se reduce a encontrar p(θ|x): la distribución final es la inferencia. La única receta de la Inferencia bayesiana consiste en encontrar la distribución condicional de todas aquellas cantidades de interés cuyo valor desconocemos dado el valor conocido de las variables observadas. Las “cantidades de interés” pueden ser parámetros, observaciones futuras, etc. En la práctica generalmente es deseable resumir este tipo de inferencias en la forma de una estimación o predicción puntual, una estimación por intervalo, una prueba de hipótesis, etc.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

25 / 45

El proceso de aprendizaje

Un ejemplo simple de inferencia bayesiana Ejemplo 1. Distribución binomial - Datos: x éxitos en n ensayos independientes, cada uno con probabilidad de éxito θ. Por ejemplo, θ puede representar la tasa de respuesta ante cierta dosis de una sustancia tóxica, y x el número de individuos, de un total de n expuestos, que presentan efectos adversos.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

26 / 45

El proceso de aprendizaje - Función de verosimilitud:   n x p(x|θ) = Bin(x|θ; n) = θ (1 − θ)n−x x

∝ θx (1 − θ)n−x

- Distribución inicial: p(θ) = Beta(θ|a, b) =

Γ(a + b) a−1 θ (1 − θ)b−1 ∝ θa−1 (1 − θ)b−1 Γ(a)Γ(b)

- Distribución final: p(θ|x) ∝ p(θ) p(x|θ) ∝ θx+a−1 (1 − θ)n−x+b−1 ∝ Beta(θ|x + a, n − x + b) Notemos que tanto la distribución inicial como la final son beta. En este caso se dice que la familia de distribuciones beta es conjugada para el modelo binomial. E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

27 / 45

El proceso de aprendizaje Para la distribución Beta(a, b) se sabe que la media está dada por m = a/(a + b) y la varianza por s2 = m(1 − m)/(a + b + 1). • Supongamos que, dada la información inicial disponible, se determina que θ tiene media E(θ) = m = 0.4 y desviación estándar sd(θ) = s = 0.1. Esto implica que a = 9.2 y b = 13.8. Interpretación: la información inicial es equivalente a la de una muestra de tamaño a + b = 23 en la que se obtuvieron a = 9.2 éxitos. • Supongamos ahora que, al realizar un experimento con n = 20 individuos expuestos, observamos x = 15 individuos afectados. Desglose de la información Éxitos Fracasos Total

Inicial 9.2 13.8 23

Datos 15 5 20

Final 24.2 18.8 43

La media y la desviación estándar de la distribución final de θ están dadas por E(θ|x) = 0.563 y sd(θ|x) = 0.075, respectivamente.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

28 / 45

El proceso de aprendizaje Análisis bayesiano del modelo binomial (inicial informativa)

3 0

1

2

Densidad

4

5

Inicial Verosimilitud Final

0.0

0.2

0.4

0.6

0.8

1.0

θ

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

29 / 45

El proceso de aprendizaje • Finalmente, supongamos que no se tiene información inicial disponible. Esto se puede especificar a través de una distribución inicial uniforme, lo que implica que a = b = 1. • En este caso, con x = 15 individuos afectados de un total de n = 20 individuos expuestos, tenemos: Desglose de la información Éxitos Fracasos Total

Inicial 1 1 2

Datos 15 5 20

Final 16 6 22

La media y la desviación estándar de la distribución final de θ están dadas por E(θ|x) = 0.727 y sd(θ|x) = 0.093, respectivamente. • Por otro lado, la moda de la distribución final es igual a 0.75, valor que coincide con el estimador de máxima verosimilitud para θ en este caso.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

30 / 45

El proceso de aprendizaje Análisis bayesiano del modelo binomial (inicial no−informativa)

3 0

1

2

Densidad

4

5

Inicial Verosimilitud Final

0.0

0.2

0.4

0.6

0.8

1.0

θ

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

31 / 45

El proceso de aprendizaje Ejemplo 2. Distribución normal Sea X1 , . . . , Xn una muestra de observaciones independientes (dado θ) de una distribución N(θ, σ 2 ), con σ 2 conocida. Entonces   (xi − θ)2 1 p(xi |θ) = √ exp − , 2σ 2 2πσ lo que da lugar a la verosimilitud l(θ; x)

∝ ∝

p(x|θ) ( P ) n 2 i=1 (xi − θ) exp − . 2σ 2

Supongamos que podemos representar nuestro conocimiento sobre θ a través de una distribución normal: p(θ) = N(θ|b, d 2 ).

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

32 / 45

El proceso de aprendizaje Por el teorema de Bayes: (

p(θ|x)



= ∝



( P ) (xi − θ)2 − i 2σ 2 ( ) P 2 2 ¯ θ2 − 2bθ + b2 i xi − 2nx θ + nθ exp − − 2d 2 2σ 2       1 2 1 n b nx¯ exp − θ + 2 − 2θ + 2 2 2 2 d σ d σ  !  b nx¯ 2   1 1 n 2 + σ2 exp − + 2 θ − d1 n  2 d2  σ 2 + 2

exp



(θ − b)2 2d 2

)

exp

d

σ

Finalmente, p(θ|x) = N

E. Gutiérrez Peña (UNAM)

b d2 1 d2

+ +

nx¯ σ2 n σ2

,

!

1 1 d2

Estadística Bayesiana

+

n σ2

.

3TAMEB

33 / 45

El proceso de aprendizaje Este resultado puede presentarse de manera más concisa si definimos la precisión como el recíproco de la varianza: τ = 1/σ 2 y c = 1/d 2 . Entonces   1 cb + nτ x¯ . p(θ|x) = N , c + nτ c + nτ Notemos que - E(θ|x) = γn b + (1 − γn )x¯ , donde γn = c/(c + nτ ). Si nτ es grande relativo a c, entonces γn ≈ 0 y la media de la distribución final será aproximadamente igual a x¯ . - Precisión final = Precisión inicial + (n× Precisión de cada dato). - Conforme n → ∞, p(θ|x) ≈ N(θ|x¯ , σ 2 /n), de manera que en el límite la distribución inicial no tiene ningún efecto sobre las inferencias. - Si d → ∞ (o, equivalentemente, si c → 0), entonces p(θ|x) ≈ N(θ|x¯ , σ 2 /n). - La distribución final depende de la muestra sólo a través de x¯ .

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

34 / 45

Distribución predictiva Hasta el momento sólo hemos discutido el problema de hacer inferencias acerca del valor desconocido del parámetro. En muchas situaciones, sin embargo, el propósito de formular un modelo estadístico es hacer predicciones sobre el valor de una o más observaciones futuras. Este problema se resuelve de manera mucho más elegante desde el punto de vista bayesiano que desde el punto de vista clásico. El punto esencial aquí es que, al hacer inferencias predictivas sobre el valor de una observación futura con base en un modelo ajustado, deben tomarse en cuenta dos fuentes de incertidumbre: Incertidumbre sobre el valor del parámetro (sobre el cual se pueden hacer inferencias con base en datos previos). Incertidumbre por el hecho de que cualquier observación futura es aleatoria en sí misma (aún si conociéramos el verdadero valor del parámetro, no podríamos predecir el valor de una observación futura con certeza).

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

35 / 45

Distribución predictiva

Dentro del enfoque clásico de la Estadística, es común ajustar el modelo con base en ˆ y entonces hacer predicciones los datos previos (obteniendo un estimador puntual θ), ˆ como si éste fuera el modelo correcto. con base en el modelo p(x|θ)

De esta manera, se ignora completamente la primera fuente de incertidumbre, lo que produce predicciones que aparentan ser más precisas de lo que realmente son.

En contraste, el enfoque bayesiano toma en cuenta las dos fuentes de incertidumbre de una manera natural.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

36 / 45

Distribución predictiva Supongamos que tenemos una muestra observada x = (x1 , . . . , xn )0 de p(x|θ) y que se desea hacer inferencias acerca del valor futuro de Y = Xn+1 . Dada una distribución inicial p(θ), el Teorema de Bayes produce la distribución final p(θ|x). Siguiendo la “única receta de la inferencia bayesiana”, debemos entonces encontrar la distribución condicional de Y dado el valor observado x. Dicha distribución está dada por Z p(y |x)

p(y |θ, x)p(θ|x) dθ

= Z = =

p(y |θ)p(θ|x) dθ Ep(θ|x ) [p(y |θ)]

y se conoce como la distribución predictiva (final).

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

37 / 45

Distribución predictiva Ejemplo 1. Distribución binomial (continuación) Supongamos que estamos interesados en probar la hipótesis H0 : 0.6 < θ. Entonces, usando la distribución inicial informativa, la probabilidad Pr(0.6 < θ|x) = 0.315 puede usarse para determinar que los datos no apoyan esta hipótesis nula. Por otra parte, supongamos que estamos considerando detener el estudio si al menos 25 de 40 nuevos individuos tratados presentan efectos adversos. ¿Cuál es la probabilidad de que detengamos el estudio? Distribución predictiva: supongamos que deseamos observar n∗ ensayos (adicionales) y que nos interesa predecir el número de éxitos, X ∗ , en esos n∗ ensayos. La distribución predictiva (inicial) es Binomial-Beta: ! n∗ Γ(a + b) Γ(x ∗ + a)Γ(n∗ − x ∗ + b) ∗ p(x ) = . x ∗ Γ(a)Γ(b) Γ(n∗ + a + b)

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

38 / 45

Distribución predictiva

La correspondiente distribución predictiva final, se obtiene de la expresión anterior al reemplazar a a por x + a y a b por n − x + b: ! n∗ Γ(n + a + b)Γ(x ∗ + x + a)Γ(n∗ − x ∗ + n − x + b) ∗ p(x |x) = . Γ(x + a)Γ(n − x + b)Γ(n∗ + n + a + b) x∗

La distribución predictiva final tiene media E(X ∗ |x) = 22.5 y desviación estándar sd(X ∗ |x) = 4.3 y es tal que Pr(25 ≤ X ∗ |x) = 0.329.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

39 / 45

Distribución predictiva Ejemplo 2. Distribución normal (continuación) Si X1 , . . . , Xn ∼ N(θ, τ −1 ) (τ conocida) y p(θ) = N(θ|b, c −1 ), entonces   cb + nτ x¯ 1 p(θ|x) = N θ , . c + nτ c + nτ Puede demostrarse fácilmente que en este caso   cb + nτ x¯ 1 1 p(y |x) = N y , + . c + nτ τ c + nτ Escrito en términos de la varianza σ 2 = 1/τ , y haciendo c → 0, tenemos que    1 p(y |x) = N y x¯ , σ 2 1 + . n

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

40 / 45

Intercambiabilidad

Existe otro enfoque que permite justificar la maquinaria bayesiana. Dicho enfoque hace énfasis en las variables observables y en la noción de que un modelo no es más que un artificio probabilístico para hacer predicciones acerca de tales variables. Un concepto clave en esta discusión es el de intercambiabilidad, el cual permite, desde una perspectiva subjetivista, justificar el uso (así como clarificar la interpretación) de algunos conceptos estadísticos comunes tales como parámetro, muestra aleatoria, verosimilitud y distribución inicial.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

41 / 45

Intercambiabilidad

Definición. Las variables aleatorias X1 , . . . , Xn son (finitamente) intercambiables bajo una medida de probabilidad P si la distribución inducida por P satisface p(x1 , . . . , xn ) = p(xπ(1) , . . . , xπ(n) ) para toda permutación π definida sobre el conjunto {1, 2, . . . , n}.

En otras palabras, las “etiquetas” que identifican a cada una de las variables no proporcionan información alguna. Es claro que si las variables aleatorias X1 , . . . , Xn son independientes e idénticamente distribuidas entonces son intercambiables. Sin embargo, las variables pueden ser intercambiables a pesar de no ser independientes.

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

42 / 45

Intercambiabilidad

Teorema. Si X1 , X2 , . . . es una sucesión infinita de variables aleatorias definidas sobre {0, 1} e intercambiables con respecto a la medida de probabilidad P, entonces existe una función de distribución Q tal que la función de probabilidad p(x1 , . . . , xn ) tiene la forma ) Z 1 (Y n xi 1−xi p(x1 , . . . , xn ) = θ (1 − θ) dQ(θ), 0

i=1

donde Q(θ) = limn→∞ Pr(Yn /n ≤ θ), con Yn = X1 + · · · + Xn , y θ = limn→∞ Yn /n (c. s.).

E. Gutiérrez Peña (UNAM)

Estadística Bayesiana

3TAMEB

43 / 45

Intercambiabilidad

Teorema. Si X1 , X2 , . . . es una sucesión infinita de variables aleatorias definidas sobre < e intercambiables con respecto a la medida de probabilidad P, entonces existe una función de distribución Q definida sobre F (el espacio de todas las distribuciones sobre