ESTADISTICA BAYESIANA

ESTADÍSTICA BAYESIANA Notas Índice 1. INTRODUCCIÓN .....................................................................

Views 57 Downloads 6 File size 528KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

ESTADÍSTICA BAYESIANA Notas Índice 1. INTRODUCCIÓN .............................................................................................................1 2. ESTADÍSTICA BAYESIANA ............................................................................................2 3. ¿QUÉ ES LA INFERENCIA BAYESIANA?......................................................................3 4. CONCEPTOS BAYESIANOS BÁSICOS .........................................................................5 4.1. Teorema de Bayes ..................................................................................................................................... 5 4.2. Naturaleza secuencial del teorema de Bayes ............................................................................................ 7 4.3. Distribución a priori difusa o no informativa ............................................................................................... 7 4.4. Distribución a priori conjugada ................................................................................................................. 10

5. INFERENCIA BAYESIANA............................................................................................12 5.1. Estimación puntual ................................................................................................................................... 12 5.2. Intervalos de credibilidad o regiones veraces .......................................................................................... 16 5.3. Prueba de hipótesis para una muestra .................................................................................................... 17 5.4. Prueba de hipótesis para dos muestras................................................................................................... 18

6. CONCLUSIONES ..........................................................................................................20 7. BIBLIOGRAFÍA..............................................................................................................20

1. Introducción Como anunciaba Lindley en el primer Congreso Internacional de Estadística Bayesiana, falta menos para el 2021 año en el que el adjetivo bayesiano para la estadística sería superfluo al ser bayesianas todas las aproximaciones a la estadística. El objetivo de la estadística, y en particular de la estadística Bayesiana, es proporcionar una metodología para analizar adecuadamente la información con la que se cuenta (análisis de datos) y decidir de manera razonable sobre la mejor forma de actuar (teoría de decisión).

Toma de decisiones

Población

Inferencia

Muestreo

Muestra

Análisis de datos

Figura 1. Diagrama de la Estadística Tipos de inferencia: clásica y bayesiana •

La toma de decisiones es un aspecto primordial en la vida de un profesional, por ejemplo, un médico debe de tomar decisiones.



La metodología estadística clásica se puede ver como un conjunto de recetas que resultan apropiadas en determinados casos y bajo ciertas condiciones.



Sin embargo, existe una metodología unificada y general que se deriva de analizar el proceso lógico que debe de seguirse para tomar una decisión (teoría de la decisión), y que incluye como caso particular al conjunto de recetas clásicas.



La estadística esta basada en la teoría de probabilidades. Formalmente la probabilidad es una función que cumple con ciertas condiciones, pero en general puede entenderse como una medida o cuantificación de la incertidumbre.



Aunque la definición de función de probabilidad es una, existen varias interpretaciones de la probabilidad: (a) clásica: Supone que el experimento aleatorio produce resultados igualmente verosímiles (posibles) y propone como medida de probabilidad el cociente entre los casos favorables y los casos totales,

Pr ( A ) =

nA n

(b) frecuentista: Supone que un experimento aleatorio puede ser repetido un número infinito de veces bajo condiciones similares y propone como medida de probabilidad la proporción de veces que ocurrió el evento de interés,

Pr ( A ) =

n

lim ∞

nA n

(c) subjetiva: Es simplemente una medida de la incertidumbre, asociada a un evento, asignada por un decisor. En otras palabras, es un juicio personal sobre la verosimilitud de que ocurra un resultado.

Pr ( A ) = •

La metodología bayesiana está basada en la interpretación subjetiva de la probabilidad y tiene como punto central el Teorema de Bayes.

Figura 2. Retrato del Reverendo Thomas Bayes (1702-1761)

2. Estadística bayesiana El interés por el teorema de Bayes trasciende la aplicación clásica, especialmente cuando se amplía a otro contexto en el que la probabilidad no se entiende exclusivamente como la frecuencia relativa de un suceso a largo plazo, sino como el grado de convicción personal acerca de que el suceso ocurra o pueda ocurrir (definición subjetiva de la probabilidad). Afirmaciones del tipo "es muy probable que el partido X gane las próximas elecciones", "es improbable que Juan haya sido quien llamó por teléfono" o "es probable que se encuentre un tratamiento eficaz para el sida en los próximos cinco años", normales en el lenguaje común, no pueden cuantificarse formalmente; resultan ajenas, por tanto, a una metodología que se desenvuelva en un marco frecuentista. Una cuantificación sobre base subjetiva resulta, sin embargo, familiar y fecunda para el enfoque bayesiano. Al admitir un manejo subjetivo de la probabilidad, el analista bayesiano podrá emitir juicios de probabilidad sobre una hipótesis H y expresar por esa vía su grado de convicción al respecto, tanto antes como después de haber observado los datos. En su versión más elemental y en este contexto, el teorema de Bayes asume la forma siguiente:

Pr ( H | datos ) =

Pr ( datos | H ) Pr ( H ) Pr ( datos ) 2

La probabilidad a priori de una hipótesis, Pr ( H ) , se ve transformada en una probabilidad a posteriori,

Pr ( H | datos ) , una vez incorporada la evidencia que aportan los datos. El caso considerado se circunscribe a la situación más simple, aquella en que Pr ( H ) representa un número único; sin embargo, si se consiguiera expresar la convicción inicial (y la incertidumbre) mediante una distribución de probabilidades. Entonces una vez observados los datos, el teorema "devuelve" una nueva distribución, que no es otra cosa que la percepción probabilística original actualizada por los datos. Esta manera de razonar de la inferencia bayesiana, radicalmente diferente a la inferencia clásica o frecuentista (que desdeña en lo formal toda información previa de la realidad que examina), es sin embargo muy cercana al modo de proceder cotidiano, e inductivo. Debe subrayarse que esta metodología, a diferencia del enfoque frecuentista, no tiene como finalidad producir una conclusión dicotómica (significación o no significación, rechazo o aceptación, etc.) sino que cualquier información empírica, combinada con el conocimiento que ya se tenga del problema que se estudia, "actualiza" dicho conocimiento, y la trascendencia de dicha visión actualizada no depende de una regla mecánica. Los métodos bayesianos han sido cuestionados argumentando que, al incorporar las creencias o expectativas personales del investigador, pueden ser caldo de cultivo para cualquier arbitrariedad o manipulación. Se podría argüir, por una parte, que el enfoque frecuentista no está exento de decisiones subjetivas (nivel de significación, usar una o dos colas, importancia que se concede a las diferencias, etc.); de hecho, la subjetividad (algo bien diferente de la arbitrariedad o el capricho) es un fenómeno inevitable, especialmente en un marco de incertidumbre como en el que operan las ciencias biológicas y sociales. Por otra parte, las "manipulaciones" son actos de deshonestidad, que pueden producirse en cualquier caso (incluyendo la posibilidad de que se inventen datos) y que no dependen de la metodología empleada sino de la honradez de los investigadores. Aunque las bases de la estadística bayesiana datan de hace más de dos siglos, no es hasta fechas recientes cuando empieza a asistirse a un uso creciente de este enfoque en el ámbito de la investigación. Una de las razones que explican esta realidad y que a la vez anuncian un impetuoso desarrollo futuro es la absoluta necesidad de cálculo computarizado para la resolución de algunos problemas de mediana complejidad. Hoy ya existe software disponible (BUGS, macros para MINITAB, próxima versión de EPIDAT y First Bayes, entre otros) que hace posible operar con estas técnicas y augura el "advenimiento de una era Bayesiana". El proceso intelectual asociado a la inferencia bayesiana es mucho más coherente con el pensamiento usual del científico que el que ofrece el paradigma frecuentista. Los procedimientos bayesianos constituyen una tecnología emergente de procesamiento y análisis de información para la que cabe esperar una presencia cada vez más intensa en el campo de la aplicación de la estadística a la investigación clínica y epidemiológica.

3. ¿Qué es la inferencia bayesiana? El marco teórico en que se aplica la inferencia bayesiana es similar a la clásica: hay un parámetro poblacional respecto al cual se desea realizar inferencias y se tiene un modelo que determina la probabilidad de observar diferentes valores de X, bajo diferentes valores de los parámetros. Sin embargo, la diferencia fundamental es que la inferencia bayesiana considera al parámetro como una variable aleatoria. Esto parecería que no tiene demasiada importancia, pero realmente si lo tiene pues conduce a una aproximación diferente para realizar el modelamiento del problema y la inferencia propiamente dicha. Algunos ejemplos que justifican lo anterior son: la verdadera proporción de artículos defectuosos que produce un proceso de manufactura puede fluctuar ligeramente pues depende de numerosos factores, la verdadera proporción de casas que se pierden por concepto de hipoteca varia dependiendo de las condiciones económicas, la demanda promedio semanal de automóviles también fluctuará como una función de varios factores incluyendo la temporada. En esencia, la inferencia bayesiana esta basada en la distribución de probabilidad del parámetro dado los datos (distribución a posteriori de probabilidad Pr

(θ y)

, en lugar de la distribución de los datos dado el

parámetro. Esta diferencia conduce a inferencias mucho más naturales, lo único que se requiere para el proceso de inferencia bayesiana es la especificación previa de una distribución a priori de probabilidad

3

Pr (θ ) , la cual representa el conocimiento acerca del parámetro antes de obtener cualquier información respecto a los datos. La noción de la distribución a priori para el parámetro es el corazón del pensamiento bayesiano. El análisis bayesiano hace uso explícito de las probabilidades para cantidades inciertas (parámetros) en inferencias basadas en análisis estadísticos de datos. El análisis bayesiano lo podemos dividir en las siguientes etapas: 1. Elección de un modelo de probabilidad completo. Elección de una distribución de probabilidad conjunta para todas las cantidades observables y no observables. El modelo debe ser consistente con el conocimiento acerca del problema fundamental y el proceso de recolección de la información; 2. Condicionamiento de los datos observados. Calcular e interpretar la distribución a posteriori apropiada que se define como la distribución de probabilidad condicional de las cantidades no observadas de interés, dados los datos observados; 3. Evaluación del ajuste del modelo y las implicancias de la distribución a posteriori resultante. ¿Es el modelo apropiado a los datos?, ¿son las conclusiones razonables?, ¿qué tan sensibles son los resultados a las suposiciones de modelamiento de la primera etapa?. Si fuese necesario, alterar o ampliar el modelo, y repetir las tres etapas mencionadas. La inferencia bayesiana se basa en el uso de una distribución de probabilidad para describir todas las cantidades desconocidas relevantes a un problema de estimación, la concreción técnica de este resultado consiste en lo siguiente: Si se dispone de una colección de variables aleatorias intercambiables

{x , x 1

2

,… , x n } es decir que su

distribución sólo depende del valor de esas variables y no del orden en que han sido observadas, entonces la distribución de probabilidad n

f ( x 1 , x 2 ,… , x n ) = donde Θ

∫ ∏ f ( x |θ ) π (θ ) dθ Θ

i

i =1

es la distribución inicial

f ( x i |θ ) es el modelo de probabilidad;

θ

es el límite de alguna función de las observaciones; y

π (θ )

es una distribución de probabilidad sobre la distribución inicial Θ .

El concepto de intercambiabilidad es más débil que el de muestra aleatoria simple. Por ejemplo, si las variables intercambiables x i toman el valor 0 ó 1, el teorema de representación toma la forma

f ( x 1 , x 2 ,… , x n ) =

n

∫ ∏θ (1− θ ) Θ

xi

1− x i

π (θ ) dθ

i =1

n

donde:

θ = n lim ∞

∑x i =1

i

n

Es importante notar que lo que quiere decir el anterior resultado es que siempre que se tenga una colección de variables intercambiables, y en una muestra aleatoria sencilla lo son, existe una distribución inicial sobre el parámetro θ . Además, el valor del parámetro puede obtenerse como límite de las frecuencias relativas. La aproximación bayesiana implica entonces, que la información muestral y la distribución inicial se actualizan mediante el teorema de Bayes para dar lugar a la distribución final.

π (θ | x1 , x 2 ,… , x n ) =

π (θ ) f ( x1 , x 2 ,… , x n |θ )

∫ π (θ ) f ( x Θ

1

, x 2 ,… , x n |θ ) dθ

Ahora todas las inferencias, la estimación por punto, la estimación por regiones veraces y los contrastes de hipótesis, se realizan mediante la distribución final.

4

4. Conceptos bayesianos básicos 4.1. Teorema de Bayes

{

}

Sea Y = y 1 , y 2 ,… , y n ' un vector de n observaciones cuya distribución de probabilidad Pr ( y |θ ) depende de k parámetros involucrados en el vector θ =



1

,θ 2 ,… ,θ n } ' . Supóngase también que q tiene

una distribución de probabilidades Pr (θ ) . Entonces, la distribución de conjunta de θ e Y es:

Pr ( y |θ ) = Pr ( y |θ ) Pr (θ ) = Pr (θ | y ) Pr ( y ) de donde la distribución de probabilidad condicional de θ dado el vector de observaciones Y resulta:

Pr (θ | y ) =

Pr ( y |θ ) Pr (θ ) Pr ( y )

con Pr ( y ) ≠ 0 A esta ecuación se lo conoce como el teorema de Bayes, donde Pr ( y ) es la distribución de probabilidad marginal de Y y puede ser expresada como:

 Pr ( y |θ ) Pr (θ ) dθ Pr ( y ) =  ∫  ∑ Pr ( y |θ ) Pr (θ )

si θ es continuo si θ es discreto

donde la suma o integral es tomada sobre el espacio paramétrico de θ . De este modo, el teorema de Bayes puede ser escrito como:

Pr (θ | y ) = c Pr ( y |θ ) Pr (θ ) ≈ Pr ( y |θ ) Pr (θ ) donde: Pr (θ )

[1]

representa lo que es conocido de θ antes de recolectar los datos y es llamada la distribución a priori de

θ;

Pr (θ | y ) representa lo que se conoce de θ después de recolectar los datos y es llamada la distribución posterior de θ dado Y ;

c

es una constante normalizadora necesaria para que Pr (θ | y ) sume o integre uno.

Dado que el vector de datos Y es conocido a través de la muestra, Pr ( Y | θ ) es una función de θ y no de

Y . En este caso a Pr ( Y | θ ) se le denomina función de verosimilitud de θ dado Y y se le denota por l ( θ | Y ) . Entonces la formula de Bayes puede ser expresada como:

Pr ( θ|y ) ≈ l ( θ|y ) Pr ( θ ) Ejemplo. Sea el parámetro θ que a priori tiene una distribución uniforme en el intervalo [0,1] y la variable aleatoria Y que tiene una distribución de probabilidades binomial con parámetros m y θ , m conocido por conveniencia. Entonces se tienen las siguientes funciones de distribución:

Pr (θ )

0 ≤ θ ≤1

= 1

m m− y Pr ( y |θ ) =   θ y (1 − θ ) y = 0,1,… , m  y Ahora, para una muestra aleatoria de tamaño n la función de verosimilitud estará dada por:

 n  m  nm− y y l (θ | y ) = ∏    θ ∑ i (1 − θ ) ∑ i y  i =1  i   5

y i = 0,1,… , m

∀i

y aplicar el teorema de Bayes dado en [1], la distribución a posteriori de expresada como:

Pr (θ | y ) = c

n ( m !) n

n

∏ y !∏ ( m − y )! i

i =1

θ∑

yi

(1 − θ )

θ

mn−

dada la muestra y queda

∑ yi

i

i =1

Esta expresión puede escribirse de la siguiente manera:

Pr (θ | y ) = c

n ( m !) n

n

∏ y ! ∏ ( m − y )! i =1

i

θ (∑

)

y i + 1 −1

(1 − θ ) (

nm−

∑ y i +1) −1

i

i =1

 

 

 

 

que tiene la forma de una distribución beta con parámetros  ∑ y + 1 y  n m − ∑ y + 1 . i i Luego el valor adecuado de la constante normalizadora c será:

c =

Γ  ∑ y + 1 i  

(

)

∏ y !∏ m − y ! i i n ( m !) Γ  n m − ∑ y + 1 i  

Γ ( n m + 2)

Nótese que es a través de l ( θ | Y ) que los datos (información muestral) modifican el conocimiento previo de q dado por Pr (θ ) . Este proceso de revisión de las probabilidades iniciales, dada la información muestral, se ilustra en la figura 3.

Información inicial

Información nueva

Distribución a priori Pr(θ)

Teorema de Bayes

Distribución a posteriori

Función de verosimilitud

l(θ | y)

Figura 3. Por ultimo, es conveniente señalar que la información muestral Y por lo general será introducida en el modelo a través de estadísticas suficientes para θ , dado que estas contienen toda la información referente a los datos. Así, dado un conjunto de estadísticas suficientes t para los parámetros en

θ , Pr ( y |θ )

podrá

ser intercambiada por Pr ( t |θ ) , para lo cual bastara con calcular la distribución condicional de t dado θ .

6

Valoración a priori acerca de si la hipótesis es verdadera antes de ver los datos

Componente subjetivo

x

x

Factor de Bayes

Componente de los datos (evidencia)

Valoración a posteriori de que hipótesis nula sea verdadera

Probabilidad de la veracidad

Figura 4. Teorema de Bayes

4.2. Naturaleza secuencial del teorema de Bayes Supóngase que se tiene una muestra inicial y 1 . Entonces, por la fórmula de Bayes dada anteriormente se tiene:

Pr (θ | y 1 ) ∝ l (θ | y 1 ) Pr (θ )

Ahora supóngase que se tiene una segunda muestra y 2 independiente de la primera muestra, entonces:

Pr (θ | y 1 , y 2 ) ∝ l (θ | y 1 , y 2 ) Pr (θ ) = l (θ | y 1 ) l (θ | y 2 ) Pr (θ ) Pr (θ | y 1 , y 2 ) ∝ l (θ | y 2 ) Pr (θ | y 1 ) De esta manera, la distribución a posteriori obtenida con la primera muestra se convierte en la nueva distribución a priori para ser corregida por la segunda muestra. En este proceso puede repetirse indefinidamente. Así, si se tienen r muestras independientes, la distribución a posteriori puede ser recalculada secuencialmente para cada muestra de la siguiente manera:

Pr (θ | y 1 , y 2 ,… , y m ) ∝ l (θ | y m ) Pr (θ | y 1 , y 2 ,… , y m −1 )

Nótese que

(θ | y

1

para m = 2,3,… , r

, y 2 ,… , y m ) podría también ser obtenido partiendo de Pr (θ ) y considerando al total

de las r muestras como una sola gran muestra. La naturaleza secuencial del teorema de Bayes, es tratada por Bernardo como un proceso de aprendizaje en términos de probabilidades, el cual permite incorporar al análisis de un problema de decisión, la información proporcionada por los datos experimentales relacionados con los sucesos (parámetros) inciertos relevantes.

4.3. Distribución a priori difusa o no informativa La distribución a priori cumple un papel importante en el análisis bayesiano ya que mide el grado de conocimiento inicial que se tiene de los parámetros en estudio. Si bien su influencia disminuye a medida que más información muestral es disponible, el uso de una u otra distribución a priori determinara ciertas diferencias en la distribución a posteriori. Si se tiene un conocimiento previo sobre los parámetros, este se traducirá en una distribución a priori. Así, será posible plantear tantas distribuciones a priori como estados iniciales de conocimiento existan y los diferentes resultados obtenidos en la distribución a posteriori bajo cada uno de los enfoques, adquirirán una importancia en relación con la convicción que tenga el investigador sobre cada estado inicial. Sin embargo, cuando nada es conocido sobre los parámetros, la selección de una distribución a priori adecuada adquiere una connotación especial pues será necesario elegir una distribución a priori que no influya sobre ninguno de los posibles valores de los parámetros en cuestión. Estas distribuciones a priori reciben el nombre de difusas o no informativas y en esta sección se tratara algunos criterios para su selección.

7

Método de Jeffreys En situaciones generales, para un parámetro θ el método mas usado es el de Jeffreys (1961) que sugiere que, si un investigador es ignorante con respecto a un parámetro θ , entonces su opinión a cerca de θ dado las evidencias X debe ser la misma que el de una parametrización para θ o cualquier transformación uno a uno de

θ , g (θ ) , una priori invariante sería: Pr (θ ) ∝

donde I (θ )

es la matriz de información de Fisher:

I (θ ) Si θ =

(θ ,θ 1

2

 ∂ 2 Lnf ( y |θ )  = − Eθ   ∂θ 2  

,… ,θ n ) ' es un vector, entonces: Pr (θ ) ∝

donde I (θ )

I (θ )

det I (θ )

[2]

es la matriz de información de Fisher de orden p × p

El elemento ( i j ) de esta matriz es:

 ∂ 2 Lnf ( y |θ )  I i j = − E0    ∂ θ i ∂ θ j  Por transformación de variables, la densidad a priori Pr (θ ) es equivalente a la siguiente densidad a priori para

φ: Pr (φ ) = Pr (θ = h −1 (φ ) )

dθ dφ

[3]

El principio general de Jeffreys consiste en que al aplicar el método para determinar la densidad a priori

Pr (θ ) , debe obtenerse un resultado equivalente en Pr (φ ) si se aplica la transformación del parámetro

para calcular Pr (φ ) a partir de Pr (θ ) en la ecuación [3] o si se obtiene Pr (φ ) directamente a partir del método inicial. Es decir, debe cumplirse la siguiente igualdad:

I (φ ) =

I (θ )

Ejemplo. Sea la variable Y con una distribución B ( n , θ )

8

dθ dφ

n n− y = Pr ( y |θ ) =   θ y (1 − θ )  y n = log   + y log θ + ( n − y ) log (1 − θ )  y

f ( y |θ ) log f ( y |θ )

d log f ( y |θ ) dθ

y

=

d log f ( y |θ ) dθ 2

θ

2

= −

 y n− y  E − 2 +  2  θ (1 − θ )    y n− y  E − 2 +  2  θ (1 − θ )  

+

y

n− y 1−θ n− y

+

(1 − θ )  nθ E ( n − y )  −− 2 +  2  θ (1 − θ )  

=

θ

2

2

n θ (1 − θ )

=

n θ 1−θ

o

θ

Prescindiendo de n se obtiene que la distribución a priori de

Pr (θ ) ∝ esto es,

θ

es:

1−θ

θ ≈ Beta ( 0,5 , 0,5 ) .

Ejemplo. Se aplicara el método de Jeffreys para calcular una distribución conjunta a priori para los parámetros de un modelo normal. Sea y ∼ N

( µ , σ ) , ambos parámetros desconocidos. Entonces: 2

 ( y −µ)2  1 exp  −  2   σ 2 2π µ  

f ( y|µσ )

=

ln f ( y | µ σ )

( y−µ) 1 = ln − ln σ − 2σ 2 2π µ

2

y la matriz de información de Fisher estará dada por:

I (θ )

 ∂2 ln f ( y | µ , σ )  2 µ ∂ = − E0   ∂2 ln f ( y | µ , σ )  ∂σ ∂ µ

I (θ )

 1  − 2 σ = − E0   2( y − µ ) − σ3 

9

 ∂2 ln f ( y | µ , σ )  ∂ µ ∂σ   ∂2 ln f ( y | µ , σ )  2 ∂σ 

2( y − µ )

  σ  2 µ − y 3 ( )  1 −  σ2 σ4  −

3

 1 σ 2 = − E0   0 

I (θ )

 0   2  σ 2 

Ahora, según la ecuación [2], la distribución a priori no informativa para

2

Pr ( µ , σ ) ∝ Nótese que aplicando las reglas anteriores, dado que escala, las distribuciones a priori para

µ

y

σ

σ

µ

4



θ = ( µ ,σ )

será:

1

σ2

es un parámetro de posición y

serian Pr ( µ ) = 1 y Pr (σ ) = σ

−1

independencia entre ambos parámetros se tendría Pr ( µ , σ ) = Pr ( µ ) Pr (σ ) = σ

σ

un parámetro de

, por lo que si se supone

−1

en vez de

σ 2.

Jeffreys resolvió este problema estableciendo que µ y σ deberían ser tratados a priori independientemente y por separado. Así, cuando el método de Jeffreys es aplicado al modelo normal con σ fijo, resulta una a priori uniforme para µ y cuando es aplicado con µ fijo, se obtiene la a priori

Pr (σ ) = σ −1 lo cual conduce a: Pr ( µ , σ ) = σ −1 , que es lo más deseable.

4.4. Distribución a priori conjugada En este caso, la distribución a priori es determinada completamente por una función de densidad conocida. Berger presenta la siguiente definición para una familia conjugada: una clase P de distribuciones a priori es

denominada una familia conjugada para la clase de funciones de densidad F , si Pr (θ | y ) está en la clase

P para todo f ( y |θ )∈ F y Pr (θ )∈ P . En este caso, la distribución inicial dominará a la función de verosimilitud y Pr (θ | y ) tendrá la misma forma que Pr (θ ) , con los parámetros corregidos por la información muestral. Ejemplo. Sea el parámetro

θ

que a priori tiene una distribución beta con parámetros

aleatoria Y que tiene una distribución de probabilidad binomial con parámetros m y conveniencia. Entonces se tienen las siguientes funciones de distribución:

Pr (θ )

=

α y β la variable θ , m conocido por

Γ (α + β ) β −1 θ α −1 (1 − θ ) I 0,1 (θ ) Γ (α ) Γ ( β )

m m− y y = 0,1,… , m Pr ( y |θ ) =   θ y (1 − θ )  y Ahora para una muestra aleatoria de tamaño n la función de verosimilitud estará dada por:  n m m n− y y l ( y |θ ) =  ∏    θ ∑ i (1 − θ ) ∑ i  i =1  y   y al aplicar el teorema de Bayes, la distribución posterior de siguiente manera:

Pr (θ | y ) ∝ θ

α+

y = 0,1,… , m

θ

∀i

dada la muestra y queda expresada de la

∑ y i −1 (1 − θ ) β + m n − ∑ y i −1

que tiene la forma de una distribución beta con parámetros

(α + ∑ y ) i

y

β + n m ∑ yi .

Luego, la

distribución tiene la misma forma que la distribución a priori por lo que la clase de distribuciones a priori beta es una familia conjugada para la clase de funciones de densidad binomial.

10

Otro caso importante es el de la distribución normal

θ

Sea el parámetro

con una distribución N

variable X con una distribución N



0

,τ 0 ) , donde µ 0 y τ 0 son parámetros conocidos y la

(θ , σ ) donde σ 2

2

es un parámetro conocido. Entonces tenemos las

siguientes funciones de distribución:

Pr (θ )

1

=

2π τ 0

1 (θ − µ 0 ) exp − 2 τ 02

1 1 ( x −θ ) exp − 2 σ2 2π σ

Pr ( x |θ ) =

y al aplicar el teorema de Bayes, la distribución posterior de siguiente manera:

1

Pr (θ | x ) = 1 donde

µ1 =

τ

2 0

µ0 + 1

τ 1

τ

2 1

=

1

τ

2 0

+

2 0

+

1

σ2

2π τ 0

θ

2

2

dada la muestra x queda expresada de la

1 (θ − µ 1 ) exp − 2 τ 12

2

x

1

σ2

1

σ2

Luego Pr (θ | x ) ∼ N



1

,τ 12 ) de donde se pueden sacar conclusiones:

Precisiones de las distribuciones a priori y a posteriori Precisión = 1/varianza Precisión a posteriori = precisión a priori + precisión de los datos

1

τ

2 1

=

1

τ

2 0

+

1

σ2

Otro caso importante es el de la distribución normal con múltiples observaciones

{

}

Sea x1 , x 2 ,… , x n un vector de n observaciones, siendo x i observaciones idénticamente distribuidas

θ ∼ N ( µ 0 ,τ 02 ) x ∼ N (θ , σ 2 ) Entonces al aplicar el teorema de Bayes, la distribución posterior de

θ

dada la muestra x i queda

expresada de la siguiente manera:

Pr (θ | x ) ∝ Pr (θ ) Pr ( x |θ ) = Pr (θ ) Pr ( x1 |θ ) Pr ( x 2 |θ )… Pr ( x n |θ ) n

Pr (θ | x ) ∝ Pr (θ ) Pr ( x |θ ) = Pr (θ ) ∏ Pr ( x i |θ ) i =1

11

2 2     1  (θ − µ 0 )  n 1  ( x i −θ )  − Pr (θ | x ) ∝ exp − exp ∏ 2  τ 02 2 σ 2  i =1     2   2 n n 1  (θ − µ 0 ) + 2 ∑ ( x i −θ )  Pr (θ | x ) ∝ exp −  σ i =1 2  τ 02   n

Pr (θ | x ) depende únicamente de X a través de x = modelo.

(θ ,σ

Ya que, x |θ ∼ N

2

donde

µn =

τ

2 0

τ NOTA: Si valor

2 n

=

µ0 + 1

1

τ

2 0

n

i

, es decir, x es un estadístico suficiente del

Pr (θ | x1 , x 2 ,… , x n ) = Pr (θ | x ) ∼ N (θ | µ n ,τ n2 )

τ 1

i =1

| n ) y considerando a x como una simple observación, se aplican los resultados

anteriores, luego:

1

∑x

2 0

+

τ 02 = σ 2

+

n

σ2

x

n

σ2

n

σ2 entonces la distribución a priori tiene el mismo peso como una observación extra con el

µ 0 . Es decir, si τ 0 → ∞

con n fijo, o conforme n → ∞ con

τ 02

fijo, entonces:

 σ2 Pr (θ | x ) ∼ N  θ | x ,  n  

5. Inferencia bayesiana Dado que la distribución posterior, contiene toda la información concerniente al parámetro de interés θ (información a priori y muestral), cualquier inferencia con respecto a θ consistirá en afirmaciones hechas a partir de dicha distribución.

5.1. Estimación puntual La distribución posterior reemplaza la función de verosimilitud como una expresión que incorpora toda la información. Π (θ | y ) es un resumen completo de la información acerca del parámetro

θ.

Sin embargo,

para algunas aplicaciones es deseable (o necesario) resumir esta información en alguna forma. Especialmente, si se desea proporcionar un simple “mejor” estimado del parámetro desconocido. (Nótese la distinción con la estadística clásica en que los estimados puntuales de los parámetros son la consecuencia natural de una inferencia). Por lo tanto, en el contexto bayesiano, ¿cómo se puede reducir la información en una Pr (θ | y ) a un simple “mejor” estimado?, ¿qué se debe entender por “mejor”? Existen dos formas de enfrentar el problema: (a) Estimador de Bayes posterior (b) Aproximación de teoría de decisión

12

Estimador de Bayes posterior El estimador de Bayes posterior se define de la siguiente manera: Sean

{x , x 1

2

,… , x n } una muestra aleatoria de f ( x |θ ) , donde θ es un valor de la variable aleatoria θ

con función de densidad g θ ( i ) . El estimador de Bayes posterior de es definida como E Ejemplo. Sean

(τ (θ ) | x , x 1

{x , x 1

2

2

τ (θ )

,… , x n ) .

con respecto a la priori g θ ( i )

,… , x n } una muestra aleatoria de f ( x |θ ) = θ x (1 − θ )

1− x

para

x = 1, 0 y

g θ (θ ) = I ( 0,1) (θ ) . ¿Cuáles son los estimadores de θ y θ (1 − θ ) ? n

g θ (θ ) ∏ f ( x i |θ )

f (θ | x1 , x 2 ,… , x n ) =

i =1

1

n

0

i =1

∫ g θ (θ ) ∏ f ( x |θ ) dθ θ∑

f (θ | x1 , x 2 ,… , x n ) =

xi

1

(1 − θ )

i

n−

∑ x i I (θ ) ( 0,1)

∫θ

∑ x i (1 − θ )n − ∑ x i dθ

∫θ θ

∑ x i (1 − θ )n − ∑ x i dθ

0

1

E (θ | x1 , x 2 ,… , x n ) =

0

1

∫θ

∑ x i (1 − θ )n − ∑ x i dθ

0

E (θ | x1 , x 2 ,… , x n )

n  n  B  ∑ x i + 2 , n − ∑ x i + 1 i =1 i =1  =  n n   B  ∑ x i + 1 , n − ∑ x i + 1 i =1  i =1  n

∑x

E (θ | x1 , x 2 ,… , x n ) =

i =1

θ,

+1

2 n

Luego el estimador a posteriori de Bayes de

i

∑x i =1

i

+1 es un estimador sesgado. El estimador máximo

n+2

n

verosímil de

θ,

∑x i =1

n

i

es un estimador insesgado. 1

E (θ (1 − θ ) | x1 , x 2 ,… , x n ) =

∫ θ (1 −θ )θ

∑ x i (1 − θ )n − ∑ x i dθ

0

1

∫θ 0

13

∑ x i (1 − θ )n − ∑ x i dθ

E (θ (1 − θ ) | x1 , x 2 ,… , x n )

n  n    Γ  ∑ xi + 2  Γ  n − ∑ xi + 2  i =1 i =1    = =  Γ ( n + 4)

E (θ (1 − θ ) | x1 , x 2 ,… , x n ) estimador de

θ (1 − θ )

Γ ( n + 2)  n   Γ  ∑ x i + 1 Γ  n −  i =1  

n

∑x i =1

i

 + 1 

n  n    ∑ x i + 1  n − ∑ x i + 1 i =1 i =1   =  ( n + 3) ( n + 2 )

con respecto a la a priori uniforme.

Aproximacion a la teoría de la decisión Para los bayesianos, el problema de estimación es un problema de decisión. Asociada con cada estimador a hay una pérdida L (θ , a ) que refleja la diferencia entre

θ

y a.

Se especifica una función de perdida L (θ , a ) que cuantifica las posibles penalidades en estimar

θ

por a .

Hay muchas funciones pérdida que se pueden usar. La elección en particular de una de ellas dependerá de contexto del problema. Las más usadas son: 1. Pérdida cuadrática:

L (θ , a ) = (θ − a ) ; 2

2. Pérdida error absoluto o lineal absoluta:

L (θ , a ) = θ − a ; 3. Pérdida 0,1:

a −θ ≤ ∈ a −θ > ∈

0 L (θ , a ) =  si 1

4. Pérdida lineal: para g , h > 0 :

a >θ  g ( a − θ ) L (θ , a ) =  si a