Teoria de Decision e Inferencia Bayesiana

“An´ alisis de Decisi´ on, Inferencia y Predicci´ on Estad´ıstica Bayesiana” Por Luis Ra´ul Pericchi Guerra Complementos

Views 62 Downloads 2 File size 801KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

  • Author / Uploaded
  • Ru Lo
Citation preview

“An´ alisis de Decisi´ on, Inferencia y Predicci´ on Estad´ıstica Bayesiana” Por Luis Ra´ul Pericchi Guerra Complementos: Ana Judith Mata

2

An´ alisis de Decisi´ on, Inferencia y y Predicci´ on Estad´ıstica Bayesiana

Luis Ra´ ul Pericchi Guerra Centro de Estad´ıstica y Software Matem´atico (CESMa) y Dpto. de C´omputo Cient´ıfico y Estad´ıstica Universidad Sim´on Bol´ıvar Caracas, Venezuela

Complementos: Ana Judith Mata Universidad Sim´on Bol´ıvar

AGRADECIMIENTOS Este libro tiene como antecedente sucesivas monograf´ıas, las cuales fueron textos de cursos que dict´e en los siguientes eventos cient´ıficos: • II Escuela Venezolana de Matem´aticas, en la Universidad de Los Andes, M´erida, Septiembre 1989. • IV Congreso Latinoamericano de Probabilidad y Estad´ıstica Matem´atica, CLAPEM, en Ciudad de M´exico, M´exico, Septiembre 1990. • Curso-Seminario de las Am´ericas en Estad´ıstica Bayesiana y Econometr´ıa, en la Universidad Sim´on Bol´ıvar, Caracas, Venezuela, Diciembre 1992. Agradezco a los respectivos Comit´es organizadores de dichos congresos sus invitaciones. Menci´on especial merece Francisco Aranda-Ordaz, miembro fundamental del Comit´e organizador del IV CLAPEM, con quien compart´ı trabajo y juerga. Francisco muri´o, demasiado pronto y por error, tr´agica y absurdamente, pero en medio de su familia y su pa´ıs, pocos meses depu´es de finalizar el IV CLAPEM en Ciudad de M´exico. Ello ha sido una p´erdida irreparable para el avance de la Ciencia y la pr´actica de la Estad´ıstica en Latinoam´erica, y para sus amigos. La presente versi´on es una dr´astica revisi´on de las monograf´ıas anteriores. Le debo al Profesor Victor P´erez-Abreu, Presidente de la Sociedad Bernoulli Latinoamericana, y al Profesor Victor Yohai, Presidente del Comit´e de Publicaciones de dicha Sociedad, el est´ımulo para realizar esta revisi´on. Durante los a˜ nos en los que este proyecto en los que este proyecto se ha ido realizado mi grupo de trabajo, en la Universidad Sim´on Bol´ıvar, ha crecido y se ha desarrollado. Comenz´o por el Taller de Estad´ıstica, TAE como grupo de trabajo dentro del Departamento de Matem´aticas Puras y Aplicadas. Se ha convertido en el Centro de Estad´ıstica y

4 Software Matem´atico, CESMa, con miembros de tres departamentos de la USB, principalmente del Departamento de C´omputo Cient´ıfico y Estad´ıstica, creado en 1996. A mis compa˜ neros del CESMa les debo su paciencia, apoyo y cordialidad. Especialmente deseo mencionar a los profesores: Marialena Lentini, Isabel Llatas, Bruno Sans´o, Mar´ıa Egle´e P´erez, Lelys Bravo, Jos´e Miguel P´erez, Raquel Prado, Jos´e Luis Palacios y Ra´ ul Jim´enez. No puedo dejar de mencionar varios cienct´ıficos de categor´ıa internacional como Ignacio Rodriguez-Iturbe, Anthony Atkinson, Carlos Alberto de Braganza Pereira, Adrian Smith, Phil Browm, William Nazaret, Peter Walley, El´ıas Moreno y Jim Berger, que a lo largo de estos a˜ nos me han ofrecido su colaboraci´on, sabidur´ıa y amistad. Finalmente, le hago un reconocimiento muy especial a la Licenciada Ana Judith Mata. M´as que una ayudante ha sido una colaboradora y este libro le debe mucho de lo bueno que pueda tener (el resto es obra m´ıa). Si no hubiera sido por su incansable insistencia y persecuci´on, adem´as de sus destrezas estad´ısticas y computacionales, este libro no habr´ıa sido terminado.

PREFACIO Este libro presenta las ideas b´asicas y algunos desarrollos recientes de la Teor´ıa y An´alisis de Decisi´on y de la Inferencia Bayesiana. Ambas teor´ıas est´an profundamente relacionadas, como se ver´a a lo largo del desarrollo. El libro comienza presentando el enfoque cl´asico a la Teor´ıa de Decisi´on, de inspiraci´on frecuentista, basada en la funci´on de riesgo muestral. La funci´on de riesgo por s´ı sola no es capaz de seleccionar la decisi´on ´optima aunque s´ı de desechar una buena parte de ellas, las decisiones llamadas ”inadmisibles”. Se presentan tres enfoques alternativos para ser acoplados a la funci´on de riesgo y de esta manera encontrar un curso de acci´on. Estos enfoques son: i)La restricci´on del espacio de decisiones, ii)Minimax y iii)Bayes. Le damos m´as ´enfasis a los u ´ ltimos, los llamados criterios globales. Se concluye luego de compararlos, que es el enfoque Bayesiano el m´as satisfactorio y racional, a´ un cuando requiere de una buena dosis de actitud cr´ıtica y de an´alisis de sensitividad respecto a los supuestos. En el curso de la presentaci´on, se presenta tambi´en un argumento Bayesiano m´as directo: el enfoque condicional al dato observado basado en la minimizaci´on de la p´erdida posterior esperada. Este enfoque no utiliza la funci´on de riesgo frecuentista. Al final las decisiones ´optimas Bayesianas van a ser las mismas sin importar qu´e v´ıa se siga, pero esta u ´ ltima resulta en una simplificaci´on substancial. La discusi´on general se lleva los dos primeros cap´ıtulos, siendo el segundo el m´as complejo matem´aticamente. El resto del libro se dedica enteramente al enfoque Bayesiano. En el cap´ıtulo 3 se presenta otra manera de llegar al principio Bayesiano: La Teor´ıa de la Utilidad, que es una axiomatizaci´on de la decisi´on estad´ıstica. Tambi´en en este cap´ıtulo se muestra que Bayes obedece a los principios b´asicos: Principio de la verosimilitud y el de la precisi´on final. Los problemas de inferencia estad´ıstica pueden ser presentados como problemas de decisi´on. Esto se hace en los u ´ ltimos cap´ıtulos, donde

6 se intenta una introducci´on a la inferencia Bayesiana actual, tratando temas como: modelos jer´arquicos, modelos lineales din´amicos, m´etodos de simulaci´on para el c´aculo de densidades posteriores y aproximaciones, m´etodos Bayesianos robustos y m´etodos no subjetivos para la selecci´on de modelos y test de hip´otesis. Este libro puede ser u ´ til a diferentes niveles, tanto como un curso avanzado de pregrado como de postgrado. La formaci´on requerida es la de c´aculo b´asico e intermedio, as´ı como al menos un curso b´asico de probabilidades y estad´ıstica. Por ello puede ser presentado a estudiantes de matem´aticas, estad´ıstica, ciencias actuariales, ingenier´ıa, econom´ıa y ´areas afines. Tambi´en puede ser estudiado con diferentes ´enfasis. Un curso m´as centrado en la Teor´ıa de la Decisi´on se concentrar´a en el cap´ıtulo 2. Mientras un curso interesado en la inferencia Bayesiana, enfatizar´a los u ´ ltimos cap´ıtulos. Espero que esta presentaci´on de la Teor´ıa de Decisi´on y en particular de la inferencia Bayesiana, que es, desde mi punto de vista, uno de los enfoques de desarrollos tanto te´oricos como aplicados, m´as espectaculares en tiempos recientes, sea de utilidad para las Ediciones de la Sociedad Bernoulli Latioamericana.

Luis Ra´ ul Pericchi Guerra Centro de Estad´ıstica y Software Matem´atico (CESMa) Universidad Sim´on Bol´ıvar Caracas, Enero 1998.

Contenido 1 Elementos del Problema de Decisi´ on Estad´ıstica 9 1.1 Elementos de un Problema de decisi´on Estad´ıstica . . . . 9 1.2 El Problema de Decisi´on como un Juego entre el TD y la Naturaleza . . . . . . . . . . . . . . . . . . . . . . . . 12 2 Teor´ıa Cl´ asica de Decisi´ on 2.1 Introducci´on. . . . . . . . . . . . . . . . . 2.2 Conceptos B´asicos de la Teor´ıa de Decisi´on 2.3 Decisiones Optimas . . . . . . . . . . . . . 2.4 Representaci´on Geom´etrica de las Reglas Minimax para Θ finito. . . . . . . . . . . . 2.5 Admisibilidad y Reglas de Bayes . . . . . . 2.6 Admisibilidad y Reglas Minimax∗ . . . . . 2.7 Ejercicios . . . . . . . . . . . . . . . . . .

17 . . . . . . . . 18 Cl´asica . . . 18 . . . . . . . . 27 de Bayes y . . . . . . . . 46 . . . . . . . . 51 . . . . . . . . 58 . . . . . . . . 66

3 Fundamentos de la Teor´ıa Bayesiana de Decisi´ on 3.1 Breve introducci´on a la Teor´ıa de Utilidad . . . . . . . 3.1.1 M´etodos de construcci´on de la funci´on de utilidad U . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 El Principio de la Verosimilitud . . . . . . . . . . . . . 3.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . .

71 . 72 . 74 . 82 . 86

4 An´ alisis Bayesiano 89 4.1 Test de Hip´otesis . . . . . . . . . . . . . . . . . . . . . . 89 4.2 Operaciones con la Distribuci´on a Posteriori y sus propiedades 98 4.2.1 Intervalos de Credibilidad (Probabilidad) . . . . . 98 4.2.2 Densidades Marginales y Par´ametros de Molestia 99 7

8

CONTENIDO

4.3

4.4

4.5

4.6

4.2.3 Inferencia Predictiva . . . . . . . . . . . . . . . . 101 4.2.4 Normalidad Asint´otica de la Densidad Posterior . 104 Aplicaciones al Dise˜ no Experimental y al An´alisis Secuencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.3.1 Tama˜ no de la Muestra Optimo . . . . . . . . . . 106 4.3.2 An´alisis Secuencial . . . . . . . . . . . . . . . . . 108 La Familia Exponencial. Extensi´on del Principio Bayesiano109 4.4.1 Densidad a priori No-Conjugada. Influencia acotada y no acotada . . . . . . . . . . . . . . . . . . 115 C´alculos y Aproximaciones Bayesianas . . . . . . . . . . 115 4.5.1 Aproximaciones de Laplace . . . . . . . . . . . . 116 4.5.2 Integraci´on de Monte Carlo . . . . . . . . . . . . 117 4.5.3 Simulaci´on de la densidad posterior . . . . . . . . 118 4.5.4 M´etodos Monte Carlo de Cadenas de Markov (MCMC)118 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 120

5 An´ alisis Bayesiano del Modelo Lineal 5.1 Previas “No-Informativas” . . . . . . . . . . . . . 5.2 An´alisis “No-Informativo” del Modelo Lineal . . . 5.3 Modelo Lineal Jer´arquico . . . . . . . . . . . . . . 5.3.1 Modelo Lineal Normal Jer´arquico (MLNJ) 5.4 El Modelo Lineal Din´amico . . . . . . . . . . . . 5.4.1 El Modelo constante . . . . . . . . . . . . 5.4.2 Caso Varianza desconocida . . . . . . . . . 5.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

6 Selecci´ on de Modelos y Test de Hip´ otesis Bayesianos 6.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . 6.2 El Factor de Bayes Intr´ınseco . . . . . . . . . . . . . . 6.3 El IBF Esperado . . . . . . . . . . . . . . . . . . . . . 6.4 Previas Intr´ınsecas . . . . . . . . . . . . . . . . . . . . 6.5 El IBF para el Modelo Lineal Normal . . . . . . . . . A Distribuciones de probabilidades

. . . . . . . .

123 124 126 128 130 138 140 144 145

147 . 147 . 152 . 157 . 159 . 163 169

Cap´ıtulo 1 Elementos del Problema de Decisi´ on Estad´ıstica Enfrentaremos el siguiente problema : suponemos que un “Tomador de decisiones” (TD) se propone tomar una decisi´on racional bajo condiciones de incertidumbre estad´ıstica. Es decir, el “estado de la naturaleza” no le es conocido exactamente, pero puede adquirir informaci´on sobre ´el a partir de un experimento. Adem´as, el TD tiene valores, o sea si supiera la condici´on exacta de la naturaleza ser´ıa capaz de ordenar sus posibles decisiones en t´erminos de sus preferencias.

1.1

Elementos de un Problema de decisi´ on Estad´ıstica

Los elementos de un problema de Decisi´on Estad´ıstica a ser especificados por el TD para cada problema son los siguientes : 1. Espacio de posibles acciones : A = {a} 2. Espacio de estados posibles de la naturaleza o espacio de par´ ametros: Θ = {θ}. 3. Familia de experimentos para adquirir informaci´ on experimental (o muestral) sobre Θ : E = {e}. 9

10

´ ESTAD´ıSTICA CAP´ıTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION

4. Espacio muestral, o sea, el espacio de posibles observaciones experimentales : X = {x}. Ejemplo 1.1 (Control de Calidad). Le env´ıan del exterior a una compa˜ n´ıa un lote de 10000 transistores. La compa˜ n´ıa designa a un TD el cual tiene el espacio de acciones : A = {a1 , a2 }, donde a1 es aceptarlo y pagar el precio fijado, y a2 rechazarlo y pagar el flete de vuelta, Θ = {θ0 , θ1 , . . . , θ10000 } donde el estado de la naturaleza θj = {j transistores defectuosos}. El TD puede inspeccionar un n´ umero n a su antojo de transistores, y al hacerlo el proceso de inspecci´on los destruye. Entonces el espacio de experimentos es : E = {e0 , . . . , e10000 } donde en = {n transistores son inspeccionados}. El espacio muestral para el experimento en viene dado por : X = {(j, n) : 0 ≤ j ≤ n ≤ 10000}, donde (j, n) es la observaci´on: j transistores de los n inspeccionados son defectuosos.3 5. Funci´ on de utilidad (p´ erdida) : El TD escoge una funci´on : u(e, x, a, θ) : E × X × A × Θ → R. El TD le asigna una utilidad u(e, x, a, θ) a realizar el experimento e , observar el resultado x, tomar la acci´on a y finalmente encontrar el valor θ. Esta avaluaci´on u, toma en cuenta el costo de experimentaci´on as´ı como las consecuencias de la acci´on a para cada estado de la naturaleza θ. Equivalentemente, el TD puede evaluar sus p´erdidas en la forma de una funci´on: L(e, x, a, θ) = −u(e, x, a, θ). El TD es racional si procura la m´axima utilidad o equivalentemente la menor p´erdida. 6. Asignaci´ on de probabilidades: Antes de observar el resultado del experimento X = x, tanto X como θ son variables aleatorias (v.a) (θ que es inobservable hasta el final del problema de decisi´on, continuar´a siendo v.a). Una vez decidido el experimento e, las v.a’s X y θ est´an gobernadas por la densidad de probabilidad conjunta:

´ ESTAD´ıSTICA 1.1. ELEMENTOS DE UN PROBLEMA DE DECISION

11

pθ,X (θ, x | e) : Θ × X → R + . Antes de discutir maneras alternativas de evaluar la densidad conjunta, recordemos el Teorema de Bayes. Supongamos : Θ ⊆ R d un conjuto de Borel, Π es una medida de probabilidad (llamada “a priori” o previa) en R d , con Π(Θ) = 1, el vector de observaciones x ∈ R n tiene una densidad pX|θ (x | θ) con respecto a una medida µ σ-finita la cual no depende de θ, PX|θ es conjuntamente medible en (X, θ). Entonces para cada conjunto B, θ-medible, la siguiente f´ormula (de Bayes) define una medida regular de probabilidad condicional para θ dado X, y puede justificarse bajo condiciones bastante generales (ver por ejemplo Walley 1989) : R

p(x | θ)dΠ(θ) = P (B | x) = R Θ p(x | θ)dΠ(θ) B

R

B

p(x | θ)dΠ(θ) , m(x)

(1.1)

donde hemos omitido por conveninecia la menci´on al experimento e. Si B = θ, entonces en t´erminos de la densidad tenemos : pθ|X (θ | x) =

pX|θ (x | θ)π(θ) . m(x)

(1.2)

Las densidades de probabilidad que aparecen en (1.2) tienen una importancia capital en Estad´ıstica y Teor´ıa de Decisi´on: • pX|θ : es la “verosimilitud” de la observaci´on condicionada al par´ametro. • π(θ) : es la densidad “a priori” que nos da la plausibilidad de cada valor del vector de par´ametros θ antes de observar el experimento. Se interpreta a π(θ) como el conocimiento que tiene el TD sobre θ antes de la observaci´on. • m(x) es la densidad “predictiva” de las observaciones, proveniente de promediar la verosimilitud a trav´es de la medida a priori.

12

´ ESTAD´ıSTICA CAP´ıTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION

• pθ|X (θ | x) es la densidad “a posteriori” o “posterior” , que nos indica el aprendizaje que se ha obtenido a partir de los datos X , pasando de un conocimiento “a priori” a uno “a posteriori”. De la simetr´ıa entre X y θ podemos entonces escribir: (omitiendo los sub´ındices): p(x, θ) = p(θ | x)m(x) = p(x | θ)π(θ).

(1.3)

Entonces tenemos tres estrategias para asignar la densidad conjunta: 1. Directamente, 2. p(θ | x)m(x), 3. p(x | θ)π(θ), siendo esta u ´ ltima la m´as usual.

1.2

El Problema de Decisi´ on como un Juego entre el TD y la Naturaleza

El juego se realiza en cuatro pasos : TD escoge e, N escoge x, TD escoge a, N escoge θ, y finalmente TD recibe u(e, x, a, θ). El juego sigue el siguiente diagrama donde los nodos cuadrados son de decisi´on (TD) y los nodos circulares (N) son aleatorios.

a1 e1

e∈E

e3 2e3 s

 a2

x1 

x∈ X

7

3 x2 x3

x

R4

θ1

a3 a* 4-



θ2 -

a5

a∈A

R

θ∈Θ

u(e2 , x3 , a4 , θ2 )

θ3 R

Figura 1.1. Arbol de Decisi´on Ejemplo 1.2. Una operadora de Petr´oleos de Venezuela debe tomar una decisi´on con respecto a un ´area donde a´ un no se ha perforado pero

´ COMO UN JUEGO ENTRE EL TD Y LA NATURALEZA13 1.2. EL PROBLEMA DE DECISION

que tiene una alta probabilidad de tener petr´oleo. Los estados de la naturaleza son (simplificadamente): Θ=

(

θ1 : Hay petr´oleo. θ2 : No hay petr´oleo

Las acciones posibles de la operadora son: A=

(

a1 : Perforar a2 : Vender el campo a otra operadora

La operadora tiene la posibilidad de realizar una medici´on geol´ogica para verificar si cierta formaci´on geol´ogica est´a presente o ausente. El costo de la medici´on es C (en miles de $). El espacio muestral consta de dos puntos: X=

(

0 formaci´on geol´ogica ausente 1 formaci´on geol´ogica presente

La presencia o ausencia de petr´oleo afecta la probabilidad de la presencia o ausencia de la formaci´on geol´ogica de acuerdo con la siguiente funci´on de verosimilitud: p(x | θi ):

θ\x 0 1 θ1 0.2 0.8 θ2 0.7 0.3

Note que necesariamente p(x = 0 | θi ) + p(x = 1 | θi ) = 1, i = 1, 2. El experimento da informaci´on acerca de θ a trav´es de la verosimilitud (y del teorema de Bayes). Por ejemplo p(x = 1 | θ1 ) > p(x = 0 | θ1 ), pero se obtiene lo contrario para θ2 . Supongamos que el TD est´a dispuesto a afirmar antes de observar a x que, en base a su conocimiento t´ecnico , en ´areas de similares caracter´ısticas a la presente, la probabilidad “a priori” de la presencia de petr´oleo es: θ π(θi ): θ1 θ2

π(θ) 0.6 0.4

Finalmente el TD eval´ ua su utilidad (o p´erdida) monetaria o no, de las diferentes acciones frente a los posibles estados de la naturaleza. Si no se realiza el experimento geol´ogico, la p´erdida (en miles de $) viene

14

´ ESTAD´ıSTICA CAP´ıTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION

dada por la siguiente tabla: θ\a a1 a2 L(a, θ): θ1 -5000 0 θ2 2000 -500 Si se realiza el experimento a la funci´on de p´erdida anterior se le suma C, por ejemplo L(a1 , θ1 ) = −5000 + C, etc. El TD tiene al principio tres posibles decisiones: perforar, vender o realizar el experimento, y debe decidir la que reporte menor p´erdida. Si se realiza el experimento, las probabilidades de θ cambian, por lo que se deben calcular las probabilidades a posteriori, lo que se har´a en el siguiente cap´ıtulo. El ´arbol de decisi´on est´a representado en la figura 1.2.3

θ1 a1

θ2 a2

θ1

x=1 Experimento

x=0

a1

θ2 a2

a1 a2

θ2 θ1

θ1 θ2

-5000+C 2000+C C -500+C -5000+C 2000+C C -500+C

θ1

-5000

θ2

2000

θ1 θ2

Figura 1.2. Arbol de decisi´on Ejemplo 1.2

0 -500

´ COMO UN JUEGO ENTRE EL TD Y LA NATURALEZA15 1.2. EL PROBLEMA DE DECISION

El problema de decisi´on est´a ahora completamente especificado y el TD, si quiere conservar su puesto, debe tomar una decisi´on que haga su p´erdida m´ınima (o su utilidad m´axima). Sin embargo, su p´erdida depende crucialmente del estado de la naturaleza θ, ¡el cual no puede observar antes de tomar su decisi´on!. Precisamente, para romper este c´ırculo necesitaremos de una teor´ıa de decisiones bajo incertidumbre que desarrollaremos en los pr´oximos cap´ıtulos. Por u ´ ltimo, hacemos notar que a´ un cuando θ es desconocido hay informaci´on substancial sobre ella, sobre todo cuando observemos el valor de X .

16

´ ESTAD´ıSTICA CAP´ıTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION

Cap´ıtulo 2 Teor´ıa Cl´ asica de Decisi´ on La teor´ıa de decisiones bajo incertidumbre tiene su desarrollo original durante la II Guerra Mundial. El texto cl´asico donde se expone partiendo de un punto de vista “frecuentista” (es decir basado en la frecuencia relativa de las observaciones X de experimentos similares condicionados en θ) es Wald (1950). A partir de all´ı ha tenido un vigoroso desarrollo que iremos mencionando. En este cap´ıtulo nos basaremos primordialmente en Ferguson(1967) as´ı como en Lehmann(1983), Berger(1985), Brown(1984), Pericchi(1986) y Walley(1987). Un punto de vista alternativo al frecuentista, pero con muchos puntos de contacto con ´el, es el Bayesiano o “subjetivo”, expuesto en Savage(1954), DeGroot(1970), Lindley(1971) y Berger(1985), donde el conocimiento a priori del experimento juega un papel m´as prominente. Le dedicaremos al enfoque subjetivo los cap´ıtulos finales de este libro a´ un cuando conceptos subjetivos aparecer´an en forma natural a todo lo largo del mismo. Supondremos todo el tiempo que el TD es un individuo, o un grupo que act´ ua como individuo. Esto no necesariamente es as´ı en la pr´actica. Un ´area apasionante de investigaci´on es “Teor´ıa de Decisi´on de Grupos” que no tocaremos aqu´ı. 17

18

2.1

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Introducci´ on.

En este cap´ıtulo se introducen muchas ideas que son fundamentales en Teor´ıa de Decisi´on, y adem´as se comparan los puntos de vista frecuentista y Bayesiano, as´ı como las ventajas y desventajas de cada uno. En la secci´on 2.1 se definen conceptos b´asicos de la Teor´ıa Cl´asica de Decisi´on basada en el concepto frecuentista de la funci´on de riesgo. Sin embargo, no existe una u ´ nica soluci´on admisible de acuerdo al riesgo. En la secci´on 2.2 se introducen tres criterios de ordenamiento de las decisiones: 1)Restricci´on del conjunto de decisiones, 2)Ordenamiento Bayesiano y 3)Ordenamiento Minimax. Se desecha el ordenamiento del criterio 1 porque t´ıpicamente excluye buenas decisiones y porque para un conjunto ampl´ısimo de problemas, selecciona como o´ptimas a decisiones inadmisibles. Seguidamente se estudian las propiedades de las reglas de Bayes y Minimax. Respecto a esta u ´ ltima, que es fundamental en Teor´ıa de Juegos, se concluye que para la Teor´ıa de Decisi´on no es adecuada, por su pesimismo y porque t´ıpicamente selecciona como ´optimas decisiones no determinadas, es decir aleatorias. Por u ´ ltimo exponemos ventajas del enfoque Bayesiano que lo hacen la alternativa m´as atractiva a la Teor´ıa de Decisi´on, a´ un cuando es conveniente hacer an´alisis de sensibilidad con respecto a la distribuci´on a priori. Pero, incluso desde el punto de vista frecuentista, el enfoque Bayesiano presenta ventajas fundamentales, como el hecho de que toda decisi´on admisible es una decisi´on Bayesiana, o l´ımite de Bayesiana. Adem´as implica una simplificaci´on radical del an´alisis racional de decisiones.

2.2

Conceptos B´ asicos de la Teor´ıa de Decisi´ on Cl´ asica

Notaci´on: Denotaremos a la Esperanza Matem´atica de la funci´on g(y, α), donde y es la variable de integraci´on, por : ( P g(y, α)p(y | α) si y es una v.a discreta EY |α [(g(y, α)] = R y∈Y Y

g(y, α)p(y | α)dy

si y es una v.a continua

´ ´ CLASICA ´ 2.2. CONCEPTOS BASICOS DE LA TEOR´ıA DE DECISION

19

donde Y son los valores posibles de y, y p(y | α) es la densidad de probabilidades de y condicionada al valor del par´ametro α. Generalizaremos la noci´on de esperanza dada arriba por la expresi´on m´as suscinta : EY |α [(g(y, α)] =

Z

g(y, α)dP (y | α) = E [g(y, α) | α]

Y

(2.1)

Se puede interpretar a (2.1) como la integral de Lebesgue, suponiendo que para cada α, g(y, α) es integrable Lebesgue. Tambi´en puede interpretarse la ecuaci´on (2.1) como la integral de Riemann-Stieltjes, donde P (y | α) es la distribuci´on acumulada de y condicionada a α y g(y, α) es continua en un conjunto de probabilidad uno bajo P (y | α) para cada α. Las propiedades de (2.1) que van a ser m´as utilizadas son: 1. E(ax + y) = aE(x) + E(y) 2. Si x > 0 ⇒ E(x) > 0. Las propiedades 1 y 2 son v´alidas bajo ambas interpretaciones. Ilustraciones de la notaci´on expuesta son por ejemplo: 1. Eθ|X [u(e, x, a, θ)] = 2. Pθ|X (A) =

R

A

R

R

Θ

u(e, x, a, θ)dP (θ | x)

dP (θ | x)

3. PX|θ (B) = B dP (x | θ),R y si est´a bien definida la densidad p(x | θ), entonces PX|θ (B) = B p(x | θ)dx.

El lector debe percatarse de que Pθ|X y PX|θ son dos entidades completamente distintas y no debe confundirse por el hecho de que en ambas se utilice la may´ uscula P . Note que por ejemplo Pθ|X (A) = Eθ|X [1A (θ)], donde 1A (θ) =

(

1 si θ ∈ A 0 si θ 6∈ A

Definici´ on 2.1 Cualquier funci´on d(x) : X → A es llamada una regla de decisi´on “no aleatoria” o “determinada”.

20

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Supongamos que el TD especifica una funci´on de p´erdida L, o equivalentemente una funci´on de utilidad u(e, x, d(x), θ), en la que supondremos (por simplicidad de notaci´on) que tanto el efecto del experimento, como de x est´an considerados dentro de la regla de decisi´on d(x). O sea, tenemos que: L(e, x, d(x), θ) = −u(e, x, d(x), θ)= L(d(x), θ) = −u(d(x), θ). Podemos en general representar el problema de decisi´on estad´ıstica por : (Θ, A, L), acoplado a un experimento e que envuelva a la v.a X cuya distribuci´on depende exclusivamente de θ : PX|θ . El concepto pivote sobre el que se fundamenta la teor´ıa cl´asica (frecuentista) de decisi´on, es el concepto de Riesgo Frecuentista. Definici´ on 2.2 El valor esperado respecto de X de la funci´on de p´erdida para la regla de decisi´on d(x) se llama el riesgo frecuentista. O sea R(θ, d) = EX|θ [L(d(x), θ)] =

Z

X

L(d(x), θ)dP (x | θ)

(2.2)

Comentarios 1. Usualmente nos restringimos a aquellas reglas de decisi´on para las cuales R(θ, d) existe y es finito ∀ θ ∈ Θ. Denotamos a esta clase de decisiones no aleatorias de riesgo finito por D. 2. R(θ, d) representa la p´erdida promedio (en X) del TD cuando emplea la regla de decisi´on d(x) y el estado de la naturaleza es θ. El TD quisiera encontrar un d0 tal que el riesgo fuese m´ınimo. 3. El average o promedio (2.2) se toma con respecto a la frecuencia de los posibles valores de X. Por consiguiente R(θ, d) no es funci´on de X pero s´ı de θ, la cual no es observable antes de la decisi´on. (Parad´ojicamente, a pesar de que X es observable se toma el promedio en esta variable). Por esta raz´on R(θ, d) aisladamente no sirve para ordenar completamente las reglas de decisi´on de mejor a peor, aunque servir´a para excluir decisiones absurdas que llamaremos inadmisibles. Para ordenar racionalmente las decisiones ´optimas necesitaremos un extra-principio que nos diga c´omo ordenar completamente R(θ, d), ya que θ es desconocido.

21

´ ´ CLASICA ´ 2.2. CONCEPTOS BASICOS DE LA TEOR´ıA DE DECISION

Ejemplo 2.1 (cont. Ejemplo 1.2). Podemos listar las posibles reglas de decisi´on que han sido precedidas de la decisi´on de realizar el experimento e1 de la siguiente manera: x\d 0 1

d1 a1 a1

d2 a1 a2

d3 a2 a1

d4 a2 a2

Adem´as las reglas en las cuales se ha decidido no realizar el experimento e0 : d5 = a1 y d6 = a2

R(θ2 , d) d1

2000

d5

d2 1000 d3

-5000

-4000

-3000

-2000

-1000 d6

d4

1000

R(θ1 , d)

-1000

Figura 2.1. Regi´on D de decisiones determinadas (Ejemplo 2.1) Por ejemplo, la regla de decisi´on d2 significa: decidir hacer el experimento , y si obtenemos x = 0 tomamos la acci´on a1 , pero si obtenemos

22

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

x = 1 tomamos la acci´on a2 . Por otro lado, la regla de decisi´on d5 significa decidir no realizar el experimento y tomar la acci´on a1 . P Entonces : R(θ, d) = EX|θ [L(d(x), θ] = 2j=1 L(aj , θ)PX|θ (d(x) = aj ). Por ejemplo, usando la funci´on de p´erdida y verosimilitud dadas en el enunciado del ejemplo 1.2 en el Cap´ıtulo 1, tenemos: R(θ2 , d2 ) = L(a1 , θ2 )PX|θ (d2 (x) = a1 ) + L(a2 , θ2 )PX|θ (d2 (x) = a2 ) R(θ2 , d2 ) = 2000P (x = 0 | θ2 ) + (−500)P (x = 1 | θ2 ) + C = 2000(0.7) + (−500)(0.3) + C = 1250 + C Para d5 y d6 , R(θ, dj ) = L(θ, dj ). Entonces el riesgo R(θ, d) viene dado por la siguiente tabla (se deja como ejercicio verificarla): R\d d1 d2 d3 d4 d5 d6 R(θ1 , d) -5000+C -1000+C -4000+C C -5000 0 R(θ2 , d) 2000+C 1250+C 250+C -500+C 2000 -500 Supongamos que C = 90. Entonces los riesgos se dan en la siguiente tabla: R\d d1 d2 d3 d4 d5 d6 R(θ1 , d) -4910 -910 -3910 90 -5000 0 R(θ2 , d) 2090 1340 340 -410 2000 -500 En la figura 2.1 se grafican d1 a d6 , donde los ejes son R(θ1 , d) y R(θ2 , d).3 Es de hacer notar que en el ejemplo 2.1 hay decisiones que jam´as tomar´ıamos racionalmente: por ejemplo d1 es peor que d5 tanto para θ1 como para θ2 . Decimos que d1 est´a “dominada” por d5 , y que d1 es “inadmisible”. El lector puede comprobar que todas las reglas de decisi´on que est´an por encima de la frontera inferior del gr´afico (2.1) son inadmisibles, es decir d1 y d4 son inadmisibles. Por otra parte las decisiones que forman la frontera inferior, es decir d3 , d6 y d5 no est´an dominadas por ninguna otra decisi´on determinada y por tanto son “admisibles”. Veremos en este cap´ıtulo que esto no es casual.

´ ´ CLASICA ´ 2.2. CONCEPTOS BASICOS DE LA TEOR´ıA DE DECISION

23

Ejemplo 2.2 (Test de hip´ otesis). Aqu´ı el problema es decidir si θ pertenece a un subconjunto del espacio de par´ametros Θ0 ⊂ Θ, que es la hip´otesis “nula”, o a su complemento: H0 : θ ∈ Θ0

vs

H1 : θ ∈ Θc0

La funci´on de verosimilitud es pX|θ el espacio de acciones es A = {a0 , a1 } donde a0 es aceptar H0 y a1 rechazar H0 (o sea aceptar H1 ). La funci´on de p´erdida viene dada por: ai \θ L(θ, ai ) : a0 a1

θ ∈ Θc0 L0 0

θ ∈ Θ0 0 L1

donde Li > 0, para i = 0, 1. Entonces L0 es la p´erdida por la falsa aceptaci´on de H0 y L1 la p´erdida por falso rechazo de H0 . Se supone que la p´erdida incurrida por una decisi´on correcta es cero. Por lo tanto la funci´on de riesgo es:

R(θ, d) =

(

L0 P (d(x) = a0 | θ) si θ ∈ Θc0 (Error de falsa aceptaci´on de H0 ) L1 P (d(x) = a1 | θ) si θ ∈ Θ0 (Error de falso rechazo de H0 ), (2.3)

(usualmente se llama al error de falsa de aceptaci´on Error de tipo II, y al de falso rechazo Error de tipo I), o sea el riesgo es la p´erdida incurrida por una decisi´on incorrecta multiplicada por la probabilidad de una decisi´on err´onea. Notar que esta probabilidad es calculada condicionalmente para cada θ, cuando H1 ´o H0 son correctas respectivamente. Los valores de L0 y L1 son asignados por el TD.3 Ejemplo 2.3 (Estimaci´ on puntual). Sea Θ = R, y se desea “estimar” o aproximar a θ por una funci´on d : X → R. Entonces A = R, y se dice que el espacio de par´ametros y decisiones coincide. Supongamos que el TD asigna una p´erdida cuadr´atica: L(θ, d(x)) = c(θ − d(x))2 con c > 0. Esta funci´on de p´erdida, que fue originalmente usada por Gauss, es la m´as frecuentemente empleada en problemas de estimaci´on. Es convexa y sim´etrica penalizando igualmente la sub o la sobre-estimaci´on.

24

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Es adem´as muy tratable matem´aticamente. Es sin embargo algo arbitraria, (¿por qu´e no | θ − d(x) |?), no acotada y crece quiz´as demasiado r´apido cuando d(x) se aleja de θ. El riesgo en este caso se denomina error cuadr´atico medio y puede escribirse como:

cEX|θ 



h

i

R(θ, d) = EX|θ c(θ − d(x))2 = 



2 

θ − EX|θ (d(x)) − d(x) − EX|θ (d(x)) 2

c θ − EX|θ (d(x)) 

+ cEX|θ 

 h

=

2 

d(x) − EX|θ (d(x))

i

−2c θ − EX|θ (d(x)) EX|θ d(x) − EX|θ (d(x)) y como h

i

EX|θ d(x) − EX|θ (d(x)) = EX|θ [d(x)] − EX|θ [d(x)] = 0, ya que EX|θ [d(x)] no depende de X, entonces si definimos

tenemos:

θ − EX|θ (d(x)) = sesgo(d(x), θ) n

o

R(θ, d) = c sesgo2 (d(x), θ) + V arX|θ (d(x)) .3

(2.4)

Por lo tanto si se emplea p´erdida cuadr´atica un buen estimador d(x) ser´a aqu´el cuya suma de sesgo al cuadrado m´as su varianza sea peque˜ na. El test de hip´otesis y la estimaci´on puntual (y de intervalos que veremos posteriormente) son los problemas m´as importantes de la inferencia estad´ıstica , y hemos visto en los ejemplos 2.2 y 2.3 que pueden frasearse como problemas particulares de la teor´ıa de decisi´on estad´ıstica.

´ ´ CLASICA ´ 2.2. CONCEPTOS BASICOS DE LA TEOR´ıA DE DECISION

25

Para proseguir, conviene (matem´aticamente) extender el espacio de decisiones determinadas D, por su casco convexo que llamaremos D. Los elementos de D, δ(x); ser´an llamados reglas de decisi´on aleatorias y pueden ser pensados como una distribuci´on de probabilidades en D. Definici´ on 2.3 Una regla de decisi´on aleatoria δ, es una distribuci´on en el conjunto D de las reglas de decisi´on determinadas. Su funci´ on de riesgo se define como : R(θ, δ) = EZ [R(θ, z)], donde Z es una v.a que toma sus valores en D y cuya distribuci´on viene dada por δ. El espacio D est´a compuesto por las reglas de decisi´on aleatoria tal que R(θ, δ) exite y es finita ∀ θ ∈ Θ. Una ventaja matem´atica de considerar D es que “linealiza” a D. Por ejemplo si δ1 y δ2 ∈ D, y 0 ≤ α ≤ 1, definimos δ = αhδ1 i + (1 − α)hδ2 i, o sea δ es δ1 con probabilidad α y δ2 con probabilidad 1 − α, es decir, una mezcla de δ1 y δ2 , entonces: R(θ, δ) = αR(θ, δ1 ) + (1 − α)R(θ, δ2 ) y δ ∈ D, y por lo tanto D es convexo. Est´a claro adem´as que D ⊂ D, ya que d ∈ D, corresponde a la regla aleatoria (degenerada) que asigna probabilidad uno al punto d. Tambi´en es claro que R(θ, δ) est´a en el segmento de la recta que une a δ1 con δ2 . Continuaci´ on Ejemplo 2.1. Una posible regla aleatoria es: δ(e, x) =

(

d3 con probabilidad 1/2 d6 con probabilidad 1/2.

Entonces δ(e, x) puede obtenerse como: con probabilidad 12 , no hacer el experimento y tomar la acci´on a2 , como especifica d6 . Con probabilidad 12 , hacer el experimento; si x=0, tomar la acci´on a2 y si x=1 tomar la acci´on a1 . O sea, el TD lanza una moneda balanceada. Si sale cara, aconseja no realizar el experimento y tomar la acci´on a2 . Si sale sello, aconseja realizar el experimento, si sale x=0 aconseja la acci´on a2 y si sale x=1 aconseja la acci´on a1 . Las decisiones aleatorias son claramente insensatas en el contexto de teor´ıa de decisi´on y posiblemente el TD perder´a su puesto si decide δ(e, x). (“El estad´ıstico est´a para reducir la incertidumbre, no para aumentarla”, R.A.Fisher).

26

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

La funci´on de riesgo de δ ser´a: 1 1 R(θ, δ) = R(θ, d3 ) + R(θ, d6 ). 2 2 O sea, R(θ, δ) est´a en la recta que une a d3 con d6 en la figura 2.1. De hecho: 1 1 R(θ1 , δ) = (−3910) + (0) = −1955 2 2 1 1 R(θ2 , δ) = (340) + (−500) = −80. 3 2 2 Definici´ on 2.4 El conjunto de riesgo S es el conjunto de puntos en R k cuyas coordenadas son (R(θ1 , δ), . . . , R(θk , δ)) para toda δ ∈ D. Por la linealidad del riesgo, S es un conjunto convexo, o sea si x ∈ S, y ∈ S, 0 ≤ α ≤ 1, entonces: αx + (1 − α)y ∈ S. Esto se

demostrar´a en la secci´on 2.3.

Continuaci´ on Ejemplo 2.1. En la figura 2.1, S ser´a el conjunto convexo que tiene a las decisiones determinadas d1 , . . . , d6 como v´ertices.3 Entonces los v´ertices de S corresponden a decisiones determinadas. (Pero es posible que una decisi´on determinada caiga en el interior de S). Procedemos ahora a ordenar parcialmente las decisiones δ ∈ D de acuerdo al riesgo frecuentista. Definici´ on 2.5 Sean δ1 y δ2 ∈ D. Diremos que δ1 es R-mejor que δ2 si: 1. R(θ, δ1 ) ≤ R(θ, δ2 ), ∀ θ ∈ Θ. 2. R(θ0 , δ1 ) < R(θ0 , δ2 ), para alg´ un θ0 ∈ Θ. δ1 ∈ D es admisible si no existe δ ∈ D que sea R-mejor que δ1 . Decimos que δ1 ∈ D es inadmisible si no es admisible, es decir, si existe δ ∈ D que sea R-mejor que δ1 . Si Θ, A y X son finitos como en el ejemplo 2.1, entonces D es finito y S es un poliedro, que es el casco convexo de un n´ umero finito de puntos en D, cuyos v´ertices son reglas de decisi´on determinadas. Entonces, S es convexo, cerrado y acotado.

27

2.3. DECISIONES OPTIMAS

n

o

Definici´ on 2.6 Para x ∈ S, Qx = y ∈ R k : yj ≤ xj , 1 ≤ j ≤ k, y 6= x es el conjunto de puntos de riesgo que son mejores que x. La frontera inferior de S, λ(S) , es el conjunto de los x ∈ S tal que Qx ∩ S = ∅. Continuaci´ on Ejemplo 2.1. λ(S) est´a compuesto por los segmentos de recta que unen a d5 con d3 y d3 con d6 , o sea las δ ∈ D que son mezclas de d5 y d3 y d3 y d6 . Estas mezclas son precisamente el conjunto de decisiones admisibles en D.3 Teorema 2.1 Supongamos que λ(S) ⊂ S y existe M tal que si (y1 , . . . , yk ) ∈ S ⇒ yj > −M; j = 1, . . . , k. Una regla de decisi´on δ ∈ D es admisible si y s´olo si su punto de riesgo est´a en λ(S). Prueba: (Ejercicio) Sugerencia: δ es admisible si y s´olo si no existe un punto de riesgo mejor en S, si y s´olo si Qxδ ∩ S = ∅.2 Admisibilidad es s´olo una condici´on necesaria mas no suficiente para que una regla de decisi´on sea razonable. M´as a´ un, establece solamente un orden parcial entre las decisiones que no nos permite encontrar la regla ´optima, si ´esta existe. ¿C´omo escoger entre la infinidad de reglas admisibles en el ejemplo 2.1?. Precisamos de un m´etodo que nos provea de un orden total de las decisiones y nos permita encontrar una regla ´optima. Expondremos seguidamente tres m´etodos alternativos.

2.3

Decisiones Optimas

METODO 1: Restricci´on del conjunto de decisiones Este punto de vista sostiene que hay t´ıpicamente demasiadas decisiones y que para ordenarlas primero se precisa restringirlas, dejando fuera decisiones “tontas”. Un ejemplo motivar´a este punto de vista. Continuaci´ on Ejemplo 2.3. El siguiente estimador “tonto” de θ es admisible: d(x) = a, ∀x ∈ X. Es decir no importa cual sea la evidencia dada por el experimento, aproximamos a θ por el valor a. El problema

28

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

es que para θ = a : R(a, d) = c{sesgo2(d(x), a) + V arX|a (d(x))} = 0, ya que la varianza de d(x) es 0 por ser una constante y sus sesgo es nulo para θ = a. Entonces un estimador ´optimo tendr´ıa que mejorar a todos los estimadores δ(x) = a, variando a en R y deber´ıa tener riesgo nulo para todo θ; lo cual es imposible. Se busca entonces restringir a D de tal manera que d(x) = a quede fuera.3 Sigamos con problemas de estimaci´on puntual y veamos dos posibles estrategias. 1. Procedimientos Insesgados: Consideremos s´olo aquellos estimadores que sean insesgados, o sea n

o

d(x) : EX|θ [d(x)] = θ, ∀θ ∈ Θ ,

y as´ı el estimador “tonto” anterior queda fuera. Si la p´erdida es cuadr´atica entonces el problema se reduce a encontrar un estimador de varianza m´ınima, el cual en muchos casos existe. 2. Procedimientos Invariantes: Se plantea que la estructura del estimador ´optimo no debe depender del origen o escala de medidas de X o de otros factores arbitrarios. Para fijar ideas supongamos que θ es un par´ametro de localizaci´on es decir: PX|θ (x | θ) = PX|θ (x − θ)

y

L(θ, a) = L(θ − a).

En este caso los estimadores invariantes por cambios en el origen de los datos X son: {d(x) : d(x + b) = d(x) + b}. A´ un cuando las estrategias del m´etodo 1 han sido en el pasado muy usadas, lo son cada vez menos. Las razones principales son las siguientes: (a) Si bien dejan fuera a estimadores “tontos”, tambi´en excluyen a buenos estimadores. (Veremos ejemplos a lo largo de este libro).

29

2.3. DECISIONES OPTIMAS

(b) Los estimadores ´optimos de (1) ´o (2) pueden ser inadmisibles. Ejemplo 2.4. Supongamos que PX|θ (x | θ) = PX|θ (x−θ) = Cauchy(θ, 1) = 1 . Para esta densidad no existe la Esperanza de X y por lo π[1+(x−θ)2 ] tanto ning´ un otro momento. Supongamos que la funci´on de p´erdida es cuadr´atica L(θ, d(x)) = L(θ − d(x)) = c(θ − d(x))2 . Siendo ´este un problema invariante por cambios de localizaci´on, los estimadores invariantes son de la forma: db (x) = x + b, (los cuales no pueden ser insesgados ya que no existe EX|θ (x)). Ahora bien: h

i

R(θ, db ) = EX|θ c(θ − (x + b))2 = ∞, para todo θ y todo b. Sin embargo el estimador “tonto” y no-invariante d(x) = 0 tiene riesgo R(θ, 0) = θ2 < R(θ, db ), y por lo tanto todos los estimadores invariantes son inadmisibles.3 Ejemplo 2.5. Este es el ejemplo m´as famoso de inadmisibilidad (James y Stein, 1960). Sean X1 , . . . , Xn independientes, Xj ∼ N(θj , 1), y se quiere estimar θ = (θ1 , . . . , θn ) con p´erdida cuadr´atica: L(θ, a) = Pn 2 j=1 (θj − aj ) . El estimador δ0 (x) = x, o sea estimar cada θj por Xj , es el estimador invariante ´optimo y es el estimador insesgado de varianza m´ınima. (Tambi´en es el estimador de m´axima verosimilitud y de m´ınimos cuadrados, m´etodos populares de obtener estimadores). El estimador δ0 (x) es admisible para n=1 ´o n=2, pero es inadmisible para n≥ 3. Este resultado, que conmovi´o a la inferencia estad´ıstica, fue obtenido originalmente por Stein (1955).   El estimador sesgado δ1 (x) =

Pn−2 n

x2j

x, para n ≥ 3, propuesto

por James-Stein, domina a δ0 (x) para todo θ.3 Por estas razones desechamos el m´etodo 1 de restricci´on de reglas de decisi´on y procedemos a exponer y estudiar los pr´oximos dos m´etodos que proveen un ordenamiento global de las reglas de decisi´on. j=1

30

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

METODO 2: Ordenamiento Bayesiano. El ordenamiento parcial de las decisiones provienen del hecho de que R(θ, δ) depende de θ, adem´as de δ. Podemos ordenar las decisiones si tomamos el valor esperado de R(θ, δ) con respecto a la medida de probabilidad dΠ(θ) = π(θ)dθ, donde Π(θ) es la distribuci´on “a priori” de θ y π(θ) su densidad. La interpretaci´on de Π(θ) es subjetiva: es el estado de conocimiento que el TD tiene acerca del estado de la naturaleza. Se supone aqu´ı que el TD tiene informaci´on suficiente acerca de θ como para representarla por una u ´ nica distribuci´on Π(θ), es decir para representarla de una manera precisa. Llamaremos a este supuesto, la hip´otesis de la precisi´on. Si ´esta hip´otesis es aceptada, entonces es razonable ponderar R(θ, d) por π(θ): Si δ(x) es una decisi´on que lo hace muy bien (R(θ, δ) peque˜ no) en una regi´on Θ0 de alta probabilidad a priori, y no tan bien en Θc0 que tiene poca probabilidad a priori, entonces δ(x) seguir´a siendo bastante buena. Definici´ on 2.7 El riesgo Bayesiano de la regla de decisi´on δ ∈ D para la distribuci´on a priori Π(θ) se define como: n

o

r(Π, δ) = Eθ [R(θ, δ)] = Eθ EX|θ [L(δ(x), θ)] , el cual se supone que existe y es finito.

Definici´ on 2.8 La regla de decisi´on δ0 ser´a la regla de decisi´on ´optima “Bayes- promedio” con respecto a la distribuci´on a priori Π si y s´ olo si: r(Π, δ0 ) = inf r(Π, δ). δ∈D

Es de hacer notar que la anterior definici´on est´a basada en un promedio en X (condicional en θ), y por tanto sobre un concepto frecuentista. Esto es innecesario ya que el valor de X = x ser´a conocido luego de obtener el resultado del experimento. Por tanto tenemos una forma alternativa de definir un procedimiento ´optimo-Bayes. Definici´ on 2.9 La p´erdida Bayesiana esperada condicional en X de la acci´on δ(x) para la distribuci´on a priori Π(θ) se define como:

31

2.3. DECISIONES OPTIMAS

ρ(Π, δ(x)) = Eθ|X [L(θ, δ(x))] =

Z

Θ

L(θ, δ(x))dΠ(θ | x).

Definici´ on 2.10 La acci´on δ ∗ (x) ser´a la acci´on ´optima Bayes, condicional en X, para la distribuci´on a posteriori Π(θ | x) si y s´olo si: ρ(π, δ ∗ (x)) = inf ρ(π, δ(x)). δ∈D

A la definici´on 2.10 se le conoce como el principio de la maximizaci´on (minimizaci´on) de la utilidad (p´erdida) esperada. Para cada x ∈ X, escogemos aquella acci´on δ ∗ (x) que hace m´ınimo lo que esperamos perder. Surge la pregunta, ¿Puede la regla de decisi´on ´optima “Bayes promedio” δ0 obtenerse como δ ∗ (x) para cada x ∈ X?. Afortunadamente la respuesta es s´ı, bajo condiciones bastante generales. Teorema 2.2 Supongamos que L(θ, d) es no negativa y que: 1. Existe un estimador δ con riesgo finito. 2. Para casi todo x, existe un n´ umero δπ∗ (x) que minimiza a ρ(Π, δ(x)). Entonces δπ∗ (x) es ´optimo Bayes promedio. Prueba. Sea δ cualquier estimador con riesgo finito. Entonces, ρ(Π, δ(x)) es finito c.s, ya que L es no negativa. Por lo tanto Eθ [L(θ, δ(x)) | x] ≥ Eθ [(L(θ, δπ∗ (x)) | x]

c.s.,

y el resultado se obtiene tomando esperanzas (en X) a ambos miembros.2 Notamos que si L(θ, d) = −M + L∗ (θ, δ), con M finito y L∗ (θ, d) no negativa el teorema 2.2 sigue siendo v´alido. Continuaci´ on Ejemplo 2.1. A partir de la tabla de riesgos, de Π(θ1 ) = 0.6 y Π(θ2 ) = 0.4, y recordando que hemos supuesto C = 90, podemos calcular los riesgos Bayesiano promedio usando la definici´on 2.7 como sigue: r(Π, d) =

2 X i=1

R(θi , d)Π(θi ).

32

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Se deja al lector verificar la siguiente tabla: r\d d1 d2 d3 d4 d5 d6 r(Π, d) -2110 -10 -2210 -110 -2200 -200 Por lo tanto la mejor decisi´on determinada ser´a d3 , o sea, realizar el experimento y tomar la acci´on a2 si x = 0 y a1 si x = 1. Alternativamente, para obtener la mejor acci´on Bayes-condicional calculemos primero las probabilidades a posteriori seg´ un la regla de Bayes: P (θ1 | x = 0) ∝ P (x = 0 | θ1 )Π(θ1 ) = 0.2 × 0.6 = 0.12 P (θ2 | x = 0) ∝ P (x = 0 | θ2 )Π(θ2 ) = 0.7 × 0.4 = 0.28 De lo anterior se tiene que P (x = 0) = P (x = 0 | θ1 )Π(θ1 ) + P (x = 0 | θ2 )Π(θ2 ) = 0.40. Normalizando, es decir dividiendo por P (x = 0), se obtiene: P (θ1 | x = 0) =

0.12 0.4

= 0.3

P (θ2 | x = 0) =

0.28 0.4

= 0.7

Procediendo de manera similar para x = 1 se tiene P (x = 1) = 0.6, y entonces P (θ1 | x = 1) = 0.8 P (θ2 | x = 1) = 0.2. Si observamos x = 0, la p´erdida esperada a posteriori para a1 y a2 ser´a: ρ(Π, a1 ) = (−4910)(0.3) + (2090)(0.7) = −10 ρ(Π, a2 ) = (90)(0.3) + (−410)(0.7) = −260 de donde se deduce que la mejor decisi´on Bayes condicional en x = 0 ser´a a2 . Por otra parte si x = 1, ρ(Π, a1 ) = −2510 ρ(Π, a2 ) = −10 y la mejor decisi´on ser´a a1 . Por otro lado si no se realiza el experimento:

2.3. DECISIONES OPTIMAS

33

ρ(π, a5 ) = L(a1 , θ1 )0.6 + L(a1 , θ2 )0.4 = −2200 ρ(π, a6 ) = L(a2 , θ1 )0.6 + L(a2 , θ2 )0.4 = −200, y estas p´erdidas condicionales esperadas son mayores que las de realizar el experimento, y si x = 0 tomar la acci´on a2 y si x = 1, la acci´on a1 . N´otese que si juntamos las acciones ´optimas condicionales para x = 0 y x = 1 obtenemos d3 , que es la mejor decisi´on Bayes promedio determinada. Supongamos ahora que C es desconocido, ¿cu´anto estar´ıamos dispuestos a pagar por hacer el experimento?. Utilizamos aqu´ı el principio de la minimizaci´on de la p´erdida esperada. Usando las mismas probabilidades a priori y a posteriori se obtiene el ´arbol de decisi´on de la figura 2.2, en el que debajo de los nodos aleatorios se coloca la p´erdida esperada y debajo de los nodos de decisi´on el resultado de la minimizaci´on. En el ´arbol el s´ımbolo // indica que la decisi´on es absurda, por ejemplo a2 no la tomaremos ya que la p´erdida esperada es -200 comparada con -2200 en a1 . Ahora debemos comparar las p´erdidas esperadas de la acci´on a1 con la de hacer el experimento, las cuales tienen p´erdidas esperadas de -2200 y -2300+C respectivamente. El ´arbol de decisi´on indica que lo m´aximo que se deber´ia pagar por hacer el experimento es C = 100, es decir si C ≤ 100 se decide hacer el experimento y se decide a1 si x = 1 y a2 si x = 0. Esto coincide con la decisi´on Bayes condicional en el desarrollo anterior, pues en aquel caso ten´ıamos C = 90 < 100. Por otro lado si C > 100, entonces la decisi´on ´optima ser´ıa d5 .3 En el ejemplo anterior, con C = 90 hemos concluido que d3 es la regla de decisi´on ´optima dentro de las reglas determinadas, es decir, d3 es ´optima es D. Surge la pregunta ¿es d3 ´optima en D, es decir en el conjunto de todas las reglas de decisi´on aleatorias?. Teorema 2.3 Supongamos que existe una regla ´optima Bayes promedio δ ∈ D, y que se cumplen las condiciones para intercambiar el orden de integraci´on. Entonces existe una regla determinada d ∈ D, ´optima. Prueba. Sea δ0 ´optima respecto de π. Sea z la variable aleatoria con valores en D cuya distribuci´on est´a dada por δ0 . Entonces,

34

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

-5000+C

θ1 0.8 a1

θ2

-3600+C

a2

0.6

θ2 θ1

-100+C

Experimento

-2300+C

a1 x=0

-350+C

θ2

-100+C

0.4 a2

θ1 -350+C

a1

2000+C

θ1 0.8 C

-3600+C

x=1

0.2

θ2

θ1

a2 -2200

θ2 θ1

-200

θ2

-500+C -5000+C

0.2 0.3

0.7

0.3 0.7

0.6 0.4

0.6 0.4

2000+C C -500+C -5000 2000 0 -500

Figura 2.2. Arbol de decisi´on Ejemplo 2.1

r(π, δ0 ) = Eπ [R(θ, δ)] = Eπ [EZ [R(θ, z)]] , cambiando el orden de integraci´on tenemos: EZ [Eπ [R(θ, z)]] = EZ [r(π, z)] . Pero como δ0 es ´optima para π, se cumple que r(π, δ0 ) ≤ r(π, d)

∀d ∈ D.

Por lo tanto r(π, δ0 ) = r(π, z) con probabilidad uno y entonces cada d ∈ D que z escoge con dicha probabilidad cumplir´a con r(π, d) = r(π, δ0 ), y por lo tanto d ser´a ´optima con respecto de π. 2

35

2.3. DECISIONES OPTIMAS

Este resultado nos dice, en condiciones bastante generales, que bajo el ordenamiento Bayesiano, la b´ usqueda de decisiones ´optimas puede restringirse a reglas determinadas (no aleatorias). Ello establece una ventaja computacional, adem´as de una ventaja intuitiva: cuando existan reglas ´optimas de Bayes, al menos una de ellas ser´a determinada. En problemas de Decisi´on, uno debe escoger decisiones determinadas, nunca aleatorias. Antes de pasar al pr´oximo criterio de ordenamiento (Minimax) y de estudiar en forma m´as exhaustiva las reglas de Bayes, ser´a conveniente dar algunos ejemplos y procedimientos de c´alculo de reglas Bayes-´optimas, debido a sus ventajas computacionales. Comenzamos por hacer notar que el concepto frecuentista de estad´ıstica suficiente juega tambi´en un papel crucial en el campo Bayesiano, en cuanto a reducir la dimensionalidad del vector de datos. Supongamos que la familia de distribuciones de X est´a indexada por el par´ametro θ: {p(x | θ), θ ∈ Θ}. Decimos que la funci´on de los datos: T = T (x), usualmente llamada estad´ıstica de X es suficiente (para los datos) si la distribuci´on condicional de X dado T = t es independiente de θ, ∀t. Tenemos la siguiente definici´on alternativa, el Criterio de Factorizaci´on de Neyman. Teorema 2.4 Una condici´on necesaria y suficiente para que la estad´ıstica T sea suficiente para la familia {P (x | θ), θ ∈ Θ} de distribuciones de X dominada por la medida σ-finita µ, es que existan funciones no negativas g y h tal que la densidad (verosimilitud) p(x | θ) de P (x | θ) satisfaga: p(x | θ) = g(T (x) | θ)h(x)

(c.s.µ).

(2.5)

Prueba. La prueba aparece por ejemplo en Lehmann(1959), Teorema 2.8 y Corolario 2.1 y se deja como lectura opcional.2 Lema 2.1 Supongamos que p(t) (la densidad marginal de t) es mayor que cero, y que se cumple (2.5). Entonces si T (x) = t, densidad a posteriori de θ cumple con: π(θ | x) = π(θ | t) =

g(t | θ)π(θ) . p(t)

(2.6)

36

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Prueba.

Ejercicio.

2

El Lema 2.1 simplifica usualmente las c´alculos y provee una manera Bayesiana de entender la suficiencia: T (x) es suficiente si para toda densidad a priori tal que la densidad a posteriori exista, ´esta dependa de los datos s´olo a trav´es de T . Ejemplo 2.6 (Normal-Normal). Supongamos que X es Normal, X ∼ N(θ, σ 2 ) donde la media θ es desconocida pero la varianza σ 2 es conocida. Si tenemos una muestra X1 , . . . , Xn , entonces la densidad de X =

1 n

n X

i=1 2



2

Xi es N θ, σn



y X es suficiente. Supongamos que π(θ) es

N (µ, τ ) con µ y τ 2 conocidas. Entonces la densidad conjunta de X y θ es: σ p(x, θ) = π(θ)p(x | θ) = 2π √ τ n

!−1

(

"

1 (θ − µ)2 n(x − θ)2 exp − + 2 τ2 σ2

#)

Definamos: ρ = τ12 + σn2 , completando cuadrados en el argumento de la exponencial obtenemos: !−1

 

"



 #2 

(

)

(x − µ)2 exp − 2 σ2 ,  2(τ + n ) (2.7) y por tanto la densidad “marginal” (o “predictiva”) de X ser´a,

σ p(x, θ) = 2π √ τ n

Z

1 1 µ nx exp − ρ θ − + 2 2  2 ρ τ σ "

#− 1

σ2 p(x) = p(x, θ)dθ = (2π)(τ + ) n −∞ ∞



o sea, p(x) = N µ, τ 2 + es:

π(θ | x) =

σ2 n

2



2

(

)

(x − µ)2 exp − 2 σ2 , (2.8) 2(τ + n )

. Finalmente la densidad posteriori de θ



ρ p(x, θ) π(θ)p(x | θ) = = p(x) p(x) 2π

1 2





1 exp − ρ[θ − µ(x)]2 , 2 (2.9)

37

2.3. DECISIONES OPTIMAS

donde 



2

σ 1 µ nx n + = µ(x) = 2 ρ τ2 σ2 τ +

y por lo tanto



µ+ σ2 n

τ2 2 x τ 2 + σn



π(θ | x) = N µ(x), ρ−1 .

(2.10)

(2.11)

Es de hacer notar que la esperanza a posteriori de θ, E(θ | X ), es igual a µ(x), o sea un promedio ponderado entre µ y X , dado por (2.10).3 Ejemplo 2.7 (Beta-Binomial). Consideremos un experimento Bernoulli con n intentos y sea θ la probabilidad de ´exito. Entonces cada una de las observaciones ser´an: Xi = Sea X+ = itud es:

Pn

i=1

(

1 con probabilidad θ 0 con probabilidad (1-θ).

Xi el n´ umero de ´exitos en n intentos. Su verosimil-

p(x+ | θ) ∝ θx+ (1 − θ)n−x+

0 ≤ θ ≤ 1; X+ = 0, 1, . . . , n. (2.12)

Supongamos que la densidad a priori π es una Beta(n0 x0 , n0 (1−x0 )), o sea la densidad a priori es:

π(θ) =

Γ(n0 ) θn0 x0 −1 (1−θ)n0 (1−x0 )−1 ; Γ(n0 x0 )Γ(n0 (1 − x0 ))

Entonces, llamando a X = emos:

1 X , n +

n0 > 0, 0 < x0 < 1.

(2.13) usando la regla de Bayes obten-

π(θ)p(x+ | θ) ∝ π(θ)p(x+ | θ) = θnµ(x)−1 (1 − θ)n(1−µ(x))−1 p(x+ ) (2.14) donde n′ = n0 + n y n0 n µ(x) = x0 + ′ x. (2.15) n n π(θ | x+ ) =

38

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Es inmediato ver que (2.14) y (2.13) tienen la misma forma y por R tanto luego de normalizar para que 01 π(θ | x)dθ = 1 se tiene que: π(θ | x+ ) = Beta (n′ µ(x), n′ (1 − µ(x))) .3

(2.16)

El lector se habr´a percatado que el m´etodo para obtener la densidad posteriori en este ejemplo, es decir conservar s´olo los t´erminos que dependen de θ, el Kernel de π(θ | x), y al final normalizar para que integre uno al reconocer la forma funcional del Kernel de θ a posteriori, es m´as expedito que el m´etodo del ejemplo 2.6. Se puede ver (se deja al lector como ejercicio) que la esperanza de la densidad (2.13) es x0 , y por tanto la esperanza de(2.16) es µ(x) en (2.15), la cual tiene la misma estructura de (2.10) del ejemplo 2.6. Es decir la esperanza a posteriori es un promedio ponderado entre la media a priori y X , la media muestral. Como n′ = n0 + n, entonces n0 puede ser pensado como “el tama˜ no de muestra a priori” equivalente al tama˜ no muestral. La influencia de la informaci´on a priori en la densidad a posteriori es directamente proporcional a n0 . En el ejemplo 2.6 lo mismo se puede decir de τ −2 , el inverso de la varianza, el cual juega el mismo papel que n0 del ejemplo 2.7. (En algunos textos se denomina a τ −2 la “precisi´on”). En el punto de vista Bayesiano, toda la informaci´on (subjetiva o experimental) est´a resumida en la distribuci´on a posteriori. El siguiente teorema nos indicar´a c´omo vincular esta informaci´on con importantes funciones de p´erdida para problemas de estimaci´on puntual. Teorema 2.5 Se quiere estimar una funci´on g(θ) y la funci´on de p´erdida L(θ, d) es no-negativa. Supongamos que las hip´otesis del teorema 2.2 est´an satisfechas. Denotemos por δΠ∗ (x) el estimador ´optimo Bayes condicional para la distribuci´on a priori Π. R

1. Si L(θ, d) = c(d−g(θ))2 , entonces δΠ∗ (x) = E [g(θ) | x] = Θ g(θ)dΠ(θ | x), o sea el estimador ´optimo es la esperanza a posteriori de g(θ). 2. Si L(θ, d) = w(θ)(d − g(θ))2 , entonces: δΠ∗ (x) =

E [w(θ)g(θ) | x] . E [w(θ) | x]

39

2.3. DECISIONES OPTIMAS

3. Si L(θ, d) = c | d − g(θ) |, entonces δΠ∗ (x) es cualquier mediana de la distribuci´on a posteriori Π (g(θ) | x). Prueba. 1. δΠ∗ (x) se obtiene minimizando en δ(x) a: h

i

E (δ(x) − g(θ))2 | x ,

(2.17)

por hip´otesis, existe δ0 para el que esta esperanza posteriori es finita c.s en x, y por tanto lo ser´a para δΠ∗ . Como la p´erdida cuadr´atica es estrictamente convexa, tendr´a un u ´ nico valor m´ınimo. Si sumamos y restamos E [g(θ) | x], que por hip´otesis es finito, obtenemos como en el ejemplo 2.3 que (2.17) puede escribirse como: h

i

E (g(θ) − E(g(θ) | x))2 | x + (E [g(θ) | x] − δ(x))2 .

(2.18)

El primer t´ermino de (2.18) no depende de δ(x), y el segundo es no negativo, por lo que (2.17) se minimiza haciendo el segundo t´ermino de (2.18) nulo, o sea δΠ∗ (x) = E [g(θ) | x]. 2. Ejercicio. 3. Ejercicio.2 Volviendo a los ejemplos 2.6 y 2.7, si la p´erdida es cuadr´atica y se desea estimar a θ, o sea g(θ) = θ, entonces δΠ∗ (x) = E(θ | x) = µ(x). Es decir el estimador ´optimo Bayes de θ ser´a su media a posteriori. La medida de “exactitud” o “dispersi´on” de este estimador ´optimo viene dada por su riesgo condicional en X, o sea su riesgo posterior, que viene dado por el primer t´ermino de (2.18). Para p´erdida cuadr´atica y g(θ) = θ, la medida de dispersi´on de δΠ∗ (x) es la varianza a posteriori de θ. En el ejemplo 2.6 ´esta es ρ−1 y en el ejemplo 2.7 es: µ(x) [1 − µ(x)] n′ + 1

40

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

(Se deja al lector como ejercicio verificar la ecuaci´on anterior). La estimaci´on insesgada ya ha sido criticada. Veamos que t´ıpicamente un estimador insesgado no es ´optimo Bayes. Teorema 2.6 Se quiere estimar g(θ) con p´erdida cuadr´atica. Entonces ning´ uhn estimador insesgado δ(x) puede ser ´optimo Bayes a menos que i 2 EX,θ (δ(x) − g(θ)) = 0. Prueba. Supongamos que δ(x) es ´optimo Bayes para alguna distribuci´on Π y adem´as es insesgado para estimar g(θ). Entonces, Eθ [δ(x) | θ] = g(θ), para todo θ. Adem´as, condicionando en X, h

i

EX,θ [g(θ)δ(x)] = EX|θ Eθ [g(θ)δ(x) | x] = EX|θ [δ(x)Eθ [g(θ) | x]] = EX|θ δ 2 (x) ; ahora condicionando en θ,

h

i

EX,θ [g(θ)δ(x)] = Eθ|X EX [g(θ)δ(x) | θ] = Eθ|X [g(θ)EX [δ(x) | θ]] = Eθ|X g 2(θ) . Finalmente, h

i

h

i

h

i

EX,θ (δ(x) − g(θ))2 = EX|θ δ 2 (x) +Eθ|X g 2(θ) −2EX,θ [g(θ)δ(x)] = 0.2 Apliquemos el teorema anterior a los casos de verosimilitud normal y binomial: 2

2

1. Normal: δ(x) = xh es iinsesgado y EX|θ [X − θ] = σn . Pero para 2 2 cualquier Π(θ), Eθ σn = σn 6= 0, por lo tanto X no es Bayes. El estimador indmisible del ejemplo 2.4, no es de Bayes. h

2. Binomial: δ(x) = x es insesgado y EX|θ X − θ R

i2

=

θ(1−θ) . n

Ahora bien, n1 01 θ(1 − θ)dΠ(θ) = 0, si y s´olo si Π(θ) es la distribuci´on trivial que asigna uno al conjunto {0,1}. (La moneda tiene 2 caras o 2 sellos, y x s´olo puede ser 0 ´o 1)

Seguidamente describimos un m´etodo de ordenamiento de decisiones, alternativo al Bayesiano, que intenta desembarazarse de la asignaci´on de distribuciones a priori.

41

2.3. DECISIONES OPTIMAS

METODO 3: Ordenamiento Minimax En este m´etodo en lugar de minimizar el riesgo promedio se minimiza el supθ R(θ, δ), o sea, se toma la decisi´on que lo haga mejor, suponiendo que la naturaleza decide lo peor para nosotros, para cada δ. La figura 2.3 exhibe el pesimismo de este punto de vista.

R(θ, δ) ... ... ... ... ... ... ... ..

... ... ... ... ... δ2 ... ... ..

... δ1 ... ... ... ... ... ... .. θ

Figura 2.3. El ordenamiento minimax prefiere δ1 a δ2 , ya que δ2 tiene un riesgo m´aximo mayor que δ1 . En Teor´ıa de Juegos, donde θ es escogida por un enemigo inteligente es recomendable prevenir que ´este nos va a hacer la vida tan dif´ıcil como le sea posible y en el caso de la figura 2.3 escoger´ıa a θ en la peque˜ na regi´on en donde δ1 es mejor que δ2 . ¡Por fortuna la naturaleza no es usualmente tan mal´evola!. Definici´ on 2.11 La regla de decisi´on δ − es minimax si sup R(θ, δ − ) = inf sup R(θ, δ),

(2.19)

δ∈D θ∈Θ

θ∈Θ

y al valor de la parte derecha de (2.19) se le llama el valor minimax. De la definici´on anterior se deduce (y se deja al lector como ejercicio) que δ − es minimax si y s´olo si R(θ′ , δ − ) ≤ sup R(θ, δ) θ∈Θ

∀θ′ ∈ Θ y ∀δ ∈ D.

(2.20)

42

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

La regla minimax es m´as dif´ıcil de obtener, en general, que en los m´etodos 1 y 2. De hecho el m´etodo Bayesiano nos va a ayudar a calcular la regla minimax. Esto no es sorprendente ya que podemos esperar que la regla minimax sea de Bayes para la peor distribuci´on a priori que llamaremos “menos favorable” o de “Murphy”. Definici´ on 2.12 La distribuci´on a priori Π0 es menos favorable o de Murphy si r(Π0 , δΠ∗ 0 ) ≥ r(Π, δΠ∗ ) para todas las distribuciones a priori Π, donde δΠ∗ es ´optima Bayes para Π y r es el riesgo Bayesiano promedio definido en 2.7.

Puede pensarse la distribuci´on de Murphy como la que nos causa la m´axima p´erdida esperada imposible de evitar. Seguidamente se da una condici´on para que un estimador de Bayes δΠ∗ sea minimax. Teorema 2.7 Supongamos que Π es una distribuci´on a priori tal que: r(Π, δΠ∗ )

=

Z

θ

R(θ, δΠ∗ )dΠ(θ) = sup R(θ, δΠ∗ ).

(2.21)

θ∈Θ

Entonces: 1. δΠ∗ es minimax. 2. Si δΠ∗ es la u ´nica ´optimo Bayes respecto de Π entonces es la u ´nica minimax. 3. Π es de Murphy. Prueba. 1. Sea δ cualquier otra regla de decisi´on. Entonces: sup R(θ, δ) ≥ r(Π, δ) ≥ r(Π, δΠ∗ ) = sup R(θ, δΠ∗ ). θ

θ

2. Reemplazando en la prueba de (1) el segundo ≥ por >.

43

2.3. DECISIONES OPTIMAS

˜ alguna otra distribuci´on a priori. Sigue que: 3. Sea Π ˜ δΠ∗ ) ≤ sup R(θ, δΠ∗ ) = r(Π, δΠ∗ ).2 ˜ δ ∗˜ ) ≤ r(Π, r(Π, Π

θ

La condici´on (2.21) establece que el promedio de R(θ, δΠ∗ ) es igual a su m´aximo, o sea que Π asigna probabilidad uno al conjunto donde el riesgo toma constantemente su valor m´aximo. Una regla de este tipo se llama “igualadora”. Las reglas igualadoras son minimax. Corolario 2.1 Si la regla ´optima-Bayes δΠ∗ tiene riesgo constante, o sea R(θ, δΠ∗ ) = a, con a constante, entonces es minimax. Prueba:

Si δΠ∗ tiene riesgo constante, se cumple (2.21).2

Corolario 2.2 Una condici´on suficiente para que δΠ∗ sea minimax es que exista un conjunto Θ0 ⊂ Θ, tal que Π(Θ0 ) = 1 y R(θ, δΠ ) toma su m´aximo valor en todo punto de Θ0 . Prueba.

La condici´on (2.21) tambi´en se cumple en este caso.2

Ejemplo 2.8 (Lehmann(1983) y Walley(1987)). Sea la verosimilitud binomial, P (x+ | θ) = Bin(n, θ) y se quiere estimar θ como en el ejemplo 2.7. Supongamos que la p´erdida es cuadr´atica: L(θ, d) = (θ − d)2 . Queremos encontrar un estimador minimax de θ. Intentemos conseguir una regla igualadora suponiendo que Π pertenece a la familia Beta de distribuciones, Π(θ) = Beta(α, β) con α > 0 y β > 0. De la parte (1) del Teorema 2.5 sabemos que el estimador ´optimo Bayes es la media posterior µ(x). Por otra parte del ejemplo 2.7, la relaci´on (2.15), y de α n0 x0 = α, n0 (1 − x0 ) = β o sea x0 = α+β , n0 = α + β tenemos: E(θ | x) = µ(x) =

α + x+ = δΠ∗ . α+β+n

(2.22)

Sabemos que en el caso Binomial E(X+ | θ) = nθ y V ar(X+ | θ) = nθ(1 − θ). Entonces, 

α + X+ R(θ, δΠ∗ ) = E  −θ α+β+n

!2



| θ =

nθ(1 − θ) + [α − (α + β)θ]2 . (α + β + n)2 (2.23)

44

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Para que R(θ, δΠ∗ ) = constante (variando θ), los coeficientes de θ2 y θ deben ser cero, o sea: 1. −n + (α + β)2 = 0 2. n − 2α(α − β) = 0 y por lo tanto α = β =

√ n . 2

Obtenemos entonces:

δ − (x+ ) =

√ n 2

+ x+ √ n+ n

(2.24)

que es la regla de Bayes para la densidad a priori Beta una regla igualadora con: R(θ, δ − (x+ )) =

1 √ , 4( n + 1)2

√

√  n n , 2 2

∀θ ∈ [0, 1]

y por el Corolario 2.1, δ − (x+ ) es minimax y la densidad Beta es de Murphy.3

y es

(2.25) √  n , 2n 2

√

Surge la pregunta ¿es δ − (x+ ) razonable?. Notemos que el m´etodo minimax provee un m´etodo para escoger la o las densidades a priori que sean Murphy. La densidad de Murphy obtenida es Π0 (θ) =  √ de √  n n Beta 2 , 2 . ¿Por qu´e el conocimiento que se tiene sobre θ debe estar influenciado por el tama˜ no del experimento n?. ¿Por qu´e s´olo por n y no por otra informaci´on?. 1 La media de Π0 es 12 y su varianza es 4(√n+1) → 0, cuando n → ∞, y por lo tanto estar´a cada vez m´as concentrada alrededor de 12 a medida que n crece. Pensemos en dos situaciones: (1) θ es la probabilidad de que una moneda al ser lanzada caiga cara. (2) θ es la probabilidad de que una tachuela al ser lanzada caiga de lado. Ciertamente Π0 no es razonable en la situaci´on (2), y por otro lado es extra˜ no que estemos muy seguros a priori de que la moneda sea balanceada en la situaci´on (1), si sabemos que va ser lanzada digamos 109 veces. Otra manera de ver si δ − (x+ ) es razonable es ver su funci´on de riesgo R(θ, δ − ) (2.25). Compar´emosla con el riesgo del estimador insesgado x+ δ0 (x+ ) = : R(θ, δ0 ) = EX n

"

x+ −θ n

2

#

|θ =

V ar(X+ | θ) θ(1 − θ) = . 2 n n

45

2.3. DECISIONES OPTIMAS

Graficamos en la figura 2.4, nR(θ, δ − ) y nR(θ, δ0 ) para varios valores de n.

nR(θ, δ)

.25 .2 .15 .1 .05

δ− δ− δ− δ− δ−

δ

I0

0

.5

δ0  θ 1

(n → ∞) (n = 100) (n = 16) (n = 4) (n = 1)

Figura 2.4. Para la situaci´on (1), δ − luce razonable a menos que n sea grande. En la situaci´on (2) δ0 luce mejor desde un n peque˜ no. En ninguna situaci´on δ − es razonable para n grande. Esto es consecuencia de que la previa que produce a δ − es, a medida que n crece, cada vez menos razonable. En cualquier caso la regla de Bayes obtenida a partir de una densidad a priori razonable, t´ıpicamente ser´a mejor que δ − y δ0 . Notemos que en este ejemplo δ − es la u ´ nica regla minimax ya que el estimador de Bayes (Teorema 2.5) es u ´ nico. Pero Π0 (θ) no es la u ´ nica de Murphy. La regla de Bayes para cualquier Π ser´a: R1

θ1+x+ (1 − θ)n−x+ dΠ(θ) = 0R 1 x n−x+ dΠ(θ) + 0 θ (1 − θ) Si expandemos (1 − θ)n−x+ , obtenemos que δΠ∗ (x+ ) depende de Π s´olo a trav´es de sus n + 1 momentos, por lo que la distribuci´on de Murphy no es u ´ nica. En el ejemplo 2.8 el estimador minimax δ − result´o ser una regla determinada no aleatoria. Como veremos m´as adelante esto no es as´ı en general, y fue consecuencia de que la p´erdida cuadr´atica es convexa en d. Generalmente puede restringirse la atenci´on a reglas determinadas cuando la p´erdida es convexa, ya que dada cualquier regla E(θ | x) =

δΠ∗ (x+ )

46

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

aleatoria puede conseguirse otra no aleatoria que es por lo menos tan buena como ´esta. (Ver Lehmann (1983), Corolario 1.6.2). Este hecho es consecuencia de la desigualdad de Jensen. Bajo el ordenamiento Bayesiano generalmente podemos restringirnos a reglas no aleatorias, sea la funci´on de p´erdida convexa o no (Teorema 2.3).

2.4

Representaci´ on Geom´ etrica de las Reglas de Bayes y Minimax para Θ finito.

El primer paso para visualizar el problema de decisi´on para Θ finito es notar que el conjunto de riesgo S es convexo. Consideremos Θ = {θ1 , θ2 , . . . , θk } y n

o

S = y ∈ R k : para δ ∈ D, yj = R(θj , δ), j = 1, . . . , k . Teorema 2.8 El conjunto de riesgo S es un conjunto convexo de R k . Prueba. Sean y y y ′ puntos arbitrarios de S, correspondientes a ′ δ y δ respectivamente. Sea α tal que 0 < α < 1 y consideremos la regla δα que escoge a δ con probabilidad α y δ ′ con probabilidad (1 − α). Entonces δα ∈ D y R(θj , δα ) = αR(θj , δ) + (1 − α)R(θj , δ ′ ), ∀ j = 1, . . . , k. Sea ahora z = (R(θ1 , δα ), . . . , R(θk , δα )) y se sigue que: z = αy + (1 − α)y ∈ S.

2

REGLAS DE BAYES: Para Θ finito, cualquier distribuci´on a priori es un conjunto de k n´ umeros no negativos Π(θj ) = Πj , j = 1, . . . , k, cuya suma es 1. De acuerdo al ordenamiento Bayesiano todos los puntos y = (y1 , . . . , yj ) que tengan el mismo riesgo esperado X

Πj R(θj , δ) =

X

Πj yj

son equivalentes, bajo la distribuci´on Π. Entonces todos los puntos en el plano: X Πj yj = b,

´ GEOMETRICA ´ 2.4. REPRESENTACION DE LAS REGLAS DE BAYES Y MINIMAX PARA Θ FINITO.47

para cualquier b real, son equivalentes. Variando b, cada uno de estos planos es perpendicular al vector del origen al punto (Π1 , . . . , Πk ), y como cada Πi es no negativa, la pendiente de la l´ınea de intersecci´on de cada plano con los ejes no puede P ser positiva. La intersecci´on del plano Πi yi = b con la diagonal y1 = . . . = yk debe ocurrir en el punto (b, b, b, . . . , b). Para encontrar la regla de Bayes minimizamos el riesgo esperado consiguiendo el ´ınfimo de los diferentes valores de b, lo llamamos b, para el cual el plano P Πi yi = b intersecta a S. Si S no contiene sus puntos de frontera, entonces no existir´an reglas de Bayes. Cuando S es un poliedro, cuyos v´ertices corresponden a decisiones no aleatorias, entonces el plano intersectar´a el poliedro al menos en uno de sus v´ertices. Si lo intersecta en s´olo uno de los v´ertices la regla de Bayes ser´a u ´ nica y no aleatoria. Si la intersecci´on contiene a m´as de un v´ertice habr´a una infinidad de reglas de Bayes, muchas de las cuales corresponder´an a reglas aleatorias pero siempre habr´a al menos una regla de Bayes que corresponder´a a una regla no aleatoria, es decir, un v´ertice. Si Πi > 0, ∀i = 1, . . . , k, la intersecci´on ocurrir´a en la frontera inferior y por tanto la o las reglas de Bayes, de existir, ser´an admisibles. Por otra parte, es razonable anticipar que podemos obtener todas las decisiones admisibles como reglas de Bayes para alguna distribuci´on a priori Π = (Π1 , . . . , Πk ), ya que alternando los valores de Πj cambiaremos el ´angulo de intersecci´on del P plano Πi yi = b con los ejes coordenados. De esta manera, al obtener las reglas de Bayes para todas las Π posibles, intersectaremos con todos los puntos de la frontera inferior de S. Haremos esta afirmaci´on m´as precisa en la pr´oxima secci´on. REGLAS MINIMAX: El riesgo m´aximo para una regla de decisi´on fija δ es supj R(θj , δ) = max yj Todos los puntos y ∈ S que produzcan el mismo valor de max yj , ser´an equivalentes minimax. Entonces todos los puntos y en la frontera del conjunto: Q∗c = {y = (y1 , . . . , yk ) : yj ≤ c, j = 1, . . . , k}, para cualquier n´ umero real c, son minimax equivalentes. Para encontrar reglas minimax encontramos el ´ınfimo de los c. Lo denotamos c, llamado riesgo minimax, para el que Q∗c intersecta a S. Cualquier δ,

48

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

cuyo punto de riesgo est´e asociado a un elemento de Q∗c ∩ S, es minimax. Es de prever entonces que incluso cuando reglas minimax existen, no necesariamente va a existir una minimax que sea no aleatoria, ya que Q∗c ∩ S no va a contener necesariamente uno de los v´ertices. De nuevo, no existir´an reglas minimax cuando S no contiene sus puntos de frontera. Notamos que pueden haber muchas reglas minimax, y que los puntos minimax no necesariamente caer´an en la diagonal y1 = . . . = yk . (Se sugiere al lector hacer varios dibujos, en particular donde S sea un rect´angulo o que S caiga enteramente por debajo de la diagonal). El Teorema 2.7 tambi´en puede ser visualizado geom´etricamente. Veamos una estrategia de la naturaleza como a la distribuci´on a priori Π, la cual representa a la familia de planos perpendiculares a Π = (Π1 , . . . , Πk ). Para encontrar reglas de Bayes el TD encuentra el plano de esta familia que es tangente por debajo a S. El riesgo de Bayes m´ınimo es b donde (b, . . . , b) es la intersecci´on de la recta y1 = . . . = yk con el plano tangente por debajo de S y perpendicular a (Π1 , . . . , Πk ). Entonces una distribuci´on de Murphy ser´a la selecci´on de valores Πj , j = 1, . . . , k, que haga esta intersecci´on tan lejos en la recta como sea posible. Como siempre sucede que b ≤ c, si encontramos una Π0 para la que b = c entonces Π0 debe ser de Murphy. Continuaci´ on Ejemplo 2.1. En este ejemplo tenemos Π1 = 0.6 y Π2 = 1 − Π1 = 0.4. Los procedimientos Bayes equivalentes cumplen con: Π1 y1 + (1 − Π1 )y2 = b donde b var´ıa en R. O equivalentemente, y2 =

b Π1 − y1 . 1 − Π1 1 − Π1

(2.26)

Como hab´ıamos anticipado el coeficiente de y1 es negativo, y la recta 1 que pase por el origen y por (Π1 , 1 − Π1 ) = (0.6, 0.4) ser´a y2 = 1−Π y1 y Π1 se  cumple   que su  pendiente multiplicada por la pendiente de (2.26) es 1−Π1 Π1 − 1−Π1 = −1, por lo que estas rectas son perpendiculares. La Π1 recta intersecci´on de la diagonal con (2.26) debe ocurrir en (b, b, . . . , b). Si procedemos a disminuir b, movemos la recta (2.26) en forma paralela

´ GEOMETRICA ´ 2.4. REPRESENTACION DE LAS REGLAS DE BAYES Y MINIMAX PARA Θ FINITO.49

no la interhasta intersectar a S en d3 , donde si hacemos b m´as peque˜ secci´on de (2.26) con S se hace vac´ıa. Para d3 , R(θ1 , d3 ) = −3910 y R(θ2 , d3 ) = 340 por lo que: b = (0.6)(−3910) + (0.4)(340) = −2210. La interpretaci´on geom´etrica del ordenamiento Bayesiano para Π1 = 0.6 se muestra en la figura 2.5, y en la figura 2.6 se muestra el ordenamiento minimax. Vemos all´ı que la diagonal corta en un s´olo punto la frontera inferior de S en la recta que une a d3 y d6 , y en consecuencia la regla minimax ser´a u ´ nica y aleatoria. Para hallarla buscamos una regla aleatorizada que escoja a d3 con probabilidad α y d6 con probabilidad (1 − α). Denotemos a esta regla δα− . Su punto asociado de riesgo estar´a en la diagonal y1 = y2 y por tanto R(θ, δα− ) = R(θ2 , δα−). Por ello es tal que: αR(θ1 , d3 ) + (1 − α)R(θ1 , d6) = αR(θ2 , d3 ) + (1 − α)R(θ2 , d6 ) 500 Sustituyendo los valores de los riesgos encontramos que: α = 4750 = 0.105 y (1 − α) = 0.895. Esto significa que para tomar una decisi´on el TD debe extraer un n´ umero uniformemente distribuido en [0,1]. Si ese n´ umero es menor o igual a 0.105, entonces el TD decide hacer el experimento, y si x = 0 tomo la acci´on a2 y si x = 1 tomo la acci´on a1 . Pero, si el n´ umero extra´ıdo es mayor a 0.105 entonces decido no hacer el experimento y tomar la acci´on a2 , es decir vender el campo. El riesgo de esta decisi´on minimax ser´a:

(0.105)(−3910)+(0.895)(0) = (0.105)(340)+(0.895)(−500) = −411.8 = c. Como se hab´ıa anticipado c es mayor o igual al riesgo esperado de Bayes b para Π1 = 0.6. ¿Es δα− una regla de Bayes para alguna Π∗ ?. Geom´etricamente se ve que la respuesta es afirmativa. Basta hallar aquella Π∗ para la cual la recta de puntos Bayes equivalentes sea paralela a la recta que une a d3 y d6 . Para Π∗ , todos los puntos de riesgo que unen a los que corresponden a d3 y d6 , ellos incluidos, corresponden a decisiones que son de Bayes. Encontremos Π∗ de tal manera que b∗ = c, o sea que Π∗ ser´a de Murphy.

50

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

R(θ2 , d) d1

2000

d5

d2

y1 = y2 1000

d3 -5000

-4000

b -3000

-2000

(Π1 , 1 − Π1 )

b -1000 d6

..Puntos ................. equivalentes .... ...  ... ... ................... ... ... ... .... . ...

d4

b

1000

R(θ1 , d)

-1000

b

Figura 2.5. Interpretaci´on geom´etrica de Bayes

Π∗1 R(θ1 , d3 )+(1−Π∗1 )R(θ2 , d3 ) = Π∗1 R(θ1 , d6 )+(1−Π∗1 )R(θ2 , d6 ) = b∗ = c Sustituyendo los valores de R(θi , d) y c, obtenemos la distribuci´on de Murphy Π∗1 = 0.1768 y Π∗2 = 1−Π∗1 = 0.8232. Si el TD hubiese adoptado un punto de vista Bayesiano, y por casualidad hubiese evaluado a priori que la probabilidad de que hubiese petr´oleo era de 0.1768, su recomendaci´on final hubiese sido simplemente escoger entre d3 y d6 es equivalente con la informaci´on disponible y la utilidad asignada. Pero claramente la decisi´on minimax en este ejemplo no es razonable.

51

2.5. ADMISIBILIDAD Y REGLAS DE BAYES

R(θ2 , d) d1

2000

d5

d2

y1 = y2 1000

d3 -5000

-4000

-3000

-2000

c. . ... .... c -1000 ......... d 1000 4 d6 Murphy -1000

R(θ1 , d)

-2000

3 2.5

Figura 2.6. Representaci´on geom´etrica de Minimax

Admisibilidad y Reglas de Bayes

La conclusi´on general que vamos a obtener en esta secci´on es doble: Por una parte las reglas de Bayes son admisibles bajo condiciones bastante generales, por la otra, las reglas admisibles ser´an de Bayes para alguna distribuci´on a priori o ser´an l´ımites de reglas de Bayes. Teorema 2.9 Si para la distribuci´on a priori Π la regla de Bayes promedio δΠ es u ´nica, o si existe m´as de una, y todas ellas tienen la misma funci´on de riesgo R(θ, δΠ ), entonces δΠ es admisible. Prueba. Supongamos que existe otra δ ′ tal que R(θ, δ ′ ) ≤ R(θ, δΠ ), ∀θ ∈ Θ. Entonces tomando valores esperados respecto de Π: r(Π, δ ′ ) = Eθ [R(θ, δ ′ )] ≤ Eθ [R(θ, δΠ )] = r(Π, δΠ ).

52

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Ahora como δΠ es Bayes promedio, δ ′ tambi´en debe serlo y para que ´esto no contradiga las hip´otesis debe cumplirse que R(θ, δ ′ ) = R(θ, δΠ ), ∀θ ∈ Θ, en cuyo caso ambas δ ′ y δΠ son admisibles.2 Del Teorema 2.3 sabemos que podemos restringirnos a las reglas no aleatorias. Por tanto el Teorema 2.9 se aplica esencialmente a reglas no aleatorias. Entonces si para Π la regla de Bayes no aleatoria dΠ es u ´ nica, o todas las reglas de Bayes no aleatorias tienen la misma funci´on de riesgo, dΠ es admisible. Seguidamente se dan condiciones para que la regla de Bayes sea u ´ nica en problemas de estimaci´on puntual. Teorema 2.10 Si la funci´on de p´erdida L(θ, d) es cuadr´atica, o m´as generalmente, es estrictamente convexa en d, la regla de Bayes δΠ es u ´nica, excepto en conjuntos N tal que PX|θ (N) = 0, ∀θ ∈ Θ, siempre que: 1. r(Π, δΠ ) < ∞ 2. Conjuntos de medida cero de acuerdo a la distribuci´on predictiva, es decir, que si PX (N) =

Z

Θ

PX|θ (N)dΠ(θ) = 0,

cumplan con PX|θ (N) = 0, ∀θ ∈ Θ Prueba. Para error cuadr´atico medio, se sigue de la parte 1 del Teorema 2.5 que cualquier estimador de Bayes δΠ de g(θ) debe ser igual a E[g(θ) | x] excepto en un conjunto N con PX (N) = 0. Para p´erdidas estrictamente convexas la demostraci´on es consecuencia de que si existe un valor que minimiza a una funci´on estrictamente convexa, ´este es u ´ nico, y lo que sigue se deja como ejercicio. 2 La siguiente regla fue originalmente enunciada por D. Lindley, y es un precepto muy conveniente al momento de asignar distribuciones a priori.

53

2.5. ADMISIBILIDAD Y REGLAS DE BAYES

REGLA DE CROMWELL: Al asignar una densidad a priori sobre Θ, es conveniente que Π(θ) > 0, ∀θ ∈ Θ. Una tal densidad a priori se la denomina de Cromwell. Si π(θ0 ) = 0, entonces por el Teorema de Bayes (1.2), π(θ0 | x) = 0, incluso si la verosimilitud p(x | θ0 ) es muy grande. Es muy peligroso y dogm´atico asignar previas que no sean de Cromwell, ya que no importa cu´an informativo sea el experimento, nunca podr´a alertar sobre nuestra posible informaci´on err´onea a priori. Un enunciado menos estricto de las reglas de Cronwell establecer´ıa que si Θ es el espacio donde se mueven los par´ametros, el soporte de la distribuci´on a priori Π debe ser igual a Θ. La condici´on (2) del Teorema 2.10 se satisface cuando el espacio de par´ametros Θ es un conjunto abierto, que es el soporte de Π (Cromwell), y si la probabilidad PX|θ (A) es continua en θ para todo A. En efecto, PX (N) = 0 implica que PX|θ (N) = 0 c.s.Π. Ahora si existe θ0 tal que PX|θ0 (N) > 0 entonces existe una vecindad V de θ0 en la cual si θ ∈ V, PX|θ (N) > 0. Como Π es de Cromwell, Pθ (V ) > 0 lo que contradice la suposici´on de que PX|θ (N) = 0 c.s.Π. Otra consecuencia agradable de previas de Cromwell es el siguiente Teorema. Teorema 2.11 Supongamos que el espacio de par´ametros es discreto, Θ = {θ1 , θ2 , . . .} y que existe una regla de Bayes δΠ para Π = {Π1 , Π2 , . . .}, tal que r(Π, δΠ ) sea finito. Si Π es de Cromwell, o sea Πj > 0, ∀j = 1, 2, . . . , entonces δΠ es admisible. Prueba.

Si δΠ no es admisible entonces existe δ ′ tal que R(θj , δ ′ ) ≤ R(θj , δΠ )

∀θj ∈ Θ,

y existe alg´ un θi ∈ Θ tal que R(θi , δ ′ ) < R(θi , δΠ ). Como Πj > 0 ∀j r(Π, δ ′ ) =

X j

Πj R(θj , δ ′ )
0. Como R(θ, δ) es continua en θ, ∀δ ∈ D, tambi´en lo ser´a f (θ). Para 2ǫ , existe η > 0 tal que si | θ − θ0 |< η, | f (θ) − f (θ0 ) |< 2ǫ y entonces f (θ) > f (θ0 ) − 2ǫ = 2ǫ . Sea I = (θ0 − η, θ0 + η). Tomando valor esperado en Π, sigue que: ǫ r(Π, δΠ ) − r(Π, δ ′ ) = Eθ [R(θ, δΠ ) − R(θ, δ ′ )] > Pθ (I), 2 pero como θ0 est´a en el soporte de Π (Cromwell) se tiene que Pθ (I) > 0, lo que contradice el hecho de que δπ es de Bayes.2 ¿Cu´ando R(θ, δ) ser´a continua?. Si L(θ, a) es acotada, entonces supa | L(θ, a) − L(θ0 , a) |→ 0 cuando θ → θ0 para cada θ0 ∈ Θ, y si p(x | θ) es suficientemente regular, entonces R(θ, δ) es continua (Ferguson, 1967, Teorema 3.7.1). Una familia amplia de verosimilitudes, para las que R(θ, δ) es continua, incluso si L(θ, a) no es acotada (como en error cuadr´atico), es la Familia Exponencial de verosimilitudes (Ferguson, 1967, Teorema 3.7.2). Ejemplos de verosimilitudes que pertenecen a esta familia son: Binomial, Multinomial, Poisson, Beta, Normal, Gamma y otras. Por su importancia se estudiar´a esta familia con m´as detalle en los pr´oximos cap´ıtulos. El pr´oximo problema que enfocaremos es la existencia de reglas de Bayes para un problema de decisi´on. Comenzaremos por suponer que el conjunto de riesgo satisface las condiciones del Teorema 2.1. O sea:

55

2.5. ADMISIBILIDAD Y REGLAS DE BAYES

1. λ(S) ⊂ S, esto dice que S es cerrado por debajo. 2. Existe M tal que si (y1 , . . . , yk ) ∈ S entonces yj > −M, ∀j = 1, . . . , k, es decir S es acotado por debajo. Teorema 2.13 Supongamos que Θ = {θ1 , . . . , θk } y que el conjunto de riesgo S es cerrado y acotado por debajo. Si Π es de Cromwell, Πj > 0, ∀j = 1, . . . , k, entonces existe una regla de Bayes respecto de Π. n

o

P

un y ∈ S . El conPrueba. Sea B = b : b = kj=1 Πj yj para alg´ junto B es acotado ya que S lo es. Sea b0 = inf B. Para cualquier P (n) sucesi´on y (n) ∈ S tal que Πj yj converja a b0 , el hecho de que Π sea de Cromwell implica que cada sucesi´on y (n) est´a acotada por arriba. Entonces existe un l´ımite finito y0 de la sucesi´on y (n) y adem´as P Πj yj0 = b0 . Veamos que y0 ∈ λ(S). Denotemos por cl(S) a la clausura de S y n

o

Q∗y = x ∈ R k : xj ≤ yj , ∀j , o sea el conjunto de puntos que son al menos tan buenos como y. Como y 0 es un l´ımite de puntos en S, y0 ∈ cl(S) y {y 0 } ⊂ cl(S) ∩ Q∗y0 . M´as a´ un Qy 0 ∩ cl(S) ⊂ {y0 }. En efecto, sea y ′ ∈ Q∗y 0 − {y 0 } = Qy 0 P (Definici´on 2.6) entonces: Πj yj′ < b0 y si yj′ ∈ cl(S) existir´an puntos P y ∈ S tal que Πj yj < b0 lo que contradice el hecho que b0 sea una cota inferior de B. Entonces Q∗y 0 ∩ cl(S) = {y0 }, lo que implica que y 0 ∈ λ(S). Ahora bien, como S es cerrado por debajo, y0 ∈ S, lo que implica P que el m´ınimo valor de r(Π, δ) = Πj R(θj , δ) se obtiene en un punto de S. Finalmente cualquier δ ∈ D, para la que R(θj , δ) = yj0 , j = 1, . . . , k, es una regla de Bayes para Π. 2 En el resto de esta secci´on el Teorema del Hiperplano Separante, que es equivalente al Teorema de Hahn-Banach para espacios lineales bastante generales, es crucial. Este Teorema establece que cualquier par de conjuntos convexos pueden ser separados por un plano.

56

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Teorema 2.14 (Hiperplano Separante.) Sean S1 y S2 conjuntos convexos y disjuntos de R k . Entonces existe un vector p 6= 0 tal que: pt y ≤ pt x Prueba.

∀x ∈ S1 , ∀y ∈ S2 .

Ver Ferguson 1967, p.70-74.

2

S z Qz Hiperplano

{w : Πt w = c}

Figura 2.7. Hiperplano separante Teorema 2.15 (Desigualdad de Jensen.) Sea f una funci´on convexa en R definida en un conjunto convexo no vac´ıo S de R k . Sea X un vector aleatorio k dimensional con esperanza E[X ] finita para el que P (X ∈ S) = 1. Entonces E(X ) ∈ S y f (E[X ]) ≤ E[f (x)]. Prueba.

Ver Ferguson 1967, p.76-77.

2

Ya se hab´ıa anticipado, como una consecuencia de la desigualdad de Jensen, que para una funci´on de p´erdida convexa tal que toda decisi´on aleatorizada tiene p´erdida esperada finita podemos restringirnos a decisiones no aleatorias. La idea b´asica es la siguiente. Si X es una v.a que toma valores en el conjunto de acciones posibles A de acuerdo a la distribuci´on P , entonces: L(θ, P ) = E[L(θ, x)] ≥ L(θ, E[X ])

y

E[X ] ∈ A.

57

2.5. ADMISIBILIDAD Y REGLAS DE BAYES

La pregunta que nos interesa ahora es si toda regla admisible es de Bayes para alguna Π. La respuesta es afirmativa para Θ finito. Teorema 2.16 Supongamos que Θ es finito. Si la regla δ ∈ D es admisible, entonces δ es una regla de Bayes para alguna distribuci´on Π. Prueba. Sea δ admisible cuyo punto de riesgo asociado es z. Entonces Qz ∩S = ∅, o sea no hay puntos mejores a z. Tenemos por tanto dos conjuntos convexos y disjuntos, Qz y S. La situaci´on se describe en la figura 2.7. Por el teorema del hiperplano separante, existe un vector Π 6= 0 tal que Πt y ≤ Πt x, ∀y ∈ Qz y ∀x ∈ S. Sea c = Πt z. Entonces el hiperplano {w : Πt w = c} separa a Qz de S. Esto es porque si x ∈ S y y ∈ Qz , tenemos Πt y ≤ c = Πt z ya que z ∈ S. Adem´as, Πt x ≥ sup{Πt y : y ∈ Qz } = Πt z. Entonces Πt y ≤ c = Πt z ≤ Πt x

∀y ∈ Qz y ∀x ∈ S,

y decimos que el hiperplano es tangente a S, en el punto z. Veamos que Πj ≥ 0 para cada j. Consideremos cualquier y con yj < zj , ∀j. Como y ∈ Qz entonces Πt y ≤ Πt z, por lo tanto Πj (zj − yj ) ≥ 0, o sea Πj ≥ 0. Como Π 6= 0 y cada una de sus componentes es no P negativa, Πj > 0. Podemos entonces normalizar a Π para hacerla j una distribuci´on haciendo Π∗j = PΠΠ . (Notar que todas las propiedades j de Π descritas arriba son heredadas por Π∗ ). Luego Π(θj ) = Π∗j define una distribuci´on de probabilidad para la cual el punto x tiene riesgo Bayesiano (Π∗ )t x. Pero, (Π∗ )t z ≤ (Π∗ )t x para todo x ∈ S, o sea z es un punto en S con riesgo de Bayes m´ınimo. Como z es el punto de riesgo de δ, esta regla es de Bayes para la distribuci´on Π∗ . 2 Corolario 2.3 En las condiciones del Teorema 2.16, todas las reglas de decisi´on cuyos puntos de riesgo est´an en λ(S) son reglas de Bayes. ¿Ser´a cierto que en general toda regla admisible es de Bayes?. La mala noticia es que no es cierto, la buena es que es “casi” cierto.

58

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Ejemplo 2.9. Supongamos que la variable aleatoria X ∼ N(θ, 1), o sea Θ = R. Se desea atico. Entonces P estimar θ con error cuadr´ xi el estimador δ(x) = n = x, para una muestra de tama˜ no n, es admisible (Lehmann 1983, p. 265-267, Berger 1985, p. 545-548). Pero x no es de Bayes, como vimos en la aplicaci´on (1) del Teorema 2.6. Esta es la raz´on por la cual probar admisibilidad de x no es f´acil. Sin embargo vimos en el ejemplo 2.6, (2.10), que el estimador de Bayes para una densidad previa normal puede escribirse como: µn(x | τ 2 , µ) =

1 n

τ2 +

1µ+ n

τ2 x. τ 2 + n1

Entonces x puede aproximarse por µn (x | τ 2 , µ) de dos maneras: 1. Si n → ∞, µn (x | τ 2 , µ) → x. Decimos que x es “l´ımite de Bayes”. 2. Si τ 2 → ∞ para cualquier n fijo, µn (x | τ 2 , µ) → x. Decimos que x es la esperanza a posteriori, partiendo de una densidad a R∞ priori impropia π(θ) = 1, −∞ π(θ)dθ = ∞, y por tanto no es “propiamente” de Bayes.3 Es cierto, con gran generalidad, que toda decisi´on admisible es de Bayes o l´ımite de Bayes (en varios sentidos), Wald(1950), Brown(1986) p. 254-268. Es en cierta manera parad´ojico (y afortunado) que a´ un desde el punto de vista cl´asico-frecuentista que propone la admisibilidad como desideratum, concluyamos que se debe actuar “como Bayesiano” (o l´ımite de Bayesiano).

2.6

Admisibilidad y Reglas Minimax∗

Comenzamos por presentar una ilustraci´on de Teor´ıa de Juegos donde el criterio minimax tiene su ´ambito natural. Ejemplo 2.10 (Pares o Nones, Ferguson 1967). Dos jugadores muestran 1 o 2 dedos simult´aneamente. El jugador 1 (Naturaleza) recibe en $, del jugador 2, el n´ umero de dedos sobre la mesa, siempre que el total de dedos mostrado sea impar. El jugador 2 (TD) recibe,

2.6. ADMISIBILIDAD Y REGLAS MINIMAX∗

59

del jugador 1, en $, el n´ umero de dedos sobre la mesa siempre que el total sea par. Si la p´erdida es monetaria, para el Jugador 2, ´esta viene dada por: Θ\A 1 2 L(θ, a) : 1 -2 3 2 3 -4 Este es un juego de “suma cero” ya que lo que recibe un jugador lo pierde el otro. ¿Cu´al de los dos jugadores ud. preferir´ıa ser?. Llamemos δp a una estrategia aleatoria seguida por el jugador 2 (una decisi´on determinada ser´ıa tonta en este contexto) que escoge 1 con probabilidad p y 2 con probabilidad (1-p). El conjunto de riesgo de δp viene dado por: S = {(L(θ1 , δp ), L(θ2 , δp )) : 0 ≤ p ≤ 1} , entonces S = {(−2p + 3(1 − p), 3p − 4(1 − p)) : 0 ≤ p ≤ 1} = {(3 − 5p, −4 + 7p) : 0 ≤ p ≤ 1}. El conjunto de riesgo S es una recta que une (3,-4) con (-2,3), y se muestra en la figura 2.8. La estrategia minimax vendr´a dada por la b o sea intersecci´on de S con la diagonal y1 = y2 : 3 − 5pb = −4 + 7p, 7 7 1 pb = 12 el cual corresponde a un riesgo minimax: 3 − 5 12 = 12 . En este ejemplo la regla minimax es tambi´en de Bayes respecto a la distribuci´on (Π1 , 1 − Π1 ) que es perpendicular a S, (secci´on 2.3). La pendiente de 1 la recta que pasa por el origen y (Π1 , 1 − Π1 ) es 1−Π , que multiplicada Π1 c = 7. por la pendiente de S debe ser igual a -1, de donde Π 1 12 b Esto De hecho cualquier δp (y no s´olo δpb) es de Bayes respecto de Π. es consecuencia de que S es una recta, que queda completamente intersectada por la recta que definen los procedimientos Bayes-equivalentes c para al tocar la frontera inferior de S. El riesgo Bayesiano de Π 1 1 c c c cualquier δp es: Π1 (3 − 5p) + (1 − Π1 )(−4 + 7p) = 12 , entonces Π 1 es de Murphy, por ser igual al riesgo minimax. El jugador 1 (siendo in7 teligente) escoge θ1 con probabilidad 12 . Esta regla mantiene la p´erdida

60

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

esperada de Π en al menos del juego V .

1 . 12

Llamaremos a este valor, el valor inferior

θ2

y1 = y2

(1/12, 1/12) )

θ1

S

Figura 2.8 Juego de pares o nones Por su parte el jugador 2 (siendo inteligente y estoico) tiene una 7 , que restringe su p´erdida esperada en a lo estrategia δpb con pb = 12 1 sumo 12 . Llamaremos a este valor, el valor superior del juego V . En este ejemplo, V = V = V , llegando as´ı a un punto de equilibrio y se dice que el juego tiene un valor V . Un ´arbitro imparcial dictaminar´ıa 1 como “justo” que 2 le pagase a 1, 12 . ¿Ud. escoger´ıa ser el jugador 1?3 A continuaci´on se introducir´an formalmente algunas definiciones anticipadas en el ejemplo 2.9. Definici´ on 2.13 Denotemos por Θ∗ al conjunto de todas las distribuciones de probabilidad sobre Θ. Usando el ejercicio 2.14, podemos refrasear la definici´on de una regla minimax δ − ∈ S como inf sup r(Π, δ) = sup r(Π, δ −). δ∈D Π∈Θ∗

Π∈Θ∗

61

2.6. ADMISIBILIDAD Y REGLAS MINIMAX∗

Definici´ on 2.14 El riesgo o valor minimax o valor superior del juego V se define por: V = inf sup R(Π, δ) = inf sup r(Π, δ). δ∈D Π∈Θ

δ∈D Π∈Θ∗

El valor V es obtenido por una regla minimax. Definici´ on 2.15 El riesgo o valor maximin o valor inferior de juego V se define por: V = sup inf r(Π, δ). Π∈Θ∗ δ∈D

Note que si δΠ es de Bayes respecto de Π entonces: V = sup r(Π, δΠ ), Π∈Θ∗

y concluimos que V es obtenido por una distribuci´on de Murphy (Definici´on 2.12). Teorema 2.17 V ≤ V . Prueba.

Para cualquier Π′ ∈ Θ∗ y δ ∈ D se cumple que r(Π′ , δ) ≤ sup r(Π, δ), Π∈Θ∗

y esto implica inf r(Π′ , δ) ≤ inf sup r(Π, δ) = V ,

δ∈D

δ∈D Π∈Θ∗

y como esto se cumple para cualquier Π′ ∈ Θ∗ , tambi´en tomando el supremo en Θ∗ en la parte izquierda, y por tanto: V ≤ V .2 En Teor´ıa de Juegos es fundamental saber cuando V = V = V , o sea cuando V ≥ V , ya que en ese caso un punto de equilibrio en el juego existe. En Teor´ıa de Decisi´on sin embargo, como la naturaleza no est´a conspirando continuamente en arruinarnos, no es tan crucial. Sin embargo es u ´ til saber cuando las reglas minimax son tambi´en de Bayes.

62

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Teorema 2.18 (Teorema Minimax). Suponemos que Θ es finito, Θ = {θ1 , . . . , θk }, y que S es acotado por debajo. Entonces V = V = V y existe una distribuci´on de Murphy Π0 . M´as a´ un, si S es cerrado por debajo, entonces existe una regla minimax admisible δ − la cual es de Bayes respecto de Π0 . Prueba. Queremos verificar que V ≤ V . Denotemos por α1 al vector (α, . . . , α)t . Sea V = sup{α : Q∗α1 ∩ S = ∅}. La situaci´on es similar a la figura 2.8, donde α1 = z. Veamos que V ≤ V . Se cumple que para cada n, existe una regla δn tal que: R(θi , δn ) ≤ V +

1 n

∀i = 1, . . . , k.

(2.27)

Por lo tanto, para todo Π ∈ Θ∗ , r(Π, δn) ≤ V +

1 n

1 sup r(Π, δn ) ≤ V + , n Π∈Θ∗

y

para todo n. Esto implica que V ≤ V . Veamos ahora que V ≤ V . Denotemos al interior de Q∗α1 por Qoα1 . Notemos que Qoα1 y S son conjuntos convexos y disjuntos. Por el Teorema 2.13, existe un hiperplano Πt x = c que separa a Qoα1 y S, Πt x ≥ c si x ∈ S y Πt x ≤ c si x ∈ Qoα1 . Todas las coordenadas de Π deben ser no negativas. En efecto, supongamos que Πi < 0. Hagamos xi → −∞, manteniendo las otras coordenadas fijas. Pero x ∈ Qoα1 y Πt x → ∞ P lo cual contradice que para x ∈ Qoα1 , Πt x ≤ c. Entonces Πi > 0 y procediendo an´alogamente al Teorema 2.15, renormalizamos a Π de tal P manera que Πi = 1. Llamemos a esa distribuci´on Π0 , que puede ser tomada como distribuci´on a priori. Como para x ∈ Qoα1 , Πt0 x ≤ c, si hacemos x tender a α1 vemos que V ≤ c. Entonces para todo δ, r(Π0 , δ) =

X

Πi R(θi , δ ≥ c ≥ V.

Por lo tanto Π0 es de Murphy y: V = sup inf r(Π, δ) ≥ inf r(Π0 , δ) ≥ V, Π∈Θ∗ δ∈D

y finalmente:

δ∈D

(2.28)

63

2.6. ADMISIBILIDAD Y REGLAS MINIMAX∗

V = V = V. Ahora sea S cerrado por debajo. Tomemos la δn de (2.27) denotando yn = (R(θ1 , δn ), . . . , R(θk , δn)). Como la sucesi´on y n es acotada, tienen un punto l´ımite y, que adem´as pertenece a cl(S). Entonces Q∗y ∩cl(S) 6= ∅ y λ(Q∗y ∩S) 6= ∅, ya que de la demostraci´on del Teorema 2.12 concluimos que si un conjunto convexo no vac´ıo B es acotado por debajo, entonces λ(B) 6= ∅. Sea z ∈ λ(Q∗y ∩ cl(S)), y como Q∗y ∩ cl(S) ∩ Q∗z = {z}, tenemos que z ∈ Q∗y y Q∗z ∩ cl(S) = {z} y por tanto z ∈ λ(S). Como S es cerrado por debajo, z ∈ S y cualquier δ0 cuyo punto de riesgo sea z es admisible (Teorema 2.1). Adem´as δ0 satisface: r(π, δ0 ) ≤ V ya que R(θi , δ0 ) ≤ V, ∀i = 1, . . . .k. Finalmente, de (2.28), r(Π0 , δ0 ) = V , o sea que δ0 es de Bayes para Π0 .2 Una versi´on m´as general aparece por ejemplo en Blackwell y Girshick (1954), donde se requiere que el espacio de acciones A sea un subconjunto cerrado, acotado y convexo de R n y L(θ, a) sea, para cada θ, una funci´on continua en a y convexa. En general no siempre ocurre que estrategias minimax o maximin existen. Para espacios de acciones no acotados, el siguiente ejemplo ilustra que el juego no tiene ni siquiera un valor. Ejemplo 2.11. Consideremos el juego donde cada jugador escoge un n´ umero positivo. El jugador que escoja el n´ umero mayor gana $1 del otro. Aqu´ı, Θ = A = (1, 2, . . .) con:   

1 L(θ, a) =  0  −1

si si si

θ>a θ=a θa Πi − i 0} Sugerencia: tome Π1 = 1. (Ver Ferguson 1967). 2.13 Obtener X como regla de Bayes generalizada en la situaci´on del ejemplo 2.9, para la densidad a priori impropia π(θ) = 1 (Uniforme en toda la recta). 2.14 Demostrar que supΠ∈Θ∗ r(Π, δ) = supθ∈Θ R(θ, δ). 2.15 Verificar que en la situaci´on del ejemplo 2.11, V =1. 2.16 Verificar que el estimador δ(x) = x del ejemplo 2.5 es minimax y es una regla igualadora para cualquier dimensi´on n. 2.17 Verificar las afirmaciones del ejemplo 2.8. 2.18 Un inversionista puede invertir $5000 en el banco o en acciones. Las acciones pueden subir θ1 o bajar θ2 de modo que la informaci´on disponible est´a contenida en siguiente tabla: U(θ, a) invertir banco prob.

θ1 θ2 5100 4900 5000 5000 0.6 0.4

Una posibilidad es que el inversionista decida pagar f d´olares para que un experto lo asesore. Se sabe que la opini´on del experto, X1 invertir, X2 no invertir, tiene una confiabilidad que se expresa en: p(x1 | θ1 ) = 0.8

p(x2 | θ2 ) = 0.7.

68

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Hacer un ´arbol de decisi´on y decidir la acci´on que produzca una mayor utilidad esperada. 2.19 Un comprador exige una garant´ıa de un a˜ no sobre un cierto equipo. El proveedor tiene la opci´on de revisar el equipo a1 o no, a2 . La utilidad de estas acciones es: U(θ, a) Defectuoso No defectuoso

a1 a2 700 0 800 1000

Para detectar posibles fallas en el equipo el proveedor puede usar un aparato de chequeo que consta de dos sensores. Los sensores activan una se˜ nal auditiva con probabilidad 0.9, si el aparato es defectuoso y con probabilidad 0.4 si no lo es. El costo del aparato es de 100 y se toma la decisi´on de revisar el equipo si por lo menos uno de los dos sensores se activa. El proveedor sabe por experiencia que el 20% de los equipos es defectuoso. Dibuje un ´arbol de decisio´on que permita obtener la decisi´on ´optima para el proveedor. 2.20 Un paciente de emergencia puede tener dos tipos de enfermedad: Tipo I con probabilidad 0.4 y Tipo II con probabilidad 0.6. De no recibir el tratamiento adecuado podr´a morir con probabilidad 0.8. El m´edico puede tomar tres acciones: 1. no tratar al paciente 2. darle una droga al paciente 3. operar al paciente pero estas tres acciones son excluyentes. Tanto una operaci´on como la droga le pueden producir la muerte al paciente, la primera con probabilidad 0.5 y la segunda con probabilidad 0.2. Si el paciente sobrevive a la droga, esta no har´a efecto con probabilidad 0.5 si tiene la enfermedad Tipo I, mientras que la probabilidad ser´a 1 si tiene la enfermedad Tipo II. Para el caso de que

2.7. EJERCICIOS

69

sobreviva a la operaci´on, esta ser´a beneficiosa con probabilidad 0.8 si tiene la enfermadad Tipo I y con probabilidad 0.4 si tiene la Tipo II. Grafique un ´arbol de decisi´on que permita seguir la estrategia ´optima. ¿Qu´e debe hacer el m´edico?. 2.21 Considere una muestra X1 , . . . , Xn ∼ N(θ, σ 2 ) donde σ 2 es conocida y suponga π(θ) = N(µ, τ 2 ). Calcule δπ∗ para estimar θ. 2.22 Considere un experimento binomial X ∼ Bin(n, θ), n fijo, y suponga que π(θ) = Beta(n0 x0 , n0 (1 − x0 )). Calcule δπ∗ para estimar θ. 2.23 A una pieza de un motor de avi´on se le puede hacer una prueba antes de su instalaci´on. Esa prueba tiene una chance de 75% de revelar que la pieza es defectuosa, y el mismo chance de aprobar una pieza buena. Tanto si se ha hecho la prueba o no, se puede a un alto costo rehacer la pieza pero as´ı estaremos seguros de que la pieza est´a libre de defectos. Si se instala una pieza defectuosa se pierde L. Rehacer la pieza tiene un costo de L/5, y sabemos que a priori una de cada ocho piezas es defectuosa. Calcule hasta cu´anto se puede pagar por hacer la prueba, determinar el ´arbol de decisi´on y las decisiones ´optimas.

70

´ ´ CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

Cap´ıtulo 3 Fundamentos de la Teor´ıa Bayesiana de Decisi´ on En este cap´ıtulo haremos una revisi´on r´apida de los fundamentos de la Teor´ıa Subjetiva Bayesiana, diferentes de los fundamentos estudiados en el Cap´ıtulo 2, el cual est´a basado en el concepto frecuentista de riesgo R(θ, d) y admisibilidad. En la primera secci´on introducimos la Teor´ıa de Utilidad que ilustra que la Teor´ıa Estad´ıstica de Decisi´on, al igual que el resto de las teor´ıas matem´aticas, puede ser axiomatizada (los axiomas de racionalidad) obteni´endose, como consecuencia l´ogica, el m´etodo Bayesiano de minimizar la p´erdida esperada. Ning´ un otro enfoque ha podido ser axiomatizado, pero existen conjuntos de axiomas menos restrictivos que generalizan el enfoque Bayesiano “estricto” (es decir el que incluye la hip´otesis de la precisi´on). Una tal generalizaci´on se debe a Walley(1991), quien demuestra que la coherencia del enfoque Bayesiano estricto se preserva bajo condiciones m´as realistas. En la u ´ ltima secci´on de este cap´ıtulo expondremos otros principios generales fundamentales, el de la verosimilitud y el del riesgo posterior, que nos indican que la estad´ıstica frecuentista (o incondicional) tiene problemas b´asicos y que s´olo un m´etodo condicional a los datos obtenidos X , puede ser correcto. 71

72

´ CAP´ıTULO 3. FUNDAMENTOS DE LA TEOR´ıA BAYESIANA DE DECISION

3.1

Breve introducci´ on a la Teor´ıa de Utilidad

El objetivo de la Teor´ıa de Utilidad es el de construir la funci´on de utilidad (o p´erdida) y el de justificar el principio Bayesiano de maximizar (minimizar) la utilidad (p´erdida) esperada. La Teor´ıa de la Utilidad tiene sus origenes en Ramsey(1926) y De Finetti(1937). Aqu´ı haremos una breve introducci´on. Tratamientos m´as completos aparecen en DeGroot(1970), Ferguson(1967) y Berger(1985). Al momento de evaluar las consecuencias de las posibles acciones nos encontramos al menos con dos dificultades. La primera es que debemos comparar los valores de entidades muy dis´ımiles para las cuales no existe una obvia escala de medida. Considere por ejemplo la posibilidad de asistir a un curso de Teor´ıa de Decisi´on que durar´a un par de semanas. Alternativamente podr´ıa tomar vacaciones o aceptar un trabajo durante ese per´ıodo. Todo el tiempo tenemos que tomar decisiones de este tipo, pero no est´a nada claro que exista una escala precisa en la cual podamos comparar las consecuencias, que van a ser no determin´ısticas, de las tres posibles acciones descritas. El segundo problema es que incluso cuando existe una escala, por ejemplo monetaria, ´esta no necesariamente refleja los verdaderos valores del TD. Supongamos que su Departamento de Matem´aticas le ofrece $ 500 por dictar un curso en el per´ıodo vacacional. Si usted tuviese en el banco a su disposici´on $ 5000, valorar´ıa mucho menos el salario que le ofrecen a costa de arruinar sus vacaciones, que si no tuviese reserva alguna. En otras palabras el valor que usted le asigna a $ 5500 no es el mismo que usted le asigna al valor de $ 5000 m´as el valor de $ 500. O sea, su escala de valores no es lineal, pero la escala monetaria s´ı. Otro ejemplo es el siguiente: Suponga que usted ha sido el ganador de una competencia y se le ofrece una de dos opciones: un regalo de $ 100 o lanzar una moneda balanceada y si ´esta cae cara usted recibe $ 300, y si cae sello usted no recibe nada. Probablemente usted se quedar´ıa con los $ 100 seguros, o sea que su valor esperado de la segunda opci´on es menor que $ 100. Pero si su escala de valores fuese monetaria, usted esperar´ıa recibir $ 150 y deber´ıa (siendo racional) aceptar la segunda opci´on. Si acepta la primera opci´on significa que

´ A LA TEOR´ıA DE UTILIDAD 3.1. BREVE INTRODUCCION

73

usted valora $ 300 en mucho menos de tres veces lo que usted valora $ 100, o usted est´a siendo irracional. Ejemplo 3.1 (La Paradoja de San Petersburgo). Usted debe pagar $ c para entrar en el siguiente juego de apuestas. Se lanza una moneda balanceada (probabilidad de caer cara igual 1/2) hasta que la primera cara aparezca. Si ´esto toma n lanzamientos a usted se le paga $ 2n . ¿Cu´anto est´a usted dispuesto a pagar para entrar en esta apuesta?. Supongamos que su escala de valores es monetaria, entonces su utilidad esperada es: ∞ X

n=1

n

!

2 P (n) − c =

∞ X

n=1

n −n

2 2

!

− c = ∞.

Por lo tanto usted deber´ıa estar dispuesto a pagar $ c arbitrariamente grande para entrar en la apuesta ya que la utilidad esperada ser´a positiva, a pesar de que la probabilidad de ganar $ 16 o m´as es de apenas 18 . Lo irracional de este hecho nos indica que nuestra escala de valores respecto al dinero no debe ser lineal, sino c´oncava para magnitudes grandes, y posiblemente acotada. ¿A qui´en le importa $ 1 cuando ya tiene $ 10100 ?.3 Las consecuencias de nuestros actos ser´an llamadas “recompensas” r y su espacio es ℜ. A menudo hay incertidumbre sobre las consecuencias que realmente van a ocurrir. As´ı los resultados de las acciones son distribuciones de probabilidad P en ℜ, llamadas apuestas. Denotaremos por P al conjunto de esas probabilidades. Para trabajar con valores y preferencias en P, supongamos por el momento la existencia de una funci´on U(r) con valores en los reales , tal que el valor de la distribuci´on P ∈ P viene dado por el valor esperado de U bajo P . Denotamos a este valor esperado por: E P [U(r)] o simplemente por U(P ). Si esta funci´on U existe, la llamamos la funci´on de utilidad. Supongamos que el TD puede avaluar sus preferencias entre las apuestas. Esto es para P1 y P2 en P puede juzgar si: 1. P1 6

P2 (prefiere P2 a P1 ) ´o

2. P2 6

P1 (prefiere P1 a P2 ) ´o

74

´ CAP´ıTULO 3. FUNDAMENTOS DE LA TEOR´ıA BAYESIANA DE DECISION

3. P1 ≈ P2 (P1 y P2 son equivalentes).

Esta avaluaci´on puede ser muy dif´ıcil en la pr´actica, y puede diferir entre individuos. Escribimos P1 6 P2 para decir que P1 no se prefiere a P2 , o sea P1 6 P2 ´o P1 ≈ P2 . Una recompensa r ∈ ℜ la identificaremos con la distribuci´on en P, denotada por hri, que le asigna probabilidad uno al punto r. El objetivo es buscar una funci´on U que represente a trav´es de su valor esperado, el patr´on de preferencias del TD en P. Esto es, procurarnos una funci´on U tal que P1 6 P2 si y s´olo si U(P1 ) ≤ U(P2 ), que ser´a la funci´on de utilidad. Su existencia no est´a nada clara y ser´a consecuencia de los axiomas de racionalidad que postularemos luego. Presentamos seguidamente dos m´etodos u ´ tiles para la construcci´on de U (supuesta su existencia). En estos m´etodos nos concernir´an mezclas de apuestas de la forma P = αP1 + (1 − α)P2, donde 0 < α < 1. Esta P es la distribuci´on en P tal que para A ⊂ ℜ, P (A) = αP1 (A) + (1 − α)P2 (A). En particular, P = αhr1i + (1 − α)hr2 i es la distribuci´on que asigna probabilidad α a la recompensa r1 y (1 − α) a la recompensa r2 . Note que por ejemplo: U(P ) = αU(hr1 i) + (1 − α)U(hr2i) = αU(r1 ) + (1 − α)U(r2 ), es el valor esperado de la recompensa para la apuesta P .

3.1.1

M´ etodos de construcci´ on de la funci´ on de utilidad U

METODO 1: En este m´etodo, α es un n´ umero tal que 0 < α < 1. Los pasos a seguir son: 1. Se escogen dos recompensas r1 y r2 tal que: r1 6 r2 . Si existen una recompensa mejor y una peor as´ıgnelos a r1 y r2 respectivamente. Haga U(r1 ) = 0 y U(r2 ) = 1. 2. Para una recompesa r3 , tal que r1 6

r3 6

r2 encuentre α tal que:

r3 ≈ P = αhr1 i + (1 − α)hr2i. O sea, r3 es equivalente a la apuesta que nos da r1 con probabilidad α y r2 con probabilidad (1 − α). (Encontrar α puede ser dif´ıcil). Defina, U(r3 ) = U(P ) = αU(r1 ) + (1 − α)U(r2 ) = 1 − α.

´ A LA TEOR´ıA DE UTILIDAD 3.1. BREVE INTRODUCCION

3. Para r4 tal que r3 6

r4 6

75

r2 encuentre α∗ tal que:

r4 ≈ P ∗ = α∗ hr3 i + (1 − α∗ )hr2 i. Defina,

U(r4 ) = U(P ∗ ) = α∗ U(r3 )+(1−α∗ )U(r2 ) = α∗ (1−α)+(1−α∗ ) = 1−αα∗ , y contin´ ue as´ı sucesivamente para todas las recompensas (si ℜ es finito) o hasta obtener una curva suficientemente suave de U (si ℜ no es finito). 4. Haga verificaciones peri´odicas de consistencia. Por ejemplo, como r1 6 r3 6 r4 entonces encuentre en α′ tal que: r3 ≈ P ′ = α′ hr1 i + (1 − α′ )hr4 i. Note que α′ debe cumplir, al menos aproximadamente con: U(r3 ) = 1 − α = α′ U(r1 ) + (1 − α′ )U(r4 ) = (1 − α′ )(1 − αα∗) Si esto no es as´ı, es necesario volver atr´as y reconsiderar las asignaciones hasta hacerlas consistentes. METODO 2: 1. Como en el M´etodo 1. 2. Encuentre r3 tal que: 1 1 r3 ≈ P = hr1 i + hr2 i, 2 2 o sea, obtener r3 con seguridad es equivalente a la apuesta que nos ofrece con probabilidad 12 tanto a r1 como a r2 . Entonces, 1 1 1 U(r3 ) = U(P ) = U(r1 ) + U(r2 ) = . 2 2 2

76

´ CAP´ıTULO 3. FUNDAMENTOS DE LA TEOR´ıA BAYESIANA DE DECISION

3. Encuentre r4 tal que:

1 1 r4 ≈ hr1 i + hr3 i 2 2

y

1 1 1 U(r4 ) = U(r1 ) + U(r3 ) = . 2 2 4

y

1 1 3 U(r5 ) = U(r3 ) + U(r2 ) = , 2 2 4

Encuentre r5 tal que: 1 1 r5 ≈ hr3 i + hr2 i, 2 2 y as´ı sucesivamente. 4. Verifique peri´odicamente su consistencia. Por ejemplo, encuentre r6 tal que:

1 1 r6 ≈ hr4 i + hr5 i, 2 2

y

1 1 1 U(r6 ) = U(r4 ) + U(r5 ) = , 2 2 2

y por consiguiente r6 debe ser igual a r3 . Si esto no es ni aproximadamente cierto, hay que volver atr´as hasta obtener consistencia. Ejemplo 3.2 (Utilidad del dinero). Usaremos aqu´ı el M´etodo 2. Considero, r1 =$ 0, r2 =$ 5000 con U(r1 ) = 0 y U(r2 ) = 1. Me pregunto (seriamente) para cu´al r3 se cumple, r3 ≈ 12 h$0i + 12 h$5000i. Si r3 =$ 2500 preferir´ıa $ 2500 seguros, pero si r3 =$ 1000 preferir´ıa la apuesta. Decido tentativa y aproximadamente que r3 =$ 1500 con U(r3 ) = 12 . (Note que ´esto depende de mi “fortuna” actual. Si dispusiese de una jugosa cuenta de banco bien pudiera haber asignado r3 =$ 2450). Busco ahora r4 , tal que: 1 1 r4 ≈ h$0i + h$1500i. 2 2 Asigno r4 =$ 700 de donde U($700) = 14 . Procuro r5 con r5 ≈ + 12 h$5000i. Asigno, r5 =$ 3000 y entonces U($3000) = 34 .

1 h$1500i 2

77

´ A LA TEOR´ıA DE UTILIDAD 3.1. BREVE INTRODUCCION

Antes de continuar me hago una pregunta redundante para verificar mi consistencia. Busco un r6 con, 1 1 r6 ≈ h$700i + h$3000i. 2 2 Decido que r6 =$ 1700, pero como U(r6 ) = 12 = U(r3 ), con r3 =$ 1500, encontr´e una inconsistencia. Vuelvo atr´as, pero sigo satisfecho con r3 y r4 . Reviso sin embargo r5 y me pregunto para qu´e valor de r5 har´ıa r6 =$ 1500 y hago r5 =$ 2500. Los valores asignados se grafican en la Figura 3.1. De hecho graficar ayuda en la asignaci´on aproximada de los r’s.

U(r) 1 3/4 1/2 1/4 0

3

1000

2000

3000

4000

5000

$

Figura 3.1. Utilidad personal del dinero.

Algunas caracter´ısticas de la utilidad del dinero son las siguientes: 1. U(r) es aproximadamente lineal para r peque˜ no, (estamos dispuestos a aceptar apuestas “1 vs. 1” si r es peque˜ no). 2. U(r) es usualmente c´oncava, al menos para r > 0, (adversa al riesgo). 3. U(r) es t´ıpicamente muy distinta para r ≥ 0 que para r < 0, por lo que es recomendable construir U(r) por separado en ambos casos.

78

´ CAP´ıTULO 3. FUNDAMENTOS DE LA TEOR´ıA BAYESIANA DE DECISION

4. U(r) es t´ıpicamente acotada. Continuaci´ on Ejemplo 3.1. La Teor´ıa de Utilidad resuelve la paradoja, mostrando que la utilidad de aceptar la apuesta es: ∞ X

n=1

U(2n − c)2−n ,

la que para funciones t´ıpicas de utilidad del dinero es negativa para c suficientemente grande. D. Bernoulli sugiri´o U(r) = log(r + c) para ren solver la paradoja. Sin embargo para recompensas de $ 22 la paradoja subsiste para el logaritmo. Esta paradoja se resuelve cuando U es acotada. 3 Los axiomas que garantizan la existencia de la funci´on de utilidad y su unicidad, salvo por transformaci´on lineal, son: 1. Si P y Q ∈ P entonces exactamente una de las relaciones: P o Q 6 P o P ≈ Q es verdadera. 2. Si P

Q y Q 6 R entonces P 6

6

6

Q

R.

3. Sean P, Q y R ∈ P, 0 < α < 1. Entonces P 6

Q si y s´olo si:

αP + (1 − α)R 6 αQ + (1 − α)R. 4. Si P

Q6 R entonces existen n´ umeros 0 < β < α < 1 tales que: 6

αP + (1 − α)R 6 Q 6 βP + (1 − β)R. Si adem´as se satisface el siguiente axioma, entonces U es acotada. 5. Si Pi 6

Q para i = 1, 2, . . . , αi ≥ 0 y ∞ X i=1

αi Pi 6

∞ X i=1

Q.

αi = 1, entonces

´ A LA TEOR´ıA DE UTILIDAD 3.1. BREVE INTRODUCCION

79

Es tambi´en posible definir la probabilidad subjetiva de cualquier evento E, a partir de las utilidades que las recompensas asociadas a E y E c implican. Una ilustraci´on sencilla mostrar´a el procedimiento. Supongamos que si E ocurre obtenemos la recompensa r1 , y si E c ocurre obtenemos la recompensa r2 , las cuales no son equivalentes. Asignamos una recompensa r3 tal que: r3 ≈ P = P (E)hr1i + P (E c )hr2 i. Entonces, U(r3 ) = P (E)U(r1 ) + (1 − P (E))U(r2 ), y finalmente: P (E) =

U(r3 ) − U(r2 ) . U(r1 ) − U(r2 )

Demostraciones de lo afirmado anteriormente, aparecen en Ferguson(1967) o DeGroot(1970), donde se hacen algunos supuestos t´ecnicos adicionales. Ver tambi´en Fishburn(1981) donde aparece una revisi´on de los diferentes conjuntos de axiomas que han sido propuestos. Los axiomas de racionalidad, a excepci´on del 1, son razonablemente realistas y aparecen como aceptables. Vimos en el ejemplo 2.11 una situaci´on donde el principio minimax viola el axioma 3 y la consecuencia fue irracional. El axioma 4 puede interpretarse como que no existen recompensas infinitamente buenas o malas (no existe ni el cielo ni el infierno). Si P fuese infinitamente mala no existir´ıa β, 0 < β < 1, tal que Q 6 βP + (1 − β)R. Puede argumentarse que la muerte es infinitamente mala, pero entonces no aceptar´ıamos el extra-chance de morir al cruzar la calle. El axioma 1 sin embargo no es realista en muchas situaciones. Los defensores del axioma 1 aducen que la vida nos fuerza a escoger entre opciones alternativas extremadamente dif´ıciles de comparar. Pero ´esto no necesariamente nos dice que existe una escala precisa U, que act´ ua linealmente sobre las apuestas compuestas, que mide con precisi´on todas nuestras preferencias entre todas las posibles apuestas. El caso de la utilidad del dinero es m´as sencillo ya que estamos comparando cantidades de $. Pero incluso en este caso, si retornamos al ejemplo

80

´ CAP´ıTULO 3. FUNDAMENTOS DE LA TEOR´ıA BAYESIANA DE DECISION

3.2, para m´ı asignar a r3 cualquier cantidad entre $ 1400 y $ 1600, ser´ıa perfectamente aceptable como cantidad segura equivalente a la apuesta que con 50-50 de chance me da $ 0 o $ 5000. En otras palabras, existe una imprecisi´on inevitable al momento de transferir mis preferencias a una escala. Para otras comparaciones m´as complejas este comentario aplica a´ un con m´as fuerza. Sucede, sin embargo, que a menudo podemos decidir racionalmente entre opciones alternativas a´ un cuando la escala de medidas sea imprecisa. Como ejemplo, considere la probabilidad que ud. asigna al evento E de que Italia gane el pr´oximo mundial de f´ utbol. Si luego de un exhaustivo an´alisis ud. concluye que su probabilidad de que E ocurra es de 0.785467414..., esta afirmaci´on s´olo puede ser considerada como un chiste. Una manera operacional sumamente u ´ til de calcular probabilidades subjetivas (De Finetti 1974, Vo. 1) es la de medir sus dispocisiones a apostar respecto de eventos. Tomemos de nuevo el caso del mundial de f´ utbol. Si un TD est´a dispuesto a apostar a favor de Italia 0.6 vs. 0.4, decimos que su probabilidad de que Italia gane el mundial es de por lo menos 0.6. Note sin embargo que no necesariamente el mismo TD est´a dispuesto a apostar en contra de Italia 0.4 vs. 0.6. (Esto no tiene que ver con favoritismos personales sino con su evaluaci´on de riesgo). Bien puede afirmar, dada la alta incertidumbre de tal evento, que en contra de Italia apostar´ıa 0.2 vs. 0.8. En este caso tendremos 0.6 ≤ P (E) ≤ 0.8, o sea su probabilidad es imprecisa. El fen´omeno anterior lo encontramos todo el tiempo en la vida real. Por ejemplo, la diferencia entre el precio de venta y el precio de compra que las casas de cambio le asignan a una moneda, digamos la lira o la libra esterlina, es directamente proporcional a la variabilidad que est´e mostrando dicha moneda. Conjuntos de axiomas m´as generales (y m´as realistas) que los enunciados anteriormente aparecen, por ejemplo, en Smith(1961), Good(1962) y Walley(1991). Un resultado central de dichas teor´ıas de la imprecisi´on, es que para ser racional se debe actualizar cada una de las distribuciones a priori Π ∈ Γ, de acuerdo a la regla de Bayes, obteniendo as´ı, luego de observar el dato X , una clase actualizada de distribuciones a posteriori Γ(x). Esta generalizaci´on sigue obedeciendo principios b´asicos de racionalidad y puede ser axiomatizada. Desarrollar esta Teor´ıa de la Imprecisi´on (Bayesiana) y llevarla alg´ un d´ıa a un

´ A LA TEOR´ıA DE UTILIDAD 3.1. BREVE INTRODUCCION

81

nivel comparable de la madurez al que tiene la Inferencia y Teor´ıa de la Decisi´on (bajo la hip´otesis de la precisi´on) es un ´area apasionante de investigaci´on actual (ver Berger(1984), Pericchi y Walley(1989a, 1989b, 1991)). La cr´ıtica frecuentemente hecha de que es dif´ıcil o imposible evaluar las creencias a priori con precisi´on, en lugar de dirigirnos al enfoque frecuentista debe, en nuestra opini´on, motivarnos a generalizar el enfoque Bayesiano, preservando su solidez. Alternativamente, se ha desarrollado un enfoque de “previas de referencia, autom´aticas o noinformativas” que posibilitan un enfoque condicional a los datos, pero “objetivo, de referencia o autom´atico”, que no requiere evaluar la informaci´on sobre θ en forma subjetiva-personal. En cap´ıtulos siguientes, expondremos este enfoque autom´atico Bayesiano, que preservando algunas (no todas) ventajas del enfoque Bayesiano propio, presenta una mayor simplicidad. Seguidamente conectamos la Teor´ıa de Utilidad con las funciones de p´erdida y el principio Bayesiano de minimizaci´on de la p´erdida esperada, vistos en el cap´ıtulo anterior. Por simplicidad hacemos la discusi´on para Θ y ℜ discretos. Definamos la funci´on c(θ, a)(r) como la probabilidad de que el TD reciba la recompensa r ∈ ℜ si toma la acci´on a ∈ A, y θ ∈ Θ es el estado de la naturaleza. Supongamos que la funci´on de utilidad U existe. Definimos la funci´on de p´erdida L: Θ×A→ R por: L(θ, a) = −U(c(θ, a)) = −

X

c(θ, a)(r)U(r).

r∈ℜ

Luego de observar el resultado del experimento X , la densidad de probabilidades del TD sobre θ es π(θ | x). Si el TD toma la acci´on a, la probabilidad de que obtenga la recompensa r es: Pa (r) =

X

θ∈Θ

π(θ | x)c(θ, a)(r).

Entonces la acci´on a es equivalente a la apuesta Pa . Por tanto pueden compararse las diferentes acciones comparando la utilidades de las apuestas Pa , para a fijo,

82

´ CAP´ıTULO 3. FUNDAMENTOS DE LA TEOR´ıA BAYESIANA DE DECISION

U(Pa ) =

X

Pa (r)U(r) =

r

=

X θ

π(θ | x)

XX r

X r

θ

π(θ | x)c(θ, a)(r)U(r)

c(θ, a)(r)U(r) = −

X θ

π(θ | x)L(θ, a),

siempre que pueda intercambiarse el orden de las sumatorias. Entonces: a2 se prefiere a a1 si y s´olo si Pa1 6 Pa2 si y s´olo si U(Pa1 ) < U(Pa1 ) si y s´olo si X θ

π(θ | x)L(θ, a1 ) >

X θ

π(θ | x)L(θ, a2 )

si y s´olo si a2 tiene p´erdida esperada a posteriori menor que a1 , y la mejor acci´on ser´a aquella que minimice la p´erdida esperada a posteriori. En conclusi´on, los axiomas 1 a 5 nos conducen ab fortiori a la minimizaci´on de la p´erdida esperada.

3.2

El Principio de la Verosimilitud

Un principio fundacional m´as sencillo que la Teor´ıa de Utilidad es el Principio de la Verosimilitud, el cual tiene consecuencias de largo alcance respecto a cu´al enfoque escoger como paradigma en la Teor´ıa de Decisi´on e Inferencia Estad´ıstica. Para el dato observado, X , de un experimento, hemos llamado a p(x | θ), considerada como funci´on de θ, la funci´on de verosimilitud indexVerosimilitud!funci´on de. La raz´on de darle este nombre es que si para θ0 y θ1 ∈ Θ, p(x | θ0 ) > p(x | θ1 ), entonces es m´as verosimil (o plausible) que θ0 sea el “verdadero” θ que ha generado al dato X (observado y fijo) que θ1 . PRINCIPIO DE LA VEROSIMILITUD: “Al tomar decisiones sobre θ, despu´es que X ha sido observado, toda la informaci´on experimental est´a contenida en p(x | θ). M´as a´ un, dos funciones de verosimilitud, que como funciones de θ, sean proporcionales, contienen la misma informaci´on sobre θ.” Una discusi´on exhaustiva en defensa de este principio aparece en Berger y Wolpert(1984). El siguiente ejemplo famoso ilustrar´a la racionalidad de este principio.

83

3.2. EL PRINCIPIO DE LA VEROSIMILITUD

Ejemplo 3.3 (Lindley y Phillips, 1976). Estamos interesados en la probabilidad θ de que una moneda al ser lanzada caiga cara. Se desea conducir el test de hip´otesis: 1 1 vs. H1 : θ > . 2 2 Se realiza un experimento lanzando la moneda en una serie de ensayos independientes, obteni´endose 9 caras y 3 sellos. Es decir, x+ = 9, n = 12. No nos dicen, sin embargo, c´omo el experimentador decidi´o detener el experimento en n = 12, es decir no nos especifican el espacio muestral X. Una posibilidad es que el experimentador hab´ıa decidido de antemano efectuar 12 ensayos, en cuyo caso tenemos la distribuci´on binomial, H0 : θ =

p1 (x+ | θ) =

n x+

!

θx+ (1 − θ)n−x+ = 220 θ9 (1 − θ)3 ,

donde x+ es el n´ umero de caras. Otra posibilidad es que el experimentador hab´ıa decidido detener el experimento al observar m = 3 sellos, en cuyo caso tenemos la distribuci´on binomial negativa, p2 (x+ | θ) =

m + x+ − 1 x+

!

θx+ (1 − θ)m = 55θ9 (1 − θ)3 .

El principio de la verosimilitud nos prescribe que en cualquier caso todo lo que necesitamos saber sobre el experimento es pi (x+ | θ), y como ellas son proporcionales deben contener la misma informaci´on acerca de θ. Por otra parte los an´alisis frecuentistas (“Cl´asicos”) violan este principio. Por ejemplo, si se realiza un test de Neyman-Pearson para este problema, obtenemos como nivel observado de significaci´on en cada posibilidad descrita anteriormente: 12 X 1 1 α1 = P (x+ ≥ 9 | θ = ) = p1 (x+ = i | θ = ) = 0.075 2 2 i=9 ∞ X 1 1 α2 = P (x+ ≥ 9 | θ = ) = p2 (x+ = i | θ = ) = 0.0325 2 2 i=9

84

´ CAP´ıTULO 3. FUNDAMENTOS DE LA TEOR´ıA BAYESIANA DE DECISION

Si el nivel de significancia del test fue escogido como α = 0.05, se rechazar´ıa H0 en el segundo caso pero no en el primero. Esto es claramente sospechoso. ¿Qu´e tiene que ver el plan que dise˜ n´o el experimentador con la probabilidad de una moneda de caer cara?.3 El ejemplo anterior nos ilustra que un mismo resultado, x+ =9, puede ser insertado en dos espacios muestrales, X1 y X2 , pero una vez obtenido el dato, el hecho de que x+ provenga de X1 o de X2 se hace irrelevante al momento de decidir acerca de θ. En otras palabras, se deben tomar decisiones condicionales en el X observado y son irrelevantes otras observaciones que hubiesen podido ocurrir pero que no lo hicieron. Para el punto de vista frecuentista el espacio muestral sigue siendo relevante luego de observar el dato, y por tanto viola el Principio de la Verosimilitud. Considere por ejemplo el riesgo cuadr´atico de un estimador T (x): R(θ, T (x)) =

Z

X

(θ − T (x))2 dP (x | θ).

R(θ, T (x)) es una medida de la dispersi´on inicial de T (x), pero no puede ser considerada como una medida de la dispersi´on final, ya que X es observado y est´ a fijo. Un ejemplo nos ilustrar´a dram´aticamente el peligro de interpretar un riesgo inicial (frecuentista) como riesgo posterior o final, que es el que realmente interesa. Ejemplo 3.4 (Berger 1985). Sean X1 y X2 independientes condicionalmente en θ con id´entica distribuci´on dada por: 1 P (xi = θ − 1 | θ) = P (xi = θ + 1 | θ) = , 2 donde −∞ < θ < ∞ es desconocido. El estimador de θ, T (x) lo definimos como: T (x) =

(

1 (x1 2

+ x2 ) x1 + 1

si si

x1 6= x2 x1 = x2 .

Se puede verificar que P (T (x) = θ | θ) = 0.75 para todo θ, por lo que frecuentistamente resulta que T (x) es un intervalo de 75% de confianza de θ, que es una medida de riesgo inicial. Supongamos que

3.2. EL PRINCIPIO DE LA VEROSIMILITUD

85

observamos x1 6= x2 , T (x) = 12 (x1 + x2 ). Condicionalmente en x1 6= x2 , podemos asegurar que θ ≡ 12 (x1 + x2 ), y la medida de 75% de confianza ya no es relevante. Similarmente, si x1 = x2 entonces habr´a una probabilidad de 0.5 de que T (x) = θ. En ambos casos , reportar 75% de confianza es enga˜ noso. El principio del riesgo posterior nos indica que el desempe˜ no de una regla de decisi´on δ(x) debe juzgarse condicionalmente en X , en lugar de para todas las posibles observaciones X. Es decir, luego de obtener el dato, es el riesgo posterior y no el inicial lo relevante para juzgar a δ(x).3 Ejemplo 3.5. Suponga que ud. va al m´edico quien va a hacerle un test cl´ınico para intentar descubrir si ud. tiene un tumor, en cuyo caso deber´ıa ser intervenido quir´ urgicamente de emergencia. El m´edico le informa que el test cl´ınico tiene una probabilidad de 95% de decidir correctamente si ud. tiene el tumor o no. En base a esa informaci´on ud. acepta dejarse hacer el test, el cual result´o negativo. Pero ahora ud. con todo derecho le exigir´ıa al m´edico que le dijera cu´al es la probabilidad de que ud. tenga el tumor o no, dado que el test result´o negativo. Es posible que dicho test sea muy poderoso en detectar su verdadero estado para resultados positivos pero no para resultados negativos. El 95% que el m´edico mencion´o previamente ya no es relevente para ud. ¡Los m´edicos deber´ıan aprender el Teorema de Bayes!. Ahora lo relevante es: La probabilidad de tener el tumor condicionado a un resultado negativo del test.3 El principio Bayesiano (y extensiones de ´el para clases de densidades a priori) cumple naturalmente con los dos principios expuestos en esta secci´on. En efecto, el desempe˜ no de una regla de decisi´on se juzga en base a la p´erdida Bayesiana esperada condicional en X , o sea el riesgo Bayesiano posterior (Definici´on 2.9): ρ(Π, δ(x)) =

Z

Θ

L(θ, δ(x))dΠ(θ | x),

donde el valor esperado es tomado sobre Θ y no sobre X. Generalizando esta noci´on, si s´olo se sabe que Π ∈ Γ, donde Γ es una clase de distribuciones a priori, entonces concluimos que el desempe˜ no de δ(x)

86

´ CAP´ıTULO 3. FUNDAMENTOS DE LA TEOR´ıA BAYESIANA DE DECISION

es mejor o igual a: sup ρ(Π, δ(x)).

(3.1)

Π∈Γ

Por otra parte el enfoque Bayesiano obedece al principio de verosimilitud. En efecto el Teorema de Bayes (1.2) establece que: p(x | θ)π(θ) , Θ p(x | θ)π(θ)dθ

π(θ | x) = R

(3.2)

donde π(θ | x) denota la densidad a posteriori, y hemos supuesto por simplicidad que la distribuci´on a priori posee una densidad π(θ). En el enfoque Bayesiano toda la informaci´on, experimental y subjetiva, est´a resumida en π(θ | x). Ahora (3.2) nos indica que: 1. Toda la informaci´on experimental entra en π(θ | x) s´olo a trav´es de la verosimilitud p(x | θ). 2. Si dos verosimilitudes son proporcionales (como funciones de θ), ambas generar´an la misma π(θ | x), ya que la constante sale de la integral (no depende de θ) y se cancela con la del numerador. Resumen: lo concluido en esta secci´on (y en la anterior), es que desde varios puntos de vista, el enfoque Bayesiano (o extensiones del mismo) es el enfoque coherente de la Teor´ıa de Decisi´on Estad´ıstica y por ello nos ocuparemos exclusivamete de ´el en los pr´oximos cap´ıtulos.

3.3

Ejercicios

3.1 Verificar que para la construcci´on de U en el M´etodo 1 es posible asignar U(r) para r 6 r1 o r2 6 r. 3.2 Construya para el ejemplo 3.2 una funci´on de utilidad del dinero (en $) en el rango (-10000,10000) 3.3 Demostrar que la paradoja descrita en el ejemplo 3.1 se resuelve cuando U es acotada.

3.3. EJERCICIOS

87

3.4 Verificar que en el Ejemplo 3.4 P (T (x) = θ | θ) = 0.75 para todo θ, y que P (T (x) = θ | θ, x1 6= x2 ) = 1 y , P (T (x) = θ | θ x1 = x2 ) = 0.5, ∀θ.

88

´ CAP´ıTULO 3. FUNDAMENTOS DE LA TEOR´ıA BAYESIANA DE DECISION

Cap´ıtulo 4 An´ alisis Bayesiano Comenzaremos en este cap´ıtulo analizando el test de Hip´otesis desde el punto de vista Bayesiano.

4.1

Test de Hip´ otesis

Este problema ya lo planteamos en el ejemplo 2.2, cuya notaci´on seguiremos. El caso m´as sencillo es el test de hip´otesis simple vs. simple, o sea: H0 : θ = θ0

vs.

H1 : θ = θ1 ,

donde el espacio de par´ametros es Θ = {θ0 , θ1 }. En la terminolog´ıa frecuentista de Neyman-Pearson para cada decisi´on d ∈ D se denomina: P (d(x) = a1 | θ0 ) = α(d) P (d(x) = a0 | θ1 ) = β(d)

error de tipo I (falso rechazo) error de tipo II (falso no-rechazo).

La funci´on de riesgo R(θ, d) es entonces: R(θ, d) =

(

L1 α(d) si θ = θ0 L0 β(d) si θ = θ1 .

Supongamos que la distribuci´on a priori es: P (H0 ) = π0 , P (H1) = π1 = 1 − π0 . Entonces el riesgo promedio es: 89

90

´ CAP´ıTULO 4. ANALISIS BAYESIANO

r(π, d) = π0 L1 α(d) + (1 − π0 )L0 β(d) = aα(d) + bβ(d).

(4.1)

Encontrar a d∗ que sea Bayes-promedio ´optima es equivalente al famoso Lema de Neyman-Pearson. Teorema 4.1 (Lema de Neyman-Pearson). Sea d∗ ∈ D tal que: d∗ (x) = a0 d∗ (x) = a1

si si

a p(x | θ0 ) > b p(x | θ1 ) a p(x | θ0 ) < b p(x | θ1 )

y cualquier decisi´on en caso de igualdad. Entonces d∗ es ´optima Bayes. Prueba.

Sea d ∈ D cualquier otra decisi´on con:

A = {x : d(x) = a0 }

y

B = {x : d(x) = a1 }.

Como B c = A, sigue que: r(π, d) = a =a+ ≥a+ donde

Z

A∗

Z

B

Z

A

p(x | θ0 )dx + b

Z

A

p(x | θ1 )dx

[bp(x | θ1 ) − ap(x | θ0 )]dx

[bp(x | θ1 ) − ap(x | θ0 )]dx = r(π, d∗),

A∗ = {x : d∗ (x) = a0 } = {x : b p(x | θ0 ) − a p(x | θ0 ) < 0}. Por lo tanto d∗ (x) minimiza el riesgo Bayesiano promedio, y se obtiene el resultado.2 La regi´on de rechazo de H0 de d∗ ser´a, salvo un conjunto de medida cero, (

)

p(x | θ0 ) b B = x: < =k . p(x | θ1 ) a ∗

91

´ 4.1. TEST DE HIPOTESIS

En el enfoque de Neyman-Pearson se escoge k tal que: P (B ∗ | θ0 ) = α, o sea que el error tipo I sea α; no se da guia racional de c´omo escoger α, siendo dictadas por la convenci´on α = 0.1; 0.05 ´o 0.01, que es una pr´actica subjetiva inconveniente. En contraste, el enfoque 0 )L0 , Bayesiano no fuerza la escogencia de α, sino que define a k = (1−π π0 L1 una combinaci´on de creencias a priori sobre las hip´otesis y las p´erdidas envueltas. En la versi´on de Fisher de Test de significancia, se define el valor observado del test, αp , como: P

!

p(x | θ0 ) ≤ p | θ0 = αp , p(x | θ1 )

0) , el valor observado del cociente de verosimilitudes. donde p = p(x|θ p(x|θ1 ) Note que la definici´on de αp viola el principio de verosimilitud (ver ejemplo 3.3). Se interpreta cl´asicamente que αp es el m´ınimo valor de α para el cual se habr´ıa rechazado H0 . Es generalmente aceptado que en la pr´actica se interprete a αp como la probabilidad de que H0 sea correcta. Esta interpretaci´on es filos´oficamente incorrecta desde el punto de vista frecuentista, ya que no tiene sentido considerar la probabilidad de que una hip´otesis sea correcta. Una hip´otesis es una afirmaci´on sobre θ, y θ no es una variable aleatoria desde el punto de vista frecuentista. Sin embargo esta interpretaci´on del que usa el test de hip´otesis frecuentista es tan natural, que d´ecadas de ense˜ naza de la teor´ıa de Neyman-Pearson no han podido erradicarla. Aceptan esta teor´ıa porque la interpretan desde un punto de vista Bayesiano que les es racional; y adem´as les produce n´ umeros, y decisiones en forma mec´anica. El enfoque Bayesiano provee de la interpreptaci´on adecuada, pero tambi´en requiere del usuario el insumo necesario: cu´ales son las p´erdidas de una decisi´on incorrecta y qu´e se conoce a priori sobre H0 . Esta es una diferencia radical entre ambos enfoques: el Bayesiano requiere exponer claramente las evaluaciones subjetivas. El frecuentista esconde el subjetivismo (inevitable) en el manto de la costumbre. Si es cierto que el procedimiento del Teorema 4.1 tiene interpretaciones en t´erminos de las probabilidades de las hip´otesis, el Teorema de Bayes nos indica que:

p(x | Hi )πi p(x | Hi )πi = , p(x) k=0 p(x | Hk )πk

p(Hi | x) = P1

i = 0, 1.

(4.2)

92

´ CAP´ıTULO 4. ANALISIS BAYESIANO

de donde: p(H0 | x) p(x | θ0 )π0 = , p(H1 | x) p(x | θ1 )(1 − π0 )

y entonces la decisi´on ´optima-Bayes rechaza H0 si: p(H0 | x) L0 . < p(H1 | x) L1

(4.3)

Si por ejemplo L0 = L1 , entonces se rechaza a H0 , cuando su probabilidad a posteriori es menor que la de H1 . Si la consecuencia de un rechazo de H0 incorrecto es m´as grave, o sea L1 > L0 , s´olo se rechazar´a H0 cuando tenga una probabilidad a posteriori menor que la de H1 , de acuerdo a (4.3). Por supuesto que no es necesario obtener la decisi´on ´optima-Bayes, como se hizo en el Teorema 4.1 (que sin embargo fue u ´ til para comparar con conceptos frecuentistas). Podemos, en lugar de minimizar r(Π, d), minimizar la p´erdida a posteriori esperada, ρ(Π, d). En el caso simple vs. simple, usando (4.2) obtenemos: ρ(Π, a0 ) = Eθ|X [L(θ, a0 )] = p(H1 | x)L0 , ρ(Π, a1 ) = Eθ|X [L(θ, a1 )] = p(H0 | x)L1 .

Entonces para minimizar ρ, debemos rechazar H0 (o sea, d(x) = a1 ) si: p(H0 | x)L1 < p(H1 | x)L0 ,

o sea (4.3). En resumen, una decisi´on ´optimo Bayes d∗ (x) debe cumplir con: d∗ (x) = a1 , si la desigualdad (4.3) ocurre, d∗ (x) = a0 , si la desigualdad en sentido contrario a (4.3) ocurre. La “ventaja” (“odds”) posterior, O01 (x), de H0 vs. H1 se define como la parte izquierda de (4.3) o sea: p(H0 | x) p(H0 | x) = , (4.4) p(H1 | x) 1 − p(H0 | x) que es la cantidad b´asica para aceptar o rechazar H0 , o sea para tomar la decisi´on. O01 (x) =

93

´ 4.1. TEST DE HIPOTESIS

Por ejemplo, la decisi´on ´optima es aceptar H0 si la ventaja posterior de H0 sobre H1 es mayor que LL01 . Denotamos por O01 la ventaja a priori de H0 vs. H1 , o sea π0 p(H0 ) = . p(H1 ) π1 Definimos al “factor de Bayes”, B01 (x), de H0 vs. H1 por: O01 =

(4.5)

p(x | H0 ) , p(x | H1 )

(4.6)

O01 (x) = O01 B01 (x),

(4.7)

B01 (x) =

que en el caso de simple vs. simple, no depende de la informaci´on a 0) priori y es igual al cociente de verosimilitudes p(x|θ . De (4.2) y las p(x|θ1 ) definiciones anteriores obtenemos:

o sea, que B01 es el factor que multiplicado por la ventaja a priori da la ventaja posterior. La relaci´on (4.7) es multiplicativa pero podemos hacerla aditiva tomando logaritmo (que suponemos natural), obteniendo en notaci´on obvia: LO01 (x) = LO01 + W01 (x).

(4.8)

El logaritmo del factor de Bayes, W01 (x), se conoce como el “peso de la evidencia” provista por el experimento en favor de H0 y en contra de H1 , Good(1950,1968). El peso de la evidencia tiene importancia crucial en ´areas diversas como diagn´ostico m´edico, ciencia forense o cripto-an´alisis. Una aplicaci´on espectacular en esta u ´ltima ´area del uso de W01 (x) fue el desciframiento del c´odigo alem´an, conducido por Turing y Good, durante la II Guerra Mundial. Aplicaciones del peso de la evidencia a problemas de diagn´ostico m´edico aparecen por ejemplo en Good y Card (1971) y Pereira y Pericchi (1989). Para el caso general de test de hip´otesis: H0 : θ ∈ Θ0

vs.

H1 : θ ∈ Θc0 = Θ1 ,

escribimos la distribuci´on a priori como: π(θ) =

(

π0 g0 (θ) si θ ∈ Θ0 π1 g1 (θ) si θ ∈ Θ1 ,

(4.9)

94

´ CAP´ıTULO 4. ANALISIS BAYESIANO

donde G0 y G1 son distribuciones (sobre Θ0 y Θ1 ), que indican como se reparte la probabilidad entre los θ′ s de cada hip´otesis. Entonces las verosimilitudes (ponderadas) bajo H0 y H1 se escriben como: p(x | Hi ) =

Z

p(x | θ)gi (θ)

Θi

i = 0, 1.

(4.10)

Con la adaptaci´on dada por (4.9) y (4.10) las definiciones dadas por el caso anterior son v´alidas para el caso general. Note la sencillez conceptual de la aproximaci´on Bayesiana al Test de Hip´otesis: comparar las probabilidades a posteriori de H0 vs. H1 . En contraste con la Teor´ıa de Neyman-Pearson donde test uniformemente m´as poderosos existen s´olo en situaciones particulares. Ejemplo 4.1 (Hip´ otesis nula puntual). Suponemos que X ∼ N(θ, σ 2 /n) como en el ejemplo 2.6. Se desea hacer el test H0 : θ = θ0

H1 : θ 6= θ0 .

vs.

Se asigna la siguiente densidad a priori π(θ) =

(

π0 π1 N(µ, τ 2 )

si si

θ = θ0 θ 6= θ0

(4.11)

Note que: !

σ2 , p(x | H0 ) = p(x | θ0 ) = N θ0 , n p(x | H1 ) =

Z

(θ6=θ0 )

p(x | θ)N(µ, τ 2 )dθ.

(4.12) (4.13)

2

Como p(x | θ) = N(θ, σn ) y el extraer θ0 no altera la integral, la expresi´on (2.8) es igual a (4.13) por lo que: !

σ2 p(x | H1 ) = N µ, τ + . n 2

(4.14)

Entonces de (4.6),(4.7), (4.12) y (4.14) se tiene que: 

2

N θ0 , σn π0  O01 (x) = 1 − π0 N µ, τ 2 +



σ2 n

.

(4.15)

95

´ 4.1. TEST DE HIPOTESIS

Varias conclusiones interesantes pueden extraerse de (4.15). Para simplificar los c´alculos hagamos la suposici´on natural, µ = θ0 . De (4.15) obtenemos, (

)

π0 √ z 2 nλ O01 (x) = nλ + 1 exp − , 1 − π0 2 nλ + 1 2

(4.16)



donde λ = στ 2 y z = σn | x − θ0 |, que es la estad´ıstica en la que est´a basada el test de hip´otesis “Cl´asico”. En ese enfoque se rechaza H0 cuando | z |≥ zα , donde Φ(zα ) = 1 − α2 y Φ es la distribuci´on Normal. Por ejemplo si α = 0.05, entonces zα = 1.96. Supongamos que observamos una sucesi´on zn , tal que zn = zα , o sea que rechazamos H0 para cada n seg´ un la teor´ıa cl´asica. Observemos sin embargo que para todo π0 fijo, 0 < π0 < 1, resulta que: n→∞

O01 (zn ) −→ ∞, y como se cumple en general que: "

1 p(H0 | x) = 1 + O01 (x) entonces:

#−1

,

(4.17)

p(H0 | zn ) −→ 1.3 n→∞

En resumen, en el ejemplo 4.1 encontramos una sucesi´on zn , para la que cl´asicamente se rechaza H0 para cada n, pero para la que la probabilidad a posteriori de H0 tiende a 1. Esta discrepancia se conoce como la Paradoja de Lindley, Lindley(1957). Por ejemplo, si π0 = 12 , µ = θ0 , λ = 1 y observamos z = 1.96 (o sea, se rechaza H0 para un test cl´asico con α = 0.05), resulta que p(H0 | z = 1.96) es igual a 0.35 para n = 1; 0.6 para n = 100 y 0.8 para n = 1000. Si se aceptan entonces las especificaciones a priori, no es s´olo filos´oficamente err´oneo interpretar el α observado como la probabilidad de que H0 sea cierta, sino que num´ericamente acontece lo contrario para n grande. Sin embargo es necesaria una nota de cautela. Contrariamente a lo que sucede en problemas de estimaci´on, en test de hip´otesis, particularmente cuando H0 es un punto (de medida cero) y H1 no, la influencia de la asignaci´on a

96

´ CAP´ıTULO 4. ANALISIS BAYESIANO

priori no desaparece a medida que n crece. Note adem´as que no se puede hacer crecer la varianza a priori τ 2 , a voluntad. En efecto si τ 2 → ∞, o sea si λ → ∞ para n y el resto de las asignaciones fijos, entonces de (4.16) obtenemos que O01 (x) → ∞, o sea se deduce de (4.17) que P (H0 | x) → 1, para cualquier x. Otros an´alisis de este problema aparecen por ejemplo en: Bernardo(1980), Smith y Spiegelhalter(1980), Pericchi(1984) y Berger y Pericchi (1996). El desarrollo de metodolog´ıas Bayesianas de “referencia o sistem´aticas” a la clase de problemas de test de hip´otesis y selecci´on de modelos, es en s´ı misma de tal importancia y actualidad que le dedicaremos el Cap´ıtulo 6 de este libro. Estas metodolog´ıas nos proveen de maneras de asignar distribuciones a priori. En el ejemplo 4.1 advertimos sobre la influencia demasiado grande que puede tener una asignaci´on precisa a priori. La siguiente proposici´on permite relajar al menos parte de esta asignaci´on. Proposici´ on 4.1 Se desea hacer el test H0 : θ = θ0

H1 : θ 6= θ0

vs.

y los datos X son una muestra generada por la verosimilitud p(x | θ). La densidad a priori es: π(θ) =

(

π0 π1 g1 (θ)

si si

θ = θ0 θ 6= θ0 ,

(4.18)

donde g1 es cualquier densidad. Entonces, "

1 − π0 h(x) p(H0 | x) ≥ 1 + π0 p(x | θ0 )

#−1

,

(4.19)

donde h(x) = supθ6=θ0 p(x | θ). Prueba.

Ejercicio.2

Continuaci´ on Ejemplo 4.1. Para este ejemplo, usando (4.19), puede verificarse que si en lugar de la asignaci´on (4.11) hacemos la asignaci´on mucho m´as imprecisa (4.18), obtenemos que: "

(

1 − π0 z2 p(H0 | x) ≥ 1 + exp π0 2

)#−1

.

(4.20)

97

´ 4.1. TEST DE HIPOTESIS

Para z = 1.96 (o sea, α = 0.05) y π0 =

1 2

p(H0 | x) ≥ 0.128.

resulta de (4.20) que:

(4.21)

La cota inferior (4.21) es casi tres veces 0.05, y esto vale para cualquier n.3 Otros resultados del tipo de (4.19) donde g1 en (4.18) se restringe a la clase de densidades sim´etricas alrededor de θ0 y no crecientes en | θ − θ0 | aparecen en Berger y Sellke(1984). Por supuesto que en este caso la cota es mayor o igual a la obtenida en (4.21). De hecho es igual a 0.29. Ante cotas como la dada en (4.21) los frecuentistas aducen, no sin cierta raz´on, que el an´alisis que conduce a (4.21) supone una probabilidad π0 a priori fija, y precisa que H0 sea cierta. Note sin embargo, que el factor de Bayes no depende de Π0 , aunque depende de Π(θ). Un frecuentista puede con todo derecho negarse a suponer tal probabilidad. De hecho Good clasifica a los Bayesianos en una gran cantidad de categor´ıas (algunas de ellas posiblemente vac´ıas) pero favorecer´ıa como definici´on de Bayesiano: “Aqu´el que est´a dispuesto a asignar una probabilidad a una hip´otesis”. La respuesta Bayesiana “robusta” (no dogm´atica) debe ser considerar clases de distribuciones a priori en las cuales π0 var´ıe en un amplio rango. Pericchi y Walley(1989a), para la situaci´on del Ejercicio 4.3, definen una clase en la cual 0 ≤ π0 ≤ 1, que llaman “clase casi ignorante”. Para esta clase uno no asume una posici´on de “ignorancia” a priori respecto de H0 . Las probabilidades a posteriori para esta clase se comportan muy razonablemente, y el valor observado del test αp , se encuentra estrictamente entre el supremo y el ´ınfimo de las probabilidades a posteriori de H0 bajo esta clase. El problema de obtener, en alg´ un sentido, clases “casi ignorantes” para hip´otesis H0 puntuales, o m´as generalmente cuando H0 es compacto, permanece abierto.

98

´ CAP´ıTULO 4. ANALISIS BAYESIANO

4.2

Operaciones con la Distribuci´ on a Posteriori y sus propiedades

Una vez obtenido los datos X , toda la informaci´on disponible est´a contenida en Π(θ | x).

4.2.1

Intervalos de Credibilidad (Probabilidad)

A menudo se resume lo que se conoce sobre el par´ametro θ, por un conjunto C(x) ⊂ Θ, en el que es altamente plausible que se encuentre el verdadero θ0 . Consideremos la funci´on de p´erdida: L (θ, C(x)) =

(

0 si θ ∈ C(x) 1 si θ 6∈ C(x)

La p´erdida esperada a posteriori es: h

i

ρ (Π, C(x)) = Eθ|X 1 − 1C(x) (θ) = 1 −

Z

C(x)

dΠ(θ | x)

= 1 − Pθ|X [θ ∈ C(x)].

Es decir, ρ (Π, C(x)) es la probabilidad a posteriori de que θ no est´e en C(x). Llamemos Cα (x) los conjuntos de Θ para los cuales esta probabilidad es α. T´ıpicamente habr´a muchos de estos conjuntos. Usualmente se escoge aqu´el Cα (x) con volumen a posteriori m´ınimo, denotado por HP Dα(x), que cumple con la siguiente propiedad: ∀ θ ∈ HP Dα(x) y ∀ θ˜ 6∈ HP Dα (x) =⇒ π(θ | x) ≥ π(θ˜ | x). O sea, es el conjunto de par´ametros con m´as alta densidad posterior, que adem´as tiene probabilidad posterior 1 − α de contener al verdadero θ0 . Los intervalos de credibilidad Cα (x), as´ı llamados porque dependen de las creencias a priori, son intervalos de probabilidad (condicional en X ) sobre θ. Los intervalos Cl´ asicos de confianza no admiten esta interpretaci´on, y por ello es tan dif´ıcil explicarlos en un curso de estad´ıstica b´asica. La interpretaci´on que naturalmente viene a la mente (educada o no tanto) es la de intervalos de probabilidad. En el ejercicio 4.4 se muestra un ejemplo de un intervalo de HDP .

´ A POSTERIORI Y SUS PROPIEDADES 4.2. OPERACIONES CON LA DISTRIBUCION

4.2.2

99

Densidades Marginales y Par´ ametros de Molestia

Supongamos que el vector de par´ametros θ est´a compuesto de dos subvectores componentes, θ = (θ1 , θ2 )t , y nuestro inter´es es tomar decisiones sobre θ1 , el vector de par´ametros de inter´es. Denominamos a θ 2 el vector de par´ametros de “molestia” (nuissance). Supongamos que hemos obtenido la densidad conjunta a posteriori de θ : π(θ | x) = π [(θ1 , θ2 ) | x]. De nuevo la inferencia sobre θ1 se resuelve de manera natural y coherente: marginalizando, es decir, integrando respecto de los par´ametros de molestia en la densidad conjunta. La densidad marginal de θ1 se define como: π(θ1 | x) =

Z

π [(θ 1 , θ2 ) | x] dθ2 =

Z

π(θ1 | θ 2 , x)π(θ2 | x)dθ2 . (4.22) De la expresi´on a la derecha en (4.22) se observa que la densidad marginal de θ1 , es el promedio de la densidad de θ1 , condicional en θ2 , ponderada por la marginal de θ2 . Ejemplo 4.2 (Verosimilitud Normal con varianza desconocida). La verosimilitud es: p(x | θ, h) = N(θ, h−1 ). De acuerdo a la notaci´on anterior, θ1 = θ, θ2 = h = σ −2 > 0. Nuestro inter´es en este ejemplo es hacer inferencia sobre la media θ. Ahora una estad´ıstica suficiente P P ser´a: (n, xi , x2i ). Algebraicamente es conveniente suponer que la densidad a priori es la llamada “Normal-Gamma”, definida por: NG(θ, h | µ, ξ, α, β) = π(θ | h)π(h) = N(θ | µ, (ξh)−1)Ga(h | α, β), (4.23) donde los hiperpar´ametros a ser asignados por el TD son: µ, ξ, α, β, siendo los tres u ´ ltimos positivos y µ real. O sea, a priori, la densidad condicional en h es normal, y la densidad marginal de h es Gamma. Se verifica que luego de observar una muestra de tama˜ no n la densidad conjunta a posteriori de θ y h sigue siendo Normal-Gamma: π(θ, h | x) = NG(θ, h | µ′ , ξ ′ , α′, β ′ ),

(4.24)

100

´ CAP´ıTULO 4. ANALISIS BAYESIANO

donde: µ′ =

ξµ + nx , ξ+n

n α′ = α + , 2

ξ ′ = ξ + n,

β′ = β +

y

n 1X ξn(x − µ)2 (xi − x)2 + . 2 i=1 2(ξ + n)

Note que de acuerdo a (4.24), "

1/2

π(θ, h | x) ∝ h

(

ξ′h exp − (θ − µ′)2 2

)#



[hα −1 exp {−β ′ h}].

(4.25)

Si hacemos uso de la siguiente identidad: Z



0

y p−1 exp {−ay}dy =

Γ(p) , ap

(4.26)

obtenemos que:

π(θ | x) =

Z

0



"

ξ′ π(θ, h | x)dh ∝ β + (θ − µ′ )2 2 ′

#−α′ −1/2

,

o equivalentemente: "

1 α′ ξ ′(θ − µ′ )2 π(θ | x) ∝ 1 + ′ 2α β′

#−(2α′ +1)/2

,

(4.27)

o sea, la densidad marginal a posteriori de θ es una t − Student, con 2α′ grados de libertad, par´ametro de localizaci´on µ′ y par´ametro de ′ escala αβ′ ξ′ . Si 2α′ > 1 (que es cierto si tenemos una observaci´on), la media de esta densidad es µ′ , que es un promedio ponderado entre µ y x. Note que se obtiene el mismo resultado que en (2.10), donde la varianza era conocida. El efecto de tener varianza desconocida es el de reemplazar una Normal por una t-Student de colas m´as gruesas, y por lo tanto el intervalo HDP de credibilidad de θ va a ser m´as ancho. Por supuesto, los intervalos de credibilidad de θ se obtienen de su densidad marginal.3

´ A POSTERIORI Y SUS PROPIEDADES101 4.2. OPERACIONES CON LA DISTRIBUCION

Desembarazarse de par´ametros de molestia en el enfoque Bayesiano, es conceptualmente directo. Incluso, si en el ejemplo anterior no se hubiese supuesto una densidad a priori “tratable”, como la NormalGamma, obtener la marginal a posteriori se reduce a una integraci´on num´erica. Claro est´a que en problemas m´as complejos el n´ umero de par´ametros de molestia es mucho mayor, y por consiguiente mayor ser´a la dimensi´on de la integral num´erica a calcular. Existen disponibles algunos algoritmos computacionales como Bayes 4, Naylor y Smith(1982), que usando cuadratura Gaussiana “adaptada” a densidades a posteriori, integra rutinariamente unas pocas dimensiones. Alternativamente existen aproximaciones anal´ıticas a la marginal, muy exactas, basadas en aproximaciones de Laplace, como en Tierney y Kadane (1986), y recientemente por m´etodos de simulaci´on se han integrado problemas de mayores dimensiones (ver secci´on 4.2.5). Desde el punto de vista frecuentista desembarazarse de par´ametros molestos , conceptualmente, no es nada simple ya que no se puede integrar. Se requiere de una estad´ıstica cuya distribuci´on no sea afectada por el valor de los par´ametros molestos, por ejemplo como descubri´o Gosset para la t-Student. En problemas complejos se debe recurrir a m´etodos aproximados y asint´oticos. A´ un as´ı el tema sigue siendo enormemente complicado. Ver por ejemplo Cox y Reid(1987). Sin embargo, para problemas de alta dimensi´on es a´ un m´as dif´ıcil especificar una distribuci´on a priori. Aqu´ı, m´etodos imprecisos de an´alisis con clases de distribuciones a priori, y m´ ultiples an´alisis de sensitividad respecto de las asignaciones a priori son a´ un m´as relevantes. Varios m´etodos que ayudan en la determinaci´on de las distribuciones a priori, son expuestos por ejemplo en Berger(1985, cap. 3) y en el Cap´ıtulo 5.

4.2.3

Inferencia Predictiva

A menudo el objetivo no es tomar decisiones sobre par´ametros (t´ı picamente no-observables), sino sobre observaciones futuras (observables “ma˜ nana”). Decimos entonces que se requiere “predecir” a partir de la informaci´on disponible hoy. Las observaciones futuras dependen del par´ametro θ, que es y ser´a desconocido. Denotemos al vector de observaciones futuras por X f . Luego de observado el experimento hasta hoy, tenemos a X fijo. Las variables aleatorias son θ y X f . Para pre-

102

´ CAP´ıTULO 4. ANALISIS BAYESIANO

decir, todo el vector de par´ametros θ es de molestia. Basamos nuestra predicci´on en la densidad marginal posterior de X f , o sea, la “densidad predictiva” definida por: π(xf | x) =

Z

π(xf , θ | x)dθ =

Z

p(xf | θ, x)π(θ | x)dθ,

(4.28)

donde p(xf | θ, x) es la verosimilitud (suponiendo que es una densidad) de X f . En el caso que X f sea condicionalmente (en θ) independiente de X , lo que sucede si por ejemplo las observaciones futuras y pasadas son una muestra aleatoria, entonces (4.28) se simplifica: π(xf | x) =

Z

p(xf | θ)π(θ | x)dθ.

(4.29)

Ejemplo 4.3 (Continuaci´ on Ejemplo 2.7). Supongamos que hemos observado n ensayos Bernoulli, obteniendo X+ . Queremos obtener la probabilidad predictiva del evento A: ´exito en el pr´oximo intento. Esto es equivalente a obtener la distribuci´on de Xf ya que por definici´on Xf = 1 si y s´olo si A ocurre y Xf = 0 si y s´olo si A no ocurre. Note que Xf no es independiente de X (ya que X da informaci´on sobre θ), pero es cierto que Xf es independiente de X , condicionalmente en θ. Por consiguiente: p(Xf | θ, x) = p(xf | θ) y la simplificaci´on (4.29) es v´alida. Adem´as p(xf = 1 | θ) = θ, de donde: p(A | x) = p(xf = 1 | x) =

Z

0

1

θπ(θ | x)dθ = Eθ|X (θ),

(4.30)

o sea, que en el caso Binomial la probabilidad predictiva de ´exito en el pr´oximo ensayo es igual a la esperanza posterior de θ. Supongamos ahora que la densidad a priori es Beta, π(θ) = Beta(α, β), con α, β > 0. De (4.31) y (2.22) resulta que: p(xf = 1 | x) =

α + x+ . α+β+n

(4.31)

Si se asigna α = β = 1, la densidad Beta se convierte en la uniforme U(0, 1) y (4.31) se convierte en:

´ A POSTERIORI Y SUS PROPIEDADES103 4.2. OPERACIONES CON LA DISTRIBUCION

1 + x+ . (4.32) 2+n La expresi´on (4.32) es la famosa Ley de Sucesi´on de Laplace, quien fue uno de los primeros Bayesianos. De hecho hay quien ha afirmado que la estad´ıstica “Bayesiana” deber´ıa llamarse “Laplaciana”. Si se han observado n ´exitos en n ensayos, (4.32) indica que la probabilidad de un nuevo ´exito es 1+n y si no se ha observado ning´ un ´exito, la probabilidad 2+n 1 de observarlo en el pr´oximo ensayo es 2+n .3 p(xf = 1 | x) =

Ejemplo 4.4 (Continuaci´ on Ejemplo 2.6). Aqu´ı la verosimilitud es Normal con varianza conocida σ 2 y la densidad a priori tambi´en es Normal con media µ y varianza τ 2 . Supongamos que esperamos m nuevas observaciones, y que se quiere obtener la densidad predictiva de su media muestral X f =

1 m

m X

Xif . De nuevo en este ejemplo X f es

i=1

(condicionalmente en θ) independiente de X y por ello la simplificaci´on (4.29) es v´alida: !

σ2 . p(xf | θ, x) = p(xf | θ) = N X f | θ, m Por otro lado, de (2.11) sabemos que: π(θ | x) = N(θ | µ(x), ρ−1 ). Resulta entonces, Z

!

σ2 π(xf | x) = N xf | θ, N(θ | µ(x), ρ−1 )dθ, m −∞ ∞

(4.33)

entonces por un procedimiento an´alogo al que condujo a (2.8) resulta, !

σ2 π(xf | x) = N xf | µ(x), + ρ−1 . m Note que: E[X f | x] = E[θ | x], 2

pero V ar(X f | x) = V ar(θ | x) + σm . Esto u ´ ltimo nos dice que a la varianza de θ hay que sumarle la varianza de X f alrededor de θ.

104

´ CAP´ıTULO 4. ANALISIS BAYESIANO

Como consecuencia tenemos que el HDPα para X f en lugar de θ, se 

2

1/2

obtiene de (4.22) sustituyendo θ por X f y ρ−1 por σm + ρ−1 , y por consiguiente el HDPα de X f est´a centrado en el mismo punto que el HDPα de θ, pero tiene una mayor longitud.3 Hemos visto que la inferencia predictiva tiene su expresi´on natural y coherente en la estad´ıstica Bayesiana. Sin embargo ella lleva un conjunto de interrogantes fundamentales para el punto de vista frecuentista, Hinkley(1979). La inserci´on de la toma de decisiones sobre observaciones futuras en el marco que hemos expuesto anteriormente sobre toma de decisiones para θ, es conceptualmente directo. Denotemos la p´erdida de estimar X f por d como L∗ (xf , d). Supongamos por simplicidad que estamos en la situaci´on que conduce a (4.29). Definamos: ∗

L(θ, d) = EXf [L (xf , d) | θ] =

Z

L ∗ (xf , d)p(xf | θ)dxf ,

y esto reduce el problema de decisi´on predictiva al problema standard que envuelve a θ desconocido, y a los datos obtenidos X . Ejemplo 4.5. Supongamos que Xf ∼ N(θ, σ 2 ), y se desea estimar Xf bajo p´erdida cuadr´atica: L∗ (xf , d) = (xf − d)2 . Entonces, h

i

L(θ, a) = EXf [(Xf − d)2 | θ] = EXf (Xf − θ + θ − d)2 | θ = h

i

h

i

EXf (Xf − θ)2 | θ + EXf (θ − d)2 | θ = σ 2 + (θ − d)2 .

Por lo tanto, para escoger una decisi´on ´optima s´olo necesitamos considerar el problema de estimar a θ bajo p´erdida cuadr´atica, condicionalmente en las observaciones X obtenidas. Estimar´ıamos entoces a Xf por µ(x) en (2.10).3

4.2.4

Normalidad Asint´ otica de la Densidad Posterior

Este es un importante resultado que es esencialmente una versi´on Bayesiana del Teorema del L´ımite Central. La normalidad asint´otica de

´ A POSTERIORI Y SUS PROPIEDADES105 4.2. OPERACIONES CON LA DISTRIBUCION

la densidad posterior fue probada originalmente por Laplace(1812), y seg´ un Berger, esta es la primera versi´on del Teorema del L´ımite Central. En la motivaci´on heur´ıstica que presentaremos de este resultado no incluiremos las condiciones de regularidad requeridas con detalle. Varios conjuntos de supuestos de regularidad han aparecido en la literatura y referimos al lector a: Le Cam(1956), Jeffreys(1961), Walker(1969) y particularmente a Heyde y Johnstone(1979). Comencemos por recordar que el estimador de m´axima verosimilitud θb de θ se define como: 



sup p(x | θ) = p x | θb . θ∈Θ

Supongamos que X1 , . . . , Xn es una muestra aleatoria (i.i.d) de la densidad p(xi | θ), θ = (θ1 , . . . , θk ). Supongamos que π(θ) es una densidad a priori y que π(θ) y p(x | θ) son positivas y dos veces diferenciables en un entorno del estimador de m´axima verosimilitud θb de θ, el cual se supone que existe. Entonces para n grande, bajo condiciones de regularidad (casi siempre satisfechas), la densidad posterior: π(θ | x) =

p(x | θ)π(θ) , p(x)

es aproximadamente: 



b [I(x)−1 ] , Nk θ | θ,

(4.34)

donde I(x) es la matriz de informaci´on de Fisher observada, cuyo elemento i, j es: "

#

"

#

n X ∂2 ∂2 Iij (x) = − log p(x | θ) =− log p(xt | θ) . ∂θi ∂θj t=1 ∂θi ∂θj θ=θb θ=θb

La motivaci´on heur´ıstica para k = 1 del resultado es la siguiente: b y Expandimos por la f´ormula de Taylor log p(x | θ) alrededor de θ, entonces la primera derivada evaluada en θb se anula. Para θ cerca de θb (de tal manera que π(θ) sea aproximadamente constante) tenemos: π(θ | x) = R

exp {log p(x | θ)}π(θ) exp {log p(x | θ)}π(θ)dθ

106

´ CAP´ıTULO 4. ANALISIS BAYESIANO

≃R =

n

o

b − 1 (θ − θ) b 2 I(x) π(θ) b exp log p(x | θ) 2 n

o

b − 1 (θ − θ) b 2 I(x) π(θ)dθ b exp log p(x | θ) 2 n

o

b 2 I(x) exp − 12 (θ − θ)

[2π(I(x))−1 ]1/2





b [I(x)]−1 , = N θ | θ,

y puede demostrarse que para n “suficientemente” grande, s´olo los θ’s cerca de θb dan una contribuci´on significativa a la densidad posterior. Esto se debe a que la verosimilitud se concentrar´a cada vez m´as alredeb pero π(θ) no depende de n y puede considerarse como aproxdor de θ, b La aproximaci´ imadamente constante en una vecindad de θ. on (4.34) no envuelve a la densidad a priori utilizada. Puede afirmarse entonces que bajo condiciones de regularidad bastante generales, para n suficientemente grande, π(θ | x) es aproximadamente insensible a la densidad a priori particular empleada. (Note que si π(θ) es de Cromwell, aub tom´aticamente satisface que es positiva cerca de θ). Sin embargo si se dispone del vector de medias y la matriz de varianza-covarianza a b e I(x) respecposteriori exactas, y se sustituyen en (4.34) en lugar de θ tivamente, la aproximaci´on a la densidad posterior mejora. Aproximaciones m´as generales, basadas en aproximaciones de Laplace aparecen en la pr´oxima secci´on.

4.3 4.3.1

Aplicaciones al Dise˜ no Experimental y al An´ alisis Secuencial Tama˜ no de la Muestra Optimo

La situaci´on m´as secilla del dise˜ no de un experimento estad´ıstico , es decidir el tama˜ no ´optimo de la muestra. El enfoque Bayesiano es el m´as razonable, ya que al balancear la p´erdida debida a la decisi´on y el costo de muestrear, la medida razonable pre-experimental de la p´erdida esperada es el riesgo Bayesiano. Denotemos por L(θ, d, n) la funci´on de p´erdida, de observar X n = (X1 , . . . , Xn ) y tomar la acci´on d. Supongamos que θ tiene la densidad a priori π(θ) y que para cada n existe una decisi´on ´optima-Bayes δn∗ . Denotamos al riesgo Bayesiano para este problema por:

˜ EXPERIMENTAL Y AL ANALISIS ´ 4.3. APLICACIONES AL DISENO SECUENCIAL

107

r(π, n) = Eθ EX n [L(θ, δn∗ (xn ), n) | θ] . El tama˜ no de muestra ´optimo n∗ , es aqu´el que minimiza r(π, n). Supongamos que: L(θ, d, n) = L(θ, d) + C(n),

(4.35)

o sea, la funci´on de p´erdida se descompone en la p´erdida por estimar θ por d, m´as el costo de tomar una muestra de tama˜ no n. Para funciones de p´erdida que obedezcan (4.35), es claro que para cada n fijo, δn∗ ser´a la decisi´on de Bayes usual para la p´erdida L(θ, d) basada en n observaciones, o sea aquella decisi´on que minimiza r(π, δ), definici´on 2.7. Entonces, el procedimiento para calcular el n∗ ´optimo es: 1. Para un n fijo cualquiera obtener la decisi´on ´optimo-Bayes δn∗ y calcular r(π, δn∗ ). Luego calcular r(π, n): r(π, n) = r(π, δn∗ ) + C(n). 2. Encontrar n∗ tal que: minn r(π, n) = r(π, n∗ ) donde n se mueve en los enteros no negativos. Ejemplo 4.6. En la situaci´on del ejemplo 2.6 (Normal-Normal), supongamos que L(θ, d, n) = (θ − d)2 + C(n). (4.36) Para un n fijo, sabemos que la decisi´on ´optima-Bayes para p´erdida cuadr´atica es δn∗ (x) = µ(x), la esperanza posterior dada por (2.10). Para δn∗ = E(θ | x) y p´erdida cuadr´atica, r(π, δn∗ ) es igual a la varianza a posteriori ρ−1 n , de donde r(π, δn∗ ) = ρ−1 n =



1 n + τ 2 σ2

−1

=

τ 2σ2 . σ 2 + nτ 2

Supongamos ahora que C(n) = nc, o sea que cada observaci´on tiene un costo c > 0. Entonces, r(π, n) =

τ 2 σ2 + nc. σ 2 + nτ 2

108

´ CAP´ıTULO 4. ANALISIS BAYESIANO

Pretendamos ahora que n es un n´ umero natural. Diferenciando respecto a n obtenemos: d τ 4 σ2 r(π, n) = − 2 + c, dn (σ + nτ 2 )2 e igualando a cero conseguimos σ2 σ n∗ = √ − 2 , c τ que es el valor aproximado del tama˜ no ´optimo. Como la derivada segunda de r(π, n) es positiva, es una funci´on estrictamente convexa en n, y por tanto el tama˜ no ´optimo se obtendr´a ∗ en uno de los enteros pr´oximos a n , a menos que n∗ sea negativo, en cuyo caso el tama˜ no ´optimo ser´a cero, y se debe tomar una decisi´on sin muestrear. Note que si el costo de cada observaci´on es grande, n∗ ser´a m´as peque˜ no. Tambi´en si la varianza a priori es grande (alta incertidumbre inicial) n∗ ser´a mayor. El riesgo Bayesiano alcanzable es entonces aproximadamente: √ σ2 r(π, n∗) = 2σ c − c 2 .3 τ

4.3.2

An´ alisis Secuencial

Este es un tema de gran importancia pr´actica y te´orica, con matem´atica interesante, que por s´ı mismo ameritar´ıa un curso. Vamos a limitarnos aqu´ı a presentar una ilustraci´on sencilla que servir´a para motivar el tema y aplicar el principio de la minimizaci´on de la p´erdida esperada a posteriori. Nos concierne la situaci´on en la que el TD puede tomar sus observaciones X1 , X2 , . . . una por una. En el paso n, puede juzgar la informaci´on que ha acumulado de las n observaciones X n = (X1 , . . . , Xn ) y decidir si terminar el muestreo y tomar una decisi´on sobre θ ´o decidir tomar una nueva observaci´on Xn+1 . Una muestra obtenida de este modo se llama muestra secuencial. La ventaja pr´actica de un procedimiento secuencial sobre uno no secuencial, como en el caso de decisi´on del tama˜ no ´optimo de la muestra sin obtener ning´ un dato, es clara. Si por ejemplo el costo por observaci´on es fijo, en un procedimiento

´ DEL PRINCIPIO BAYESIANO 4.4. LA FAMILIA EXPONENCIAL. EXTENSION

109

secuencial el TD podr´a, con ventaja, terminar el experimento antes de llegar a n∗ , ahorr´andose el costo extra del muestreo. Un desarrollo completo del an´alisis secuencial aparece en Berger (1985).

4.4

La Familia Exponencial. del Principio Bayesiano

Extensi´ on

La familia natural de verosimilitudes en donde generalizar las operaciones Bayesianas, es la Familia Exponencial. Esta familia posee una rica estructura matem´atica estudiada exhaustivamente por Brown(1986). Aspectos particulares de esta familia han sido explorados por ejemplo en Lehmann(1959 y 1983), Diaconis y Ylvisaker(1979), Pericchi(1989), Pericchi y Smith(1991) y Pericchi, Sans´o y Smith(1993). La familia exponencial de medidas de probabilidad se define como: p(x | λ) = dP (x | λ) = exp {x.λ − M(λ)}dµ(λ),

λ ∈ Λ,

(4.37)

donde µ es una medida σ-finita en los conjuntos de Borel en R k . El vector de par´ametros λ ∈ R k , se denomina el vector can´onico, y Λ es el espacio de los par´ametros can´onicos, Λ = {λ tales que : M(λ) < ∞} .

(4.38)

En general, λ corresponder´a a una transformaci´on del par´ametro θ usual de inter´es. Por ejemplo en el caso Binomial, λ = log 1−θ . El vector de par´ametros de inter´es es E(x | λ), el cual se obtiene diferenciando la identidad: Z

X

dP (x | λ) = 1

respecto de λ en (4.37), y haciendo cambios permisibles de integraci´on y diferenciaci´on obtenemos: E(x | λ) = ∆M(λ) =

!

∂M ∂M (λ), . . . , (λ) . ∂λ1 ∂λk

(4.39)

110

´ CAP´ıTULO 4. ANALISIS BAYESIANO

Denotemos por dλ la medida de Lebesgue en los conjuntos de Borel de Λ. Definimos la familia de medidas a priori por: π(λ | n0 , x0 ) = dΠ(λ | n0 , x0 ) = exp {n0 x0 .λ − n0 M(λ)}dM(λ), (4.40) k con n0 > 0, x0 ∈ R . Llamamos al par (p(x | λ), π(λ | n0 , x0 )) la “Familia Exponencial Conjugada”, que es la que posee m´as f´acil manejo anal´ıtica y algebraicamente para las operaciones Bayesianas. Teorema 4.2 Supongamos que Λ es un abierto en R k . Si λ tiene la medida a priori (4.40), con n0 > 0 y x0 ∈ X, entonces la esperanza a priori es: Eλ [∆M(λ)] = Eλ [E(x | λ)] = x0 . (4.41) Prueba.

Diaconis y Ylvisaker(1979).

2

Note que si observamos una muestra X1 , . . . , Xn de P (x | λ), entonces la medida a posteriori de λ, es de la forma (4.40), con hiperpar´ametros actualizados: n′ = n0 + n

y

x′ =

n0 x0 + nx , n0 + n

(4.42)

o sea, π(λ | x) = dΠ(λ | n′ , x′ ).

(4.43)

Corolario 4.1 La media a posteriori del vector de par´ametros de inter´es es: Eλ|X [∆M(λ)] = Eλ|X [E(x | λ)] = x′ . (4.44) Las ecuaciones (4.42 a 4.44) generalizan los resultados obtenidos en el ejemplo 2.6 (Normal-Normal) y ejemplo 2.7 (Beta-Binomial), donde a x′ se le llam´o µ(x), ecuaciones (2.10) y (2.15). La interpretaci´on es: n0 es el “tama˜ no muestral” a priori, x0 el vector de medias a priori, x′ el vector de medias actualizadas ´o a posteriori y n′ el tama˜ no “global”. Esquem´aticamente tenemos:

111

´ DEL PRINCIPIO BAYESIANO 4.4. LA FAMILIA EXPONENCIAL. EXTENSION

Bayes

Π(λ | n0 , x0 ) −→ Π(λ | n′ , x′ ).

(4.45)

Ejemplo 4.8. Consideremos nuevamente el ejemplo 1.1, donde tenemos un n´ umero grande N de transistores. La decisi´on d1 es aceptar el lote de transistores y d2 rechazarlo por no cumplir las normas de calidad. Supongamos que previamente se ha decidido tomar una muestra de tama˜ no n: X0 , . . . , Xn , donde Xi es el tiempo de vida u ´ til del transistor i. Una verosimilitud ampliamente usada para modelar tiempos de vida de componentes electr´onicos es la Exponencial: p(xi | θ) = θ exp {−θ xi },

xi ≥ 0, θ > 0,

(4.46)

la cual suponemos que ha generado los datos de la muestra tomada. La media y la varianza de una variable X bajo la verosimilitud Exponencial son: 1θ y θ12 respectivamente. El par´ametro de inter´es, generalmente, es 1 , la media del tiempo de vida de los componentes. Escribamos (4.46) θ en el formato de la familia exponencial (4.37): Denotamos por λ = −θ, el par´ametro can´onico. Entonces: p(xi | λ) = exp {λxi + log(−λ)},

λ 0.

(4.48)

θ > 0,

(4.49)

La densidad Gamma tiene la forma: Ga(θ | α, β) =

β α α−1 θ exp {−βθ}dθ, Γ(α)

112

´ CAP´ıTULO 4. ANALISIS BAYESIANO

y entonces (4.48) es el kernel de una Gamma con hiperpar´ametros n0 = α − 1 y β = n0 x0 . Entonces sigue que la densidad conjugada es: π(θ | n0 , x0 ) =

(n0 x0 )n0 +1 n0 θ exp {−n0 x0 θ}dθ, Γ(n0 + 1)

θ > 0.

(4.50)

Seg´ un el Teorema 4.2, la esperanza a priori de 1θ es, Eθ [E(X | θ)] = Eθ 1θ = x0 , lo que puede verificarse directamente. Si observamos una muestra de tama˜ no n de tiempos de vida u ´ til obtenemos de (4.46): h i

p(x | θ) = θn exp {−nxθ},

(4.51)

que multiplicado por (4.50) da la densidad a posteriori: π(θ | x) ∝ θn0 +n exp {−(n0 x0 + nx)θ}.3

(4.52)

Comparando con (4.50) concluimos que si la densidad a priori es Gamma, entonces la densidad a posteriori tambi´en es Gamma, con hiperpar´ametros actualizados: n0 + n = α − 1

y

n0 x0 + nx = β.

Para el ejemplo de aceptar o rechazar el lote de transistores, Walley(1987) propone la siguiente funci´on de p´erdida: 



1 L(θ, d1 ) = n x0 − y L(θ, d2 ) = c > 0, θ donde, la constante c es el costo de incoveniencia al tener que reemplazar el lote, n es el n´ umero de transistores del lote y x0 − 1θ es la diferencia entre la media a priori del tiempo de vida (X0 ) bajo todos los lotes en circunstancias similares, y el tiempo de vida medio para el   lote en cuesti´on, 1θ . Sigue del Corolario 4.1 que: Eθ|X [L(θ, d2 )] = c > 0,

y





n0 x0 + nx Eθ|X [L(θ, d1 )] = N x0 − . n0 + n

Entonces, aceptamos el lote si:

´ DEL PRINCIPIO BAYESIANO 4.4. LA FAMILIA EXPONENCIAL. EXTENSION

113

Nn (x0 − x) < c, n0 + n o sea, aceptamos si: c (n0 + n)3. Nn Para la familia exponencial conjugada es bastante sencillo trabajar con clases de densidades conjugadas en lugar de una densidad conjugada u ´ nica y precisa, (Pericchi, 1989). Como ilustraci´on, si consideramos la clase de densidades conjugadas con hiperpar´ametros en el siguiente conjunto: x > x0 −

Γ = {π(λ | n0 , x0 ) : 0 < n0 < n0 , x0 fijo} ,

(4.53)

podemos calcular los extremos (en n) de la media a posteriori de λ. Usando (4.42) resulta que: sup x′ − inf x′ = π∈Γ

π∈Γ

n0 | x0 − x | . n0 + n

(4.54)

La expresi´on (4.54) es una medida muy razonable de la imprecisi´on a posteriori respecto de la media. Es inversamente proporcional al tama˜ no muestral n, pero directamente proporcional al conflicto entre la media a priori x0 y la media muestral x. Esta es una generalizaci´on u ´ til del enfoque Bayesiano: la imprecisi´on a posteriori nos indica el tama˜ no de la evidencia sobre la que est´a basada la decisi´on (n) y nos alerta sobre posibles conflictos entre la asignaci´on a priori y el resultado muestral. Este doble efecto no puede ser percibido en forma directa cuando basamos nuestra decisi´on en una u ´ nica medida a priori, minimizando la p´erdida posterior. Esta generalizaci´on del m´etodo Bayesiano puede resultar en ausencia de una decisi´on racional cuando no hay suficiente informaci´on muestral y a priori. Si por ejemplo la decisi´on Bayesiana es d1 cuando X ′ > T y d2 cuando X ′ < T , entonces al considerar una clase de densidades es razonable modificar esta regla por d1 si inf π∈Γ X ′ > T y d2 si supπ∈Γ X ′ < T . Si en ninguna de estas condiciones se obtiene que el proceso de decisi´on falla, una decisi´on racional no puede ser tomada. De hecho se ha observado en la implementaci´on pr´actica del an´alisis de

114

´ CAP´ıTULO 4. ANALISIS BAYESIANO

decisi´on Bayesiano que, generalmente, el TD no basa su decisi´on exclusivamente en valores esperados, sino que incorpora de alguna manera la varianza posterior, en un intento ad hoc que confunde incertidumbre con imprecisi´on, Brown(1984). Finalmente, consideremos un ejemplo que ilustra c´omo podemos replantear el problema de la “ignorancia” a priori, considerando una clase apropiada de medidas. Ejemplo 4.9. Una clase “casi ignorante” para el caso Binomial, Walley(1987). Consideramos el caso Beta-Binomial del ejemplo 2.7. El inter´es recae sobre el evento A: Exito en el pr´oximo intento. Ser ignorante sobre este evento nos obliga a especificar una clase en donde, a priori, 0 ≤ P (A) ≤ 1. Esto quiere decir que a priori no estamos dispuestos a apostar en favor o en contra de A. Esto es equivalente, dentro de la familia conjugada, a 0 ≤ x0 ≤ 1. Consideremos entonces la clase “casi ignorante”: Γ {π(θ | n0 , x0 ) : 0 ≤ x0 ≤ 1, n0 fijo} . Resulta entonces que:

sup P (A | x) = π∈Γ

n0 + x+ n0 + n

y

inf P (A | x) =

π∈Γ

x+ , n0 + n

de donde se obtiene que la imprecisi´on a posteriori respecto de A es:  −1 n 1 + n0 . Note que no hay conflicto entre media muestral y media a priori, ya que x0 puede variar arbitrariamente entre 0 y 1. A fin de comparar con la “Ley de Sucesi´on de Laplace” (4.32), asignemos para n0 el valor de 2, ya que la densidad uniforme corresponde a x0 = 12 , n0 = 2. Comparemos el comportamiento de Laplace con el sup e inf de P (A | x) bajo la clase Γ “casi ignorante”, suponiendo que obtenemos muestra para n variables, con x = 12 fijo. n 0 2 20 100 1000 Laplace P (A | x) 0.5 0.5 0.5 0.5 0.5 sup P (A | x) 1 0.75 0.55 0.51 0.501 inf P (A | x) 0 0.25 0.45 0.49 0.499

115

´ 4.5. CALCULOS Y APROXIMACIONES BAYESIANAS

La “Ley de Sucesi´on de Laplace”, basada en la densidad Uniforme es constantemente igual a 0.5 sin reflejar la cantidad de informaci´on sobre la cual se basa. Por el contrario, las probabilidades superiores e inferiores basadas en Γ, a´ un convergiendo a 0.5, reflejan en su diferencia la cantidad de informaci´on en la que est´an basadas. La clase ignorante representa, m´as satisfactoriamente que la densidad Uniforme, la falta de conocimiento a priori.

4.4.1

Densidad a priori No-Conjugada. Influencia acotada y no acotada

En esta secci´on enunciaremos un resultado b´asico sobre la influencia acotada y no acotada de la densidad a priori no conjugada, la demostraci´on y otros resultados pueden verse en Pericchi y Smith (1992). Sea X1 , . . . , Xn una muestra iid, con Xi ∼ N(θ, σ 2 ), donde σ 2 es conocida y θ la media, desconocida. Sea Y = X , sabemos que Y ∼ N(θ, σ 2 /n), y denotamos su densidad por p(y − θ), y la previa para θ es π(θ). Teorema 4.3 Si definimos m(y) =

Z

p(y − θ)π(θ)dθ,

para cualquier π(θ) ≥ 0, acotada para θ ∈ R, y adem´as definimos: s(y) = −

∂{log m(y)} ∂y

y

S(y) =

∂s(y) . ∂y

Entonces, 1. E(θ | y) = y − 2. V ar(θ | y) =

4.5

σ2 n

σ2 s(y), n



σ4 S(y). n2

C´ alculos y Aproximaciones Bayesianas

El paradigma Bayesiano es conceptualmente claro. Para comparar modelos, eliminar par´ametros de molestia, predecir, etc., hay que calcular integrales de la forma:

116

m(x) =

´ CAP´ıTULO 4. ANALISIS BAYESIANO

Z

Θ

f (x | θ)π(θ)dθ

E[g(θ) | x] =

y

R

Θ

g(θ)f (x | θ)π(θ)dθ . Θ f (x | θ)π(θ)dθ

R

Sin embargo, con frecuencia estas integrales no pueden ser resueltas en forma cerrada, y la dificultad num´erica envuelta puede ser importante, particularmente cuando la dimensi´on de Θ es grande. Pero esta dificultad es mucho menor hoy en d´ıa gracias a la disponibilidad, relativamente barata, de computadoras de gran poder de c´alculo. En lo que sigue introduciremos algunas estrategias para calcular o aproximar estas integrales.

4.5.1

Aproximaciones de Laplace

˜ su m´aximo. Entonces, Sea h(θ) = log[f (x | θ)π(θ)], k = dim (θ) y θ h si I (x) es la matriz cuyo elemento ij es: Iijh (x)

"

#

∂2 =− h(θ) , ∂θi ∂θj θ=θ˜

˜ entonces, bajo condiciones de regularidad, expandiendo alrededor de θ, y usando la integral de la distribuci´on Normal multivariada, Z

Z





˜ − 1 (θ − θ) ˜ t I h (x)(θ − θ) ˜ dθ = m(x) = exp{h(θ)}dθ ≈ exp (h(θ)} 2 Θ Θ k/2 ˜ exp{h(θ)}(2π)

[det (I h (x))]1/2

=

˜ θ) ˜ (2π)k/2f (x | θ)π( [det (I h (x))]1/2

.

Esta aproximaci´on es extremadamente u ´ til y potente. Si ahora llamamos ˜ ∗ su m´aximo, siguiendo el mismo h∗ (θ) = log [g(θ)f (x | θ)π(θ)], y θ camino anterior obtenemos: R

"

exp{h∗ (θ)}dθ det(I h (x)) E[g(θ) | x] = R ≈ exp{h(θ)}dθ det(I h∗ (x))

#1/2







˜ )f (x | θ ˜ )π(θ ˜ ) g(θ . ˜ θ) ˜ f (x | θ)π(

´ 4.5. CALCULOS Y APROXIMACIONES BAYESIANAS

117

La exactitud de esta aproximaci´on es sorprendente, para mayor referencia ver Tierney y Kadane (1984). Una estrategia num´erica directa son las cuadraturas de Gauss y de Gauss-Hermite, que han sido implementadas en el paquete Bayes 4. Sin embargo son apropiadas para un n´ umero reducido de dimensiones. Ver Naylor y Smith (1982).

4.5.2

Integraci´ on de Monte Carlo

Supongamos que podemos generar una sucesi´on i.i.d de variables aleatorias (θ1 , θ2 , . . . , ) de una densidad k(θ) > 0 en Θ. Note que, Ek

"

#

Z g(θ)f (x | θ)π(θ) = g(θ)f (x | θ)π(θ)dθ. k(θ) Θ

De la Ley Fuerte de Grandes N´ umeros sigue que: "

#

Z m 1 X g(θi )f (x | θi )π(θi ) = g(θ)f (x | θ)π(θ)dθ. lim m→∞ m k(θi ) Θ i=1

Si llamamos w(θi ) =

f (x | θi )π(θi ) k(θi )

, entonces tenemos la aproximaci´on: E[g(θ) | x] ≈

Pm

i=1 g(θi )w(θ i ) . Pm i=1 w(θi )

La funci´on k(θ) es llamada la funci´on de importancia. Para que la aproximaci´on sea eficiente, esta funci´on debe cumplir con las siguientes propiedades: 1. Debe ser f´acil simular variables aleatorias de ella, 2. k(θ) debe ser cercana a π(θ | x), y 3. las colas de k(θ) no deben ser m´as finas que las de f (x | θ)π(θ). Ver Berger (1985).

118

4.5.3

´ CAP´ıTULO 4. ANALISIS BAYESIANO

Simulaci´ on de la densidad posterior

A partir de Gelfand y Smith (1990), se comenz´o a generar una verdadera explosi´on de t´ecnicas de integraci´on bajo el nombre gen´erico de m´etodos de: Cadenas de Markov Montecarlo, ver Gilks, Richardson y Spiegelhalter (1996). Estas t´ecnicas aproximan la densidad posterior a partir de muestras generadas de esta densidad. Supongamos que y es el vector de par´ametros de inter´es, cuya densidad posterior es p(y). (Formalmente ser´ıa p(y | D), donde D son los datos, pero la omitimos por simplicidad de notaci´on). Sea y1 , y 2 , . . . , una muestra con densidad p(y). Entonces usando la ley de grandes n´ umeros, bajo condiciones bastante generales, resulta que: m 1 X m→∞ h(y i ) −→ m i=1

Z

h(y)p(y)dy = E[h(y)],

en probabilidad. Una aproximaci´on a la densidad marginal del escalar y1 , donde y = (y1 , y2 ) puede obtenerse de la siguiente manera (Gelfand y Smith (1990)): supongamos que p(y1 | y2 ) es conocida. Si la muestra es yi = (y1i , y2i ) para i = 1, . . . , m, entonces p(y1 ) ≈

m 1 X p(y1 | y2i ). m i=1

Tambi´en es u ´ til que, E[h(y1 )] ≈

m 1 X E[h(y1 ) | y2i ], m i=1

cuando la esperanza condicional E[h(y1 ) | y2 ] se conozca anal´ıticamente.

4.5.4

M´ etodos Monte Carlo de Cadenas de Markov (MCMC)

Simular variables aleatorias directamente de p(y) es frecuentemente imposible. Los m´etodos MCMC tienen la estrategia de simular sucesiones que eventualmente tendr´an la distribuci´on p(y). El algoritmo es el siguiente:

´ 4.5. CALCULOS Y APROXIMACIONES BAYESIANAS

119

1. Especificar el valor inicial y0 . 2. Muestrear valores sucesivos de una distribuci´on de transici´on con densidad f (y i | y i−1 ), para i = 1, 2, . . . ,; donde y i es generado condicionalmente independiente de y i−2 , y i−3 , . . . ,. Se han propuesto m´ ultiples maneras de implementar este algoritmo, una de las cuales es el muestreador de Gibbs. MUESTREADOR DE GIBBS Si y = (y1 , . . . , yk ), denotaremos por y(−i) = (y1 , . . . , yi−1 , yi+1, . . . , yk ). La densidad posterior, bajo condiciones de regularidad, est´a caracterizada por las p-densidades condicionales: p(yi | y(−i) ), para i = 1, . . . , k. El muestreador de Gibbs est´a basado en sucesiones de simulaciones de estas condicionales, y el uso de la caracterizaci´on de la conjunta por el conjunto completo de las condicionales p(y i | y −i ). Simular muestras directamente de p(y) es usualmente dif´ıcil, pero frecuentemente sencillo generarlas de p(yi | y(−i) ). El muestreador opera as´ı: supongamos que hemos obtenido la muestra y m−1 , esta es reformada actualizando las entradas del vector, uno por uno, para i = 1, . . . , k, un nuevo valor yi es simulado de la condicional p(yi | y(−i) ), donde los k − 1 elementos de y(−i) son los valores m´as recientemente obtenidos. De esta manera, el vector k-dimensional es actualizado, entrada por entrada, y para m suficientemente grande, el valor obtenido de y tiene la densidad p(y). Ejemplo 4.10. (Casella, G. y George, L.I (1992)). Sean y1 y y2 tales que la densidad conjunta es:

p(y1 , y2 ) ∝

n y1

!

y2y1 +α−1 (1−y2 )n−y1 +β−1 ,

y1 = 0, . . . , 0 ≤ y2 ≤ 1.

Estamos interesados en conocer las caracter´ısticas de la marginal p(y1 ). Puede verificarse que las condicionales son: p(y1 | y2 ) ∼ Binomial(n, y2 )

y

p(y2 | y1 ) ∼ Beta(y1 +α, n−y1 +β).

120

´ CAP´ıTULO 4. ANALISIS BAYESIANO

El muestreador de Gibbs opera, generando variables aleatorias de estas condicionales a partir de los valores iniciales y10 , y20: y1i+1 ∼ p(y1 | y2i )

y

y2i+1 ∼ p(y2 | y1i+1 ),

para i = 1, . . . , k − 1. Para k suficientemente grande y1k tendr´a aproximadamente la densidad p(y1 ). Repitiendo m veces este algoritmo se obtendr´a una muestra de la densidad p(y1 ). Note que es muy sencillo generar muestras de tanto de la Binomial como de una Beta, las cuales corresponden a las condicionales. Sin embargo no es obvio como generar muestras de la marginal p(y1 ). En este caso particular puede probarse que: p(y1 ) =

4.6

n y1

!

Γ(α + β) Γ(y1 + α)Γ(n − y1 + β) .3 Γ(α)Γ(β) Γ(α + β + n)

Ejercicios

4.1 Verificar la ecuaci´on 4.17. 4.2 Demostrar la proposici´on 4.1. 4.3 Considere el test de hip´otesis “unilateral”: H0 : θ ≤ θ0

vs.

H1 : θ > θ0 ,

donde X es muestra con entradas iid con distribuci´on Normal con media θ y varianza σ 2 conocida. Suponga que la distribuci´on a priori de θ viene dada como en el ejemplo 2.6, por una distribuci´on Normal con media µ y varianza τ 2 , ambas conocidas. Hallar p(H0 | x). 4.4 En la situaci´on del ejemplo 2.6 (Normal-Normal), verificar que el HDPα(x) para la media θ es: n

o

HDPα(x) = θ : µ(x) − zα ρ−1/2 < θ < µ(x) + zα ρ−1/2 , donde Φ(zα ) = 1 − α2 .

121

4.6. EJERCICIOS

4.5 Demostrar que luego de observar una muestra de tama˜ no n (ejemplo 4.2), la densidad a posteriori conjunta de θ y h sigue siendo Normal-Gamma: π(θ, h | x) = NG(θ, h | µ′ , ξ ′ , α′, β ′ ), donde: µ′ =

ξµ + nx , ξ+n β′ = β +

ξ ′ = ξ + n,

n α′ = α + , 2

y

n 1X ξn(x − µ)2 (xi − x)2 + . 2 i=1 2(ξ + n)

4.6 Hallar el intervalo HDP a posteriori de una credibilidad de 95% para el ejemplo 4.2. 4.7 Hallar la densidad predictiva de una futura observaci´on Xf en la situaci´on del ejemplo 4.2, es decir, la verosimilitud es Normal con varianza desconocida y la densidad a priori es Normal-Gamma. 4.8 Considere la situaci´on Beta-Binomial del ejemplo 2.7. Obtener la aproximaci´on 4.34 para la densidad posterior Beta (2.14). Obtener tambi´en la aproximaci´on que en (4.34) inserta la esperanza y varianza a posteriori exactas. 4.9 En la situaci´on del ejemplo 4.5, con C(n) = log(1 + n), o sea, es m´as costoso por observaci´on el tomar muestras grandes, encuentre el tama˜ no ´optimo de muestra aproximado (n∗ ). 4.10 Demostrar que cada una de las siguientes familias de verosimilitudes pertenecen a la familia exponencial, encuentre sus par´ametros can´onicos y su distribuci´on a priori conjugada: (a) Binomial. (b) Poisson. (c) Multinomial. (d) Exponencial.

122

´ CAP´ıTULO 4. ANALISIS BAYESIANO

(e) Normal Univariada con varianza conocida. (f) Normal k-variada con matriz de varianza-covarianza conocida. 4.11 Verificar que la esperanza a priori de

1 θ

en el ejemplo 4.8 es x0 .

4.12 Hallar el estimador de Bayes para θ en el ejemplo 4.8 si la p´erdida es: (a) L(θ, d) = (θ − d)2 . 

(b) L(θ, d) = 1 −

d θ

2

.

4.13 Verificar la ecuaci´on (4.54). 4.14 Verificar que para el ejemplo 4.9 se tiene: sup P (A | x) = π∈Γ

n0 + x+ n0 + n

inf P (A | x) =

y

π∈Γ

x+ . n0 + n

4.15 Utilizar la aproximaci´on de Laplace para obtener la aproximaci´on de Stirling del factorial: n! = Γ(n + 1) =

Z

0



tn e−t dt.

4.16 Basados en la densidad conjunta del ejemplo 4.10, para n = 20, α = 2 y β = 3, generar m = 100 variables aleatorias de p(y1 ) por el muestreador de Gibbs, para k = 150, partiendo de y10 = 10, y20 = 0.5. (a) Hacer un histograma y comparar con la densidad exacta dada en el ejemplo. (b) Estimar alternativamente la densidad marginal usando P (Y1 = y1 ) =

m 1 X P (Y1 = y1 | Y2i = y2i ). m i=1

Cap´ıtulo 5 An´ alisis Bayesiano del Modelo Lineal En este cap´ıtulo haremos una introducci´on sobre varios an´alisis Bayesianos del modelo de mayor uso en estad´ıstica, el Modelo Lineal Normal. Supongamos que el vector y (n×1) de n observaciones se distribuye seg´ un una distribuci´on Normal n-variada con media A1 θ1 , y matriz de varianza-covarianza C1 . Esto es: d

(y | θ 1 ) ∼ Nn (A1 θ1 , C1) ,

(5.1)

donde A1 (n × k) es la matriz de dise˜ no, θ1 (k × 1) es el vector de par´ametros y C1 (n × n) la matriz de varianza-covarianza muestral. Es tambi´en usual escribir (5.1) como: y = A1 θ1 + ǫ,

(5.2)

donde ǫ (n×1) es el vector de errores aleatorios con media cero y matriz de covarianza C1 : d

ǫ ∼ Nn (0, C1 ).

(5.3)

Entonces el valor esperado del vector de observaciones es: E[y] = A1 θ 1 . 123

(5.4)

124

´ CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL

Ejemplos del modelo (5.1) son entre otros: Modelos de regresi´on simple o m´ ultiple, donde las columnas de A1 son los vectores de “regresores” ´o variables independientes; Modelos de clasificaci´on de una ´o m´as v´ıas, donde las columnas de A1 son ceros ´o unos de acuerdo a la clasificaci´on; y otros. Comenzaremos por dar la versi´on “Bayes generalizada” del an´alisis frecuentista del modelo lineal, y para ello introduciremos las medidas a priori “no-informativas”.

5.1

Previas “No-Informativas”

Siendo el an´alisis condicional en los datos tan claramente obligatorio y la maquinaria Bayesiana la manera coherente de realizarlo, se han hecho esfuerzos importantes para hacer an´alisis Bayesianos “autom´aticos”. Es decir, que no requieran informaci´on del TD sobre los par´ametros. Se supone que no existe informaci´on a priori, o que de existir no se desea usar. Se necesita entonces una medida a priori “no-informativa”, o sea que no contenga informaci´on sobre los par´ametros. En qu´e sentido esta medida es “no-informativa” est´a muy lejos de ser claro, pero originalmente se postul´o como aquella medida que fuese imparcial sobre los valores de los par´ametros. El postulado original de Bayes y Laplace fue tomar como medida a priori “no-informativa” la uniforme, π(θ) = 1. Sin embargo este postulado tiene (entre otros) dos incovenientes: 1. Un TD supone que π(θ) = 1 y otro TD parametriza su problema en t´erminos del par´ametro η = exp [θ] y supone que π ∗ (η) = 1. Los resultados a que llegan ambos TD con los mismos datos y verosimilitud son inconsistentes a pesar de que la transformaci´on es uno-uno. La raz´on es que por la f´ormula del cambio de variables, si π(θ) = 1, π ∗ (η) = π(log η)/η = 1/η. Entonces seg´ un el postulado de Bayes-Laplace el primer TD es no-informativo respecto de θ pero no de η = exp [θ].

125

5.1. PREVIAS “NO-INFORMATIVAS”

2. Si el espacio de par´ametros es no acotado, por ejemplo R, entonces π(θ) = 1 no integra uno, es decir es impropia. Para resolver el primer incoveniente, formulado por Fisher, comenz´o Jeffreys(1961) una l´ınea de trabajo para obtener medidas “invariantes”. Ejemplo 5.1. Supongamos que θ es un vector de par´ametros de localizaci´on e y el vector de observaciones, pertenecientes ambos a R p . f (y | θ) = f (y − θ). Sean z = y + c, c constante, y η = θ + c. Los problemas en (y, θ) ´o en (z, η) son id´enticos en su estructura, y sean π y π ∗ sus correspondientes medidas “no-informativas”. Entonces debe ocurrir que para cualquier conjunto A de R p se tiene: PΠ(θ ∈ A) = PΠ∗ (η ∈ A) = PΠ (θ + c ∈ A) = PΠ (θ ∈ A − c), (5.5) donde A − c = {w − c, w ∈ A}. Esto es Π debe ser invariante por cambios de localizaci´on, π(θ) = π(θ−c). Haciendo c = θ, π(c) = π(0), lo que debe ocurrir para toda c ∈ R p . En conclusi´on π(θ) = constante, convenientemente π(θ) = 1.3 Notar que tanto π(θ) = 1 como la previa del ejercicio 5.1, π(σ) = σ1 , son impropias. M´as generalmente, para cualquier vector de par´ametros θ, Jeffreys sugiri´o su famosa regla: Π(θ) = [det I(θ)]1/2

(5.6)

donde I(θ) es la matriz de informaci´on de Fisher cuyo elemento i, j es: "

#

∂2 Iij = −EY |θ log f (y | θ) . ∂θi ∂θj

(5.7)

La regla de Jeffreys cumple con la siguiente propiedad de invariancia: Supongamos que η = g(θ) es cualquier transformaci´on uno-uno diferenciable. Entonces: [det I(θ)]1/2 dθ = [det I(η)]1/2 dη.

(5.8)

La implicaci´on de (5.8) es que si un TD usa la regla de Jeffreys en θ y otro TD usa la regla de Jeffreys en η y analizan al mismo conjunto

126

´ CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL

de datos con el mismo modelo, obtendr´an los mismos resultados a posteriori. Note que la previa de Jeffreys depende del modelo utilizado y puede violar el Principio de la Verosimilitud , ya que la esperanza (5.7) se toma sobre el espacio muestral.

5.2

An´ alisis “No-Informativo” del Modelo Lineal

Supongamos por simplicidad que en (5.1) C1 = σ 2 I (errores no correlacionados) y que el rango de A1 es k (rango m´aximo). El uso de las previas a) ´o c) del ejercicio 5.5 “reproducen” los resultados frecuentistas, en el sentido de que los intervalos de credibilidad (probabilidad) Bayes-generalizados coinciden con los intervalos de confianza frecuentistas. Para verlo, note que la verosimilitud del Modelo Lineal puede ser escrita como,

2

p(y | θ, σ ) =

1 √ 2πσ 1 √ 2πσ

!n

!n





1 exp − 2 (y − A1 θ1 )t (y − A1 θ1 ) = 2σ 

i 1 h 2 exp − 2 S + Q(θ1 ) , 2σ

y en la situaci´on c) se tiene π(θ1 , σ) ∝ 1/σ, integrando respecto de σ se obtiene la marginal de θ1 : "

Q(θ 1 ) π(θ1 | y) ∝ 1 + S2

#−(v+k)/2

,

(5.9)

Q(θ1 ) = (θ1 − θc1 )t At1 A1 (θ1 − θc1 ),

(5.10)

donde: con θc1 el estimador de M´axima Verosimilitud y M´ınimos Cuadrados: θc1 = (At1 A1 )−1 At1 y, v = n − k y S 2 es la suma de cuadrados residuales: S 2 = min(y − A1 θ1 )t (y − A1 θ1 ) = (y − A1 θc1 )t (y − A1 θc1 ). θ1

(5.11)

127

´ 5.2. ANALISIS “NO-INFORMATIVO” DEL MODELO LINEAL

un una t−Student De (5.9) sigue que a posteriori θ 1 se distribuye seg´ k-variada con v grados de libertad, localizaci´on θc1 y matriz de escala (At1 A1 )−1 S 2 /v, esto es: π(θ1 | y) = Tk

S v, θc1 , (At1 A1 )−1

2

v

!

.

(5.12)

De las propiedades de la t − Student multivariada se obtiene que: Q(θ1 )/k ∼ Fk,v , S 2 /v

(5.13)

o sea, el cociente de la izquierda de (5.13) se distribuye seg´ un una distribuci´on F con k y v grados de libertad. Aqu´ı θ 1 es la variable aleatoria (v.a) pero sigue siendo cierta si θc1 fuese la v.a., de all´ı la correspondencia entre intervalos de confianza y de credibilidad cuando se emplea como previa c) del ejercicio 5.4. Un an´alisis exhaustivo del Modelo Lineal bajo independencia aparece en Box y Tiao(1973). Ejemplo 5.2 (Transformaci´ on de Datos a Normalidad). Una generalizaci´on considerable del Modelo Lineal (5.1) debida a Box y Cox(1964) es: y (λ) ∼ Nn (A1 θ1 , C1 ),

(5.14)

donde −∞ < λ < ∞ es el par´ametro de la transformaci´on y y (λ) es el (λ) vector de componentes yi donde (λ) yi

=

(

yiλ −1 λ

log yi

si si

λ 6= 0 λ = 0.

(5.15)

La transformaci´on (5.15), que tiene sentido si yi > 0, ∀i = 1, . . . , n, y A1 tiene la primera columna de 1’s para que un par´ametro com´ un est´e incluido en el modelo, engloba las transformaciones usuales: rec´ıproco, ra´ız cuadrada, logaritmo, etc., siendo continua en λ = 0. Suponemos a priori que: π(θ1 , σ, λ) = π(λ)/σ k+1.

(5.16)

128

´ CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL

Aqu´ı no puede suponerse que θ1 y σ son independientes para todo λ como antes, ya que la densidad a posteriori de λ depender´ıa de la escala de medici´on de los datos, Pericchi(1981). Definiendo la variable z

(λ)

= y

(λ)

/

n Y

i=1

yi

!1/n

, e integrando respecto a σ y θ1 se obtiene la

marginal a posteriori de λ, (Pericchi,1981): π(λ | z) = (S(λ, z))−n/2 π(λ),

(5.17)

donde S(λ, z) es la suma residual de cuadrados asociada a λ y z. De (5.17) pueden obtenerse intervalos aproximados de credibilidad de λ.3 La ventaja del enfoque Bayes generalizado del Modelo Lineal es que es autom´atico, es decir, no requiere de una asignaci´on cuidadosa de una medida a priori. Sin embargo tiene desventajas (compartidas por los enfoques frecuentistas) y entonces s´olo puede ser considerado como una aproximaci´on. Hay una extensa literatura sobre las paradojas que genera, por ejemplo Stone(1971). Adicionalmente, si k > 2, θc1 la media a posteriori en (5.12) es inadmisible, Stein(1956). En vista de todo ello exploraremos enfoques propios de Bayes para el Modelo Lineal.

5.3

Modelo Lineal Jer´ arquico

En esta secci´on seguiremos principalmente el elegante desarrollo de Lindley y Smith(1972) y Lindley(1983). Volvamos al modelo (5.1): dado θ1 (k1 × 1) d

(y | θ1 ) ∼ Nn (A1 θ1 , C1), con A1 y C1 conocidas, y C1 positiva definida. Supongamos que dado θ2 (k2 × 1), d

(θ1 | θ2 ) ∼ Nk1 (A2 θ2 , C2 ), con A2 y C2 conocidas, y C2 positiva definida.

(5.18)

129

´ 5.3. MODELO LINEAL JERARQUICO

Lema 5.1 Sea µ = A2 θ2 . Bajo (5.1) y (5.18) tenemos: 



π(y) = Nn A1 µ, C1 + A1 C2 At1 , π(θ1 | y) = Nk1 (Bb, B),

y

(5.19) (5.20)

donde, B −1 = At1 C1−1 A1 + C2−1 , b = At1 C1−1 y + C2−1 µ. Prueba.

(5.19) se deduce de escribir: y = A1 µ + A1 v + u, d

d

donde, u ∼ N(0, C1 ) y v ∼ N(0, C2 ) con u y v independientes. Multiplicando la verosimilitud (5.1) por la previa (5.18) se obtiene: 



1 π(θ1 | y) ∝ exp − D(θ1 ) , 2 donde D(θ1 ) = (y − A1 θ1 )t C1−1 (y − A1 θ1 ) + (θ1 − µ)t C2−1 (θ1 − µ) (5.21) = (θ1 − Bb)t B −1 (θ1 − Bb) + G,

donde G = y t C1−1 y + µt C2−1 µ, no envuelve a θ 1 .2

Note que E[θ1 | y] = Bb es un promedio ponderado de la media a priori µ y el estimador de m´ınimos cuadrados: θc1 = (At1 C1−1 A1 )−1 At1 C1−1 y,

con ponderaciones iguales a C2−1 y At1 C1−1 A1 . E[θ 1 | y] puede ser escrita como: n

o

B At1 C1−1 (y − A1 µ) + (At1 C1−1 A1 + C2−1 )µ = µ + BAt1 C1−1 (y − A1 µ). (5.22)

130

´ CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL

Entonces E[θ1 | y] es µ (su media a priori) m´as una correcci´on que es la desviaci´on de y cerca de su valor esperado A1 µ, pre-multiplicada por el “filtro” BAt1 C1−1 . Lema 5.2 n

C1 + A1 C2 At1

o−1

h

= C1−1 −C1−1 A1 At1 C1−1 A1 + C2−1

i−1

At1 C1−1 . (5.23)

Prueba. La demostraci´on de este hecho algebraico puede hacerse directamente o probabil´ısticamente igualando los t´erminos cuadr´aticos de y en (5.19) y en Π(y) ∝

Z





1 exp − D(θ1 ) dθ1 .2 2

Corolario 5.1 Puede pensarse una previa “no informativa” como el l´ımite cuando C2−1 → 0. Del lema 5.2 se obtiene: lim −1

C2 →0

n

C1 + A1 C2 At1

o−1

h

= C1−1 − C1−1 A1 At1 C1−1 A1

i−1

At1 C1−1 . (5.24)

Note que tambi´en del lema 5.2 se obtiene: h

B = C2−1 + At1 C1−1 A1

i−1

h

= C2 − C2 At1 A1 C2 At1 + C1

i−1

A1 C2 , (5.25)

lo que permite ver la dispersi´on posterior como la dispersi´on a priori C2 , menos la reducci´on debida al experimento.

5.3.1

Modelo Lineal Normal Jer´ arquico (MLNJ)

Un momento crucial del desarrollo del m´etodo Bayesiano fue el reconocimiento de que el conocimiento a priori puede ser modelado en niveles que forman una jerarqu´ıa. Agregamos a (5.1) y (5.18) la siguiente especificaci´on, dado θ3 (k3 × 1), d (θ2 | θ3 ) ∼ Nk2 (A3 θ3 , C3 ), (5.26)

´ 5.3. MODELO LINEAL JERARQUICO

131

donde A3 y C3 son conocidas y C3 es positiva definida. El segundo nivel (5.18) es usado para introducir alguna estructura en el vector de par´ametros θ1 , a trav´es de los hiperpar´ametro θ 2 . Por ejemplo, all´ı se especifica cu´ales componentes del vector de par´ametros est´an “cerca” o son “similares” de acuerdo a nuestro conocimiento a priori. El tercer nivel (5.26) especifica el centro y la dispersi´on de esta similaridad. El conocimiento expresado en el segundo nivel ha sido llamado “conocimiento estructural”, y el del tercero “conocimiento param´etrico”, siendo este u ´ ltimo m´as controversial, Pericchi y Nazaret (1988). El conocimiento estructural es fundamental, y establece que bajo el Modelo Lineal se modelan efectos similares, por ejemplo producci´on de diferentes tipos de semillas de la misma planta, y jam´as efectos completamente dis´ımiles. Note que los dos u ´ ltimos niveles, de hecho, especifican una previa. “Colapsando” (5.18) y (5.26), y usando (5.19), obtenemos: d

θ1 ∼ Nk1 (A2 A3 θ3 , C2 + A2 C3 At2 ).

(5.27)

Si colapsamos los primeros dos niveles obtenemos, d

y ∼ Nn (A1 A2 θ 2 , C1 + A1 C2 At1 ), o sea, (5.19). La previa (5.26) pudo haber sido especificada directamente, pero esto es m´as dif´ıcil que especificarla en niveles, es decir modelarla. Por otra parte, generalmente: dim(θ1 ) ≫ dim(θ2 ) ≥ dim(θ 3 ),

(5.28)

y por ello el conocimiento estructural confina la asignaci´on basada en el conocimiento param´etrico a una dimensi´on usualmente mucho menor, lo que es una gran ventaja. El resultado b´asico para el modelo jer´arquico de tres niveles es el siguiente teorema. Teorema 5.1 Supongamos el Modelo Lineal Normal Jer´arquico de tres niveles (MNLJ3). Denotemos el vector de medias de θ2 por ξ = A3 θ3 . Entonces dado θ 3 para C1 , C2 y C3 conocidas:

132

´ CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL





π(y) = Nn A1 A2 ξ, C1 + A1 (C2 + A2 C3 At2 )At1 ,

y

(5.29)

π(θ1 | y) = Nk1 (Dd, D),

(5.30)

donde: h

D−1 = At1 C1−1 A1 + C2 + A2 C3 At2 n

d = At1 C1−1 y + C2 + A2 C3 At2 Prueba. 5.1.2.

i−1

o−1

,

y

(5.31)

A2 ξ.

(5.32)

La demostraci´on sigue directamente de (5.27) y del lema

Teorema 5.2 Cuando C3−1 → 0, π(θ1 | y) = Nk1 (D0 d0 , D0 ),

(5.33)

donde, D0−1 = At1 C1−1 A1 + C2−1 − C2−1 A2 (At2 C2−1 A2 )−1 At2 C2−1 ,

y

d0 = At1 C1−1 y. Prueba.

(5.34)

(5.35)

Por el lema 5.2,

D−1 = At1 C1−1 A1 + C2−1 − C2−1 A2 (At2 C2−1 A2 + C3−1 )−1 + At2 C2−1 , (5.36) h

i

d = At1 C1−1 y + C2−1 − C2−1 A2 (At2 C2−1 A2 + C3−1 )−1 At2 C2−1 A2 ξ. (5.37) Sustituyendo C3−1 = 0 en (5.36) y (5.37), se obtienen los resultados requeridos. 2.

133

´ 5.3. MODELO LINEAL JERARQUICO

Haciendo C2−1 → 0 en (5.23) se obtiene E(θ1 | y) = θc1 , el estimador de m´ınimos cuadrados. Sin embargo cuando C3−1 → 0, E(θ1 | y) = D0 d0 , o sea, el conocimiento estructural permanece, a´ un cuando el conocimiento param´etrico se haga “no-informativo”. La ventaja es que comunmente se usa una previa “no-informativa” en un espacio de dimensi´on menor que k1 . Pericchi y Nazaret(1988) discuten las ventajas y desventajas de E(θ1 | y) = D0 d0 , y muestran tests de diagn´ostico sobre si C3−1 = 0 resulta una buena aproximaci´on o no. En el MLNJ para el trabajo num´erico, se puede usar la identidad entre medias y modas para la distribuci´on Normal. Si la media a posteriori se denota por θ∗1 , diferenciando por ejemplo (5.21) con respecto a θ1 , se obtiene: −At1 C1−1 (y − A1 θ ∗1 ) + C2−1 (θ∗1 − µ) = 0,

(5.38)

y la segunda derivada evaluada en la moda resulta el inverso de la matriz de covarianza. Ejemplo 5.3 (Modelo de Clasificaci´ on de una v´ıa, ANOVA1). Supongamos que Yij representa para una misma planta la producci´on de la variedad de semilla i, i = 1, . . . , k, j = 1, . . . , ni . Aqu´ı θ1i es la d producci´on media de la variedad i. Supongamos que Yij ∼ N(θ1i , σi2 ). σ2 Por simplicidad supongamos ni = n, ni = σw2 , i = 1, . . . , k1 . Usamos la convenci´on del sub´ındice punto para denotar el promedio aritm´etico d respecto del sub´ındice. Entonces: Yi. ∼ N(θ1i , σw2 ). Respecto del segundo nivel el conocimiento estructural m´as sencillo es que todas las θ1i ’s provengan de la misma poblaci´on Normal, es decir: d

θ1i ∼ N(µ, σB2 ).

(5.39)

Interesantes posibilidades se abren en situaciones m´as complejas. Si supi´eramos que un subconjunto de las k1 variedades de semillas provienen de Australia y el resto de M´exico, especificar´ıamos dos medias diferentes en (5.39) y quiz´as dos varianzas diferentes. Proseguimos al tercer nivel suponiendo: d

µ ∼ N(ξ, τ 2 ).

(5.40)

134

´ CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL

El t´ermino cuadr´atico, an´alogo a (5.21) en este ejemplo es: P

− θ1i )2 + σw2

i (yi

P

i (θ1i

− µ)2

σB2

+

(µ − ξ)2 . τ2

(5.41)

Diferenciando (5.41) respecto de la media θ1m y µ, obtenemos: ∗ ∗ −(ym − θ1m ) (θ1i − µ∗ ) + =0 σw2 σB∗

P

(µ∗ − ξ) = 0. τ2 (5.42) 2 Resolviendo (5.42) se obtiene E(θ1m | y). Note que si τ → ∞, y ∗ µ = θ1∗ = y.. , entonces sustituyendo en (5.42), E(θ1i | y) =



y

∗ θ1m

=

∗ i (θ1i σB2

ym. 2 σw 1 2 σw

+ +

− µ∗ )

y.. 2 σB 1 2 σB

+

.

(5.43)

Recordemos que el estimador de m´ınimos cuadrados es θd 1m = ym. ; ∗ es por ello que θ1m es un ejemplo de lo que se llama “estimadores de encogimiento” ya que encogen a θd 1m hacia la media general y..; a este tipo de estimadores tambi´en se les llama de Stein, originalmente propuestos para “dominar” a θd 1m , cuando k1 > 2. Para obtener varianzas y covarianzas usamos θ∗1 = D0 d0 ; notemos que el t´ermino que no depende de las modas en (5.42) es −ym. /σw2 ; pasando estos t´erminos a la derecha obtenemos d0 , ver (5.35). Por ∗ tanto multiplicando la m-´esima fila de D0 por d0 obtenemos θ1m . La varianza estar´a en la diagonal, las covarianzas fuera de ella. Puede verificarse que este procedimiento da:

V ar(θ1m

σ2 | y) = 1 + w2 k1 σB

Cov(θ1m , θ1l | y) =

!

1 1 / + 2 2 σw σB

σw2 k1 σB2

!

!

= Ψ2 ,

(5.44)

!

(5.45)

1 1 / + 2 .3 2 σw σB

Note que las esperanzas a posteriori dependen de la tasa σw /σB , y no de cada una por separado. Finalmente, concluimos que el uso de la

135

´ 5.3. MODELO LINEAL JERARQUICO

informaci´on estructural (5.39) produce estimadores m´as satisfactorios que los estimadores de m´ınimos cuadrados. Observaci´ on 1. Para el ejemplo anterior E(θ1m −θ1l | y) = ρ(ym. −yl. ) con ρ = σB2 /(σw2 + σB2 ) < 1. Adem´as V ar(θ1m − θ1l | y) = 2ρσw2 < 2σw2 , siendo este u ´ ltimo el valor obtenido por m´ınimos cuadrados. Para hacer comparaciones m´ ultiples, θ1m vs. θ1l tomamos la media de su√diferencia sobre su desviaci´on est´andard obteniendo ρ1/2 (ym. − yl. )/ 2σw , o sea ρ1/2 por el valor frecuentista. El efecto de hacer comparaciones m´ ultiples es autom´aticamente tomado en cuenta. Esto contrasta con los m´etodos fracuentistas, que deben hacer correcciones ad-hoc. Respecto a la predicci´on, si z es una observaci´on del grupo m, π(z | y) =

Z

π(z | θ1m )π(θ1m | y)dθ1m . d

∗ Pero z = θ1m + ǫ, donde ǫ ∼ N(0, σw2 ) y θ1m = θ1m + δ con d 2 2 δ ∼ N(0, Ψ ) con Ψ definido como en (5.44). Entonces π(z | y) = ∗ N(θ1m , σw2 + Ψ2 ).

Ejemplo 5.4 (Regresi´ on M´ ultiple). Sea β (k × 1) el vector de regresores y X la matriz de variables independientes. E(y) = Xβ con C1 = σ 2 I. Se suman constantes a los regresores para que tengan un d origen com´ un µ. M´as a´ un supongamos que βj ∼ N(µ, τ 2 ), j = 1, . . . , k, e independientes entre s´ı. En el tercer nivel se supone una previa “noinformativa”. Entonces: D0−1 = X t Xσ −2 + (Ik − k −1 Jk )τ 2 ,

(5.46)

donde Ik y Jk (ambas k ×k) son la matriz identidad y la matriz de unos en todas las entradas, respectivamente, d0 = σ −2 X t y. Si λ = σ 2 /τ 2 , entonces E(β | y) = β∗ satisface: n

o

X t X + λ(Ik − k −1 Jk ) β ∗ = X t y.

(5.47)

Estimadores de este tipo han sido obtenidos bajo el nombre de “ridge regression”, que s´olo ser´an razonables si los supuestos que lo producen lo son. Se puede escribir (5.47) como:

136

´ CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL

n

o

b + λβ ∗ 1 , X t X + λIk β∗ = X t X β . k

(donde 1k es un vector k × 1 de unos), o sea, como una combinaci´on b y la media aritm´ convexa de β etica de los βj∗ ’s. De nuevo tenemos encogimiento hacia la media general el cual es de especial importancia cuando X t X est´a mal condicionada.3 La teor´ıa descrita en este cap´ıtulo puede ser usada para analizar Series Cronol´ogicas de una forma estructurada, como veremos en la secci´on 5.4. Cuando las varianzas (t´ıpicamente par´ametros de molestia, aunque no siempre) son desconocidas, aparecen dos problemas. El primero es la necesidad de asignar distribuciones a priori a estos par´ametros. El segundo, una vez asignadas las distribuciones, hay que integrar sobre los par´ametros de molestia para obtener la marginal a posteriori de los par´ametros de inter´es, que ya no ser´a Normal. Sea Φ el vector de par´ametros de molestia y θ1 el vector de par´ametros de inter´es. Para muestras grandes se ha sugerido (Lindley y Smith, 1972) el uso de “estimadores modales” como una aproximaci´on a las medias, mucho m´as sencillas de obtener. El argumento es el siguiente: los valores modales satisfacen; ∗ ∗ (1) ∂∂π θ1 (θ1 , Φ | y) = 0, ∗ ∗ (2) ∂∂π Φ (θ 1 , Φ | y) = 0.

De (1) sigue que si Π(Φ∗ | y) 6= 0 entonces, ∂ (π(θ∗1 | Φ∗ , y)) π(Φ∗ | y) = 0, ∂θ 1 o sea, ∂π ∗ (θ | Φ∗ , y) = 0. ∂θ 1 1 Por lo tanto pueden usarse los estimadores modales θ∗1 (obtenidos en la discusi´on previa), sustituyendo los par´ametros de molestia Φ por sus estimadores modales.

137

´ 5.3. MODELO LINEAL JERARQUICO

Continuaci´ on Ejemplo 5.3. Ahora en el ANOVA1, σw2 y σB2 son desconocidos y deben ser sustituidos por sus estimadores modales. Distribuciones convenientes (que no son conjugadas) son las “chi-cuadrado inversas” es decir: vw λw ∝ χ2 (vw ), σw2

y

vB λB ∝ χ2 (vB ). σB2

Los hiperpar´ametros v y λ describen las medias y varianzas. Haciendo π(µ) = 1 e integrando con respecto a µ en π(θ1 , σw2 , σB2 , µ, y) se obtienen los estimadores modales de θ1 , σw2 y σB2 :      yi. y.. 1 1 ∗   / σ2∗ + σ2∗ , 2∗ + σ 2∗  θ1i = σw w B B P 2∗ ∗ ∗ 2 σ = { (θ − θ ) + v λ } /(k1 + vB + 1),  B B i B 1i 1  P 

nσw2∗

2

= {S + n

i (yi.



∗ 2 θ1i )

(5.48)

+ vw λw } /(nk1 + vw + 2),

P P

donde S 2 = i j (yij − yi. )2 . En la pr´actica se usa un procedimiento iterativo. Se comienza con 0 Φ , se calcula θ 11 con el cual se calcula Φ1 , y as´ı sucesivamente hasta converger, lo que generalmente sucede.3 La estimaci´on modal adolece de varios inconvenientes entre los cuales citamos que s´olo son buenas aproximaciones para muestras grandes y no proveen informaci´on sobre el error de los estimadores y otras caracter´ısticas de las marginales. El procedimiento correcto para obtener la mariginal es integrando los par´ametros de molestia, π(θ1i | y) =

Z

π(θ1i | Φ, y)π(Φ | y)dΦ.

(5.49)

Ya hemos mencionado la aproximaci´on de Laplace y los m´etodos de cuadratura de Naylor y Smith(1982) para integrales. En la actualidad hay una gran producci´on en investigaci´on para el c´alculo de marginales y momentos a posteriori por m´etodos iterativos de Montecarlo, que usan intensivamente el computador, permitiendo la integraci´on en muchas dimensiones por usuarios no expertos en m´etodos num´ericos.

138

´ CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL

Tambi´en un an´alisis cuidadoso de la parametrizaci´on del problema permite, en ocasiones, disminuir la dimensi´on de integraci´on ganando comprensi´on en el problema. Continuaci´ on Ejemplo 5.3. Para el ANOVA1 con las distribuciones a priori especificadas se puede demostrar que integrando respecto a µ, σB2 y σw2 , θ1 tiene una marginal a posteriori que es el producto de dos t − Student multivariadas. Esta distribuci´on es dif´ıcil de manejar. P´erez y Pericchi(1987) reparametrizan el ANOVA1, (θ1 , µ, σB2 , σw2 ) → (θ1 , µ, σB2 , ρ),

con ρ = σB2 /σw2 . Obtienen que π(θ1 | ρ, y) es una t-Student multivariada (f´acilmente manejable) y consiguen la forma de π(ρ | y). Esto permite reducir la integraci´on a una dimensi´on.3

5.4

El Modelo Lineal Din´ amico

Un caso particular de los modelos lineales que aparecen frecuentemente en la pr´actica es el Modelo Lineal Din´amico (MLD). Este modelo es utilizado para analizar datos que evolucionan con el tiempo y dependen ´el, por ejemplo, la tasa de cambio de una moneda con respecto a otra, el precio de acciones que se cotizan en la bolsa, las exportaciones e importaciones de un pa´ıs, etc. En esta secci´on estudiaremos de manera muy general el MLD polinomial de primer orden, sin embargo, para un an´alisis m´as exhaustivo el lector puede referirse a West y Harrison (1989), que ser´a ha tomado como referencia principal de nuestro desarrollo. Definici´ on 5.1 Para cada instante de tiempo t = 1, 2, . . . consideremos las siguientes ecuaciones: νt ∼ N(0, Vt ), Ec. de observaciones: Yt = µt + νt , Ec. del sistema: µt = µt−1 + ωt ωt ∼ N(0, Wt ), Informaci´on Incial: (µ0 | D0 ) ∼ N(m0 , C0 ), m0 , C0 conocidos. En la definici´on anterior los t´erminos de las sucesiones {νt } y {ωt } son independientes, mutuamente independientes e independientes de

139

´ 5.4. EL MODELO LINEAL DINAMICO

(µ0 | D0 ). D0 es la informaci´on inicial, m0 es un estimado para el nivel de la serie y C0 es la incertidumbre sobre la media m0 . Para cada t supondremos que Dt−1 recoge toda la informaci´on sobre D0 , Vt , Wt , Y1 , . . . , Yt−1 , entonces la u ´ nica informaci´on nueva para cada t ser´a Dt = {Yt , Dt−1 }. Teorema 5.3 Para cada t tenemos las siguientes distribuciones: a) Posteriori para µt−1 : (µt−1 | Dt−1 ) ∼ N(mt−1 , Ct−1 ). b) Previa para µt : (µt | Dt−1 ) ∼ N(mt−1 , Rt ), con Rt = Ct−1 + Wt . c) Predicci´on para la siguiente observaci´on: (Yt | Dt−1 ) ∼ N(ft , Qt ), donde ft = mt−1 y Qt = Rt + Vt . d) Posteriori para µt : (µt | Dt ) ∼ N(mt , Ct ), donde mt = mt−1 + At et , Ct = At Vt , At = Rt /Qt y et = Yt − ft . Prueba. Haremos la prueba por inducci´on en t. Supongamos cierto a), entonces µt es la suma de dos Normales independientes y por tanto es una Normal, con media mt−1 + 0 y varianza Rt = Ct−1 + Wt , es decir, (µt | Dt−1 ) ∼ N(mt−1 , Rt ),

que es el resultado en b). Analogamente el procedimiento para probar c). La prueba de d) se puede realizar de dos maneras diferentes, usando el Teorema de Bayes (ver West y Harrison (1989)) o basados en la teor´ıa de variables aleatorias Normales. De b) y c) sabemos: (Yt | Dt−1 ) ∼ N(ft , Qt )

y

(µt | Dt−1 ) ∼ N(mt−1 | Rt ),

con estas distribuciones podemos calcular la distribuci´on conjunta (Yt , µt | Dt−1 ). Caculemos la covarianza entre Yt y µt . Cov(Yt , µt | Dt−1 ) = E [(Yt − ft )(µt − mt−1 )] = Rt ,

donde la u ´ ltima igualdad se obtiene usando independencia y las propiedades de la esperanza. Entonces la distribuci´on conjunta es: (Yt , µt | Dt−1 ) ∼ N

"

mt−1 mt−1

!

,

Qt Rt Rt Rt

!#

.

140

´ CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL

La correlaci´on entre Yt y µt es ρt = Rt /(Rt Qt )1/2 , entonces ρ2t = Rt /Qt = At . Usando estos resultados se obtiene que (µt | Yt , Dt−1 ) ∼ N(mt , Ct ), donde mt = mt−1 + ρ2t (Yt − mt−1 ), Ct = (1 − ρ2t )Rt = Rt Vt /Qt = At Vt , que es el resultado buscado en d). Para finalizar la prueba basta probar a), pero esto es cierto para t=1 por la definici´on del modelo. 2

5.4.1

El Modelo constante

El conjunto de observaciones para cada t es Dt = {Yt , Dt−1 } y ´este no contiene informaci´on externa a la serie, por lo que se le suele llamar cerrado. Un caso especial de MDL de primer orden es el modelo constante, en este modelo se considera que la varianza observacional (Vt ) y de evoluci´on (Wt ) son constantes en el tiempo. Es decir, un MDL constante tiene V y W ambas positivas, finitas y constantes. Una medida de inter´es es r = W/V , que suele llamarse se˜ nal de ruido. Ejemplo 5.4 (Tomado de West y Harrison (1989)). Una compan ˜´ıa farmace´ utica produce una droga llamada KURIT que actualmente vende un promedio de 100 unidades por mes. Por consejo m´edico la compa˜ n´ıa produjo un cambio en su formulaci´on que se espera incrementar´a la demanda a partir de Enero (t=1), sin embargo el precio y el nombre permanecer´an igual. Se requiere predecir la producci´on y el abastecimiento de acuerdo a la nueva demanda. Los pacientes que consumen esta droga lo hacen regularmente, por lo que se piensa que la demanda en el tiempo es localmente constante. Entonces un MDL de primer orden constante parece ser una buena opci´on para predecir la demanda. Con la informaci´on disponible hasta el momento con la vieja f´ormula se sabe que V =100 y W =5. Un estudio de mercado en t=0 mostr´o que el nuevo producto aumentar´a sus ventas en un 30%, es decir, 130 unidades por mes, pero con una incertidumbre C0 = 400. Entonces las ecuaciones del modelo son: Yt = µt + νt , νt ∼ N(0, 100) µt = µt−1 + ωt , νt ∼ N(0, 5),

141

´ 5.4. EL MODELO LINEAL DINAMICO

con informaci´on inicial (µ0 | D0 ) ∼ N(130, 400) y r = 0, 05. Usando las ecuaciones de recurrencia dadas en el Teorema 5.3 se pueden calcular las predicciones de la siguiente manera, sabemos m0 = 130, C0 = 400, V = 100, W = 5, adem´as la observaci´on Y1 = 150, as´ı que: R1 = C0 + W = 405, f1 = m0 = 130, Q1 = R1 + V = 505,

y

A1 = R1 /Q1 = 0.8, adem´as m1 = m0 + A1 (Y1 − f1 ) = 130 + 0.8(150 − 130) = 146 y C1 = A1 V = 80. Los resultados aparecen resumidos en la siguiente tabla hasta t = 9.

3

t 1 2 3 4 5 6 7 8 9

Qt 505 185 151 139 133 130 128 127 126

ft 130.0 146.0 141.4 141.9 145.3 142.6 143.9 140.4 142.2

At 0.8 0.46 0.34 0.28 0.25 0.23 0.22 0.21 0.21

Yt et mt Ct 150 20.0 146.0 80 136 -10.0 141.4 46 143 1.6 141.9 34 154 12.1 145.3 28 135 -10.3 142.6 25 148 5.3 143.9 23 128 -15.9 140.4 22 149 8.6 142.2 21 146 3.8 143.0 20

En la tabla se observa que a medida que t aumenta At decrece. Adem´as el coeficiente de m0 en el c´aculo de mt es (1 − At ) . . . (1 − A1 ), as´ı que por ejemplo para el c´alculo de m10 la contribuci´on del valor de m0 es poco significativa. Hasta ahora hemos asumido que los modelos son cerrados, es decir, no toman en cuenta informaci´on externa en la predicci´on. El enfoque Bayesiano, por ser subjetivo, facilitar´a la incorporaci´on de informaci´on externa cuando se disponga de ella, para cada t resumiremos esta informaci´on en St y se unir´an con la informaci´on del modelo Dt = {Yt , Dt−1 , St−1 }. Continuaci´ on Ejemplo 5.4. Consideremos nuevamente la situaci´on de la compa˜ n´ıa farmace´ utica. Supongamos que para t = 9 se recibe la

142

´ CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL

informaci´on de que la droga equivalente de la competencia, BURNIT, ser´a sacada del mercado por descubrirse que produce efectos secundarios. As´ı para t = 10 los pacientes que consumen BURNIT se cambiar´an para otra droga equivalente. Se sabe que esta medicina cuenta actualmente con el 50% del mercado, lo que hace suponer que se duplicar´an las ventas de KURIT, es decir, E[µ10 | D9 , S9 ] = 286. Despu´es de realizar un estudio del mercado se llega a las siguientes conclusiones: (ω10 | D9 , S9 ) ∼ N(143, 400) (µ10 | D9 , S9 ) ∼ N(286, 920) (Y1 0 | D9 , S9 ) ∼ N(286, 1020) En la siguiente tabla se muestran los resultados hasta t = 15 despu´es de incorporar la informaci´on externa. t Qt ft At Yt et mt 10 1020.00 286.00 0.90 326 40.00 322.07 11 195.11 322.07 0.48 350 27.93 355.47 12 153.00 355.47 0.34 320 -35.47 343.41 13 139.00 343.41 0.28 328 -15.41 339.09 14 133.00 339.09 0.24 318 -21.09 334.02 15 129.00 334.02 0.22 348 13.98 337.09

Ct 90.19 48.00 34.00 28.00 24.00 22.00

3 En conclusi´on, cuando la informaci´on externa sea relevante para la predicci´on que se desea realizar, y dispongamos de ella, es de vital importancia a la hora de tomar decisiones incorporarla a la informaci´on suministrada por el modelo. A continuaci´on probaremos un teorema que nos permitir´a conocer el comportamiento del coeficiente de adaptaci´on cuando t → ∞. Teorema 5.4 En el MDL de primer orden constante, cuando t → ∞, At → A y Ct → C = AV , donde A=

r

q



1 + 4/r − 1 2

.

143

´ 5.4. EL MODELO LINEAL DINAMICO

Prueba. Ct = At V , con 0 < At < 1, entonces 0 < Ct < V, ∀t. Usando las ecuaciones de recurrencia del Teorema 5.3 se tiene: −1 −1 −1 1 Ct−1 − Ct−1 = Rt−1 − Rt−1 = Kt (Ct−1 − Ct−2 ),

donde Kt = Ct−1 Ct−2 /(Rt Rt−1 ) > 0, entonces Ct es una sucesi´on mon´otona y acotada, por lo que existe el l´ımite C. Como Rt = Ct−1 + W , entonces Rt → R = C + W . Adem´as, Ct = Rt V /(Rt + V ), por lo que C satisface la siguiente ecuaci´on cuadr´atica C 2 + CW − V W . Esta ecuaci´on tiene una soluci´on positiva dada por:

C=

−W +

q

W 2 + 4(V W ) 2

=



V r −1 +

q

1 + 4/r

2



,

as´ı que At → A = C/V , que es lo que se quer´ıa probar. Despejando se llega a la relaci´on r = A2 /(1 − A).2 La siguiente tabla muestra algunos resultados num´ericos de la relaci´on que existe entre r y A. 1/r A

9900 380 90 20 6 0,75 0,01 0.01 0.05 0.10 0.20 0.33 0.67 0.99

Resumiendo, para el modelo constante, cuando t → ∞ se tienen los siguientes resultados l´ımites: 1. At → A =

r



1+4/r , 2

r = A2 /(1 − A),

2. Ct → C = AV , 3. Rt → R = C/(1 − A) = AV /(1 − A), 4. Qt = Q = V /(1 − A), 5. W = A2 Q.

144

5.4.2

´ CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL

Caso Varianza desconocida

En cualquier problema pr´actico que requiera el ajuste de Modelos Din´amicos el principal inconveniente es la asignaci´on de las varianzas Vt y Wt . Consideremos el modelo constante, Rt = Ct−1 +W y en el l´ımite R = C AC C + W = 1−A , entonces W = 1−A , como A es constante, observamos que la varianza W es una proporci´on de C. Pareciera l´ogico pensar que la selecci´on de W depende de la incertidumbre inicial C, y este A 100%. Como δ = 1 − A, entonces R = C/δ, as´ı porcentaje ser´a 1−A la selecci´on de δ depender´a del coeficiente de adaptaci´on del modelo a los datos, y esto nos conducir´a a la selecci´on de W . Por ejemplo si A=0.1, entonces δ = 0.9 y la varianza W = 0.11 C, pero si disminuimos δ = 0.8, la varianza aumentar´a a W = 0.25 C. En cualquier caso, siempre ser´a conveniente elegir una tasa de adaptaci´on constante para cada t. Llamaremos a δ el factor de descuento para cualquier MLD. Para una factor de descuento δ fijo tenemos, Wt = Ct−1

1−δ δ

!

y

Rt =

Ct−1 , δ

para cada t. Hemos considerado aqu´ı modelos constantes y no constantes, pero en general cualquier MLD de primer orden converge r´apidamente a un modelo constante del tipo {1, 1, V, rV }, donde r = (1 − δ)2 /δ, esta tasa r se deduce de los casos l´ımites considerados anteriormente. Una discusi´on m´as general sobre factores de descuentos aparece en West y Harrison (1989), sin embargo la idea introducida en esta secci´on es que los factores de descuento son una herramienta para la elecci´on de la varianza. Adem´as en el caso de modelos no constantes esto nos permite actualizar la varianza Wt para cada t, y en caso de tener que incorporar informaci´on externa al problema los factores de descuento jugar´an un papel muy importante a la hora de ajustar la varianza para cambiar el nivel de la serie. Existe en la actualidad toda una industria de investigaci´on de aplicaciones y generalizaciones del Modelo Lineal Jer´arquico Din´amico y Filtros de Kalman, bajo el nombre de modelaje Bayesiano din´amico. Referencias recientes los libros de West y Harrison (1989) sobre mod-

145

5.5. EJERCICIOS

elaje Bayesiano din´amico, y Pole, West and Harrison (1994) sobre el paquete estad´ıstico “BATS”: Bayesian Analysis of Time Series.

5.5

Ejercicios  

5.1 Para par´ametros de escala, f (y | σ) = σ1 f σy , σ > 0, el problema debe ser invariante para cambios de escala z = c y, c > 0. Muestre que entonces la medida invariante debe cumplir: π(σ) =

1 σ

´o

π(log σ) = 1.

5.2 Mostrar que Iij (θ) en (5.7) tambi´en puede ser escrita como: "

#

∂ ∂ log f (y | θ) log f (y | θ) . Iij (θ) = −Ey |θ ∂θi ∂θj 5.3 Demostrar la Invarianza de la regla de Jeffreys, ecuaci´on (5.8). 5.4 Verificar que para regla de Jeffreys, si la verosimilitud es Normal con media θ y desviaci´on t´ıpica σ, resulta: (a) Para varianza conocida π(θ) = 1. (b) Para media conocida π(σ) = σ1 . (c) Ambas desconocidas π(θ, σ) =

1 . σ2

(d) Si ambos son independientes pero desconocidos π(θ, σ) = π(θ)π(σ) = σ1 . 5.5 Verificar que para el Modelo Lineal (5.1) bajo los supuestos hechos, la previa de Jeffreys es: (a) π(θ1 ) = 1, si σ 2 es conocida. (b) π(θ, σ) =

1 , σk+1

si σ es desconocida.

(c) Finalmente si θ1 y σ son a priori independientes, π(θ1 , σ) = π(θ1 )π(σ) = σ1 .

146

´ CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL

5.6 Expresar E(θ1 | y) = Dd en el Teorema 5.1 como combinaci´on convexa de θc1 = (At1 C1−1 A1 )−1 A1 C1−1 y y la media a priori A2 ξ. Tambi´en mostrar que: E(θ1 | y) = A2 ξ + DAt1 C1−1 (y − A1 A1 ξ), o sea que el filtro es igual a DAt1 C1−1 . 5.7 Verificar las ecuaciones de la Observaci´on 1. 5.8 Demostrar la ecuaci´on (5.46).

Cap´ıtulo 6 Selecci´ on de Modelos y Test de Hip´ otesis Bayesianos En este cap´ıtulo (basado en Berger y Pericchi(1996) y Pericchi, Fiteni y Presa(1996)) trataremos de manera espec´ıfica la clase de problemas en la que el enfoque frecuentista y Bayesiano difieren dr´asticamente, sobre todo cuando hay gran cantidad de datos. Es adem´as una clase de problemas de enorme importancia pr´actica y de investigaci´on b´asica. Esta clase de problemas engloba tanto a la selecci´on de modelos como al test de hip´otesis.

6.1

Introducci´ on

Comencemos con dos ejemplos que ilustran la utilidad los tipos de problemas en los que se hace necesario disponer de criterios de selecci´on de modelos y test de hip´otesis. Ejemplo 6.1 (Selecci´ on de Modelos). Proschan (1962) consider´o datos de los tiempos de falla del sistema de aire acondicionado de un aeroplano. Se obtuvieron los siguientes 30 tiempos de falla (supuestos i.i.d): 147

148

´ DE MODELOS Y TEST DE HIPOTESIS ´ CAP´ıTULO 6. SELECCION BAYESIANOS

23 261 87 7 120 14 62 47 225 71 246 21 42 20 5 12 120 11 3 14 71 11 14 11 16 90 1 16 52 95 Se plantean los siguientes modelos separados para modelizar los datos: M1 : Modelo Exponencial: f1 (xi | θ) =

1 exp {−xi /θ}, θ

xi > 0, θ > 0,

o equivalentemente, haciendo β = 1θ , f1 (xi | β) = β exp {−βxi },

xi > 0, β > 0.

M2 : Modelo Lognormal: f2 (xi | µ, σ) =

exp {−(log xi − µ)2 /2σ 2 } √ , 2πσ

xi > 0, σ > 0, −∞ < µ < ∞.

Este ejemplo pertenece a lo que llamamos Selecci´on de Modelos, ya que M1 no es un caso particular de M2 .3 Ejemplo 6.2 (Test de Hip´ otesis). Supongamos que aceptamos que ciertos datos provienen de la distribuci´on Exponencial. Una teor´ıa establece que: M1 : β = β0 , mientras que el modelo alternativo establece que la teor´ıa no es correcta, es decir, M2 : β 6= β0 . Este es un problema de Test de Hip´otesis ya que M1 puede ser aproximado tanto como se quiera por M2 , y de hecho puede considerarse a M1 como un caso particular de M2 .3 Analicemos la diferencia fundamental que existe entre los problemas de estimaci´on y los de Test de Hip´otesis o Selecci´on de Modelos. Continuaci´ on Ejemplo 6.2. Supongamos que se quiere estimar el par´ametro β de la distribuci´on Exponencial cuando no existe (o no se quiere utilizar) informaci´on a priori. Como en el Cap´ıtulo 5 asignamos la previa “no-informativa” dada por la Regla de Jeffreys:

149

´ 6.1. INTRODUCCION

π N (β) ∝ (det I(β))1/2 =

1 , β

o equivalentemente, π N (β) =

c , β

donde c es una constante positiva no especificada. Notar que π N (β) es impropia, ya que integra infinito en 0 < β < ∞. Sin embargo esto u ´ ltimo no nos impide calcular π(β | x), la cual es una densidad propia para n ≥ 1. En efecto, P f (x | β) βc f (x | β)π N (β) β n−1 exp {−β xi } π(β | x) = R =R = . P f (x | β)π N (β)dβ f (x | β) βc Γ(n)/( xi )n (6.1) Entonces π(β | x) es una distribuci´on Gamma, con par´ametros n P y ni=1 xi , la cual es propia y no envuelve a la constante arbitraria c, pues se ha cancelado por aparecer tanto en el numerador como en el denominador de (6.1). Para muestras moderadas o grandes, en vista de la Normalidad asint´otica de la densidad posterior (4.35), b I −1 (x)) = N β ∼ N(β,





1 , 2 . x nx 1

(6.2)

Por otra parte, para estimadores de M´axima Verosimilitud se cumple asint´oticamente que: βb ∼ N(β, I −1 (x)).

(6.3)

Notar la estrecha relaci´on que existe entre (6.2) y (6.3). La interpretaci´on de (6.2) es m´as satisfactoria (porque β siempre ser´a desconocido), pero a´ un as´ı la estimaci´on e intervalos obtenidos de (6.1) y (6.3) ser´an muy cercanos.3 La cercan´ıa num´erica encontrada en el ejemplo anterior, entre estimaciones usando M´axima Verosimilitud y Bayes con previas “noinformativas”, es t´ıpica en problemas de una dimensi´on, que tengan

150

´ DE MODELOS Y TEST DE HIPOTESIS ´ CAP´ıTULO 6. SELECCION BAYESIANOS

verosimilitudes “regulares” (esto es verosimilitudes cuyo soporte no dependa del valor del par´ametro, como en el ejemplo 3.2). Podr´ıa argumentarse, entonces, que en problemas de estimaci´on, la diferencia entre los enfoques basados en la verosimilitud o en Bayes, es m´as acad´emica que pr´actica. (Esto no es as´ı, sin embargo para problemas de muchos par´ametros incluso para el Modelo Lineal Jer´arquico como se vi´o en el Cap´ıtulo 5, ni para Verosimilitudes irregulares, Atkinson, Pericchi y Smith (1991), Pericchi y Nadal (1996).) Pero, incluso para verosimilitudes regulares de una dimensi´on, el enfoque frecuentista y Bayesiano difieren dr´asticamente, y en forma creciente con el tama˜ no muestral n, para problemas de Test de Hip´otesis, como se vi´o en el Ejemplo 4.1, o m´as generalmente para Selecci´on de Modelos. Resulta parad´ojico constatar que al presente momento el enfoque Bayesiano para estimaci´on est´e mucho m´as desarrollado que para Test de Hip´otesis y Selecci´on de Modelos. Precisamente para esta u ´ ltima clase de problemas es para los que m´etodos Bayesianos son m´as necesarios. La raz´on de la paradoja es: t´ıpicamente no pueden calcularse Probabilidades de Modelos, ni Factores de Bayes con previas “no-informativas” . Continuaci´ on Ejemplo 6.2. Para una previa π(β) bajo M2 , el factor de Bayes es: π B21

=

R

mπ2 f (x | β)π(β)dβ = . f (x | β0 ) f (x | β0 )

(6.4)

Si ahora asignamos como probabilidades a priori de los modelos: p1 = P (M1 ) y p2 = P (M2 ), p1 + p2 = 1, (por ejemplo p1 = p2 = 1/2 para un an´alisis de referencia) entonces (ver Cap´ıtulo 4), P (M1 | x) = 

1 1+

p2 π B p1 21

.

(6.5)

La relaci´on (6.5) parece resolver el problema del Test de Hip´otesis de la manera m´as satisfactoria; provee la probabilidad posterior de los modelos alternativos, basadas en lo adecuado en que cada mo/-de/lo predice los datos obtenidos, esto es basado en el factor de Bayes

151

´ 6.1. INTRODUCCION

(6.4). Sin embargo, supongamos que se quiere realizar un an´alisis “autom´atico”, de “referencia” o “no-subjetivo”. Si, como en estimaci´on, suponemos: π N (β) = c/β, entonces, πN B21

=c

R

f (x | β) β1 dβ f (x | β0 )

.

(6.6)

Ahora, la constante arbitraria c no se cancela y entonces el Factor de Bayes (6.6) queda indeterminado.3 Entonces, necesariamente hay que asignar previas propias para calcular el Factor de Bayes. Sin embargo, en Test de Hip´otesis y, peor a´ un, en Selecci´on de Modelos la asignaci´on cuidadosa de previas informativas subjetivas es t´ıpicamente infactible. Adem´as, la sensibilidad del Factor de Bayes va a ser grande respecto de estas previas. Una posible soluci´on es la de considerar clases de densidades a priori, como en los Cap´ıtulos 4 y 5. Siendo ´este un programa de acci´on atractivo, tiene al menos dos inconvenientes. El primero es c´omo asignar clases de densidades a priori que, como en el ejemplo 6.1, vivan en espacios muy diferentes. El segundo, es que para problemas de Test de Hip´otesis, el enfoque Bayes robusto, da desigualdades en una s´ola direcci´on, ver la expresi´on (4.19). Parece entonces conveniente enfocar el problema desde otra ´optica. ¿Es acaso la situaci´on de informaci´on (o falta de ella) igual para un problema de estimaci´on que para otro de Test de Hip´otesis o Selecci´on de Modelos?. Veamos el ejemplo 6.2. El hecho de que se est´e seriamente considerando la hip´otesis β = β0 da una pieza de informaci´on fundamental que no est´a siendo considerada en la previa impropia π N (β) = c/β. Esto es, β0 es un punto distinguido que estamos seriamente considerando como verdadero par´ametro. Si no fuese as´ı, ¿para qu´e hacer el test de hip´otesis?. La previa π(β) deber´ıa considerar que H0 : β = β0 ha sido sugerido. Resumiendo: Lo que se requiere para implementar el enfoque Bayesiano para Test de Hip´otesis, es de un m´etodo “autom´atico” o de “referencia” para asignar una previa propia π(θ), que tome en cuenta que el modelo “nulo” β = β0 , ha sido definitivamente sugerido. Dicho de una manera menos ambiciosa, el objetivo es procurar m´etodos que den respuestas iguales o cercanas a procedimientos Bayesianos. En

152

´ DE MODELOS Y TEST DE HIPOTESIS ´ CAP´ıTULO 6. SELECCION BAYESIANOS

Berger y Pericchi(1996) se enuncia el siguiente principio que va a ser seguido en este Cap´ıtulo. PRINCIPIO: M´etodos para Selecci´on de Modelos y Test de Hip´otesis que sean similares o iguales al uso de previas razonables, son preferibles a m´etodos que no corresponden a ning´ un an´alisis Bayesiano. A lo largo de este libro hemos expuesto ventajas del enfoque Bayesiano. Es importante recalcar que para esta clase de problemas, el enfoque Bayesiano le hace un servicio a la ciencia en general, en el siguiente sentido. Un principio cient´ıfico aceptado es el de la Parsimonia. Esto es, que si dos modelos alternativos se ajustan bien a los datos y aproximadamente de la misma manera, el modelo m´as simple debe ser aceptado. Esto lo cumple el enfoque Bayesiano mas no el frecuentista, Jeffreys y Berger (1992). Por otro lado, es necesario desarrollar m´etodos “autom´aticos” (es decir que no requieren de la asignaci´on directa de previas informativas para todos los par´ametros en cada modelo) ya que los procedimientos autom´aticos dominar´an en la pr´actica en la mayor´ıa de los campos. Entonces nuestro objetivo es desarrollar m´etodos autom´aticos, que sean consistentes con el Principio enunciado.

6.2

El Factor de Bayes Intr´ınseco

Comenzamos haciendo uso de una estrategia para cancelar la constante arbitraria c. Utilicemos parte de la muestra, que llamaremos “muestra de entrenamiento”, para convertir las previas impropias en propias, Lemper(1971). Emplearemos el resto de los datos para comparar los modelos. Supongamos que estamos comparando los modelos: M1 , M2 , . . . , MJ . Denotamos por X (l) la muestra de entrenamiento y X (−l) el resto de los datos. Entonces, la previa bajo el modelo Mj , que denotamos πjN (θj ) se convierte en πj (θj | x(l)) = la cual es propia si:

fj (x(l) | θ j )π N (θj ) , mN j (x(l))

(6.7)

153

6.2. EL FACTOR DE BAYES INTR´ıNSECO

0 < mj (x(l)) =

Z

fj (x(l) | θj )π N (θj )dθ < ∞.

(6.8)

La condici´on (6.8) debe cumplirse simult´aneamente para todos los modelos M1 , M2 , . . . , MJ , para que ´estos se puedan comparar. Pero por otra parte es conveniente que el tama˜ no de la muestra de entrenamiento sea m´ınima para reservar la mayor parte de la informaci´on para la comparaci´on de modelos. De all´ı la siguiente definici´on. Definici´ on 6.1 Una muestra de entrenamiento X (l) se llama “propia” si 0 < mN un j (x(l)) < ∞ para todo Mj , y “minimal” si es propia y ning´ subconjunto de X (l) es propio. Las muestras propias y minimales las llamamos MEM. Para muestras de entrenamiento propias (minimales o no), podemos entonces calcular los Factores de Bayes, que ahora estar´an bien calculados. Para X (l) el Factor de Bayes de Mj sobre Mi es, R

Lema 6.1

Bji (l) = R

fj (x(−l) | θj , x(l))πjN (θj | x(l))dθj . fi (x(−l) | θi , x(l))πiN (θi | x(l))dθi

N × BijN (x(l)), Bji ((l)) = Bji

(6.9)

(6.10)

donde

N Bji

R

= R

mN fj (x | θj )π N (θj )dθj j (x) = , N fi (x | θi )π (θi )dθi mN i (x)

Prueba.

y

BijN (x(l)) =

mN i (x(l)) . mN j (x(l))

Se deja al lector como ejercicio.2

Continuaci´ on Ejemplo 6.2. En este caso la muestra de entrenamiento m´ınima ser´a X (l) = Xl > 0, es decir un dato, ya que M1 no tiene par´ametros ajustables (Hip´otesis simple) y para M2 (usando (6.7)): π(β | xl ) = R ∞ 0

βe−βxl βc βe−βxl βc dβ

= xl e−βxl ,

(6.11)

154

´ DE MODELOS Y TEST DE HIPOTESIS ´ CAP´ıTULO 6. SELECCION BAYESIANOS

o sea, π(β | xl ) es Exponencial con par´ametro xl > 0, y por tanto es propia. Si ahora usamos (6.11) y (6.9), B21 (l) =

R∞ 0

f (x(−l) | β)π(β | xl )dβ = f (x(−l) | β0 )

mN f (xl | β0 ) 2 (x) N N × = B21 × B12 (xl ).3 f (x | β0 ) mN (x ) l 2

Note que hemos puesto al Modelo m´as complejo en el numerador, m´as adelante explicaremos la raz´on. Si bien Bij est´a bien escalado (no depende de constantes arbitrarias), depende de la selecci´on arbitraria de la MEM X (l). Para eliminar esta dependencia y para incrementar la estabilidad de los Factores de Bayes, se consideran las siguientes simetrizaciones a las que denominamos Factores de Bayes Intr´ınsecos (IBF). 1. IBF Aritm´ etico, que es la media aritm´etica, AI Bji

L L X 1X N 1 = Bji(l) = Bji BijN (x(l)), L l=1 L l=1

(6.12)

donde L es el n´ umero total de MEM que sean propias. 2. IBF Geom´ etrico, la media geom´etrica, GI Bji

=

L Y

l=1

!1/n

Bji(l)

=

N Bji

(

)

L   1X exp log BijN (x(l)) . L l=1 (6.13)

3. IBF Mediano, la mediana, 



MI N Bji = Medl (Bji (l)) = Bji × Medl BijN (x(l)) .

(6.14)

Cada uno de estos tres IBF’s tiene su justificaci´on, Berger y Pericchi (1996). Desde el punto de vista computacional, L no tiene por qu´e ser la totalidad de las MEM. Varshavsky (1995) ha encontrado que un subconjunto asombrosamente peque˜ no del conjunto de todas las MEM

155

6.2. EL FACTOR DE BAYES INTR´ıNSECO

da resultados muy cercanos al IBF. Del orden de m n, MEM dar´an resultados muy cercanos al IBF, donde n es el tama˜ no muestral y m el de las MEM. Continuaci´ on Ejemplo 6.2. Aplicando las definiciones encontramos que, como L = n, AI B21

GI B21

=

N B21

"

=

N B21

"

#

β0 (W − β0 T ) , n

y finalmente,

#

n β0 X xl e−β0 xl , n l=1

donde

W =

(6.15)

n X

log xl ,

(6.16)

l=1

h

i

MI N = B21 Medl β0 xl e−β0 xl .3 B21

(6.17)

Continuaci´ on Ejemplo 6.1. En este ejemplo M1 : Exponencial vs. M2 : Lognormal, las previas “no-informativas” utilizadas son: 1 1 y π2N (µ, σ) ∝ . θ σ Se verifica que las MEM son de la forma X (l) = (Xi , Xj ), Xi 6= Xj . Resulta que, π1N (θ) ∝

mN 1 (x) =

Γ(n) Tn

y

P

donde T = ni=1 xi , Sy2 = Para las MEM, mN 1 (x(l)) =

1 (xi + xj )2

Γ[(n − 1)/2] mN , √ 2 (x) = Qn (n−1) ( i=1 xi ) π (n−1)/2 2 n Sy

Pn

i=1 (yi

y

− y)2 , yi = log xi . mN 2 (x(l)) =

1 . 2xi xj | log(xi /xj )|

Para los datos de este ejemplo hay 435 pares de observaciones pero 9 de ellos tienen Xi = Xj . Por ello estos 9 pares no son MEM y por tanto fueron ignorados. Los resultados num´ericos fueron,

156

´ DE MODELOS Y TEST DE HIPOTESIS ´ CAP´ıTULO 6. SELECCION BAYESIANOS

AI GI MI B21 B21 B21 0.37 0.33 0.42

Como se ve los resultados son bastante cercanos, y apuntan a que el modelo Exponencial es alrededor de 3 a 1 m´as probable que el Lognormal, si suponemos que p1 = p2 = 1/2. De hecho si utilizamos (6.5) para el IBF aritm´etico obtenemos P (M1 | x) = 0.73.3 Veamos ahora otro ejemplo de Selecci´on de Modelos, el cual es fundamental para la estad´ıstica “Robusta”. Ejemplo 6.3 (Robustificaci´ on del Modelo Normal). Supongamos que el modelo base para unos datos es el modelo Normal con media y varianza desconocida. Sin embargo, existe la posibilidad de que los datos muestren colas m´as pesadas como en el modelo t-Student por ejemplo, o colas m´as finas como en la Uniforme de 2 par´ametros, o que los datos tengan cierta asimetr´ıa, como en el Modelo Gumbel (Modelo de valores extremos). Todos estos modelos pertenecen a la familia de   x−µj 1 localizaci´on-escala y pueden escribirse como: σj fj σj . Para esta clase de modelos, el IBF tiene una simplificaci´on sorprendente. Tenemos j modelos, donde todos son de localizaci´on-escala. Como en (5.7) puede verificarse que la media “no-informativa” invariante es πj (µ, σ) ∝ 1/σ. Puede verificarse adem´as que las MEM son de la forma X (l) = (Xi , Xk ), Xi 6= Xk .3 Lema 6.2 Si X1 y X2 son observaciones independientes de la densidad de localizaci´on-escala, σ −1 f ((xi − µ)/σ) y π N (µ, σ) = 1/σ, entonces para X1 6= X2 , N

m (x1 , x2 ) =

Z

0



Z



−∞









1 x1 − µ x2 − µ 1 f f dµdσ = . 3 σ σ σ 2 | x1 − x2 | (6.18)

Prueba. Sin p´erdida de generalidad supongamosh que X2 >i X1 y hagamos el cambio de variables (µ, σ) → (v, w) = x1σ−µ , x2σ−µ . Entonces, aplicando el Teorema del Cambio de Variable, se tiene:

157

6.3. EL IBF ESPERADO

Z ∞ Z ∞ 1 1 f (v)f (w)dwdv = m (x1 , x2 ) = P (v < w), |x1 − x2 | −∞ v |x1 − x2 | N

donde v y w son independientes con densidad f . Claramente P (v < w) = P (w < v) = 1/2 lo que completa la prueba.2 La identidad (6.18) es sorprendente, porque el resultado no depende de la verosimilitud f . Adem´as esta identidad simplifica la comparaci´on de modelos. En efecto, el IBF puede escribirse como: N BfI g = BfNg (x).Ave{Bgf (x(l))},

donde (Ave) representa un average aritm´etico, geom´etrico o la mediana. Ahora bien, si f y g son de localizaci´on-escala y π(θ, σ) ∝ 1/σ, entonces para las MEM, (X1 (l), X2 (l)), con X1 (l) 6= X2 (l), resulta que: N Ave{Bgf (x(l))} = 1,

(6.19)

BfI g = BfNg .

(6.20)

y por lo tanto, Por otra parte, la identidad (6.18) provee una justificaci´on de muestras de entrenamiento de tama˜ no m´ınimo. Si muestras de entrenamiento N m´as largas, X (l), son empleadas, ya no se cumplir´a que Bgf (x(l)) es independiente de g y f . Muestras de entrenamiento m´as largas producen una p´erdida innecesaria de informaci´on sobre la discriminaci´on de modelos, y p´erdida innecesaria de simplicidad. Generalizaciones de (6.18) para modelos m´as complejos, como por ejemplo para la robustificaci´on de los modelos ANOVA, se muestran en Berger, Pericchi y Varshavsky(1996).

6.3

El IBF Esperado

El IBF tiene en una variedad de casos gran simplicidad anal´ıtica. Sin embargo, para muestras peque˜ nas el IBF puede tener una variabilidad grande y por otra parte, para muestras muy grandes puede ser costoso computacionalmente. Una alternativa atractiva es sustituir el

158

´ DE MODELOS Y TEST DE HIPOTESIS ´ CAP´ıTULO 6. SELECCION BAYESIANOS

(Ave), average de las correcciones, por su esperanza bajo el modelo m´as complejo, cuando es claro cu´al es el m´as complejo como en el Test de Hip´otesis. El IBF esperado Aritm´etico y Geom´etrico son respectivamente, EAI N N B21 = B21 EM2 [B12 (x(l)) | θ],

y

n

(6.21)

o

EGI N B21 = B21 exp EM2 [log B12 (x(l)) | θ] .

(6.22)

N´otese que el IBF esperado es el valor l´ımite del IBF, ya que por la Ley de Grandes N´ umeros, L 1X L→∞ N B N (x(l)) −→ EM2 [B12 (x(l) | θ] L l=1 12

y

N 1X L→∞ N N log B12 (x(l)) −→ EM2 [log B12 (x(l)) | θ]. L l=1

(6.23)

(6.24)

Continuaci´ on Ejemplo 6.2. Usando las definiciones y (6.15) y (6.16) obtenemos: N EM2 [B12 (xl ) | β] =

exp

n

Z

0



[β0 xl e−β0 xl ]f (xl | β)dxl =

N EM2 [log B12 (xl )

ββ0 , (β + β0 )2

y (6.25)

o

(

)

β0 β0 |β = exp Ψ(1) − , β β

(6.26)

donde Ψ(.) es la funci´on digamma (ver apendice).3 Como el valor del vector de par´ametros θ es desconocido, entonces B depende de θ. Una manera natural de aproximar el IBF esperado es sustituir a θ por su estimador de m´axima verosimilitud. Formalmente, para el IBF aritm´etico y geom´etrico respectivamente, se tiene: E

EAI N N b Bb21 = B21 EM2 [B12 (X (l)) | θ],

y

(6.27)

159

6.4. PREVIAS INTR´ıNSECAS

n

o

b . b EGI = B N exp E [log B N (X (l)) | θ] B M2 21 21 12

(6.28)

Continuaci´ on Ejemplo 6.2. El estimador βb de m´axima verosimilitud b de β es β = 1/x. Sustituyendo en las f´ormulas anteriores obtenemos, b EAI = B 21

b EGI = B 21

−β0

e

Pn

Γ(n) β0 eβ0 nx , nn xn−1 (xβ0 + 1)2

Γ(n)

i=1

xi

Pn

(

i=1

xi )n

y

(6.29)

β0 x exp {Ψ(1) − β0 x} .3

(6.30)

Las correspondientes f´ormulas para el ejemplo 6.1, considerando al modelo Lognormal m´as complejo que el modelo Exponencial, son factibles de hacer, pero m´as complicadas, ver Berger y Pericchi (1.996).

6.4

Previas Intr´ınsecas

Todav´ıa no hemos respondido la pregunta fundamental: ¿El IBF obedece al Principio enunciado en la secci´on 6.1?. Es decir, ¿existe y puede calcularse una distribuci´on a priori (propia) que de resultados cercanos y asint´oticamente equivalentes al IBF?. Afortunadamente la respuesta es afirmativa para condiciones bastantes generales, y m´as a´ un puede construirse una tal distribuci´on, que llamaremos “Previa Intr´ınseca”. Por simplicidad supongamos la situaci´on del ejemplo 6.2, en el que tenemos una hip´otesis nula simple, H0 : θ = θ0 . Supongamos as´ı mismo una π(θ), bajo H2 : θ 6= θ0 , desconocida. Sea π N (θ) la previa impropia y autom´atica bajo H1 . En lo que sigue obtendremos aquella π(θ) que es equivalente asint´oticamente al IBF. Hagamos la siguiente expansi´on asint´otica:

N B21

=

R

f (x | θ)π(θ)dθ = f (x | θ)

R

N f (x | θ) ππ(θ) N (θ) π (θ)dθ

f (x | θ)



N b B21 π(θ) , b f (x | θ0 ) π N (θ) (6.31)

160

´ DE MODELOS Y TEST DE HIPOTESIS ´ CAP´ıTULO 6. SELECCION BAYESIANOS

donde θb es el estimador de m´axima verosimilitud, que se supone que existe y es u ´ nico. Entonces para que π(θ) produzca valores similares al IBF, se tiene de (6.12) y (6.13) respectivamente para el IBF aritm´etico y geom´etrico, L b π(θ) 1X L→∞ N N ≈ B12 (x(l)) −→ EM2 [B12 (x(l) | θ] b L l=1 π N (θ)

y

N b π(θ) 1X L→∞ N N ≈ log B12 (x(l)) −→ EM2 [log B12 (x(l)) | θ]. b N L π (θ) l=1

(6.32)

(6.33)

Por otra parte como suponemos que θb → θ, de (6.32) y (6.33) se tienen las siguientes ecuaciones que deben obedecer las previas intr´ınsecas aritm´etica y geom´etrica respectivamente: π AI (θ) = π N (θ)EM2 [B12 (x(l)) | θ],

y

π GI (θ) = π N (θ) exp {EM2 [log B12 (x(l)) | θ]} .

(6.34) (6.35)

Continuaci´ on Ejemplo 6.2. De la ecuaci´on (6.34) obtenemos, π AI (β) =

β0 . (β0 + β)2

(6.36)

La previa intr´ınseca Aritm´etica es atractiva en varios sentidos. Primero, es propia pues integra 1. En segundo lugar, su mediana es β0 , el punto distinguido por la hip´otesis nula. Por u ´ ltimo es una medida bastante plana, y con una cola pesada. En la Figura 6.1 se muestra esta previa para β0 = 5. All´ı se ve diferente de la medida original π N (β) = 1/β. De hecho, puede argumentarse que (6.36) es la previa apropiada, dada la informaci´on de que la hip´otesis nula H0 : β = β0 est´a siendo seriamente considerada. Una vez obtenida la previa intr´ınseca puede ser usada como previa propia y obtener (anal´ıtica o num´ericamente) el IBF “propio”. Alternativamente, se pueden realizar aproximaciones , que para este ejemplo resultan,

161

6.4. PREVIAS INTR´ıNSECAS

AI B21

R

=

f (x | β)π AI (β)dβ β0 N ≈ B21 . b 2 f (x | β0 (β0 + β)

El camino anterior puede seguirse para obtener la previa intr´ınseca geom´etrica, que resulta ser: (

)

β0 β0 π (β) = 2 exp Ψ(1) − . β β GI

(6.37)

Integrando (6.37), resulta exp{Ψ(1)} = 0.561, o sea que es integrable pero no propia y por ello el IBF geom´etrico debe ser renormalizado dividiendo por exp{Ψ(1)} para ser consistente con el principio. En la Figura 6.1, tambi´en se muestra (6.37) luego de ser normalizada al dividirse por 0.561. Excepto en la vecindad de β = 0, las previas intr´ınsecas artim´etica y geom´etrica son muy parecidas.3

π(θ)

1 0.8

No informativa

c=1

0.6

previa intr´ınseca 0.4 arit. IBF



previa intr´ınseca geom. IBF >



0.2 0

1

2

3

4

5

6

7

8

9

10 θ

Figura 6.1. Previas no informativa, Intr´ınseca geom´etrica y aritm´etica (Ejemplo 6.2).

162

´ DE MODELOS Y TEST DE HIPOTESIS ´ CAP´ıTULO 6. SELECCION BAYESIANOS

En el ejemplo anterior encontramos que π N (β) era una previa propia. El siguiente teorema muestra que esto no es casual. Teorema 6.1 Sea H1 : θ = θ0 vs. H2 : θ 6= θ0 , y supongamos que est´an dadas las condiciones del Teorema de Fubini. Entonces, π AI (θ) es propia. Integrando π AI (θ) obtenemos:

Prueba. Z Z

AI

π (θ)dθ =

Z

N

π (θ)

Z

f (x(l) | θ 0 ) f (x(l) | θ)dx(l)dθ = mN 2 (x(l))

  Z f (x(l) | θ0 ) Z N π (θ)f (x(l) | θ)dθ dx(l) = f (x(l) | θ0 )dx(l) = 1.2 mN 2 (x(l))

El Teorema 6.1 establece que el IBF aritm´etico es un m´etodo que a´ un siendo “autom´atico”, es inmediatamente consistente con el Principio Bayesiano al comparar una hip´otesis Nula simple con su complemento. De esta manera se resuelve satisfactoriamente el problema para test de hip´otesis simple planteado en este cap´ıtulo. Cuando la hip´otesis nula es compuesta, la situaci´on es algo m´as complicada, pero el resultado es esencialmente el mismo. Sea θ2 = (θ1 , η) y hacemos el test de hip´otesis M1 : η = η0

M2 : η 6= η0 ,

vs

es decir la hip´otesis nula M1 es compuesta ya que H0 deja a θ1 libre. Hacemos los siguientes supuestos, que se cumplen con gran generalidad. Por simplicidad supongamos datos intercambiables y adem´as: M1 1. θb2 =⇒ θ2∗ = (θ1 , η0 ).

h

i

N 2. Existe, B2∗ (θ2 ) = EθM2 2 B12 (x(l)) = limI→∞ I1

PI

k=1

N B12 (x(k)).

6.5.

163

EL IBF PARA EL MODELO LINEAL NORMAL

Bajo estos supuestos se obtiene que una previa intr´ınseca es (ver Berger y Pericchi (1.996)), π I (θ1 ) = π1N (θ1 )

y

π2I (θ2 ) = π2I (θ2 )B2∗ (θ2 ).

(6.38)

Teorema 6.2 Supongamos, en (6.38), que π1N (θ1 ) es propia. Entonces π2I (θ2 ) tambi´en es propia. Prueba. Z

De (6.38) se obtiene:

π2I (θ2 )dθ2

=

Z

π2N (θ2 )

(Z

)

mN 1 (x(l)) f (x(l) | θ2 )dx(l) dθ2 , mN 2 (x(l))

aplicando Fubini en la u ´ ltima integral resulta, Z

mN 1 (x(l)) mN ( x (l)) dx(l) 2 mN 2 (x(l))

=

Z

mN 1 (x(l))dx(l) = 1,

ya que si π1N es propia tambi´en lo es mN 1 .2

6.5

El IBF para el Modelo Lineal Normal

En esta secci´on trataremos de manera muy suscinta el IBF para el Modelo Lineal Normal. Un tratamiento m´as completo aparece en Berger y Pericchi (1.996,a,b). Suponga que el modelo Mj , para j = 1, . . . , q, para los datos Y (n × 1), es el Modelo Lineal, Mj : Y = Xj β j + ǫj ,

ǫj ∼ Nn (0, σj2 In ),

(6.39)

donde σj2 y β j = (βj1 , . . . , βjkj )t son desconocidos, y Xj es una matriz de dise˜ no n × kj dada de rango kj < n. Las previas usuales no subjetivas son: πjN (β j , σj ) ∝

1 . σj

164

´ DE MODELOS Y TEST DE HIPOTESIS ´ CAP´ıTULO 6. SELECCION BAYESIANOS

Es f´acil probar que una muestra de entrenamiento minimal X (l), con matriz de dise˜ no correspondiente Xj (l) (bajo Mj ), es una muestra de tama˜ no m = max{kj } + 1, tal que Xjt (l)Xj (l) es no singular para todo j. Una definici´on general del IBF para comparar los modelos Mj vs Mi es: I Bji

=

N Bji

Ave[BijN (x(l))]

"

#

mN (x) mN i (x(l)) = jN , Ave m2 (x) mN j (x(l))

(6.40)

donde Ave denota los averages artim´etico y geom´etrico correspondientes al IBF aritm´etico y geom´etrico. (El IBF mediano es tambi´en interesante debido a su robust´es.) Para el Modelo Lineal (6.39), el IBF es relativamente sencillo. Anal´ı ticamente se obtiene el siguiente resultado: N Bji = π (kj −ki )/2

Γ((n − kj )/2) |xti xi |1/2 Ri(n−ki )/2 Γ((n − ki )/2) |xtj xj |1/2 Rj(n−kj )/2

(6.41)

y BijN (x(l)) est´a dado por el inverso de la expresi´on (6.41), reemplazando n, Xi , Xj , Ri y Rj por m, Xi (l), Xj (l), Ri (l) y Rj (l) respectivamente. En (6.41) Rj y Rj (l) son la suma de cuadrados residuales bajo Mj , para la muestra completa y la muestra de entrenamiento respectivamente. Para calcular el IBF, se sustituye la ecuaci´on (6.41) en (6.40), que autom´aticamente clasifica los modelos tomando en cuenta la bondad de ajuste de cada modelo y envuelve una penalizaci´on en contra del modelo con mayor n´ umero de par´ametros. Por ejemplo, el AIBF es:

AI Bji

(n−k )/2 L |xtj (l)xj (l)|1/2 (Rj (l))1/2 |xti xi |1/2 Ri i CX = t 1/2 . (n−kj )/2 . . , |xj xj | L l=1 |xti (l)xi (l)|1/2 (Ri (l)(p+1)/2 Rj

donde p = kj − ki y C =

 n−k 

Γ

j



Γ

2

n−ki 2

Γ( p+1 2 )



Γ( 12 )

(6.42)

.

El procedimiento propuesto es elegir Mj como el modelo con mayor n´ umero de par´ametros (el modelo “abarcante”) y calcular su IBF en

6.5.

165

EL IBF PARA EL MODELO LINEAL NORMAL

contra de los otros modelos. Para m´as detalle ver Berger y Pericchi (1.996,a,b,c). En estos trabajos se obtienen las previas intr´ınsecas y se demuestra que los correspondientes al AIBF son previas propias razonables. Ejemplo 6.4. (Comparaci´ on de Modelos de Regresi´ on) Datos tomados de Hald’s, p.82. Se desea estudiar el calor desprendido por un cierto tipo de cemento al endurecerse, en funci´on de su composici´on. Las variables de inter´es en el estudio son: Y : Calor desprendido (cal/gr). X1 : Porcentaje de aluminio de calcio (3CaO.Al2 O3 ). X2 : Porcentaje de silicato tetrac´alcico (3CaO.SiO2). X3 : Porcentaje de ferrita alum´ınica tetrac´alcica (4CaO.Al2 O3 .F e2 O3 ). X4 : porcentaje de silicato dic´alcico (2CaO.SiO2). Al realizar un experimento se obtienen los siguientes datos: X1 X2 X3 X4 7 26 6 60 1 29 15 52 11 56 8 20 11 31 8 47 7 52 6 33 11 55 9 22 3 71 17 6 1 31 22 44 21 47 4 26 2 54 18 22 1 40 23 34 11 66 9 12 10 68 8 12

Y 78 74 104 87 95 109 102 72 115 93 83 113 109

Denotamos a los cuatro potenciales regresores por 1,2,3,4, y el t´ermino constante (incluido en todos los modelos) por c. Este conjunto de datos es muy dif´ıcil de analizar debido al reducido n´ umero de datos (n=13) y a que la matriz de dise˜ no es casi singular. El modelo abarcante es el definido por 1,2,3,4,c, y comparemos por medio del AIBF, a los submodelos con el abarcante, colocando a ´este u ´ltimo en el

166

´ DE MODELOS Y TEST DE HIPOTESIS ´ CAP´ıTULO 6. SELECCION BAYESIANOS

numerador del AIBF. Los resultados se muestran en la siguiente tabla: Modelo AIBF p-valor 1,2,3,c 0.29 0.8400 1,2,4,c 0.26 0.8960 1,3,4,c 0.31 0.5010 2,3,4,c 1.20 0.0710 1,2,c 0.18 0.4700 1,3,c 8242.30 0.0000 1,4,c 0.46 0.1680 2,3,c 216.40 0.0002 2,4,c 2774.40 0.0000 3,4,c 13.10 0.0055 1,c 4158.80 0.0000 2,c 1909.80 0.0000 3,c 22842.10 0.0000 4,c 851.30 0.0000 c 19721.50 0.0000 Basados en el AIBF, el mejor modelo es el {1, 2c}, seguido por el {1, 2, 4, c}; {1, 2, 3, c} {1, 3, 4, c} y {1, 4, c}. Note que el ordenamiento dado por el p-valor no es el mismo. De acuerdo al p-valor el mejor modelo es el {1, 2, 4, c}, el cual no es parsim´onico, respecto del {1, 2c}. Es interesante notar que el m´etodo de “inclusi´on progresiva” de regresores, tambi´en selecciona al {1, 2, c} como el mejor modelo.3 En el ejemplo anterior se ilustran las enormes ventajas del enfoque Bayesiano para la comparaci´on de modelos y la predicci´on: 1. Es un enfoque parsim´onico, que penaliza a los modelos con muchos par´ametros. 2. Es un enfoque que permite calcular las probabilidades a posteriori de los modelos, aplicando la ecuaci´on (6.5), la cual puede ser generalizada para considerar m´as de dos modelos. 3. El planteamiento frecuentista de test de hip´otesis obliga a seleccionar un modelo de entre todos los sub-modelos. Sin embargo,

6.5.

EL IBF PARA EL MODELO LINEAL NORMAL

167

en este ejemplo, si bien el modelo {1, 2, c} es el mejor, hay otros 4 modelos que tienen un Factor de Bayes no despreciable. El enfoque Bayesiano permite mantener a varios modelos como razonables. Por ejemplo, al predecir una futura observaci´on Yf , tenemos: E(Yf | y) =

J X

j=1

E(Yf | y, Mj )p(Mj | y),

donde J en este ejemplo deber´ıa ser por lo menos 5.

(6.43)

168

´ DE MODELOS Y TEST DE HIPOTESIS ´ CAP´ıTULO 6. SELECCION BAYESIANOS

Ap´ endice A Distribuciones de probabilidades En este apendice se presentan algunas de las densidades de probabilidad m´as comunes en estad´ıstica que son usadas en los ejemplos y ejercicios de este libro. Aqu´ı se dar´an unicamente el nombre de la densidad, la notaci´on usada, el espacio muestral X, el rango de los par´ametros de la densidad y algunas propiedades u ´ tiles de la misma. Antes que nada, la notaci´on utilizada ser´a: • det(B) = determinante de la matriz B. • Γ(a) = funci´on Gamma usual definida por Γ(a) =

Z

0



xa−1 e−x dx.

Note que Γ(x+1) = xΓ(x), en el caso de nmeros ´ naturales Γ(n) = n!

• 1A (x) = funci´on indicatriz del conjunto A, definida como 1A (x) =

(

1 si x ∈ A 0 si x 6∈ A

DISTRIBUCIONES CONTINUAS. 1. Normal univariada (N(µ, σ 2 )): X = R, −∞ < µ < ∞, σ 2 > 0 con: ( ) 1 1 (x − µ) 2 f (x | µ, σ ) = √ exp − , 2 σ2 2πσ 169

170

´ APENDICE A. DISTRIBUCIONES DE PROBABILIDADES

donde µ es la media y σ 2 es la varianza. 2. Normal p-variada (Np (µ, S)): X = R p , µ = (µ1 , . . . , µp )t ∈ R p , siendo S una matriz (p × p) positiva definida y con: f (x | µ, S) =





1 1 exp − (x − µ)t S −1 (x − µ) , p/2 1/2 (2π) (det(S)) 2

donde µ es el vector de medias y S es la matriz de varianzacovarianzas. 3. Uniforme (U(a, b): X = (a, b), −∞ < a < ∞, a < b < ∞, con: f (x | a, b) = la media es 12 (a + b) y varianza

1 1(a,b) (x), b−a 1 (b 12

− a)2 .

4. Gamma (G(a, b)): X = (0, ∞), a > 0, b > 0 y f (x | a, b) =

1 xa−1 e−x/b 1(0,∞) (x) Γ(a) ba

la media es ab y la varianza ab2 . Casos especiales: (a) Exponencial (Exp(b)): corresponde a la densidad G(1, b). (b) Chi-cuadrado con n grados de libertad (χ2 (n)): corresponde a la densidad G(n/2, 2). 5. Beta (Beta(a, b)): X = [0, 1], a > 0, b > 0 con: f (x | a, b) = la media

a , a+b

Γ(a + b) a−1 x (1 − x)b−1 1[0,1] (x), Γ(a)Γ(b)

la varianza

ab . (a+b)2 (a+b+1)

171 6. Cauchy (Cauchy(a, b)): X = R, −∞ < a < ∞, b > 0, con: f (x | a, b) =

b , π[b2 + (x − a)2 ]

Esta distribuci´on no tiene ni media ni varianza finita, m´as a´ un no tiene ning´ un momento finito. 7. Distribuci´ on F con a y b grados de libertad (Fa,b ): X = (0, ∞), a > 0, b > 0 y f (x | a, b) = la media

b b−2

Γ[(a + b)/2]aa bb x(a−2)/2 1(0,∞) (x), Γ(a/2)Γ(b/2) (b + ax)(a+b)/2

si b > 2, la varianza

2b2 (a+b−2) a(b−4)(b−2)2

si b > 4.

8. Distribuci´ on t con a grados de libertad, par´ametro de localizaci´on µ y par´ametro de escala σ 2 , (T (a, µ, σ 2)): X = R, a > 0, −∞ < µ < ∞, σ 2 > 0, con: "

Γ[(a + b)/2] (x − µ)2 f (x | a, µ, σ ) = √ 1+ σ aπΓ(a/2) aσ 2 2

la media es µ, si a > 0, la varianza es Nota :

(X−µ)2 σ2

Caso especial:

aσ2 (a−2)

#− 1 (a+1) 2

,

si a > 2.

∼ F (1, a).

(a) Cauchy(µ, σ 2) = t(1, µ, σ 2 ). 9. Distribuci´ on t p-variada con a grados de libertad, con vector de localizaci´on µ y matriz de escala S (T (a, µ, S)): X = R p , a > 0, µ ∈ R p , S es una matriz (p × p) positiva definida y 

− 1 (a+p)

Γ[(a + p)/2] 1 f (x | a, µ, S ) = 1 + (x − µ)t S −1 (x − µ) 1/2 p/2 (det(S)) (aπ) Γ(a/2) a 2

la media µ y la varianza

aS , a−2

si a > 2.

2

,

172

´ APENDICE A. DISTRIBUCIONES DE PROBABILIDADES

10. Gamma Inversa (IG(a, b)): X = (0, ∞), a > 0, b > 0, con f (x | a, b) = la media

1 b(a−1)

1 e−1/xb 1(0,∞) (x), Γ(a)ba xa+1

si a > 1, la varianza

1 b2 (a−1)2 (a−2)

si a > 2.

DISTRIBUCIONES DISCRETAS. 11. Binomial (B(n, p)): X = {0, 1, 2, . . . , n}, 0 ≤ p ≤ 1, n = 1, 2, . . ., y ! n f (x | n, p) = px (1 − p)n−x , x la media np y la varianza np(1 − p). 12. Poisson (P (λ)): X = {0, 1, 2, . . . , }, λ > 0, f (x | λ) = e−λ

λx , x!

media=varianza=λ. 13. Binomial Negativa (BN(a, p)): X = {0, 1, 2, . . . , }; 0 < p ≤ 1, a>0y Γ(a + x) pa (1 − p)x , f (x | a, p) = Γ(x + 1)Γ(a) la media

a(1−p) p

y la varianza

a(1−p) . p2

Caso especial: (a) Geom´ etrica (Ge(p)) que corresponde a la BN(1, p). 14. Multinomial (M(n, p)): x = (x1 , . . . , xk )t , donde

k X i=1

xi = n, y

cada xi es un entero entre 0 y n, y el vector p = (p1 , . . . , pk )t es tal que

k X i=1

pi = 1, con 0 ≤ pi ≤ 1, para todo i, con: n! f (x | p) = Qn

n Y

i=1 xi ! i=1

pxi i

173 la media de Xi es npi , la varianza de Xi es npi (1−pi ) y Cov(Xi , Xj ) = −npi pj .

174

´ APENDICE A. DISTRIBUCIONES DE PROBABILIDADES

Bibliograf´ıa [1] Berger, J.(1984) The robust Bayesian viewpoint (with discussion). Robustness in Bayesian Analysis, J. Kadane (ed.). North-Holland, Amsterdam. [2] Berger, J.(1985) Statistical Theory and Bayesian Analysis. (2da. Ed.) Springer Series in Statistics. Springer-Verlag. [3] Berger, J. y Berliner, L.M. (1984) Bayesian input in Stein esimation and a mew minimax empirical Bayes estimator. J. Econometrics 25, p.87-108. [4] Berger, J. y Wolpert, R. (1984) The likelihood Principle. Institute of Mathematical Statistics, Monograph Series, Hayward, California. [5] Berger, J. y Sellke, T. (1987) Testing a point null hypothesis: The irreconcilbility of P-values and evidence. J. American Statistical Association, 82, p.112-122. [6] Bernardo, J.M. (1980) A Bayesian Analysis of classical hypothesis testing. Proc. First Int. Meeting Bayesian Statist., J.M. Bernardo, M.H. DeGroot, D.V. Lindley y A.F.M. Smith (eds) 605-618, Univeristy Press, Valencia, Espa˜ na. [7] Blackwell, D. y Girshick, M.A. (1954) Theory of Games and Statistical Decisons. Wiley, New York. [8] Box, G.E.P. y Cox, D.R. (1964) An analysis of Transformations (with discussion). J. Royal Statistical Society, Series B 26, p.211252. 175

176

BIBLIOGRAF´ıA

[9] Box, G.E.P. y Tiao, G.C. (1973) Bayesian Inference in Statistical Analysis. Addison-Wesley, Reading, Massachusetts. [10] Brown, P. (1984) Notes in Decision Theory. Manuscrito d curso en el Imperial College, London. [11] Bronw, P. (1984) Fundamentals of Statistical Exponential Families, with Applications in Statistical Decision Theory. Institute of Mathematical Statistics. Lectures Notes-Monograph Series. [12] Cox, D.R. y Reid, N. (1987) Parameter orthogonaity and approximate conditional inference (with discussion). J.R. Statist. Soc. B. 49, p.1-49. [13] De Finetti, B. (1937). Foresight: Its logical laws, its subjetive sources. Traducido y reimpreso en Studies in Subjective Probabilities, H.E. Kyburg y H.E. Smokler (eds.). Wiley, New York, 1964. [14] De Finetti, B. (1961) The Bayesian Approach to the Rejection of Outliers. Proc. 4th Berkley Symp. of Math. Stat. and Prob. 1, p. 199-210. [15] De Finetti, B. (1974) Theory of Probability. Wiley, New York. [16] De Groot, M.H. (1970) Optimal Statistical Decisions. Mc GrawHill, New York. [17] De Robertis, L. y Hartigan, J.A. (1981) Bayesian Inference using Intervals of Measures. Ann. Statist. 9, p.235-244. [18] Diaconis, P. y Ylvisaker, D. (1979) Conjugate priors for Exponential Families. Annals of Statistics 7, p.269-281. [19] Ferguson, T.S. (1967) Mathematical Statistics: A Decision Theoretic Approach. Academic Press, New York. [20] Good, I.J. (1950) Probability and the Weighting of Evidence. Charles Griffin, london.

BIBLIOGRAF´ıA

177

[21] Good, I.J. (1962) Subjective probability as the measure of a non measurable set. Logic, Methodology and Philosophy of Science: Proc. of the 1960’s International Congress, Stanford Univeristy Press. [22] Good, I.J. (1968) Corroboration, explanation, evolving probability, simplicity and sharpened razor. BJPS, 19, p.123-143. [23] Good, I.J. y Card, W.I. (1971) The diagnostic process with special reference to errors. Meth. Inf. Med., 10, p.176-188. [24] Harrison, P.J. y Stevens, C.F. (1976) Bayesian Forecasting (with discussion). J.R.Stat.Soc. B, p.205-245. [25] Heyde, C.C. y Johnstone, I.M. (1979) On asymptotic posterior normality for stochastic processes. J.R. Sta. Soc. B,41, p. 184-189. [26] Hinkley, D.V. (1979) Predictive likelihood. Ann. Statist., 7,p.718728. [27] Huber, P.J. (1973) The use of Choquet Caacities in Statistics. Bull. Internat. Stat. Inst. 45, Book 4, p. 181-188. [28] James, W. y Stein, C. (1961) Estimation with quadratic loss. Proc. Fourth Berkley Symp. Math. Statist. Prob. 1, p.311-319. [29] Jeffreys, H. (1961) Theory of Probability, (3rd. ed) Oxford University Press, London. [30] Laplace, P.S. (1812) Theory Analytique des Probabilities. Courcier, Par´ıs. [31] Lauritzen, S.L. y Spiegelhalter, D.J. (1988) Local computations with probabilities on graphical structures and their applications to expert systems (with discussion). J.R.Stat. Soc. B. [32] LeCam, L. (1956) On the asymptotic theory of estimation and testing hypotheses. Proc. Third Berkley Symp. Math. Stat. Prob. 1, University of California Press, Berkley.

178

BIBLIOGRAF´ıA

[33] Lehmann, E.L. (1959) Testing Statistical Hypotheses. Wiley, New York. [34] Lehmann, E.L. (1983) Theory of Point Estimation. Wiley, New York. [35] Lindley, D.V. y Phillips, L.D. (1976) Inference for a Bernoulli process (a Bayesian view). Amer. Statist.,30,p. 112-129. [36] Lindley, D.V. (1957) A statistical paradox. Boimetrika, 44,p. 187192. [37] Lindley, D.V. (1971) Making Decisions. Wiley-Interscience. [38] Lindley, D.V. y Smith A.F.M. (1972) Bayes Estimates for the Linear Model (with discussion). J.Royal Stat. Society. Series B, 34, p. 1-41. [39] Lindley, D.V. (1983) Lectures on Bayesian Statistics. Pub. IME, Universidade de S˜ao Paulo, Brasil. [40] Moreno, E. y Cano, J.A. (1991) Robust Bayesian Analysis with ǫcontaminations partially known. J.Royal. Stat. Soc., Series B, 53,1, p. 143-145. [41] Moreno, E. y Pericchi, L.R. (1990) Robust Bayesian Analysis for ǫ-contaminations with Shape and Quantile Constraints. Actas III Congreso Latinoamericano en Probabilidades y Estad´ıstica Matem´atica, p. 143-158. [42] Moreno, E. y Pericchi, L.R. (1992) A Hierarchical ǫ-contamination Model. J. Stat. Planning and Inference. (En prensa) [43] Naylor, J.C. y Smith, A.F.M. (1982) Applications of a method for the efficient computation of posterior distributions. Appl. Stat., 31,p. 214-225. [44] Pearl, J. (1988) Probabilistic Reasoning in Intelligent System: Networks of Plausible Inference. Morgan Kaufmann Publishers.

BIBLIOGRAF´ıA

179

[45] Pereira, C.A.B. y Pericchi, L.R. (1990) Analysis of Diagnosability. Applied Stat., 39(2),p. 189-204. [46] P´erez, M.E. y Pericchi, L.R. (1987) An´alisis de Muestreo en dos etapas como un Modelo Bayesiano Jer´arquico. Rep. T´ecnico, Universidad Sim´on Bol´ıvar, Caracas. [47] Pericchi, L.R. (1981) A Bayesian Approah to Transformations to Normality. Biometrika, 68,1,p. 35-43. [48] Pericchi, L.R. (1984) An alternative to the standard Bayesian procedure for discrimination between Normal Lineal Models. Biometrika,71,p. 575-586. [49] Pericchi, L.R. (1986) Notes in Decision Theory. Manuscrito de curso en el Imperial College, London. [50] Pericchi, L.R. (1989) Sobre la inferencia y teor´ıa de decisi´on subjetivista-Bayesiana bajo probabilidades a priori imprecisas. Acta Cient´ıfica Venezolana, 40,p. 5-18. [51] Pericchi, L.R. y Nazareth, W.A. (1988) On being imprecise at the higher levels of a Hierarchical Linear Model (with discussion). Bayesian Statistics 3,p. 361-375. Bernardo, J.M, DeGroot M., Lindley, D. y Smith A.F.M., editores. Oxford University Press. [52] Pericchi, L.R. y Smith, A.F.M. (1990) Exact and Approximate posterior moments for a Normal Location Likelihood. J. Royal Stat. Soc. B,54(3),p. 793-804. [53] Pericchi, L.R. y Walley, P. (1990) One-sided hypotheses testing with near ignorance priors. Rev. Brasileira de Prob. e Estad´ıstica, REBRAPE, 4,p. 69-82. [54] Pericchi, L.R. y Walley, P. (1991) Robust Bayesian credible intervals and prior ignorance. I.S. Review, 59(1),p. 1-23. [55] Pericchi, L.R. y Smith, A.F.M. (1989) Posterior Moments and cumulant relationships in the Exponential Family. Tech. Report, University of Nottingham, England.

180

BIBLIOGRAF´ıA

[56] Ramsey, F.P. (1926) Truth and Probability. Reimpreso en Studies in Subjective Probability, H.E. Kyburg y H.E. Smokler (eds.). Wiley, New York, 1964. [57] Rubin, D.B. (1976) Inference and missing data. Biometrika, 63,p. 581-592. [58] Savage, L.J. (1954) The foundations of Statistics. Wiley, New York. [59] Sivaganesan, S. y Berger, J.O. (1989) Ranges of posterior Measures for priors with unimodal contaminations. Ann. Stat., 17,2,p. 868889. [60] Smith, A.F.M. y Spiegelhalter, D.J. (1980) Bayes factors and choice criteria for Linear Models. J.R. Stat. Soc. B,44,p. 213-220. [61] Stein, C. (1956) Inadmissibility of the usual estimator for the mean of a multivariate distributuion. Proc. Third Berkley Symp. Math. Stat. Prob., University of California Press, 1,p. 197-206. [62] Stone, M. (1971) Strong Inconsistency from Uniform Priors (with comments). J.Amer.Stat.Assoc. 71,p. 114-125. [63] Tierney, L. y Kadane, J.B. (1986) Accurate approximations for posterior moments and marginal densities. J.Amer.Stat.Assoc., 81,p. 82-86. [64] Wald, A. (1950) Statistical Decision Functions. Wiley, New York. [65] Walker, A.M. (1969) On the asymptotic behavior of posterior distributions. J.R.Stat.Soc. B,31,p. 80-88. [66] Walley, P. (1987) Notes in Decision Theory. Manuscrito de curso en la Universidad de Cornell, U.S.A. [67] Walley, P. (1991) Statistical reasoning with imprecise probabilities. Chapman and Hall. [68] West, M. y Harrison, J. (1989) Bayesian Forecasting and dynamic models. Springer Series in Statistics. Springer-Verlag.

Indice estructural, 125, 127, 129 param´etrico, 125, 127 Cromwell,regla de, 47 Cuadratura Gaussiana, 95

Admisibilidad, 45 Algoritmos computacionales, 95 An´alisis autom´aticos, 118 Bayesiano, 83 no informativo del modelo lineal, 120 secuencial, 100, 102 Anova, 118, 127 Aproximaci´on Bayesiana, 88 Apuestas, 67, 75 compuestas, 73 Arbol de decisi´on, 6, 8, 28 Axiomas de racionalidad, 68, 72, 73

Decisi´ n no-aleatorias, 14 Decisi´on ´optima, 87, 98 ´optima Bayes, 86 ´optimas, 21 ´optimo Bayes, 101 Bayes condicional, 26 condicional, 78 inadmisible, 14 Minimax, 43 predictiva, 98 Densidad a posteriori, 6 a priori, 5 clase casi ignorante de, 108 condicional, 93 conjugada, 106 clases de, 107 conjunta, 30 marginal, 93 posterior, 122 posterior, 98, 99 predictiva, 5, 96 Dispersi´on, 33

Bayes estimador de, 46 factor de, 87 l´ımite de, 52 regla de, 39 Teorema de, 5 teorema de, 80, 85 Bayes-Laplace postulado de, 118 Borel, conjunto de, 5 Borel,conjunto de, 103 Cambios de localizaci´on, 119 Conocimiento 181

182 a priori, 124 inicial, 78 posterior, 124 Distribuci´on a priori, 87 clases de, 91 acumulada, 13 Beta, 31, 96 Binomial, 31, 96 de Cauchy, 23 de Murphy, 36, 42 F de Fisher, 121 Gamma, 105 Normal, 30, 89, 117, 127 t-student, 94, 121 Uniforme, 108 Elementos de un problema de decisi´on, 3 Error cuadr´atico medio, 18 de tipo I, 83, 85 de tipo II, 83 Errores no correlacionados, 120 Espacio de acciones, 3 de estados, 3 de par´ametros, 83 no acotado, 119 de par´ametros can´onicos, 103 muestral, 4 Esperanza a posteriori, 31, 104, 122 a priori, 104, 106 matem´atica, 12 posterior, 101

INDICE

Estad´ıstico suficiente, 29, 93 Estimaci´on puntual, 17 Estimador Bayes condicional, 32 de Bayes, 46 de encogimiento, 128 de m´ınimos cuadrados, 23, 120, 123, 127, 128 de m´axima verosimilitud, 23, 99, 120 insesgado, 23 tonto, 21 Estimadores ridge regression, 129 F´ormula de cambio de variable, 118 Factor de Bayes, 87, 91 Familia conjugada, 108 de experimentos, 3 de medidas a priori, 104 Exponencial, 48 exponencial, 103 exponencial conjugada, 107 Filtro, 124 Funci´on de p´erdida, 4 de p´erdida, 66, 75 de riesgo, 83 de utilidad, 4, 66, 72 de verosimilitud, 17, 76 utilidad m´etodos de construcci´on de, 68 Hiperpar´ametros, 93, 106, 125

183

INDICE

Inferencia predictiva, 95 Informaci´on muestral a priori, 107 Intervalo de confianza, 120, 121 de credibilidad, 120, 121 Intervalos de confianza, 78, 92 de credibilidad, 92, 94 de probabilidad, 92 Invarianza propiedad de, 119 Jeffreys previas de, 120 regla de, 119, 120 Jensen, desigualdad de, 50 Laplace aproximaci´on de, 95, 100 ley de sucesi´on, 108 ley de sucesion, 97 M´etodos aproximados, 95 Matriz de dise˜ no, 117 de Fisher, 119 de informaci´on de fisher, 99 de varianza-covarianza, 100, 117, 127 Maximin, valor, 55 Mediana, 33 Medida a priori, 105, 122 de Lebesgue, 104 invariante, 119 Medidas de probabilidad, 103 no informativas, 118

Minimax decisi´on, 43 estrategia, 53 regla, 35, 41 teorema, 56 valor, 35, 55 Modas, 127 Modelo de clasificaci´on, 127 de regresi´on m´ ultiple, 129 lineal, 117, 121, 122 an´alisis no informativo, 120 jer´arquico, 122, 125 Normal, 117 Normal jer´arquico, 124, 125 verosimilitud, 120 Muestra secuencial, 102 tama˜ no ´optimo, 100, 102 Neyman, criterio de factorizaci´on de, 29 Neyman-Pearson lema de, 83, 84 teor´ıa de, 88 Normalidad asint´otica, 98 Ordenamiento Bayesiano, 24 Minimax, 35 P´erdida cuadr´atica, 17, 98, 101 esperada, 76 esperada a posteriori, 92 esperada posterior, 79 posterior, 107 posterior esperada, 86

184 Par´ametro can´onico, 105 de localizaci´on, 119 Par´ametros, 95 de localizaci´on, 22 de molestia, 93, 95 vector de, 96 Paradoja de Lindley, 89 de San Petersburgo, 67 Peso de la evidencia, 87 Precisi´on, 32 Previa, 5 de Jeffreys, 120 de referencia, 75 no informativa, 124, 127, 129 Normal-Gamma, 93 Previas no informativas, 118 uniforme, 118 Principio Bayesiano, 66, 75, 79 de la maximizaci´on de la utilidad, 25 de la verosimilitud, 76, 77, 120 de minimizaci´on de la p´erdida esperada, 102 del riesgo posterior, 79 Probabilidad a posteriori, 88 asignaci´on de, 4 condicional, 5 predictiva, 96 subjetiva, 73 Procedimientos ´optimo-Bayes, 24

INDICE

insesgados, 22 invariantes, 22 Promedio poderado, 123 Promedio ponderado, 94 Recompensas, 67, 68, 73, 75 Regla ´optima, 21 ´optima Bayes promedio, 27 ´optima Bayes-promedio, 24 admisible, 20 aleatoria degenerada, 19 aleatorias, 19 aleatorizada, 43 Bayes promedio, 45 Bayes promedio ´optima, 84 de Bayes, 39, 40 de Cromwell, 47, 100 de decisi´on determinada, 13, 19 de Jeffreys, 119, 120 determinada, 27 igualadora, 37 inadmisible, 20 Minimax, 35, 41 regresion simple, 118 Restricci´on del conjunto de deciones, 21 Riesgo Bayesiano, 24, 53, 100, 102 Bayesiano promedio, 84 conjunto de, 20, 40 cuadr´atico, 78 frecuentista, 14 inicial, 78 posterior, 79

INDICE

promedio, 83 Sesgo, 18 Taylor f´ormula de, 99 Teor´ıa de imprecision, 74 de Juegos, 35, 52 de utilidad, 65, 72, 75 subjetiva, 65 Teorema de Bayes, 5, 80, 85 del hiperplano separante, 50 del l´ımite Central, 98 Minimax, 56 Test de diagn´ostico, 127 de hip´otesis, 17, 83, 87, 88 cl´asico, 89 puntual, 88, 91 de significancia de Fisher, 85 Transformaci´on a normalidad, 121 de Box y Cox, 121 Utilidad del dinero, 70, 71 funci´on de, 4, 72 Varianza a priori, 90 Vector can´onico, 103 de errores, 117 de medias, 125 de observaciones, 119 de par´ametros, 93, 117

185 de parar´ametros, 103 de regresores, 118, 129 Ventaja a priori, 87 a priori y post, 87 posterior, 86, 87 Verosimilitud, 5, 80, 88, 96, 123 cociente de, 85, 87 estimador de m´axima, 23 exponencial, 105 funci´on de, 17 Normal, 93, 97 principio de la, 76, 120