Material Didactico

UNIVERSIDAD NACIONAL ´ A DISTANCIA DE EDUCACION Introducci´ on a la Teor´ıa de la Decisi´ on Autor: Ricardo V´elez Iba

Views 148 Downloads 4 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

UNIVERSIDAD NACIONAL ´ A DISTANCIA DE EDUCACION

Introducci´ on a la Teor´ıa de la Decisi´ on

Autor: Ricardo V´elez Ibarrola Departamento de Estad´ıstica, Investigaci´ on Operativa y C´ alculo num´erico

UNED

Introducci´ on Decidir es parte inherente de la actividad humana. Desde los individuos que se plantean la compra de un coche, de una casa o simplemente acuden al supermercado, hasta los Gobiernos, que deben elegir su pol´ıtica, los proyectos legislativos que promover´ an y la forma de gastar sus presupuestos, pasando por las corporaciones que han de escoger d´ onde realizar sus inversiones o bien que productos fabricar y c´ omo organizar su producci´ on, la acci´on de todos ellos consiste constantemente en adoptar decisiones con una repercusi´ on directa en su ´exito o en su fracaso. Siempre que se disponga de diversas alternativas o de diferentes cursos de acci´on, se impone pronunciarse por uno de ellos y descartar los dem´ as. La Teor´ıa de la Decisi´ on, que se introduce a lo largo de este texto, analiza la forma de llevar a cabo tal selecci´ on de acuerdo con principios de racionalidad, en lugar de fiar el resultado al “olfato” o la “buena fortuna” del decisor. Se trata, por tanto, de una teor´ıa normativa que pretende aportar normas para escoger entre diferentes alternativas. Naturalmente, para ello se utilizan t´ecnicas matem´ aticas y, m´ as concretamente, estad´ısticas. Es relevante, a este prop´osito, la distinci´on de R.A. Howard entre “buenas decisiones” y “decisiones afortunadas”: Para los que ganaron el primer premio en la u ´ltima loter´ıa de Navidad, la decisi´ on de comprar su n´ umero fue una decisi´ on providencial; sin embargo, para la mayor´ıa de los jugadores fue una mala decisi´ on, con un coste que no les aport´ o ning´ un beneficio. En este sentido, jugar a la loter´ıa debe considerarse una mala decisi´ on, aunque s´ olo sea porque s´ olo se reparte en premios un escaso porcentaje de la cantidad recaudada. Un resultado afortunado es aqu´el que desear´ıamos que ocurriese; una buena decisi´ on es la que, sobre la base de las incertidumbres, beneficios y preferencias del decisor, garantiza un alto porcentaje de posibles buenos resultados. La decisi´ on involucra la selecci´ on del cirujano que realizar´ a una delicada operaci´ on quir´ urgica; el ´exito o el fracaso de la cirug´ıa s´ olo interviene a trav´es de las probabilidades de ambas eventualidades en cada caso, posiblemente junto a otras consideraciones de costos, plazos, etc. i

Normalmente, la toma de decisiones se concentra en ciertos periodos cruciales. En cualquier actividad empresarial hay momentos en los que es preciso optar entre varias alternativas y periodos en los que se implementa y explota la alternativa escogida. El an´ alisis de decisiones provee de procedimientos l´ ogicos para hacer un balance de los factores que influyen en las decisiones, incorporando las incertidumbres, valoraciones y preferencias en un modelo estructural que se presta al estudio y al c´alculo, frecuentemente mediante programas de ordenador. Suele distinguirse en la pr´ actica entre la fase de preparaci´on del problema y la fase de resoluci´on. Muchos manuales pr´ acticos insisten en que la fase de preparaci´on es m´ as costosa, en tiempo y en recursos, que la fase de resoluci´on. De hecho, es en la fase de preparaci´on en la que hay que investigar detenidamente: a) todas las posibles alternativas u opciones; b) todas las posibles consecuencias de cada opci´on; c) la asignaci´ on de valoraciones o utilidades a cada posible consecuencia, frecuentemente averiguando las preferencias, no expl´ıcitas inicialmente, de los responsables; d) la selecci´ on de las variables de estado responsables de que cada opci´on tenga una u otra consecuencia; e) las relaciones entre las distintas variables de estado; f) las incertidumbres y verosimilitudes relativas a las variables de estado, basadas normalmente en las opiniones subjetivas de los expertos; g) la expresi´ on del modelo probabil´ıstico acerca de las variables de estado que resulta de lo anterior. Todo ello permitir´a establecer un modelo matem´ atico de decisi´ on, al que aplicar la fase de resoluci´on. Ni que decir tiene que los errores en el planteamiento del modelo pueden traducirse en errores graves en la decisi´ on adoptada. Aunque, como es habitual, la teor´ıa matem´ atica no detecta errores de planteamiento (salvo que produzcan inconsistencias) y determina la soluci´ on de cada modelo como si fuese adecuado para la realidad que se estudia. Hist´oricamente, pueden rastrearse antiguos antecedentes de la teor´ıa de la decisi´ on en las discusiones de Daniel Bernoulli y Laplace acerca de la utilidad ii

esperada. Sin embargo, como cuerpo de doctrina independiente, la Teor´ıa de la Decisi´ on naci´ o con los trabajos de Abraham Wald, en los a˜ nos 1940, cuya intenci´ on era presentar un marco conceptual muy general de los m´etodos de Inferencia estad´ıstica desarrollados previamente. Los resultados de von Neumann y Morgenstern (1947), acerca de la expresi´ on de las preferencias de un decisor racional en forma de una funci´on de utilidad, sirvieron para proporcionar una base s´ olida a la teor´ıa. Para finales de los a˜ nos 1970, la Teor´ıa de la Decisi´ on hab´ıa alcanzado su periodo de madurez, como prueban las primeras ediciones de los textos: (1) Ferguson, Thomas S.: Mathematical Statistics. A decision theorethic approach. Academic Press, 1967. (2) Blackwell, David – Girshick, Meyer A.: Theory of games and statistical decisions. 1a ed. Wiley, 1954; 2a ed. Dover 1979. (3) De Groot, Morris H.: Optimal Statistical Decisions. 1a ed. McGrawHill, 1970; 2a ed. Wiley, 2004. (4) Berger, James O.: Statistical decision theory and Bayesian analysis. 1a ed. Springer, 1985; 2a ed. Springer, 2006, 2010. (5) Raiffa, Howard – Schlaifer, Robert: Applied statistical decision theory. MIT Press, 1961. (6) Pratt, John W. – Raiffa, Howard – Schlaifer, Robert: Introduction to statistical decision theory. MIT Press, 1995. Cualquiera de ellos –y, en particular, el primero– contiene la mayor parte de los desarrollos presentados en esta introducci´ on. El gui´ on preferido aqu´ı para hacerlo comprende un primer cap´ıtulo de planteamientos, en el que se formula el problema general de decisi´ on con las diversas variantes y circunstancias que pueden influir en su soluci´ on. Se incluye en la secci´ on 1.4 los resultados sobre utilidad y probabilidad subjetiva en base a los cuales es posible hacer un planteamiento racional de los problemas de decisi´ on. Los cap´ıtulos 2 y 3 exponen los criterios y m´etodos propuestos para seleccionar una decisi´ on racional, seg´ un las diferentes situaciones, pero siempre en ausencia de experimentaci´ on previa. El cap´ıtulo 4 considera precisamente la existencia de experimentaci´ on estad´ıstica previa a la toma de la decisi´ on y, en cierto modo, es el cap´ıtulo culminante de la Teor´ıa de la decisi´ on, en el que se conecta con las t´ecnicas m´ as propias de la Inferencia estad´ıstica. El cap´ıtulo 5, relativo a la decisi´ on secuencial, muestra la complejidad de los problemas de decisi´ on cuando se plantean en su m´ axima generalidad. iii

Entre los textos m´ as recientes en este ´area cabe citar: (7) Parmigiani, Giovanni – Inoue, Lurdes: Decision theory: principles and approaches. Wiley, 2009. (8) Liese, Friedrich – Miescke, Klaus J.: Statistical decision theory: estimation, testing, and selection. Springer, 2008. Hay que se˜ nalar que la literatura sobre teor´ıa de la decisi´ on incluye tambi´en textos de car´ acter econ´ omico, social o pol´ıtico; relativamente pr´ oximos a la teor´ıa matem´ atica, por cuanto siguen teniendo una motivaci´on normativa, relativa a sus respectivos campos de aplicaci´ on. De forma relativamente reciente, la Inteligencia Artificial tambi´en se ocupa del tema de la decisi´ on, clave para dise˜ nar aut´ omatas capaces de adaptar correctamente su comportamiento a las condiciones ambientales. En cambio, en el terreno de la psicolog´ıa, hay obras de tipo descriptivo que analizan experimentalmente el proceso real que siguen las personas al adoptar sus decisiones, ni mucho menos siempre con criterios racionales. Incluso hay obras de car´ acter filos´ ofico que tratan de la decisi´ on en relaci´ on con el libre albedr´ıo, la predeterminaci´ on, etc. Por otra parte, hay aspectos que forman parte hoy en d´ıa de la Teor´ıa de la Decisi´ on y que no se han incluido en esta introducci´ on, por su mayor complejidad o menor inter´es. En primer lugar, cabe destacar que los problemas de decisi´ on, que aqu´ı se consideran siempre est´ aticos, tienen a menudo un car´ acter din´ amico si las decisiones se adoptan en una serie temporal de instantes. Surgen as´ı, en particular, los modelos de decisi´ on markovianos y los problemas de parada optima, cuya soluci´ ´ on requiere del uso de t´ecnicas de programaci´on din´ amica. A este respecto, pueden consultarse: (9) Bather, John: Decision theory : an introduction to dynamic programming and sequential decisions. Wiley, 2000. (10) Puterman, Martin L. : Markov decison Processes: discrete dynamic programming. Wiley, 2005. Relacionado con el anterior, surge la cuesti´ on de la selecci´ on ´optima de los experimentos que han de realizarse sucesivamente. Ello est´ a tratado, por ejemplo en los cap´ıtulos finales de: (11) Strasser, Helmut: Mathematical theory of statistics : statistical experiments and asymptotic decision theory. de Gruyter, 1985. iv

En cambio, el asunto de las decisiones colectivas o sociales se plantea c´omo deben combinarse las preferencias de un grupo de personas para alcanzar una preferencia u ´nica, respetando ciertas reglas que parecen de sentido com´ un. Los resultados en este sentido son casi todos de tipo negativo, siendo el m´ as conocido el teorema de imposibilidad de Arrow (1951). A este respecto, pueden consultarse los cap´ıtulos correspondientes de: (12) Rapoport, Anatol: Decision theory and decision behaviour : normative and descriptive approaches. Kluwer, 1989. (13) Michael D. Resnik: Choices: an introduction to decision theory. University of Minnesota Press, 1987, 1993. M´as recientemente ha cobrado inter´es el estudio de m´etodos de selecci´ on de alternativas en presencia de multicriterios o multiobjetivos, de modo que se busca la alternativa que optimiza un vector de valoraciones, en lugar de una sola. Por ejemplo, no se combina el precio y la calidad de diversos productos en un u ´nico ´ındice precio/calidad, sino que se mantiene la pareja de valoraciones –generalmente contrapuestas– y se busca el/los productos preferidos en ambos sentidos simult´ aneamente. Pueden consultarse a este respecto el cap´ıtulo correspondiente de (12) o bien (14) Keeney, Ralph L. – Ra¨ıffa, Howard: Decisions with multiple objectives. Cambridge University Press, 1993. (15) Belton, Valerie – Stewart, Theodor J.: Multiple criteria decision analysis. Kluwer, 2002. En cada uno de los cap´ıtulos de esta introducci´ on se incluye un conjunto de ejercicios, cuya soluci´ on figura en el Ap´endice, a fin de que pueda afianzarse convenientemente el estudio de los conceptos y resultados te´oricos. El Autor, Agosto de 2011.

v

´Indice

1. Problemas de decisi´ on 1.1. Elementos esenciales . . . . . . . . . . . . . . . . . . . . . . 1.2. Ambientes en un problema de decisi´ on . . . . . . . . . . . . 1.2.1. Ambiente de certidumbre: T´ecnicas de optimizaci´ on 1.2.2. Ambiente de riesgo . . . . . . . . . . . . . . . . . . . 1.2.3. Ambiente de incertidumbre . . . . . . . . . . . . . . 1.2.4. Decisi´ on con experimentaci´on . . . . . . . . . . . . . 1.3. Decisiones aleatorizadas . . . . . . . . . . . . . . . . . . . . 1.3.1. Decisiones aleatorizadas sin experimentaci´on . . . . 1.3.2. Decisiones aleatorizadas con experimentaci´on . . . . 1.4. Utilidad y probabilidad subjetiva . . . . . . . . . . . . . . . 1.4.1. Utilidad . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.2. Probabilidad subjetiva . . . . . . . . . . . . . . . . . 1.4.3. Utilidad monetaria . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . .

1 1 7 8 9 12 12 15 17 18 21 21 26 29

2. Decisi´ on en ambiente de riesgo e incertidumbre 37 2.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2. Criterios de decisi´ on en ambiente de riesgo . . . . . . . . . . . 37 2.2.1. Criterio del valor esperado: . . . . . . . . . . . . . . . 38 2.2.2. Criterio Media-Dispersi´ on: . . . . . . . . . . . . . . . . 38 2.2.3. Criterio de riesgo fijo: . . . . . . . . . . . . . . . . . . 40 2.2.4. Criterio de m´ axima probabilidad: . . . . . . . . . . . . 40 2.2.5. Criterio del valor esperado con cl´ausula de seguridad: 40 2.2.6. Aplicaci´on: El problema de selecci´ on de la cartera . . 41 2.2.7. Ejemplo adicional . . . . . . . . . . . . . . . . . . . . 43 2.3. Criterios de decisi´ on en ambiente de incertidumbre . . . . . . 45 2.3.1. Criterio de Wald: . . . . . . . . . . . . . . . . . . . . . 45 2.3.2. Criterio de Hurwicz: . . . . . . . . . . . . . . . . . . . 46 2.3.3. Criterio de Laplace: . . . . . . . . . . . . . . . . . . . 47 2.3.4. Criterio de Savage: . . . . . . . . . . . . . . . . . . . . 48 vii

2.3.5. Criterio de Bayes con probabilidad subjetiva: . . . . . 3. Decisiones Bayes y minimax 3.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Decisiones Bayes . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1. Interpretaci´on geom´etrica . . . . . . . . . . . . . . . 3.2.2. Existencia de las acciones Bayes . . . . . . . . . . . 3.3. Admisibilidad y completitud . . . . . . . . . . . . . . . . . . 3.3.1. Admisibilidad de las acciones Bayes . . . . . . . . . 3.3.2. Completitud de las acciones Bayes . . . . . . . . . . 3.3.3. Completitud de las acciones no aleatorizadas . . . . 3.4. Decisiones minimax . . . . . . . . . . . . . . . . . . . . . . . 3.4.1. Distribuci´on menos favorable . . . . . . . . . . . . . 3.4.2. Teorema del minimax . . . . . . . . . . . . . . . . . 3.4.3. M´etodos de determinaci´on de la estrategia minimax 3.5. Ejemplos adicionales . . . . . . . . . . . . . . . . . . . . . . 3.6. ? Ap´endice: Teorema del hiperplano separador . . . . . . . . 4. Decisi´ on con experimentaci´ on 4.1. Introducci´ on . . . . . . . . . . . . . . . . 4.2. Reglas de decisi´ on Bayes . . . . . . . . . 4.3. Estad´ısticos suficientes . . . . . . . . . . 4.4. Costes de experimentaci´on . . . . . . . . 4.5. La Inferencia Estad´ıstica como problema 4.5.1. Estimaci´on puntual . . . . . . . . 4.5.2. Contraste de hip´ otesis . . . . . . 4.5.3. Intervalos de confianza . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . de decisi´ on . . . . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

49

. . . . . . . . . . . . . .

55 55 55 57 61 62 65 66 67 68 70 71 74 79 86

. . . . . . . .

93 93 94 99 104 108 110 111 112

5. Decisi´ on secuencial 124 5.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 5.2. Reglas de decisi´ on secuencial . . . . . . . . . . . . . . . . . . 124 5.3. Reglas secuenciales Bayes . . . . . . . . . . . . . . . . . . . . 126 A. Soluci´ on de los ejercicios Cap´ıtulo 1 . . . . . . . . . . Cap´ıtulo 2 . . . . . . . . . . Cap´ıtulo 3 . . . . . . . . . . Cap´ıtulo 4 . . . . . . . . . . Cap´ıtulo 5 . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

viii

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

136 136 146 153 167 214

Cap´ıtulo 1

Problemas de decisi´ on 1.1.

Elementos esenciales

De forma gen´erica, un problema de decisi´ on cuenta siempre con los siguientes elementos: Un conjunto, A, de acciones o alternativas entre las cuales el decisor debe elegir la que le parezca m´ as conveniente. Un conjunto, Θ, de estados de la naturaleza, que describen las circunstancias que pueden afectar o influir en las decisiones a adoptar. Una funci´ on de p´erdida L : Θ × A → 7 IR; de modo que L(θ, a) mide las consecuencias de adoptar cada acci´on a cuando el estado de la naturaleza es θ. Seg´ un las circunstancias, cada uno de los conjuntos A y Θ pueden ser finitos, continuos o arbitrariamente complejos. Por su parte, la p´erdida L(θ, a) puede ser positiva o negativa y, en este u ´ltimo caso, representa una ganancia para el decisor que adopte la acci´ on a cuando el estado de la naturaleza es θ. En consecuencia, la teor´ıa puede desarrollarse equivalentemente considerando la funci´on de ganancia G = −L y toda la diferencia radica en que en un caso se desear´a minimizar la p´erdida y, en el otro, maximizar la ganancia (1 ). Diversos elementos adicionales pueden formar parte de un problema de decisi´ on, en los diversos contextos que se examinar´ an a lo largo del texto; pero, al menos los tres anteriores estar´ an siempre presentes. Para proporcionar 1

Conviene tener siempre presente que m´ınx [−f (x)] = − m´ axx f (x).

1

2

Cap´ıtulo 1. Problemas de decisi´ on

una idea intuitiva de lo que el planteamiento anterior significa, nada mejor que analizar algunos ejemplos. Ejemplo 1.1 El tiempo en un fin de semana puede ser soleado o h´ umedo y fr´ıo o caluroso. Caben, pues, cuatro estados de la naturaleza: Θ = {SF, SC, HF, HC}. Para un fin de semana, una persona considera tres alternativas: ir a la playa, ir a la monta˜ na o bien quedarse en casa; es decir, abreviadamente, A = {P, M, C}. Para adoptar su decisi´on debe valorar las ventajas o inconvenientes que tendr´a con cada plan, en funci´ on de c´ omo sea el clima. Y, tal valoraci´ on podr´a expresarla en forma de tabla: Clima Plan

SF

SC

HF

HC

Playa Monta˜ na Casa

−1 −3 0

−5 −2 2

7 4 −6

3 3 −4

Recu´erdese que la valoraci´ on se expresa en forma de p´erdidas; de forma que desplazarse a la playa con tiempo h´ umedo y fr´ıo supone una p´erdida de 7, mientras que hacerlo con tiempo seco y caluroso le reporta una satisfacci´ on de 5 (p´erdida de −5). En estos momentos, es irrelevante c´ omo haya llegado a estas valoraciones; ciertamente habr´ an intervenido sus preferencias personales, puede haber atendido a consideraciones de costes, a aspectos sociales, etc. La teor´ıa de la utilidad, que se introduce en la secci´ on 1.4 estudia procedimientos para establecer tales valoraciones. Pero la cuesti´on primordial es saber si la informaci´on contenida en la tabla puede ser utilizada para adoptar su decisi´on. En el contexto de este ejemplo, cabe anticipar algunas consideraciones de la pr´oxima secci´ on. De hecho, enfrentada con este problema, cualquier persona sensata procurar´ıa enterarse de las previsiones meteorol´ogicas para el fin de semana. Generalmente, ello le proporcionar´a una estimaci´ on de las probabilidades con las que el clima va a estar en cada uno de los cuatro estados posibles; es decir un vector de probabilidades [πSF , πSC , πHF , πHC ] que, sin duda, le ser´a de suma utilidad para orientar su elecci´on. En el mejor de los casos, podr´ıa ocurrir que fuese alg´ un πi = 1 y que pudiese actuar sabiendo con certidumbre c´ omo estar´ a el tiempo. En cambio, frente a un pron´ ostico del tipo πSF = 00 7, πSC = 00 1, πHF = 00 2, siempre correr´ıa un riesgo de haber adoptado una decisi´on en la que ha pesado mucho la alta probabilidad de que el clima sea seco y fr´ıo y, sin embargo, al final result´o que el tiempo era h´ umedo y fr´ıo. Peor a´ un, pudiera ocurrir que no tuviese acceso a ning´ un bolet´ın meteorol´ ogico y que tuviese que actuar con una incertidumbre total. Tambi´en es oportuno se˜ nalar que, si interesase hacer un modelo m´as preciso de la situaci´ on, los estados de la naturaleza podr´ıan incluir la cantidad de lluvia (por m2 ) recogida y la temperatura m´axima (o m´ınima) a lo largo del fin de semana. El

1.1. Elementos esenciales

3

conjunto de estados de la naturaleza, Θ, pasar´ıa a ser entonces un subconjunto de IR2 o IR3 , en lugar de un conjunto finito. Consecuentemente, la funci´ on de p´erdida no se expresar´ıa entonces en forma de tabla, sino como una terna de funciones L(θ, P ), L(θ, M ) y L(θ, C).

El siguiente ejemplo es debido a Savage (The foundation of Statistics, 1954). Ejemplo 1.2 Un ama de casa ha cascado cinco huevos en un recipiente para hacer una tortilla. Dispone de un sexto huevo del que sospecha que puede estar podrido, pero que en todo caso se estropear´ a si no se utiliza. Duda entre los siguientes comportamientos: (I) cascar el huevo en el mismo recipiente que los otros cinco; (II) examinarlo previamente en un taz´ on adicional y (III) tirarlo a la basura sin abrirlo. Seg´ un el estado del huevo sospechoso, las consecuencias pueden ser Estado Alternativa

Bueno

Podrido

I

Tortilla de 6 huevos

5 huevos desperdiciados sin tortilla

II

Tortilla de 6 huevos y taz´ on para lavar

Tortilla de 5 huevos y taz´ on para lavar

III

Tortilla de 5 huevos y huevo desperdiciado

Tortilla de 5 huevos

Valora estas consecuencias con la siguiente tabla de ganancias: Estado Alternativa

Bueno

Podrido

I

30

0

II

27

22

III

20

25

en la que parece que ha atribuido un valor 5 a cada huevo y ha evaluado en 3 el coste de lavar el taz´ on. La pregunta vuelve a ser cu´al es su mejor comportamiento. Y, por supuesto, para su respuesta ser´ıa de gran ayuda poder evaluar las probabilidades de cada uno de los posibles estados del huevo sospechoso. Si no es capaz de llevar a cabo tal evaluaci´on, su problema se complica; al menos en el sentido de que ha de resolverlo con menor informaci´ on.

4

Cap´ıtulo 1. Problemas de decisi´ on

Seg´ un los ejemplos anteriores, un problema de decisi´ on puede concebirse como una tabla en la que las columnas representan los estados de la naturaleza y las filas las acciones posibles consideradas por el decisor: Estado Acci´on

θ1

θ2

...

θk

a1 a2 .. .

L(θ1 , a1 ) L(θ1 , a2 ) .. .

L(θ2 , a1 ) L(θ2 , a2 ) .. .

... ... .. .

L(θk , a1 ) L(θk , a2 ) .. .

an

L(θ1 , an )

L(θ2 , an )

...

L(θk , an )

Frente a tal problema, se trata de estudiar criterios para elegir la “mejor” de las filas. El que Θ o A no sean conjuntos finitos puede complicar la presentaci´ on de los datos, pero la situaci´ on es conceptualmente la misma. Una tercera situaci´ on –emparentada con el juego del “black-jack”– puede mostrar que la fase de elaboraci´ on del modelo no siempre es inmediata, porque puede ser laborioso analizar las acciones y los estados de la naturaleza posibles. Ejemplo 1.3 De un mazo de cartas, cada una de las cuales contiene uno de los n´ umeros 1, 2 o 3, un croupier toma una oculta para s´ı mismo y otorga otra a un jugador. El jugador puede pedir otra carta, aunque si se “pasa”, porque la suma de sus puntuaciones es superior a 3, tiene que pagar 2 euros a la banca. Tambi´en puede “plantarse”, sin intentar mejorar su puntuaci´on. Cuando lo hace, el croupier descubre su carta y el jugador recibe un euro si su puntuaci´on es mayor que la del croupier, paga un euro si es menor y, en caso de igualdad, ninguno cobra nada. Una breve reflexi´ on muestra que los estados de la naturaleza, que han de influir en el resultado, dependen de la puntuaci´on oculta del croupier, x1 , y de la puntuaci´on x2 de la carta que ocupe la primera posici´on en el mazo despu´es de la distribuci´ on. Es decir, son de la forma (x1 , x2 ) y concretamente es Θ = {(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)}. Por ejemplo (2, 1) significa que la banca tiene un 2 y la carta siguiente del mazo es un 1. Por su parte, las acciones del jugador s´olo pueden ser plantarse (0) o pedir carta (1); es decir A = {0, 1}

aunque tiene que elegir entre ambas opciones, en funci´ on del valor de la carta que haya recibido. La situaci´ on plantea pues tres problemas de decisi´on: uno cuando su carta tiene el valor 1, otro cuando es 2 y un tercero (m´ as simple) cuando es 3. De acuerdo con las reglas descritas, la funci´ on de p´erdida es

1.1. Elementos esenciales

5 Estado

Acci´on

(1, 1)

(1, 2)

(1, 3)

(2, 1)

(2, 2)

(2, 3)

(3, 1)

(3, 2)

(3, 3)

1:0 1:1

0 −1

0 −1

0 2

1 0

1 −1

1 2

1 1

1 0

1 2

2:0 2:1

−1 −1

−1 2

−1 2

0 −1

0 2

0 2

1 0

1 2

1 2

3:0 3:1

−1 2

−1 2

−1 2

−1 2

−1 2

−1 2

0 2

0 2

0 2

A la vista de la tabla, una elecci´on razonable para el jugador puede ser: pedir carta si tiene un 1, plantarse si tiene un 2 y, desde luego, plantarse si tiene un tres. Esto es emplear la estrategia ([1 : 1], [2 : 0], [3 : 0]), que especifica el comportamiento en cualquier posible circunstancia. Si la composici´on del mazo es conocida y se ha barajado adecuadamente antes del reparto, entonces el decisor puede evaluar con facilidad la probabilidad πi de cada uno de los elementos de Θ; lo cual supone una informaci´on muy valiosa. Por el contrario, el problema tiene sentido en el contexto en que no se informe al jugador de composici´on del mazo y las probabilidades πi hayan de ser conjeturadas o, incluso, imposibles de atribuir.

Es f´acil imaginar c´ omo se complicar´a el planteamiento anterior en una situaci´on m´ as habitual, tal como la del “black-jack” que se juega en los casinos con una baraja francesa, en el que el objetivo es obtener una puntuaci´ on inferior pero lo m´ as pr´ oxima posible a 21, mediante la petici´on de tantas cartas como el jugador desee. El ejemplo anterior da pie a examinar las similitudes y diferencias entre la Teor´ıa de la Decisi´ on y la Teor´ıa de juegos.

Teor´ıa de la Decisi´ on vs Teor´ıa de juegos El esquema (A, Θ, L) de un problema de decisi´ on es formalmente id´entico al que se emplea en teor´ıa de juegos para describir un juego bipersonal de suma nula. All´ı se interpreta que un segundo jugador hace el papel de la naturaleza, debiendo elegir un estado o estrategia θ ∈ Θ, a la vez que el primer jugador escoge una jugada o estrategia a ∈ A. Como consecuencia el primero paga al segundo una cantidad L(θ, a), funci´on de las estrategias empleadas por cada uno de los jugadores. Es decir, el primer jugador tiene una “p´erdida” L(θ, a), mientras que el segundo jugador gana L(θ, a). Ni que decir tiene que L(θ, a) puede ser negativa y representar realmente una ganancia para el primero y una p´erdida para el segundo.

6

Cap´ıtulo 1. Problemas de decisi´ on

Es habitual en teor´ıa de juegos analizar con detenimiento la manera de obtener un “juego matricial”, que responda al esquema te´orico (A, Θ, L), a partir de las reglas del juego que, con frecuencia, especifican diversos movimientos o jugadas que los participantes pueden realizar sucesiva y alternativamente. As´ı ocurre, por ejemplo, en el juego de las “tres en raya”, en casi todos los juegos de cartas, en el “backgammon”, etc. En este sentido, es primordial el concepto de estrategia, interpretado como cada uno de los conjuntos de instrucciones que un jugador debe proporcionar a una tercera persona para que pueda jugar por ´el, sin tener que improvisar una jugada en ning´ un posible lance del juego. De este modo, cada estrategia ser´ a a menudo un complejo sistema de instrucciones y puede ser complicado enumerar todas las posibles estrategias. No obstante, desde un punto de vista te´orico, ello es lo que permite reducir las reglas de cualquier juego a un planteamiento matricial del tipo (A, Θ, L). As´ı, A ser´ a el conjunto de estrategias posibles para el primer jugador, Θ incluir´a las posibles estrategias del segundo y L(θ, a) ser´ a el pago a realizar cuando uno emplee su estrategia a y el otro su estrategia θ. Algo muy similar sucede con los problemas de decisi´ on, que pueden comportar diversas etapas en las que pueden ocurrir diferentes situaciones, frente a las cuales hay que decidir que acci´on se elige de entre las permitidas para ese momento y esas circunstancias. Por ejemplo, una compa˜ n´ıa a´erea tendr´a que decidir con cu´ antos aviones opera, cu´ antas tripulaciones contrata, y en cada momento, qu´e movimientos realiza con sus aparatos y con sus tripulaciones para atender a los vuelos programados, sin incumplir las normativas correspondientes. Se trata de un sistema muy complejo, al que pueden afectar condiciones clim´ aticas, precios de combustibles y diversas otras condiciones ambientales. Pero, como en los juegos, la enumeraci´on de las estrategias viables para la compa˜ n´ıa, as´ı como de los estados posibles de la naturaleza, junto con la evaluaci´ on de los costes en cada caso, permite reducir el problema al esquema formalizado (A, Θ, L). Hay un aspecto que diferencia b´ asicamente la teor´ıa de la decisi´ on de la teor´ıa de juegos bipersonales de suma nula. En esta u ´ltima se supone siempre que intervienen dos jugadores inteligentes, cuyos objetivos son contrapuestos: lo que un jugador gana, lo pierde el otro. Por consiguiente, cada jugador debe suponer que su contrincante elegir´ a la estrategia que m´ as beneficios le reporta y m´ as perjudica a su oponente. El criterio para la elecci´on de las estrategias queda, por tanto, determinado. Por el contrario, en teor´ıa de la decisi´ on no hay ning´ un motivo para suponer que la naturaleza tenga inter´es en elegir su estado con el objetivo de maximizar su ganancia, ni de perjudicar al decisor. Como consecuencia, el criterio para distinguir entre buenas y malas estrategias est´ a peor definido y admite muchas m´ as variantes.

1.2. Ambientes en un problema de decisi´ on

7

Un ejemplo simple puede aclarar la cuesti´ on. Ejemplo 1.4 Consid´erese A = {a1 , a2 }, Θ = {θ1 , θ2 } y la funci´ on de p´erdida: Estado Acci´on

θ1

θ2

a1 a2

2 −1

−4 −2

Si se interpreta como juego, est´ a claro que la u ´nica elecci´on inteligente del estado es θ1 ; ya que las cantidades de la matriz son ganancias para el jugador que elige en Θ y escogiendo θ1 gana m´as que con θ2 , sea cual sea el comportamiento del contrincante. Esto lo sabe el decisor que ha de elegir una acci´on, de modo que puede ignorar la existencia del estado θ2 , al que nunca tendr´a que enfrentarse, y considerar solo su elecci´on frente a θ1 . Resulta entonces obvio que su mejor elecci´on es a2 , con la que su p´erdida valdr´a −1. En cambio, interpretado como problema de decisi´on frente a una naturaleza neutral, no interesada en maximizar su beneficio ni en minimizar el del decisor, la elecci´on est´ a menos clara. La acci´on a2 garantiza una ganancia positiva (1 o 2 seg´ un el estado de la naturaleza); pero a1 permite aumentar la ganancia a 4, a costa de correr el riesgo de perder 2. Por ejemplo, si el decisor estima que el estado es θ2 en el 80 % de las ocasiones, deber´ıa preferir a1 .

En base a esta observaci´ on, la teor´ıa de juegos y la teor´ıa de la decisi´ on divergen. Aquella examina cualquier situaci´ on, por compleja que sea, con el criterio indicado; mientras que ´esta debe analizar qu´e criterios son oportunos en un problema de decisi´ on, por simple que pueda ser. De ello se ocupar´a el cap´ıtulo 2. Previamente procede tratar los aspectos adicionales que pueden comportar los problemas de decisi´ on.

1.2.

Ambientes en un problema de decisi´ on

Como se ha se˜ nalado en los ejemplos anteriores, hay diversas circunstancias en las que el decisor puede enfrentarse con un problema de decisi´ on. El ambiente de certidumbre es aquel en que el decisor conoce con exactitud el estado en el que se encuentra la naturaleza. Cuando el decisor no sabe el estado elegido por la naturaleza, pero dispone de la distribuci´ on de probabilidad π(θ) con la que se elige dicho estado, se dice que el problema de decisi´ on se plantea en ambiente de

8

Cap´ıtulo 1. Problemas de decisi´ on riesgo. Formalmente ello requiere suponer que Θ est´ a dotado de una σ-´ algebra B y considerar el espacio de probabilidad (Θ, B, π). Ahora bien, normalmente Θ ser´ a un espacio discreto o un subconjunto de un espacio eucl´ıdeo, IRn , de modo que la elecci´on de B no comporta ninguna ambig¨ uedad y π puede especificarse mediante las t´ecnicas habituales del c´ alculo de probabilidades. El ambiente de incertidumbre se refiere a aquellos problemas de decisi´ on en los que el decisor no dispone de la distribuci´on de probabilidad que rige la elecci´on del estado de la naturaleza, bien porque ´esta no es conocida o bien porque no existe. Puede ser desconocida; como en el caso del ejemplo 1.3 con un mazo de cartas cuya composici´ on no se puede examinar. Pero tambi´en puede no existir, si el estado de la naturaleza depende del resultado de un acontecimiento irrepetible, como una carrera de caballos o un descubrimiento cient´ıfico. De hecho, recu´erdese que, hasta ahora, la probabilidad se ha considerado siempre ligada a un fen´omeno aleatorio: “aqu´el que, repetido en id´enticas condiciones,. . . ”. En la secci´ on 1.4 se introducir´a el concepto de probabilidad subjetiva que muestra que, en determinadas ocasiones, el decisor se comporta como si pudiese atribuir una distribuci´on de probabilidad a los estados de la naturaleza, a´ un cuando ´estos no dependan de un fen´omeno aleatorio genuino. En otro sentido, hay ocasiones en que, antes de elegir su acci´on, el decisor puede llevar a cabo un conjunto de observaciones que le proporcionen informaci´ on sobre el estado de la naturaleza. De forma gen´erica, podr´ a observar el valor de una variable aleatoria multidimensional, X, cuya distribuci´ on Pθ (x) dependa del estado de la naturaleza θ. En estas circunstancias, se habla de problema de decisi´ on con experimentaci´ on o de problema de decisi´ on estad´ıstico, puesto que, al fin y al cabo, la inferencia estad´ıstica estudia como estimar el valor de un cierto par´ ametro θ a partir de la observaci´on de una muestra X, cuya distribuci´on depende de θ. En un problema de decisi´ on, la introducci´ on de experimentaci´on enriquece notablemente la teor´ıa; el cap´ıtulo 4 se ocupar´a espec´ıficamente de este caso.

1.2.1.

Ambiente de certidumbre: T´ ecnicas de optimizaci´ on

Cuando el estado de la naturaleza, θ1 , es conocido, la funci´on de p´erdida L(a) = L(θ1 , a) depende exclusivamente de la acci´on a del decisor y la

1.2. Ambientes en un problema de decisi´ on

9

elecci´on de la mejor acci´ on –aquella que minimiza la p´erdida– se reduce a la determinaci´on del punto a? ∈ A en el que se alcanza m´ın L(a). a∈A

Ello no significa que el problema sea forzosamente sencillo. Lo ser´ a, por supuesto, en el caso en que A sea finito o, mejor dicho, con un n´ umero de elementos moderado. Pero, seg´ un las caracter´ısticas del conjunto A y de la funci´on L, puede ser necesario emplear t´ecnicas de optimizaci´ on desarrolladas en diversas disciplinas matem´ aticas. Por ejemplo, si A ⊂ IRn y L es diferenciable, el An´alisis Matem´atico proporciona condiciones que necesariamente deben cumplirse en el punto a? en el que se alcance el m´ınimo. Incluyen, en particular, el m´etodo de los multiplicadores de Lagrange para el caso en que A est´e definido por restricciones gk (a) = 0, definidas mediante funciones diferenciables gk . En otra direcci´ on, la programaci´on lineal proporciona la soluci´ on a? en el n , deficaso en que L sea una funci´ on lineal y A un poliedro convexo en IR+ nido por desigualdades lineales. El estudio de diversos problemas similares, en los que intervienen funciones objetivo o restricciones no lineales, constituye el campo de la programaci´on no lineal. Asimismo existen desarrollos propios de diversos casos diferenciados por las caracter´ısticas de las funciones o restricciones que intervienen: programaci´on cuadr´atica, programaci´on convexa, etc. Recientemente, tambi´en han alcanzado relieve los algoritmos gen´eticos y otras t´ecnicas heur´ısticas de b´ usqueda de ´optimos que pueden ser aplicados a´ un en el caso de funciones objetivo no diferenciables, siempre que el espacio de b´ usqueda pueda codificarse mediante una cadena de s´ımbolos. En resumidas cuentas, las t´ecnicas de optimizaci´ on no son propiamente parte de la teor´ıa de la decisi´ on y no ser´ an consideradas aqu´ı. De manera que los problemas de decisi´ on en ambiente de certidumbre se remiten a los cursos espec´ıficos sobre t´ecnicas de optimizaci´ on.

1.2.2.

Ambiente de riesgo

Como ya se ha se˜ nalado, en ambiente de riesgo, el conjunto Θ de estados de la naturaleza es la base de un espacio de probabilidad (Θ, B, π). Supondremos siempre que las funciones de p´erdida L(·, a) son medibles respecto a B, porque no tiene ning´ un inter´es pr´ actico pensar en casos en que pudiese no ser as´ı. Con ello las p´erdidas, L(θ, a1 ), L(θ, a2 ), . . ., asociadas a cada una de las acciones posibles, se convierten en variables aleatorias, que pueden

10

Cap´ıtulo 1. Problemas de decisi´ on

representarse por L(a1 ), L(a2 ), . . ., si no se olvida su car´ acter aleatorio (es decir, su dependencia impl´ıcita de θ). Como es habitual, la informaci´ on probabil´ıstica sobre cada una de las variables aleatorias L(a) se concentra en su funci´on de distribuci´on: Fa (x) = π{L(a) ≤ x}

x ∈ IR;

aunque pueden ser muy u ´tiles –supuesto que existan– determinados par´ ametros como la media y la varianza: Z L(θ, a)π(dθ), σa2 = E[L(a)2 ] − µ2a . µa = E[L(a)] = Θ

As´ı, en este contexto, el problema de decisi´ on se reduce a elegir la “m´ as favorable” de las variables L(a) o, m´ as claramente dicho, la “m´ as favorable” de las distribuciones Fa (x). Son destacables dos tentativas iniciales de dar un sentido preciso a la expresi´ on “m´ as favorable”: Cuando Fa0 (x) ≤ Fa (x) para cualquier x ∈ IR, se dice que Fa domina a Fa0 o, simplemente, que a domina estad´ısticamente a a0 . En tal caso, la acci´ on a es preferible a la acci´on a0 , pues es m´ as probable obtener p´erdidas inferiores a cualquier x ∈ IR con a que con a0 ; es decir, Fa0 concentra su probabilidad en p´erdidas mayores que Fa (2 ). As´ı ocurre a la izquierda en la figura 1.1. 1

1

Fa Fa0

Fa0 Fa

Figura 1.1: Funciones de distribuci´on El inconveniente es que, con mucha frecuencia, las distribuciones Fa (x) an –como ocurre en el gr´ afico de la derecha– de moy Fa0 (x) se cortar´ do que el criterio anterior no establece que a sea preferible a a0 ni a0 preferible a a. De este modo, este criterio de dominancia estad´ıstica 2

Si L(a) representasen ganancias, en lugar de p´erdidas, ser´ıa al rev´es: a0 ser´ıa preferible a a, pues la probabilidad de obtener ganancias inferiores a cualquier x ser´ıa mayor con a que con a0 .

1.2. Ambientes en un problema de decisi´ on

11

establece s´ olo un preorden parcial (3 ) entre las acciones, que permite eliminar las acciones dominadas por otra, pero no elegir la mejor cuando existan varias incomparables no dominadas por ninguna otra. Si no se quiere uno romper la cabeza, lo m´ as simple es elegir la acci´on con menor p´erdida esperada; es decir, establecer que a es mejor que a0 si µa < µa0 . De hecho, en problemas complejos en los que no es posible determinar las distribuciones Fa (x), es muy frecuente limitarse a calcular las p´erdidas medias µa y elegir una acci´on que d´e el menor valor posible. Sin embargo, en el contexto de los problemas de decisi´ on en ambiente de riesgo, en los que no hay dificultad para conocer las funciones de distribuci´ on, tal criterio no es conceptualmente impecable, pues llevar´ıa a considerar mejor a0 que a si fuese  100 con probabilidad 1 − 10−10 0 L(a) = 10 y L(a ) = 10 −91 · 10 con probabilidad 10−10 . De hecho µa0 ' 9 < µa = 10; aunque, casi con seguridad, se perder´a 10 veces m´ as con a0 que con a. Ejemplo 1.5 En la situaci´ on del ejemplo 1.2, supongamos que el ama de casa sabe, por experiencias similares anteriores, que es 1/3 la probabilidad de que el huevo sospechoso est´e podrido. Las funciones de distribuci´ on de la ganancia asociada a cada una de sus tres posibles acciones aparecen representada en la figura 1.2: 1 (III) 2/3 (I)

(II) 1/3

0

20 22

25 27

30

0

Figura 1.2: Funciones de distribuci´on de las ganancias Como las cifras expresan ganancias, se ve que la acci´on (II) domina a (III), que puede ser descartada. Entre las acciones (I) y (II) no hay relaci´on de dominancia, pero las medias: µI = 20,

µII = 250 33,

µIII = 210 66

claramente inclinan la balanza en favor de la acci´on (II). 3 Reflexivo (a  a) y transitivo (a  a0 , a0  a00 ⇒ a  a00 ), pero no necesariamente se cumple: a  a0 o a0  a.

12

Cap´ıtulo 1. Problemas de decisi´ on

En el pr´ oximo cap´ıtulo se analizar´ an, con m´ as detenimiento, los criterios usuales para ordenar las acciones en este contexto.

1.2.3.

Ambiente de incertidumbre

Algo similar sucede con los problemas de decisi´ on en ambiente de incertidumbre. En este caso, cada acci´on a lleva asociada una funci´on de θ: L(θ, a) y se trata de elegir entre ellas la “m´ as favorable”; o sea de clasificar, por orden de preferencia, diversas funciones de θ. Desde luego, si ocurre que L(θ, a) ≤ L(θ, a0 ) para cualquier θ ∈ Θ, siendo la desigualdad estricta para alg´ un valor de θ, entonces se dice que a domina a a0 y a0 puede ser descartada. Sin embargo, lo usual es que, una vez eliminadas las acciones dominadas, todav´ıa queden m´ ultiples acciones entre las que elegir. Diversos criterios han sido propuestos para ello, que ser´ an estudiados tambi´en en el pr´ oximo cap´ıtulo. Ejemplo 1.6 Por decirlo en el caso concreto del ejemplo 1.1, el problema de decisi´on se reduce a elegir entre las funciones de θ, representadas por los tres vectores: (−1, −5, 7, 3),

(−3, −2, 4, 3),

(0, 2, −6, −4).

Como no hay ninguna relaci´on de dominancia entre ellos, de momento no se ha avanzado nada.

1.2.4.

Decisi´ on con experimentaci´ on

Supongamos que el decisor, antes de elegir su acci´on, puede observar el valor de una variable aleatoria X cuya distribuci´on depende del estado de la naturaleza θ, tratando de averiguar con ello, cu´ al de los estados est´ a vigente. Para precisar, X representar´ a el conjunto de posibles valores de X, que ser´ a normalmente un subconjunto de un espacio eucl´ıdeo IRn . X estar´ a dotado de una σ-´ algebra F, que normalmente ser´ a la σ-´algebra de Borel heredada de IRn . Sobre ella, las distribuciones Pθ especificar´ an la distribuci´on de probabilidad de X cuando el estado de la naturaleza es θ, aunque se utilizar´ a tambi´en la notaci´ on F (x| θ) para representar la correspondiente funci´ on de distribuci´ on de X. El espacio de probabilidad (X , F, Pθ ) se denomina espacio muestral del experimento. Ahora bien, igual que en Inferencia estad´ıstica, si el decisor observa el valor de X ser´ a para actuar en funci´on del resultado x de la observaci´on. Es decir,

1.2. Ambientes en un problema de decisi´ on

13

que su problema no consiste ahora en elegir una acci´on en A, sino en elegir una regla de decisi´ on d(x) que asigne un elemento de A a cada posible resultado x ∈ X . Se trata, en realidad de una generalizaci´ on del concepto de estad´ıstico, propio de la Inferencia, que se reducir´ıa a ´el en caso de ser A = Θ. Y, efectivamente, los problemas de estimaci´ on puntual pueden considerarse como problemas de decisi´ on en el que las posibles acciones son el vaticinio de cu´ al es el “verdadero” valor de θ que rige el experimento; la u ´nica diferencia ˆ mientras es que aqu´ı siempre se precisar´a una funci´on de p´erdida L(θ, θ), que algunas de las t´ecnicas de estimaci´ on puntual no precisan de ella. En cualquier caso, ser´ a necesario dotar a A de una σ-´algebra A (por ejemplo, discreta o de Borel, seg´ un las caracter´ısticas de A), y precisar que una regla de decisi´ on es cualquier aplicaci´ on d : (X , F) 7→ (A, A) que sea medible respecto a F y A. Si no fuese as´ı, podr´ıa no tener sentido referirse a Pθ {d(x) ∈ A1 }, probabilidad de que, cuando el estado es θ, la regla de decisi´ on d adopte una acci´on a de A1 ∈ A. Naturalmente, supondremos siempre que las funciones de p´erdida L(θ, ·) son medibles respecto a A. Queda as´ı garantizado que L(θ, d(X)) es, para cada θ, una variable aleatoria definida en el espacio de probabilidad (X , F, Pθ ) (4 ). Puede asociarse entonces a cada regla de decisi´ on d, una funci´ on de riesgo Z L(θ, d(x)) Pθ (dx), (1.1) R(θ, d) = Eθ [L(θ, d(X))] = X

que representa, para cada estado de la naturaleza θ y al emplear la regla de decisi´ on d, la p´erdida esperada en que se incurre, como consecuencia de que la observaci´ on X es aleatoria y puede dar diversos resultados x, acordes con la distribuci´ on Pθ . Podr´ıa ocurrir que la esperanza anterior no existiese o fuese infinita, para algunos valores de θ; pero, obviamente, las reglas de decisi´ on para las que tal cosa ocurre no interesan. Por consiguiente, se representa habitualmente por D el conjunto de todas las posibles reglas de decisi´ on que tienen funci´ on de riesgo bien definida y finita. En resumidas cuentas, la introducci´ on de la experimentaci´on convierte el problema de decisi´ on inicial, (A, Θ, L), en el problema de decisi´ on (D, Θ, R), donde la nueva funci´ on de p´erdida es el riesgo R(θ, d). 4

No confundir esto con que, en ambiente de riesgo, L(θ, a) es una variable aleatoria en (Θ, B, π). En un caso es θ lo que es aleatorio, con distribuci´ on π, y en el otro es X lo que es aleatorio, con distribuci´ on Pθ dependiente de θ

14

Cap´ıtulo 1. Problemas de decisi´ on

El ejemplo siguiente, debido a Ferguson, ilustra en un caso sencillo las consideraciones anteriores. Ejemplo 1.7 Un croupier y un jugador disponen cada uno de dos cartas, numeradas con 1 y 2 respectivamente, entre las cuales eligen una, para jugar a “pares o nones”: si la suma de las puntuaciones elegidas es par gana la banca y si es impar gana el jugador, siendo el pago la suma de las puntuaciones. Se plantea as´ı un problema de decisi´on (o un juego) en el que A = Θ = {1, 2} y la funci´ on de p´erdida del jugador es θ=1

θ=2

2 −3

−3 4

a=1 a=2

Para introducir en el modelo la experimentaci´on, supongamos que el jugador puede preguntar al croupier si va a elegir 1 o 2. El croupier debe sortear y contestar la verdad con probabilidad 3/4 o mentir con probabilidad 1/4. En cualquiera de los casos la respuesta puede ser x = 1 o x = 2, pero Pθ=1 (x = 1) = 3/4, Pθ=2 (x = 1) = 1/4,

Pθ=1 (x = 2) = 1/4; Pθ=2 (x = 2) = 3/4;

de forma que la distribuci´ on del resultado del experimento depende de la elecci´on del croupier. Ahora, el decisor dispone de cuatro reglas de decisi´on di (x): d1 (1) = 1,

d1 (2) = 1;

d2 (1) = 1, d3 (1) = 2,

d2 (2) = 2; d3 (2) = 1;

d4 (1) = 2,

d4 (2) = 2.

La primera y la u ´ltima significan que el decisor escoge su acci´on, a = 1 y a = 2 respectivamente, sin preguntar al croupier. La segunda indica que el decisor pregunta y cree que el croupier ha mentido (o sea que θ 6= x), de manera que elige la acci´on que coincide con x y es distinta de θ; as´ı consigue una suma impar. La tercera supone que pregunta y opina que el croupier le responde la verdad (o sea que θ = x), elige la acci´on contraria y consigue un resultado impar. En cualquier caso, las funciones de riesgo asociadas a cada una de las reglas de decisi´on son:   2 si θ = 1 −3 si θ = 1 R(θ, d1 ) = y R(θ, d4 ) = −3 si θ = 2, 4 si θ = 2;

1.3. Decisiones aleatorizadas

15

mientras que  3 1   L(1, 1) + L(1, 2) = 3/4 si θ = 1 4 4 R(θ, d2 ) = 3 1   L(2, 1) + L(2, 2) = 9/4 si θ = 2, 4 4  1 3   L(1, 1) + L(1, 2) = −7/4 si θ = 1 4 4 R(θ, d3 ) = 1 3   L(2, 1) + L(2, 2) = −5/4 si θ = 2. 4 4

En cada fila el valor de θ es el indicado, x coincide con θ o no, con probabilidades 3/4 y 1/4 respectivamente; adem´as, la regla d2 indica a = x, mientras d3 (x) 6= x. Al considerar la experimentaci´on, el problema de decisi´on se transforma en

d1 d2 d3 d4

θ=1

θ=2

2 3/4 −7/4 −3

−3 9/4 −5/4 4

La elecci´on de la regla de decisi´on d3 produce siempre p´erdidas negativas y domina a d2 , con la cual las p´erdidas son siempre positivas. Por consiguiente, no es conveniente preguntar al croupier y pensar que ha mentido; ya que, al ser la probabilidad de que mienta inferior a la de que diga la verdad, es preferible creerle. Sin embargo, para la elecci´on entre d1 , d3 y d4 , la situaci´ on es la misma que en el problema de decisi´on original. La posibilidad de experimentaci´on ofrece al decisor nuevas l´ıneas de conducta, sin resolver la cuesti´on de c´ omo elegir entre ellas.

Obs´ervese que en la definici´on del riesgo, dada en (1.1), se ha adoptado el criterio de utilizar la esperanza Eθ [L(θ, d(X))] para medir la calidad de cada variable aleatoria L(θ, d(X)). Esto es algo que hab´ıa sido puesto en cuesti´ on en la secci´ on 1.2.2, en relaci´ on con la variables aleatorias L(θ, ai ) cuando θ es aleatorio. Como se hab´ıa predicho, a medida que los problemas se complican, las soluciones tienen que hacerse m´ as dr´ asticas. Adem´as, las consideraciones del final de la secci´ on 1.4 aclarar´ an por qu´e puede hacerse as´ı, cuando se habla en t´erminos de utilidades.

1.3.

Decisiones aleatorizadas

Todav´ıa hay una complicaci´ on m´ as, inherente a los problemas de decisi´ on. Se trata de la posibilidad de que el decisor no elija directamente una acci´on

16

Cap´ıtulo 1. Problemas de decisi´ on

de A, sino que conf´ıe en el azar para sortear entre diversas acciones entre las que duda. Entonces, su elecci´on, en vez de recaer sobre alguno de los elementos de A, consistir´a en fijar las probabilidades con las que sortear entre diversas de ellas. El inter´es de hacerlo as´ı puede ponerse de relieve con el ejemplo siguiente. Ejemplo 1.8 Sea el problema de decisi´on con A = {a1 , a2 , a3 } y Θ = {θ1 , θ2 }, cuya funci´ on de p´erdida es

a1 a2 a3

θ1

θ2

0 5 30 5

5 0 30 5

El decisor puede sentirse atra´ıdo por las acciones a1 y a2 , con las cuales no perder´ a nada si la naturaleza le es propicia. Pero, con cualquiera de ellas la p´erdida tambi´en puede ser 5, superior a la p´erdida fija con a3 . Se le ocurre entonces, lanzar una moneda y emplear a1 si sale cara, o a2 si sale cruz. As´ı, la p´erdida media, frente a cualquiera de los dos estados de la naturaleza, ser´a 1 1 L(θi , a1 ) + L(θi , a2 ) = 20 5. 2 2 Si a˜ nade esta “acci´ on mixta”, α, como cuarta fila de la matriz, podr´a eliminar a3 porque produce peor rendimiento frente a cualquier estado de la naturaleza; cosa que no ocurr´ıa ni con a1 , ni con a2 .

El uso de este tipo de estrategias mixtas es una necesidad objetiva en los problemas de juegos, en los que un jugador puede sacar provecho de que su contrincante no pueda prever la estrategia que va a utilizar. En los problemas de decisi´ on, la utilizaci´ on de decisiones aleatorizadas amplia las posibles formas de conducta del decisor y deben ser incluidas en el an´ alisis del problema. De hecho, en ocasiones tienen un significado muy natural; por ejemplo si el decisor tiene una cantidad fija C de un determinado recurso (dinero, tiempo, superficie de cultivo, etc.) que puede dedicar a diversos objetivos a1 , . . . , an , con rendimientos diversos, puede ser m´ as provechoso repartir la cantidad C en porciones α1 C, . . . , αn C (con α1 + · · · + αn = 1) que se dedicar´ an a los diferentes objetivos. Ello es totalmente equivalente a emplear una acci´ on aleatorizada definida por la distribuci´on α = (α1 , . . . , αn ).

1.3. Decisiones aleatorizadas

1.3.1.

17

Decisiones aleatorizadas sin experimentaci´ on

En general, el marco te´ orico para incluir decisiones aleatorizadas en un problema de decisi´ on sin experimentaci´on no es complicado. Simplemente debe suponerse que A est´ a dotado de una σ-´algebra A, que cumpla {a} ∈ A para cualquier a ∈ A y respecto a la cual L(θ, ·) sean funciones medibles. Mientras A sea un conjunto discreto o un subconjunto de un espacio eucl´ıdeo, IRn , ello no comporta ninguna dificultad, supuesto que las funciones de p´erdida son razonablemente regulares. Despu´es, las acciones aleatorizadas, α, ser´ an distribuciones de probabilidad en (A, A), que asignen una probabilidad α(A1 ) a cada subconjunto A1 ∈ A. Con ellas, el decisor especifica las reglas que regir´ an el sorteo de la acci´on a ∈ A que emplear´a. La funci´ on de p´erdida se extiende para acciones aleatorizadas mediante la expresi´ on Z L(θ, a) α(da).

L(θ, α) =

(1.2)

A

Y, el espacio de todas las acciones aleatorizadas α sobre (A, A), que tengan una p´erdida finita, para cada θ ∈ Θ, se designa habitualmente por A? . Por supuesto, puede considerarse que A ⊂ A? , identificando cada acci´on a ∈ A con la distribuci´ on causal que asigna probabilidad uno a {a} (de ah´ı, la conveniencia de imponer que {a} ∈ A). Esta forma de proceder sustituye el problema de decisi´ on original (A, Θ, L) ? por (A , Θ, L), en el que L se ha extendido mediante (1.2). Con ello se amplia el conjunto de acciones posibles y el an´ alisis del problema puede ser ? ? m´ as sencillo en A que en A. Al menos, A tiene la ventaja de ser convexo, en el sentido de que, para cualesquiera α1 , α2 ∈ A? y λ ∈ [0, 1], la combinaci´ on lineal convexa λα1 + (1 − λ)α2 vuelve a ser un elemento de A? (o sea, una distribuci´ on en (A, A)).

Ejemplo 1.9 Si un problema de decisi´on cuenta s´olo con tres acciones: A = {a1 , a2 , a3 }, entonces cada distribuci´ on de probabilidad α sobre A se caracteriza por α(a1 ) = α1 , α(a2 ) = α2 , α(a3 ) = α3 . α3 (0, 0, 1) De modo que 3 A? = {(α1 , α2 , α3 ) ∈ IR+ | α1 + α2 + α3 = 1}

se representa como el tri´angulo que une los puntos (1, 0, 0), (0, 1, 0) y (0, 0, 1), en el espacio IR3 . Lo mismo ocurrir´ıa en IRn , si A contase con n acciones.

(0, 1, 0)

α2

(1, 0, 0)

α1

18

Cap´ıtulo 1. Problemas de decisi´ on

Supuesto que L(θ, a1 ) = 2θ, L(θ, a2 ) = θ2 y L(θ, a3 ) = θ + 1, el proceso de aleatorizaci´ on a˜ nadir´ıa infinitas acciones adicionales con L(θ, α) = α1 2θ + α2 θ2 + α3 (θ + 1).

1.3.2.

Decisiones aleatorizadas con experimentaci´ on

Inicialmente la idea de aleatorizaci´ on en un problema de decisi´ on con experimentaci´ on es la misma. Como se dijo, aqu´ı el problema de decisi´ on es (D, Θ, R), donde D es la clase de todas las reglas de decisi´ on d : X 7→ A a las que (1.1) asocia un riesgo R(θ, d) finito. Para definir una regla de decisi´ on aleatorizada es necesario dotar a D de una σ-´ algebra, D, sobre la que definir medidas de probabilidad, δ, que indiquen la distribuci´ on con la que se sortea la regla de decisi´ on d ∈ D que se utilizar´ a. Dado que D es un espacio funcional –de funciones de X en A–, la elecci´ on de D puede ser m´ as delicada (5 ). Pero no ser´ a necesario entrar en detalles t´ecnicos sobre ello. Lo que s´ı es importante es asociar con cada regla de decisi´ on aleatorizada una funci´ on de riesgo: Z R(θ, e)δ(de) (1.3) R(θ, δ) = D

promedio de los riesgos R(θ, d) respecto a la distribuci´on δ con la que la regla de decisi´ on d es elegida. El conjunto de todas las reglas de decisi´ on aleatorizadas, δ, que tengan asociado un riesgo finito R(θ, δ), se representa por D ? . Igual que el caso sin experimentaci´ on, la aleatorizaci´ on amplia el problema de decisi´ on estad´ıstico ? (D, Θ, R), sustituy´endolo por (D , Θ, R). Ahora bien, hay un procedimiento alternativo de introducir la aleatorizaci´ on en un problema de decisi´ on con experimentaci´on. En lugar de sortear primero la regla de decisi´ on d que se utilizar´ a y observar, despu´es, el resultado x del experimento, para adoptar la acci´on d(x), puede hacerse al rev´es. Primero 5

Debe hacerse de tal manera que pertenezcan a D los conjuntos cil´ındricos {d ∈ D | d(x1 ) ∈ A1 , . . . , d(xn ) ∈ An } (x1 , . . . , xn ∈ X , A1 , . . . , An ∈ A).

As´ı podr´ a hablarse de la probabilidad con la que δ elige una regla de decisi´ on que asocia a cada una de las observaciones xi una acci´ on en Ai . Tambi´en debe conseguirse que los riesgos R(θ, ·) sean funciones medibles de (D, D) en (IR, IB); lo cual vuelve a ser posible si L(θ, ·) son funciones suficientemente regulares.

1.3. Decisiones aleatorizadas

19

se observa el resultado x del experimento y, despu´es, se emplea una acci´on aleatorizada γ(x) ∈ A? , que es funci´on del resultado obtenido x. Esto significa emplear lo que se denomina una regla de comportamiento, definida como una aplicaci´ on γ : X 7→ A? . Puede observarse que ello supone introducir la experimentaci´ on, en el problema ya aleatorizado (A? , Θ, L) del apartado anterior, de manera similar a como se hizo en la secci´ on 1.2.4. Repasando el procedimiento all´ı descrito, primero ser´ a necesario dotar a A? ? 6 de una σ-´ algebra, que se representar´ a por A ( ). Segundo, y m´ as importante, hay que definir el riesgo asociado a cada regla de comportamiento γ. En consonancia con (1.1), ser´ a Z L(θ, γ(x)) Pθ (dx) (1.4) R(θ, γ) = Eθ [L(θ, γ(X))] = X

donde L(θ, γ(x)) es la extensi´ on de la p´erdida introducida en (1.2). El conjunto de todas las reglas de comportamiento, γ, con riesgo finito, se representar´ a por Γ. As´ı, (Γ, Θ, R) es una nueva ampliaci´ on del problema de decisi´ on con experimentaci´on (D, Θ, L), diferente de la que supone (D ? , Θ, R). Existe un trabajo te´ orico importante, debido a Wald y Wolfowitz (1951), que establece que ambos problemas, (Γ, Θ, R) y (D ? , Θ, R), son equivalentes. En el sentido de que, para cada regla de decisi´ on aleatorizada δ, existe una regla de comportamiento γ con el mismo riesgo: R(θ, δ) = R(θ, γ). Y, rec´ıprocamente, para cada regla de comportamiento γ, hay una regla de decisi´ on aleatorizada δ que tiene el mismo riesgo. Las reglas de comportamiento son m´ as f´aciles de utilizar en la pr´ actica, pero las reglas de decisi´ on aleatorizadas simplifican muchos razonamientos. Ejemplo 1.10 En la situaci´ on del ejemplo 1.7, hab´ıa cuatro reglas de decisi´on: D = {d1 , d2 , d3 , d4 }, cada una de las cuales figura como una fila de la tabla

d1 d2 d3 d4 6

x=1

x=2

a=1 a=1 a=2 a=2

a=1 a=2 a=1 a=2

d1 d2 d3 d4

θ=1

θ=2

2 3/4 −7/4 −3

−3 9/4 −5/4 4

La forma est´ andar de hacerlo es tomar como A? la m´ınima σ-´ algebra que hace medibles las aplicaciones α 7→ α(A1 ) cualquiera que sea A1 ∈ A. Cabe suponer que las p´erdidas L(θ, α) son funciones medibles de α, respecto a A? .

20

Cap´ıtulo 1. Problemas de decisi´ on

La segunda tabla reproduce los riesgos que se calcularon para cada regla de decisi´on. En este caso, las reglas de decisi´on aleatorizadas δ quedan especificadas por las probabilidades δi con las que se sortea entre las cuatro filas. Es decir, 4 D? = {(δ1 , δ2 , δ3 , δ4 ) ∈ IR+ | δ1 + δ2 + δ3 + δ4 = 1}.

Y cada regla aleatorizada δ ∈ D? tiene funci´ on de riesgo:  7 3   2δ1 + δ2 − δ3 − 3δ4 si θ = 1, 4 4 R(θ, δ) =   −3δ1 + 9 δ2 − 5 δ3 + 4δ4 si θ = 2. 4 4

Ahora bien, supongamos que se emplea, por ejemplo, δ = (00 2, 00 1, 00 4, 00 3) ∈ D? . Consultando la primera tabla, se ve que, si se obtiene la observaci´ on x = 1, hay probabilidad 00 3 de tomar la acci´on a = 1 y probabilidad 00 7 de tomar la acci´on a = 2. En cambio, si la observaci´ on obtenida es x = 2, se toma a = 1 con probabilidad 00 6 y a = 2 con probabilidad 00 4. Ello especifica una regla de comportamiento. En efecto, como A consta de dos acciones, es A? = {(α, 1 − α) | α ∈ [0, 1]}. Y las reglas de comportamiento son aquellas que asocian a cada observaci´ on una acci´on aleatorizada de A? . Por ejemplo, γ[x = 1] 7→ (00 3, 00 7),

γ[x = 2] 7→ (00 6, 00 4),

es una regla de comportamiento: la obtenida a partir de δ = (00 2, 00 1, 00 4, 00 3). Por consiguiente, en este caso, Γ = {[α, α0 ] | α, α0 ∈ [0, 1]} donde α y α0 representan las probabilidades de tomar la acci´on a = 1, seg´ un que la observaci´ on sea x = 1 o x = 2 (mientras que 1 − α y 1 − α0 son las probabilidades de tomar la acci´on a = 2, seg´ un el resultado de la observaci´ on). La funci´ on de riesgo de la regla de comportamiento [α, α0 ] viene dada por  1 3   [2α − 3(1 − α)] + [−3α0 + 4(1 − α0 )] si θ = 1, 4 4 R(θ, [α, α0 ]) =   1 [2α − 3(1 − α)] + 3 [−3α0 + 4(1 − α0 )] si θ = 2, 4 4

ya que 2α − 3(1 − α) y −3α + 4(1 − α) son, seg´ un (1.2), las p´erdidas en las que se incurre con la acci´on aleatorizada (α, 1 − α). Y, a la vez, cuando θ = 1, se emplea (α, 1 − α) si el croupier dice la verdad (3/4) o bien (α0 , 1 − α0 ) si el croupier miente (1/4); mientras que, si θ = 2, es al rev´es. Es sencillo comprobar que R(θ, (00 2, 00 4, 00 1, 00 3)) = R(θ, [00 6, 00 3]). As´ı ocurre siempre: cada regla de decisi´on aleatorizada δ tiene asociada una regla de comportamiento γ, cuyas funciones de riesgo coinciden. Pero es f´acil comprender que la correspondencia no es biun´ıvoca; porque, siempre que δ1 + δ2 = α y δ1 + δ3 = α0 , se obtiene la misma regla de comportamiento [α, α0 ].

1.4. Utilidad y probabilidad subjetiva

21

Se aprecia en el ejemplo anterior, que la equivalencia entre las reglas de decisi´ on aleatorizadas y las reglas de comportamiento es sencilla cuando A y Θ son finitos. La dificultad del resultado de Wald-Wolfowitz proviene de que se establece la equivalencia en condiciones muy generales para A y Θ.

1.4.

Utilidad y probabilidad subjetiva

Para poder aplicar el esquema de la teor´ıa de la decisi´ on es necesario valorar cuantitativamente las consecuencias de cada posible decisi´ on ante cada estado de la naturaleza. En principio tales consecuencias ser´ an premios o penalizaciones cualitativas a las que hay que atribuir una valoraci´ on o utilidad, sobre la base de las preferencias que el decisor establezca entre ellas. Este es el objetivo de la Teor´ıa de la utilidad.

1.4.1.

Utilidad

Consideremos pues una serie Pi de premios o penalizaciones, posiblemente cualitativas, que forman un conjunto P. Si se est´ a pensando en el tipo de suscripci´ on de televisi´on que se contratar´ a, pueden ser cosas del tipo: “poder ver partidos de f´ utbol los domingos” o “tener que ver un reality show semanal” o cualquier otra cosa por el estilo. A los elementos de P se les quiere atribuir una valoraci´ on o utilidad cuantitativa: u(Pi ) ∈ IR. Para poder hacerlo de una manera coherente y esencialmente u ´nica, es necesario que el decisor manifieste sus preferencias, no s´ olo entre los elementos de P, sino tambi´en entre las distribuciones de probabilidad sobre P que atribuyen probabilidad uno a un n´ umero finito de elementos de P. Tales distribuciones de probabilidad suelen denominarse en este contexto “loter´ıas” y quedan especificadas en la forma   p1 p2 · · · pn p= P1 P2 · · · Pn donde p1 , . . . , pn son las probabilidades con P las que se consigue cada uno de los premios P1 , . . . , Pn , siendo pi ≥ 0 y ni=1 pi = 1. El conjunto de dichas loter´ıas ser´ a representado por P ? . Es cualesquiera p1 , . . . , pk ∈ P ? y λ1 , . . . , λk ≥ 0 con Pkinmediato que, para P k ? i=1 λi = 1, se verifica i=1 λi pi ∈ P , donde k X i=1

λi p i =

 Pk

i=1 λi pi,1

P1

Pk

i=1 λi pi,2

P2

··· ···

Pk

i=1 λi pi,n

Pn



22

Cap´ıtulo 1. Problemas de decisi´ on

supuesto, sin p´erdida de generalidad, que p1 , . . . , pk est´ an concentradas sobre los mismos premios P1 , . . . , Pn . Una relaci´ on de preferencia,  , en P ? es un preorden total en P ? , de modo que debe cumplirse Si p1  p2  p3 , es p1  p3 , p  p, para cualquier p ∈ P ? Si p1 , p2 ∈ P ? , es p1  p2 o bien p2  p1 o bien ambas simult´ aneamente. Cuando es a la vez p1  p2 y p2  p1 , se dice que p1 y p2 son equivalentes y se escribe p1 ∼ p2 . Naturalmente, es inmediato comprobar que ∼ es una relaci´ on de equivalencia, cuyas clases de equivalencia quedan totalmente ordenadas por la relaci´ on de preferencia. Tambi´en se escribe p1 ≺ p2 cuando p1  p2 y p1 6∼ p2 . Una utilidad sobre P ? es una aplicaci´ on u : P ? 7→ IR que verifica u

k X i=1

k  X λi u(pi ) λi p i =

(1.5)

i=1

P cualquiera que sean p1 , . . . , pk ∈ P ? y λ1 , . . . , λk ≥ 0 con ki=1 λi = 1. Para ello basta obviamente que se verifique  u λp1 + (1 − λ)p2 = λu(p1 ) + (1 − λ)u(p2 ). (1.6)

La idea que subyace en esta definici´on es simplemente que una utilidad u permite, en particular, dar una valoraci´ on u(Pi ) a cada premio Pi ∈ P (que puede considerarse como una loter´ıa degenerada que otorga probabilidad 1 a Pi ) y, por consiguiente, la valoraci´ on de cualquier loter´ıa p ∈ P ? es u(p) =

n X i=1

pi u(Pi )

supuesto que

p=



p1 p2 · · · P1 P2 · · ·

pn Pn



;

es decir, la utilidad de cualquier loter´ıa es el valor esperado de las utilidades atribuidas a los premios, respecto a las probabilidades que definen la loter´ıa. La utilidad u y la relaci´ on de preferencia  son semejantes en caso de que se verifique p1  p2 si y s´ olo si u(p1 ) ≤ u(p2 ). (1.7)

1.4. Utilidad y probabilidad subjetiva

23

Y, en este sentido, la utilidad refleja fielmente el orden de preferencia establecida en P ? : un decisor que act´ ue de acuerdo con el orden de preferencia , se comportar´ a exactamente como si intentase optimizar la utilidad esperada obtenida de la utilidad otorgada a los premios. La cuesti´ on es saber qu´e relaciones de preferencia en P ? tienen una utilidad a la que son semejantes. Y la respuesta ofrecida por Von Neumann y Morgenstern es que basta para ello que se verifiquen las dos condiciones siguientes: (A1 ) (Axioma de sustituci´on) Si p, p1 , p2 ∈ P ? y λ ∈ (0, 1] se cumple: p1  p2 si y s´ olo si λp1 + (1 − λ)p  λp2 + (1 − λ)p. (A2 ) (Axioma de continuidad) Si p1 ≺ p2 ≺ p3 ∈ P ? , existen λ, λ0 ∈ (0, 1) tales que λp3 + (1 − λ)p1 ≺ p2 ≺ λ0 p3 + (1 − λ0 )p1 . Son, ambas, condiciones razonables; si bien no es forzoso que un decisor tenga que aceptar que su orden de preferencia deba obligatoriamente someterse a ellas. Por ejemplo, si p1 representa la ruina de la empresa, p2 obtener una ganancia de 10 euros y p3 obtener una ganancia de 1000 euros, el decisor puede negarse a aceptar la existencia de λ0 ∈ (0, 1) tal que [10 euros] ≺ λ0 [1000 euros] + (1 − λ0 ) [ruina], incluso si se le informa que puede ser 1 − λ0 = 10−20 . En todo caso, la consecuencia de aceptar tales axiomas es el siguiente resultado. Teorema 1.1 (Von Neumann-Morgensten) Si una relaci´ on de prefe? rencia  en P verifica (A1 ) y (A2 ), existe una utilidad u en P ? semejante a . Dicha utilidad es u ´nica salvo transformaciones lineales. Es claro que si u es semejante a , lo mismo ocurre con cualquier u0 = cu+b, con c > 0 y b ∈ IR. La u ´ltima afirmaci´on asegura que no hay otras utilidades semejantes a . Demostraci´ on: Una serie de afirmaciones establecer´ an el resultado. (1) Si p1 ≺ p2 ∈ P ? y λ < λ0 ∈ [0, 1] es λp2 + (1 − λ)p1 ≺ λ0 p2 + (1 − λ0 )p1 .

24

Cap´ıtulo 1. Problemas de decisi´ on

En efecto, como λ0 − λ > 0, (A1 ) indica que  λ 1 − λ0 λp2 + (1 − λ)p1 = (λ − λ)p1 + (1 − λ + λ) p2 + p1 1 − λ0 + λ 1 − λ0 + λ   1 − λ0 λ 0 0 p2 + p1 ≺ (λ − λ)p2 + (1 − λ + λ) 1 − λ0 + λ 1 − λ0 + λ 0

0



= λ0 p2 + (1 − λ0 )p1 .

(2) Si p1  p  p2 y p1 ≺ p2 , existe un u ´nico λ? ∈ [0, 1] tal que λ? p2 + (1 − λ? )p1 ∼ p. Si fuese p ∼ p1 o p ∼ p2 bastar´ıa tomar λ = 0 o λ = 1. Por tanto, supondremos que p1 ≺ p ≺ p2 y sea  I = λ ∈ [0, 1] λp2 + (1 − λ)p1 ≺ p , de modo que 0 ∈ I y 1 6∈ I. Seg´ un (1), si λ ∈ I y λ0 < λ es λ0 ∈ I; luego ? I es un intervalo. Sea λ el extremo superior de I y veamos que λ? satisface la afirmaci´ on (2). Por un lado, p  λ? p2 + (1 − λ? )p1 , puesto que en caso contrario ser´ıa λ? p2 + (1 − λ? )p1 ≺ p ≺ p2 y (A2 )indicar´ıa que existe λ ∈ (0, 1) con λp2 + (1 − λ)[λ? p2 + (1 − λ? )p1 ] ≺ p o lo que es lo mismo (λ? + λ(1 − λ? ))p2 + (1 − λ)(1 − λ? )p1 ≺ p de manera que λ? + λ(1 − λ? ) ∈ I en contradicci´on con la definici´on de λ? , puesto que λ? + λ(1 − λ? ) > λ? . Por otro lado, de manera similar se obtiene λ? p2 +(1−λ? )p1  p. En consecuencia, resulta λ? p2 + (1 − λ? )p1 ∼ p. ˜ con λ? p2 + (1 − λ? )p1 ∼ λp ˜ 2 + (1 − λ)p ˜ 1 tendr´ıa que ser, Adem´as, si hubiese otro λ ? ? ? ˜ ˜ de acuerdo con (1), λ ≤ λ y λ ≤ λ; as´ı que λ es el u ´nico valor que cumple (2). En lo que sigue, si p1 ≺ p2 ∈ P ? , representaremos por  hp1 , p2 i = p ∈ P ? p1  p  p2 .

(3) Si p1 ≺ p2 ∈ P ? , hay una utilidad u definida para cualquier p ∈ hp1 , p2 i, que es semejante a  en hp1 , p2 i. Y, dicha utilidad es u ´nica salvo transformaciones lineales.

1.4. Utilidad y probabilidad subjetiva

25

Aplicando (2), definamos u(p) = λ? , donde λ? es el u ´nico n´ umero para el cual p ∼ λ? p2 + (1 − λ? )p1 . N´ otese que u(p1 ) = 0 y u(p2 ) = 1. Para ver que u y  son semejantes, consideremos p  p0 ∈ hp1 , p2 i, ser´a u(p)p2 + (1 − u(p))p1 ∼ p  p0 ∼ u(p0 )p2 + (1 − u(p0 ))p1 as´ı que, seg´ un (1), u(p) ≤ u(p0 ). Rec´ıprocamente, si u(p) ≤ u(p0 ), de (1) se deduce u(p)p2 + (1 − u(p))p1  u(p0 )p2 + (1 − u(p0 ))p1 y, por consiguiente, p  p0 . Veamos ahora que u es lineal. Para ello, sean p, p0 ∈ hp1 , p2 i y λ ∈ [0, 1], entonces

pero

  λp + (1 − λ)p0 ∼ u λp + (1 − λ)p0 p2 + 1 − u(λp + (1 − λ)p0 ) p1 ;

λp + (1 − λ)p0 = λ[u(p)p2 + (1 − u(p))p1 ] + (1 − λ)[u(p0 )p2 + (1 − u(p0 ))p1 ] = [λu(p) + (1 − λ)u(p0 )]p2 + [1 − λu(p) − (1 − λ)u(p0 )]p1 luego, la unicidad establecida en (2) asegura que  u λp + (1 − λ)p0 = λu(p) + (1 − λ)u(p0 ).

Por u ´ltimo, si u0 fuese otra utilidad semejante a , definida en hp1 , p2 i, tendr´ıa que ser lineal (por el mismo razonamiento empleado para u). Una transformaci´ on lineal, permitir´ıa ajustar u0 (p1 ) = 0 y u0 (p2 ) = 1 y, entonces,  u0 (p) = u0 u(p)p2 + (1 − u(p))p1 = u(p)u0 (p2 ) + (1 − u(p))u0 (p1 ) = u(p). (4) Para completar la demostraci´on, consideramos p1 ≺ p2 fijos y, de acuerdo con (3), determinamos la u ´nica utilidad u en hp1 , p2 i, semejante a  y que satisface u(p1 ) = 0 y u(p2 ) = 1. Es necesario extender u a todo P ? . Para lo cual, dada p ∈ P ? , elegimos p01 y p02 que verifiquen p01  p1  p2  p02

y

p01  p  p02 .

De acuerdo con (3), obtenemos la utilidad u0 en hp01 , p02 i, semejante a , ajust´ andola linealmente para que cumpla u0 (p1 ) = 0 y u0 (p2 ) = 1. La unicidad de (3) garantiza que u0 tiene que coincidir con u en hp1 , p2 i. Adem´as, u0 (p) no depende de la elecci´on 00 0 00 de p01 y p02 , pues al cambiar hp01 , p02 i por hp00 1 , p2 i, las utilidades u y u obtenidas en 00 cada caso deben coincidir en hp01 , p02 i ∩ hp00 1 , p2 i. En resumen, u puede extenderse ? cualquier p ∈ P de manera u ´nica mientras se mantenga la condici´on u(p1 ) = 0 y u(p2 ) = 1.

26

Cap´ıtulo 1. Problemas de decisi´ on

1.4.2.

Probabilidad subjetiva

El teorema 1.1 ense˜ na a traducir una relaci´ on de preferencia establecida entre los elementos de P ? , por medio de una utilidad u que atribuye un valor a cada consecuencia en P, de tal manera que cada loter´ıa de P ? queda valorada por su utilidad esperada. Sin embargo, en ambiente de incertidumbre, los problemas de decisi´ on comportan elegir entre perspectivas inciertas que tienen asociado a cada uno de los estados de la naturaleza un elemento de P ? (que, en particular, podr´ıa ser alguno de los premios o penalizaciones que pertenecen a P). Supondremos por simplicidad que Θ es finito y que θ1 , θ2 , . . . , θm son los distintos estados de la naturaleza. Una perspectiva incierta g asocia a cada estado θi una loter´ıa pi ∈ P ? , de manera que se puede representar en la forma g = [p1 , p2 , . . . , pm ]. El conjunto de tales perspectivas inciertas ser´ a representado por I, mientras que I? representar´ a el conjunto de loter´ıas cuyos premios son perspectivas inciertas; es decir los elementos de I? son de la forma 

p1 p2 · · · g1 g2 · · ·

pn gn



con g1 , g2 , . . . , gn ∈ I.

De acuerdo con el teorema 1.1, para atribuir una utilidad a los premios de P y, tambi´en, a las perspectivas inciertas de I, el decisor, adem´ as de ? especificar su orden de preferencia  en P , debe ser capaz de especificar ?

un orden de preferencia  en I? , cumpliendo ambos las condiciones (A1 ) y (A2 ). La relaci´ on entre ambos ´ordenes de preferencia queda establecida por las siguientes hip´ otesis razonables: (B1 ) Si pi  p0i se verifica ?

[p1 , . . . , pi , . . . , pm ]  [p1 , . . . , p0i , . . . , pm ]. De ello se deduce que, en caso de ser pi  p0i para todo i, se tiene ?

[p1 , . . . , pi , . . . , pm ]  [p01 , . . . , p0i , . . . , p0m ]. ?

(B2 ) Si p ≺ p0 es [p, . . . , p, . . . , p]  [p0 , . . . , p0 , . . . , p0 ].

1.4. Utilidad y probabilidad subjetiva

27

(B3 ) Cualesquiera que sean las probabilidades qi (i = 1, . . . , k) y las perspectivas inciertas g1 = [p11 , . . . , p1m ], . . . , gk = [pk1 , . . . , pkm ] ∈ I, se verifica   q1 q2 · · · qk ? ∼ [g1 ? , g2 ? , · · · , gm ? ] (1.8) g1 g2 · · · g k donde

?

gj =



q1 q2 · · · p1j p2j · · ·

qk pkj



.

(Obs´ervese que en (1.8) el miembro izquierdo es un elemento de I? , mientras el miembro derecho es una perspectiva incierta de I, compuesta por loter´ıas gj ? ∈ P ? pues, conocida la forma de todas las loter´ıas pij , las reglas del c´alculo de probabilidades permiten reducir cada gj ? a una loter´ıa de P ? .) Las condiciones (B1 ) y (B2 ) son relaciones directas entre los ´ordenes de pre?

ferencia  y . En cuanto a (B3 ) expresa que sortear entre perspectivas inciertas –que asignan una loter´ıa a cada estado de la naturaleza– es indiferente con asignar a cada estado de la naturaleza una loter´ıa que sortea –con las mismas probabilidades– la loter´ıa en la que se participar´a. Es decir, da igual sortear y que la naturaleza escoja su estado, o bien que la naturaleza elija primero su estado y sortear despu´es. Tales condiciones permiten establecer el resultado siguiente: ?

Teorema 1.2 (Aumann - Ascombe) Sean  y  relaciones de preferencia en P ? y I? respectivamente, que cumplen ambas las hip´ otesis (A1 ) y ?

(A2 ), y sean u y u? las utilidades en P ? y en I? , semejantes a  y  respectivamente. Si se verifican las condiciones (B1 ), (B2 ) y (B3 ), entonces existen probabilidades π1 , . . . , πm sobre los estados de la naturaleza tales que u? ([p1 , . . . , pm ]) = π1 u(p1 ) + · · · + πm u(pm )

(1.9)

cualquiera que sea [p1 , . . . , pm ] ∈ I. Seg´ un este resultado, un decisor que manifieste relaciones de preferencia en P ? y I? , que cumplan las hip´ otesis descritas, se comporta exactamente como si atribuyese unas determinadas probabilidades πi a los distintos estados de la naturaleza y valorase cada perspectiva incierta mediante la utilidad esperada, respecto a tales πi , de las loter´ıas que componen dicha perspectiva (las cuales son a su vez la utilidad esperada de los premios especificados en la loter´ıa, ponderadas por las probabilidades que figuran en ella). En este

28

Cap´ıtulo 1. Problemas de decisi´ on

sentido, se denomina a la distribuci´on de probabilidad π sobre los estados de la naturaleza la probabilidad subjetiva que est´ a inconscientemente subyacente en el orden de preferencia entre perspectivas inciertas manifestado por el decisor. Demostraci´ on: Si todas las loter´ıas de P ? fuesen equivalentes en el orden de preferencia , lo ser´ıan tambi´en todas las perspectivas inciertas de I? , en virtud de (B1 ); luego u y u? ser´ıan constantes y π podr´ıa ser arbitraria. Supondremos, por tanto, que existen a ≺ b ∈ P ? , lo cual implica, seg´ un (B2 ), ?

que [a, . . . , a] ≺ [b, . . . , b]. La utilidad u puede elegirse de forma que u(a) = 0 y u(b) = 1 y, a su vez, u? puede elegirse tal que u? ([a, . . . , a]) = 0 y u? ([b, . . . , b]) = 1. De acuerdo con (B1 ), cuando sea pi ∼ p0i ∀i = 1, . . . , m, o lo que es lo mismo ? u(pi ) = u(p0i ) ∀i = 1, . . . , m, ser´a [p1 , . . . , pm ] ∼ [p01 , . . . , p0m ]. Ello significa que ? u ([p1 , . . . , pm ]) no depende de las loter´ıas pi m´as que a trav´es de su utilidad u(pi ); de modo que puede representarse por u? ([u1 , . . . , um ]) la utilidad de cualquier perspectiva incierta cuyas componentes tengan utilidades ui = u(pi ). En particular, u? ([0, . . . , 0]) = 0 y u? ([1, . . . , 1]) = 1. Entonces: (1) u? ([hu1 , . . . , hum ]) = h u? ([u1 , . . . , um ]) siempre que sean u1 , . . . , um ∈ [0, 1] y h > 0 tal que hu1 , . . . , hum ∈ [0, 1]. En efecto, si es h ≤ 1, seg´ un (B3 ), se tiene ?

[hu1 , . . . , hum ] = [hu1 +(1−h)0, . . . , hum +(1−h)0] ∼



h 1−h [ u1 , . . . , um ] [0, . . . , 0]



de modo que u? ([hu1 , . . . , hum ])]) = h u? ([u1 , . . . , um ])+(1−h)u? ([0, . . . , 0]) = h u? ([u1 , . . . , um ]). En caso de ser h > 1, tambi´en se cumple (1) puesto que u? ([u1 , . . . , um ]) = u? ([hu1 /h, . . . , hum /h]) =

1 ? u ([hu1 , . . . , hum ]). h

Definamos π1 = u? ([1, 0, . . . , 0]), π2 = u? ([0, 1, 0, . . . , 0]),. . . , πm = u? ([0, . . . , 0, 1]). ?

Obs´ervese que [0, . . . , 0]  [0, . . . , 1, . . . , 0] y, por tanto, πi ≥ 0. Adem´as se verifica P (2) u? ([u1 , . . . , um ]) = m i=1 πi ui siempre que sea u1 , . . . um ∈ [0, 1].

De hecho, (2) es inmediato un Pm cuando u1 = · · · = um = 0. En caso de que haya alg´ ui > 0, si se llama s = i=1 ui , utilizando (B3 ), se obtiene u? ([u1 , . . . , um ]) = u? ([su1 /s, . . . , sum /s]) = s ug ([u1 /s, . . . , um /s])   u1 /s ... um /s ? = su [ 1, 0, . . . , 0 ] . . . [0, . . . , 0, 1] m  X ui πi . = s u1 /s π1 + · · · + um /s πm = i=1

1.4. Utilidad y probabilidad subjetiva Como consecuencia, 1 = u? ([1, . . . , 1]) = ci´on de probabilidad.

29

Pm

i=1

πi ; luego π1 , . . . , πm es una distribu-

El teorema queda por tanto establecido en el supuesto de que p1 , . . . , pm ∈ ha, bi. Si no es as´ı, tomemos a0  b0 de manera que a, b, p1 , . . . , pm ∈ ha0 , b0 i. Consideremos ?

las utilidades uˆ en P ? y u ˆ? en I? , semejantes a  y  respectivamente, y sujetas 0 a las condiciones u ˆ(a ) = 0, uˆ(b0 ) = 1 y uˆ? ([a0 , . . . , a0 ]) = 0, u ˆ? ([b0 , . . . , b0 ]) = 1. Seg´ un el teorema 1.1 ser´a u ˆ(p) = c u(p) + b

y

u ˆ? ([p1 , . . . , pm ]) = c? u? ([p1 , . . . , pm ]) + b? ;

con lo cual u ˆ? ([a, . . . , a]) = b?

y

u ˆ? ([b, . . . , b]) = c? + b? .

Adem´as, uˆ? y u ˆ se relacionan como u? y u; es decir, u ˆ? [p1 , . . . , pm ]) =

m X

π ˆi u ˆ(pi )

donde

π ˆi = u ˆ? ([0, . . . , 1, . . . , 0]);

(1.10)

i=1

de modo que u ˆ? ([a, . . . , a]) = uˆ(a) = b

y

u ˆ? ([b, . . . , b]) = u ˆ(b) = c + b.

Por consiguiente, b? = b y c? = c y (1.10) se transforma en c u? ([p1 , . . . , pm ]) + b =

m X

π ˆi (c u(pi ) + b) = c

?

u ([p1 , . . . , pm ]) =

π ˆi u(pi ) + b

i=1

i=1

o bien

m X

m X

π ˆi u(pi ).

i=1

Aplicado a las perspectivas [a, . . . , b, . . . , a], ello establece que π ˆi = πi para cualquier i = 1, . . . , m. En resumen, para cualquier [p1 , . . . , pm ] se cumple (1.9), con las mismas πi , independientemente de la elecci´on de ha0 , b0 i.

1.4.3.

Utilidad monetaria

Pensar en el caso en que los premios o penalizaciones de P son directamente ganancias o p´erdidas expresadas en alguna unidad monetaria, arroja alguna luz sobre las consideraciones anteriores y tiene, adem´ as, un considerable inter´es pr´ actico. Por tanto, consideraremos aqu´ı que P est´ a compuesto por premios de la forma P (x) que consisten en recibir x euros, donde x puede ser positivo o negativo y nos referiremos directamente por u(x) a la utilidad que pueda adjudicarse a P (x).

30

Cap´ıtulo 1. Problemas de decisi´ on

De forma ingenua puede pensarse que lo m´ as natural es tomar u(x) = x; pero algunas consideraciones pueden mostrar que no es forzosamente as´ı. Desde luego, en este caso, cualquier persona en su sano juicio tendr´a que convenir en que prefiere ganar x + 25 a ganar solamente x. Pero tambi´en es usual que la intensidad de la preferencia entre ambos premios no sea la misma si x = 10, x = 1000 o x = 108 . En este u ´ltimo caso, muchas personas estar´ an dispuestas a considerar indiferentes la posibilidad de ganar 108 euros 8 o 10 + 25 euros; lo cual significa que, para ellas, puede ser u(108 + 25) = u(108 ). Por tanto, ya no es u(x) = x. Por otra parte, ser´ıa dif´ıcil que un decisor pudiese medir la intensidad de su preferencias con afirmaciones del tipo 1000 00 7 1000 + 25, pero 108 00 0002 108 + 25, en las que se supone que el sub´ındice indica la intensidad (entre 0 y 1) de cada preferencia. El teorema de von Neumann–Morgensten ofrece una soluci´ on m´ as razonable para traducir a utilidad las preferencias del individuo, requiri´endole que precise su preferencia entre loter´ıas del tipo    0  0 ? 07 00 3 02 00 8 .  1000 25000 100 10000 Supuesto que es capaz de hacerlo, respetando las condiciones (A1 ) y (A2 ), el teorema de von Neumann–Morgensten garantiza que se podr´ a detectar la utilidad u(x) que concede a cada cantidad x. Un ejemplo sencillo puede mostrar que el procedimiento no es forzosamente complicado. Ejemplo 1.11 Una rifa ofrece a los participantes la posibilidad de ganar premios de 0, 1000, 10 000 y 25 000 euros. Una persona manifiesta que para ella: (a) Obtener 1000 de premio es indiferente a obtener 25 000 con probabilidad 00 1 o bien 0 con probabilidad 00 9. (b) Obtener 10 000 de premio es indiferente a obtener 25 000 con probabilidad 00 4 o bien 0 con probabilidad 00 6. Un boleto A ofrece probabilidades (00 8, 00 1, 00 08, 00 02) de ganar cada premio y hay otro boleto B con ´el que las probabilidades son (00 6, 00 3, 00 07, 00 03). ¿Cu´anto debe estar dispuesto a pagar por cada uno de ellos? Seg´ un las afirmaciones del jugador, para ´el es  0   0 09 00 1 04 ∼ 1000 y 0 25 000 0

00 6 25 000



Asignando utilidad u(0) = 0 y u(25 000) = 1, resulta que u(1000) = 00 9u(0) + 00 1u(25 000) = 00 1, u(10 000) = 00 4u(0) + 00 6u(25 000) = 00 6.

∼ 10 000.

1.4. Utilidad y probabilidad subjetiva

31

La figura 1.3 representa las utilidades de lo premios, interpoladas mediante una curva.



1 0

0 75



00 5 00 25 0

• 0 1

10

25

(×1000)

Figura 1.3: Utilidad La utilidad de los dos tipos de boletos son: u(A) = 00 8 u(0) + 00 1 u(1000) + 00 08 u(10 000) + 00 02 u(25 000) = 00 078, u(B) = 00 6 u(0) + 00 3 u(1000) + 00 07 u(10 000) + 00 03 u(25 000) = 00 102, lo cual, seg´ un la curva interpolada, corresponde aproximadamente a pagar 800 euros por el boleto A y 1050 euros por el boleto B. Obs´ervese que, hasta este u ´ ltimo paso, las cuant´ıas de los premios no influyen en nada y sus utilidades ser´ıan las mismas si la rifa otorgase tres viajes (por ejemplo a Cuenca, Par´ıs y Nueva York), siempre que el jugador mantenga las relaciones de indiferencia manifestadas. Obs´ervese tambi´en que la ganancia esperada es de 1400 euros con el boleto A y de 1750 euros con el boleto B; esto es lo que tendr´ıa que pagar por ellos, si su funci´ on de utilidad fuese u(x) = x. Pero, las equivalencias manifestadas muestran que su utilidad dista mucho de ser as´ı.

El procedimiento utilizado en el ejemplo anterior es bastante general. Imaginemos que a < b son dos cantidades monetarias y que, para cada x ∈ (a, b), el decisor puede precisar qu´e loter´ıa entre los premios a y b le resulta indiferente a x; es decir, cu´ al es el valor de p para el que se verifica   1−p p ∼ x. a b En tal caso, fijando u(a) = 0 y u(b) = 1, debe ser (1 − p) u(a) + p u(b) = u(x)

es decir

u(x) = p.

Despu´es, para x > b, si puede indicar el valor p¯ para el cual   1 − p¯ p¯ b∼ a x

32

Cap´ıtulo 1. Problemas de decisi´ on

tendr´a que ser 1 = u(b) = (1 − p¯)u(a) + p¯u(x)

o bien

u(x) = 1/¯ p.

Y, an´ alogamente, si proporciona para x < a el valor p˜ con el cual   1 − p˜ p˜ a∼ x b resultar´a 0 = u(a) = (1 − p˜)u(x) + p˜u(b)

o sea

u(x) = −˜ p/(1 − p˜).

Se dispone as´ı –al menos en teor´ıa– de un procedimiento para determinar la curva de utilidad monetaria u(x) de cualquier persona. Y ¿c´omo deber´ıa ser el resultado para una persona sensata? Sin duda, u(x) deber´ıa tener las siguientes caracter´ısticas: (a) creciente o al menos no decreciente; pues no es coherente pensar que pueda ser u(x + h) < u(x) si es h > 0. (b) continua; pues no es cre´ıble que un aumento infinitesimal de x pueda suponer un aumento no infinitesimal de la utilidad. (c) con un peque˜ no n´ umero de intervalos de concavidad y convexidad. Recu´erdese que u es c´oncava en el intervalo I si  u p a + (1 − p) b ≥ p u(a) + (1 − p) u(b) ∀a, b ∈ I, ∀p ∈ (0, 1);

lo cual se califica a menudo de aversi´ on al riesgo puesto que supone que la cantidad fija p a + (1 − p) b se prefiere a la loter´ıa   p 1−p . a b Afici´on al riesgo ser´ıa entonces la condici´ on contraria:  u p a + (1 − p) u(b) ≤ p u(a) + (1 − p) u(b) ∀a, b ∈ I, ∀p ∈ (0, 1)

que expresa la convexidad de la funci´on de utilidad en el intervalo I. Ahora bien, como se sabe, en el caso de funciones diferenciables, la concavidad en I se traduce mediante la condici´ on du/dx es decreciente en I o bien d2 u/dx2 ≤ 0 en I si u es dos veces diferenciable.

1.4. Utilidad y probabilidad subjetiva

33

Cuando es x ∈ (0, ∞), la concavidad parece requisito natural para una utilidad: u(x + 1) − u(x), incremento pr´ oximo a la derivada du/dx, debe ser m´ as peque˜ no cuanto mayor sea x. O, ¿no es una sensaci´on casi universal que un euro adicional a 10000, tiene menos importancia que un euro adicional a 100? Es lo que los economistas denominan el decrecimiento de la utilidad marginal. Hay un matiz importante. Afici´on al riesgo muestran todos los que invierten un euro en jugar a la “bonoloto” o la loter´ıa de Navidad, mostrando que, para ε peque˜ no: 1≺



 1−ε ε . 0 1/ε

La explicaci´on de la aparente contradicci´ on es que, hasta cierta cantidad relativamente peque˜ na –que depende de la fortuna inicial del individuo– la funci´ on de utilidad puede ser convexa, porque no le importa pagar 5 euros por tener una remota posibilidad de ganar 10000. En este sentido, la concavidad de u es una propiedad a gran escala, relativa a valores de x grandes y positivos. En cambio, para x < 0, la insatisfacci´ on, el disgusto –o la utilidad negativa– que produce una p´erdida adicional de 1 euro parece menor cuando ya se han perdido 1000 que cuando s´ olo se han perdido 10. Lo cual indica la convexidad de la utilidad en intervalos alejados a la izquierda del origen. En definitiva, lo m´ as t´ıpico es pensar en funciones de utilidad que sean convexas hasta cierto valor x0 y c´oncavas en (x0 , ∞). Quiz´ as alguna consideraci´on especial –obtener la cantidad necesaria para comprar un bien muy preciado, por ejemplo– pueda introducir alg´ un intervalo de convexidad adicional; pero los intervalos en que la utilidad sea c´oncava o convexa ser´ an normalmente muy pocos y muy amplios. Prototipos de funciones de utilidad que se usan con frecuencia son u(x) =



(x − x0 )α −(x0 − x)β

para x > x0 para x < x0

con α, β ∈ (0, 1]; en tanto que x0 es la cantidad que se elige con utilidad nula, que puede fijarse arbitrariamente puesto que cambios lineales, del tipo cu(x) + b, producen utilidades semejantes a u(x).

34

Cap´ıtulo 1. Problemas de decisi´ on

En la pr´ actica, para aproximar en el intervalo (a, b) la funci´on de utilidad de una persona, con s´ olo un n´ umero finito de preguntas, se le suele requerir que exprese las cantidades x1 , x2 , x3 , . . . tales que       1/2 1/2 1/2 1/2 1/2 1/2 ∼ x1 , ∼ x2 , ∼ x3 , etc. a b a x1 x1 b As´ı, supuesto que u(a) = 0 y u(b) = 1, utilizando u ´nicamente loter´ıas de probabilidades 1/2 –m´ as f´aciles de percibir por los profanos– se obtienen los valores con u(x1 ) = 1/2, u(x2 ) = 1/4, u(x3 ) = 3/4, . . . Un n´ umero reducido de tales valores permite interpolar la curva de utilidad que pasa por (x1 , 1/2), (x2 , 1/4), (x3 , 3/4), . . . La conclusi´on b´ asica de estas consideraciones es que, si la funci´on de p´erdida de un problema de decisi´ on viene expresada en utilidades o en cantidades de dinero que pueden transformarse en utilidades porque se ha estimado la funci´ on de utilidad monetaria del decisor, la elecci´on de la mejor acci´on en ambiente de riesgo puede limitarse al criterio de la menor p´erdida esperada, introducido en la secci´ on 1.2.2.

Ejercicios 1.1 Para ir de su casa a su trabajo, una persona tiene dos alternativas: ir por el centro de la ciudad o ir por la v´ıa de circunvalaci´ on. Por el centro de la ciudad el tr´ afico puede ser denso o fluido; en el primer caso tarda 35 minutos y, en el segundo caso, 15 minutos. En cambio, por la v´ıa de circunvalaci´ on el tr´afico es siempre uniforme y el trayecto dura 25 minutos. a) Formular el problema de decisi´on con el que debe elegir su trayecto. b) Si cierto d´ıa escucha que hay riesgo π de que el tr´afico sea denso, ¿para qu´e valores de π debe escoger uno u otro trayecto? c) Si cierto d´ıa tiene una cita, a la que debe llegar ineludiblemente, ¿cu´ al es su mejor alternativa? d) Si utiliza la acci´on aleatorizada que escoge, con probabilidades (α, 1 − α), el trayecto por el centro de la ciudad o por la circunvalaci´ on respectivamente, ¿cu´ al es la funci´ on de p´erdida asociada? 1.2 Un concursante debe elegir una tarjeta de una urna que contiene m´ ultiples tarjetas, en cada una de las cuales hay escrito un premio de 5, 10 o 15 mil euros. Despu´es puede quedarse con el premio obtenido o devolver la tarjeta y extraer otra que constituir´ a su premio definitivo.

Ejercicios

35

a) Enumerar el conjunto de decisiones que puede adoptar, el conjunto de estados de la naturaleza y explicitar la ganancia en cada caso. b) Estudiar las relaciones de dominancia entre las decisiones, para localizar las decisiones no dominadas. c) Si estima que las proporciones de cada tipo de tarjeta son p, q y r (p+ q + r = 1), hallar la acci´on que le produce mayor beneficio esperado, seg´ un los valores de p, q y r. 1.3 De una urna que contiene bolas numeradas con uno de los n´ umeros 1 y 2, un concursante puede realizar extracciones con reemplazamiento mientras la suma de las puntuaciones obtenidas sea inferior a 4. Si se pasa de 4 lo pierde todo y, en caso contrario, su ganancia es el cuadrado de la suma de las puntuaciones obtenidas. a) Estudiar el conjunto de acciones que puede emplear el concursante y enumerar aquellas que no est´en dominadas. b) Especificar el conjunto de estados de la naturaleza y la ganancia obtenida, en funci´ on del estado y de la acci´on empleada. c) Si p y q = 1 − p son las proporciones de bolas en la urna con el n´ umero 1 y 2 respectivamente, analizar cu´al es la acci´on que proporciona mayor ganancia esperada seg´ un el valor de p. 1.4 Dos personas A y B disponen inicialmente de la misma fortuna x0 euros y atribuyen utilidad  (x − x0 )α si x > x0 u(x) = −(x0 − x)α si x < x0

a cada cantidad x que pudiesen tener, siendo 0 < α ≤ 1. A A le regalan una participaci´on de loter´ıa con la que se puede ganar r euros con probabilidad p ∈ (0, 1) o nada con probabilidad 1 − p. Probar que existen cantidades c > 0, en euros, por la que A puede venderle a B la participaci´on, siendo la transacci´on beneficiosa para ambos. 1.5 Una persona con capital inicial x recibe la oferta de invertir en un negocio que puede reportar una cantidad r con probabilidad 1/2 o fracasar y no reportar nada. Si su utilidad monetaria es u(x) = log x (x > 0), hallar la cantidad m´axima c que debe estar dispuesto a invertir. 1.6 Un empresario con un capital actual de 50 mil euros, cuya funci´ on de utilidad es  log x si x > 0 u(x) = −∞ si x ≤ 0,

tiene la posibilidad de emprender un negocio que, si tiene ´exito, incrementar´ a su capital actual en 120 mil euros, mientras que, si fracasa, perder´ a 30 mil euros. Sean p y 1 − p las probabilidades de ´exito y de fracaso. a) ¿Para qu´e valores de p decidir´a emprender el negocio?

36

Cap´ıtulo 1. Problemas de decisi´ on

b) ¿Para qu´e valores de p decidir´ıa renunciar al negocio por grande que fuese su capital actual? 1.7 Un grupo financiero dispone de un capital actual de c millones de euros y posee un negocio que proporcionar´a una ganancia aleatoria de X millones de euros, cuya funci´ on de densidad es f (x) = e−x para x > 0. Determinar la cantidad v por la que se podr´ıa vender el negocio, si el consejo de administraci´on ha acordado atribuir a disponer de x millones de euros una utilidad: a) u(x) = 1 − e−x ; √ b) u(x) = 1 − 1/ x. 1.8 Una persona con funci´ on de utilidad monetaria en euros u(x) = 103 −

106 x

para x > 0,

tiene una oferta de realizar una reparaci´on por la que le pagan 2000 euros. Pero, s´olo est´ a dispuesto a realizar el trabajo si su utilidad aumenta en m´as de 100. Razonar si aceptar´a el trabajo supuesto que su capital actual es de a) 5000 euros. b) 3500 euros. c) Con qu´e capital actual rechazar´ıa el trabajo sea cual sea la cantidad que le ofrezcan por realizarlo. d) Supongamos que la retribuci´on por realizar la reparaci´on es de 3000 euros si tiene ´exito y de 1000 euros si fracasa. Con un capital actual de 4000 euros, c´ omo debe ser la probabilidad p de ´exito para que acepte intentarlo. 1.9 Una persona, con funci´ on de utilidad u(x) = xα para x > 0 con α > 0 tiene un capital x0 y puede jugar a una loter´ıa con un u ´nico premio, que se sortea entre 105 n´ umeros y con el que se gana 6000 euros por euro jugado. a) Hallar la cantidad c que le conviene jugar (a un s´olo n´ umero) en funci´ on de x0 y α. b) Supuesto que decide jugar, calcular la cantidad K que habr´ıa que ofrecerle para que no jugase. c) Se le ocurre repartir la apuesta en partes iguales entre dos n´ umeros distintos, para tener doble probabilidad de ganar (la mitad). ¿Le conviene esta estrategia?

Cap´ıtulo 2

Decisi´ on en ambiente de riesgo e incertidumbre 2.1.

Introducci´ on

Para los problemas de decisi´on en ambiente de riesgo e incertidumbre, descritos en las secciones 1.2.2 y 1.2.3 respectivamente, no puede hablarse de una “mejor” acci´on en sentido absoluto, salvo en el caso excepcional en que alguna de ellas domine a todas las dem´ as. Por consiguiente diversos criterios han sido propuestos en uno y otro caso, para dar un sentido preciso de lo que se considera la “mejor” acci´on. En este cap´ıtulo los criterios se formulan s´olo para las acciones no aleatorizadas de A aunque todos ellos pueden emplearse para acciones aleatorizadas de A? , teniendo en cuenta que la p´erdida L(θ, α) de una acci´on α ∈ A? ha sido definida en (1.2). El cap´ıtulo siguiente examinar´ a el uso de los criterios m´as importantes, en el contexto de las acciones aleatorizadas.

2.2.

Criterios de decisi´ on en ambiente de riesgo

Como ya se indic´ o en la secci´ on 1.2.2, en presencia de una distribuci´ on de probabilidad fija π sobre los estados de la naturaleza, el problema de elegir una acci´on se reduce a asignar a cada una de las variables aleatorias L(a), asociadas con cada una de las acciones a ∈ A, una valoraci´ on num´erica C(a) ∈ IR que las ordene; de manera a considerar: a es mejor que a0 si y s´olo si 0

C(a) < C(a0 ). 0

(2.1)

mientras que a y a son indiferentes cuando C(a) = C(a ). L´ ogicamente todo criterio C(a) tendr´a que estar basado en la distribuci´ on Fa (x) de la variable aleatoria L(a) o en sus caracter´ısticas. Conviene no olvidar que la definici´on (2.1) obedece al car´ acter de p´erdidas que se est´ a atribuyendo a la funci´ on L(θ, a). En aquellas situaciones en las que el problema

37

38

Cap´ıtulo 2. Decisi´on en ambiente de riesgo e incertidumbre

de decisi´on especifique una funci´ on de ganancia, todos los criterios funcionan al rev´es: a es mejor que a0 cuando C(a) > C(a0 ). As´ı pues, cualquier criterio C(a) lleva a considerar como acciones ´optimas, a? , aquellas en las que se alcance m´ın C(a) a∈A

o bien

m´ax C(a) a∈A

seg´ un que L(θ, a) exprese p´erdidas o ganancias.

2.2.1.

Criterio del valor esperado: C(a) = E[L(a)] =

Z

L(θ, a)π(dθ).

IR

Este criterio, ya considerado en la secci´ on 1.2.2, tiene la ventaja de su operatividad y es el m´as utilizado en la pr´actica, sobre todo a medida que los problemas son m´as complejos. Est´ a plenamente justificado cuando las p´erdidas se expresan en t´erminos de utilidades y respeta obviamente el principio de dominancia: si a domina estad´ısticamente a a0 , en el sentido de ser Fa (x) ≤ Fa0 (x) ∀x ∈ IR, entonces E[L(a)] ≤ E[L(a0 )]. Tiene el inconveniente de inclinar la balanza a favor de la distribuci´ on de media m´as baja, olvidando que la dispersi´ on de la distribuci´ on puede hacer que el valor de L(a) sea muy alejado de su media. De hecho, en virtud de la ley fuerte de los grandes n´ umeros, la esperanza E[L(a)] representa el promedio de los resultados de un gran n´ umero observaciones de la variable aleatoria L(a), cada una de las cuales puede ser muy diferente de su media si la dispersi´ on es importante. En este sentido, no es lo mismo un problema de decisi´on que haya de resolverse a diario que uno que se plantee una u ´nica vez; en el primer caso el uso del criterio del valor esperado est´ a mucho m´as justificado que en el segundo.

2.2.2.

Criterio Media-Dispersi´ on: C(a) = E[L(a)] + λ σ(L(a)).

Un intento de corregir los defectos apuntados del criterio del valor esperado, es introducir esta familia de criterios dependientes de un par´ ametro λ, generalmente positivo. La idea es penalizar una p´erdida esperada baja E[L(a)], a˜ nadi´endole un m´ ultiplo de la desviaci´ on t´ıpica; de tal forma que pueda preferirse una acci´on de p´erdida media superior a otra, cuando la primera est´e m´as concentrada en los alrededores de su media que la segunda. En el caso de que L(a) exprese ganancias, debe tomarse contrariamente λ < 0, para disminuir las ganancias esperadas altas proporcionalmente a la variabilidad que indique σ(L(a)). O, dicho de otra manera, beneficiar a las acciones con σ(L(a)) peque˜ no, en raz´ on de la seguridad con que proporcionan sus resultados, frente a otras de mayor media pero m´as inseguras. La elecci´on del valor de λ permite ajustar la importancia que se otorga a la correcci´ on de la media. Una idea de lo que suponen los distintos valores de λ consiste en

2.2. Criterios de decisi´ on en ambiente de riesgo

39

observar que la probabilidad de obtener valores de la p´erdida L(a) inferiores a la valoraci´ on C(a), otorgada a la acci´on a, es P{L(a) ≤ C(a)} = P



 L(a) − µ(a) ≤ λ ' φ(λ) σ(a)

si se supone que todas las distribuciones Fa son pr´oximas a la normal N (µ(a), σ(a)); con lo cual [L(a) − µ(a)]/σ(a) tiene siempre aproximadamente la funci´ on de distribuci´ on φ de la N (0, 1). En ese caso, puede fijarse una probabilidad alta, p, de que L(a) no supere a C(a) y obtener λ en funci´ on de p: λ = φ−1 (p); tal y como aparece en la tabla adjunta.

p

λ

0

0

08 00 9 00 95 00 99

0 85 10 28 10 65 20 33

Ejemplos sencillos, como el que aparece a continuaci´on, muestran que el criterio media-dispersi´ on no respeta el principio de dominancia; es decir que puede haber acciones dominadas con mejor valor del criterio. Por consiguiente, lo procedente es eliminar primero las acciones dominadas y aplicar despu´es el criterio entre las acciones restantes. Ejemplo 2.1 Un problema de decisi´on cuenta con dos estados de la naturaleza, θ1 y θ2 , cuyas probabilidades son 2/3 y 1/3 respectivamente. Debe elegirse entre tres acciones, siendo las ganancias asociadas:

a1 a2 a3

θ1

θ2

6 5 16

15 6 2

Las ganancias esperadas y sus desviaciones t´ıpicas resultan: µ1 = 9, µ2 = 50 333, µ3 = 110 333,

σ1 = 40 243; σ2 = 00 471; σ3 = 60 6.

De forma que, con λ = −1, los valores obtenidos para el criterio media-dispersi´ on son C(a1 ) = 40 757,

C(a2 ) = 40 862,

C(a3 ) = 40 734.

A pesar de que a2 proporciona el mejor valor del criterio, est´ a obviamente dominada por a1 . Eliminada a2 , la elecci´on acorde con el criterio debe recaer en a1 .

40

2.2.3.

Cap´ıtulo 2. Decisi´on en ambiente de riesgo e incertidumbre

Criterio de riesgo fijo: C(a) = Fa−1 (λ),

percentil de nivel λ de la distribuci´on Fa , para el que se cumple P{L(a) > C(a)} = 1 − λ, donde λ ∈ (0, 1) puede elegirse lo suficientemente pr´ oximo a 1 para tener una seguridad razonable de que, en cada realizaci´ on, la p´erdida no sobrepasar´ a el valor C(a). Es, por tanto, un criterio m´ as indicado para aquellas decisiones que se adopten en una u ´nica ocasi´ on o en un n´ umero peque˜ no de ellas. Cuando L(a) representen ganancias, lo interesante es garantizar que es alta la probabilidad P{L(a) > C(a)} o bien que P{L(a) ≤ C(a)} es peque˜ na. As´ı pues, en este caso, debe tomarse un valor de λ pr´ oximo a 0, de modo que C(a) indique, para cada acci´on a, el valor al que es superior la ganancia con un grado de seguridad alto. Evidentemente, el criterio de riesgo fijo satisface el principio de dominancia. Sin embargo, es un criterio pensado para distribuciones continuas, que no tiene sentido en situaciones como la del ejemplo 2.1, con distribuciones Fa que tienen dos u ´nicos saltos de probabilidades fijas. En este tipo de situaciones, C(a) no es en absoluto sensible a la elecci´on de λ y, en consecuencia, poco aporta el criterio.

2.2.4.

Criterio de m´ axima probabilidad: C(a) = 1 − Fa (K);

criterio muy relacionado con el anterior que, dado que C(a) = P{L(a) > K} busca minimizar la probabilidad de que la p´erdida supere un valor K fijado, dentro del rango de las p´erdidas posibles, que representa el nivel de p´erdida que no se querr´ıa sobrepasar. En el caso de que L(a) representen ganancias, el criterio busca maximizar la probabilidad de que se supere una ganancia dada K, que le gustar´ıa garantizar al decisor. Todas las observaciones apuntadas en relaci´ on con el criterio anterior son v´alidas, asimismo, para el criterio actual.

2.2.5.

Criterio del valor esperado con cl´ ausula de seguridad: C(a) =



E[L(a)] +∞

si 1 − Fa (K) < ε, si 1 − Fa (K) ≥ ε.

2.2. Criterios de decisi´ on en ambiente de riesgo

41

Se establece en base a las siguientes consideraciones: Imaginemos que una p´erdida superior a K supone la ruina del decisor y ´este desea, por tanto, descartar aquellas acciones para las cuales P{L(a) > K} = 1−Fa (K) supere una probabilidad ε peque˜ na. Despu´es, entre las acciones que cumplen tal cl´ausula de seguridad, es razonable elegir la que produzca una menor p´erdida esperada. Para el caso en que L(a) exprese ganancias, el criterio debe expresarse en la forma  E[L(a)] si Fa (K) < ε, C(a) = −∞ si Fa (K) ≥ ε. donde una ganancia inferior a K (posiblemente negativo) supone la ruina del decisor, de forma que quieren eliminarse las acciones para las que la probabilidad de ruina es superior a ε. Desde luego, el criterio cumple el principio de dominancia. La misma idea sirve para modificar el criterio media-dispersi´ on, a˜ nadi´endole una cl´ ausula de seguridad id´entica.

2.2.6.

Aplicaci´ on: El problema de selecci´ on de la cartera

Un inversor dispone de una cantidad total C que puede repartir en proporciones (ρ1 , . . . , ρn ) en la compra de n activos financieros, cuyas rentabilidades en el periodo de inversi´ on son (θ1 , . . . , θn ). Sus posibles acciones est´ Pan pues descritas por los vectores a = (ρ1 , . . . , ρn ) que verifiquen ρi ≥ 0 y ni=1 ρi = 1. En cuanto a los estados de la naturaleza, coinciden con las posibles rentabilidades θ = (θ1 , . . . , θn ), que son aleatorias, y supondremos que tienen distribuci´on conjunta normal de vector de medias µ = (µ1 , . . . , µn ) y matriz de covarianzas Σ = (σi,j ). Transcurrido el periodo de inversi´ on, la ganancia obtenida con la acci´on a ser´ a n X θi ρi C = C θa0 L(a) = i=1

cuya distribuci´ on es evidentemente normal de media y varianza dadas por E[L(a)] =

n X

µi ρi C = C µa0 ,

σ 2 (L(a)) = C 2 aΣa0 .

i=1

Cada uno de los criterios enumerados puede ser aplicado a la selecci´ on de la cartera ´ optima:

42

Cap´ıtulo 2. Decisi´on en ambiente de riesgo e incertidumbre

1) El criterio del valor esperado indica simplemente maximizar µa0 . Ello se consigue obviamente con ρi = 1 para cualquiera de las inversiones i de mayor rentabilidad media µi . M´as exactamente, siempre que sea ρj = 0 para todas aquellas inversiones cuya rentabilidad media µj no tenga el m´ aximo valor µ? , cualquier estrategia producir´a una ganancia esperada µ? . Caso de existir diversas inversiones con µi = µ? , es razonable tratar de minimizar la dispersi´ on; lo cual conduce al problema de programaci´on cuadr´atica Pn ? m´ın aΣa0 sujeto a ρi ≥ 0, i=1 ρi = 1 y ρj = 0 si µj < µ .

2) El criterio media-dispersi´ on conduce a un problema similar: Pn 0 m´ ax µa − λ aΣa0 sujeto a ρi ≥ 0, i=1 ρi = 1,

donde λ se escoger´ a de acuerdo con las consideraciones indicadas anteriormente.

3) Puesto que Z = [L(a) − µa0 ]/aΣa0 tiene distribuci´on N (0, 1), el criterio de riesgo fijo indica dar como valoraci´ on C(a) de cada acci´on aquel valor para el que se cumpla P{L(a) > C(a)} = 1 − ε o bien P{Z > [C(a) − µa0 ]/aΣa0 } = 1 − ε;

es decir C(a) = µa0 + φ−1 (ε) aΣa0 . As´ı que la u ´nica diferencia con el criterio anterior es la manera de fijar el valor de λ = φ−1 (ε), que ser´ a negativo si ε es peque˜ no. 4) El criterio de la m´ axima probabilidad aconseja maximizar P{L(a) > K} = P{Z > [K − µa0 ]/aΣa0 } = 1 − φ [K − µa0 ]/aΣa0



y, por consiguiente, minimizar [K − µa0 ]/aΣa0 , siendo K la ganancia (positiva, negativa o nula) que al decisor le gustar´ıa sobrepasar. 5) La cl´ ausula de seguridad del u ´ltimo criterio significa restringirse a aquellas acciones para las que  ε > P{L(a) ≤ K} = φ [K − µa0 ]/aΣa0 lo que equivale a

µa0 + φ−1 (ε) aΣa0 > K.

El criterio del valor esperado con cl´ausula de seguridad se reduce entonces a maximizar µa0 sujeto a la condici´ on anterior, en la que el decisor habr´a fijado los valores de K y ε.

2.2. Criterios de decisi´ on en ambiente de riesgo

2.2.7.

43

Ejemplo adicional

Un ejemplo m´ as simple sirve para ilustrar mejor las ideas expuestas a lo largo de esta secci´ on. Ejemplo 2.2 Un terreno de 6 hect´ areas puede dedicarse al cultivo de dos cereales. El primero exige el doble de horas de trabajo diario que el segundo y s´olo se dispone de 10 horas de trabajo diario. Cuando se recoja la cosecha, los precios de ambos tipos de cereales son θ1 y θ2 , en miles de euros por la producci´on de cada hect´ area. Pero, θ1 y θ2 no se conocen en el momento de la siembra, sino que son variables aleatorias con distribuciones N (12, 2) y N (16, 5) respectivamente, que se suponen independientes. Si se dedican x1 y x2 hect´ areas a cada cultivo, las condiciones indican que la regi´ on factible viene definida por

x2

x1 + x2 ≤ 6

2x1 + x2 ≤ 10

(0, 6)

(4, 2)

y aparece representada en el gr´ afico adjunto. Sin embargo, la funci´ on objetivo:

(5, 0) x1

θ1 x1 + θ2 x2 no tiene coeficientes fijos, de modo que las rectas θ1 x1 + θ2 x2 = c pueden tener cualquier inclinaci´ on, seg´ un los valores relativos de θ1 y θ2 . Por tanto, seg´ un cual sea el estado de la naturaleza: θ = (θ1 , θ2 ) ∈ IR2 , el ´optimo del problema de programaci´on lineal puede alcanzarse en cualquiera de los tres v´ertices: (0, 6), (4, 2) o (5, 0). Asociado al reparto del terreno (x1 , x2 ), se obtiene una ganancia con distribuci´ on N (12x1 + 16x2 ,

q 4x21 + 25x22 ).

As´ı que, si consideramos las tres acciones posibles, la distribuciones de las ganancias obtenidas son: a1 = (0, 6) : L(a1 ) a2 = (4, 2) : L(a2 ) a3 = (5, 0) : L(a3 )

N (96, 30), √ N (80, 2 41), N (60, 10),

cuyas densidades aparecen representadas al margen.

20

40

60

80

100 120 140 160

Entre ellas hay que elegir la mejor, de acuerdo con alguno de los criterios enunciados.

44

Cap´ıtulo 2. Decisi´on en ambiente de riesgo e incertidumbre 1) El criterio del valor esperado conduce a elegir a1 , sin atender a la dispersi´ on de la distribuci´ on. 2) El criterio media-dispersi´ on concede a cada acci´on la valoraci´ on: √ C(a1 ) = 96 − 30λ, C(a2 ) = 80 − 2 41 λ, C(a3 ) = 60 − 10λ. Entre ellas C(a1 ) es m´axima si λ < 00 93; lo es C(a2 ) cuando 00 93 < λ < 70 13 y, para λ > 70 13, la m´axima es C(a3 ). El valor 70 13 es disparatadamente grande, as´ı que la acci´on ´optima puede ser a1 o a2 seg´ un que sea λ < 00 93 o 0 λ > 0 93. 3) Tomando por ejemplo λ = 00 1, el correspondiente percentil de la N (0, 1) es −10 28. Luego los correspondientes percentiles de las distribuciones de L(a1 ), L(a2 ) y L(a3 ) son: C(a1 ) = 96 − 10 28 30 = 570 6, √ C(a2 ) = 80 − 10 28 2 41 = 630 6, C(a3 ) = 60 − 10 28 10 = 470 2, con lo cual la acci´on ´optima es a2 . Con ella se garantiza un grado de confianza 00 9 de que la ganancia supere 630 6 miles de euros. Como se ve, el an´alisis es muy pr´oximo al del criterio anterior y resulta, por tanto, que la acci´on ´optima pasar´ıa a ser a1 si λ > φ(−00 93) = 00 1762. La ganancia pasar´ıa entonces a ser mayor que C(a1 ), aunque con un grado de confianza inferior a 00 8238. 4) Si el decisor desea tener la mayor seguridad posible de que la ganancia ser´a superior a K = 60 miles de euros, han de evaluarse las probabilidades C(ai ) = P{L(ai ) > 60}. Es decir,  C(a1 ) = 1 − φ [60 − 96]/30 = 00 885, √  C(a2 ) = 1 − φ [60 − 80]/2 41 = 00 941, C(a3 ) = 1 − φ(0) = 00 5. y la mejor acci´on es a2 . En cambio, con K = 75 miles de euros, C(a1 ) = 00 691,

C(a2 ) = 00 652,

C(a3 ) = 00 067,

y la acci´on ´ optima pasa a ser a1 . Es muy f´acil ver que la frontera entre uno y otro caso est´ a en K = 680 08 miles de euros. Dicho lo anterior, no hay que olvidar que si el decisor acepta que su utilidad monetaria es u(x), lo coherente ser´ıa elegir la acci´on que maximice su utilidad esperada. En este caso, con cualquier utilidad razonable, es ´optima a1 .

2.3. Criterios de decisi´ on en ambiente de incertidumbre

2.3.

45

Criterios de decisi´ on en ambiente de incertidumbre

En ausencia de una distribuci´ on de probabilidad sobre los estados de la naturaleza, la elecci´ on de la “mejor” acci´on debe basarse la comparaci´on directa de las funciones de p´erdida L(θ, a). Pero ordenar funciones –o vectores, cuando Θ es finito– requiere de alg´ un criterio para hacerlo. Se trata pues de asignar a cada funci´ on L(θ, a) un cierto funcional S(a) ∈ IR, que permita definir: a es mejor que a0

si y s´ olo si

S(a) < S(a0 ).

(2.2)

Entre los distintos criterios propuestos para hacerlo, los m´ as habituales son los que se enumeran a continuaci´ on. Algunos de ellos tienen que adaptarse en el caso de que L(θ, a) representen ganancias, y la relaci´ on (2.2) se invierte: a es mejor que a0

2.3.1.

si y s´ olo si

S(a) > S(a0 ).

Criterio de Wald: S(a) = m´ ax L(θ, a). θ∈Θ

Lleva a considerar como acciones ´optimas aquellas que proporcionen el m´ın m´ ax L(θ, a); a∈A θ∈Θ

por lo que el criterio se conoce tambi´en, en este caso, como criterio minimax. Con ´el, el decisor adopta el punto de vista pesimista de juzgar cada acci´on a por lo peor que le puede ocurrir cuando la adopta: perder lo m´ aximo posible. Esto es razonable, y se emplea de manera universal, en el contexto de los juegos de suma nula, en los que el contrincante act´ ua de manera racional para tratar de maximizar nuestras p´erdidas –que coinciden con sus ganancias. Sin embargo, est´ a mucho menos justificado en el a´mbito de la teor´ıa de la decisi´ on, en la que se supone que la naturaleza tiene un comportamiento neutral, sin tratar de beneficiarse ni de perjudicar al decisor. Esto ya se puso de relieve en el ejemplo 1.4; pese a lo cual el criterio minimax se emplea en teor´ıa de la decisi´ on como una estrategia de “limitaci´ on de da˜ nos”: con cualquier acci´ on que no sea ´optima en este sentido, existe la posibilidad de que las p´erdidas sean superiores a m´ına∈A m´ axθ∈Θ L(θ, a). El siguiente ejemplo muestra que esta norma puede ser razonable en unos casos y absurda en otros.

46

Cap´ıtulo 2. Decisi´on en ambiente de riesgo e incertidumbre

Ejemplo 2.3 En el problema de decisi´on cuyas p´erdidas son:

a1 a2

θ1

θ2

m´axθ

−1 3

2000 −2

2000 3

La p´erdida L(θ2 , a1 ) = 2000 es tan preponderante sobre los t´erminos restantes que intentar escapar de ella, eligiendo la acci´on a2 , es sumamente razonable. En cambio, con la matriz de p´erdidas

a1 a2

θ1

θ2

m´axθ

−10 −100

1 11

1 10 1

0

la acci´on minimax, a1 , es absurda pues evita una p´erdida adicional de 00 1, a costa de impedir obtener una ganancia diez veces mayor cuando el estado de la naturaleza sea θ1 .

Para adaptar el criterio al caso en que L(θ, a) representen ganancias, hay que juzgar cada acci´ on a ∈ A a trav´es de S(a) = m´ınθ∈Θ L(θ, a): lo peor que puede ocurrir. Las acciones ´optimas ser´ an aquellas que proporcionen m´ ax m´ın L(θ, a). a∈A θ∈Θ

Ello merece el nombre de criterio maximin; aunque no es m´ as que la transposici´ on, por un cambio de signo, del criterio minimax. Sus virtudes y defectos son id´enticos en un caso y en otro. Nada impide al decisor ser optimista y valorar cada acci´on mediante S 0 (a) = m´ınθ∈Θ L(θ, a), pensando que en cada caso la naturaleza le va a beneficiar con la menor p´erdida posible. Ello le conducir´ıa a seleccionar una acci´on con la que se alcance m´ına∈A m´ınθ∈Θ L(θ, a). Incluso, esto ser´ıa lo razonable en la segunda situaci´ on del ejemplo 2.3. No obstante, entre los criterios de decisi´ on, tal pauta de conducta s´ olo se incluye normalmente como caso extremo del criterio siguiente.

2.3.2.

Criterio de Hurwicz: S(a) = λ m´ ax L(θ, a) + (1 − λ) m´ın L(θ, a). θ∈Θ

θ∈Θ

Promedia, con ponderaciones λ, 1−λ ∈ (0, 1), la m´ axima y la m´ınima p´erdida posibles asociadas a la acci´on a; en un intento de encontrar un equilibrio entre las posiciones pesimista y optimista.

2.3. Criterios de decisi´ on en ambiente de incertidumbre

47

La elecci´ on del valor de λ influye decisivamente en el criterio. Por consiguiente, es frecuente representar las gr´ aficas de las diferentes rectas S(a), en funci´ on de λ ∈ (0, 1) para observar en qu´e zona es m´ as peque˜ na (o m´ as grande en el caso de ganancias) cada uno de los valores S(ai ). As´ı se procede en el siguiente ejemplo. Ejemplo 2.4 En el problema de decisi´on cuyas p´erdidas son

a1 a2 a3 a4

θ1

θ2

θ3

m´axθ

m´ınθ

8 3 −1 4

−2 4 6 2

3 5 7 6

8 5 7 6

−2 3 −1 2

En funci´ on de λ es

8

S(a1 ) = 10λ − 2,

a1

6

S(a2 ) = 2λ + 3, S(a3 ) = 8λ − 1

4 2

S(a4 ) = 4λ + 2

a2 a4 a3

0 que aparecen representadas en el gr´afiλ co adjunto, del que hay que observar la −2 0 1 frontera inferior. A pesar de que ninguna de las cuatro acciones est´ a dominada por ninguna otra, la acci´on a4 no es ´ optima para ning´ un valor de λ. Por su parte, a3 es ´ optima en un estrecho margen de valores de λ; concretamente para 1/2 < λ < 2/3. Para λ ≥ 2/3 es ´optima la acci´on minimax: a2 (que corresponde a λ = 1) y para λ < 1/2 es ´ optima la acci´on minimin: a1 (que se obtiene con λ = 0).

2.3.3.

Criterio de Laplace: n

1X L(θi , a). S(a) = n i=1

Corresponde a la idea de promediar todos los posibles valores de la p´erdida, lo cual, en otros t´erminos, supone juzgarlos equiprobables, atribuyendo a cada uno probabilidad 1/n. P No obstante, es totalmente equivalente considerar directamente S(a) = ni=1 L(θi , a).

48

Cap´ıtulo 2. Decisi´on en ambiente de riesgo e incertidumbre

Tal idea de homogeneidad puede extenderse al caso en que sea Θ ⊂ IRn , calculando entonces Z L(θ, a) dθ. S(a) = Θ

Ello equivale, cuando Θ tiene volumen finito, a considerar la distribuci´on uniforme sobre Θ y obtener la p´erdida esperada. Ejemplo 2.5 En la situaci´ on del ejemplo 2.4, se tiene

a1 a2 a3 a4

θ1

θ2

θ3

8 3 −1 4

−2 4 6 2

3 5 7 6

P

θ

9 12 12 12

De manera que la acci´on a1 proporciona el m´ınimo del criterio de Laplace y es ´ptima en tal sentido. o Sin embargo, si los mismos valores de la tabla representasen ganancias, el criterio de Laplace no discrimina entre las tres u ´ltimas acciones y u ´ nicamente elimina la primera.

2.3.4.

Criterio de Savage: S(a) = m´ ax [L(θ, a) − m´ın L(θ, a)]. θ∈Θ

a∈A

Se basa en asociar a la funci´on de p´erdida del problema de decisi´ on la funci´on de decepci´ on (“regret” en la terminolog´ıa inglesa) D(θ, a) = L(θ, a) − m´ın L(θ, a), a∈A

que representa la distancia desde lo m´ınimo que se podr´ıa perder frente al estado de la naturaleza θ, hasta lo que realmente se pierde utilizando la acci´ on a. Despu´es, se aplica a dicha matriz el criterio minimax, asociando a cada acci´ on la m´ axima decepci´on en que puede incurrir. Ejemplo 2.6 La matriz de p´erdidas del ejemplo 2.4 y la correspondiente matriz de decepciones son

2.3. Criterios de decisi´ on en ambiente de incertidumbre

a1 a2 a3 a4

θ1

θ2

θ3

8 3 −1 4

−2 4 6 2

3 5 7 6

a1 a2 a3 a4

49

θ1

θ2

θ3

m´axθ

9 4 0 5

0 6 8 4

0 2 4 3

9 6 8 5

La u ´ltima columna muestra el valor asociado a cada acci´on por del criterio de Savage. De acuerdo con ello, la acci´on ´optima es a4 .

La adaptaci´ on del criterio al caso en que L(θ, a) representen ganancias, considera como decepciones D(θ, a) = m´ ax L(θ, a) − L(θ, a), a∈A

diferencia entre lo m´ as que se podr´ıa ganar frente a θ y lo que se gana con la acci´on a. Puesto que representan p´erdidas o, m´ as exactamente, cantidades que se dejan de ganar, vuelve a aplicarse el criterio minimax. As´ı pues S(a) = m´ ax [m´ ax L(θ, a) − L(θ, a)]. θ∈Θ

2.3.5.

a∈A

Criterio de Bayes con probabilidad subjetiva:

S(a) =

n X

πi L(θi , a)

i=1

donde π = (π1 , . . . , πn ) es una distribuci´on de probabilidad sobre Θ. Como se prob´o en la secci´ on 1.3.2, determinadas preferencias del decisor en el espacio de loter´ıas sobre perspectivas inciertas, indican que su comportamiento es el mismo que si hubiese asignado una probabilidad subjetiva a los estados de la naturaleza, con la cual analizar el problema. En principio, tal asignaci´ on transforma la situaci´ on en un problema de decisi´ on en ambiente de riesgo, al cual se podr´ıan aplicar los diversos criterios enunciados en la secci´ on 2.2; sin embargo, lo m´ as usual es aqu´ı utilizar el criterio del valor esperado y, acorde con ello, se define el criterio de Bayes. Para dos acciones, a, a0 , ninguna de las cuales domine a la otra (es decir, L(θ, a) < L(θ, a0 ) para alg´ un estado θ y L(θ 0 , a) > L(θ 0 , a0 ) para alg´ un otro θ 0 ), la mejor acci´ on de acuerdo con el criterio de Bayes depende totalmente de la distribuci´ on π que se considere. Por ello es capital encontrar m´etodos objetivos para la elecci´ on de la probabilidad subjetiva.

50

Cap´ıtulo 2. Decisi´on en ambiente de riesgo e incertidumbre

Dado que el m´etodo descrito en el teorema de Aumann-Ascombe no es operativo, el juego de De Finetti constituye un m´etodo pr´ actico para desvelar la probabilidad subjetiva que el decisor otorga a los estados de la naturaleza. Consiste simplemente en proponerle al decisor la alternativa de ganar 1000 euros si se da el estado θi o bien participar en la loter´ıa: 

 1 − πi πi , 0 1000

ajustando el valor de πi hasta que ambas alternativas le resulten indiferentes. Hecho esto para cada estado a necesario eliminar la Pθni , seguramente ser´ incoherencia de que pudiese ser i=1 πi 6= 1, dividiendo cada πi por la suma de todos ellos. En situaciones en las que Θ ⊂ IRn no es finito, el criterio de Bayes puede emplearse especificando, por ejemplo, una densidad de probabilidad π(θ) sobre Θ. Ello permite calcular Z L(θ, a) π(θ) dθ. S(a) = Θ

L´ ogicamente la cuesti´ on de elegir la distribuci´on subjetiva sobre Θ es ahora m´ as complicada. Con frecuencia se utiliza el principio de la m´ axima entrop´ıa, propuesto por Jaynes, que consiste en maximizar la entrop´ıa Z π(θ) log π(θ) dθ (1 ) H=− Θ

sujeto a las restricciones conocidas sobre la distribuci´on π. Por ejemplo, B con media µ y varianza σ 2 fijas, la distribuci´ on de m´ axima entrop´ıa es

la N (µ, σ);

B si Θ = [0, ∞) y la media es µ, la distribuci´ on continua de m´ axima

entrop´ıa es exponencial;

B para Θ = {θ1 , . . . , θn } y con media µ, la m´ axima entrop´ıa corresponde

a πi P = Cr θi , donde r y C se determinan con las condiciones 1 y ni=1 θi πi = µ;

Pn

i=1 πi

=

B sin m´ as restricciones que el recorrido (es decir, Θ = [a, b] o bien

Θ = {θ1 , . . . , θn }), la m´ axima entrop´ıa se obtiene con la distribuci´on uniforme en Θ; lo cual reduce el criterio de Bayes al de Laplace.

1

O bien H = −

Pn

i=1

πi log πi , en el caso discreto

2.3. Criterios de decisi´ on en ambiente de incertidumbre

51

Todos los criterios expuestos en esta secci´ on se aplican igual a situaciones en que Θ no es discreto, aunque pudieran aparecer dificultades de c´alculo. Ejemplo 2.7 En la situaci´ on del ejemplo 2.2, el agricultor puede desconocer la distribuci´ on que tendr´an los precios de los cereales en el momento de recoger la cosecha. Aunque, a cambio, dispone de la informaci´ on de que ser´a θ1 ∈ [8, 22] y θ2 ∈ [6, 26]. Las tres soluciones del problema de programaci´on lineal constituyen sus acciones no dominadas y tienen ganancias asociadas:

a1 = (0, 6) a2 = (4, 2) a3 = (5, 0)

(θ1 , θ2 )

m´ınθ

m´axθ

¯ L(a)

6θ2 4θ1 + 2θ2 5θ1

36 44 40

156 140 110

96 92 75

El criterio de Wald –maximin en el caso de ganancias– indica que la acci´on ´optima es a2 . El criterio de Hurwicz asigna a cada acci´on la valoraci´ on S(a1 ) = 120λ + 36,

S(a2 ) = 96λ + 44,

S(a3 ) = 70λ + 40.

La acci´on a3 no da nunca el mayor valor, mientras que a1 lo proporciona cuando es λ > 1/3 y a2 cuando λ < 1/3. La u ´ltima columna de la tabla contiene el promedio de L(θ, a), considerando en [8, 22] × [6, 26] la distribuci´ on uniforme. Seg´ un ello, a1 es ´optima con el criterio de Laplace.

a1 a2 a3

A1

A2

A3

0 4θ2 − 4θ1 6θ2 − 5θ1

4θ1 − 4θ2 0 2θ2 − θ1

5θ1 − 6θ2 θ1 − 2θ2 0

=

θ1

θ2

θ2

Aplicar el criterio de Savage requiere calcular m´axa L(θ, a) que se obtiene con cada una de las acciones ai en la regi´ on Ai que muestra el gr´afico adjunto. As´ı pues, la funci´ on D(θ, a) en cada una de las tres regiones es

26 A1

2θ 2

A2

=

θ1

A3

6 8

22

θ1

Observando los valores de 4θ1 − 4θ2 y 5θ1 − 6θ2 en los v´ertices de A2 y A3 respectivamente, el mayor valor que se obtiene es 64 en el v´ertice (22, 6). An´alogamente, 4θ2 − 4θ1 y θ1 − 2θ2 , evaluados en los v´ertices de A1 y A3 respectivamente, dan un m´aximo valor de 74 en el v´ertice (8, 26). Por fin, 6θ2 − 5θ1 en A1 y 2θ2 − θ1 en A2 tienen como m´aximo 116, tambi´en en el v´ertice (8, 26). Es decir, con el criterio de Savage: S(a1 ) = 64, S(a2 ) = 74, S(a3 ) = 116; con lo cual la acci´on ´ optima es a1 .

52

Cap´ıtulo 2. Decisi´on en ambiente de riesgo e incertidumbre

Es razonable pensar que los precios aleatorios θ1 y θ2 son independientes y tienen mayor probabilidad de estar en el centro de su recorrido que en sus extremos. Subjetivamente asignamos pues a θ1 y θ2 densidades π1 (x) = (x − 8)(22 − x)

3 1372

y

π2 (y) = (y − 6)(26 − y)

3 . 4000

El criterio Bayes asigna entonces a las acciones el valor Z 26 3 S(a1 ) = 6y (6 − y)(26 − y) dy = 96, 4000 6 Z 22 Z 26 3 3 4x (x − 8)(22 − x) dx + 2y (y − 8)(26 − y) dy = 92, S(a2 ) = 1372 8 4000 6 Z 22 3 5x (x − 8)(22 − x) dx = 75; S(a3 ) = 1372 8 en coincidencia exacta con el criterio de Laplace. No es nada sorprendente y se pod´ıan haber evitado los c´ alculos, porque lo que se ha hecho –en ambos casos– es calcular las esperanzas E[6θ2 ], E[4θ1 + 2θ2 ] y E[5θ1 ] respecto a la distribuci´ on subjetiva asignada a θ1 y θ2 . Mientras la asignaci´on no modifique las medias, el resultado no cambia. Dicho de otro modo, debido a la linealidad de las ganancias L(θ, ai ), el criterio Bayes da a las acciones la valoraci´ on S(a1 ) = 6E[θ2 ],

S(a2 ) = 4E[θ1 ] + 2E[θ2 ],

S(a3 ) = 5E[θ1 ],

y lo u ´nico que importa de la probabilidad subjetiva son las dos medias.

Ejercicios 2.1 En una parcela pueden plantarse hasta 400 ´arboles frutales de cierto tipo; sin embargo, plantando n ≤ 400, cada uno independientemente tiene probabilidad pn = n/400 de secarse antes de arraigar. Se calcula que cada frutal que arraigue puede reportar mil euros de fruta por temporada. Si X es el n´ umero de ´arboles que arraigan, determinar el n´ umero de ´arboles que deben plantarse a) si se quiere maximizar el n´ umero esperado de ´arboles arraigados E[X]. b) si se quiere maximizar E[X] − 2σ(X). c) si se quiere maximizar el n´ umero m´ınimo de ´arboles que se obtendr´ an con probabilidad 00 9. d) si se quiere maximizar la probabilidad de obtener m´as de 90 ´arboles. 2.2 En un problema de decisi´on con Θ = (0, ∞) y A = IN , la funci´ on de p´erdida es L(θ, a) = (θ − a)2 y se sabe que θ tiene distribuci´ on exponencial de media µ = 70 3. Determinar la mejor decisi´on

Ejercicios

53

a) con el criterio del valor esperado; b) con el criterio media–dispersi´ on, tomando λ = 20 5; c) con el criterio de riesgo fijo, siendo λ = 00 95; d) con el criterio de m´axima probabilidad, si K = 10 2.3 En el problema de decisi´on cuyas p´erdidas aparecen el la tabla

a1 a2 a3

θ1

θ2

θ3

θ4

5 −3 −2

−2 2 4

−1 5 0

0 −2 −1

Obtener la decisi´on ´ optima con los criterios de Wald, Hurwicz, Laplace y Savage. Entre las acciones aleatorizadas, que eligen a2 con probabilidad α y a3 con probabilidad 1 − α, hallar la ´ optima con los criterios de Wald, Hurwicz, Laplace y Savage. 2.4 Un agricultor puede realizar en su finca de 52 hect´ areas, dos tipos de cultivo, a1 y a2 , cuyos rendimientos dependen de las posibles condiciones clim´ aticas. En concreto, cabe distinguir tres circunstancias clim´ aticas θ1 , θ2 y θ3 , que se producen con probabilidades π1 = 00 2, π2 = 00 35, π3 = 00 45 respectivamente. Adem´as, las ganancias por hect´ area, en miles de euros, de cada cultivo en las diversas condiciones son

a1 a2

θ1

θ2

θ3

8 2

6 9

5 7

a) Determinar c´ omo debe repartir la superficie disponible entre los dos cultivos para hacer m´aximo el valor k que cumple P{Ganancia ≥ k} ≥ 00 9. b) Con el reparto determinado, hallar la media y la desviaci´on t´ıpica de la ganancia. 2.5 Un problema de decisi´on, con Θ = [−1, 1] y A = [0, 1], tiene como funci´ on de ganancia G(θ, a) = θ2 + θa. a) Aplicar los criterios de Wald, Hurwicz, Laplace, Savage y Bayes para seleccionar la mejor acci´on.

54

Cap´ıtulo 2. Decisi´on en ambiente de riesgo e incertidumbre

b) Si se sabe que θ tiene distribuci´ on uniforme en [−1, 1], aplicar el criterio del valor esperado, el criterio media-dispersi´ on, el criterio del riesgo fijo y el criterio de la m´axima probabilidad con cualquier K > 0.

Cap´ıtulo 3

Decisiones Bayes y minimax 3.1.

Introducci´ on

Cuando los criterios de Bayes y de Wald se aplican en el contexto de las acciones aleatorizadas A? , proporcionan informaci´on relevante acerca de la estructura de un problema de decisi´on. En consecuencia, en este cap´ıtulo se considerar´ an las acciones aleatorizadas ´ optimas, en ambos sentidos, y se relacionar´an con los importantes conceptos de admisibilidad y completitud. Ejemplos paradigm´aticos de funciones de p´erdida son L(θ, a) = (θ − a)2 o L(θ, a) = |θ − a|. Por eso, en los resultados aparecer´ a con frecuencia la hip´otesis de que L(θ, a) es una funci´ on acotada inferiormente: L(θ, a) ≥ K para todo θ ∈ Θ y a ∈ A; mientras que no se supondr´ a normalmente que L(θ, a) es acotada superiormente.

3.2.

Decisiones Bayes

Dado un problema de decisi´on (A, Θ, L), se puede puede considerar su extensi´ on (A? , Θ, L) en la que se incluyen todas las acciones aleatorizadas α ∈ A? , para las que la funci´ on de p´erdida L(θ, α) se define mediante (1.2): Z L(θ, a) α(da). L(θ, α) = A

Si π es una distribuci´ on sobre Θ, con la cual se elige el estado de la naturaleza, se denomina riesgo Bayes frente a π de la acci´ on aleatorizada α ∈ A? a Z r(π, α) = L(θ, α) π(dθ). (3.1) Θ

Ello vale, en particular, para las acciones originales a ∈ A. El espacio de todas las distribuciones de probabilidad sobre Θ ser´a representado por Θ? .

55

56

Cap´ıtulo 3. Decisiones Bayes y minimax

El criterio de Bayes o del valor esperado consideran tanto mejor una acci´on, cuanto m´as peque˜ no sea su riesgo Bayes frente a π. De forma que lo que se busca es conseguir un valor tan pr´oximo como sea posible a rˆ(π) = ´ınf r(π, a) a∈A

o

rˆ? (π) = ´ınf ? r(π, α) α∈A

seg´ un que se consideren o no acciones aleatorizadas. El valor de rˆ? (π) se denomina el m´ınimo riesgo Bayes frente a π. Cuando una acci´on a ∈ A es tal que r(π, a) = rˆ(π), se dice que es una acci´ on Bayes frente a π. Ello significa simplemente que es ´optima con el crierio de Bayes, supuesto que θ tiene efectivamente distribuci´ on π. De forma similar, una acci´on aleatorizada α ∈ A? es Bayes frente a π si r(π, α) = rˆ? (π). El ejemplo siguiente muestra que la acci´on Bayes puede no existir y tambi´en puede ocurrir que no sea u ´nica. Ejemplo 3.1 En un problema de decisi´on con Θ = {0, 1} y A = [−1, 1], la funci´ on de p´erdida es L(θ, a) = |θ − a|. Sea π = (2/5, 3/5). El riesgo Bayes frente a π de cada acci´on a ∈ [−1, 1] es:  0 3 2 0 6 − 00 2a si a ∈ [0, 1], r(π, a) = |a| + |1 − a| = 00 6 − a si a ∈ [−1, 0]. 5 5 El m´ınimo riesgo Bayes es rˆ(π) = 00 4 que se alcanza para a = 1, que es la acci´on Bayes frente a π. Ahora bien, si hubiese sido A = (−1, 1), la acci´on Bayes frente a π no existir´ıa, pues el m´ınimo riesgo Bayes, 00 4, no ser´ıa accesible. En cambio, frente a π = (1/2, 1/2), el riesgo Bayes de cada acci´on a ∈ [−1, 1] es:  0 1 1 05 si a ∈ [0, 1], r(π, a) = |a| + |1 − a| = 00 5 − a si a ∈ [−1, 0]. 2 2 En este caso, el m´ınimo riesgo Bayes es rˆ(π) = 00 5 y se alcanza con cualquier acci´on a ∈ [0, 1]. Luego, todas ellas son acciones Bayes frente a π. Est´ a claro en esta situaci´ on que no se gana nada por a˜ nadir las acciones aleatorizadas. Frente a π = (2/5, 3/5), la acci´on aleatorizada Bayes tiene que concentrar toda su probabilidad en la acci´on a = 1; pues, en cuanto asigne probabilidad positiva a alguna zona del intervalo [−1, 1), el riesgo Bayes r(π, α) supera 00 4. Frente a π = (1/2, 1/2), las acciones aleatorizadas Bayes son todas las distribuciones que asignen probabilidad uno al intervalo [0, 1], en el que el riesgo Bayes es constantemente 00 5. As´ı que hay muchas m´as acciones aleatorizadas Bayes que acciones Bayes no aleatorizadas. Pero tampoco se gana nada; en cualquiera de los dos casos, es rˆ? (π) = rˆ(π). Enseguida veremos que esto es un hecho general.

La no existencia de acciones Bayes frente a alguna distribuci´on π es un inconveniente, pero no es grave. La causa es que el ´ınfimo que define el

3.2. Decisiones Bayes

57

m´ınimo riesgo Bayes, rˆ(π), puede ser inaccesible, seg´ un las propiedades del conjunto A de acciones. Pero, en cualquier caso, siempre hay acciones que tienen un riesgo Bayes tan pr´ oximo a rˆ(π) como se desee. En este sentido, una acci´ on a se denomina ε-Bayes frente a π si r(π, a) < rˆ(π) + ε. A efectos pr´ acticos, si ε es muy peque˜ no, da igual que sea r(π, a) = rˆ(π) o s´ olo rˆ(π) < r(π, a) < rˆ(π) + ε. Veamos ahora la inutilidad, desde el punto de vista del riesgo Bayes frente a π, de las acciones aleatorizadas que, por el contrario, jugar´an un papel importante con el criterio minimax. Proposici´ on 3.1 Si la funci´ on de p´erdida est´ a acotada inferiormente, se ? verifica rˆ (π) = rˆ(π) para cualquier distribuci´on π sobre Θ. Demostraci´ on: Desde luego, como A ⊂ A? , se cumple rˆ? (π) = ´ınf ? r(π, α) ≤ ´ınf r(π, a) = rˆ(π). α∈A

a∈A

Por otro lado, como la hip´ otesis permite aplicar el teorema de Fubini, Z Z Z r(π, α) = L(θ, α) π(dθ) = L(θ, a) α(da) π(dθ) Θ A ZΘ Z Z = L(θ, a) π(dθ) α(da) = r(π, a) α(da) ≥ rˆ(π) A

Θ

A

puesto que r(π, a) ≥ rˆ(π) ∀a ∈ A. Por consiguiente, siendo ello v´alido para cualquier α ∈ A? , resulta rˆ? (π) ≥ rˆ(π).

En virtud de este resultado, para cualquier acci´on aleatorizada α, hay una no aleatorizada a que es al menos tan buena como α, desde el punto de vista del riesgo Bayes frente a π.

3.2.1.

Interpretaci´ on geom´ etrica

En el caso en que Θ sea finito, la estructura del problema de decisi´ on y las acciones Bayes pueden visualizarse mediante una representaci´on geom´etrica con tantas dimensiones como elementos haya en Θ. Los gr´ aficos han de 2 n hacerse en IR , pero la idea es la misma en IR e, incluso, dan una idea de lo que puede ocurrir en infinitas dimensiones. Supondremos pues que Θ = {θ1 , . . . , θn }. Para empezar, el conjunto de p´ erdidas, G, se forma representando, para  cada acci´ on a ∈ A, el punto xa ∈ IRn de coordenadas L(θ1 , a), . . . , L(θn , a) . Formalmente   G = xa = L(θ1 , a), . . . , L(θn , a) | a ∈ A}.

58

Cap´ıtulo 3. Decisiones Bayes y minimax

Las acciones aleatorizadas tienen tambi´en asociados puntos del mismo tipo:   ˆ = xα = L(θ1 , α), . . . , L(θn , α) | α ∈ A? }. G

ˆ es convexo pues, si α1 , α2 ∈ A? , tambi´en es Desde luego, el conjunto G α = λα1 + (1 − λ)α2 ∈ A? para cualquier λ ∈ [0, 1] y, obviamente, se ˆ por tanto G ˆ contiene a verifica xα = λ xα1 + (1 − λ) xα2 . Adem´as, G ⊂ G; 1 la envoltura convexa de G ( ). Por otro lado, si A contiene m acciones: A = {a1 , . . . , am }, cada acci´on aleatorizada es un vector α = (α1 , . . . , αm ), cuyas componentes suman 1. ˆ Entonces, xα = α1 xa1 + · · · + αm xam ; de forma que cualquier punto de G ˆ coincide con es combinaci´ on lineal convexa de puntos de G. Por tanto, G la envoltura convexa de G. Cuando A no es finito, la misma conclusi´ on es cierta, aunque la demostraci´on es m´ as complicada y aparece en la Proposici´ on 3.17 del ap´endice de este cap´ıtulo.

x2

xa2 xa9 xa4

xa5

ˆ G

xa7

xa6 xa8

1

xa1 xa3

π 1

x1

Figura 3.1: El conjunto de p´erdidas y las acciones Bayes ˆ es el Concretamente, si A contiene m acciones, G consta de m puntos y G poliedro convexo cuyos v´ertices son los puntos de G que no son combinaci´ on lineal convexa de algunos otros. En la figura 3.1, para el caso de dos estados de la naturaleza, aparecen representados (en rojo) los puntos del conjunto ˆ (en azul). El punto xa puede de p´erdidas G y su envoltura convexa G 4 expresarse como combinaci´ on lineal convexa de otros puntos de G –puesto 1 El menor conjunto convexo que contiene a G o, dicho de otro modo, la intersecci´ on de todos los convexos que contienen a G

3.2. Decisiones Bayes

59

que est´ a incluido en la envoltura convexa de los dem´ as– y no es un extremo ˆ de G. Cada distribuci´ on π = (π1 , π2 ) ∈ Θ? es un vector de coordenadas positivas cuyo extremo est´ a sobre la recta x1 + x2 = 1. Las rectas perpendiculares a π (representadas en verde), de ecuaci´ on π1 x1 + π2 x2 = c, son el conjunto de puntos en los que se obtendr´ıa el valor c para el riesgo Bayes r(π, α), ˆ hay acciones aleatorizadas con las que se aunque s´ olo si la recta corta a G alcanza tal riesgo Bayes. El m´ınimo riesgo Bayes, rˆ? (π), corresponde a la ˆ y m´ posici´ on de la recta, que corte a G, as pr´ oxima a la esquina suroeste (−∞, −∞) del plano. Tal recta tiene por ecuaci´ on π1 x1 + π2 x2 = rˆ? (π), de forma que corta a la diagonal, x1 = x2 , en el punto (ˆ r ? (π), rˆ? (π)). Como se ve, la acci´ on Bayes frente a π es a6 , para el vector π representado en la figura. Y es la u ´nica con tal propiedad. Sin embargo, en el caso en el que π fuese perpendicular a la arista xa6 − xa8 del pol´ıgono, habr´ıa diversas acciones Bayes frente a π: las propias acciones a6 y a8 , m´ as todas las acciones aleatorizadas α concentradas sobre a6 y a8 , para las que xα est´ a sobre el segmento que une xa6 y xa8 y dan, por tanto, el mismo riesgo frente a tal π. Queda entonces claro que no se mejora el m´ınimo riesgo Bayes por incluir las acciones aleatorizadas. ˆ –es decir, la poligonal entre los puntos xa y xa – La frontera suroeste de G 5 3 representa los puntos xα correspondientes a acciones, aleatorizadas o no, que son Bayes frente a alguna distribuci´on π. De hecho, las rectas π1 x1 +π2 x2 = c tienen pendiente negativa (desde −∞ para π1 = 1 hasta 0 para π2 = 1) y s´ olo los puntos de la frontera suroeste pueden proporcionar el m´ınimo riesgo Bayes. Debe reflexionarse acerca de la situaci´ on an´ aloga cuando haya tres estados ˆ es un poliedro en IR3 , con aristas y caras de la naturaleza, de modo que G que representan la combinaci´ on lineal convexa de dos y tres v´ertices respectivamente. En tal caso, los vectores π = (π1 , π2 , π3 ) se apoyan sobre la intersecci´ on del plano x1 +x2 +x3 = 1 con el octante positivo (v´ease la figura del ejemplo 1.9). Ahora, son los planos π1 x1 + π2 x2 + π3 x3 = c, los lugares geom´etricos de los puntos de riesgo Bayes r(π, α) = c y las acciones Bayes se obtienen al trasladar el plano lo m´ as posible en la direcci´ on del punto −∞ ˆ en las tres direcciones, sin que deje de cortar a G. En esa posici´ on extrema, el plano π1 x1 + π2 x2 + π3 x3 = rˆ? (π) corta a la diagonal, x1 = x2 = x3 , en el punto (ˆ r ? (π), rˆ? (π), rˆ? (π)). . . Con m´ as dimensiones, igual. En cambio, afecta poco a la imagen el que el conjunto A no sea finito. Ello se muestra en el ejemplo siguiente.

60

Cap´ıtulo 3. Decisiones Bayes y minimax

Ejemplo 3.2 Supongamos que Θ = {0, 1}, A = [0, 2] y la funci´ on de p´erdida es  L(0, a) = a2 + 1, L(θ, a) = (a − θ)2 + 1, es decir L(1, a) = a2 − 2a + 2. Entonces, las p´erdidas asociadas a la acci´on a ∈ [0, 2] se representan en el punto xa = (a2 +1, a2 −2a+2) que, al variar a, recorre la curva de ecuaciones param´etricas [x1 = a2 + 1, x2 = a2 − 2a + 2]

x2

con a ∈ [0, 2].

x0

2

x2

ˆ G 1

π 1

2

3

4

5

6

x1

Figura 3.2: Conjunto de p´erdidas y acciones Bayes √ a reO, si se prefiere, la curva x2 = x1 + 1 − 2 x1 − 1 con x1 ∈ [1, 6]. Tal curva est´ ˆ presentada en la figura 3.2: en rojo el conjunto G y en azul su envoltura convexa G. El gr´ afico representa tambi´en un cierto vector π y la perpendicular a π tangente a G. En el punto de contacto se sit´ ua la acci´on Bayes frente a π. La determinaci´ on expl´ıcita de la acci´on Bayes frente a π = (π, 1 − π) es sencilla. Simplemente, el riesgo Bayes de la acci´on a ∈ [0, 2] es r(π, a) = π(a2 + 1) + (1 − π)(a2 − 2a + 2) = a2 − 2(1 − π)a + 2 − π. Su m´ınimo se alcanza en aπ = 1 − π, que es la acci´on Bayes frente a π. El m´ınimo riesgo Bayes frente a π es, por tanto, rˆ(π) = 1 + π − π 2 . Puede observarse que, a medida que π var´ıa en [0, 1], las acciones Bayes –o, mejor ˆ desde el dicho, sus correspondientes puntos– recorren la frontera suroeste de G, v´ertice x0 = (1, 2), hasta el punto x1 = (2, 1). Obs´ervese tambi´en que, si se elimina de A el punto a = 1/3, se crea un hueco en la curva G. La acci´on Bayes frente a π = (2/3, 1/3) ya no existe. Pero hay acciones tan pr´oximas como se desee a la eliminada, entre las que se pueden encontrar acciones ε-Bayes cualquiera que sea ε > 0.

3.2. Decisiones Bayes

3.2.2.

61

Existencia de las acciones Bayes

Con un n´ umero finito n de estados de la naturaleza, es sencillo enunciar un teorema relativo la existencia de acciones Bayes. Para ello conviene considerar, para cada x ∈ IRn , el cuadrante k(x) = {y ∈ IRn | yj ≤ xj ∀j ≤ n}

y definir la frontera inferior del conjunto de ˆ como p´erdidas G ˆ I = {x ∈ IRn | k(x) ∩ G = {x}} G

ˆ G

x ˆ donde G es el cierre de G. Son los puntos (representados en rojo) x de G k(x) para los que no hay ning´ un otro en G que tenga todas sus coordenadas inferiores a las de x. ˆ I ⊂ G, ˆ el conjunto G ˆ se dice cerrado inferiormente. Caso de ser G Proposici´ on 3.2 Si Θ es finito, la funci´on de p´erdida L(θ, a) est´ a acotada ˆ inferiormente y el conjunto de p´erdidas G es cerrado inferiormente, existe la acci´on Bayes frente a cualquier distribuci´on π con πj > 0 ∀j = 1, . . . , n. P ˆ Demostraci´ on: La funci´ on lineal `(x) = nj=1 πj xj transforma los puntos x de G ? en puntos de un intervalo de IR. Su extremo inferior es rˆ (π) y hay una sucesi´on xk ˆ tal que `(xk ) converge a rˆ? (π). Dado que πj > 0 ∀j ≤ n, ninguna coordenada en G k xj puede tender a infinito; as´ı que est´ an todas acotadas tanto superior como inferiormente. Por tanto, existe un punto l´ımite x0 de la sucesi´on xk y `(x0 ) = rˆ? (π). Adem´as, G ∩ k(x0 ) contiene a x0 y no puede contener ning´ un otro x0 , porque ser´ıa 0 ? ˆ muy pr´oximos a x0 . `(x ) < rˆ (π) y la misma desigualdad se dar´ıa en puntos de G

ˆ G

rˆ? (1, 0) rˆ? (0, 1)

La salvedad de que tiene que ser πj > 0 para todo j ≤ n, obedece a que, en caso ˆ tuviese de que el conjunto de p´erdidas G una frontera inferior con as´ıntotas vertical u horizontal, la sucesi´on xk que aproxima el riesgo Bayes frente a π = (0, 1) o bien π = (1, 0) no ser´ıa acotada.

Naturalmente, tal posibilidad est´ a excluida en el caso de que la funci´on ˆ sea un de p´erdida est´e tambi´en acotada superiormente, de forma que G conjunto acotado. En tales circunstancias, el resultado anterior es cierto para cualquier distribuci´ on π sobre Θ.

62

3.3.

Cap´ıtulo 3. Decisiones Bayes y minimax

Admisibilidad y completitud

En el espacio de acciones A de un problema de decisi´ on ya se ha establecido la relaci´ on de dominancia, que puede extenderse inmediatamente al caso de acciones aleatorizadas de A? : α domina a α0

si y solo si

L(θ, α) ≤ L(θ, α0 ) ∀θ ∈ Θ,

siendo la desigualdad estricta para alg´ un valor de θ. Se introduce con ello ? un preorden estricto en A , que es parcial puesto que puede ocurrir que ni α domine a α0 , ni α0 domine a α. Cuando Θ es finito, la relaci´ on de dominancia se visualiza f´ acilmente en la representaci´ on geom´etrica de la secci´ on anterior. A la derecha, aparecen se˜ nalados en rojo los ˆ correspondientes a acciones dopuntos de G minadas por una determinada acci´on α. Se representan tambi´en los puntos correspondientes a acciones α1 y α2 que no dominan a α, ni son dominadas por ella.

xα2 xα ˆ G

xα1

ˆ en el caso trivial de que α La zona roja puede ser desde la totalidad de G, coincida con una acci´ on a que domine a todas las dem´ as, hasta el vac´ıo si la ˆ representaci´ on de α est´ a en la frontera noreste de G. Sobre esta base, se define que una acci´on α ∈ A? es admisible si no existe otra α0 ∈ A? tal que α0 domina a α. De hecho, parece inadmisible utilizar una acci´ on α dominada por otra α0 , puesto que las p´erdidas con esta u ´ltima son siempre menores que con la primera, sea cual sea el estado de la ˆ = {xα }. naturaleza. Geom´etricamente, α es admisible si k(xα ) ∩ G El conjunto de todas las acciones admisibles ser´ a designado por A?ad . Las acˆ I son admisibles ciones α cuya representaci´on xα est´e en la frontera inferior G ˆI ∩ G ˆ se representan acciones admisibles. No obso, dicho de otro modo, en G tante, puede haber acciones admisibles α cuya representaci´on xα no est´e en ˆ = {xα } pero k(xα ) ∩ G 6= {xα }. la frontera inferior, porque sea k(xα ) ∩ G ˆ no pueden corresponder a acciones L´ ogicamente, los puntos interiores a G ˆ admisibles; as´ı que podr´ıa llegar a ser A?ad = ∅, si toda la frontera de G ˆ est´ a fuera de G. Por otra parte, se dice que un subconjunto A?cc ⊆ A? es una clase completa de acciones si, para cualquier α 6∈ A?cc , existe una acci´on α0 ∈ A?cc tal que α0 domina a α.

3.3. Admisibilidad y completitud

63

A? es, en s´ı misma, una clase completa trivial. Pero, encontrar una clase completa A?cc , mucho menor que A? , es un paso importante en la resoluci´on de un problema de decisi´ on, puesto que permite limitar la b´ usqueda de la “mejor” acci´ on al conjunto A?cc , sabiendo que las de A? − A?cc son peores, puesto que est´ an dominadas. Adem´ as, para que la simplificaci´on sea lo mayor posible, lo m´ as interesante ser´ıa encontrar una clase completa minimal: aquella clase completa A?cc que no contiene otra clase completa m´ as peque˜ na. Es decir, que ning´ un subconjunto propio de A?cc es clase completa. En el gr´ afico de la izquierda se representan en rojo los puntos correspondientes a una clase completa minimal A?cc , con la proˆ est´ piedad de que todo punto de G a doˆ G minado por alguno correspondiente a A?cc . ˆ estuviese En caso de que la frontera de G ˆ fuera de G, las clases completas tendr´ıan A?cc que ser franjas, de un cierto “grosor”, en ˆ el interior de G. No habr´ıa entonces una clase completa minimal, de la misma manera que entre los intervalos (0, ε) no hay ninguno que sea m´ınimo. Proposici´ on 3.3 Si existe una clase completa minimal, es el conjunto de acciones admisibles A?ad . Demostraci´ on: Desde luego, si α ∈ A?ad , α tiene que pertenecer a cualquier clase ? completa Acc ; porque no hay otra acci´on que domine a α y, sin embargo, α debe ser dominada por alguna acci´on de A?cc . As´ı pues, A?ad ⊂ A?cc . Si existe una clase completa minimal A?ccm , entre dos acciones α, α0 ∈ A?ccm no puede ser que α domine a α0 , ni que α0 domine a α, porque si no la dominada podr´ıa ser eliminada de A?ccm , sin que dejase de ser clase completa, y habr´ıamos obtenido una clase completa m´as peque˜ na. ? Sea α ∈ Accm y supongamos que α 6∈ A?ad ; entonces, existe α0 que domina a α. Si fuese α0 ∈ A?ccm , tal y como hemos dicho, ser´ıa contradictorio que α0 domine a α. En caso contrario, α0 6∈ A?ccm y habr´ıa una acci´on α00 ∈ A?ccm que domina a α0 y, por consiguiente, tambi´en domina a α; lo cual vuelve a ser contradictorio. En definitiva, A?ccm ⊂ A?ad .

En virtud de este resultado, la u ´nica candidata a ser clase completa mini? mal es el conjunto Aad de acciones admisibles. Si A?ad es clase completa, es tambi´en clase completa minimal; mientras que, si no lo es, la clase completa minimal no existe.

64

Cap´ıtulo 3. Decisiones Bayes y minimax

Ejemplo 3.3 En un problema de decisi´on con Θ = {0, 1} y A = (−1, 3), la funci´ on de p´erdida es  3 + 2a si a ∈ (−1, 0], L(0, a) = 3 − |a| y L(1, a) = 3 − a/2 si a ∈ [0, 2). Para a ∈ (−1, 0], el punto asociado (3 + a, 3 + 2a) recorre el segmento de extremos (2, 1) y (3, 3). Y, al variar a ∈ [0, 3), el punto (3 − a, 3 − a/2) recorre el segmento de extremos (3, 3) y (0, 3/2). El conjunto de p´erdidas G aparece representado en la ˆ figura 3.3, junto con su envoltura convexa G.

x2 (3, 3)

3

G 2 (0, 3/2)

ˆ G

1

(2, 1)

x1 Figura 3.3: Conjunto de p´erdidas 1

2

3

Los puntos (2, 1) y (0, 3/2) no pertenecen a G, ni tampoco el segmento que los ˆ Es entonces evidente que no hay acciones admisibles: une tiene ning´ un punto en G. ? Aad = ∅. No hay, por tanto, clase completa minimal. De hecho, para obtener una clase completa hay que tomar una banda adyacente al lado azul del tri´angulo, de cualquier anchura ε > 0. Puesto que ε > 0 puede disminuirse tanto como se quiera, no existe ninguna clase completa m´as peque˜ na que todas las dem´ as. Si fuese A = [−1, 3), el punto (2, 1) pertenecer´ıa a G y a = −1 ser´ıa la u ´ nica acci´on admisible. Tampoco, en este caso, existir´ıa clase completa minimal. Con A = [−1, 3], los extremos (2, 1) y (0, 3/2) est´ an incluidos en G y el segmento ˆ Todas las acciones combinaci´ que los une est´ a incluido en G. on lineal convexa de a = −1 y a = 3 son admisibles. Adem´as, ahora, constituyen una clase completa minimal. Pero, obviamente, {−1, 3} no es una clase completa de acciones; se necesita a˜ nadirle todas las acciones aleatorizadas concentradas en {−1, 3}.

El conjunto A?ad de las acciones admisibles es clase completa en las condiciones siguientes: Proposici´ on 3.4 Si Θ es finito, la funci´on de p´erdida es acotada inferiorˆ es cerrado inferiormente, entonces A? mente y el conjunto de p´erdidas G ad es clase completa minimal. ˆ I ⊂ G, ˆ todas las acciones α con xα ∈ G ˆ I son admisibles. Demostraci´ on: Siendo G

3.3. Admisibilidad y completitud

65

ˆ I , k(xα ) ∩ G = H es un cerrado, convexo y no Si α ∈ A? es tal que xα 6∈ G vac´ıo. Sea y ∈ HI un punto de la frontera inferior de H; ser´a {y} = k(y) ∩ H = ˆ I y existe una acci´on admisible k(y) ∩ k(xα ) ∩ G = k(y) ∩ G. As´ı pues y ∈ G α0 ∈ A?ad tal que xα0 = y; como y ∈ k(xα ), resulta que α0 domina a α. Por consiguiente, A?ad es clase completa. Por otro lado, cualquier clase completa contiene a A?ad (v´ease la demostraci´on de la Proposici´on 3.3). Luego, A?ad es clase completa minimal.

En realidad, en las condiciones del resultado anterior, lo que ocurre es que ˆ I }. A?ad = {α ∈ A? | xα ∈ G

3.3.1.

Admisibilidad de las acciones Bayes

Generalmente las acciones obtenidas con el criterio de Bayes son admisibles. Un primer resultado en tal sentido es el siguiente: Proposici´ on 3.5 Si la acci´ on Bayes α frente a una distribuci´on π es u ´nica, α es admisible. Demostraci´ on: Si α no fuese admisible, existir´ıa α0 ∈ A? con L(θ, α0 ) ≤ L(θ, α) ∀θ ∈ Θ siendo la desigualdad estricta para alg´ un valor de θ. Entonces r(π, α0 ) ≤ r(π, α) y, dado que r(π, α) = ´ınf α∈A? r(π, α), necesariamente r(π, α0 ) = r(π, α). Luego α0 ser´ıa tambi´en acci´on Bayes frente a π.

En el caso en que Θ es finito, se puede establecer que toda acci´on Bayes frente a una distribuci´ on π, que asigna probabilidad positiva a todos los estados de la naturaleza, tiene que ser admisible. Esto es: Proposici´ on 3.6 Supongamos que Θ = {θ1 , . . . , θn } y que π es tal que πj > 0 ∀j = 1, . . . , n. Entonces, cualquier acci´on α ∈ A? , que sea Bayes frente a π, es admisible. Demostraci´ on: Si α no fuese admisible, existir´ıa α0 ∈ A? tal que un j0 . L(θj , α0 ) ≤ L(θj , α) ∀j ≤ n y L(θj0 , α0 ) < L(θj0 , α) para alg´ Dado que πj0 > 0, resultar´ıa entonces r(π, α0 ) =

n X

πj L(θj , α0 )
0, siempre existir´ an estrategias ε-minimax con las que se cumple V < sup L(θ, α) < V + ε. θ∈Θ

Para el caso en que Θ es finito, en la representaci´on geom´etrica del conjunto ˆ desde el punto de vista del criterio de Wald, son equivalentes de p´erdidas G, todos los puntos cuya m´ axima coordenada tenga un valor c fijo. xa6

x2

xa2

c2 c1

ˆ G

xa3

xa1

c0 xa5 xa4 c0

c1

c2

x1

Figura 3.4: Acci´on minimax En el caso bidimensional, la figura 3.4 representa las acciones equivalentes mediante semirrectas verdes con origen sobre la diagonal. Las de trazos corresponden a dos valores arbitrarios, c1 y c2 ; la l´ınea continua corresponde

3.4. Decisiones minimax

69

ˆ al menor valor c0 con el cual las semirrectas todav´ıa no son disjuntas con G. a en el v´ertice de As´ı que c0 coincide con el valor V y la acci´on minimax est´ contacto (•). Con tres estados de la naturaleza, si se piensa en el gr´ afico tridimensional, ˆ ser´ G a un poliedro en IR3 . Las acciones equivalentes, con m´ axθ L(θ, α) = c, se representan mediante puntos de un diedro, con v´ertice en el punto (c, c, c) de la diagonal x1 = x2 = x3 . Y, nuevamente, se trata de buscar el menor ˆ valor de c para el que el diedro todav´ıa corte a G. No es cierto, sin embargo, que la acci´on minimax se represente siempre mediante un punto de la diagonal, con todas sus coordenadas iguales. La figura 3.5 muestra un conjunto de riesgo en el que la acci´on minimax no est´ a sobre la diagonal y, adem´ as, no es u ´nica. En dos dimensiones, est´ a claro que esto s´ olo puede ocurrir si existe una acci´on no aleatorizada que sea minimax, pero al aumentar el n´ umero de estados de la naturaleza la situaci´ on general es m´ as compleja (v´ease el ejemplo 3.6). x2 c2 c1

ˆ G

c0

c0

c1

c2

x1

Figura 3.5: Diversas acciones minimax Ejemplo 3.4 La figura 3.4 es la representaci´on del problema de decisi´on:

a1 a2 a3 a4 a5 a6

θ1

θ2

5 5 10 3 30 3 2 3

10 8 30 7 20 5 0 0 75 10 3 40 8

Como se ve en la figura, la acci´on aleatorizada minimax corresponde a una combinaci´ on lineal convexa de las acciones a3 y a5 . De hecho, a3 y a5 son las acciones no aleatorizadas con menor valor del criterio m´axθ L(θ, a) (2 y 20 5 respectivamente). Por consiguiente, la acci´on minimax es de la forma α = (0, 0, α, 0, 1 − α, 0), que asigna pesos α y 1 − α a a3 y a5 . Con ella, las p´erdidas son:

70

Cap´ıtulo 3. Decisiones Bayes y minimax

L(θ1 , α) = 10 3α + 2(1 − α) = 2 − 00 7α,

L(θ2 , α) = 20 5α + 10 3(1 − α) = 10 3 + 10 2α, de forma que m´ax L(θ, α) = θ



2 − 00 7α 10 3 + 10 2α

si α ≤ 7/19, si α ≥ 7/19.

El m´ınimo de esta funci´ on se alcanza para α = 7/19 y la estrategia minimax es α = (0, 0, 7/19, 0, 12/19, 0). Proporciona V = 331/190 como valor del problema de decisi´on. Alternativamente, la recta que une los puntos a5 : (2, 10 3) y a3 : (10 3, 20 5) tiene por ecuaciones param´etricas  x1 = 2 − 00 7α x2 = 10 3 + 10 2α y corta a la diagonal, x1 = x2 , en el punto correspondiente a α = 7/19, cuyas coordenadas son ambas 331/190. Ejemplo 3.5 En el caso del ejemplo 3.2, representado en la figura 3.2, la acci´on minimax es no aleatorizada y corresponde al punto de intersecci´on de la diagonal con la curva [x1 = a2 + 1, x2 = a2 − 2a + 2]. Tal punto se obtiene con a = 1/2 y est´ a situado en (5/4, 5/4). El valor del problema de decisi´on es V = 5/4.

3.4.1.

Distribuci´ on menos favorable

De forma sim´etrica a la acci´on aleatorizada minimax, cabe preguntarse cu´ al ser´ a la distribuci´ on π sobre los estados de la naturaleza que resulta m´ as desfavorable para el decisor o, en otros t´erminos, con la que la naturaleza actuar´ıa si quisiese maximizar su ganancia. Representando por Θ? el conjunto de distribuciones π sobre Θ, la distribuci´ on menos favorable es aquella π0 , para la que se tiene rˆ(π0 ) = sup rˆ(π) = sup ´ınf r(π, a). π∈Θ?

π∈Θ? a∈A

Es como si la naturaleza valorase cada uno de sus posibles comportamientos, π, mediante el ´ınf a∈A r(π, a) y escogiese aquella π0 que maximiza tal valoraci´ on. Se trata del criterio maximin, totalmente sim´etrico al que emplea el decisor cuando busca su acci´on aleatorizada minimax.

3.4. Decisiones minimax

71

Desde otro punto de vista, puede observarse en las figuras 3.4 y 3.5 que, si el decisor supone que el estado de la naturaleza se elige con una distribuci´on π ˆ en el arbitraria, trazar´ a la perpendicular a π tangente inferiormente a G; punto de tangencia hallar´ a la acci´on Bayes α frente a π y el punto de corte con la diagonal (ˆ r (π), rˆ(π)) estar´ a siempre por debajo del punto (c0 , c0 ). S´ olo cuando π se elija para hacer que la acci´on minimax sea Bayes frente a π, se conseguir´a que (ˆ r (π), rˆ(π)) alcance su posici´ on m´ as alta posible (c0 , c0 ). Dicha π es precisamente π0 , que se denomina “menos favorable” porque cualquier otra da menos riesgo Bayes que π0 . Dado que c0 es el valor del problema de decisi´ on, el comportamiento descrito conlleva que rˆ(π0 ) = c0 o, con toda precisi´on, sup ´ınf r(π, a) = ´ınf ? sup L(θ, α).

π∈Θ? a∈A

α∈A θ∈Θ

Esto no es una peculiaridad de los casos representados en las figuras 3.4 y 3.5, sino que se cumple en gran n´ umero de situaciones, como se probar´a en el apartado siguiente. As´ı mismo, la demostraci´on establece que la acci´on minimax, con la que se alcanza el ´ınfimo del segundo miembro, proporciona tambi´en el riesgo Bayes rˆ(π0 ) frente a la distribuci´on m´ as desfavorable.

3.4.2.

Teorema del minimax

Se pretende ahora aplicar el teorema del hiperplano separador, incluido en la Proposici´ on 3.16 del ap´endice, para probar una versi´ on del Teorema del minimax que establezca los hechos reci´en mencionados. Para mayor claridad, se emplear´a aqu´ı la notaci´ on L(π, α) para designar la p´erdida del decisor cuando π es la distribuci´on sobre los estados de la naturaleza y se emplea la acci´ on aleatorizada α ∈ A? . Expl´ıcitamente, en lugar de r(π, α) se denotar´a Z Z Z Z L(θ, a) π(dθ)α(da) L(θ, a) α(da)π(dθ) = L(π, α) = Θ

A

A

Θ

supuesto que se puede aplicar el teorema de Fubini (para lo cual basta que L(θ, a) est´e acotada inferiormente). Obs´ervese que para cualquier α ∈ A? , Z L(θ, α) π(dθ) ≤ sup L(θ, α); L(π, α) = θ∈Θ

Θ

luego, como Θ ⊂ Θ? , ser´ a sup L(π, α) = sup L(θ, α).

π∈Θ?

θ∈Θ

72

Cap´ıtulo 3. Decisiones Bayes y minimax

Sim´etricamente, para cada π ∈ Θ? , ´ınf L(π, α) = ´ınf L(π, a).

α∈A?

a∈A

Ya se sab´ıa que, frente a una determinada π, no se consigue menos riesgo Bayes con acciones aleatorizadas α que con acciones a ∈ A. Al rev´es, frente a una determinada acci´on aleatorizada α, no se consigue mayor p´erdida usando todo Θ? que limit´ andose a usar s´ olo Θ. Por otra parte, para cualesquiera π0 ∈ Θ? y α0 ∈ A? , es ´ınf L(π0 , α) ≤ sup L(π, α0 )

α∈A?

π∈Θ?

pues L(π0 , α0 ) est´ a entre ambos; por consiguiente sup ´ınf ? L(π, α) ≤ ´ınf ? sup L(π, α).

π∈Θ? α∈A

α∈A π∈Θ?

El miembro izquierdo, V , es lo m´ as que puede ganar la naturaleza, teniendo en cuenta que, frente a cualquier π, el decisor tratar´ a de minimizar sus p´erdidas. El miembro derecho, V , es lo menos que puede perder el decisor, en el supuesto de que, frente a cualquier estrategia α, la naturaleza trate de maximizar sus ganancias. En el contexto de los juegos, cuando sea V = V , ambos jugadores coincidir´an en que el valor com´ un, V , es lo mejor que pueden conseguir y se dice que el juego est´ a determinado y tiene valor V . ˆ es acotado Proposici´ on 3.10 Si Θ es finito y el conjunto de p´erdidas G inferiormente, se verifica sup ´ınf ? L(π, α) = ´ınf ? sup L(π, α)

π∈Θ? α∈A

α∈A π∈Θ?

y existe una distribuci´on menos favorable π0 ∈ Θ? tal que ´ınf α∈A? L(π0 , α) coincide con el valor com´ un V de los dos miembros de la igualdad. ˆ Adem´ as, cuando G es cerrado inferiormente, existe una acci´on aleatorizada α0 ∈ A? que es admisible y minimax, de manera que supπ∈Θ? L(π, α0 ) coincide con V . En este caso, α0 es acci´on Bayes frente a π0 . Demostraci´ on: Si Θ tiene n elementos, sea v = (v, . . . , v) ∈ IRn y ˆ = ∅} V = sup{v ∈ IR | k(v) ∩ G

(3.3)

ˆ (y lo que da el punto sobre la diagonal de IRn , con el que k(v) es tangente a G ˆ que est´en en G). ˆ Ver figura 3.6. corta o no, seg´ un los puntos de la frontera de G

3.4. Decisiones minimax

73

V + 1/k V

xα k

v

x0 H

ˆ G

y

Figura 3.6: Demostraci´ on del Teorema del minimax

ˆ de forma que existe αk ∈ A? Para todo k ∈ IN , si v = V + 1/k, k(v) s´ı corta a G; tal que xαk ∈ k(v) o, lo que es lo mismo, L(θj , αk ) ≤ V + 1/k para todo θj ∈ Θ. Por consiguiente, para cualquier π ∈ Θ? , es L(π, αk ) ≤ V + 1/k; de donde sup L(π, αk ) ≤ V + 1/k

y

π∈Θ?

V = ´ınf ? sup L(π, α) ≤ V. α∈A π∈Θ?

ˆ son convexos disjuntos, porque si Ahora bien, con v = V , el interior de k(V ) y G ˆ hubiese un punto interior a k(V ) en G, el supremo en (3.3) ser´ıa menor que V . As´ı pues, seg´ un la Proposici´on 3.16, existe un hiperplano π00 x = c tal que π00 x ≥ c ˆ y π 0 x ≤ c para cualquier x en el interior de k(V ) (2 ). Las para cualquier x ∈ G 0 coordenadas π0j de π0 son no negativas, ya que, si fuese π0j < 0, tomando un punto x interior a k(V ) con xj muy negativa, se conseguir´ıa incumplir π00 x ≤ c; luego π0 puede normalizarse para que sea un vector de probabilidad (perteneciente a Θ? ). Y, adem´as, cuando x en el interior de k(V ) se acerque a la esquina V , se tiene c ≥ l´ım π00 x = π00 V = V. x→V

ˆ se cumple En consecuencia, para cualquier α ∈ A? , como xα ∈ G, L(π0 , α) = π00 xα ≥ c ≥ V ; por tanto ´ınf L(π0 , α) ≥ V

α∈A?

y

V = sup ´ınf ? L(π, α) ≥ V. π∈Θ? α∈A

on menos favorable. Resumiendo, V = V = V y π0 es la distribuci´ ˆ sea cerrado inferiormente, las acciones αk son tales que xα En el caso en que G k tiene alg´ un punto de acumulaci´ on x0 (porque es una sucesi´on acotada superiormente 2

En la figura π = (1, 0), pero en m´ as dimensiones hay m´ as posibilidades.

74

Cap´ıtulo 3. Decisiones Bayes y minimax

por V + 1 e inferiormente por la cota inferior de las p´erdidas). Desde luego, {x0 } ⊂ k(x0 ) ∩ G = H, que es un cerrado, convexo y no vac´ıo. Sea y ∈ HI un punto de la frontera inferior de H; ser´a {y} = k(y) ∩ H = k(y) ∩ k(x0 ) ∩ G = k(y) ∩ G. ˆI ⊂ G ˆ y existe una acci´on admisible α0 tal que xα0 = y. Desde Entonces, y ∈ G

luego, y est´ a en la frontera de k(V ), lo cual significa que m´axθ∈Θ L(θ, α0 ) = V y ˆ con α0 es minimax. Adem´as, L(π0 , α0 ) = π00 y = V ≤ c ≤ π00 x para todo x ∈ G, lo cual α0 es Bayes frente a π0 .

Por supuesto, el resultado anterior se cumple cuando A es finito, de forma que todos los juegos finitos tienen valor (3 ). Tambi´en existen extensiones del teorema para el caso en que Θ no sea finito, pero no ser´ an consideradas aqu´ı.

3.4.3.

M´ etodos de determinaci´ on de la estrategia minimax

I M´ etodo del simplex: Con un n´ umero finito m de acciones en A, las

acciones aleatorizadas son del tipo α = (α1 , . . . , αm ) con α1 , . . . , αm ∈ [0, 1] P y m α usqueda de la i=1 i = 1. Si a la vez hay n estados de la naturaleza, la b´ acci´ on aleatorizada minimax consiste en determinar los valores de α1 , . . . , αm que verifiquen m X i=1

αi L(θj , ai ) ≤ V ∀j = 1, . . . , n,

α1 , . . . , αm ≥ 0,

m X

αi = 1

i=1

donde V es el valor desconocido del problema de decisi´ on. En efecto, las n primeras desigualdades garantizan que ser´ a m´ axθ L(θ, α) ≤ V y, por definici´ on de V , es forzoso que sea m´ axθ L(θ, α) ≥ V cualquiera que sea α. Siempre se puede suponer que es V > 0, a costa de sumarle una constante c suficientemente grande a todas las p´erdidas L(θ, a); lo cual, evidentemente, s´ olo incrementa en c el valor del problema, sin alterar la acci´on ´optima. Entonces, dividiendo por V y denominando yi = αi /V , la formulaci´ on de 3 Lo que ocurre, si el teorema no se cumple, se puede ilustrar pensando en jugar a “escribir el n´ umero m´ as grande”: A = Θ = IN y la funci´ on de p´erdida es L(θ, a) = 1 si a < θ y L(θ, a) = −1 si a ≥ θ; con la que el decisor pierde un euro si escribe un n´ umero inferior al de su contrincante y lo gana en caso contrario. Desde luego, m´ axθ L(θ, a) = 1 y V = 1; pero m´ına L(θ, a) = −1 y V = −1. As´ı que el juego no tiene valor. De hecho, es un juego impracticable; un jugador puede pensar en escribir 10ˆ10ˆ10ˆ10 . . . aunque, por si al otro jugador se le ha ocurrido lo mismo, nunca debe dejar de escribir antes que ´el. Y, al otro jugador le sucede lo mismo; as´ı que estar´ an escribiendo indefinidamente. (No se puede limitar el tiempo ni el espacio, porque entonces ya no es IN el conjunto de acciones posibles).

3.4. Decisiones minimax

75

las condiciones anteriores se transforma en: m X i=1

yi L(θj , ai ) ≤ 1 ∀j = 1, . . . , n,

y1 , . . . , ym ≥ 0 y

m X

yi = 1/V.

i=1

Puesto que se trata de encontrar el menor valor de V , o el mayor valor de 1/V , para el que existe soluci´ on del problema anterior, ello equivale resolver el problema de programaci´on lineal maximizar

m X

yi

(3.4)

i=1

sujeto a y1 , . . . , ym ≥ 0 y

m X i=1

yi L(θj , ai ) ≤ 1 ∀j = 1, . . . , n

donde L(θj , ai ) son los t´erminos de la matriz de p´erdidas. ? de este problema, el m´ aximo obtenido Una vez la soluci´ on y1? , . . . , ym Pmhallada ? ser´ a i=1 yi = 1/V ; de manera que V = 1/

m X

yi?

y, por tanto,

αi =

yi? /

m X i=1

i=1

yi? ∀i = 1, . . . , m.

Ahora, conociendo la acci´ on minimax α = (α1 , . . . , αm ), se sabe que la distribuci´ on menos favorable π0 es aquella frente a la que α es acci´on Bayes, siendo V el riesgo Bayes de α frente a π0 . La determinaci´on de π0 se reduce, por tanto, a resolver el sistema de ecuaciones ( Pn

j=1 πj L(θj , ai )

Pn

j=1 πj

=V

para todo i con αi > 0,

= 1.

Ejemplo 3.6 Sea el problema de decisi´on:

a1 a2 a3 a4

θ1

θ2

θ3

2 4 5 3

1 3 2 5

6 0 5 7

(3.5)

76

Cap´ıtulo 3. Decisiones Bayes y minimax

Puede plantearse directamente el problema de programaci´on lineal (3.4); pero, para trabajar menos, puede observarse que la acci´on a4 est´ a dominada por a1 , de forma que puede eliminarse, sabiendo que no intervendr´ a en la soluci´on. As´ı, el problema de programaci´on lineal se formula:  2y1 +4y2 +5y3 ≤ 1    y1 +3y3 +2y3 ≤ 1 maximizar y1 + y2 + y3 sujeto a 6y +5y3 ≤ 1  1   y1 , y2 , y3 ≥ 0.

La segunda restricci´on es in´ util a la vista de la primera (ello corresponde a que, como estrategia de la naturaleza, la primera columna domina a la segunda, una vez eliminada la cuarta fila). El poliedro que definen las otras dos restricciones tiene por v´ertices (1/6, 0, 0), (0, 1/4, 0), (0, 0, 1/5) y (1/6, 1/6, 0) (adem´ as del origen). La funci´ on objetivo, y1 + y2 + y3 , se hace m´axima en el u ´ltimo, en el que vale 1/3.

1/4

1/6

y1

y2 (1/6, 1/6, 0)

(5, 2, 5)

1 1 2 + 4 = 3, 2 2 1 1 L(θ2 , α) = 1 + 3 = 2, 2 2 1 1 L(θ3 , α) = 6 + 0 = 3. 2 2

x3

L(θ1 , α) = (3, 2, 3)

x2

1/5

Por consiguiente, V = 3 es el valor del problema de decisi´on y se alcanza con la estrategia aleatorizada α = (1/2, 1/2, 0, 0), que pondera por igual las decisiones a1 y a2 , ignorando a3 y a4 . Las p´erdidas asociadas a α son

(3, 5, 7)

(2, 1, 6)

y3

(4, 3, 0)

x1

ˆ aparece represenEl conjunto de p´erdidas G tado a la izquierda, junto con el punto correspondiente a la acci´on aleatorizada minimax (•), que no est´ a sobre la diagonal x1 = x2 = x3 .

La distribuci´ on m´as desfavorable se obtiene del sistema (3.5) que, como α3 = α4 = 0, se reduce a   2π1 + π2 + 6π3 = 3, 4π1 + 3π2 = 3,  π1 + π2 + π3 = 1.

La soluci´on es π0 = (3/4, 0, 1/4). El plano 3x1 /4 + x3 /4 = 3, perpendicular a π0 , es tangente, a lo largo del segmento (2, 1, 6)—(4, 3, 0), al conjunto de riesgos representado en el u ´ltimo gr´afico.

3.4. Decisiones minimax

77

Frente a cualquier otra distribuci´ on π, el riesgo Bayes es menor. Por ejemplo, frente a π = (1/6, 1/3, 1/2), el menor valor de x1 /6 + x2 /3 + x3 /2 es 5/3, que se alcanza en el v´ertice (4, 3, 0), correspondiente a a2 . Tambi´en, frente a π = (3/5, 1/5, 1/5), el menor valor de 3x1 /5 + x2 /5 + x3 /5 es 13/5 y se alcanza en el v´ertice (2, 1, 6) correspondiente a a1 . I M´ etodo directo: En las ocasiones en que pueda determinarse expl´ıci-

tamente el valor de rˆ(π) para cada π ∈ Θ? , se puede tratar de hallar directamente la distribuci´ on menos favorable π0 en la que rˆ(π) es m´ aximo y, despu´es, entre las acciones Bayes frente a π0 averiguar cu´ al es la minimax. Para ello, puede usarse el hecho siguiente: Proposici´ on 3.11 Si α ∈ A? es Bayes frente a π y L(θ, α) ≤ r(π, α) para todo θ ∈ Θ, entonces α es acci´ on minimax y π es la distribuci´on menos favorable, siendo r(π, α) el valor com´ un de V y V . Demostraci´ on: Basta observar que, si se cumple la hip´otesis, V ≤ sup L(θ, α) ≤ r(π, α) = ´ınf ? r(π, α) ≤ V . θ∈Θ

α∈A

Como es siempre V ≤ V , todos los t´erminos de la desigualdad anterior son iguales; luego α es minimax y π la distribuci´ on menos favorable. Ejemplo 3.7 En el mismo problema del ejemplo anterior, se sabe que la acci´on a4 est´ a dominada y se puede eliminar; a continuaci´on, θ2 est´ a dominada por θ1 y no intervendr´ a en la distribuci´ on m´as desfavorable. Esto reduce el problema de decisi´on a:

a1 a2 a3

θ1

θ3

2 4 5

6 0 5

Con distribuci´ on (π, 1−π) sobre los estados de la naturaleza,   2π + 6(1 − π) = 6 − 4π si a = a1 , 4π si a = a2 , r(π, a) =  5 si a = a3 ;

de modo que, representando las tres funciones de π ∈ [0, 1], resulta  6 − 4π si π ≥ 3/4 rˆ(π) = ´ınf r(π, a) = y sup ´ınf r(π, a) = 3 4π si π ≤ 3/4 a a π

se alcanza para π0 = 3/4. Luego, π0 = (3/4, 0, 1/4) es la distribuci´ on menos favorable (del problema original) y el valor es V = 3. Tambi´en, las acciones Bayes frente a (π, 1 − π) son a2 si π < 3/4 y a1 si π > 3/4; produciendo, en cualquier caso, un m´ınimo riesgo Bayes rˆ(π) < 3. Para π = 3/4, es acci´on Bayes cualquier distribuci´ on (α, 1 − α) sobre {a1 , a2 } y rˆ(3/4) = 3.

78

Cap´ıtulo 3. Decisiones Bayes y minimax

Entre estas u ´ltimas acciones Bayes frente a la distribuci´ on menos favorable, hay que buscar la acci´on minimax; sin necesidad de asignar probabilidad ninguna a a3 . Entonces,   4 − 2α si θ = θ1 , 4 − 2α si α ≤ 1/2, L(θ, α) = y sup L(θ, α) = 6α si θ = θ2 6α si α ≥ 1/2. θ El m´ınimo se alcanza para α = 1/2, de modo que α = (1/2, 1/2, 0, 0) es la acci´on minimax (del problema original). La proposici´on 3.11 abrevia un poco este u ´ ltimo c´ alculo: si ha de ser 4 − 2α ≤ 3 y 6α ≤ 3, necesariamente α = 1/2.

El m´etodo geom´etrico, para el problema reducido, tambi´en confirma los resultados. La distribuci´ on menos favorable es perpendicular al lado (2, 6) − (4, 0) del tri´angulo. Y, la acci´on minimax se encuentra sobre la diagonal, en el punto medio del citado lado del tri´angulo. Pueden imaginarse otras distribuciones π, por debajo o por encima de π0 ; para las primeras ser´a acci´on Bayes a1 y para las segundas a2 . El punto de corte con la diagonal (ˆ r (π), rˆ(π)) est´ a siempre por debajo de (3, 3).

(2, 6) (5, 5)

3

π0 3 (4, 0)

I M´ etodo de ecualizaci´ on: Con un n´ umero finito de estados de la naturaleza, el punto xα asociado a la acci´on minimax α est´ a con frecuencia sobre la diagonal, donde todos las p´erdidas son iguales. Generalizando esta idea al caso de un n´ umero arbitrario de estados de la naturaleza, una acci´ on aleatorizada α ∈ A? se dice ecualizadora si L(θ, α) = L(θ 0 , α) para todo θ, θ 0 ∈ Θ. El siguiente corolario de la Proposici´ on 3.11 proporciona condiciones bajo las cuales una regla ecualizadora es minimax.

Proposici´ on 3.12 Si α es ecualizadora y es Bayes frente a π, entonces α es minimax y π es la distribuci´on menos favorable, siendo L(θ, α) el valor com´ un de V y V . Demostraci´ on: Por ser α ecualizadora, L(θ, α) tiene un valor constante K, independiente de θ, y se verifica Z r(π, α) = L(θ, α) π(dθ) = K Θ

?

para cualquier π ∈ Θ . Supuesto que α es Bayes frente a π, se cumple la hip´otesis de la Proposici´on 3.11 y la conclusi´ on queda establecida.

Si hay la suerte de que la acci´on minimax sea ecualizadora, ´este es el m´etodo m´ as r´ apido para hallarla. As´ı ocurre en la situaci´ on siguiente.

3.5. Ejemplos adicionales

79

Ejemplo 3.8 En el problema de decisi´on

a1 a2 a3

θ1

θ2

θ3

−2 4 7

3 −3 3

2 8 −1

la u ´nica acci´on ecualizadora, que debe cumplir −2α1 + 4α2 + 7α3 = 3α1 − 3α2 + 3α3 −2α1 + 4α2 + 7α3 = 2α1 + 8α2 − α3 α1 + α2 + α3 = 1,

es α = (1/2, 1/6, 1/3). Comprobar que es acci´on Bayes es tan simple como verificar que hay un vector π ortogonal al plano determinado por las tres filas de la matriz de p´erdidas. Y, efectivamente, π = (1/8, 1/2, 3/8) lo es.

3.5.

Ejemplos adicionales

Los ejemplos de esta secci´ on se prestan a recapitular los conceptos expuestos en este cap´ıtulo e introducen algunas de las consideraciones posteriores. El primer ejemplo es sencillo, pero sirve de introducci´ on al siguiente, que consta de experimentaci´ on. Debe recordarse que la experimentaci´on supone poder adoptar una acci´ on en funci´on del resultado del experimento, como se indic´ o en la secci´ on 1.2.4. El problema de decisi´ on pasa, entonces a ser (D, θ, R) donde las reglas de decisi´ on d ∈ D hacen el papel de acciones, lo cual supone un cambio conceptual y de nomenclatura; a la vez, la funci´on de p´erdida es sustituida por la funci´on de riesgo, definida en (1.1). El tercer ejemplo se diferencia del anterior en que hay un continuo de estados de la naturaleza; las interpretaciones geom´etricas dejan de tener sentido, pero las ideas son las mismas. Ejemplo 3.9 Dos urnas contienen bolas blancas y negras, siendo θ1 = 1/3 y θ2 = 2/3 las proporciones respectivas de bolas blancas. Se facilita una de ellas al decisor que, sin poder examinar su contenido, debe emitir un pron´ ostico num´erico a de forma a minimizar la p´erdida L(θ, a) = (a − θ)2 (medida en miles de euros).

80

Cap´ıtulo 3. Decisiones Bayes y minimax

El decisor observa, en primer lugar que, cualquier acci´on a > 2/3 est´ a dominada por la acci´on a0 = 2/3; pues si a > 2/3: 1 = L(θ1 , 2/3), 9 L(θ2 , a) = (a − 2/3)2 > 0 = L(θ2 , 2/3).

L(θ1 , a) = (a − 1/3)2 >

De manera similar elimina las acciones a < 1/3 x2 y considera por tanto A = [1/3, 2/3]. Para ma- 0.3 yor seguridad, representa el conjunto de p´erdi- 0.2 das, G, constituido por la curva de ecuaciones 0.1 param´etricas x1 = (a − 1/3)2 ,

x2 = (a − 2/3)2 .

x1 0.2

0.4

0.6

Confirma que las acciones admisibles son las de A = [1/3, 2/3] (el arco rojo entre los puntos (0, 1/9) y (1/9, 0)) y, adem´as, forman una clase completa minimal (v´ease las Proposiciones 3.3 y 3.4). No hay por tanto necesidad de emplear acciones aleatorizadas, ni acciones a 6∈ [1/3, 2/3]. Si supone que π y 1 − π son las probabilidades de que tenga la urna θ1 y θ2 respectivamente, el riesgo Bayes en que incurre con la acci´on a es π

r(π, a) = π(a − 1/3)2 + (1 − π)(a − 2/3)2 4 π 2 = a2 − a(2 − π) + − , 3 9 3

que se hace m´ınimo en aπ = (2 − π)/3, que es la acci´on Bayes frente a π, y da un m´ınimo riesgo Bayes rˆ(π) = π(1 − π)/9. A medida que π recorre el intervalo [0, 1], la acci´on Bayes recorre el intervalo [1/3, 2/3], en sinton´ıa con las Proposiciones 3.7 y 3.8. En la figura se representa una cierta π y la construcci´ on de la acci´on Bayes correspondiente. El m´aximo de rˆ(π) se alcanza para π = 1/2, de modo que π0 = (1/2, 1/2) es la distribuci´ on menos favorable. La acci´on minimax, Bayes frente a π0 , es a = 1/2 y produce un valor V = 1/36. Ejemplo 3.10 En la misma situaci´ on del ejemplo anterior, el decisor puede observar el color de una u ´nica bola extra´ıda de la urna, antes de adoptar su decisi´on. Ello le permite emplear reglas de decisi´on, funci´ on del color X ∈ {B, N } de la bola observada:  x si X = B, d(X) = y si X = N, que pueden identificarse con pares d = (x, y) ∈ [1/3, 2/3]2 = D, ya que puede ignorar las acciones dominadas a 6∈ [1/3, 2/3]. Puesto que hay probabilidad θ de

3.5. Ejemplos adicionales

81

observar una bola blanca, y elegir la acci´on x, y probabilidad 1 − θ de observar bola negra y elegir la acci´on y, el riesgo de la regla de decisi´on d = (x, y) es R(θ, (x, y)) = (x − θ)2 θ + (y − θ)2 (1 − θ)  1 2   (x − 1/3)2 + (y − 1/3)2 3 3 =   2 (x − 2/3)2 + 1 (y − 2/3)2 3 3

si θ = 1/3, si θ = 2/3.

Obs´ervese que R(2/3, (x, y)) = R(1/3, (1 − y, 1 − x)).

Como D = [1/3, 2/3]2 es convexo y acotado y las funciones de riesgo son convexas (son dos paraboloides), la proposici´on 3.9 asegura que se puede prescindir de las reglas de decisi´on aleatorizadas. Sin embargo, el conjunto G de p´erdidas –o, mejor di1 9 cho, de riegos– es un conjunto complicado, descrito por 2 2 el punto (R(θ1 , (x, y)), R(θ2 , (x, y))) al variar (x, y) ∈ D. , 27 ) ( 27 Un programa de ordenador permite ver que tiene una apariencia como la que figura al margen. La frontera in- x2 ferior, que constituye el conjunto de reglas de decisi´on G admisibles y es una clase completa, puede determinarse hallando las reglas Bayes frente a las distintas distribuciones π = (π, 1 − π) sobre los estados de la naturaleza. 1 x1 9 Concretamente, el riesgo Bayes de d = (x, y) frente a π es     1 2 2 1 r(π, (x, y)) = π (x − 1/3)2 + (y − 1/3)2 + (1 − π) (x − 2/3)2 + (y − 2/3)2 . 3 3 3 3 Las derivadas respecto x e y ∂r 2π 4(1 − π) 4 − 2π 6π − 8 = (x − 1/3) + (x − 2/3) = x+ ∂x 3 3 3 9 4π 2(1 − π) 2π + 2 4 ∂r = (y − 1/3) + (y − 2/3) = y− ∂y 3 3 3 9 se anulan en (xπ , yπ ) =



4 − 3π 2 , 3(2 − π) 3(π + 1)



cuyas coordenadas decrecen ambas de 2/3 a 1/3 cuando π var´ıa en [0, 1]. Evidentemente, el punto (xπ , yπ ) corresponde a un m´ınimo de la funci´ on r(π, (x, y)), de forma que es la regla de decisi´on Bayes frente a π y produce un m´ınimo riesgo Bayes frente a π: rˆ(π) = r(π, (xπ , yπ )) =

2π(1 − π) . 9(π + 1)(2 − π)

Respecto al m´ınimo riesgo Bayes del ejemplo anterior, hay una disminuci´ on, en un factor 2/(π + 1)(2 − π) < 1, debida a la observaci´ on de la bola extra´ıda de la urna.

82

Cap´ıtulo 3. Decisiones Bayes y minimax

En virtud de las Proposiciones 3.5 y 3.7, el conjunto de reglas de decisi´on Bayes coincide con el de reglas de decisi´on admisibles; ello es claro, atendiendo a la representaci´on gr´ afica del conjunto de riesgos G. Cabe observar que xπ = 1 − y1−π y, reemplazando con cuidado, se obtiene R(θ, (xπ , yπ )) =



f (π) f (1 − π)

si θ = 1/3 si θ = 2/3

donde f (π) =

2(1 − π)2 (2 + π 2 ) . 9(1 + π)2 (2 − π)2

Por tanto, [x1 = f (π), x2 = f (1 − π)] con π ∈ [0, 1], son las ecuaciones param´etricas de la frontera inferior de G. El m´aximo de rˆ(π) se alcanza para π = 1/2, de modo que π0 = (1/2, 1/2) es la distribuci´ on menos favorable, igual que en el ejemplo anterior. La regla Bayes frente a π0 es (x1/2 , y1/2 ) = (5/9, 4/9) y es, tambi´en, la regla de decisi´on minimax. El valor resulta V = rˆ(1/2, 1/2) = 2/81 y, efectivamente, f (1/2) = 2/81, de manera que (2/81, 2/81) es el punto en el que la frontera inferior de G corta a la diagonal.

Ejemplo 3.9: An´ alisis Bayesiano La soluci´on del ejemplo anterior utiliza las mismas t´ecnicas del ejemplo 3.8; la u ´ nica diferencia es que en aqu´el el conjunto de acciones es A = [1/3, 2/3], que se sustituye por el conjunto de reglas de decisi´on d = (x, y) ∈ D = [1/3, 2/3]2, al introducir la experimentaci´on. Hay, sin embargo, otra forma de llegar a la soluci´on, mediante el uso de la f´ormula de Bayes. Para determinar la regla de decisi´on Bayes frente a π, se cuenta con la distribuci´ on a priori: P{θ = 1/3} = π,

P{θ = 2/3} = 1 − π

y, por otro lado, con la distribuci´ on del resultado del experimento en funci´ on de θ: P{B | θ} = θ,

P{N | θ} = 1 − θ.

Ello permite hallar las probabilidades a posteriori de los estados de la naturaleza, una vez conocido el resultado del experimento. Concretamente, si la bola observada ha sido blanca, la distribuci´ on a posteriori atribuye probabilidades π π 1/3 = , π 1/3 + (1 − π)2/3 2−π 2 − 2π (1 − π)2/3 = , 1 − πB = P{θ = 2/3 | B} = π 1/3 + (1 − π)2/3 2−π πB = P{θ = 1/3 | B} =

on a a cada estado de la naturaleza. La acci´on Bayes aπB frente a la distribuci´ posteriori π B es entonces aπB =

2 − π/(2 − π) 4 − 3π = . 3 3(2 − π)

3.5. Ejemplos adicionales

83

An´alogamente, si se la bola extra´ıda ha sido negra: π2/3 2π = , π2/3 + (1 − π)1/3 π+1 1−π (1 − π)1/3 = ; = P{θ = 2/3 | N } = π2/3 + (1 − π)1/3 π+1

πN = P{θ = 1/3 | N } = 1 − πN

de forma que la acci´on Bayes frente a π N es aπN =

2 2 − 2π/(π + 1) = . 3 3(π + 1)

Se vuelve a obtener as´ı la regla de decisi´on Bayes (xπ , yπ ), mediante un procedimiento bastante m´as simple: es la regla de decisi´on que asigna, a cada posible observaci´ on, la acci´on Bayes sin experimentaci´on asociada a la distribuci´ on a posteriori dada la observaci´ on obtenida. Uno de los objetivos del estudio de la decisi´on con experimentaci´on ser´a establecer que, en condiciones generales, se produce la coincidencia observada en este caso particular. Ejemplo 3.11 Ahora se facilita al decisor una urna con una proporci´on θ ∈ [0, 1] = Θ de bolas blancas. Debe estimar θ mediante un n´ umero a ∈ [0, 1] = A, para minimizar la p´erdida L(θ, a) = (a − θ)2 , pero puede extraer una bola y observar su color. As´ı, sus reglas de decisi´on son (x, y) ∈ D = A2 , donde x es la estimaci´ on si observa bola blanca e y la estimaci´ on si observa bola negra. La funci´ on de riesgo es similar a la del ejemplo anterior R(θ, (x, y)) = θ(x − θ)2 + (1 − θ)(y − θ)2

= θ2 (1 + 2y − 2x) + θ(x2 − y 2 − 2y) + y 2

con la diferencia de que, en este caso, θ es cualquier valor en Θ. Frente a una distribuci´ on π en Θ, el riesgo Bayes de la regla de decisi´on (x, y) es r(π, (x, y)) = m2 (1 + 2y − 2x) + m1 (x2 − y 2 − 2y) + y 2 siendo m1 y m2 los momentos de primer y segundo orden de π que, para una distribuci´ on arbitraria en [0, 1], existen y verifican 0 ≤ m21 ≤ m2 ≤ m1 ≤ 1. Las derivadas de r(π, (x, y)): ∂r = −2m2 + 2m1 x ∂x ∂r = 2m2 − 2m1 − 2m1 y + 2y ∂y

    

se anulan en

 m2   xπ = m , 1 m1 − m2   yπ = . 1 − m1

Adem´as, en (xπ , yπ ) hay un m´ınimo absoluto de r(π, (x, y)), luego (xπ , yπ ) es la regla de decisi´on Bayes frente a π. Obs´ervese que 0 ≤ yπ ≤ xπ ≤ 1; es decir

84

Cap´ıtulo 3. Decisiones Bayes y minimax

cualquier regla Bayes da una estimaci´ on mayor de θ si se observa bola blanca que si se observa bola negra. El m´ınimo riesgo Bayes frente a π resulta rˆ(π) =

(m1 − m2 )(m2 − m21 ) . m1 (1 − m1 )

Tanto la regla de decisi´on Bayes, como el m´ınimo riesgo Bayes dependen exclusivamente de los dos primeros momentos de π. Para hallar el m´aximo de rˆ(π), la derivada respecto a m2 m1 + m21 − 2m2 ∂ˆ r = ∂m2 m1 (1 − m1 )

se anula en

m2 =

m1 + m21 2

y corresponde a un m´aximo de rˆ(π) para cada m1 fijo. Al reemplazar m2 por tal valor se obtiene m1 (1 − m1 ) m´ax rˆ(π) = m2 4 que alcanza su m´aximo para m1 = 1/2, al que le corresponde m2 = 3/8. Las distribuciones m´as desfavorables son todas aquellas π0 que tengan media 1/2 y momento de segundo orden 3/8, para las que rˆ(π0 ) = 1/16 es el valor del problema. La regla de decisi´on minimax es la regla Bayes frente a π0 ; es decir x = 3/4 e y = 1/4. Puede observarse que R(θ, (3/4, 1/4)) = 1/16 para cualquier valor de θ (o sea, que la acci´on minimax es ecualizadora). Las reglas Bayes (xπ , yπ ) son admisibles, en virtud de la Proposici´on 3.5. Y, en realidad, cualquier regla de decisi´on con 0 ≤ y ≤ x ≤ 1 es Bayes frente a alguna π, ya que se puede conseguir que sea   y m2   m1 = =x xπ =   1+y−x m1 tomando m1 − m2 xy    m2 = yπ = =y  1 − m1 1+y−x aunque hace falta que sea y ≤ x para que m2 ≥ m21 . Queda la duda de saber si las reglas de decisi´on con 0 ≤ x < y ≤ 1 son admisibles o no. Para verlo, consideremos la regla de decisi´on x0 = y 0 = λx + (1 − λ)y cuya funci´ on de riesgo es R(θ, (x0 , y 0 )) = [λx + (1 − λ)y − θ]2 , de modo que la diferencia ∆ = R(θ, (x, y)) − R(θ, (x0 y 0 )) = (y − x)[2θ2 − θ(x + y + 2λ) − λ2 (y − x) + 2λy] es, como funci´ on de θ, una par´ abola que tiene un m´ınimo en θ = (x + y + 2λ)/4, cuyo valor es m´ın ∆ = θ

y−x [4λ2 (2x − 2y − 1) + 4λ(3y − x) − (x + y)2 ]. 8

Si se toma λ = (3y − x)/2(1 + 2y − 2x), que es un n´ umero en (0, 1), resulta m´ın ∆ = θ

(y − x)2 4y − (x + y)2 >0 4 1 + 2y − 2x

3.5. Ejemplos adicionales

85

pues y > (x + y)/2 > (x + y)2 /4. En resumen, con el valor de λ especificado, la regla de decisi´on (x0 , y 0 ) domina a (x, y), siempre que sea 0 ≤ x < y ≤ 1. Tales reglas (x, y) no son pues admisibles. En consecuencia, Dad = {(x, y) | 0 ≤ y ≤ x ≤ 1} coincide con el conjunto de reglas de decisi´on Bayes frente a alguna π ∈ Θ? y es una clase completa minimal.

Ejemplo 3.10: An´ alisis Bayesiano La situaci´ on del ejemplo anterior sin experimentaci´on es simple: Θ = A = [0, 1], siendo la p´erdida L(θ, a) = (a − θ)2 ; con lo cual el riesgo Bayes frente a la distribuci´on π en [0, 1] de la acci´on a es r(π, a) = m2 − 2m1 a + a2 , que se hace m´ınimo cuando a = m1 . La acci´on Bayes aπ frente a π es pues la media de π y rˆ(π) = m2 − m21 es la varianza de π. Supongamos para simplificar que π viene dada por una densidad π(θ) en [0, 1]. Si la bola observada en la experimentaci´on es blanca, la distribuci´ on a porteriori πB de θ tendr´a densidad (4 ) π(θ | B) = R 1 0

π(θ) θ π(θ) θ dθ

=

π(θ) θ . m1

La acci´on Bayes frente a tal distribuci´ on a posteriori es su media Z 1 1 m2 aπB = π(θ) θ2 dθ = m1 0 m1 que coincide con la acci´on xπ del ejemplo anterior. De forma similar, cuando la bola observada es negra, la distribuci´ on a posteriori πN tendr´a densidad π(θ | N ) = R 1 0

π(θ)(1 − θ)

π(θ)(1 − θ) dθ

=

π(θ)(1 − θ) , 1 − m1

cuya media o acci´on Bayes frente a π N es Z 1 1 m1 − m2 aπN = , π(θ)(1 − θ) θ dθ = 1 − m1 0 1 − m1 en coincidencia con la acci´on yπ determinada anteriormente. As´ı pues, tambi´en en este ejemplo el uso de la f´ormula de Bayes para determinar la distribuci´ on a posteriori, correspondiente a π y cada resultado de la observaci´ on, da un procedimiento para calcular la regla de decisi´on Bayes frente a π en el problema con experimentaci´on. Obs´ervese que en este caso, la distribuci´on m´as desfavorable del problema sin experimentaci´on corresponde a m1 = 1/2 y m2 = 1/2 y no coincide con la distribuci´ on m´as desfavorable del problema con experimentaci´on. 4

V´ease C´ alculo de Probabilidades 2, (9.25) Secci´ on 9.4.

86

3.6.

Cap´ıtulo 3. Decisiones Bayes y minimax ?

Ap´ endice: Teorema del hiperplano separador

El teorema del hiperplano separador garantiza que dos conjuntos convexos disjuntos en IRn , C1 y C2 , pueden ser separados por un hiperplano que deja a cada uno a un lado distinto. Un primer paso consiste en tomar como C2 el conjunto formado s´ olo por el origen y probar que el plano definido por cierto vector x, que pasa por el origen, deja al mismo lado a todos los puntos de C1 . Cada x ∈ IRn ser´ a un 0 vector columna y x y representar´ a el producto escalar de x e y. Proposici´ on 3.13 Si C es un convexo cerrado de IRn que no contiene al origen, entonces existe x 6= 0 en IRn tal que x0 y > 0 para cualquier y ∈ C. Demostraci´ on: Sea x el punto de C m´as pr´oximo al origen. Fijado y 6= x en C, consideremos el cuadrado de la distancia al origen del punto λy + (1 − λ)x: d(λ) = kλy + (1 − λ)x)k2 = kλ(y − x) + xk2 = λ2 ky − xk2 + 2λx0 (y − x) + kxk2

que alcanza su m´ınimo en λ0 = −x0 (y − x)/ky − xk2 . Como d(1) = kyk2 ≥ kxk2 = d(0), resulta que λ0 < 1. No puede ser tampoco λ0 ∈ (0, 1), porque el punto λ0 y + (1 − λ0 )x pertenecer´ıa a C y estar´ıa m´as pr´oximo al origen que x. Luego ha de ser λ0 ≤ 0 o bien x0 (y − x) ≥ 0. Y, por consiguiente, x0 y ≥ kxk2 > 0.

Para un conjunto convexo C, su interior y el interior de su cierre C coinciden. Proposici´ on 3.14 Si C es un convexo de IRn y V un abierto, V ⊂ C implica V ⊂ C. Demostraci´ on: Sea x un punto de V . Si ε > 0 es suficientemente peque˜ no, Sε (x) = {y | ky − xk = ε} est´ a contenido en V y, por tanto, en C. Pero, hay puntos de C arbitrariamente pr´oximos a cualquier punto de C y, en particular, de cada y ∈ Sε (x). As´ı que podremos encontrar, puntos yn ∈ C, de modo que x est´e en el poliedro generado por los yn . Entonces, x podr´a expresarse como combinaci´ on lineal convexa de los puntos elegidos y, como C es convexo, resulta x ∈ C.

Esto permite generalizar la Proposici´ on 3.13, permitiendo que C no sea cerrado y que el plano sea tangente a C. Proposici´ on 3.15 Si C es un convexo de IRn e y0 un punto que no est´ a en el interior de C, entonces existe x 6= 0 en IRn tal que x0 y ≥ x0 y0 para cualquier y ∈ C.

3.6.

?

Ap´endice: Teorema del hiperplano separador

87

Demostraci´ on: y0 no est´ a en el interior de C, ni de C; por tanto, hay una sucesi´on zn fuera de C que converge a y0 . Trasladando el origen a zn y aplicado la Proposici´on 3.13, se obtienen vectores xn tales que x0 n (y − zn ) > 0 para cualquier y ∈ C y cualquier n. Ahora bien xn /kxn k son vectores de m´odulo 1 que tienen un punto de acumulaci´ on x, al que converge alguna subsucesi´on xn0 /kxn0 k. Entonces x0 (y − y0 ) = l´ım 0 n

x0 n0 (y − zn0 ) ≥ 0 kxn0 k

puesto que todos los t´erminos son positivos.

Proposici´ on 3.16 (Teorema del hiperplano separador) Si C1 , C2 son convexos disjuntos de IRn , existe x 6= 0 en IRn tal que x0 y ≥ x0 z para cualesquiera y ∈ C1 y z ∈ C2 . As´ı que, si c = ´ınf y∈C1 x0 y, el hiperplano x0 y = c es tangente a C1 , mientras que C2 queda en lado opuesto. Demostraci´ on: Sea C = {y − z | y ∈ C1 , z ∈ C2 } que es convexo, ya que λ(y1 − z1 ) + (1 − λ)(y2 − z2 ) = [λy1 + (1 − λ)y2 ] − [λz1 + (1 − λ)z2 ]. Adem´as 0 6∈ C puesto que C1 y C2 son disjuntos. Entonces, de acuerdo con la Proposici´on 3.15, existe x 6= 0 en Rn tal que x0 (y − z) ≥ 0 para cualesquiera y ∈ C1 y z ∈ C2 .

R Gracias a estos resultados, se puede probar que A xa α(da) pertenece a la envoltura convexa de {xa | a ∈ A}; tal y como se afirm´o al introducir la representaci´ on geom´etrica de los problemas de decisi´ on. M´as exactamente: Proposici´ on 3.17 Si C es un convexo de IRnRy α es una distribuci´on de probabilidad en IRn con α(C) = 1, tal que µ = C x α(dx) existe y es finito, entonces µ ∈ C. Demostraci´ on: Con una traslaci´ on del origen a µ podemos suponer que µ = 0 y habr´ a que probar que 0 ∈ C 0 , siendo C 0 el convexo trasladado. Si n = 1, es trivial que una distribuci´ on sobre un intervalo C de IR tiene su media dentro del intervalo; o bien que, si la media es 0, es 0 ∈ C. Supongamos que el resultado es cierto para n − 1 y que en IRn hay un convexo C, que no contiene a 0, y una distribuci´ on de probabilidad α sobre C cuyo vector de medias es µ = 0. Seg´ un la Proposici´on 3.15, existe un vector x 6= 0 en IRn con x0 y ≥ 0 para cualquier y ∈ C. Pero, eligiendo y ∈ C con distribuci´ on α, la variable aleatoria U = x0 y es no negativa y tiene media cero. Luego, α{x0 y = 0} = 1, lo cual significa que α est´ a concentrada en la intersecci´on C1 de C con el hiperplano x0 y = 0. C1 es un convexo, dentro del hiperplano n − 1 dimensional, sobre el que existe una distribuci´ on de probabilidad de medias 0; por tanto, en virtud de la hip´otesis de inducci´on, 0 ∈ C1 . As´ı que 0 ∈ C.

88

Cap´ıtulo 3. Decisiones Bayes y minimax

La desigualdad de Jensen para funciones convexas en IRn es otra consecuencia importante de los resultados anteriores. Recu´erdese que, si C es un convexo de IRn , f : C 7→ IR es una funci´ on convexa si se cumple f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y) para cualesquiera x, y ∈ C y cualquier λ ∈ [0, 1]. Teorema 3.1 (Desigualdad de Jensen) Sea f una funci´on convexa definida en un convexo C de IRn y α una distribuci´on de probabilidad sobre R C tal que µ = C x α(dx) existe y es finito. Entonces Z f (x) α(dx). (3.6) f (µ) ≤ C

Demostraci´ on: El resultado es conocido para n = 1, pero, de todas formas, es trivial para n = 0; as´ı que supondremos que es cierto para n−1 y se probar´ a para n. Sea C+ el convexo de IRn+1 definido por C+ = {(x, y) ∈ IRn+1 | x ∈ C, y ≥ f (x)} cuya convexidad resulta de la convexidad de la funci´ on f . La proposici´on anterior asegura que µ ∈ C y, por consiguiente, (µ, f (µ)) es un punto del grafo de la funci´ on f , situado en la frontera de C+ . Tom´ andolo como y0 en la Proposici´on 3.15, resulta que existe un vector no nulo (z, u) ∈ IRn+1 tal que, para cualquier (x, y) ∈ C+ , se tiene (z, u)0 (x, y) ≥ z0 µ + uf (µ)

o bien

z0 x + uy ≥ z0 µ + uf (µ)

Desde luego, tiene que ser u ≥ 0, porque si no, haciendo y tender a infinito, el primer miembro tender´ıa a −∞. Ahora, tomando y = f (x), la desigualdad anterior se transforma en z0 (x − µ) + uf (x) ≥ uf (µ). Si es u > 0, integrando respecto a α se anula el primer t´ermino y, dividiendo por u, se obtiene Z f (x) α(dxi) ≥ f (µ). C

Si es u = 0, ser´a z0 (x − µ) ≥ 0 y, sin embargo, la integral respecto a α se anula. Por tanto, α est´ a concentrada sobre la intersecci´on de C con el hiperplano z0 (x − µ) = 0 y se puede emplear la hip´otesis de inducci´on.

Ejercicios 3.1 Para el problema de decisi´on

Ejercicios

89

a1 a2 a3 a4 a5

θ1

θ2

1 2 4 3 6

7 4 3 2 2

ˆ a) Representar el conjunto de p´erdidas G. b) Representar el m´ınimo riesgo Bayes rˆ(π) en funci´ on de π; especificando, en cada caso, la decisi´on Bayes correspondiente. c) Se˜ nalar cu´ales son las decisiones aleatorizadas admisibles y una clase completa minimal. d) Hallar la decisi´on aleatorizada minimax, el valor del problema de decisi´on y la distribuci´ on menos favorable para el decisor. 3.2 En un problema de decisi´on con tres estados de la naturaleza: θ1 , θ2 , θ3 y cuatro acciones posibles: a1 , a2 , a3 , a4 , las p´erdidas son:

a1 a2 a3 a4

θ1

θ2

θ3

−2 2 3 −4

−1 0 −2 5

3 −3 4 0

a) Determinar, si existe, una distribuci´ on π sobre los estados de la naturaleza, de forma que las acciones a1 , a2 , a4 sean decisiones Bayes frente a π. Calcular el m´ınimo riesgo Bayes frente a π. b) Determinar, si existen, las distribuciones π sobre los estados de la naturaleza, tales que a1 y a2 son ambas las u ´nicas decisiones Bayes frente a π. c) Admitiendo que el riesgo Bayes determinado en (a) es el mayor posible, hallar la acci´on aleatorizada minimax para el problema de decisi´on. 3.3 Seg´ un que la Bolsa est´e en uno de sus tres estados posibles: θ1 , θ2 , θ3 , dos planes de inversi´ on A1 y A2 ofrecen las rentabilidades que indica la tabla: Estado Plan

θ1

θ2

θ3

A1 A2

15 % 8%

11 % 15 %

10 % 20 %

90

Cap´ıtulo 3. Decisiones Bayes y minimax

Un inversor, que dispone de 10 000 euros, quiere obtener la mayor ganancia posible. Determinar c´ omo debe repartir su inversi´ on: a) si sabe que las probabilidades de los tres estados son π(θ1 ) = 1/2,

π(θ2 ) = 1/3,

π(θ3 ) = 1/6,

y quiere maximizar su ganancia esperada. b) si desconoce las probabilidades de los tres estados y quiere obtener la mayor ganancia que pueda estar seguro de obtener. c) Hallar la distribuci´ on menos favorable para el inversor. 3.4 Un problema de decisi´on, con Θ = A = (0, 1), tiene como funci´ on de p´erdida L(θ, a) = (θ − a)2 /θ(1 − θ). Determinar la acci´on Bayes y el m´ınimo riesgo Bayes frente a la distribuci´ on beta(p, q) sobre Θ, de densidad π(θ) =

θp−1 (1 − θ)q−1 β(p, q)

con p, q > 1.

3.5 ¿Puede ocurrir que la distribuci´ on menos favorable no sea u ´ nica? Analizarlo mediante el problema de decisi´on

a1 a2 a3

θ1

θ2

2 6 3

5 2 3

3.6 Un problema de decisi´on con Θ = {0, 1} y A = [−3, 2] tiene como funciones de p´erdida L(0, a) = 3 + a y L(1, a) = 2 − a3 /5. ˆ a) Estudiar y representar los conjuntos de p´erdidas G y G. b) Especificar el conjunto de acciones admisibles A?ad . ¿Es A?ad una clase completa minimal? ¿Se modifica la respuesta en caso de ser A = [−3, 2)? c) Determinar la acci´on Bayes frente a cada distribuci´ on π sobre Θ. ¿C´omo se modifica la respuesta en caso de ser A = [−3, 2)? d) Determinar la decisi´on minimax y la distribuci´ on menos favorable.

Ejercicios

91

3.7 Una empresa va a fabricar un cierto producto cuya calidad queda determinada por un cierto par´ ametro controlable a ∈ [0, 1]. El rendimiento econ´ omico de una unidad del producto, de calidad a, es (θ − a)2 + 2(a − 00 4)2 donde θ ∈ [0, 1] representa el estado del mercado. a) Si toda la producci´on ha de ser de la misma calidad, determinar el valor de a que asegura un mayor rendimiento. b) Si se pueden fabricar productos de dos calidades distintas a1 < a2 , en proporciones α y 1 − α respectivamente, determinar los valores de a1 , a2 y α que aseguran un mayor rendimiento. c) Probar que, aunque se pudiesen fabricar productos de acuerdo con cualquier distribuci´ on α sobre [0, 1], la estrategia hallada en (b) es la que asegura un mayor rendimiento. 3.8 Un inversor quiere distribuir su capital entre tres fondos A, B y C. Las rentabilidades de cada uno, que dependen de la coyuntura econ´ omica que puede presentar tres niveles θ1 , θ2 y θ3 , vienen expresadas en porcentajes en la siguiente tabla

A B C

θ1

θ2

θ3

20 40 60

70 50 30

40 70 50

a) Obtener c´ omo debe distribuir su capital para asegurarse la mayor rentabilidad posible, atendiendo tambi´en a la admisibilidad del reparto propuesto. b) Deducir de lo anterior cu´al es la distribuci´ on sobre los estados de la naturaleza menos favorable para el inversor. c) Hallar las acciones Bayes frente a cualquier distribuci´ on π sobre los estados de la naturaleza. 3.9 En un problema de decisi´on con Θ = [0, 1] = A, la funci´ on de p´erdida es L(θ, a) = 2a(θ − 3/4) + 1 − θ2 . a) Razonar si las acciones no aleatorizadas constituyen una clase esencialmente completa. Especificar cu´ales son admisibles. b) Determinar la acci´on minimax y el valor del problema. c) Determinar la decisi´on Bayes frente a cada distribuci´ on sobre los estados de la naturaleza.

92

Cap´ıtulo 3. Decisiones Bayes y minimax

3.10 En un problema de decisi´on el conjunto de estados de la naturaleza es Θ = [−2, 3] y el de acciones A = {a = (x, y) ∈ IR2 | x2 + y 2 ≤ 1}. La funci´ on de ganancia es G(θ, (x, y)) = θx + y. a) Determinar la acci´on Bayes frente a cualquier distribuci´ on π en Θ. b) Determinar la distribuci´ on menos favorable, la acci´on maximin y el valor del problema. c) Localizar la clase de decisiones admisibles. 3.11 Un problema de decisi´on tiene como conjunto de estados de la naturaleza Θ = [0, 1] y como conjunto de acciones A = {a = (x, y) ∈ IR2 | 0 ≤ y ≤ x − x2 }. La funci´ on de ganancia es G(θ, (x, y)) = θx + (1 − θ)y. a) Determinar la clase de las acciones admisibles. b) Estudiar cu´ales son las acciones ´optimas con los criterios de Wald, Hurwicz, Laplace y Savage. c) Determinar la acci´on Bayes frente a cada distribuci´ on π sobre θ y hallar la distribuci´ on menos favorable.

Cap´ıtulo 4

Decisi´ on con experimentaci´ on 4.1.

Introducci´ on

Como se indic´ o en la secci´ on 1.2.4, el rasgo distintivo de los problemas de decisi´on con experimentaci´on es que el decisor tiene la posibilidad de observar el valor de una cierta variable aleatoria X, con valores en X (normalmente un subconjunto de IRn ), cuya distribuci´ on, dependiente del estado de la naturaleza, se representar´ a habitualmente por Pθ . Obviamente, el decisor puede obtener, mediante la observaci´ on de X, una informaci´ on valiosa acerca del estado de naturaleza, precisando por ejemplo las probabilidades con las que estima que puede presentarse cada uno de ellos. En este contexto, el juicio inicial, π, acerca las probabilidades de los estados de la naturaleza, se denomina la distribuci´ on a priori sobre Θ; mientras que la distribuci´ on condicionada por la observaci´ on X = x se denomina la distribuci´ on a posteriori, π(θ | x), sobre Θ. El tr´ ansito de una a otra se realiza mediante la conocida f´ormula de Bayes, que sint´eticamente se expresa (1 ) π(θ | x) =

π(θ) Pθ (x) P (x)

donde

P (x) =

Z

Pθ (x) π(dθ).

Θ

De este modo, el decisor podr´ıa partir de una informaci´on a priori muy imprecisa –casi uniforme sobre Θ– y obtener, en cambio, una distribuci´ on a posteriori muy concentrada entorno a ciertos valores de θ. En otro sentido, la posibilidad de experimentaci´on aumenta dr´asticamente las conductas posibles del decisor. Mientras que en un problema de decisi´on sin experimentaci´on (A, Θ, L), el decisor debe limitarse a elegir una acci´on a ∈ A cuya funci´ on de 1

Puede revisarse la secci´ on 2.5 del texto C´ alculo de Probabilidades 2, para recordar las diferentes variantes de la f´ ormula de Bayes, en las que Pθ (x) y P (x) pueden representar funciones de probabilidad o de densidad seg´ un que X sea discreta o absolutamente continua.

93

94

Cap´ıtulo 4. Decisi´on con experimentaci´on

p´erdida L(·, a) le parezca preferible a las dem´ as, la introducci´on de la experimentaci´ on le permite actuar en funci´ on del resultado x del experimento. Tendr´ a as´ı a su disposici´on todas las reglas de decisi´on d(x), que especifican una acci´on para cada resultado x, cuya calidad evaluar´ a mediante el riesgo asociado mediante (1.1): Z L(θ, d(x)) Pθ (dx). R(θ, d) = X

Entonces, como ya se ha dicho, el problema de decisi´on original (A, Θ, L) queda transformado en el nuevo problema (D, Θ, R). A este u ´ltimo problema –igual que al primero– son aplicables todas las consideraciones del cap´ıtulo 2 y los resultados del cap´ıtulo 3. En particular, como ha quedado patente en los ejemplos 3.9 y 3.10, tiene sentido considerar las reglas de decisi´on Bayes frente a cada distribuci´ on π sobre Θ, la distribuci´ on π 0 menos favorable para el decisor y la regla de decisi´on minimax que ser´a, en general, una regla de decisi´on aleatorizada –o sea, una distribuci´ on de probabilidad δ ∈ D? sobre D.

4.2.

Reglas de decisi´ on Bayes

En tanto se considere el criterio de Bayes, asociado a una cierta distribuci´ on π sobre Θ, cada regla de decisi´on d ∈ D se valora mediante su riesgo Bayes: Z Z Z L(θ, d(x)) Pθ (dx) π(dθ). (4.1) R(θ, d) π(dθ) = r(π, d) = Θ

Θ

X

Adem´as, supuesto que la funci´ on de p´erdida es acotada inferiormente, la Proposici´ on 3.1 garantiza que basta considerar las reglas de decisi´on no aleatorizadas, d ∈ D, para conseguir el m´ınimo riesgo Bayes rˆ(π). Ahora bien, bajo el mismo supuesto, se puede invertir el orden de integraci´ on en (4.1) para expresar: Z Z L(θ, d(x)) π(dθ | x) P (dx), (4.2) r(π, d) = X

Θ

en donde aparecen la marginal de X y la condicionada de θ por X = x (en lugar de la marginal de θ y la condicionada de X por θ). En esta u ´ ltima expresi´on (4.2), est´ a claro que para minimizar r(π, d) no puede hacerse nada mejor que elegir, para R cada x ∈ X , la acci´on d(x) que minimice Θ L(θ, d(x)) π(dθ | x). Queda as´ı establecido el resultado previsto en los an´alisis bayesianos de los ejemplos 3.9 y 3.10: Proposici´ on 4.1 Sea un problema de decisi´on con experimentaci´on, con funci´ on de p´erdida acotada inferiormente, en el que se observa el valor de la variable aleatoria X con valores en X . Frente a cualquier distribuci´ on a priori π sobre Θ, la regla de decisi´on Bayes d? elige, para cada x ∈ X , la acci´on Bayes d? (x) frente a la distribuci´ on a posteriori π(θ | X = x).(2 ) 2 Queda al margen la cuesti´ on, generalmente irrelevante en la pr´ actica, de si tal elecci´ on de cada d(x) produce una regla de decisi´ on medible como funci´ on de (X , F) en (A, A).

4.2. Reglas de decisi´ on Bayes

95

Aunque los ejemplos 3.9 y 3.10 ya han ilustrado el resultado anterior, consideraremos aqu´ı algunos otros ejemplos. Ejemplo 4.1 En el problema de decisi´on θ1

θ2

0 5

10 −2

a1 a2

antes de adoptar una decisi´on se puede observar el valor de una variable aleatoria X que toma los valores 1 o 0, con probabilidades dependientes del estado de la naturaleza, dadas por: Pθ1 {X = 1} = 3/4,

Pθ2 {X = 1} = 1/3,

Pθ1 {X = 0} = 1/4;

Pθ2 {X = 0} = 2/3.

Para cualquier distribuci´ on a priori π = (π, 1 − π), la distribuci´ on a posteriori, dada la observaci´ on X = 1, es π 3/4 9π = , π3/4 + (1 − π)1/3 5π + 4 4(1 − π) π1 (θ2 ) = P{θ2 | X = 1} = . 5π + 4

π1 (θ1 ) = P{θ1 | X = 1} =

El riesgo Bayes de cada acci´on frente a tal distribuci´ on a posteriori resulta: r(π 1 , a1 ) =

40(1 − π) , 5π + 4

r(π 1 , a2 ) =

53π − 8 ; 5π + 4

de modo que la acci´on Bayes frente a π1 es ( a1 si π ≥ 16/31, ? dπ (1) = a2 si π ≤ 16/31. En el caso en que la observaci´ on sea X = 0, la distribuci´ on a posteriori es π 1/4 3π = , π1/4 + (1 − π)2/3 8 − 5π 8(1 − π) π0 (θ2 ) = P{θ2 | X = 0} = , 8 − 5π

π0 (θ1 ) = P{θ1 | X = 0} =

frente a la cual los riesgos Bayes son r(π 0 , a1 ) =

80(1 − π) , 8 − 5π

r(π 0 , a2 ) =

31π − 16 ; 8 − 5π

96

Cap´ıtulo 4. Decisi´on con experimentaci´on

con lo cual la acci´on Bayes resulta  a1 d?π (0) = a2

si π ≥ 32/37, si π ≤ 32/37.

En consecuencia, se obtiene como regla de decisi´on Bayes frente a π:  Si π ≥ 32/37, d?π (1) = a1 , d?π (0) = a1 ,    Si 16/31 ≤ π ≤ 32/37, d?π (1) = a1 d?π (0) = a2 ,    Si π ≤ 16/31, d?π (1) = a2 , d?π (0) = a2 .

Se pueden calcular, tambi´en, los riesgos Bayes frente a π de las cuatro reglas de decisi´on posibles: d1 = (a1 , a1 ), d2 = (a1 , a2 ), d3 = (a2 , a1 ), d4 = (a2 , a2 ), que describen la acci´on asociada a la observaci´ on X = 1 y X = 0 respectivamente. Se tiene ) R(θ1 , d1 ) = 0 r(π, d1 ) = (1 − π) 10, R(θ2 , d1 ) = 10 ) R(θ1 , d2 ) = 34 · 0 + 14 · 5 = 54 5 3 r(π, d2 ) = π + (1 − π) 2 = 2 − π, 4 4 R(θ2 , d2 ) = 13 · 10 + 23 · (−2) = 2 ) R(θ1 , d3 ) = 34 · 5 + 14 · 0 = 15 4 9 15 + (1 − π) 6 = 6 − π, r(π, d3 ) = π 1 2 4 4 R(θ2 , d3 ) = 3 · (−2) + 3 · 10 = 6 ) R(θ1 , d4 ) = 5 r(π, d4 ) = π 5 + (1 − π) (−2) = 7π − 2. R(θ2 , d4 ) = −2

10

d1 d3

6

2 0 −2

d4

d2 16 31

32 37

π

1

Figura 4.1: Riesgos Bayes de las cuatro reglas de decisi´ on La representaci´on gr´ afica en funci´ on de π de los cuatro riesgos Bayes aparece en la figura 4.1, confirmando que la regla d4 es Bayes cuando π ≤ 16/31, d2 lo es

4.2. Reglas de decisi´ on Bayes

97

para 16/31 ≤ π ≤ 32/37 y d1 para π ≥ poligonal inferior del gr´ afico:    7π − 2 2 − 3π/4 rˆ(π) =   10(1 − π)

32/37. El m´ınimo riesgo Bayes rˆ(π) es la si π ≤ 16/31 si 16/31 ≤ π ≤ 32/37 si π ≥ 32/37.

x

1

=

x

2

Para su obtenci´on se pod´ıa haber prescindido del c´ alculo de r(π, d3 ), puesto que sab´ıamos que d3 no es regla de decisi´on Bayes para ning´ un valor de π. El ahorro aqu´ı no es mucho, pero puede ser muy importante en problemas de mayor tama˜ no. La distribuci´ on menos favorable corresponde xd1 = (0, 10) a π = 16/31 y produce un valor del problema x2 V = 50/31. As´ı lo confirma la representaci´on del conjunto de riesgos. La regla de decisi´on minimax es aleatorizada, xd3 = ( 15 , 6) 4 otorgando probabilidades 28/31 y 3/31 a d2 y d4 respectivamente, para alcanzar el punto ˆ G (50/31, 50/31). Equivalentemente, la regla de decisi´on minixd2 = ( 54 , 2) max puede expresarse en forma de regla de comportamiento. Como d2 = (a1 , a2 ) y d4 = (a2 , a2 ), se elegir´ a siempre la acci´on a2 , cuando se obtenga la observaci´ on X = 0; mientras x1 que si la observaci´ on es X = 1, hay que sortear entre a1 y a2 con probabilidades 28/31 y xd4 = (5, −2) 3/31 respectivamente. O sea: γ(1) = (28/31, 3/31),

γ(0) = (0, 1).

Ejemplo 4.2 Cierto tipo de piezas fabricadas por una empresa tiene una duraci´ on uniforme en [0, θ], donde puede ser θ = 1 o θ = 3/4 seg´ un que el proceso de fabricaci´on est´e bien ajustado o desajustado. Un estad´ıstico debe decidir cuales son las circunstancias actuales, para proceder o no a una revisi´on de la maquinaria. Se plantea pues un problema de decisi´on con A = Θ = {1, 3/4} y las p´erdidas por adoptar una decisi´on err´onea, realizando una revisi´on innecesaria o dejando de hacer una revisi´on necesaria, se han valorado en:

a1 = 1 a2 = 3/4

θ1 = 1

θ2 = 3/4

0 2

6 0

Para adoptar su decisi´on el estad´ıstico puede examinar una muestra aleatoria de tama˜ no n de la producci´on y medir las duraciones (x1 , x2 , . . . , xn ) de las n piezas

98

Cap´ıtulo 4. Decisi´on con experimentaci´on

elegidas. La funci´ on de verosimilitud de la muestra es fθ (x1 , . . . , xn ) = θ−n I{x(n) ≤θ} , donde x(n) = m´ax{x1 , . . . , xn } es la mayor observaci´ on en la muestra e IA la funci´ on indicatriz del suceso A. Ello pone de relieve que X(n) es un estad´ıstico suficiente. Si π = (π, 1 − π) es la distribuci´ on a priori sobre los estados de la naturaleza, la distribuci´ on a posteriori, que s´olo depende de X(n) , resulta πI{X(n) ≤1}

π(θ = 1 | X(n) ) =

πI{X(n) ≤1} + (1 − π)(4/3)n I{X(n) ≤3/4} ( 1 si X(n) > 3/4 = n π/[π + (1 − π)(4/3) ] si X(n) ≤ 3/4,

π(θ = 3/4 | X(n) ) =

(

0

si X(n) > 3/4 n

n

(1 − π)(4/3) /[π + (1 − π)(4/3) ]

si X(n) ≤ 3/4.

Frente a la distribuci´ on a posteriori (1, 0), vigente al observar X(n) > 3/4, la acci´on Bayes es a1 . En cambio, cuando se observa X(n) ≤ 3/4, frente a la correspondiente distribuci´ on a posteriori, la acci´on Bayes es: ( a1 si π ≥ 3 · 4n /[3n + 3 · 4n ], a2

si π ≤ 3 · 4n /[3n + 3 · 4n ].

Por tanto, la regla de decisi´on Bayes frente a π se expresa en funci´ on de X(n) :  n n n d?+ (X(n) ) = 1,  Si π ≥ 3 · 4 /[3 + 3 · 4 ],  1 si X(n) > 3/4  Si π ≤ 3 · 4n /[3n + 3 · 4n ], d?− (X(n) ) = 3/4 si X(n) ≤ 3/4.

Obs´ervese que 3·4n /[3n +3·4n ] → 1 cuando n → ∞; lo que indica que, para tama˜ nos muestrales grandes, la regla de decisi´on Bayes tiende a hacerse independiente del valor de π de la distribuci´ on a priori y a coincidir siempre con la regla de decisi´on que elige a1 o a2 seg´ un que X(n) sea mayor o menor que 3/4. Es l´ogico puesto que, en una muestra grande de una uniforme en [0, 1], es pr´acticamente seguro que aparecer´ a alguna observaci´ on superior a 3/4. Tratemos ahora de razonar directamente, sin usar las distribuciones a posteriori. Admitiendo s´olo reglas de decisi´on basadas en X(n) (v´ease la secci´ on 4.3), tales reglas ser´an de la forma:  1 si X(n) 6∈ C dC (X(n) ) = 3/4 si X(n) ∈ C, donde C es un subconjunto arbitrario de [0, 1]. Las funciones de riesgo asociadas son R(1, dC ) = 2 P1 {X(n) ∈ C}, R(3/4, dC ) = 6 P3/4 {X(n) 6∈ C}.

4.3. Estad´ısticos suficientes

99

Ello pone de relieve, en primer lugar que, si C ∩ (3/4, 1] = B es tal que P1 (B) > 0, dC est´ a dominada por dC−B , porque R(1, dC ) > 2P{X(n) ∈ C − B} = R(1, dC−B ),

R(3/4, dC ) = 6P{X(n) ∈ C c ∪ B} = R(3/4, dC−B ). Podemos pues limitarnos a considerar reglas dC con C ⊂ [0, 3/4]. Ahora bien, puesto que nxn−1 en [0, 1] y n(4/3)n xn−1 en [0, 3/4] son las densidades de X(n) , seg´ un que θ = 1 o θ = 3/4, el riesgo Bayes frente a π de dC resulta r(π, dC ) = 2π P1 {X(n) ∈ C} + 6(1 − π)P3/4 {X(n) 6∈ C} Z Z n−1 = 2π nx dx + 6(1 − π) − 6(1 − π) n(4/3)n xn−1 dx C C Z n = 6(1 − π) + [2π − 6(1 − π)(4/3) ] nxn−1 dx C

Si el corchete es positivo (es decir, π ≥ 3 · 4n /(3n + 3 · 4n)), el m´ınimo riesgo Bayes, rˆ(π), se consigue con C = ∅ para que la integral se anule. En cambio, si el corchete es negativo, C debe ser lo m´as grande posible; o sea C = [0, 3/4]. De esta forma, vuelven a obtenerse las reglas Bayes, d?+ y d?− ; pero, el an´alisis mediante las distribuciones a posteriori es bastante m´as sencillo. En cualquier caso, ( 6(1 − π) si π ≥ 3 · 4n /(3n + 3 · 4n ), rˆ(π) = 2(3/4)nπ si π ≤ 3 · 4n /(3n + 3 · 4n ); as´ı que la distribuci´ on menos favorable corresponde a π0 = 3 · 4n /[3n + 3 · 4n ], y el valor del problema de decisi´on es V = rˆ(π0 ) = 6·3n /(3n +3·4n ). La regla de decisi´on minimax es la regla aleatorizada δ que elige d?+ con probabilidad 3n /(3n + 3 · 4n ) y d?− con probabilidad 3 · 4n /(3n + 3 · 4n ). De hecho, con tal regla aleatorizada se consigue que R(1, δ) = R(3/4, δ) = rˆ(π0 ). Por supuesto, δ equivale a la regla de comportamiento: elegir a1 cuando se observa X(n) > 3/4 y, si se observa X(n) ≤ 3/4, sortear entre a1 y a2 con probabilidades respectivas 3n /(3n + 3 · 4n ) y 3 · 4n /(3n + 3 · 4n ).

4.3.

Estad´ısticos suficientes

En la mayor parte de los problemas de decisi´ on reales, la experimentaci´on consiste en la observaci´ on de una muestra aleatoria simple, X, de tama˜ no n, de una variable aleatoria X cuya distribuci´on depende del estado de la naturaleza. En tal caso, el espacio muestral X es un subconjunto de un espacio

100

Cap´ıtulo 4. Decisi´on con experimentaci´on

de n-dimensiones o, dicho de otra forma, las reglas de decisi´ on son funciones, d(x1 , . . . , xn ), de las n observaciones muestrales. Es, por tanto, muy u ´til reducir la dimensi´on del problema y poder limitarse a considerar reglas de decisi´ on que dependan de un menor n´ umero de variables. En este sentido, hay que recordar el concepto de estad´ıstico suficiente, introducido en Inferencia Estad´ıstica (3 ). Concretamente, un estad´ıstico T (X), funci´ on de las observaciones, se denomina suficiente si la distribuci´on condicionada de X por T = t es independiente de θ. Ello equivale, en virtud del teorema de factorizaci´on (3 ), a que la funci´on de verosimilitud de las observaciones se pueda expresar fθ (x) = gθ (T (x)) h(x) donde gθ depende solamente de T (x) y h(x) no depende de θ. El objetivo es mostrar que las reglas de decisi´ on basadas en un estad´ıstico suficiente forman una clase esencialmente completa; es decir que, para cualquier regla de decisi´ on δ(x), hay otra, δ0 (T (x)), basada u ´nicamente en el 0 estad´ıstico suficiente, tal que R(θ, δ ) ≤ R(θ, δ) para cualquier θ ∈ Θ. En primer lugar consideraremos reglas de decisi´ on aleatorizadas, puesto que no hay garant´ıa, en general, de que las reglas de decisi´ on no aleatorizadas formen una clase esencialmente completa. Adem´as, el resultado es m´ as simple expresado en t´erminos de reglas de comportamiento γ ∈ Γ, cuyas funciones de riesgo vienen definidas por (1.4). Concretamente: Proposici´ on 4.2 En un problema de decisi´ on (A, Θ, L) en el que el decisor puede observar el valor de un vector aleatorio, X, cuya distribuci´on depende de θ, supongamos que T es un estad´ıstico suficiente. Entonces, la clase Γ0 de las reglas de comportamiento basadas en T es una clase esencialmente completa en el problema (Γ, Θ, R). Demostraci´ on: Dada cualquier regla de comportamiento, γ ∈ Γ, se trata de hallar otra γ0 ∈ Γ0 , de forma que las funciones de riesgo R(θ, γ) y R(θ, γ0 ) coincidan. Para cada x ∈ X , γ(x) ∈ A? especifica la distribuci´ on sobre A con la que se elige la acci´on en A, cuando se ha observado x. Si T (x) = t, la distribuci´ on de X condicionada por T = t no depende de θ y con ella se puede elegir una observaci´ on x1 ∈ X , que cumplir´ a T (x1 ) = t. Sea γ0 (x) = γ(x1 ) y obs´ervese que, si x0 ∈ X cumple T (x0 ) = t, es γ0 (x) = γ0 (x0 ), puesto que x1 se elige en ambos casos con la misma distribuci´ on. As´ı pues, γ0 depende de x u ´nicamente a trav´es del valor de T (x). 3

V´ease Principios de Inferencia Estad´ıstica, secci´ on 5.9.

4.3. Estad´ısticos suficientes

101

Sea T el recorrido de T y Qθ su distribuci´ on sobre T . Entonces, los riegos de γ0 son Z Z Z R(θ, γ0 ) = L(θ, γ0 (x)) Pθ (dx) = L(θ, γ(x1 )) P (dx1 | T (x) = t) Pθ (dx) X X ZX Z = L(θ, γ(x1 )) P (dx1 | T = t) Qθ (dt) ZT X L(θ, γ(x1 )) Pθ (dx1 ) = R(θ, γ); = X

de modo que coinciden con los de γ.

Bajo las hip´ otesis de la Proposici´ on 3.9, las reglas no aleatorizadas basadas en un estad´ıstico suficiente, T , forman una clase esencialmente completa. En efecto, dada una regla de comportamiento γ ∈ Γ, existe otra γ0 ∈ Γ0 con los mismos riesgos que γ; entonces, si es aplicable la Proposici´ on 3.9, facilita una regla no aleatorizada, d0 , con riegos inferiores a los de γ0 y que, al igual que γ0 est´ a basada en T . Por tanto, d0 tiene riegos inferiores a los de γ. Se puede pues enunciar: Proposici´ on 4.3 Supongamos que A es un convexo acotado de IRk y que, para cada θ ∈ Θ, L(θ, a) es convexa en a. Si T es un estad´ıstico suficiente para las observaciones X, entonces el conjunto D0 de reglas de decisi´ on no aleatorizadas y basadas en T es una clase esencialmente completa para el problema de decisi´ on (Γ, Θ, R). Relativo al caso de reglas de decisi´ on no aleatorizadas, es posible establecer la siguiente extensi´ on del teorema de Rao–Blackwell (4 ). Proposici´ on 4.4 Supongamos que A es un convexo de IRk y que, para cada θ ∈ Θ, L(θ, a) es convexa en a. Si T es un estad´ıstico suficiente para las observaciones X, para cada regla de decisi´ on no aleatorizada, d ∈ D, tal que d0 (t) = E[d(X) | T = t] exista para todo t (y es, entonces, independiente de θ, debido a la suficiencia de T ), se verifica R(θ, d0 ) ≤ R(θ, d) ∀θ ∈ Θ. Si se puede asegurar que d0 (t) existe para cualquier t y cualquier d ∈ D (por ejemplo, porque A sea acotado), la clase D0 de reglas de decisi´ on no aleatorizadas basadas en T es esencialmente completa para el problema (D, Θ, R). Demostraci´ on: Para cualquier θ ∈ Θ, la convexidad de L(θ, a) permite utilizar la desigualdad de Jensen y concluir E[L(θ, d(X)) | T = t] ≥ L(θ, d0 (t)). 4

V´ease Principios de Inferencia Estad´ıstica, secci´ on 6.2.

102

Cap´ıtulo 4. Decisi´on con experimentaci´on

Por tanto, R(θ, d) = Eθ [L(θ, d(X))] = Eθ [E[L(θ, d(X)) | T ]] ≥ Eθ [L(θ, d0 (T ))] = R(θ, d0 ),

como hab´ıa que probar. El inter´es te´ orico de los anteriores resultados se ve limitado, en la pr´ actica, por el hecho de que la distribuci´on a posteriori de θ, condicionado por la observaci´ on de X, depende de X a trav´es de todo estad´ıstico suficiente T . Ello se deduce claramente del teorema de factorizaci´on. Por consiguiente, las reglas de decisi´ on Bayes, frente a cualquier distribuci´on a priori π, son directamente funci´ on de T . As´ı sucedi´o en el ejemplo 4.2, con el estad´ıstico suficiente X(n) , y as´ı sucede tambi´en en el ejemplo siguiente. Ejemplo 4.3 Una empresa se plantea la compra de una m´aquina recreativa que cuesta 48 (miles de euros) y que le permitir´a obtener un beneficio de 00 5 (miles de euros) por mes, durante el periodo de funcionamiento Y de la m´aquina, despu´es del cual la m´aquina queda inservible. Los fabricantes de la m´aquina informan que Y tiene distribuci´ on exponencial de media θ y garantizan que es θ > 90. Las acciones a1 y a2 , de comprar y no comprar respectivamente, tienen asociadas las funciones de p´erdida L(θ, a1 ) = 48 − 00 5θ,

L(θ, a2 ) = 0;

de modo que a1 es Bayes frente a cualquier distribuci´ on π de θ con media superior a 96 meses y a2 lo es en caso contrario. Si la empresa investiga las duraciones X1 , . . . , Xn de n m´aquinas id´enticas vendidas anteriormente, la funci´ on de verosimilitud de sus observaciones ser´a 1 −(x1 +···+xn )/θ e para x1 , . . . , xn > 0; θn de modo que T = X1 + . . . + Xn es un estad´ıstico suficiente. Para cualquier distribuci´ on a priori π, expresada a trav´es de su densidad π(θ) en Θ = (90, ∞), la densidad a posteriori es fθ (x1 , . . . , xn ) =

π(θ) θ−n e−t/θ π(θ | x1 , . . . , xn ) = R ∞ π(θ) θ−n e−t/θ dθ 90

con t = x1 + · · · + xn .

La regla de decisi´on Bayes frente a π resulta  a1 si E[θ | T = t] ≥ 96 ? dπ (t) = a2 si E[θ | T = t] ≤ 96. Imaginemos que el tama˜ no muestral es n = 3 y que la distribuci´ on a priori se supone uniforme en [90, b], con lo cual la media a posteriori es R b −2 −t/θ θ e dθ 90bt(e−t/b − e−t/90 ) . = E[θ | T = t] = R90 b −3 −t/θ 90(t + b)e−t/b − b(t + 90)e−t/90 θ e dθ 90

4.3. Estad´ısticos suficientes

103

No puede hallarse el valor expl´ıcito de t para el que se cumple E[θ | T = t] = 96; pero basta con la soluci´on num´erica para cada valor dado de b. La figura 4.2 muestra el gr´afico de la funci´ on anterior para b = 101, 102, 103, en el que aparecen las soluciones aproximadas.

97

b = 103 b = 102 b = 101

−200 −100

100

200

300

400

500

600

700

800

95

Figura 4.2: E[θ | T = t] con θ uniforme en [90, b] Para b = 101 y b = 102, las reglas de decisi´on Bayes son   a1 si t ≥ 742 a1 d?U[90,101] (t) = y d?U[90,102] (t) = a2 si t ≤ 742 a2

si t ≥ 2880 5 si t ≤ 2880 5.

Es claro que 742 es un valor muy grande para la suma de tres exponenciales de media menor que 101; de modo que es muy improbable comprar la m´aquina si la distribuci´ on a priori es uniforme en [90, 101]. En cambio, con b = 103, el estimador de θ es superior a 96 para cualquier t > 0; por tanto, d?U[90,103] (t) = a1 y la m´aquina se compra siempre. Como se ve, E[θ | T = t] es muy sensible a la distribuci´ on a priori y poco sensible al valor de t. Tal contrariedad no se debe al peque˜ no tama˜ no muestral, pues subsiste al menos hasta n = 20. Es posible ver que, para cualquier densidad a priori π(θ), E[θ | T = t] es funci´ on creciente de t (5 ). As´ı que la regla Bayes frente a π puede expresarse siempre  a1 si t ≥ c? ? dπ (t) = a2 si t ≤ c? 5

Si K(t) =

R∞ 90 2

π(θ) θ−n+1 e−t/θ dθ, es E[θ | T = t] = −K(t)/K 0 (t), cuya derivada

[K 00 (t)K(t)−K 0 (t) ]/K 0 (t)2 es positiva puesto que, en virtud de la desigualdad de Schwarz: 2 Z ∞ Z ∞ Z ∞ π(θ)e−t/θ θ−n dθ ≤ π(θ)e−t/θ θ−n+1 dθ π(θ)e−t/θ θ−n−1 dθ. 90

90

90

104

Cap´ıtulo 4. Decisi´on con experimentaci´on

aunque ello no indica c´ omo calcular el valor adecuado de c? . Para las reglas de decisi´on dc del tipo anterior (con un valor arbitrario de c), dado que la compra se realiza cuando T ≥ c, la funci´ on de riesgo es Z 48 − 00 5θ ∞ 2 −t/θ 0 t e dt R(θ, dc ) = (48 − 0 5θ) Pθ {T ≥ c} = 2θ3 c c c2  = (48 − 00 5θ) 1 + + 2 e−c/θ θ 2θ

ya que T tiene distribuci´ on γ(3, 1/θ), supuesto que se conserva el tama˜ no muestral n = 3. Volviendo a suponer que la distribuci´ on a priori es la uniforme U [90, b], el riesgo Bayes de dc frente a dicha π queda Z b 1 (96c + 192b − cb − b2 )e−c/b − 6(c + 1530)e−c/90 r(π, dc ) = R(θ, dc ) dθ = b − 90 90 4(b − 90) que debe dar el menor valor rˆ(π) para c? ; de manera que c? debe minimizar la funci´ on anterior. Tampoco es posible aqu´ı determinar expl´ıcitamente c? en funci´ on de b, pero basta hacerlo gr´aficamente para cada b dado. En la figura siguiente aparecen representados (con diferentes escalas en el eje de ordenadas) los valores de r(π, dc ), en funci´ on de c, para b = 101, 102 y 103. /100

/1000

0

4

2

0

2880 5 2

4

×100 6 8

9

b = 101

×100 11

×100 2

4

6

−1

−2 742 7

/10 0

−2 −4 b = 102

b = 103

Vuelven a aparecer los valores ´optimos c? = 742, 28805 y 0, respectivamente. Pero conocer los riegos Bayes es bastante m´as informativo: Frente a la U [90, 101], la regla de decisi´on dc s´olo da ganancias esperadas si c ≥ 600 (aproximadamente). En cambio, frente a U [90, 102] o a U [90, 103], con cualquier dc son de esperar ganancias, tanto mayores cuanto m´as pr´oximo sea c a 2880 5 o a 0, respectivamente.

4.4.

Costes de experimentaci´ on

Es normal que la experimentaci´on lleve asociados unos costes de instrumental, personal, consumo, tiempo, etc. M´as que evaluar dichos costes, lo

4.4. Costes de experimentaci´ on

105

principal es saber si la disminuci´ on de p´erdida que produce el resultado de las observaciones compensa la inversi´ on necesaria para realizarlas. Examinemos un caso concreto. Ejemplo 4.4 En el ejemplo 4.1 se ha supuesto que el decisor puede observar una variable aleatoria X, con cierta distribuci´ on que depende del estado de la naturaleza, y se han determinado la regla de decisi´on Bayes frente a cualquier distribuci´on a priori π sobre Θ. Ahora bien, si no se lleva a cabo la observaci´ on, las acciones Bayes frente a π son f´aciles de determinar: r(π, a1 ) = 10(1 − π),

r(π, a2 ) = 5π − 2(1 − π) = 7π − 2;

de modo que a1 es la acci´on Bayes en caso de ser π ≥ 12/17 y a2 lo es cuando π ≤ 12/17. Siendo el m´ınimo riesgo Bayes  7π − 2 si π ≤ 12/17, rˆ(π) = 10(1 − π) si π ≥ 12/17. El gr´afico de rˆ(π), superpuesto con el que se obtuvo en el ejemplo 4.1, da lugar a la figura 4.3. 2

0

c

c

16 31

12 17

32 37

π

1

−2

Figura 4.3: M´ınimo riesgo Bayes con y sin experimentaci´on Como era de esperar, la experimentaci´on no reduce el m´ınimo riesgo Bayes en los intervalos π ≤ 16/31 y π ≥ 32/37, donde la regla Bayes con experimentaci´on no depende del resultado del experimento y coincide con la acci´on Bayes sin experimentaci´on. Por tanto, para tales valores de π es mejor no observar el valor de X, por peque˜ no que sea el coste de la observaci´ on. En cambio, en el intervalo 16/31 < π < 32/37, la observaci´ on reduce el m´ınimo riesgo Bayes, tanto m´as cuanto m´as pr´oximo sea π a 12/17. A˜ nadiendo un coste de observaci´ on c, se obtiene la paralela dibujada en la figura, que representa la suma del coste m´as la p´erdida esperada frente a π con la regla de decisi´on Bayes (que, ´ en este caso, depende del resultado de la observaci´ on). Unicamente compensa llevar a cabo la observaci´ on de X, para valores de π en los que la p´erdida esperada sin experimentaci´on supere a dicha suma.

106

Cap´ıtulo 4. Decisi´on con experimentaci´on

Como regla general, frente a π, si rˆ0 (π) representa el m´ınimo riesgo Bayes cuando no se lleva a cabo ninguna observaci´on y rˆX (π) el m´ınimo riesgo Bayes cuando se observa X, s´ olo interesa llevar a cabo la experimentaci´on en caso de ser: rˆX (π) + c < rˆ0 (π). Es posible que el coste de la observaci´on pudiese ser c(θ, x), dependiente de θ y de x, porque fuese m´ as costoso experimentar en unos estados de la naturaleza que en otros y m´ as dif´ıcil obtener la observaci´on x que x0 . Pero, a´ un as´ı, lo coherente con el criterio de Bayes que estamos considerando, es tomar c = Eπ [Eθ [c(θ, x)]]. En ocasiones, el decisor antes de seleccionar su regla de decisi´ on, tendr´a que elegir el experimento que realiza. Es decir, puede dudar entre observar X o Y , con diferentes distribuciones dependientes de θ y distintos costos de observaci´ on: cX y cY . Naturalmente, debe inclinarse por X cuando rˆX (π) + cX ≤ rˆY (π) + cY ;

(4.3)

sin olvidar que siempre dispone de la posibilidad de no realizar ninguna observaci´ on y quedarse con rˆ0 (π). La mejor elecci´on depender´a normalmente de π, como suced´ıa en el ejemplo 4.3. Ejemplo 4.5 Volviendo de nuevo al ejemplo 4.1, supongamos que existe la posibilidad de observar otra variable Y , tambi´en con valores en {0, 1}, cuyas distribuciones son Pθ1 {X = 0} = 3/5; Pθ2 {Y = 0} = 1/2.

Pθ1 {Y = 1} = 2/5, Pθ2 {Y = 1} = 1/2,

Con la distribuci´ on a priori π = (π, 1 − π), la distribuci´ on a posteriori si Y = 1 es π 2/5 4π = , π2/5 + (1 − π)1/2 5−π 5(1 − π) ; π10 (θ2 ) = P{θ2 | Y = 1} = 5−π

π10 (θ1 ) = P{θ1 | Y = 1} =

los riegos Bayes de cada acci´on quedan r(π 01 , a1 ) =

50(1 − π) , 5−π

r(π 01 , a2 ) =

30π − 10 5−π

y la acci´on Bayes resulta d?π (Y = 1) =



a1 a2

si π ≥ 3/4 si π ≤ 3/4.

4.4. Costes de experimentaci´ on

107

An´alogamente, cuando Y = 0, π 3/5 6π = , π3/5 + (1 − π)1/2 5+π 5(1 − π) ; π00 (θ2 ) = P{θ2 | Y = 0} = 5+π

π00 (θ1 ) = P{θ1 | Y = 0} =

con lo cual r(π 00 , a1 ) =

50(1 − π) , 5+π

r(π 00 , a2 ) =

40π − 10 5+π

y la acci´on Bayes es d?π (Y

= 0) =



a1 a2

si π ≥ 2/3, si π ≤ 2/3.

La regla de decisi´on Bayes es, por tanto,  Si π ≥ 3/4, d?π (Y = 1) = a1 ,    Si 2/3 ≤ π ≤ 3/4, d?π (Y = 1) = a2 ,    Si π ≤ 2/3, d?π (Y = 1) = a2 ,

d?π (Y = 0) = a1 , d?π (Y = 0) = a1 , d?π (Y = 0) = a2 .

y el m´ınimo riesgo Bayes

  7π − 2 4 − 2π rˆ(π) =  10(1 − π)

si π ≤ 2/3 si 2/3 ≤ π ≤ 3/4 si p ≥ 3/4.

La figura 4.4 a˜ nade el m´ınimo riesgo Bayes observando Y , a los m´ınimos riesgos Bayes del ejemplo 4.2.

2

0

16 31

2 12 3 3 17 4

32 37

π

1

−2

Figura 4.4: M´ınimos riesgo Bayes rˆX (π), rˆY (π), rˆ0 (π)

108

Cap´ıtulo 4. Decisi´on con experimentaci´on

A igualdad de costes de observaci´ on, es siempre preferible observar X que observar Y (aunque, en otras circunstancias X podr´ıa ser preferible para algunos valores de π e Y para otros). Por otra parte, la peque˜ na disminuci´ on en la p´erdida esperada que produce la observaci´ on de Y , para valores de π ∈ (2/3, 3/4), s´olo compensar´ a un coste de observaci´ on peque˜ no de dicha variable.

En (4.3), en particular X y Y pueden representar la observaci´on de muestras aleatorias simples, de diferentes tama˜ nos, de la misma variable aleatoria X y (4.3) ofrece un criterio para seleccionar el mejor tama˜ no muestral. Ejemplo 4.6 En la situaci´ on del ejemplo 4.2, supongamos que las p´erdidas est´ an medidas en miles de euros y la observaci´ on de cada pieza tiene un coste 00 01 (es decir 10 euros). Para valores de π ≤ 3/4, la p´erdida esperada m´as el coste de observaci´ on es rˆ(π) + 00 01n = 2π (3/4)n + 00 01n

que crece hacia infinito cuando n → ∞ y cuya derivada respecto a n: 2π(3/4)n log(3/4) + 00 01

se anula exclusivamente en log(200π log(4/3)) = 140 086 + 30 476 log π. n? = log(4/3) El tama˜ no muestral ´ optimo nunca sobrepasa n = 14; puede ser el entero anterior o posterior a n? , si es n? > 0, o bien nulo, si n? < 0 (o sea, π < 00 0174). Cuando π > 3/4, es  log(3(1 − π)/π) 6(1 − π) si n < n0 rˆ(π) + 00 01n = 00 01n + donde n0 = 2π(3/4)n si n > n0 log(3/4)

on continua de n. y 2π(3/4)n0 = 6(1 − π), as´ı que rˆ(π) + 00 01n es una funci´ En el primer tramo, el aumento de n incrementa el coste sin disminuir la p´erdida esperada; de modo que lo mejor es tomar n = 0. En el segundo tramo, la mejor opci´ on est´ a en los alrededores de n? , supuesto que sea n? > n0 . La igualdad n? = n0 se produce cuando π ' 00 9942. Por tanto, si π > 00 9942, lo mejor es no hacer observaciones; mientras que, si π < 00 9942, el tama˜ no muestral ´optimo es n? . De todas maneras, para cada valor fijo de π es muy peque˜ no el n´ umero de comprobaciones a hacer para hallar el ´optimo.

4.5.

La Inferencia Estad´ıstica como problema de decisi´ on

Algunas de las situaciones consideradas a lo largo de este cap´ıtulo recuerdan, sin duda, ciertas t´ecnicas de Inferencia Estad´ıstica. All´ı, el problema

4.5. La Inferencia Estad´ıstica como problema de decisi´ on

109

considerado consiste en disponer de una muestra aleatoria x1 , . . . , xn de una variable aleatoria X cuya distribuci´on, Pθ (x) depende de un par´ ametro desconocido θ ∈ Θ, acerca de cuyo valor se desea obtener informaci´ on. En este sentido, nunca se carece de experimentaci´on en un problema estad´ıstico. El concepto de regla de decisi´ on d(x) tiene su antecedente inmediato en el concepto de estad´ıstico T (x) y, como hemos visto, la noci´on de suficiencia juega un papel similar en Inferencia estad´ıstica y en Teor´ıa de la Decisi´on. Los m´etodos estad´ısticos se diferencian unos de otros en la utilizaci´ on que se hace de la informaci´ on muestral y, sobre esta base, se distinguen: Procedimientos cl´ asicos: que obtienen todas sus conclusiones mediante el uso exclusivo de la informaci´ on muestral. Entre ellos, cabe destacar los estimadores de m´ axima verosimilitud y los tests de raz´ on de verosi6 militudes ( ), en los cuales s´ olo intervienen la funci´on de verosimilitud de la muestra fθ (x1 , . . . , xn ). Procedimientos Bayesianos: que se basan en combinar la informaci´ on muestral con una cierta distribuci´on a priori, π(θ), del par´ ametro θ, mediante el uso de la f´ormula de Bayes, para condensar en la distribuci´ on a posteriori, π(θ | x1 , . . . , xn ), todo el conocimiento que ambos datos aportan sobre el par´ ametro. (7 ) Procedimientos de Teor´ıa de la Decisi´on: cuyo rasgo distintivo es la presencia de una funci´ on de p´erdida L(θ, a), que valora las consecuencias de las acciones del estad´ıstico frente al problema que se le plantea. De todas formas, no hay una separaci´on radical con los procedimientos anteriores: la Estad´ıstica cl´ asica –desarrollada previamente a la Teor´ıa de la Decisi´ on– siempre consider´o la varianza de un estimador (o su error cuadr´atico medio, en el caso de los estimadores no centrados) como una medida de su calidad; ello supone impl´ıcitamente utilizar la funci´ on de p´erdida cuadr´atica L(θ, a) = (θ − a)2 . Tambi´en, si en un problema estad´ıstico se busca una regla de decisi´ on Bayes, frente a una distribuci´ on a priori π(θ), ya se sabe que la distribuci´on a posteriori jugar´ a un papel esencial en la soluci´ on. Por otra parte, cabe recordar que hay tres tipos de problemas que la Inferencia estad´ıstica aborda y que pueden formularse como problemas de decisi´ on: 6 7

V´ease Principios de Inferencia Estad´ıstica, secciones 7.3 y 9.2. La secci´ on 7.5 de Principios de Inferencia Estad´ıstica describe la aplicaci´ on m´ as usual.

110

Cap´ıtulo 4. Decisi´on con experimentaci´on

4.5.1.

Estimaci´ on puntual

La estimaci´ on puntual se refiere al caso en que el conjunto de acciones del decisor coincide con el espacio param´etrico: A = Θ, puesto que se trata de proporcionar un valor u ´nico a que constituya el pron´ostico estad´ıstico de θ. La comparaci´on de estimadores mediante su error cuadr´atico medio, formulada en la secci´ on 5.2 de Principios de Inferencia Estad´ıstica y estudiada con detalle en el cap´ıtulo 6, se ha visto prolongada en las consideraciones de dominancia propias de la Teor´ıa de la Decisi´on. La eliminaci´ on de las reglas de decisi´ on no admisibles no basta –ni all´ı, ni aqu´ı– para determinar una soluci´ on preferible a las dem´ as; raz´ on por la cual se introdujeron, en la secci´ on 5.5 de Principios de Inferencia Estad´ıstica, los criterios de selecci´ on de estimadores: Bayes y minimax, que se han extendido de forma pormenorizada al caso de los problemas de decisi´ on. Resultados importantes en el sentido Bayesiano son (8 ): B La media a posteriori E[θ|x] es el estimador Bayes frente a la distri-

buci´ on a priori π, en el caso de p´erdida cuadr´atica L(θ, a) = (a − θ)2 . B La mediana de la distribuci´ on a posteriori M [θ|x] es el estimador Bayes

frente a la distribuci´on a priori π, con p´erdida L(θ, a) = |a − θ|. La idea de los estimadores ECUMV (centrados uniformemente de m´ınima varianza) es propia de las t´ecnicas estad´ısticas, pues corresponde a restringir la clase de los estimadores a aquellos que tienen la propiedad de ser centrados, sin que esto tenga una prolongaci´on natural en problemas de decisi´ on m´ as abstractos. De todas formas, hemos visto que el teorema de Rao-Blackwell, clave en la determinaci´on de los ECUMV, tiene su extensi´on en Teor´ıa de la Decisi´ on. En cambio, la idea de invariancia, que daba lugar a los estimadores de Pitman de par´ ametros de posici´ on y escala, en la secci´ on 6.4 de Principios de Inferencia Estad´ıstica, s´ı ha tenido una prolongaci´on espec´ıfica a los problemas de decisi´ on. La idea es la misma: meros “cambios de referencia” en Θ, A y X no deben afectar a las decisiones que se adopten, supuesto que L(θ, a) = L(θ 0 , a0 ) cuando θ 0 y a0 son los transformados de θ y a por los cambios de referencia. Por consiguiente, deben emplearse reglas de decisi´ on 0 invariantes, que satisfagan δ(x) = δ(x ). Puede consultarse el cap´ıtulo 4 del texto de Ferguson, en el que se describen estos resultados que no ser´ an considerados aqu´ı. 8

V´ease Principios de Inferencia Estad´ıstica, secci´ on 5.5.2.

4.5. La Inferencia Estad´ıstica como problema de decisi´ on

4.5.2.

111

Contraste de hip´ otesis

El contraste de hip´ otesis se plantea como problema de decisi´ on considerando que s´ olo hay dos acciones para el decisor: A = {a0 , a1 }, siendo a0 aceptar la hip´ otesis nula H0 , definida por una cierta regi´ on Θ0 ⊂ Θ, mientras que a1 es rechazar H0 en favor de la hip´ otesis alternativa H1 : θ ∈ Θ − Θ0 = Θ1 . Aqu´ı, la funci´ on de p´erdida sirve para matizar la importancia que se da a rechazar la hip´ otesis H0 , cuando es correcta, frente a la alternativa de aceptarla cuando es falsa. Seg´ un ello, la funci´on de p´erdida se expresa: H0 : θ ∈ Θ0

H1 : θ ∈ Θ − Θ0

0 a

b 0

a0 : Aceptar H0 a1 : Rechazar H0

Tomar una decisi´ on correcta produce una p´erdida nula, mientras que suele usarse a  b > 0, seg´ un la idea de que es m´ as grave rechazar una hip´ otesis nula correcta que aceptarla cuando es falsa. Antes de adoptar la decisi´ on se observa una muestra aleatoria X, cuya distribuci´on Pθ depende de θ. En particular, para el contraste de la hip´ otesis simple Θ0 = {θ0 } frente a la alternativa simple Θ − Θ0 = {θ1 }, se puede establecer un resultado complementario al Lema de Neyman-Pearson (9 ). Para cualquier regla de decisi´ on d(x), consideremos las probabilidades de error: α(d) = Pθ0 {d(x) = a1 } y β(d) = Pθ1 {d(x) = a0 }, de tipo I y II respectivamente. Entonces, los riesgos de d son R(θ0 , d) = a α(d),

R(θ1 , d) = b β(d)

y, frente a la distribuci´ on a priori π = (π0 , π1 ), el riesgo Bayes resulta r(π, d) = π0 a α(d) + π1 b β(d) Z [π1 b fθ1 (x) − π0 a fθ0 (x)] dx = π0 a + {d(x)=a0 }

donde fθ0 (x) y fθ1 (x) son las funciones de verosimilitud de la muestra, seg´ un que el estado de la naturaleza sea θ0 o θ1 . Tal riesgo Bayes se har´ a m´ınimo cuando {d(x) = a0 } est´e comprendido entre {x | π1 bfθ1 (x) < π0 afθ0 (x)} ⊂ {x | π1 bfθ1 (x) ≤ π0 afθ0 (x)}, 9

V´ease Principios de Inferencia Estad´ıstica, secci´ on 8.3.

112

Cap´ıtulo 4. Decisi´on con experimentaci´on

con lo cual son Bayes frente a π cualquier regla de decisi´ on de la forma   si π1 b fθ1 (x) < π0 a fθ0 (x)  a0 ? d (x) = a1 si π1 b fθ1 (x) > π0 a fθ0 (x)   a oa si π1 b fθ1 (x) = π0 a fθ0 (x). 0 1

Son el mismo tipo de tests obtenidos en el Lema de Neyman–Pearson, con regiones de aceptaci´ on Ak = {fθ1 (x) < k fθ0 (x)}, salvo que la constante k se expresa en funci´ on de las p´erdidas y las probabilidades a priori, en lugar de fijarse de acuerdo con el tama˜ no requerido para el test. La conclusi´on obtenida es inmediata desde el punto de vista de la proposici´ on 4.1, puesto que las probabilidades a posteriori de ambos estados de la naturaleza son πi fθi (x) . π(θi | x) = π0 fθ0 (x) + π1 fθ1 (x) Lo cual indica que, una vez obtenidas las observaciones x, la acci´on a0 es Bayes frente a π cuando bπ(θ1 | x) < aπ(θ0 | x)

o bien

bπ1 fθ1 (x) < aπ0 fθ0 (x);

(4.4)

mientras que lo es la acci´on a1 en caso de que se cumpla la desigualdad contraria; y ambas lo son en caso de igualdad. N´otese tambi´en que, a medida que k var´ıa desde 0 hasta ∞, Ak crece, con lo cual 1 − Pθ0 (Ak ) decrece y Pθ1 (Ak ) crece. Por consiguiente, normalmente podr´ a determinarse k˜ tal que 1 − Pθ0 (Ak˜ ) b = . Pθ1 (Ak˜ ) a En tal caso, la correspondiente regla de decisi´ on d˜ tiene el mismo riesgo para ˜ = R(θ1 , d). ˜ En virtud de la ambos estados de la naturaleza; es decir R(θ0 , d) ˜ Proposici´ on 3.12, d es la regla de decisi´ on minimax y la distribuci´on a priori menos favorable es aquella para la cual π0 a ˜ =k π1 b

4.5.3.

o sea

π ˜0 =

˜ kb a , π ˜1 = . ˜ ˜ a + kb a + kb

Intervalos de confianza

En Estad´ıstica Bayesiana, los intervalos de confianza se construyen a partir de la distribuci´ on a posteriori del par´ ametro π(θ | x).

4.5. La Inferencia Estad´ıstica como problema de decisi´ on

El procedimiento consiste en cortar la densidad a posteriori, a una cierta altura h, para obtener un intervalo I = (a1 , a2 ) que cumpla

π(θ | x)

P {θ ∈ I | x} = 1 − α

1−α a1

I

113

h a2

θ

y, a la vez, sea lo m´ as corto posible, por incluir en I los valores del par´ ametro con mayor densidad de probabilidad a posteriori.

Un planteamiento similar, m´ as pr´ oximo a la Teor´ıa de la Decisi´on, considera como funci´ on de p´erdida asociada a las acciones a1 < a2 ∈ Θ:  c(θ)(a2 − a1 ) si θ ∈ (a1 , a2 ) L(θ, a1 , a2 ) = k(θ) + c(θ)(a2 − a1 ) si θ 6∈ (a1 , a2 ); que incluye un gasto proporcional a la longitud a2 − a1 del intervalo, con coeficiente de proporcionalidad c(θ) dependiente de θ, m´ as una penalizaci´ on k(θ) si no se consigue recubrir el valor verdadero θ. Sin experimentaci´ on y frente a una distribuci´on sobre Θ de densidad π(θ), las acciones Bayes deben minimizar Z Z Z c(θ)π(θ) dθ. k(θ)π(θ) dθ + (a2 − a1 ) k(θ)π(θ) dθ + r(π, a1 , a2 ) = θa2

Las derivadas respecto a a1 y a2 : Z ∂r c(θ)π(θ) dθ = k(a1 )π(a1 ) − ∂a1 Θ Z ∂r c(θ)π(θ) dθ = −k(a2 )π(a2 ) + ∂a2 Θ

igualadas a cero, muestran que a1 y a2 deben ser soluciones distintas de la ecuaci´ on Z c(θ)π(θ) dθ. k(a)π(a) = Θ

En el caso en que k y c fuesen constantes, se recupera el procedimiento Bayesiano de cortar la densidad π(θ) a la altura h = c/k. Supuesto que, antes de adoptar la decisi´ on, se observa una muestra x, frente a la distribuci´ on a priori π(θ), las reglas de decisi´ on Bayes d1 (x) y d2 (x) deben satisfacer Z c(θ)π(θ | x) dθ k(di (x))π(di (x)) = Θ

114

Cap´ıtulo 4. Decisi´on con experimentaci´on

para cada posible muestra x ∈ X .

Ejercicios 4.1 Un inversor que dispone de 50 mil euros considera dos planes de inversi´ on, a1 , a2 cuyas rentabilidades en porcentaje, en funci´ on de los tres posibles estados de la Bolsa, son

a1 a2

θ1

θ2

θ3

15 8

20 25

10 20

Adem´as, puede encargar a un consultor un estudio que puede dar dos resultados, x1 , x2 , con las probabilidades siguientes

x1 x2

θ1

θ2

θ3

00 8 00 2

00 4 00 6

00 1 00 9

a) Sin encargar el estudio, hallar la acci´on Bayes frente a cada posible distribuci´ on a priori sobre los estados de la naturaleza. Obtener la acci´on aleatorizada maximin y la mayor rentabilidad que puede asegurarse el inversor. b) Contando con la respuesta del consultor, determinar la regla de decisi´on Bayes frente a cada posible distribuci´ on a priori sobre los estados de la naturaleza. Hallar la regla de decisi´on maximin y la mayor rentabilidad que puede asegurarse el inversor. c) Discutir cu´al es la cantidad que el inversor debe estar dispuesto a pagar al consultor por su estudio, seg´ un que adopte el criterio de Bayes o el criterio de Wald. 4.2 Un problema de decisi´on consta de tres estados de la naturaleza: θ1 , θ2 , θ3 y tres acciones: a1 , a2 , a3 , en funci´ on de las cuales los beneficios son

a1 a2 a3

θ1

θ2

θ3

20 2 0

3 17 2

4 5 16

A priori los estados de la naturaleza tienen probabilidades π1 = 00 4,

π2 = 00 5,

π3 = 00 1;

pero, se puede realizar un experimento, de coste 2, que puede dar lugar a tres resultados: x1 , x2 , x3 con probabilidades dependientes del estado de la naturaleza

Ejercicios

115

x1 x2 x3

θ1

θ2

θ3

0

0

00 1 00 1 00 8

08 00 15 00 05

03 00 6 00 1

a) Hallar los beneficios esperados ´optimos, seg´ un que el experimento no se realice o s´ı se realice. b) Si el experimento se lleva a cabo y da el resultado x3 , ¿ha sido su realizaci´ on beneficiosa para el decisor? 4.3 En un problema de decisi´on con dos estados de la naturaleza: Θ = {θ1 , θ2 }, el espacio de acciones es A = [0, 1] y las ganancias asociadas vienen dadas por G(θ1 , a) = (1 − a)2 ,

G(θ2 , a) = a2 .

Se dispone de un experimento que produce uno de los resultados r1 , r2 , con probabilidades que dependen del estado de la naturaleza:

r1 r2

θ1

θ2

00 3 00 7

00 8 00 2

a) Determinar la regla de decisi´on Bayes frente a la distribuci´ on a priori π = (π, 1 − π). Hallar la ganancia esperada con dicha regla de decisi´on. b) Hallar la regla de decisi´on no aleatorizada que garantiza la mayor ganancia esperada que es posible garantizar con tal tipo de reglas. c) Mejorar el resultado anterior mediante el empleo de reglas aleatorizadas. 4.4 En un problema de decisi´on, con Θ = A = {0, 1}, las p´erdidas son L(θ, a) = 0 si θ = a y L(θ, a) = 2 + a si θ 6= a. Antes de tomar la decisi´on se puede observar una variable aleatoria X, cuya distribuci´ on, seg´ un el valor de θ, es 1 para k = 1, 2, 3, . . . 2k 1 P1 (X = k) = k+1 para k = 0, 1, 2, . . . 2

P0 (X = k) =

a) Definir el conjunto de reglas de decisi´on no aleatorizadas. b) Estudiar el conjunto de riesgos. c) Determinar la regla de decisi´on Bayes frente a cualquier distribuci´ on π. d) Determinar la regla de decisi´on minimax.

116

Cap´ıtulo 4. Decisi´on con experimentaci´on

4.5 En un problema de decisi´on con Θ = {4, 8} = A, cuyas p´erdidas son

a1 = 4 a2 = 8

θ1 = 4

θ2 = 8

0 6

4 0

es posible observar una variable aleatoria X con distribuci´ on exponencial de media θ. a) Indicar cu´al es el conjunto de reglas de decisi´on no aleatorizadas y expresar los riesgos de cada una de ellas. b) Determinar la regla de decisi´on Bayes frente a la distribuci´ on a priori π = (π, 1 − π) y expresar el m´ınimo riesgo Bayes. c) Especificar el conjunto de reglas de decisi´on admisibles y una clase de reglas de decisi´on esencialmente completa. d) Hallar la distribuci´ on menos favorable, seg´ un que X no sea o sea observada; as´ı como las estrategias minimax en ambos casos. e) Si la observaci´ on de X tiene un coste de 00 2, hallar los valores de π para los que conviene realizar la observaci´ on. 4.6 En un problema de decisi´on con dos estados de la naturaleza, θ1 , θ2 y dos acciones, a1 , a2 , los beneficios son

a1 a2

θ1

θ2

50 500

100 0

A priori se considera que los estados de la naturaleza se presentan con probabilidades π(θ1 ) = 00 3, π(θ2 ) = 00 7. Antes de elegir la acci´on, se ha decidido realizar 10 pruebas de un experimento con dos resultados r1 , r2 , con un coste de 1 por prueba realizada, cuyas probabilidades dependientes del estado de la naturaleza son

r1 r2

θ1

θ2

0

00 6 00 4

02 00 8

a) Determinar la regla de decisi´on Bayes y el beneficio esperado. b) Obtener un beneficio nulo se considera un resultado inasumible, de forma que se eliminan aquellas reglas de decisi´on con las cuales se obtenga beneficio nulo con probabilidad mayor que 00 05. Hallar la regla de decisi´on que, cumpliendo tal condici´on, ofrezca el mayor beneficio esperado, indicando su valor.

Ejercicios

117

c) Hallar el n´ umero ´ optimo de pruebas que deben realizarse. d) Hallar el n´ umero de pruebas a realizar para que la probabilidad de error en el pron´ ostico del estado de la naturaleza sea inferior a 00 01. 4.7 En un problema de decisi´on con dos estados de la naturaleza, θ1 , θ2 y dos acciones, a1 , a2 , la funci´ on de p´erdida es

a1 a2

θ1

θ2

2 6

8 4

y se dispone de un experimento que puede dar tres resultados, x1 , x2 , x3 , cuyas probabilidades, seg´ un el estado de la naturaleza, son

x1 x2 x3

θ1

θ2

0

00 2 00 3 00 5

06 00 3 00 1

Supuesto que se realiza una sola repetici´ on del experimento: a) Determinar todas las reglas de decisi´on admisibles. b) Hallar la distribuci´ on sobre los estados de la naturaleza m´as desfavorable para el decisor. c) Obtener la regla de decisi´on minimax, tanto no aleatorizada como aleatorizada. En el caso de que se realicen tres repeticiones del experimento d) Obtener la regla de decisi´on Bayes frente a una distribuci´ on arbitraria π = (π, 1 − π). Deducir la distribuci´ on m´as desfavorable para el decisor y la regla de decisi´on aleatorizada minimax. 4.8 Un problema de decisi´on cuenta con dos estados de la naturaleza, θ1 , θ2 , mientras que el espacio de acciones es A = [0, 1]. Las p´erdidas son L(θ1 , a) = |5a − 2|

y

L(θ2 , a) = |5a − 1|

y se dispone de un experimento cuyos tres resultados x1 , x2 , x3 se producen con probabilidades

x1 x2 x3

θ1

θ2

0

00 2 00 7 00 1

06 00 2 00 2

118

Cap´ıtulo 4. Decisi´on con experimentaci´on

Se supone que la distribuci´ on a priori es (00 7, 00 3). a) Hallar la regla de decisi´on Bayes y calcular la disminuci´ on de la p´erdida que supone el uso del experimento. b) Determinar el n´ umero de repeticiones del experimento que hay que hacer para que la p´erdida esperada sea inferior a 00 15. 4.9 En un problema de decisi´on que consta de dos estados de la naturaleza, θ1 , θ2 , y dos acciones, a1 , a2 , los beneficios obtenidos en cada caso son

a1 a2

θ1

θ2

120 20

40 80

El decisor puede realizar varias repeticiones de un experimento que puede dar los resultados x1 y x2 , con probabilidades que dependen del estado de la naturaleza y figuran en la siguiente tabla

x1 x2

θ1

θ2

00 8 00 2

00 3 00 7

Cada repetici´ on del experimento tiene un coste c = 2 y se decide repetir el experimento 4 veces. a) Si se sabe que la distribuci´ on a priori de los estados de la naturaleza es P (θ1 ) = 00 6, P (θ2 ) = 00 4, obtener la regla de decisi´on Bayes y calcular el beneficio esperado. b) Razonar cu´al es el conjunto de reglas de decisi´on Bayes frente a alguna distribuci´ on a priori y calcular el riesgo de cada una de ellas frente a cada estado de la naturaleza. c) Si se desconoce la distribuci´ on a priori sobre los estados de la naturaleza, determinar la regla de decisi´on que asegura el mayor beneficio esperado posible. d) Con la misma distribuci´ on a priori que en (a) y supuesto que el coste de experimentaci´on fuese nulo, hallar el beneficio esperado ´optimo obtenido cuando el n´ umero de repeticiones del experimento crece indefinidamente. 4.10 Un agricultor debe decidir c´ omo va a repartir su terreno entre cultivos de regad´ıo, A, y cultivos de secano, B, sabiendo que el rendimiento de cada uno depende de la pluviosidad durante el pr´oximo trimestre. Considera que la pluviosidad puede describirse mediante un par´ ametro θ ∈ [0, 1], en funci´ on del cual los rendimientos de cada cultivo, por hect´ area, son GA (θ) = 3 + 2θ,

GB (θ) = 4 − θ.

Ejercicios

119

a) Hallar la acci´on Bayes que le garantiza el mayor rendimiento esperado si supone que θ tiene una cierta densidad π(θ). Concretarla en el caso en que se suponga que π(θ) = 2(1 − θ).

b) Si se desconoce la distribuci´ on de θ, determinar la acci´on aleatorizada que garantiza el mayor rendimiento posible. El agricultor puede preguntar a un experto local cuyas respuestas, r1 o r2 , tienen probabilidades Pθ (r1 ) = θ, Pθ (r2 ) = 1 − θ.

c) Obtener la regla de decisi´on Bayes frente a una distribuci´ on a priori con densidad π(θ). Concretarla en el caso en que sea π(θ) = 2(1 − θ).

d) Si se desconoce la distribuci´ on de θ, determinar cu´ales son las reglas de decisi´ on aleatorizadas que garantizan el mayor rendimiento posible. El agricultor tambi´en puede encargar un pron´ ostico T de θ a un servicio meteorol´ogico que lo emite con densidad fθ (t) =

4 − t2 + (2t − 1)θ 3

para t ∈ [0, 1].

e) Determinar la regla de decisi´on Bayes frente a una distribuci´ on a priori con densidad π(θ). Concretarla en el caso en que sea π(θ) = 2(1 − θ). 4.11 Un problema de decisi´on tiene como espacio de estados de la naturaleza Θ = [0, 1] y como espacio de acciones A = {a = (a1 , a2 ) ∈ IR2 | a21 + a22 ≤ 1} siendo la funci´ on de ganancia G(θ, a) = θa1 + (1 − θ)a2 . Antes de tomar la decisi´on se puede observar el valor de una variable aleatoria X con distribuci´ on uniforme en el intervalo [θ, θ + 1].

a) Especificar el conjunto de acciones admisibles y determinar, para cada valor observado x de X, la acci´on a? (x) que maximiza el m´ınθ G(θ, a). ¿Es a? (x) la regla de decisi´on maximin? b) Hallar la regla de decisi´on Bayes frente a la distribuci´ on a priori de densidad π(θ) = 2θ para θ ∈ [0, 1], as´ı como la ganancia esperada que produce. 4.12 Un problema de decisi´on con dos estados de la naturaleza, θ1 y θ2 , tiene como espacio de acciones A = [0, 1] y las funciones de ganancia son G(θ1 , a) = a,

G(θ2 , a) = 1 − a2 .

Adem´as se dispone de un experimento que puede dar los resultados r1 , r2 con probabilidades

r1 r2

θ1

θ2

0

00 2 00 8

08 00 2

120

Cap´ıtulo 4. Decisi´on con experimentaci´on

a) Hallar el conjunto de reglas de decisi´on admisibles y sus ganancias asociadas. b) Determinar la distribuci´ on m´as desfavorable sobre los estados de la naturaleza y la regla de decisi´on Bayes correspondiente. 4.13 Cierta enfermedad tiene dos variedades, conocidas como A y B, y se dispone para ella de dos tratamientos t1 y t2 . Un equipo m´edico ha estimado que las probabilidades de curaci´on, en funci´ on de la variedad y el tratamiento son

t1 t2

A

B

0

00 3 00 8

06 00 4

Se dispone adem´as de un cierto an´alisis cl´ınico, cuyo resultado puede ser r1 , r2 o r3 , y se sabe que las probabilidades de cada resultado, seg´ un la variedad de la enfermedad son

A B

r1

r2

r3

0

0

00 3 00 7

06 00 1

01 00 2

a) Si no se conoce la incidencia de cada variedad de la enfermedad en la poblaci´ on, determinar la regla de decisi´on no aleatorizada, del tratamiento en funci´ on del resultado del an´alisis, que asegure la mayor probabilidad de curaci´on. Precisar cu´ales de las reglas de decisi´on no aleatorizadas est´ an dominadas. b) Si se sabe que, entre los que padecen la enfermedad, 3/5 corresponden a la variedad A y 2/5 a la variedad B, determinar la mejor regla de decisi´on del tratamiento en funci´ on del resultado del an´alisis. c) Determinar la distribuci´ on a priori m´as desfavorable de las dos variedades de la enfermedad, en el sentido de que hace m´ınima la probabilidad de curaci´on cuando se aplica la mejor regla de decisi´on frente a tal distribuci´ on a priori. d) Deducir del apartado anterior, cu´al es la regla de decisi´on aleatorizada que asegura mayor probabilidad de curaci´on, cuando no se conoce la incidencia de la enfermedad en la poblaci´on. 4.14 Para un proyecto de un a˜ no de duraci´ on, una empresa necesita comprar cierto equipo que puede adquirirse sin garant´ıa, por 50 mil euros, o con garant´ıa por 60 mil euros. A lo largo del a˜ no de utilizaci´ on, el equipo puede fallar con probabilidad θ desconocida y la reparaci´on cuesta 30 mil euros, en el caso de compre sin garant´ıa, mientras que es gratuita si est´ a garantizado. La empresa puede investigar cu´antos de n equipos similares han dado fallos antes de un a˜ no.

Ejercicios

121

a) Sin ninguna observaci´ on previa, hallar la decisi´on Bayes frente a la distribuci´ on π de θ; as´ı como la decisi´on minimax. b) Estudiar la regla de desisi´ on Bayes frente a π, si se han observado los fallos de n equipos similares. c) Hallar la regla de decisi´on minimax. d) Un t´ecnico de la f´ abrica en que se produce el equipo desvela que s´olo puede ser θ = 1/10 o θ = 1/2, seg´ un que el proceso de producci´on est´e bien o mal regulado. Concretar la regla de decisi´on Bayes frente a la distribuci´ on π = (π, 1 − π) sobre ambos valores. e) En el caso n = 2, interpretar gr´aficamente el resultado anterior, asociando a cada regla de decisi´on posible el punto que tiene por coordenadas sus riesgos. 4.15 El propietario de un objeto de valor, tasado en K euros, duda si asegurarlo contra robo. La p´ oliza de seguros le cuesta cK euros al a˜ no, con c < 1, y designa por θ la probabilidad de que se lo roben a lo largo de un a˜ no. a) Hallar, en funci´ on de c, los valores de θ para los que deber´ıa hacer el seguro. b) Si cree que la distribuci´ on de θ ∈ [0, 1] tiene densidad π(θ), determinar la acci´on Bayes correspondiente. Para tratar de estimar θ, se informa de la proporci´on p de objetos robados el a˜ no anterior, entre los n > 100 objetos similares existentes en su ciudad. Considera las reglas de decisi´on  a0 si p ≤ p0 dp0 (p) = a1 si p > p0 c) Calcular los riesgos de tales reglas de decisi´on dp0 y estudiar si hay entre ellas relaciones de dominancia. d) Probar que la regla de decisi´on Bayes frente a cualquier distribuci´ on a priori π es de la froma dp0 . Determinar p0 en el caso de que π sea uniforme en [0, 1]. e) Si el decisor considera asegurar el objeto por una cantidad a ≤ K, pagando una prima ca, ¿modifica este planteamiento las conclusiones anteriores? 4.16 Un laboratorio que debe discriminar si cierta muestra corresponde a un producto θ = 1 o a otro θ = 2, ha dise˜ nado un experimento cuyo resultado num´erico depende del producto y tiene densidad fθ (x) =

3 [1 − (x − θ)2 ] 4

para x ∈ [θ − 1, θ + 1].

Lo exiguo de la muestra le impide realizar el experimento varias veces. Pero, puede concluir que la muestra corresponde al primero: a1 , al segundo: a2 , o que el experimento no es concluyente: a3 . Y eval´ ua los beneficios de cada conclusi´ on de acuerdo con la tabla:

122

Cap´ıtulo 4. Decisi´on con experimentaci´on

a1 a2 a3

θ=1

θ=2

8 −6 2

−6 8 2

a) Si admite que las probabilidades a priori de cada producto son π1 = 00 6 y π2 = 00 4, determinar la regla de decisi´on ´optima y el beneficio esperado que obtendr´ a. b) Sin conocer las probabilidades a priori, hallar la regla de decisi´on que le garantiza el mayor beneficio esperado posible. 4.17 Se desea estimar la proporci´on θ ∈ (0, 1) de piezas defectuosas, con funci´ on de p´erdida L(θ, a) = K (θ − a)2 /θ(1 − θ), y para ello se puede observar una muestra aleatoria simple de n piezas.

a) Determinar el estimador Bayes frente a la distribuci´ on a priori beta(p, q) (p, q > 1) y calcular su riesgo. b) Obtener el tama˜ no muestral ´optimo, si cada observaci´ on de una pieza tiene un coste c. 4.18 Se considera una muestra aleatoria simple, de tama˜ no n, de una poblaci´on con distribuci´ on N (θ, σ), donde σ es una constante conocida y θ un par´ ametro desconocido que se elige con distribuci´ on N (0, 1). Se quiere estimar θ considerando como funci´ on de p´erdida L(θ, a) = (θ − a)2 . a) Determinar el estimador Bayes y su riesgo.

b) Si la observaci´ on de cada elemento de la muestra tiene un costo c, hallar el tama˜ no muestral o´ptimo. c) Obtener el intervalo de confianza Bayesiano para θ de nivel de confianza 00 95. 4.19 Se considera una muestra aleatoria simple, de tama˜ no n > 3, de una poblaci´on con distribuci´ on uniforme en (0, θ), donde θ es un par´ ametro desconocido que se elige con distribuci´ on uniforme en (0, l). a) Determinar el estimador Bayes para estimar θ si la funci´ on de p´erdida es L(θ, a) = (θ − a)2 . Calcular el riesgo a posteriori.

b) Determinar el estimador Bayes para estimar λ = 1/θ con funci´ on de p´erdida L(λ, a) = (λ − a)2 . Calcular el riesgo a posteriori. 4.20 Se observa una muestra de tama˜ no n de una variable aleatoria X cuya funci´ on de densidad 2x fθ (x) = 2 para x ∈ [0, θ] θ depende de un par´ ametro θ.

Ejercicios

123

a) Si se supone que θ tiene densidad a priori π(θ) = 3θ−4 en [1, ∞), construir el intervalo de confianza para θ, m´as corto posible, de nivel de confianza 00 9. b) Con la misma densidad a priori, determinar el estimador Bayes de θ correspondiente a las p´erdidas L1 (θ, a) = (θ − a)2 ,

L2 (θ, a) = |θ − a|,

L3 (θ, a) = (θ2 − a2 )2 ;

evaluando sus riesgos a posteriori y a priori. b) Si se supone que puede ser θ = 6 con probabilidad 7/8 o bien θ = 4 con probabilidad 1/8, admitiendo que es 9 la p´erdida por predecir el valor θ = 4 cuando es θ = 6 y 2 la p´erdida por predecir el valor θ = 6 cuando es θ = 4, hallar el menor valor de n para el que el test Bayes permite discernir cu´al de los dos valores de θ es el correcto. Evaluar el riesgo en funci´ on de n.

Cap´ıtulo 5

Decisi´ on secuencial 5.1.

Introducci´ on

En la secci´ on 4.4 se ha considerado, a la vista de los costes que normalmente conlleva efectuar observaciones de una variable aleatoria X, cu´ales son los criterios para elegir entre varias posibilidades de experimentaci´on X, Y, Z . . . Pero siempre pensando que son experimentos fijos, que se diferencian por las magnitudes que se observan o bien por el tama˜ no muestral que cada uno representa. La decisi´ on secuencial considera fija la secuencia X de observaciones que se pueden realizar y, en cambio, admite que la experimentaci´on se puede detener en el momento m´as propicio. Se trata de no incrementar el coste de observaci´ on en el caso en que los datos ya obtenidos aporten una reducci´on suficiente de la p´erdida esperada y el coste de observaciones ulteriores no compense la reducci´on adicional. En definitiva, tras cada observaci´ on se puede decidir si se adopta la decisi´on final o, por el contrario, se lleva a cabo una nueva observaci´ on.

5.2.

Reglas de decisi´ on secuencial

Los datos adicionales que deben acompa˜ nar a un problema de decisi´on (A, Θ, L) para poder formularlo en t´erminos de decisi´on secuencial son: a) La secuencia X = (X1 , X2 , . . .) de variables que pueden observarse sucesivamente. El a por Xj , de modo que Qnconjunto de resultados de Xj se designar´ X (n) = j=1 Xj representa los resultados posibles de las n primeras observaciones. La distribuci´ on conjunta de X depende del estado de la naturaleza (n) y queda especificada por la distribuci´ on Pθ de X (n) = (X1 , . . . , Xn ), para cada n = 1, 2, . . . b) Los costos cn (θ, x1 , . . . , xn ) en que se incurre cuando se obtienen las observaciones x(n) = (x1 , . . . , xn ) y el estado de la naturaleza es θ. Se supone que

124

5.2. Reglas de decisi´ on secuencial

125

son positivos, crecientes con n en el sentido de que cn (θ, x1 , . . . , xn ) < cn+1 (θ, x1 , . . . , xn , xn+1 ), y que tienden a ∞ cuando n → ∞. En las aplicaciones, con frecuencia es simplemente cn (x1 , . . . , xn ) = c n. Supondremos siempre que la funci´ on de p´erdida est´ a acotada inferiormente; de modo que, sum´andole una constante, se puede conseguir que sea siempre L(θ, a) ≥ 0. Por otra parte, enfrentado con un problema de decisi´on secuencial, la conducta del decisor debe caracterizarse por dos estrategias: (1) La regla de parada de las observaciones, que se concreta mediante una sucesi´on de funciones ϕ = [ϕ0 , ϕ1 (x1 ), ϕ2 (x1 , x2 ), ϕ3 (x1 , x2 , x3 ), . . .] con valores en [0, 1]. Entre ellas, ϕ0 es una constante que precisa la probabilidad de realizar la primera observaci´ on; despu´es, tras las primeras n observaciones, ϕn (x1 , . . . , xn ) est´ a definida en X (n) e indica la probabilidad de llevar a cabo la observaci´ on de Xn+1 . De esta forma ψn (x1 , . . . , xn ) =

n−1 Y j=1

ϕj (x1 , . . . , xj ) [1 − ϕn (x1 , . . . , xn )]

es la probabilidad de realizar exactamente n observaciones y tomar la decisi´on final tras la observaci´ on de Xn . En t´erminos de la variable aleatoria N , que indica el n´ umero total de observaciones que se realizan, es Pθ {N = n | X (n) = x(n) } = ψn (x1 , . . . , xn ) mientras que Pθ {N = n | N ≥ n, X (n) = x(n) } = 1 − ϕn (x1 , . . . , xn ). Naturalmente el decisor no puede prever los resultados que obtendr´ a en sus observaciones; de modo que la evaluaci´on del costo que le supondr´ a una determinada regla de parada debe realizarse sobre la base de la distribuci´ on marginal Pθ {N = n} = Eθ [ψn (X1 , . . . , Xn )]. En particular, s´olo podr´a emplear reglas de parada con las cuales Pθ {N < ∞} =

∞ X

Eθ [ψ(X1 , . . . , Xn )] = 1

(5.1)

n=1

para todo θ ∈ Θ; lo cual garantiza que el tama˜ no muestral y, por tanto, el costo de observaci´ on ser´an finitos, sea cual sea el estado de la naturaleza.

126

Cap´ıtulo 5. Decisi´on secuencial

(2) La regla de decisi´ on terminal que, en su versi´ on m´as general, tendr´a que precisarse mediante una sucesi´on de reglas de comportamiento γ = [γ0 , γ1 (x1 ), γ2 (x1 , x2 ), γ3 (x1 , x2 , x3 ), . . .] de las cuales γn (x1 , . . . , xn ) proporciona la distribuci´ on sobre A con la que se escoger´ a la acci´on a adoptar en el problema (A, Θ, L), supuesto que se han realizado N = n observaciones, con resultados (x1 , . . . , xn ). La p´erdida esperada que ello supondr´ a, en caso de que la regla de parada prescriba un tama˜ no muestral N = n, ser´a Eθ [L(θ, γn (X1 , . . . , Xn ))] que se supone finita cualquiera que sea θ y n. En particular, la regla de decisi´on terminal podr´ıa ser no aleatorizada y consistir en una acci´on dn (x1 , . . . , xn ) ∈ A a adoptar seg´ un el tama˜ no muestral n y los resultados de las n observaciones. En conjunto, una regla de decisi´ on secuencial estar´ a compuesta por una pareja [ϕ, γ], con la condiciones susodichas, y tendr´a asociado un riesgo R(θ, [ϕ, γ]) =

∞ X

n=1

  Eθ ψn (X (n) ) L(θ, γn (X (n) )) + cn (θ, X (n) ) ,

(5.2)

descompuesto, seg´ un el valor de N que se d´e, en la p´erdida esperada m´as el coste de observaci´ on: L(θ, γN (X1 , . . . , XN )) + cN (θ, X1 , . . . , XN ) que deben promediarse con pesos Pθ {N = n | X1 , . . . , Xn } = ψn (X1 , . . . , Xn ) y calcular su esperanza (Eθ ) respecto a la distribuci´ on de las observaciones.

5.3.

Reglas secuenciales Bayes

Como en los cap´ıtulos anteriores, supuesta conocida una distribuci´ on a priori π sobre Θ, la dependencia de θ del riesgo definido por (5.2) puede eliminarse considerando el riesgo Bayes frente a π: Z R(θ, [ϕ, γ]) π(dθ) (5.3) r(π, [ϕ, γ]) = Θ

=

∞ Z X

n=1 Θ ∞ Z X

  Eθ ψn (X (n) )L(θ, γn (X (n) )) π(dθ)

+

n=1

Θ

  Eθ ψn (X (n) )cn (θ, X (n) ) π(dθ)

(5.4) (5.5)

5.3. Reglas secuenciales Bayes

127

Para minimizar la p´erdida esperada, que representa el primer sumando (5.4), se puede suponer que la regla de parada est´ a fijada y tomar como regla de decisi´on terminal la constituida por las reglas de decisi´on Bayes frente a π para cada tama˜ no muestral dado. As´ı lo asegura el resultado siguiente. Proposici´ on 5.1 Sea d?n (X1 , . . . , Xn ) la regla de decisi´on Bayes en el problema de decisi´on (A, Θ, L) con observaci´ on de la muestra X = (X1 , . . . , Xn ) (como se sabe, d?n es no aleatorizada). Cualquier que sea la regla de parada ϕ que se emplee para el problema secuencial, r(π, [ϕ, γ]) es m´ınimo cuando la regla de decisi´on terminal es γ ? = [d?0 , d?1 (X1 ), d?2 (X1 , X2 ), . . .] (es decir, γn (X1 , . . . , Xn ) es la distribuci´ on causal sobre la acci´on d?n (X1 , . . . , Xn )). Demostraci´ on: Si ϕ est´ a fijada, lo mismo ocurre con ψn (X (n) ), de manera que el sumando correspondiente al coste de observaci´ on (5.5) no depende de la regla de decisi´on terminal γ. En cuanto al sumando (5.4), acumula los t´erminos Z

Θ

Eθ [ψn (X (n) )L(θ, γn (X (n) ))] π(dθ) Z Z (n) = ψn (x(n) )L(θ, γn (x(n) )) Pθ (dx(n) ) π(dθ) (n) ZΘ XZ = ψn (x(n) )L(θ, γn (x(n) )) π(dθ | x(n) ) P (n) (dx(n) ) X (n)

Θ

R (n) donde P (n) es la distribuci´ on marginal sobre X (n) (o sea Θ Pθ (·) π(dθ)). En la u ´ltima expresi´on, es claro que la mejor elecci´on de γn (x(n) ) corresponde a que asigne probabilidad uno a d?n (x(n) ), puesto que as´ı se minimiza la integral interior para cada posible valor x(n) ∈ X (n) . El resultado indica que, con el criterio de Bayes, cuando un estad´ıstico recibe los datos tomados por un experimentador, no debe preocuparse de la estrategia seguida por ´este para detener o continuar las observaciones. La regla Bayes frente a la distribuci´ on a posteriori, condicionada por los datos, es siempre su mejor decisi´on.

Regla de parada con horizonte finito No obstante, en el modelo que estamos considerando, el decisor debe acompa˜ nar a la regla de decisi´on terminal una regla de parada que minimice el riesgo Bayes, incluyendo los dos sumandos (5.4) y (5.5). Para determinarla, imaginemos primero que el n´ umero total de observaciones que se pueden realizar no puede sobrepasar un cierto n´ umero K. Se puede aplicar entonces un procedimiento iterativo hacia atr´ as: Si ya se hubiese llevado a cabo la observaci´ on de X1 , . . . , XK−1 , la duda de si es conveniente efectuar la observaci´ on de XK se resuelve comparando el riesgo Bayes actual –adoptando la decisi´on final sin observar XK – y el riesgo Bayes en caso de

128

Cap´ıtulo 5. Decisi´on secuencial

proceder a dicha observaci´ on. En concreto, sean Z L(θ, d?n (x1 , . . . , xn )) π(dθ | x1 , . . . , xn ), ρn (x1 , . . . , xn ) = Θ Z cn (θ, x1 , . . . , xn )π(dθ | x1 , . . . , xn ), τn (x1 , . . . , xn ) = ρn (x1 , . . . , xn ) + Θ Z Eθ [τK (x1 , . . . , xK−1 , XK )] π(dθ | x1 , . . . , xK−1 ). σK−1 (x1 , . . . , xK−1 ) = Θ

En caso de no observar XK el riesgo Bayes es τK−1 (x1 , . . . , xK−1 ); mientras que si se observa XK , se incurre en un riesgo σK−1 (x1 , . . . , xK−1 ). Por consiguiente, la probabilidad ϕK−1 (x1 , . . . , xK−1 ) de tomar la observaci´ on K debe ser  0 si τK−1 (x1 , . . . , xK−1 ) < σK−1 (x1 , . . . , xK−1 ) ϕ?K−1 (x1 , . . . , xK−1 ) = 1 si τK−1 (x1 , . . . , xK−1 ) > σK−1 (x1 , . . . , xK−1 ), con un valor arbitrario en caso de igualdad; lo cual produce un riesgo Bayes (condicional a haber realizado las observaciones x1 , . . . , xK−1 ): ξK−1 (x1 , . . . , xK−1 ) = m´ın{τK−1 (x1 , . . . , xK−1 ) , σK−1 (x1 , . . . , xK−1 )}, ´ptimo entre las alternativas de observar o no XK . o A continuaci´on, supuesto realizadas las observaciones x1 , . . . , xK−2 , sea Z σK−2 (x1 ,. . ., xK−2 ) = Eθ [ξK−1 (x1 ,. . ., xK−2 , XK−1 )] π(dθ | x1 ,. . ., xK−2 ); Θ

la disyuntiva de si conviene observar XK−1 se resuelve tomando como probabilidad de efectuar dicha observaci´ on  0 si τK−2 (x1 , . . . , xK−2 ) < σK−2 (x1 , . . . , xK−2 ) ϕ?K−2 (x1 , . . . , xK−2 ) = 1 si τK−2 (x1 , . . . , xK−2 ) > σK−2 (x1 , . . . , xK−2 ) que busca alcanzar el m´ınimo riesgo Bayes (condicional a disponer de las observaciones x1 , . . . , xK−2 ): ξK−2 (x1 , . . . , xK−2 ) = m´ın{τK−2 (x1 , . . . , xK−2 ) , σK−2 (x1 , . . . , xK−2 )}, ´ptimo entre las alternativas de observar o no XK−1 . o En general, una vez definido ξn+1 (x1 , . . . , xn+1 ), la comparaci´ on entre el riesgo τn (x1 , . . . , xn ), sin observar Xn+1 y el riesgo observ´andolo: Z Eθ [ξn+1 (x1 , . . . , xn , Xn+1 )] π(dθ | x1 , . . . , xn ), σn (x1 , . . . , xn ) = Θ

indica que debe ser ϕ?n (x1 , . . . , xn ) =



0 1

si τn (x1 , . . . , xn ) < σn (x1 , . . . , xn ) si τn (x1 , . . . , xn ) > σn (x1 , . . . , xn )

(5.6)

5.3. Reglas secuenciales Bayes

129

con un valor arbitrario en caso de igualdad, para alcanzar el m´ınimo riesgo Bayes (condicional a las observaciones x1 , . . . , xn ) ξn (x1 , . . . , xn ) = m´ın{τn (x1 , . . . , xn ) , σn (x1 , . . . , xn )}. En el u ´ltimo paso, habr´ıan de compararse el riesgo τ0 , sin efectuar ninguna observaci´ on, y el riesgo Z σ0 = Eθ [ξ1 (X1 )]π(dθ) Θ

despu´es de observar X1 . As´ı, la probabilidad de observar X1 debe ser  0 si τ0 < σ0 ϕ?0 = 1 si τ0 > σ0 lo cual produce un riesgo Bayes inicial (anterior a la observaci´ on de X1 ) ξ0 = m´ın(τ0 , σ0 ). En resumidas cuentas: Proposici´ on 5.2 Si ϕ? es la regla de parada definida por (5.6) y γ ? la regla de decisi´on terminal descrita en la Proposici´on 5.1, entonces [ϕ? , γ ? ] es la regla Bayes de decisi´on secuencial, frente a la distribuci´ on a priori π, en el problema de decisi´on secuencial con n´ umero de observaciones limitado por K. Dicho de otro modo: ξ0 = ´ınf r(π, [ϕ, γ]) = r(π, [ϕ? , γ ? ]) [ϕ,γ]

supuesto que ϕ est´ a restringido por la condici´on ϕK (x1 , . . . , xK ) ≡ 0. Debe tenerse en cuenta, de hecho, que toda la determinaci´on efectuada depende de K y, en particular, tanto la regla de parada obtenida, como los riesgos Bayes al (K) detener la observaci´ on en la etapa n, deber´ıan representarse por ϕn (x1 , . . . , xn ) (K) y ξn (x1 , . . . , xn ), puesto que al aumentar K todos ellos cambian. Ejemplo 5.1 Una urna contiene bolas blancas y negras, siendo la proporci´on θ de bolas blancas desconocida. Se plantea el problema de estimaci´ on de θ, de modo que Θ = [0, 1] es, a la vez, el conjunto de acciones posibles A. La funci´ on de p´erdida es L(θ, a) = L · (θ − a)2 . Se pueden hacer extracciones con reposici´on de bolas de la urna y observar su color: xn = 1 si la n-´esima bola es blanca y xn = 0 si es negra. Pero cada extracci´on supone un coste fijo c; es decir, c(θ, x1 , . . . , xn ) = nc. La distribuci´ on a priori de θ se supone Uniforme en (0, 1) y se trata de hallar la regla de decisi´on secuencial que es Bayes frente a tal distribuci´ on a priori.

130

Cap´ıtulo 5. Decisi´on secuencial

Con tama˜ no muestral fijo, igual a n, el n´ umero total de bolas blancas obtenidas: Sn = X1 +· · ·+Xn es un estad´ıstico suficiente, cuya distribuci´ on es binomial B(n, θ). Y la distribuci´ on a posteriori de θ, condicionado por Sn = s es una distribuci´ on Beta de par´ ametros s + 1 y n − s + 1, de densidad 1 f (θ | Sn = s) = θs (1 − θ)n−s en (0, 1). β(s + 1, n − s + 1) Con p´erdida cuadr´atica, la decisi´on terminal Bayes es la media a posteriori: sn + 1 con sn = x1 + · · · + xn , d?n (x1 , . . . , xn ) = n+2 que produce una p´erdida esperada m´ınima ρn (x1 , . . . , xn ) = L

(sn + 1)(n − sn + 1) , (n + 2)2 (n + 3)

proporcional a la varianza de la distribuci´ on a posteriori. Por consiguiente τn (x1 , . . . , xn ) = L

(sn + 1)(n − sn + 1) + nc. (n + 2)2 (n + 3)

(5.7)

Supongamos que el n´ umero de extracciones est´ a limitado por K; entonces τK (x1 , . . . , xK−1 , XK ) =

L (sK−1 +Xk +1)(K −sK−1 −XK +1)+Kc (K + 2)2 (K + 3)

de manera que L × Eθ [τK (x1 , . . ., xK−1 , XK )] = Kc + (K + 2)2 (K + 3)  θ(sK−1 + 2)(K − sK−1 ) + (1 − θ)(sK−1 + 1)(K − sK−1 + 1)

y, promediando θ y 1 − θ respecto a su distribuci´ on condicionada por x1 , . . . , xk−1 , σK−1 (x1 , . . . , xK−1 ) = Kc +

L (sK−1 + 1)(K − sK−1 ). (K + 1)(K + 2)2

(5.8)

La comparaci´ on con τK−1 indica cu´ando debe realizarse la observaci´ on K; es decir, tomar ϕ?K−1 (x1 , . . . , xK−1 ) = 1. Para concretar, imaginemos que es L = 200, c = 1 y el n´ umero de extracciones es a lo sumo 5. Con 5 observaciones, en funci´ on de s5 = n´ umero total de bolas blancas obtenidas, las decisiones terminales ´optimas y la expresi´on del riesgo total aparecen en la tabla: s5

d?5

τ5 = ξ5

0 1 2 3 4 5

1/7 2/7 3/7 4/7 5/7 6/7

80 0612 100 1020 110 1224 110 1224 100 1020 80 0612

5.3. Reglas secuenciales Bayes

131

tal y como resulta de sustituir directamente en (5.7). Para K = 4, hay que comparar τ4 dado por (5.7) y σ4 expresado en (5.8), cuyos valores figuran en la tabla: s4

d?4

τ4

σ4

0 1 2 3 4

1/6 2/6 3/6 4/6 5/6

70 9683 100 3492 110 1429 100 3492 70 9683

80 4014 100 4422 110 1224 100 4422 80 4014

ϕ4 0 0 1 0 0

ξ4 70 9683 100 3492 110 1224 100 3492 70 9683

Ello indica que s´olo hay que tomar la u ´ltima observaci´ on en el caso en que en las cuatro primeras se hayan obtenido 2 bolas blancas. Para las etapas previas el c´ alculo de σ3 , σ2 , . . . no puede hacerse igual de expl´ıcito, porque intervienen ξ4 , ξ3 , . . . en lugar de τ5 . Pero basta tener en cuenta que, condicionado por x1 , . . . , xn−1 , la distribuci´ on de Xn es  (sn−1 + 1)/(n + 1) si xn = 1 P{Xn = xn | x1 , . . . , xn−1 } = (n − sn−1 )/(n + 1) si xn = 0, de modo que σ3 promedia los valores de ξ4 (s3 + 1) y ξ4 (s3 ), con probabilidades (s3 + 1)/5 y (4 − s3 )/5 respectivamente. As´ı pues: d?3

s3 0 1 2 3

1/5 2/5 3/5 4/5

τ3

σ3

0

0

8 3333 110 0000 110 0000 80 3333

ϕ3

8 4445 100 6585 100 6585 80 4445

0 1 1 0

ξ3 80 3333 100 6585 100 6585 80 3333

y la cuarta observaci´ on s´olo se realizar´a si, entre las tres primeras, hay 1 o 2 bolas blancas. An´alogamente, con pesos (s2 + 1)/4 y (3 − s2 )/4 para ξ3 (s2 + 1) y ξ3 (s2 ), resulta s2 0 1 2

d?2

τ2

1/4 2/4 3/4

0

95 120 0 90 5

σ2

ϕ2

0

8 9146 100 6585 80 9146

ξ2 80 9146 100 6585 80 9146

1 1 1

con lo cual siempre se lleva a cabo la tercera observaci´ on. Por fin s1 0 1

d?1 1/3 2/3

τ1 0

12 1111 120 1111

σ1 0

9 4959 90 4959

ϕ1 1 1

ξ1 0

9 4959 90 4959

132

Cap´ıtulo 5. Decisi´on secuencial

y s0

d?0

τ0

σ0

0

1/2

160 6666

90 4959

ϕ0 1

ξ0 90 4959

En resumidas cuentas, queda especificada la regla de parada y la decisi´on terminal que constituyen la regla de decisi´on secuencial que es Bayes frente a la distribuci´ on uniforme para θ. Con ella se alcanza el m´ınimo riesgo Bayes: ξ0 = 90 4959 que, sin embargo, corresponde al horizonte K = 5 fijado inicialmente. No es dif´ıcil imaginar un programa de ordenador que desarrolle los c´alculos para cualquier horizonte K fijado.

Regla de parada con horizonte infinito Normalmente no tiene por qu´e existir una limitaci´ on en el n´ umero total de observaciones que pueden realizarse; aunque, con horizonte infinito, no hay posibilidad de llevar a cabo la recurrencia hacia atr´ as que da la soluci´ on para cada K fijo. Entonces, el paso que falta es verificar si el problema de decisi´ on secuencial con horizonte infinito, puede ser aproximado por los problemas de decisi´ on secuencial con un n´ umero limitado y creciente de observaciones, K. De ser as´ı, la soluci´ on de aqu´el podr´ıa aproximarse por la soluci´ on obtenida para un K suficientemente grande. Dicho de otro modo, representando por ξ˜0 = ´ınf r(π, [ϕ, γ]) [ϕ,γ]

donde ϕ var´ıa entre todas las reglas de parada posibles y γ entre todas las reglas de decisi´ on terminal posibles, se trata de ver cu´ ando se verifica (K) ξ˜0 = l´ım ξ0 . K→∞

Desde luego, si el n´ umero de observaciones est´ a limitado por K + 1 el decisor dispone de un mayor margen de actuaci´ on que cuando est´ a limitado por K (K) (K+1) (concretamente observar o no XK+1 ). As´ı pues ξ0 ≥ ξ0 y la sucesi´on (K) ∞ decreciente ξ0 converge a un l´ımite ξ0 , sin duda mayor que ξ˜0 . Proposici´ on 5.3 Si L est´ a acotada o bien se verifica E[ρn (X1 , . . . , Xn )] −→ 0 entonces ξ˜0 = ξ0∞ .

cuando n → ∞,

(5.9)

5.3. Reglas secuenciales Bayes

133

˜ γ ˜ ] es una regla de decisi´on secuencial que es Demostraci´ on: Supongamos que [ϕ, ˜ γ ˜ ]) = ξ˜0 (1 ). Bayes frente a π en el problema con horizonte infinito: r(π, [ϕ, ˜ estar´ De acuerdo con la proposici´on 5.1, γ a compuesta por la regla Bayes d?n (x(n) ) cualquiera que sea el n´ umero n de observaciones que resulte de aplicar la regla ˜ O sea que γ ˜ coincide con la regla de decisi´on terminal γ ? de la de parada ϕ. proposici´on 5.1. ˜ (K) obtenida de ϕ ˜ truncando el n´ Consideremos la regla de parada ϕ umero de observaciones en K; es decir, cualquiera que sean las observaciones x1 , . . . , xn ,  ˜n (x1 , . . . , xn )  si n < K,  ψ∞ (K) X ˜ ψn (x1 , . . . , xn ) = (5.10) ψ˜n (x1 , . . . , xn ) si n = K.   n=K

˜ (K) y ϕ ˜ coinciden hasta la etapa K, Entonces, puesto que ϕ

˜ (K) , γ ? ]) − r(π, [ϕ, ˜ γ ? ]) = r(π,[ϕ ∞ Z X   = Eθ ψ˜n (X (n) )[L(θ, d?K (X (K) )) − L(θ, d?n (X (n) ))] π(dθ) n=K

+

Θ

∞ Z X

n=K



Z

Θ

Θ

  Eθ ψ˜n (X (n) )[cK (θ, X (K) ) − cn (θ, X (n) )] π(dθ)

Eθ [ψ˜K (X (K) )L(θ, d?K (X (K) ))] π(dθ)

(5.11)

por ser el resto de los t´erminos negativos y habida cuenta de (5.10). Cuando L est´ a acotada superiormente, (5.11) puede hacerse inferior a cualquier ε > 0 prefijado, a costa de tomar K suficientemente grande, pues (5.1) indica que Eθ [ψ˜(K) (X (K) )] tiende a cero cuando K crece, cualquiera que sea θ. Tambi´en, si E[ρK (X1 , . . . , XK )] → 0, como Z Eθ [L(θ, d?K (X1 , . . . , XK ))]π(dθ) = E[ρK (X1 , . . . , XK )], Θ

la cantidad inferior (5.11) puede hacerse menor que cualquier ε > 0 prefijado, si K se toma suficientemente grande. En cualquiera de los dos casos es (K)

ξ0

˜ (K) , γ ? ]) ≤ r(π, [ϕ, ˜ γ ? ]) + ε = ξ˜0 + ε ≤ r(π, [ϕ

a partir de un cierto K. Por consiguiente, ξ0∞ = ξ˜0 .

La proposici´ on anterior no indica c´omo de grande debe tomarse K para que (K) ξ0 est´e pr´ oximo a ξ˜0 . Ciertas condiciones adicionales permiten garantizar que ξ˜0 se alcanza con un valor fijo de K. 1 Si s´ olo existen reglas de decisi´ on ε-Bayes, para cada ε > 0, el argumento ha de ser ligeramente modificado.

134

Cap´ıtulo 5. Decisi´on secuencial

Proposici´ on 5.4 Si ξ˜0 = ξ0∞ y, para cualquier k > K0 , se cumple ρk−1 (x(k−1) ) − E[ρk (x(k−1) , Xk ) | X (k−1) = x(k−1) ] (5.12) Z Eθ [ck (θ, x(k−1) , Xk ) − ck−1 (θ, x(k−1) )] π(dθ | x(k−1) ) ≤ Θ

excepto para x(k−1) en un conjunto de probabilidad cero, entonces se verifica (K ) ξ0 0 = ξ˜0 . El miembro de la izquierda de (5.12) es la reducci´on esperada de la p´erdida que se produce al observar Xk , mientras que el miembro de la derecha es el aumento esperado del coste por observar Xk , en ambos casos condicionado por que ya se ha observado x(k−1) . Es l´ogico que, si la primera es inferior al segundo para todas las observaciones posteriores a K0 , no tenga inter´es hacer m´ as de K0 observaciones. Demostraci´ on: Con un horizonte fijo K > K0 , la condici´on (5.12) asegura que (k) τk (x ) ≤ σk (x(k−1) ) (con probabilidad 1); por consiguiente no se realizan ob(K) (K ) (K) servaciones posteriores a K0 y ξ0 = ξ0 0 . Dado que ξ0 → ξ˜0 , tiene que ser (K ) 0 ξ˜0 = ξ0 . Ejemplo 5.2 En la situaci´ on del ejemplo 5.1, como la funci´ on de p´erdida es acotada, se cumple ξ˜0 = ξ0∞ . Adem´as, con los c´ alculos realizados all´ı, la reducci´on de la p´erdida esperada que produce la observaci´ on de Xk , vale ρk−1 (x(k−1) ) − E[ρk (x(k−1) , Xk ) | X (k−1) = x(k−1) ] =

L(sk−1 + 1)(k − sk−1 ) L(sk−1 + 1)(k − sk−1 ) − (k + 1)2 (k + 2) (k + 1)(k + 2)2 L(sk−1 + 1)(k − sk−1 ) = (k + 1)2 (k + 2)2

=

y alcanza su m´aximo cuando sea sk−1 = (k − 1)/2; de manera que siempre es menor que L . 4(k + 2)2 Esta cota superior decrece con k, a inferior al aumento esperado √ con√lo cual se har´ del coste, c, a partir de K0 = L/2 c − 2 en adelante. La proposici´on anterior indica que nunca interesa realizar las observaciones posteriores a K0 . Con los datos num´ericos L = 200 y c = 1, es K0 = 50 07. Luego la regla de decisi´on secuencial con horizonte infinito es la misma que la correspondiente al horizonte (5) K = 5 que fue hallada en el ejemplo 1. En particular, ξ˜0 = ξ0 = 90 4959.

5.3. Reglas secuenciales Bayes

135

Ejercicios 5.1 Un problema de decisi´on cuenta con dos estados de la naturaleza, θ1 y θ2 , y con dos acciones posibles, a1 y a2 , siendo la funci´ on de p´erdida

a1 a2

θ1

θ2

100 10

20 80

La distribuci´ on a priori sobre los estados de la naturaleza es π1 = 00 5, π2 = 00 5. Adem´as se dispone de un experimento que, en cada repetici´ on, puede dar los resultados x1 y x2 con probabilidades

x1 x2

θ1

θ2

0

00 3 00 7

07 00 3

a) En caso de que no se realice experimentaci´on ninguna, determinar la acci´on Bayes y el correspondiente riesgo Bayes. b) En el caso en que se realicen n repeticiones del experimento, expresar la regla de decisi´on Bayes en funci´ on del valor de la diferencia ∆ entre el n´ umero de veces que aparece x1 y el n´ umero de veces que aparece x2 . c) Si cada repetici´ on del experimento cuesta 1, determinar el tama˜ no muestral optimo. ´ c) Obtener la regla de decisi´on secuencial ´optima.

Ap´ endice A

Soluci´ on de los ejercicios Cap´ıtulo 1 Ejercicio 1.1 a) Hay dos estados de la naturaleza, seg´ un que el tr´afico por el centro de la ciudad sea denso o fluido. Es decir, Θ = {D, F }. En cuanto al conjunto de acciones posibles, A = {a1 , a2 } donde a1 representa el trayecto por el centro de la ciudad y a2 el trayecto por la v´ıa de circunvalaci´ on. Como funci´ on de p´erdida es l´ogico adoptar el tiempo que invierte en llegar a su destino. Por consiguiente, el problema de decisi´on se formula: Tr´afico Trayecto

Denso

Fluido

a1 a2

35 25

15 25

b) Con probabilidad π de que el tr´afico por el centro de la ciudad sea denso, la duraci´ on esperada del trayecto a1 es E1 = π 35 + (1 − π) 15 = 20π + 15; mientras que el trayecto a2 tiene una duraci´ on fija E2 = 25. El trayecto a1 ser´a preferible si 20π + 15 < 25 o bien π < 1/2. Para π > 1/2, es preferible a2 . Y ambos son indiferentes cuando sea π = 1/2. c) Los d´ıas en que sea ineludible llegar al trabajo a una hora prefijada, se puede emplear el trayecto a1 saliendo de casa con 35 minutos de anticipaci´on; o bien salir de casa con 25 minutos de anticipaci´on y emplear el trayecto a2 . Por tanto, la segunda alternativa es preferible.

136

Cap´ıtulo 1

137

Obs´ervese que, ahora, cada alternativa ai se valora mediante m´axθ L(θ, ai ). d) La acci´on aleatorizada α = (α, 1 − α) tiene asociada la funci´ on de p´erdida: L(D, α) = α 35 + (1 − α) 25 = 25 + 10α, L(F, α) = α 15 + (1 − α) 25 = 25 − 10α. Ejercicio 1.2 a) Con cada premio obtenido en primer lugar, el concursante puede elegir conservarlo (0) o cambiarlo por otro (1). Hay por tanto 8 acciones posibles: A = {a1 = (0, 0, 0), a2 = (0, 0, 1), a3 = (0, 1, 0), a4 = (1, 0, 0), a5 = (0, 1, 1), a6 = (1, 0, 1), a7 = (1, 1, 0), a8 = (1, 1, 1)},

cada una de las cuales indica el comportamiento ante cada premio; por ejemplo a4 = (1, 0, 0) prescribe cambiar la tarjeta si lleva inscrito un 5 y conservarla si tiene un 10 o un 15. En cuanto a los estados de la naturaleza se pueden identificar con las posibles parejas de tarjetas que se obtendr´ıan en las dos extracciones: Θ = {(5, 5), (5, 10), (5, 15), (10, 5), (10, 10), (10, 15), (15, 5), (15, 10), (15, 15)} La tabla que indica la ganancia con cada acci´on, en funci´ on del estado de la naturaleza es

Θ A

(5,5)

(5,10)

(5,15)

(10,5)

(10,10)

(10,15)

(15,5)

(15,10)

(15,15)

a1 a2 a3 a4 a5 a6 a7 a8

5 5 5 5 5 5 5 5

5 5 5 10 5 10 10 10

5 5 5 15 5 15 15 15

10 10 5 10 5 10 5 5

10 10 10 10 10 10 10 10

10 10 15 10 15 10 15 15

15 5 15 15 5 5 15 5

15 10 15 15 10 10 15 10

15 15 15 15 15 15 15 15

p2

pq

pr

pq

q2

qr

pr

qr

r2

b) Una acci´ on domina a otra si la fila de la primera contiene t´erminos superiores o iguales a los de la segunda, con alg´ un t´ermino estrictamente mayor. Por tanto, las relaciones de dominancia son las que indica el gr´ afico siguiente:

138

Soluci´ on de los ejercicios a4 a1

a7 a6

a2

a3

a8 a5

Seg´ un ello, las u ´nicas acciones no dominadas son a4 = (1, 0, 0) y a7 = (1, 1, 0). Directamente, est´ a claro que con un premio de 5 es mejor cambiar que conservarlo, porque no se puede empeorar. Mientras que con un premio de 15 es mejor conservarlo, porque no se puede mejorar. As´ı pues, la u ´nica duda razonable es si debe conservarse o cambiarse un premio de 10. c) En la u ´ltima fila de la tabla anterior figuran las probabilidades de los diversos estados de la naturaleza en funci´on de p, q y r. Con ellas se puede calcular el beneficio esperado de cada una de las acciones; aunque basta considerar las dos no dominadas: a4 y a7 . Concretamente son b(a4 ) = 5p2 + 10pq + 15pr + 10(pq + q 2 + qr) + 15(pr + qr + r 2 ) b(a7 ) = 5p2 + 10pq + 15pr + 5pq + 10q 2 + 15qr + 15(pr + qr + r 2 ). De manera que b(a4 ) < b(a7 ) cuando 10(pq + q 2 + qr) < 5pq + 10q 2 + 15qr

o bien

p < r.

As´ı pues, si estima que hay m´ as tarjetas con el 15 que con el 5, la mejor decisi´ on es a7 (cambiar de tarjeta, si obtiene 10); en caso contrario, es mejor decisi´ on a4 (conservar el premio de 10). Ejercicio 1.3 a) En el caso en que el primer n´ umero extra´ıdo sea 2, las posibles evoluciones del juego est´ an representadas en el diagrama: 2 p 4 s 2

1

16 2

0

A 3 p s

9

1

16

En los v´ertices negros aparece la suma acumulada por el jugador y su elecci´on es parar las extracciones (p) o seguir extrayendo (s). Si hay nueva extracci´on, el azar puede elegir uno de los dos resultados posibles y, al final de cada rama figura en rojo lo que percibe el jugador. En este subjuego hay exactamente 3 acciones posibles: parar en el primer v´ertice (p), seguir en el primero y parar en el segundo (sp) o seguir en ambos (ss).

Cap´ıtulo 1

139

Cuando el primer n´ umero extra´ıdo sea 1, el juego puede proseguir de las diversas maneras indicadas al margen. Ahora hay siete estrategias posibles: p, spp, ssp, spsp, spss, sssp y ssss, seg´ un que en los sucesivos v´ertices (listados de arriba a abajo y de izquierda a derecha) se pare o se efect´ ue nueva extracci´ on. En total, hay 3 × 7 = 21 acciones posibles para el juego completo. Sin embargo, estar´ an dominadas todas las acciones que elijan parar en un v´ertice con puntuaci´ on inferior a tres (ya que una nueva extracci´ on s´olo puede mejorar el resultado). Quedan, pues, nueve acciones no dominadas:

1 p s 2

B

1

p 3 s

9

2

1

2 p 4 s

1

2

0

1

16

2

0

C 3 p s

9

1

16

A = {ppp, pps, psp, spp, pss, sps, ssp, sss} cuyas componentes indican el comportamiento en los tres v´ertices (A, B, C) en los que la puntuaci´ on alcanzada es 3. b) Los estados de la naturaleza deben indicar como evolucionar´ıa la suma en caso de que las extracciones se realicen mientras las reglas lo permitan. Por tanto, son Θ = {(2, 4), (2, 3, 4), (2, 3, 5), (1, 3, 5), (1, 3, 4), (1, 2, 4), (1, 2, 3, 5), (1, 2, 3, 4)} cada uno de los cuales indica un itinerario sobre el grafo correspondiente (los tres primeros sobre el inicial y los cinco restantes sobre el u ´ltimo). Las ganancias, seg´ un el estado de la naturaleza y la acci´on escogida aparecen en la tabla Θ A

(2,4)

(2,3,4)

(2,3,5)

(1,3,5)

(1,3,4)

(1,2,4)

(1,2,3,5)

(1,2,3,4)

ppp pps psp spp pss sps ssp sss

16 16 16 16 16 16 16 16

9 9 9 16 9 16 16 16

9 9 9 0 9 0 0 0

9 9 0 9 0 9 0 0

9 9 16 9 16 9 16 16

16 16 16 16 16 16 16 16

9 0 9 9 0 0 9 0

9 16 9 9 16 16 9 16

q2

p2 q

pq 2

pq 2

p2 q

p2 q

p3 q

p4

Puede observarse que ninguna acci´on est´ a dominada por ninguna otra. c) En la u ´ltima fila de la tabla anterior figuran las probabilidades de los diversos estados de la naturaleza (producto de un factor p por cada incremento 1 de la suma

140

Soluci´ on de los ejercicios

de puntuaciones y un factor q por cada incremento 2). Con dichas probabilidades, la ganancia esperada de cada acci´on resulta: g(ppp) = 16 − 14p + 14p2 − 7p3

g(pps) = 16 − 14p + 14p2 − 16p3 + 16p4

g(psp) = 16 − 23p + 39p2 − 23p3 = g(spp)

g(pss) = 16 − 23p + 39p2 − 32p3 + 16p4 = g(sps) g(ssp) = 16 − 32p + 64p2 − 39p3

g(sss) = 16 − 32p + 64p2 − 48p3 + 16p4

Hay seis resultados diferentes y la mejor forma de compararlos es representar sus gr´ aficas en funci´ on de p.

15 g(ppp)

g(sss)

13 11 9

0

p

9 16

1

Se ve que todas coinciden si p = 9/16 = 00 5625. Para p < 00 5625, la acci´on ppp produce la mayor ganancia esperada; mientras que ´esta se obtiene con la acci´on sss si p > 00 5625. Era l´ogico pensar que, en cualquiera de los tres v´ertices A, B, C, en los que la suma de puntuaciones es 3, la decisi´on de parar o seguir tiene que ser la misma, sin depender de c´ omo se haya alcanzado la puntuaci´on 3. Ejercicio 1.4 Despu´es de que A reciba el regalo, la situaci´ on de su fortuna puede representarse por la loter´ıa   1−p p , x0 x0 + r mientras que B conserva su fortuna inicial x0 . Si acuerdan transferir la participaci´on por un precio c, tras la compra-venta, A tendr´a x0 + c como fortuna y la situaci´ on de B puede describirse por la loter´ıa   1−p p . x0 − c x0 + r − c

Cap´ıtulo 1

141

Se pretende encontrar un valor de c > 0 tal que    1−p p 1−p ≺ x0 + c y x0 x0 + r x0 − c

p x0 + r − c



 x0

a fin de que la transacci´ on sea beneficiosa para ambos. En t´erminos de cualquier utilidad com´ un u(x), que cumpla u(x0 ) = 0, ha de ser: p u(x0 + r) < u(x0 + c), (1 − p) u(x0 − c) + p u(x0 + r − c) > 0. En la segunda desigualdad u(x0 − c) < 0, luego tiene que ser r − c > 0 y, con la utilidad indicada, resulta p r α < cα , p (r − c)α > (1 − p) cα ,

o bien

p

1/α

p1/α r < c, (r − c) > (1 − p)1/α c.

Cualquier cantidad c que verifique p1/α r < c
u(x), es decir, con la utilidad indicada (1 − p) log(x − c) + p log(x + r − c) > log x o bien Si p = 1/2, resulta

(x − c)1−p (x + r − c)p > x.

(x − c)(x + r − c) > x2

o bien

(A.1)

c2 − c(2x + r) + rx > 0;

lo cual se cumple solamente para c inferior a la menor ra´ız del polinomio anterior (la segunda ra´ız es superior a x). Por tanto, debe ser 1p 2 r c 100 7

o bien p > 7/8 = 00 875. Ejercicio 1.9 a) Si juega una cantidad c ∈ [0, x0 ], su situaci´ on tras el sorteo viene descrita por la loter´ıa   1−p p con p = 10−5 , x0 − c x0 + 5999c de utilidad U = (1 − p)(x0 − c)α + p(x0 + 5999c)α . Si α ≤ 1 (aversi´ on al riesgo), la derivada 5999pα (1 − p)α dU + =− dc (x0 − c)1−α (x0 + 5999c)1−α es negativa puesto que 5999p 1 (afici´ on al riesgo), la derivada segunda d2 U = (1 − p)α(α − 1)(x0 − c)α−2 + 59992 pα(α − 1)(x0 + 5999c)α−2 dc2 es positiva en [0, x0 ]; de manera que la m´axima utilidad se alcanza en uno de los extremos. Para c = 0, no juega y la utilidad vale xα 0 ; en cambio, para c = x0 , la utilidad resulta p(6000x0)α . Por consiguiente, la cantidad ´optima a jugar es  α 0 si xα o bien p 6000α ≤ 1 ? 0 ≥ p(6000x0 ) c = x0 en caso contrario. Como p = 10−5 , debe jugar todo su capital siempre que sea α>

5 log 10 ' 10 3234. log 6000

b) Suponiendo que α > 10 3234, se jugar´ıa todo su capital y tendr´ıa una utilidad p(6000x0 )α ; mientras que la oferta de una cantidad K, le supondr´ıa una utilidad (x0 + K)α . Para que sea p(6000x0 )α ≤ (x0 + K)α

debe ser

K ≥ (6000p1/α − 1)x0 .

Con α = 2, queda K ≥ 170 974x0 ; con α = 10 5, resulta K ≥ 10 785x0 ; y con α = 10 33, basta con K ≥ 00 044x0 . Cuanta mayor afici´on al riesgo, m´as cuesta disuadirle. c) Jugando la cantidad c/2 a dos n´ umeros distintos, participar´ a en la loter´ıa   1 − 2p 2p con p = 10−5 , x0 − c x0 + 2999c de utilidad U2 = (1 − 2p)(x0 − c)α + 2p(x0 + 2999c)α .

El mismo razonamiento anterior muestra que no debe participar si α ≤ 1; y apostar c = x0 cuando sea 2p3000α > 1. Ello equivale a α>

5 log 10 − log 2 ' 10 3514; log 3000

de forma que precisa algo m´as de afici´on al riesgo para decidir apostar a dos n´ umeros. Adem´as, siempre que α > 1, es p(6000x0 )α > 2p(3000x0 )α ; luego la utilidad de jugar a un s´olo n´ umero es superior a la de apostar por dos distintos. 1 El resultado es cierto mientras sea f p/(1 − p) < 1, donde f + 1 es el pago por euro del premio.

146

Soluci´ on de los ejercicios

Cap´ıtulo 2 Ejercicio 2.1 El n´ umero X de ´ arboles arraigados que se obtienen, cuando se plantan n, es una variable aleatoria con distribuci´ on binomial B(n, 1 − pn ), de media y desviaci´on t´ıpica r p n  n n , σ(X) = npn (1 − pn ) = . E[X] = n(1 − pn ) = n 1 − 1− 400 20 400

a) Para maximizar E[X], hay que plantar n = 200 ´arboles, puesto que el v´ertice de la par´ abola n(1 − n/400) est´ a en el punto (200, 100). Por tanto, el mayor valor de E[X] es 100. b) La funci´ on fλ (n) = E[X] − λσ(X) = n −

n2 n √ 400 − n −λ 400 400

tiene por derivada √ 400 − n n n √ −λ +λ 200 400 800 400 − n √ 4n 400 − n + 800λ − 3λn √ . =1− 800 400 − m

fλ0 (n) = 1 −

Con λ = 2, f20 (n) se anula para n = 1920 256. Como n es entero, es f´acil ver que f2 (n) alcanza su m´aximo valor 850 9947 para n = 192; donde la media vale 990 84 y la desviaci´ on t´ıpica es 60 9227. En cambio, con n = 200, la media es 100 y la desviaci´ on t´ıpica 70 071; con un valor de f2 (n) de 850 858. c) Como X es aproximadamente normal: X ≈ N (n(1 − pn ),

p npn (1 − pn ))

o bien

X − n(1 − pn ) ≈ N (0, 1), Z= p npn (1 − pn )

ser´a P{Z > −10 28} = 00 9. Es decir que,pcon probabilidad 00 9, se obtiene un n´ umero de ´ arboles superior a n(1 − pn ) − 10 28 npn (1 − pn ) = f10 28 (n). Como en (b), f10 28 (n) alcanza en n = 195 su m´aximo 910 003; ligeramente superior al valor que se obtiene con n = 200 y con n = 192. d) Para maximizar la probabilidad   90 − n(1 − pn ) P{X > 90} = P Z > p npn (1 − pn )

hay que hacer m´ınimo

90 − n(1 − pn ) n2 − 400n + 36000 p √ = . n 400 − n npn (1 − pn )

Cap´ıtulo 2

147

El m´ınimo se obtiene para n = 195 y vale −10 4237; de modo que la probabilidad de obtener m´as de 90 ´ arboles alcanza el valor 00 923. Con n = 200, la probabilidad 0 es 0 921. Ejercicio 2.2 Puesto que θ tiene distribuci´ on exponencial de media µ = 70 3, es E[θ2 ] = 2µ2 ,

E[θ] = µ,

E[θ3 ] = 6µ3 ,

E[θ4 ] = 24µ4 .

a) Por tanto, la p´erdida esperada vale E[L(θ, a)] = E[θ2 ] − 2aE[θ] + a2 = (a − µ)2 + µ2 que se hace m´ınima para a = µ, donde vale µ2 = 530 29. Pero, como a debe ser entero, hay que tomar a = 7 donde la p´erdida esperada es 530 38. En cambio, para a = 8, se obtiene 530 78. b) La varianza de la p´erdida es E[(θ − a)4 ]−E[L(θ, a)]2 = 24µ4 − 24aµ3 + 12a2 µ2 − 4a3 µ + a4 −(2µ2 − 2aµ + a2 )2 = 4a2 µ2 − 16aµ3 + 20µ4 ;

de modo que el criterio media–dispersi´ on, con λ = 20 5, se expresa p C(a) = µ2 + (a − µ)2 + 5µ a2 − 4aµ + 5µ2 .

que alcanza su m´ınimo valor en a = 10 7057µ; es decir en a = 120 452. Ahora bien, a debe ser entero, de manera que la mejor decisi´on es a = 12, donde C(a) vale 3580 226. En cambio, para a = 7, el valor es aproximadamente 438. c) El valor de C para el cual P{L(θ, a) > C} = 00 05 es aqu´el para el que se cumple √ √ P{a − C ≤ θ ≤ a + C} = 00 95 es decir 0

0 95 =

(



− e−(a+ e−(a− C)/µ √ −(a+ C)/µ 1−e

√ C)/µ

√ si a ≥ C, √ si a < C,

Imaginemos que el valor de a para el que se obtiene el m´ınimo de C cumpliese √ a < C. Tendr´ıa que ser entonces √ √ e−(a+ C)/µ = 00 05 o sea C = −a − µ log 00 05 = 210 869 − a; de modo que a ≤ 10. Un posible m´ınimo de C corresponde pues a a = 10 y √ C = 110 869. √ Por el contrario, si a ≥ C, tiene que ser √ √ e−(a− C)/µ > 00 95 o sea C > a + µ log 00 95 = a − 00 375.

148

Soluci´ on de los ejercicios

√ Con lo cual, C es muy pr´oximo √ a a y el m´ınimo de C se√alcanza en el primer valor de a para el cual sea a ≥ C. Con a = 11, se obtiene C = 100 994. La mejor decisi´on con el criterio del riesgo, fijado en 00 95, es a = 11. d) Hay que minimizar C = P{(θ − a)2 > 10}, o bien maximizar ( √ 10)/µ √ √ 1 − e−(a+ √ √ P{a − 10 ≤ θ ≤ a + 10} = −(a− 10)/µ − e−(a+ 10)/µ e

√ si a < 10 √ si a ≥ 10

√ Dicha funci´ on es creciente hasta 10 y decreciente a su derecha. Con a entero, el m´aximo se alcanza en a = 4, donde vale 00 5167; de modo que el valor ´optimo de C es 00 4833. Ejercicio 2.3 A˜ nadimos a la tabla las columnas que contienen el m´aximo, el m´ınimo y la suma de cada fila. θ1 a1 a2 a3

5 −3 −2

θ2

θ3

−2 2 4

−1 5 0

θ4

m´axθ

m´ınθ

0 −2 −1

5 5 4

−2 −3 −2

P

θ

2 2 1

El criterio minimax de Wald prescribe como ´optima de acci´on a3 . El criterio de Hurwicz otorga a cada acci´on la valoraci´ on S(a1 ) = 5λ − 2(1 − λ) = 7λ − 2

S(a2 ) = 5λ − 3(1 − λ) = 8λ − 3 S(a3 ) = 4λ − 2(1 − λ) = 6λ − 2

en funci´ on del coeficiente λ ∈ (0, 1). La acci´on a2 es preferible si λ ≤ 1/2, mientras que, para λ ≥ 1/2, la acci´on ´optima es a3 . El criterio de Laplace elige la acci´on a3 ; mientras que a1 y a2 son equivalentes y peores que a3 . Para aplicar el criterio de Savage, se forma la matriz de decepciones:

a1 a2 a3

θ1

θ2

θ3

θ4

m´axθ

8 0 1

0 4 6

0 6 1

2 0 1

8 6 6

y el criterio de Savage indica que son ´optimas las acciones equivalentes a2 y a3 . La acci´on α, que elige entre a2 y a3 con probabilidades α y 1 − α, tiene asociadas las p´erdidas promedio:

Cap´ıtulo 2

149

α

θ1

θ2

θ3

θ4

−α − 2

4 − 2α



−α − 1

Representadas las p´erdidas en funci´ on de α ∈ [0, 1], se obtiene inmediatamente  4α − 2 si α ≤ 4/7 m´ax L(θ, α) = y m´ın L(θ, α) = −α − 2. 5α si α ≥ 4/7 θ θ Con el criterio de Wald, la acci´on minimax es la correspondiente a α = 4/7; donde se obtiene el valor 20/7 ' 20 857, inferior al valor 4 obtenido con la acci´on minimax no aleatorizada a3 . Fijado cualquier valor de λ, el criterio de Hurwicz para la acci´on α vale S(α) =

(

λ(4 − 2α) + (1 − λ)(−α − 2)

si α ≤ 4/7

λ5α + (1 − λ)(−α − 2)

si α ≥ 4/7

que, como el segundo sumando es el mismo en ambos casos, tambi´en alcanza su m´ınimo con α = 4/7, donde vale 2(19λ − 9)/7. Con relaci´ on al criterio de Laplace, la suma de las cuatro p´erdidas asociadas a la acci´on α es α + 1. El m´ınimo se alcanza con α = 0; es decir con la acci´on no aleatorizada a3 . La acci´on aleatorizada α a˜ nade a la matriz de decepciones la fila

α

θ1

θ2

θ3

θ4

1−α

6 − 2α

5α + 1

1−α

cuyo m´aximo es 

6 − 2α 1 + 5α

si α ≤ 5/7 si α ≥ 5/7.

El m´ınimo se alcanza con α = 5/7 y vale 32/7, inferior al valor del criterio para a2 y a3 . Ejercicio 2.4 Sean x y 1 − x las proporciones de las superficies de las tierras del agricultor que se dedican al cultivo a1 y a2 respectivamente. En funci´ on de las circunstancias clim´ aticas, las ganancias (por ha) obtenidas ser´an G(θ1 , x) = 8x + 2(1 − x) = 6x + 2,

G(θ2 , x) = 6x + 9(1 − x) = 9 − 3x, G(θ3 , x) = 5x + 7(1 − x) = 7 − 2x.

150

Soluci´ on de los ejercicios

De forma que, utilizando el reparto (x, 1−x), la ganancia G (por ha) es una variable aleatoria con distribuci´ on  0  02 00 35 00 45 . 6x + 2 9 − 3x 7 − 2x Un valor k que verifique P{G ≥ k} ≥ 00 9, no puede superar a ninguna de las tres ganancias posibles; es decir k ≤ m´ın{6x + 2, 9 − 3x, 7 − 2x} = m(x). De lo contrario, P{G ≥ k} no podr´ıa alcanzar el valor 00 9, pues faltar´ıa al menos una de las tres probabilidades 00 2, 00 35 o 00 45. Pero, f´acilmente se ve que  6x + 2 si x ≤ 5/8, m(x) = 7x − 2 si x ≥ 5/8. As´ı que k ser´a lo mayor posible, si se toma x = 5/8, donde m(x) = 23/4, y se hace k = 23/4. Con ello, la distribuci´ on de G queda  0  0 2 00 35 00 45 23/4 57/8 23/4 y, por tanto, P{G ≥ 23/4} = 1. En resumen, dedicar 5/8 del terreno (320 5 ha) al cultivo a1 y 3/8 (190 5 ha) al cultivo a2 , es el mejor reparto para maximizar el valor de k. b) La u ´ltima distribuci´ on de G especificada tiene media E[G] = 00 65

57 23 + 00 35 = 60 23 4 8

y desviaci´ on t´ıpica σ(G) =

p 00 65(23/4)2 + 00 35(57/8)2 − 60 232 = 00 656.

Por u ´ltimo, hay que multiplicar por la superficie en hect´ areas de la finca, para obtener la media y la desviaci´on t´ıpica de la ganancia total: 324025 euros y 3410303 euros respectivamente. Ejercicio 2.5 a) La par´ abola G(θ, a) alcanza su m´ınimo en θ = −a/2, de forma que m´ın G(θ, a) = −

θ∈[−1,1]

a2 . 2

Por tanto, la acci´on maximin es a = 0, donde −a2 /4 alcanza su mayor valor: 0. Para aplicar el criterio de Hurwicz, hay que observar que, en θ = 1, G(θ, a) toma su mayor valor: m´ax G(θ, a) = 1 + a, θ∈[−1,1]

Cap´ıtulo 2

151

y considerar, para un valor de λ ∈ [0, 1] fijado, λ m´ın G(θ, a) + (1 − λ) m´ax G(θ, a) = −λ θ∈[−1,1]

θ∈[−1,1]

a2 + (1 − λ)(1 + a). 4

El m´aximo puede corresponder a a = 0, a = 1 o al v´ertice a = 2(1 − λ)/λ, donde los valores son 9λ 1 − λ 1 − λ, 2 − , . 4 λ Es f´acil ver que la tercera siempre es superior a las otras dos; luego, el criterio de Hurwicz indica a = 2(1 − λ)/λ como acci´on ´optima. Dado que Z

1

G(θ, a) dθ = −1

2 3

para cualquier a ∈ A, todas las acciones son equivalente con el criterio de Laplace. La funci´ on de decepci´ on es aqu´ı 2

2

2

D(θ, a) = m´ax{θ , θ + θ} − θ − θa =



θ(1 − a) −θa

Para ella hay que calcular la acci´on minimax; pero  1−a m´ax D(θ, a) = m´ax{1 − a, a} = a θ∈[−1,1]

si θ ≥ 0 si θ ≤ 0

si a ≤ 1/2 si a ≥ 1/2,

luego la acci´on ´ optima es a = 1/2. Si π es cualquier distribuci´ on a priori sobre Θ, la ganancia esperada es Eπ [G(θ, a)] = Eπ [θ2 ] + aEπ [θ] que s´olo depende de los dos primeros momentos de π. La m´axima ganancia esperada se obtiene con a = 1 si Eπ [θ] > 0 y con a = 0 si Eπ [θ] < 0. Cuando Eπ [θ] = 0, todas las acciones son equivalentes. b) Con densidad uniforme, la ganancia esperada es E[G(θ, a)] =

Z

1

(θ2 + aθ) −1

1 dθ = 2 3

que no depende de a. El criterio del valor esperado, que coincide aqu´ı con el de Laplace hace equivalentes todas las acciones. Como la ganancia esperada es constante, el criterio media-dispersi´ on se reduce a minimizar la varianza (cualquiera que sea el λ elegido). Pero, dado que E[θ4 ] = 1/5, E[θ2 ] = 1/3, y E[θ3 ] = E[θ] = 0,

152

Soluci´ on de los ejercicios

resulta

1 a2 + 5 3

E[G(θ, a)2 ] = y, por consiguiente, la varianza de G(θ, a) es σ 2 (G(θ, a)) =

a2 4 + 3 45

que se hace m´ınima para a = 0. El criterio del riesgo fijo prescribe elegir a para maximizar el valor C tal que P{G(θ, a) > C} = 1 − λ; es decir

o bien

√ √   −a + a2 + 4C −a − a2 + 4C =λ 0, para maximizar la probabilidad P{G(θ, a) > K}, hay que minimizar √ √  √ 2  −a + a2 + 4K a + 4K −a − a2 + 4K = 0) o bien en uno de los extremos a = −3 o a = 2. Supuesto que aπ ∈ [−3, −1], o lo que es equivalente 3/8 ≤ π ≤ 27/32, aπ es acci´on Bayes frente a π. Frente a π = (3/8, 5/8), ortogonal al segmento (2, 11/5)–(5, 2/5), son Bayes todas las acciones aleatorizadas concentradas en {−1, 2}. Para π < 3/8 es Bayes la acci´on a = 2; mientras que, si π ≥ 27/32 es Bayes la acci´on a = −3. En resumen, la acci´on Bayes ha resultado  2 si π < 3/8    −1 o 2 si π = 3/8 p a?π = − 5π/3(1 − π) si 3/8 ≤ π ≤ 27/32    −3 si π ≥ 27/32 con el consiguiente m´ınimo riesgo Bayes   (23π + 2)/5√ p rˆ(π) = π + 2 − 2π 5π/3 3(1 − π)  37(1 − π)/5

si π ≤ 3/8 si 3/8 ≤ π ≤ 27/32 si π ≥ 27/32.

Eliminar la acci´on a = 2 s´olo tiene por efecto que no existe acci´on Bayes frente a π cuando π < 3/8; siendo acciones ε-Bayes aquellas que est´en suficientemente pr´oximas a 2. d) La diagonal x2 = x1 corta al segmento de la tangente x2 = (17 − 3x1 )/5 en el punto (17/8, 17/8) que corresponde a la acci´on aleatorizada que elige la acci´on a = −1 con probabilidad 23/24 y la acci´on a = 2 con probabilidad 1/24. Esa es, pues, la acci´on minimax y 17/8 es el valor del problema.

Cap´ıtulo 3

159

La distribuci´ on menos favorable es π 0 = (3/8, 5/8), frente a la cual tanto a = −1 como a = 2 dan riesgo 17/8. Ejercicio 3.7 a) Fijando en a la calidad de la producci´on, se asegura un rendimiento superior a m´ın (θ − a)2 + 2(a − 00 4)2 = 2(a − 00 4)2 ,

θ∈[0,1]

(puesto que el m´ınimo del primer sumando –el u ´nico que depende de θ– se alcanza con θ = a). Ahora, la acci´on maximin, que hace m´aximo el m´ınimo anterior, es a = 1 con la que se obtiene m´axa∈[0,1] 2(a − 00 4)2 = 00 72. b) Produciendo proporciones α y 1 − α de las calidades a1 < a2 , se asegura un rendimiento superior a  m´ın α[(θ − a1 )2 + 2(a1 − 00 4)2 ] + (1 − α)[(θ − a2 )2 + 2(a2 − 00 4)2 ] θ∈[0,1]

= α(1 − α)(a2 − a1 )2 + 2α(a1 − 00 4)2 + 2(1 − α)(a2 − 00 4)2 = α(3 − α) a21 + (1 − α)(2 + α) a22 − 2α(1 − α) a1 a2 − 10 6α a1 − 10 6(1 − α) a2 + 00 32

puesto que el m´ınimo (en θ) de la par´ abola α(θ − a1 )2 + (1 − α)(θ − a2 )2 se alcanza en θ = αa1 + (1 − α)a2 . La u ´ltima expresi´on de la igualdad anterior representa, para cada α ∈ [0, 1], un paraboloide convexo, en cuyo v´ertice se alcanza un m´ınimo en a1 , a2 . El mayor valor se obtiene con a1 = 0 y a2 = 1, para los cuales queda −α2 + 00 6α + 00 72. A su vez, α = 00 3 da el m´aximo valor, 00 81, de dicha funci´ on de α. En resumen, con las condiciones impuestas, la estrategia maximin es fabricar un 30 % de productos de calidad a1 = 0 y un 70 % de productos de calidad a2 = 1. c) Calculemos la acci´on Bayes frente a cualquier distribuci´ on π en Θ = [0, 1]. Para ello, la ganancia por unidad frente a π se expresa G(π, a) = Eπ [(θ − a)2 ] + 2(a − 00 4)2

= Eπ [θ2 ] − 2aEπ [θ] + a2 + 2(a − 00 4)2

que s´olo depende de los dos primeros momentos de π y se hace m´axima con la acci´on Bayes frente a π:  1 si Eπ [θ] ≤ 00 7 a? = 0, si Eπ [θ] ≥ 00 7, aunque, cuando Eπ [θ] = 00 7, cualquier acci´on aleatorizada que asigne probabilidad α y 1−α a a1 = 0 y a2 = 1 respectivamente, tambi´en maximiza G(π, a). As´ı resulta  Eπ [θ2 ] − 2Eπ [θ] + 10 72 si Eπ [θ] ≤ 00 7 m´ax G(π, a) = Eπ [θ2 ] + 00 32 si Eπ [θ] ≥ 00 7. a∈[0,1] La distribuci´ on menos favorable, π 0 , con la que se obtiene el menor valor del m´aximo anterior, corresponde, para cada Eπ [θ] fijado, a que Eπ [θ2 ] sea lo m´as peque˜ no

160

Soluci´ on de los ejercicios

posible o bien, habida cuenta que Eπ [θ]2 ≤ Eπ [θ2 ], a igualar Eπ [θ2 ] con Eπ [θ]2 ; de forma que la varianza de π 0 se anula y π0 es causal en alg´ un valor θ0 . Con esta condici´on sobre π queda  2 θ0 − 2θ0 + 10 72 si θ0 ≤ 00 7 m´ax G(π, a) = θ02 + 00 32 si θ0 ≥ 00 7; a∈[0,1] funci´ on de θ0 que alcanza su m´ınimo 00 81 cuando θ0 = 00 7. En resumen, la distribuci´ on menos favorable, π 0 , es la causal en θ = 00 7. Frente a π 0 son Bayes todas las acciones aleatorizadas que reparten probabilidades α y 1 − α en los extremos del intervalo [0, 1], con todas las cuales se obtiene G(π 0 , α) = α[00 72 + 2(−00 4)2 ] + (1 − α)[(00 7 − 1)2 + 2(1 − 00 4)2 ] = 00 81. Entre ellas, en el apartado (b) se ha obtenido que la acci´on maximin corresponde a α = 00 3. Visto de otra forma, seg´ un la Proposici´on 3.11, la acci´on maximin es aquella que garantiza G(θ, α) = θ2 − 2(1 − α)θ + α 00 32 + (1 − α)10 72 ≥ 00 81 para cualquier valor de θ. Pero m´ın {θ2 − 2(1 − α)θ + α 00 32 + (1 − α)10 72} = −α2 + 00 6α + 00 72

θ∈[0,1]

(puesto que se alcanza en θ = 1 − α). Por consiguiente, el valor de α debe garantizar que −α2 + 00 6α + 00 72 ≥ 00 81 y ello u ´nicamente se consigue con α = 00 3. Ejercicio 3.8 a) Si α = (α1 , α2 , 1 − α1 − α2 ), con α1 + α2 ≤ 1, son las proporciones del capital invertidas en cada uno de los fondos, las rentabilidades en funci´ on de la coyuntura econ´ omica son G(θ1 , α) = 20α1 + 40α2 + 60(1 − α1 − α2 ) = 60 − 40α1 − 20α2 ,

G(θ2 , α) = 70α1 + 50α2 + 30(1 − α1 − α2 ) = 30 + 40α1 + 20α2 , G(θ3 , α) = 40α1 + 70α2 + 50(1 − α1 − α2 ) = 50 − 10α1 + 20α2 .

La rentabilidad m´ınima de las tres, que se asegura con el reparto α, resulta  60 − 40α1 − 20α2 si 8α1 + 4α2 ≥ 3 M (α) = 30 + 40α1 + 20α2 si 8α1 + 4α2 ≤ 3. En la regi´ on 8α1 + 4α2 ≥ 3, M (α) decrece al aumentar α1 o α2 , mientras que por debajo de la recta 8α1 + 4α2 = 3, M (α) crece con α1 y α2 . El mayor valor se alcanza pues sobre la recta indicada, donde M (α) = 45. Es decir, todas las acciones aleatorizadas (α1 , 3/4 − 2α1 , 1/4 + α1 ) con 0 ≤ α1 ≤ 3/8

Cap´ıtulo 3

161

son acciones maximin, que aseguran una rentabilidad del 45 % sea cual sea la coyuntura econ´ omica. ˆ deCabe observar que el conjunto de rentabilidades accesibles es el tri´angulo, G, terminado en IR3 por los tres v´ertices (20, 70, 40), (40, 50, 70) y (60, 30, 50). Dicho tri´angulo est´ a contenido en el plano x1 + x2 = 90 y el diedro {x1 , x2 , x3 ≥ 45} interseca al tri´angulo a lo largo del segmento S de extremos (45, 45, 46025) y (45, 45, 65) que se obtienen como rentabilidades asociadas a las acciones maximin (3/8, 0, 5/8) y (0, 3/4, 1/4) respectivamente. Est´ a claro que, entre las acciones maximin s´olo es admisible (0, 3/4, 1/4) que, adem´as de garantizar una rentabilidad del 45 % frente a θ1 y θ2 , proporciona una rentabilidad del 65 % cuando la coyuntura sea θ3 . b) Frente a la distribuci´ on menos favorable, π 0 , deben ser acciones Bayes las acciones maximin, entre las cuales la mayor´ıa son combinaciones lineales convexas de los ˆ Por tanto, todas las acciones son Bayes frente a π0 y, tres v´ertices del tri´angulo G. en conclusi´ on, π 0 = (1/2, 1/2, 0) es el u ´nico vector ortogonal al plano x1 + x2 = 90. c) Frente a la distribuci´ on π = (π1 , π2 , 1 − π1 − π2 ), con π1 + π2 ≤ 1, sobre los estados de la naturaleza, las rentabilidades de cada fondo de inversi´ on son G(π, A) = 20π1 + 70π2 + 40(1 − π1 − π2 ) = 40 − 20π1 + 30π2 ,

G(π, B) = 40π1 + 50π2 + 70(1 − π1 − π2 ) = 70 − 30π1 − 20π2 , G(π, C) = 60π1 + 30π2 + 50(1 − π1 − π2 ) = 50 + 10π1 − 20π2 . La primera es superior a las otras dos cuando se verifica

1 π2

π1 + 5π2 ≥ 3, −3π1 + 5π2 ≥ 1;

A

la segunda supera a las otras dos cuando se cumple

π1 + 5π

=3

2

π1 C

= 1

−3π1 + 5π2 ≤ 1, π1 ≥ 1/2.

B

π2

y la tercera es la m´as grande si

+

π1 + 5π2 ≤ 3, π1 ≤ 1/2;

π1

1

Las tres regiones aparecen representadas en la figura adjunta. Sobre la recta π1 + 5π2 = 3, ambas acciones A y B son Bayes; es decir frente a distribuciones de la forma (π1 , (3 − π1 )/5, (2 − 4π1)/5) con π1 < 1/2. Para π1 = 1/2, son Bayes B y C. Y, frente a π = (1/2, 1/2, 0), tambi´en es acci´on Bayes A, como se puso de relieve en el apartado (b). Ejercicio 3.9 a) Puede aplicarse la Proposici´on 3.9, teniendo en cuenta que A es convexo y acotado y la funci´ on de p´erdida es lineal y, por tanto, convexa en a. Sin embargo, en este caso, basta observar que la p´erdida asociada a cualquier acci´on aleatorizada α es L(θ, α) = 2¯ a(θ − 3/4) + 1 − θ2

162

Soluci´ on de los ejercicios

donde a ¯ es la media de α. Por consiguiente, α es equivalente a la acci´on no aleatorizada a ¯. a=0 1.0 Por otro lado, como funci´ on de θ, L(θ, a) 0.8 a = 00 2 es una par´ abola con L(0, a) = 1 − 3a/2 y L(1, a) = a/2 que pasa por el punto fijo 0.6 a=1 L(3/4, a) = 7/16. As´ı que, en el intervalo a = 00 6 0.4 0 ≤ θ < 3/4, L(θ, a) es mayor cuanto m´as 0.2 peque˜ no sea a; mientras que, en el intervalo 0 3/4 < θ ≤ 1, cuanto mayor sea a, m´as 0.25 0.50 0.75 θ 1.00 −0.2 grande es L(θ, a). Por consiguiente, todas las acciones de A son admisibles (y tambi´en −0.4 lo son las de A? ). b) Como funci´ on de θ, L(θ, a) alcanza su m´aximo en θ = a, de modo que m´ax L(θ, a) = a2 + 1 − 3a/2

θ∈[0,1]

(que aparece representado en trazos en la figura). El valor a = 3/4 hace m´ınima la expresi´on anterior y es, por consiguiente, la acci´on minimax, con la que se obtiene es valor del problema: 7/16. c) Si π es la distribuci´ on de los estados de la naturaleza, el riesgo de la acci´on a es r(π, a) = 2a[Eπ (θ) − 3/4] + 1 − Eπ (θ2 ) que alcanza su m´ınimo en la acci´on Bayes  0 si Eπ (θ) ≥ 3/4 a? = 1 si Eπ (θ) ≤ 3/4 y proporciona el m´ınimo riesgo Bayes  1 − Eπ (θ2 ), rˆ(π) = 2Eπ (θ) − 1/2 − Eπ (θ2 )

si Eπ (θ) ≥ 3/4 si Eπ (θ) ≤ 3/4.

Por ejemplo, si π es la distribuci´ on uniforme en [0, 1], Eπ (θ) = 1/2, Eπ (θ2 ) = 1/3 y queda rˆ(π) = 1/6. Ahora bien, si Eπ (θ) = µ ≥ 3/4, es Eπ (θ2 ) ≥ µ2 ≥ 9/16 y rˆ(π) ≤ 7/16. Asimismo, para µ ≤ 3/4, es rˆ(π) ≤ 2µ − 1/2 − µ2 , cuyo mayor valor se alcanza en µ = 3/4 y vale 7/16. Por consiguiente, la distribuci´ on menos favorable es la causal en θ = 3/4. Obs´ervese que, a´ un cuando Θ no es finito, en este caso se cumple el Teorema del minimax (Proposici´on 3.10). Ejercicio 3.10 a) El riesgo Bayes de la acci´on a = (x, y) frente a la distribuci´ on π es r(π, (x, y)) = mx + y

donde m = Eπ (θ).

Cap´ıtulo 3

163

El m´aximo de la funci´ on lineal mx + y en el conjunto convexo A se alcanza en el punto en que la recta mx + y = c es tangente a la circunferencia x2 + y 2 = 1. Dicho punto es 1 y= √ 1 + m2

x+ m y=

m , x= √ 1 + m2

c

y constituye la acci´on Bayes frente a cualquier distribuci´ on π de media m, con la que se obtiene p rˆ(π) = 1 + m2 .

y=

En la figura se representa la construcci´ on de la acci´on Bayes frente a toda distribuci´on de media m y aparecen se˜ nalados en rojo las acciones que son Bayes para alg´ un m ∈ [−2, 3].

2

2

x

+

y

=

m x/

1

b) El m´ınimo valor de rˆ(π) se obtiene con cualquier distribuci´ on π 0 de media m = 0 y el valor del problema es V = 1. La acci´on maximin, correspondiente a m = 0, es a = (0, 1). Como confirmaci´ on, m´ın θx + y =

θ∈[−2,3]



3x + y −2x + y

si x ≤ 0 si x ≥ 0

Dicha funci´ on se hace m´axima con y = 1 y x = 0. No obstante, obs´ ervese que si fuese Θ = [θ0 , θ1 ], con 0 < θ0 < θ1 , el m´ınimo de p on menos favorable, p de media θp ıa rˆ(π) ser´ıa V = 1 + θ02 y la distribuci´ 0 , tendr´ que ser causal en θ0 . La acci´on maximin ser´ıa entonces (θ0 / 1 + θ02 , 1/ 1 + θ02 ). Algo similar, con θ0 sustituido por θ1 , ocurrir´ıa en caso de ser θ0 < θ1 < 0. El teorema del minimax (Proposici´on 3.10) se verifica a pesar de no ser Θ finito. c) Las acciones Bayes son admisibles es virtud de la Proposici´on 3.5. Pero, no siendo Θ finito, no se dispone de ning´ un resultado que asegure que no hay m´as acciones admisibles. As´ı que hay que razonar directamente. Desde luego, si y < y 0 la acci´on (x, y) est´ a dominada por la acci´on (x, y 0 ), puesto que θx + y < θx + y 0 ∀θ ∈ Θ. Por tanto, u ´nicamente pueden ser admisibles las acciones para las que y sea lo mayor √ posible; es decir, aquellas con y = 1 − x2 que aparecen en la semicircunferencia superior.

164

Soluci´ on de los ejercicios

p Ahora bien, la√acci´on a0 = (x0 , 1 − x20 ), con x0 = −2/ p 5, domina a cualquier acci´ on a1 = (x1 , 1 − x21 ) con x1 < x0 , ya que cualquier recta θx+ y = c que pase por a0 tiene mayor valor de c que la paralela por a1 , siempre que θ > −2 (precisamente, ser´ıa al rev´es cuando la pendiente −θ de la recta fuese mayor que la de la tangente por a0 la circunferencia).

θx +

c y=

θx +

0

c y=

a0 a2

a1

√ √ De la misma√manera, la acci´on a2√= (3/ 10, 1/ 10) domina a todas las acciones a = (x, 1 − x2 ) con x > 3/ 10. En resumen, las acciones admisibles son precisamente las acciones Bayes frente a alguna distribuci´ on π en [−2, 3]. Ejercicio 3.11 a) La clase de acciones es el conjunto de puntos comprendidos entre el eje de abscisas y la par´ abola y = x − x2 , que aparece en la figura adjunta. Puesto que θ ≥ 0, la acci´on (x, y) est´ a dominada por la acci´on (x0 , y), si x < x0 , ya que 0

θx + (1 − θ)y < θx + (1 − θ)y

y 0.2 0.1 0

0

0.5

x 1.0

para cualquier θ ∈ [0, 1]. Igualmente es cierto que cualquier acci´on (x, y) est´ a dominada por la acci´on (x, y 0 ) si y < y 0 , puesto que 1 − θ > 0. Sin embargo, el primer argumento elimina en cada horizontal todas las acciones excepto el extremo derecho; de manera que las acciones no dominadas, que aparecen representadas en rojo en la figura, son las correspondientes a 1/2 ≤ x ≤ 1 e y = x − x2 . Por el contrario, el segundo argumento s´olo asegura que est´ an dominadas las acciones con y < x − x2 y no muestra que est´ an tambi´en dominadas las acciones 0 ≤ x ≤ 1/2, y = x − x2 . Entre dos acciones (x, x − x2 ) y (x0 , x0 − x02 ), con 1/2 < x < x0 , la diferencia entre las ganancias vale: x0 − x si θ = 1

y

(x0 − x)(1 − x0 − x) si θ = 0;

que son de distinto signo seg´ un el valor de θ. Luego, ninguna de ellas domina a la otra y, en definitiva, Aad = {(x, x − x2 ) | 1/2 ≤ x ≤ 1}. Obs´ervese tambi´en que cualquier acci´on aleatorizada α concentrada en A, es equivalente a la acci´on no aleatorizada (¯ x, y¯) ∈ A, donde x ¯ y y¯ son las medias de α. De hecho, evidentemente, G(θ, α) = θ¯ x + (1 − θ)¯ y. Por tanto, las acciones aleatorizadas admisibles son aquellas que cumplen 1/2 ≤ x ¯ ≤ 1 y y¯ = x ¯−x ¯2 ; aunque no a˜ naden nada a las acciones no aleatorizadas, que forman una clase esencialmente completa.

Cap´ıtulo 3

165

b) Para hallar la acci´on maximin, acorde con el criterio de Wald, se tiene m´ın G(θ, (x, y)) = m´ın y + θ(x − y) = y

θ∈[0,1]

(con θ = 0)

θ∈[0,1]

puesto que x > y para cualquier (x, y) ∈ A. Pero m´ax(x,y)∈A y = 1/4, se alcanza con la acci´on maximin (1/2, 1/4). De forma similar, con θ = 1 se alcanza m´ax y + θ(x − y) = x

θ∈[0,1]

y el criterio de Hurwicz consiste en maximizar λy + (1 − λ)x al variar (x, y) en A. Dicho m´aximo corresponde a que la recta λy + (1 − λ)x = c, de pendiente 1 − 1/λ, sea tangente al conjunto A. Pero la tangente a la curva y = x − x2 en el punto de abscisa x tiene pendiente y 0 = 1 − 2x, que coincide con 1 − 1/λ para x = 1/2λ. Por tanto, si λ ∈ [1/2, 1], el punto de tangencia: (x, y) = (1/2λ, 1/2λ − 1/4λ2 ) es la acci´on ´ optima con el criterio de Hurwicz, en el que el criterio vale 1/4λ. En cambio, para λ ∈ [0, 1/2], la acci´on ´ optima es (1, 0) en que se alcanza el valor m´aximo 1 − λ del criterio. Seg´ un el criterio de Laplace, es ´ optima la acci´on que maximiza Z

1

0

[y + θ(x − y)] dθ =

x+y . 2

Ello coincide con el criterio de Hurwicz para λ = 1/2; as´ı que (1, 0) es ´optima con el criterio de Laplace. En cuanto al criterio de Savage, se ha visto que  1/4θ m´ax [θx + (1 − θ)y] = 1 −θ (x,y)∈A

si θ ≥ 1/2 si θ ≤ 1/2;

entonces, la funci´ on de decepci´ on:  1/4θ − y − θ(x − y) D(θ, (x, y)) = 1 − θ − y − θ(x − y)

si θ ≥ 1/2 si θ ≤ 1/2

es decreciente en todo [0, 1]. Por consiguiente, m´ax D(θ, (x − y)) = 1 − y

θ∈[0,1]

que toma el m´ınimo valor 3/4 en (0, 1). c) Frente a la distribuci´ on π en [0, 1], la ganancia esperada con la acci´on (x, y) es r(π, (x, y)) = mx + (1 − m)y

donde m = Eπ [θ].

166

Soluci´ on de los ejercicios

Tal ganancia esperada se hace m´axima con la acci´on Bayes  (1/2m, 1/2m − 1/4m2 ) si m ≥ 1/2 (x, y) = (1, 0) si m ≤ 1/2. Con ella la ganancia esperada rˆ(π) =



1/4m 1−m

si m ≥ 1/2 si m ≤ 1/2

es m´ınima en caso de que sea m = 1 (o sea que π es causal en θ = 1), para la que la acci´on Bayes (1/2, 1/4) coincide con la maximin. Obs´ervese tambi´en que, al variar m ∈ [0, 1], la acci´on Bayes recorre las diferentes acciones admisibles halladas en (a).

Cap´ıtulo 4

167

Cap´ıtulo 4 Ejercicio 4.1 a) Si π = (π1 , π2 , 1 − π1 − π2 ) son las probabilidades a priori de los estados, los beneficios esperados (en porcentaje) invirtiendo en cada uno de los dos planes son r(π, a1 ) = 15π1 + 20π2 + 10(1 − π1 − π2 ) = 10 + 5π1 + 10π2 r(π, a2 ) = 8π1 + 25π2 + 20(1 − π1 − π2 ) = 20 − 12π1 + 5π2 . Por tanto, frente a π, la acci´on Bayes y el beneficio esperado ´optimo son Si 17π1 + 5π2 ≥ 10 : a?π = a1 y rˆ0 (π) = 10 + 5π1 + 10π2 ,

Si 17π1 + 5π2 ≤ 10 : a?π = a2 y rˆ0 (π) = 20 − 12π1 + 5π2 .

En la figura aparecen representadas las dos regiones en las que las acciones Bayes son a1 y a2 respectivamente. En este caso es sencillo obtener la acci´on maximin mediante el m´etodo del simplex. Se trata simplemente de resolver:

1 π2

17π1 + 5π2 = 10 5 , ( 12

7 ) 12

a2 a1 10 17

minimizar y1 + y2

π1 1

sujeto a 15y1 + 8y2 ≥ 1, 20y1 + 25y2 ≥ 1, 10y1 + 20y2 ≥ 1; puesto que la segunda desigualdad se deduce de cualquiera de las otras dos, el m´ınimo se alcanza en el punto (3/55, 1/44) de intersecci´on de las rectas 15y1 +8y2 = 1 y 10y1 + 20y2 = 1. Por tanto, la acci´on aleatorizada maximin es (12/17, 5/17) y el valor del problema resulta V0 = 220/17 ' 120 941. La distribuci´ on a priori m´as desfavorable es soluci´on del sistema  10 + 5π1 + 10π2 = 220/17 20 − 12π1 + 5π2 = 220/17 del que se obtiene π0 = (10/17, 0, 7/17). La confirmaci´on directa es inmediata puesto que (10/17, 0) es el v´ertice de la figura anterior en la que se obtiene el menor valor de rˆ0 (π) (concretamente 220/17). b) Las probabilidades de las respuestas posibles del consultor son P (x1 ) = 00 8π1 + 00 4π2 + 00 1(1 − π1 − π2 ) = 00 1 + 00 7π1 + 00 3π2

P (x2 ) = 00 2π1 + 00 6π2 + 00 9(1 − π1 − π2 ) = 00 9 − 00 7π1 − 00 3π2

y las probabilidades a posteriori de los estados de la naturaleza π(θ1 |x1 ) = 00 8π1 /P (x1 ), π(θ1 |x2 ) = 00 2π1 /P (x2 ),

π(θ2 |x1 ) = 00 4π2 /P (x1 ), π(θ2 |x2 ) = 00 6π2 /P (x2 ).

168

Soluci´ on de los ejercicios

Observando que 17π(θ1 |x1 ) + 5π(θ2 |x1 ) ≥ 10 ⇔ 33π1 − 5π2 ≥ 5 17π(θ1 |x2 ) + 5π(θ2 |x2 ) ≥ 10 ⇔ 52π1 + 30π2 ≥ 45 resulta que la acci´on Bayes frente a π y el beneficio producido son: Si la respuesta del consultor es x1 y 33π1 − 5π2 ≥ 5 : d?π (x1 ) = a1 ,

00 8π1 00 4π2 1 + 11π1 + 7π2 + 10 = P (x1 ) P (x1 ) P (x1 )

rˆ(π|x1 ) = 10 + 5 33π1 − 5π2 ≤ 5 : d?π (x1 ) = a2 ,

rˆ(π|x1 ) = 20 − 12

00 8π1 00 4π2 2 + 40 4π1 + 8π2 +5 = P (x1 ) P (x1 ) P (x1 )

Si la respuesta del consultor es x2 y 52π1 + 30π2 ≥ 45 : d?π (x2 ) = a1 , rˆ(π|x2 ) = 10 + 5

00 2π1 00 6π2 9 − 6π1 + 3π2 + 10 = P (x2 ) P (x2 ) P (x2 )

52π1 + 30π2 ≤ 45 : d?π (x2 ) = a2 , rˆ(π|x2 ) = 20 − 12

00 6π2 18 − 160 4π1 − 3π2 00 2π1 +5 = P (x2 ) P (x2 ) P (x2 )

33π1 − 5π2 = 5

1 π2 (a2 , a2 )

5 ( 19 ,

14 ) 19

52π1 + 30π2 = 45 , ( 15 22

7 ) 22

(a1 , a2 ) 5 33

En resumidas cuentas, la regla   (a1 , a1 ) (a1 , a2 ) d?π =  (a2 , a2 )

π1

(a1 , a1 ) 45 1 52

de decisi´on Bayes frente a π resulta ser si 33π1 − 5π2 ≥ 5 y 52π1 + 30π2 ≥ 45 si 33π1 − 5π2 ≥ 5 y 52π1 + 30π2 ≤ 45 si 33π1 − 5π2 ≤ 5 y 52π1 + 30π2 ≤ 45

Cap´ıtulo 4

169

habida cuenta que las desigualdades 33π1 − 5π2 ≤ 5 y 52π1 + 30π2 ≥ 45 no son compatibles para ning´ un π1 , π2 ≥ 0 con π1 + π2 ≤ 1. El resultado se muestra en el gr´afico anterior. El m´ınimo riesgo Bayes frente a π, calculado seg´ un (4.2) (lo cual aqu´ı significa P (x1 )ˆ r (π|x1 ) + P (x2 )ˆ r (π|x2 )), es  si 33π1 − 5π2 ≥ 5 + y 52π1 + 30π2 ≥ 45  10 + 5π1 + 10π2 19 − 50 4π1 + 4π2 si 33π1 − 5π2 ≥ 5 + y 52π1 + 30π2 ≤ 45 rˆ(π) =  20 − 12π1 + 5π2 si 33π1 − 5π2 ≤ 5 + y 52π1 + 30π2 ≤ 45

Un procedimiento alternativo para llegar a las mismas conclusiones consiste en analizar todas las posibles reglas de decisi´on:

d1 d2 d3 d4

= (a1 , a1 ) = (a1 , a2 ) = (a2 , a1 ) = (a2 , a2 )

R(θ1 , d)

R(θ2 , d)

R(θ3 , d)

r(π, d)

15 130 6 90 4 8

20 23 22 25

10 19 11 20

10 + 5π1 + 10π2 19 − 50 4π1 + 4π2 11 − 10 6π1 + 11π2 20 − 12π1 + 5π2

La comparaci´ on de los t´erminos de la u ´ltima columna produce las mismas regiones indicadas en el gr´ afico en las que son m´aximas d1 , d2 y d4 respectivamente. Ello confirma directamente los resultados obtenidos para d?π y rˆ(π) (2 ) Evaluada en los siete v´ertices de la figura, el menor valor de rˆ(π) se obtiene en (45/52, 0), donde vale V = 745/52 ' 140 327. Ello significa que la distribuci´ on a priori m´as desfavorable es ahora π 0 = (45/52, 0, 7/52). Frente a ella, tanto d1 = (a1 , a1 ) como d2 = (a1 , a2 ) son acciones Bayes y la regla de decisi´on aleatorizada maximin las pondera con probabilidades α1 = 27/52 y α2 = 25/52, para conseguir que 745 745 , R(θ3 , α) = 10α + 19(1 − α) = . 52 52 La regla de decisi´on aleatorizada maximin es pues (27/52, 25/52, 0, 0); es decir, como regla de comportamiento, emplear a1 cuando el pron´ ostico sea x1 y, en caso de que sea x2 sortear entre a1 y a2 con probabilidades 27/52 y 25/52. R(θ1 , α) = 15α + 130 6(1 − α) =

c) Si se supone que la distribuci´ on sobre los estados de la naturaleza es una determinada π = (π1 , π2 , 1−π1 −π2 ), la diferencia entre lo que gana el inversor contando con la respuesta del consultor o actuando sin ella es   9 − 100 4π1 − 6π2 si 52π1 + 30π2 ≤ 45 y 17π1 + 5π2 ≥ 10 −1 + 60 6π1 − π2 si 33π1 − 5π2 ≥ 5 y 17π1 + 5π2 ≤ 10 rˆ(π) − rˆ0 (π) =  0 en los dem´ as casos. 2

Este segundo procedimiento parece m´ as r´ apido y directo. Sin embargo, si hay m acciones y k resultados del experimento, el n´ umero total de reglas de decisi´ on es mk . Aunque s´ olo sea m = k = 3, la comparaci´ on de 27 t´erminos r(π, d) es normalmente m´ as trabajosa que el c´ alculo de k distribuciones a posteriori, con las que calcular como al principio.

170

Soluci´ on de los ejercicios

Ello corresponde a superponer los dos gr´aficos de los apartados (a) y (b). S´ olo hay incremento de la ganancia cuando la regla de decisi´on Bayes es (a1 , a2 ) y el cuadril´ atero en el que as´ı ocurre queda dividido por la recta 17π1 + 5π2 = 10, en las dos regiones en las que el incremento toma cada uno de los dos valores indicados. Como el incremento anterior viene expresado en porcentaje, para invertir 50000 euros, lo m´as que procede pagar por el estudio es 500(ˆ r(π) − rˆ0 (π)), funci´ on de la distribuci´ on a posteriori que se considere v´alida (y vale cero en muchos casos). El incremento rˆ(π) − rˆ0 (π) se hace m´aximo para π = (10/17, 0, 7/17), donde vale 49/17 ' 20 882. Es decir que, por conocer el resultado del estudio, la ganancia del inversor podr´ıa incrementarse a lo sumo en 500 · 20 882 = 14410176 euros. El criterio de Wald indica que este es el m´aximo precio a pagar por el estudio. Obs´ervese que la diferencia V − V0 = 745/52 − 220/17 ' 10 386 es inferior al m´aximo anterior. Seg´ un ello, hay que pagar menos de 500 · 10 386 = 6920 873 euros por asegurarse una ganancia superior a 7163046 euros, en vez de tan s´olo una ganancia superior a 6470059 euros. Ejercicio 4.2 a) Frente a la distribuci´ on a priori π = (π1 , π2 , π3 ) (con π3 = 1 − π1 − π2 ), los beneficios esperados con cada acci´on son r(π, a1 ) = 20π1 + 3π2 + 4(1 − π1 − π2 ) = 4 + 16π1 − π2

r(π, a2 ) = 2π1 + 17π2 + 5(1 − π1 − π2 ) = 5 − 3π1 + 12π2 r(π, a3 ) = 2π2 + 16(1 − π1 − π2 ) = 16 − 16π1 − 14π2 ¯ = (00 4, 00 5, 00 1), valen y, para la distribuci´ on a priori π ¯ a1 ) = 90 9, r(π,

¯ a2 ) = 90 8, r(π,

¯ a3 ) = 20 6. r(π,

De modo que, sin experimentaci´on, la acci´on ´optima es a1 que produce el mayor beneficio esperado 90 9. Al realizar el experimento, cada resultado puede presentarse con probabilidades P (x1 ) = 00 4 · 00 8 + 00 5 · 00 3 + 00 1 · 00 1 = 00 48

P (x2 ) = 00 4 · 00 15 + 00 5 · 00 6 + 00 1 · 00 1 = 00 37 P (x3 ) = 00 4 · 00 05 + 00 5 · 00 1 + 00 1 · 00 8 = 00 15; mientras que las probabilidades a posteriori de los estados de la naturaleza, πi (xj ) = π(θ = i | xj ), resultan: π1 (x1 ) =

2 00 4 · 00 8 = , 00 48 3

π2 (x1 ) =

00 5 · 00 3 5 = , 00 48 16

π3 (x1 ) =

1 ; 48

π1 (x2 ) =

00 4 · 00 15 6 = , 00 37 37

π2 (x2 ) =

00 5 · 00 6 30 = , 00 37 37

π3 (x2 ) =

1 ; 37

π1 (x3 ) =

2 00 4 · 00 05 = , 0 0 15 15

π2 (x3 ) =

00 5 · 00 1 5 = , 0 0 15 15

π3 (x3 ) =

8 . 15

Cap´ıtulo 4

171

Por tanto, si se obtiene el resultado x1 , entre los beneficios de las tres acciones: r(π(x1 ), a1 ) = 140 354,

r(π(x1 ), a2 ) = 60 75,

r(π(x1 ), a3 ) = 00 958,

es ´optimo el correspondiente a a1 . En cambio, si se obtiene x2 , de los tres beneficios r(π(x2 ), a1 ) = 50 784,

r(π(x2 ), a2 ) = 140 243,

r(π(x2 ), a3 ) = 20 054,

es ´optimo el correspondiente a a2 . Y, por u ´ltimo, cuando se obtiene x3 , es r(π(x3 ), a1 ) = 50 8,

r(π(x3 ), a2 ) = 80 6,

r(π(x3 ), a3 ) = 90 2,

de modo que a3 produce el mejor beneficio. En resumen la regla de decisi´on ´optima tras realizar el experimento es   a1 si x = x1 a2 si x = x2 d? (x) =  a3 si x = x3 con un beneficio esperado

¯ d? ) = 00 48 · 140 354 + 00 37 · 140 243 + 00 15 · 90 2 = 130 54. r(π, Al realizar el experimento, el incremento del beneficio esperado 130 54 − 90 9 = 30 64 compensa el coste de experimentaci´on. b) A primera vista, el beneficio ´ optimo cuando se obtiene la observaci´ on x3 es 90 2, 0 inferior al beneficio sin experimentaci´on 9 9. No obstante, dicha comparaci´ on es falaz. Porque, si se sabe que el resultado del experimento es x3 , las probabilidades de los estados de la naturaleza son π(x3 ) = (2/15, 5/15, 8/15) y, actuando con la acci´on a1 , que es la ´ optima en caso de no hacer experimentaci´on, el beneficio esperado que se obtendr´ıa es 2 5 8 20 + 3+ 4 = 50 8 15 15 15 inferior a 90 2 que se obtiene con la acci´on ´optima a3 . Ejercicio 4.3 a) Las reglas de decisi´on son de la forma d(r1 ) = x y d(r2 ) = y, donde x, y ∈ A. La regla de decisi´on d definida por el par (x, y) tiene riesgos: R(θ1 , d) = 00 3(1 − x)2 + 00 7(1 − y)2 ,

R(θ2 , d) = 00 8x2 + 00 2y 2 ,

que son dos paraboloides que alcanzan su m´ınimo, 0, en los puntos (1, 1) y (0, 0) respectivamente (o, mejor dicho, la parte de ellos situada sobre el cuadrado [0, 1]2 ). Frente a la distribuci´ on π = (π, 1 − π), el riesgo Bayes resulta r(π, d) = π[00 3(1 − x)2 + 00 7(1 − y)2 ] + (1 − π)[00 8x2 + 00 2y 2 ]

172

Soluci´ on de los ejercicios

que es, as´ı mismo, un paraboloide combinaci´ on lineal convexa de los dos anteriores, en cuyo v´ertice alcanza un m´ınimo. Como la elecci´on de una regla de decisi´on proporciona ganancias, se trata de buscar un m´aximo de r(π, d) que puede alcanzarse en uno de los cuatro v´ertices: r(π, (0, 0)) = π,

r(π, (0, 1)) = 00 1π + 00 2,

r(π, (1, 0)) = 00 8 − 00 1π,

r(π, (1, 1)) = 1 − π.

Examinando la posici´on de las cuatro decisi´on Bayes frente a π resulta   (1, 1) d?π = (1, 0)  (0, 0)

rectas (funci´on de π ∈ [0, 1]), la regla de si π ≤ 2/9 si 2/9 ≤ π ≤ 8/11 si π ≥ 8/11

que proporciona la m´axima ganancia esperada  si π ≤ 2/9  1−π 00 8 − 00 1π si 2/9 ≤ π ≤ 8/11 m´ax r(π, d) = d  π si π ≥ 8/11.

Otra manera de proceder consiste en calcular, sin tener en cuenta el resultado del experimento, la acci´on que proporciona el m´aximo de r(π, a) = π(1 − a)2 + (1 − π)a2 ; es decir

0 si π ≥ 00 5 1 si π ≤ 00 5. Ahora bien, despu´es de observar el resultado del experimento, la distribuci´ on a posteriori es a?π =

π(θ1 |r1 ) =



π00 3 , π00 3 + (1 − π)00 8

π(θ1 |r2 ) =

π00 7 ; π00 7 + (1 − π)00 2

de manera que la regla de decisi´on ´optima se compone de:  0 si 00 3π ≥ 00 5[00 3π + 00 8(1 − π)] o bien π ≥ 8/11 ? dπ (r1 ) = 1 si π ≤ 8/11. y, por otro lado, d?π (r2 ) =



0 1

si 00 7π ≥ 00 5[00 7π + 00 2(1 − π)] o bien π ≥ 2/9 si π ≤ 2/9.

La combinaci´ on de ambas proporciona la misma regla de decisi´on d?π determinada directamente. En esta forma de proceder se tiene: Para π ≤ 2/9 : R(θ1 , d? ) = 0, R(θ2 , d? ) = 1 Para 2/9 ≤ π ≤ 8/11 : R(θ1 , d? ) = 00 7, R(θ2 , d? ) = 00 8 Para π ≥ 8/11 :

R(θ1 , d? ) = 1,

R(θ2 , d? ) = 0;

Cap´ıtulo 4

173

luego   1−π 00 7π + 00 8(1 − π) r(π, d? ) =  π

si π ≤ 2/9 si 2/9 ≤ π ≤ 8/11 si π ≥ 8/11.

b) Una regla de decisi´on d = (x, y) permite garantizar que se obtendr´ a una ganancia esperada de al menos  0 2 0 8x + 00 2y 2 cuando (x, y) ∈ C gd = m´ın[R(θ1 , d), R(θ2 , d)] = 00 3(1 − x)2 + 00 7(1 − y)2 en caso contrario donde C es la regi´ on del cuadrado [0, 1]2 en que se verifica 00 8x2 + 00 2y 2 ≤ 00 3(1 − x)2 + 00 7(1 − y)2 , lo cual equivale a que, para cada y ∈ [0, 1], sea p 25y 2 − 70y + 59 − 3 . x≤ 5 As´ı pues, la funci´ on gd tiene una ladera que crece desde el punto (0, 0) hacia la cresta situada sobre la frontera de C, donde la desigualdad anterior se convierte en igualdad, y una segunda ladera que sube desde el punto (1, 1) hacia la misma cresta. El m´axd gd coincide, por tanto, con 2 p 25y 2 − 70y + 59 − 3 0 + 00 2y 2 m´ax 0 8 y 5

√ que vale 00 701 y se alcanza con y = 0, de modo que x = ( 59 − 3)/5 ' 00 936. En definitiva, (00 936, 0) es la regla de decisi´on no aleatorizada maximin, que garantiza la m´axima ganancia esperada (00 701) que puede garantizarse con el uso de reglas no aleatorizadas. c) Se admite ahora el uso de reglas de decisi´on aleatorizadas. Obs´ervese que la distribuci´ on menos favorable, con la que se alcanza el menor valor de m´axd r(π, d), corresponde a π0 = 8/11. Frente a ella, son Bayes las reglas de decisi´on (1, 0) y (0, 0), as´ı como todas las reglas de decisi´on aleatorizadas que eligen entre ambas con probabilidades α y 1 − α. Es decir, las especificadas por  1 con probabilidad α dα (r1 ) = , dα (r2 ) = 0. 0 con probabilidad 1 − α Claramente, R(θ1 , dα ) = αR(θ1 , (1, 0)) + (1 − α)R(θ1 , (0, 0)) = α 00 7 + 1 − α R(θ2 , dα ) = αR(θ2 , (1, 0)) + (1 − α)R(θ2 , (0, 0)) = α 00 8

174

Soluci´ on de los ejercicios

Y, con α = 10/11 ' 00 909, ambos riesgos se igualan al valor com´ un 8/11 ' 00 727. De esta forma, d10/11 es la regla de decisi´on aleatorizada maximin, que mejora la hallada en (b). Ejercicio 4.4 a) Sea IN = {0, 1, 2, 3, . . .}. Las reglas de decisi´on no aleatorizadas son funciones d : IN 7→ {0, 1}, sin ning´ un requisito de medibilidad puesto que en ambos espacios se considera la σ-´algebra discreta. Con la notaci´ on habitual, se puede poner D = {0, 1}IN . Sin embargo, cualquier d ∈ D queda definida por el subconjunto de IN en el que d toma el valor 1 (siendo 0 en el complementario). Por tanto, ser´a u ´ til identificar cada regla de decisi´on d con un subconjunto de IN , que ser´a representado, tambi´en, por d. b) Con el convenio anterior, los riesgos pueden expresarse: R(0, d) =

∞ X X 1 L(0, d(k)) = 3 k 2 k=1

k∈d,k>0

1 = 3s(d), 2k

puesto que L(0, 1) = 3 y L(0, 0) = 0. Naturalmente, s(d) representa el valor de la u ´ltima suma. Por otra parte, como L(1, 0) = 2 y L(1, 1) = 0, ser´a R(1, d) =

∞ X

k=0

1 2k+1

L(1, d(k)) =

= 1 − s(d) +



0 1

1 L(1, d(0)) + 2 2

X

k∈dc ,k>0

si d(0) = 1, si d(0) = 0.

1 2k+1

Cada regla de decisi´on con d(0) = 0 est´ a dominada por la regla de decisi´on que s´olo se diferencia de d en que d(0) = 1; lo cual es l´ogico porque, si se observa X = 0, seguro que es θ = 1 y se pierde menos con a = 1 que con a = 0. Adem´as, los riesgos de d se representan en el punto xd = [3s(d), 1 − s(d)]

si d(0) = 1

1 (1/4, 3/4)

o bien xd = [3s(d), 2 − s(d)]

2

si d(0) = 0;

0

0

1

2

3

de forma que cada punto de la l´ınea inferior domina al de la l´ınea superior. El gr´ afico muestra las dos familias de puntos que llenan densamente el segmento correspondiente; aunque hay puntos de cada segmento que no corresponden a reglas de decisi´on no aleatorizadas. Sin embargo, ello no tiene importancia, porque hay

Cap´ıtulo 4

175

acciones aleatorizadas en correspondencia con todos los puntos del paralelogramo, incluidos sus lados. c) Obviamente, las acciones Bayes frente a π = (π, 1 − π) se representan sobre los dos v´ertices inferiores del paralelogramo. Concretamente, como (1/4, 3/4) es el vector ortogonal a los lados oblicuos,  si π < 1/4,  1 para todo k ∈ IN (s(d) = 1)) 0 para todo k > 0 (s(d) = 0)) si π > 1/4, d?π (k) =  1 para k = 0 y el resto arbitrario si π = 1/4.

son las acciones Bayes no aleatorizadas frente a π, con las que se alcanza el m´ınimo riesgo Bayes  3π si π ≤ 1/4, rˆ(π) = 1 − π si π ≥ 1/4.

d) La diagonal corta al segmento (3, 0)–(0, 1) en el punto (3/4, 3/4) que corresponde a reglas de decisi´on con s(d) = 1/4. Ello se consigue con   1 para k = 0, 2 0 para k = 1, 2 ˜ ¯ d(k) = o bien d(k) = 0 para k 6= 0, 2 1 para k 6= 1, 2 que son ambas reglas de decisi´on minimax no aleatorizadas. Tambi´en es minimax la regla de decisi´on aleatorizada que sortea, con probabilidades 1/4 y 3/4, entre las reglas de decisi´on  1 para k = 0 d?0 (k) = 1 para todo k ∈ IN y d?1 (k) = 0 para k > 0. M´ as en general, si d1 y d2 son reglas de decisi´on no aleatorizadas que verifican s(d1 ) < 1/4 < s(d2 ) y α cumple αs(d1 ) + (1 − α)s(d2 ) = 1/4, sortear entre d1 y d2 , con probabilidades α y 1 − α, es otra regla de decisi´on aleatorizada minimax. Alterando los valores de las p´erdidas L(0, 1) y L(1, 0), podr´ıa ocurrir que ninguna regla no aleatorizada fuese minimax; aunque siempre existir´an muchas aleatorizadas que lo sean. Ejercicio 4.5 a) La observaci´ on de X da lugar a un valor observado en X = [0, ∞). Las reglas de decisi´on son funciones medibles d : X 7→ {a1 , a2 }, cada una de las cuales puede caracterizarse por el conjunto de Borel B ⊂ X en el que es d(x) = a1 , mientras que d(x) = a2 cuando x ∈ B c . Para la regla de decisi´on d, que prescribe la adopci´on de la acci´on a1 cuando se produce X ∈ B, los riesgos asociados a cada estado de la naturaleza son R(θ1 , d) = 6Pθ1 {X 6∈ B}

y

R(θ2 , d) = 4Pθ2 {X ∈ B}.

No parece que exista procedimiento anal´ıtico de representar el conjunto de riesgos G ⊂ IR2 que describe, al variar B, el punto    Z  Z 1 4 6 1− e−x/4 dx , e−x/8 dx . 4 B 8 B

176

Soluci´ on de los ejercicios

Enseguida veremos c´ omo hacerlo gracias a las reglas de decisi´on Bayes. b) Sin experimentaci´on, los riesgos Bayes frente a π de ambas acciones son r(π, a1 ) = 4(1 − π),

r(π, a2 ) = 6π;

de forma que la acci´on Bayes a?π es a2 si π ≤ 2/5 y a1 si π ≥ 2/5. Y el m´ınimo riesgo Bayes sin experimentaci´on resulta  6π si π ≤ 2/5 rˆ0 (π) = 4(1 − π) si π ≥ 2/5. Tras observar el valor X = x > 0, las probabilidades a posteriori de ambos valores de θ son π(θ1 | x) =

π 14 e−x/4 2π 1 −x/8 = 1 −x/4 2π + (1 − π)ex/8 + (1 − π) 8 e π4e

y π(θ2 | x) = 1 − π(θ1 | X = x). Por consiguiente, la regla de decisi´on Bayes frente a π es  a2 si π(θ1 | x) ≤ 2/5 d?π (x) = a1 en caso contrario, donde π(θ1 | x) ≤ 2/5 equivale a 1 π≤ 1 + 3e−x/8

o bien

x ≥ x0 =

(

si π ≤ 1/4

0

3π 8 log 1−π

si π ≥ 1/4

puesto que el logaritmo es negativo cuando 3π < 1 − π. As´ı que, para π ≤ 1/4 es d?π (x) = a2 ; mientras que, cuando π ≥ 1/4, d?π (x) = a2 o d?π (x) = a1 seg´ un que la observaci´ on x supere o no a x0 . 3 2

rˆ0 (π)

1

rˆ(π)

0

0

1 4

2 5

π

1

Consecuentemente, para π ≤ 1/4 es rˆ(π) = 6π. En cambio, con π ≥ 1/4, el riesgo de la regla de decisi´on d?π , seg´ un el estado de la naturaleza, es  2 1−π 3π , }=6 = 6Pθ1 {X ≥ 8 log 1−π 3π 3π 4π − 1 R(θ2 , d?π ) = 4Pθ2 {X < 8 log }=4 ; 1−π 3π

R(θ1 , d?π )

Cap´ıtulo 4

177

con lo cual 1−π rˆ(π) = 6π 3π 

2

+ 4(1 − π)

4π − 1 2(1 − π)(7π − 1) = . 3π 3π

La figura muestra el gr´ afico de rˆ0 (π) y rˆ(π). Se sabe que, al variar π, el punto x? que tiene por coordenadas los riesgos de la regla de decisi´on Bayes recorre la frontera suroeste del conjunto de riesgos G. Es decir, en este caso, x? recorre la par´ abola x2 2 x1 = 1− 6 4

despu´es de permanecer en el punto (6, 0) hasta que π alcanza 1/4. Adem´as, razonando al rev´es, la peor acci´on a ˜π frente a π es a1 si π ≤ 2/5 y a2 si π ≥ 2/5. De modo que la peor regla de decisi´on, tras observar X, es  a1 si π ≤ 1/4 o bien x ≥ x0 ˜ dπ (x) = a2 en caso contrario; cuyos riesgos, para π > 1/4, son R(θ1 , d˜π ) = 6Pθ1 {X ≤ x0 } = 6(1 − e−x0 /4 ) R(θ2 , d˜π ) = 4Pθ2 {X > x0 } = 4e−x0 /8

4 x1 6

2

=1−

 x2 2 4

G

y recorren la par´ abola x1 x2 2 =1− ) . 6 4

x1 6

0

0

= 1−

 x2 2 4

2

4

6

En definitiva, G es el conjunto de puntos comprendido entre ambas par´ abolas. Como es convexo, las reglas de decisi´on aleatorizadas no aportan ning´ un valor adicional. c) Todas la reglas de decisi´on Bayes son de la forma   a2 si x ≥ x0 a2 d?[0,x0 ) (x) = o bien d?[0,x0 ] (x) = a1 si x < x0 a1

si x > x0 si x ≤ x0

para alg´ un x0 ∈ [0, ∞]. De hecho, debe observarse que no hay ninguna diferencia entre los riesgos de una y otra, si x0 es el mismo. Tal duplicidad indica que tambi´en son Bayes las reglas de decisi´on aleatorizadas que escogen entre d?[0,x0 ) y d?[0,x0 ] con probabilidades α y 1 − α respectivamente (o, dicho de otro modo, sortean entre a1 y a2 cuando se observa X = x0 ). Aunque no se pueda aplicar, por tanto, la Proposici´on 3.5, est´ a claro que todas las acciones Bayes son admisibles y, en efecto, as´ı lo asegura la Proposici´on 3.6 para todas ellas, con excepci´ on de d?[0,∞) que s´olo es Bayes frente a π = (1, 0); pero, en ? cambio, d[0,∞) s´ı es u ´nica (pues su pareja carece de sentido). En resumen, la clase ? de las reglas de decisi´on admisibles coincide con la clase de las reglas Bayes Dad indicadas.

178

Soluci´ on de los ejercicios

? En virtud de la Proposici´on 3.4, Dad es clase completa minimal. Sin embargo, mayor reducci´on se consigue observando que la familia d?[0,x0 ) (con x0 ∈ [0, ∞)) es una clase esencialmente completa, puesto que sus riesgos recubren la frontera inferior de G. Y es minimal, en el sentido de que no contiene ninguna clase esencialmente completa m´as peque˜ na.

d) Sin experimentaci´on rˆ0 (π) alcanza su m´aximo en π = 2/5; de manera que la distribuci´ on menos favorable es (2/5, 3/5), frente a la cual el m´ınimo riesgo Bayes es V0 = 12/5 = 20 4. La acci´on aleatorizada minimax, con la que se obtienen los riesgos (12/5, 12/5), es α = (3/5, 2/5). Debe tenerse en cuenta que, sin la observaci´ on de ˆ es el segmento que los une. X, es G = {(6, 0), (0, 4)} y G √ Con la observaci´ on de X, el√m´aximo de rˆ(π) corresponde a π = 1/ 7, donde se ' 10 8. La regla de decisi´on minimax es la√regla alcanza el valor V = 4(4√− 7)/3 √ Bayes frente a π = (1/ 7, 1 − 1/ 7), que viene dada por x0 = 8(log(1 + 7) − log 2) ' 40 803; es decir d(x) =



√ si x ≥ 8(log(1 + 7) − log 2) en caso contrario

a2 a1

o cualquiera de sus equivalentes. e) Supuesto que la observaci´ on de X tiene un coste de 00 2, para que proceda pagar tal coste debe ser rˆ(π) + 00 2 < rˆ0 (π); √ √ es decir para π entre las ra´ıces (83 + 489)/320 y (23 + 129)/20 de las ecuaciones 2(1 − π)(7π − 1) + 00 2 = 6π 3π

y

2(1 − π)(7π − 1) + 00 2 = 4(1 − π). 3π

Ejercicio 4.6 a) Sin experimentaci´on y frente a la distribuci´ onπ = (π, 1 − π), los riesgos de cada acci´on son r(π, a1 ) = 100 − 50π r(π, a2 ) = 500π, de forma que la acci´on Bayes y el riesgo asociado son a?π =



a1 a2

si π ≤ 2/11 si π ≥ 2/11

rˆ0 (π) =



100 − 50π 500π

si π ≤ 2/11 si π > 2/11.

En particular, rˆ0 (00 3) = 150. Tras realizar las 10 pruebas, el n´ umero total T de resultados r1 obtenidos tiene

Cap´ıtulo 4

179

distribuci´ on (para t = 0, 1, . . . , 10)   10 0 t 0 10−t Pθ1 {T = t} = 0208 t   10 0 t 0 10−t Pθ2 {T = t} = 0604 t   10 P {T = t} = (00 3 00 2t 00 810−t + 00 7 00 6t 00 410−t ) t seg´ un que el estado de la naturaleza sea θ1 , θ2 o se elija con distribuci´ on (00 3, 00 7). Cuando se observa T = t, la distribuci´ on a posteriori asigna a θ1 probabilidad π(θ1 |T = t) =

00 3

00 3 00 2t 00 810−t 3 210 = 0 0 t 0 10−t 10 +0706 04 3 2 + 7 6t

00 2t 00 810−t

Dado que π(θ1 |T = t) ≤ 2/11 equivale a t ≥ (log 27 − log 14 + 10 log 2)/ log 6 ' 40 23, la regla de decisi´on Bayes frente a la distribuci´ on a priori (00 3, 00 7) es  a1 si t ≥ 5 ? d (t) = a2 si t ≤ 4. Con ella, el beneficio esperado resulta rˆ10 (00 3) =

4 X t=0

[500π(θ1 |T = t)]P{T = t} +

= 500

4   X 10

10 X t=5

00 3 00 2t 00 810−t − 50

[100 − 50π(θ1 |T = t)]P{T = t}

10   X 10 0 0 t 0 10−t 0 30 2 0 8 t t=5

t   10 X 10 (00 3 00 2t 00 810−t + 00 7 00 6t 00 410−t ) + 100 t t=5 t=0

= 500 00 29016 − 50 00 00984 + 100 00 59347 = 2030 936 Alternativamente, puede calcularse m´as simplemente R(θ1 , d? ) = Pθ1 {T ≤ 4}500 + Pθ1 {T ≥ 5}50 = 500 00 9672 + 50 00 0328 = 4850 243 R(θ2 , d? ) = Pθ2 {T ≥ 5}100 = 830 376 rˆ10 (00 3) = 00 3 4850 243 + 00 7 830 376 = 2030 936

En cualquier caso hay que descontar el coste de experimentaci´on; con lo cual la ganancia esperada se reduce a 1930 936, que supera a la obtenida sin experimentaci´on en 430 936. b) La condici´on significa que no se puede adoptar la acci´on a2 cuando sea π(θ2 |T = t) > 00 05

es decir

00 7 00 6t 00 410−t > 00 05; 00 3 00 2t 00 810−t + 00 7 00 6t 00 410−t

180

Soluci´ on de los ejercicios

como ello equivale a t > 10 7523, las reglas de decisi´on admitidas deben cumplir d(t) = a1 para t ≥ 2. Los resultados del apartado anterior muestran que para t ≤ 1 es preferible la acci´on a2 ; de forma que la regla de decisi´on ´optima que cumple la restricci´on es ¯ = d(t)



a1 a2

si t ≥ 2 si t ≤ 1.

Para calcular el beneficio esperado: ¯ = 500Pθ {T ≤ 1} + 50Pθ {T ≥ 2} = 500 00 3758 + 50 00 6242 = 2190 114 R(θ1 , d) 1 1 ¯ = 100Pθ {T ≥ 2} = 100 00 99832 = 990 832 R(θ2 , d) 2 ¯ = 00 3 2190 114 + 00 7 990 832 = 750 718 r10 (00 3, d) La disminuci´ on del beneficio esperado es muy grande (1270 678) debido a la pretensi´ on de evitar tener una probabilidad superior a 00 05 de obtener un beneficio nulo; naturalmente ello se debe a la disminuci´ on de la probabilidad de obtener el beneficio 500. c) Igual que en el apartado (a), si se realizan n repeticiones del experimento, la regla de decisi´on Bayes es

d? (t) =



a1 a2

si t > tn si t < tn

con

tn =

log 27 − log 14 + n log 2 log 6

y produce el beneficio esperado   rˆn (00 3) = 00 3 500Pθ1 {T < tn } + 50Pθ1 {T > tn } + 00 7 100Pθ2 {T > tn } donde (para t = 0, 1, . . . , n)     n 0 t 0 n−t n 0 t 0 n−t Pθ1 {T = t} = 0208 y Pθ2 {T = t} = 06 04 . t t Con ayuda de un programa de c´ alculo, es f´acil obtener los resultados que aparecen en la tabla siguiente. La ganancia esperada m´axima corresponde a hacer n = 16 pruebas. Prolongando el c´ alculo se ve que la u ´ltima columna decrece mon´ otonamente a partir de n = 18.

Cap´ıtulo 4

181 n

tn

5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

0

2 300 20 687 30 074 30 461 30 848 40 235 40 621 50 008 50 395 50 782 60 169 60 556 60 943 70 329 70 716 80 103

rˆn 0

189 96 1940 10 1950 21 2000 24 2010 48 2030 93 2060 24 2060 30 2090 10 2090 99 2100 90 2120 31 2120 47 2130 76 2140 39 2140 69

rˆn − n 1840 96 1880 10 1880 21 1920 24 1920 48 1930 93 1950 24 1940 30 1960 10 1950 99 1950 90 1960 31 1950 47 1950 76 1950 39 1940 69

d) El pron´ ostico del estado de la naturaleza debe ser θˆ = θ1 en caso de que sea π(θ1 |T = t) > 1/2 y θˆ = θ2 en caso contrario. Pero π(θ1 |T = t) =

00 3

n log 2 + log 3 − log 7 00 3 00 2t 00 8n−t > 1/2 ⇔ t < . + 00 7 00 6t 00 4n−t log 6

00 2t 00 8n−t

Por consiguiente, la probabilidad de error en el pron´ ostico ser´a P{error} = 00 3Pθ1 {T > tn } + 00 7Pθ2 {T < tn } X n X n 00 6t 00 4n−t 00 2t 00 8n−t + 00 7 = 00 3 t t tt n

n

donde tn = (n log 2 + log 3 − log 7)/ log 6. Para n entre 20 y 30 los resultados son n

P{error}

20 21 22 23 24 25 26 27 28 29 30

00 0244 00 0215 00 0211 00 0172 00 0161 00 0144 00 0125 00 0124 00 0101 00 0093 00 0087

182

Soluci´ on de los ejercicios

El primer valor de n para el que la probabilidad de error es inferior a 00 01 es 29. Ejercicio 4.7 a) Cada regla de decisi´on d = (a, b, c) indica las acciones que se emplear´ an seg´ un se observe el resultado x1 , x2 o x3 . La tabla siguiente contiene las ocho reglas de decisi´on posibles y sus riesgos: R(θ1 , d) = 00 6 L(θ1 , a) + 00 3 L(θ1 , b) + 00 1 L(θ1 , c) R(θ2 , d) = 00 2 L(θ1 , a) + 00 3 L(θ1 , b) + 00 5 L(θ1 , c). d d1 d2 d3 d4 d5 d6 d7 d8

= (a1 , a1 , a1 ) = (a1 , a1 , a2 ) = (a1 , a2 , a1 ) = (a1 , a2 , a2 ) = (a2 , a1 , a1 ) = (a2 , a1 , a2 ) = (a2 , a2 , a1 ) = (a2 , a2 , a2 )

R(θ1 , d)

R(θ2 , d)

r(π, d)

2 20 4 30 2 30 6 40 4 40 8 50 6 6

8 6 60 8 40 8 70 2 50 2 6 4

8 − 6π 6 − 30 6π 40 8 − 10 2π

4 + 2π

Las reglas de decisi´on d3 , d5 y d7 est´ an dominadas por d2 , mientras que d6 lo est´ a por d4 . Como no hay m´as relaciones de dominancia, las reglas de decisi´on admisibles son d1 , d2 , d4 y d8 . Para ellas, la u ´ltima columna contiene el riesgo Bayes frente a la distribuci´ on (π, 1 − π). b) Para cada π ∈ [0, 1], el m´ınimo riesgo Bayes frente a π, rˆ(π), es el m´ınimo de los cuatro valores de la u ´ltima columna, que aparece representado por la poligonal inferior de la figura adyacente. Para π0 = 00 25 se obtiene el m´aximo valor V = 40 5 de rˆ(π); de manera que π 0 = (00 25, 00 75) es la distribuci´ on m´as desfavorable para el decisor. Y, V = 40 5 es el valor del problema de decisi´on.

8

d1

6

d2

4

d8

0

d4

π

1

c) Entre las reglas de decisi´on no aleatorizadas, d1 , d2 , . . . , d8 , la m´axima p´erdida m´ax(R(θ1 , d), R(θ2 , d)) alcanza su m´ınimo valor para d = d6 ; en la que dicho m´aximo es 50 2. Por consiguiente, d6 es la regla de decisi´on no aleatorizada minimax. Por otro lado, frente a la distribuci´ on m´as desfavorable son Bayes las reglas de decisi´on d4 y d8 . La regla de decisi´on aleatorizada que asigna probabilidades α y 1 − α a d4 y d8 respectivamente alcanza el valor V = 40 5 cuando 30 6α + 40 8(1 − α) = 6α + 4(1 − α) = 40 5;

lo cual da α = 00 25. Quiere decirse que (0, 0, 0, 00 25, 0, 0, 0, 0075) es la regla de decisi´ on aleatorizada minimax; que se traduce en la regla de comportamiento: emplear

Cap´ıtulo 4

183

la acci´on a2 si se obtienen los resultados x2 o x3 y sortear entre a1 y a2 , con probabilidades 00 25 y 00 75, en caso de que se obtenga el resultado x1 . d) Con tres repeticiones del experimento, sea n = (n1 , n2 , n3 ) el n´ umero de resultados de cada tipo obtenidos, con 0 ≤ n1 , n2 , n3 y n1 + n2 + n3 = 3. En total, hay 10 posibles valores de n (que aparecen en la tabla m´as adelante) y, por tanto 210 = 1024 reglas de decisi´on posibles. En vez de hacer la lista de todas ellas, obs´ervese que    3 3 − n1 0 n1 0 n2 0 n3 Pθ1 (n) = 06 03 01 , n2 n1    3 3 − n1 0 n1 0 n2 0 n3 Pθ2 (n) = 02 03 05 , n2 n1 π00 6n1 00 3n2 00 1n3 . π(θ1 |n) = 0 n1 0 n2 0 n3 π0 6 0 3 0 1 + (1 − π)00 2n1 00 3n2 00 5n3 Por otro lado, frente a la distribuci´ on (π, 1 − π), la acci´on a1 es mejor que a2 si 2π + 8(1 − π) < 6π + 4(1 − π) ⇔ π > 00 5; de manera que la regla de decisi´on Bayes asigna a n la acci´on a1 en caso de que se cumpla 5n3 . π(θ1 |n) ≥ 00 5 ⇔ π ≥ n1 3 + 5n3 La siguiente tabla muestra, para resultado posible, los valores de π tales que a2 es o´ptima en [0, π] y a1 lo es es [π, 1]. Las columnas siguientes contienen las reglas de decisi´on Bayes v´alidas cuando π es inferior al valor que muestra la cabecera y superior al de la cabecera anterior. n

a2 ][a1 0

1 28

1 10

1 4

5 14

1 2

5 8

5 6

25 28

25 26

125 126

(3, 0, 0) (2, 1, 0) (2, 0, 1) (1, 2, 0) (1, 1, 1) (1, 0, 2) (0, 3, 0) (0, 2, 1) (0, 1, 2) (0, 0, 3)

1/28 1/10 5/14 1/4 5/8 25/28 1/2 5/6 25/26 125/126

a2 a2 a2 a2 a2 a2 a2 a2 a2 a2

a1 a2 a2 a2 a2 a2 a2 a2 a2 a2

a1 a1 a2 a2 a2 a2 a2 a2 a2 a2

a1 a1 a2 a1 a2 a2 a2 a2 a2 a2

a1 a1 a1 a1 a2 a2 a2 a2 a2 a2

a1 a1 a1 a1 a2 a2 a1 a2 a2 a2

a1 a1 a1 a1 a1 a2 a1 a2 a2 a2

a1 a1 a1 a1 a1 a2 a1 a1 a2 a2

a1 a1 a1 a1 a1 a1 a1 a1 a2 a2

a1 a1 a1 a1 a1 a1 a1 a1 a1 a2

a1 a1 a1 a1 a1 a1 a1 a1 a1 a1

d1

d2

d3

d4

d5

d6

d7

d8

d9

d10

d11

1

Hay en total 11 reglas de decisi´on Bayes (cuya expresi´on depende del orden arbitrario que se ha fijado en el conjunto de valores posibles de n). Los riesgos de cada

184

Soluci´ on de los ejercicios

una de ellas, para θ1 y θ2 , se pueden calcular en la forma: R(θ1 , di ) = 2 Pθ1 {di (n) = a1 } + 6 Pθ1 {di (n) = a2 },

R(θ2 , di ) = 8 Pθ2 {di (n) = a1 } + 4 Pθ2 {di (n) = a2 }. Los resultados figuran en las dos filas de la tabla siguiente: d1 6 4

d2

d3

d4

d5

d6

d7

d8

d9

d10

0

0

0

0

0

0

0

0

0

5 136 40 032

3 840 40 176

3 192 40 392

2 760 40 632

2 652 40 740

2 22 50 46

2 112 6

2 04 60 60

2 004 70 5

d11 2 8

Los once riesgos Bayes r(π, di ) = π R(θ1 , di ) + (1 − π) R(θ2 , di ) se representan como once rectas que determinan una poligonal, con v´ertices en (1/28, 40071), (1/10, 40142), (1/4, 40092), . . . , (125/126, 20048). Consecuentemente, la distribuci´ on m´as desfavorable es ahora π 0 = (00 1, 00 9), al que 0 corresponde el valor V = 4 1424. Frente a π 0 son Bayes las reglas de decisi´on d2 y d3 . La regla de decisi´on aleatorizada que elige entre d2 y d3 , con probabilidades 7/30 y 23/30 respectivamente, es la regla de decisi´on minimax. Expresada como regla de comportamiento, consiste en elegir a1 si n = (3, 0, 0); para n = (2, 1, 0) sortear entre a1 y a2 con probabilidades 23/30 y 7/30; mientras que en los dem´ as casos se emplea a2 . Ejercicio 4.8 a) Con la distribuci´ on a priori π = (00 7, 00 3), la distribuci´ on a posteriori cuando se observa el resultado x1 es π(θ1 |x1 ) =

00 7 00 6 = 00 875, 00 7 00 6 + 00 3 00 2

π(θ2 |x1 ) = 00 125.

El riesgo asociado a la acci´on a es  0  1 875 − 5a 10 625 − 30 75a r(π, a|x1 ) = 00 875|5a − 2| + 00 125|5a − 1| =  5a − 10 875

si a ≤ 00 2 si 00 2 ≤ a ≤ 00 4 si a ≥ 00 4

que alcanza el m´ınimo rˆ(π|x1 ) = 00 875 para a? = 00 4. An´alogamente, si se observa x2 , π(θ1 |x2 ) =

00 7

00 7 00 2 = 00 4, 00 2 + 00 3 00 7

θ(θ2 |x2 ) = 00 6

con lo cual  0  1 4 − 5a 00 2 + a r(π, a|x2 ) = 00 4|5a − 2| + 00 6|5a − 1| =  5a − 10 4

y el m´ınimo rˆ(π|x2 ) = 00 4 se alcanza con a? = 00 2.

si a ≤ 00 2 si 00 2 ≤ a ≤ 00 4 si a ≥ 00 4

Cap´ıtulo 4

185

Por fin, la observaci´ on de x3 da lugar a la distribuci´ on a posteriori π(θ1 |x3 ) =

14 00 7 00 2 = , 0 0 0 0 0702+0301 17

π(θ2 |x3 ) =

3 17

de forma que  0  1 8235 − 5a 14 3 10 4706 − 30 2353a r(π, a|x3 ) = |5a − 2| + |5a − 1| =  17 17 5a − 10 8235

si a ≤ 00 2 si 00 2 ≤ a ≤ 00 4 si a ≥ 00 4

cuyo m´ınimo rˆ(π|x3 ) = 3/17 se alcanza en a? = 00 4. En resumen, la regla de decisi´on Bayes frente a π es  0 0 4 si x = x1 o x3 d? (x) = 00 2 si x = x2 cuyo riesgo es

3 = 00 23 17 puesto que P(x1 ) = 00 7 00 6 + 00 3 00 2 = 00 48, P(x2 ) = 00 35, P(x3 ) = 00 17. Como comprobaci´ on alternativa rˆ(π) = 00 48 00 125 + 00 35 00 4 + 00 17

R(θ1 , d? ) = (00 6 + 00 2)|5 00 4 − 2| + 00 2|5 00 2 − 2| = 00 2, R(θ2 , d? ) = (00 2 + 00 1)|5 00 4 − 1| + 00 2|5 00 2 − 1| = 00 3, r(π, d? ) = 00 7 00 2 + 00 3 00 3 = 00 23.

Por otro lado, sin utilizar el experimento, el riesgo de la  0  1 7 − 5a 10 1 − 2a r(π, a) = 00 7|5a − 2| + 00 3|5a − 1| =  5a − 10 7

acci´on a: si a ≤ 00 2 si 00 2 ≤ a ≤ 00 4 si a ≥ 00 4

alcanza su m´ınimo rˆ0 (π) = 00 3 en la acci´on Bayes a? = 00 4. En consecuencia, la disminuci´ on de la p´erdida que se produce al utilizar el experimento es ∆ = 00 3 − 00 23 = 00 07. b) Empecemos determinando la acci´on Bayes, sin experimentaci´on, frente a una distribuci´ on gen´erica π = (π, 1 − π). Dado que  si a ≤ 00 2  1 + π − 5a 3π − 1 + 5a(1 − 2π) si 00 2 ≤ a ≤ 00 4 r0 (π, a) = π|5a − 2| + (1 − π)|5a − 1| =  5a − 1 − π si a ≥ 00 4,

el m´ınimo

rˆ0 (π) =



π 1−π

si π ≤ 00 5 se alcanza en a? = 00 2, si π ≥ 00 5 se alcanza en a? = 00 4.

186

Soluci´ on de los ejercicios

Al hacer n repeticiones del experimento se obtendr´ an N = (N1 , N2 , N3 ) resultados de cada tipo, siendo, para cada n1 , n2 , n3 ∈ IN con n1 + n2 + n3 = n,    n n − n1 0 n1 0 n2 +n3 Pθ1 {N1 = n1 , N2 = n2 , N3 = n3 } = 06 02 n2 n1    n n − n1 0 n1 0 n2 0 n3 Pθ2 {N1 = n1 , N2 = n2 , N3 = n3 } = 02 07 01 n1 n2 00 7 00 6n1 00 2n2 +n3 π(θ1 |N = (n1 , n2 , n3 )) = 0 0 n1 0 n2 +n3 + 00 3 00 2n1 00 7n2 00 1n3 0706 02 La regla de decisi´on Bayes, d?n , elige a = 00 2 cuando π(θ1 |(n1 , n2 , n3 )) ≤ 00 5 ⇔ 3n1 −1 2n2 +n3 ≤ 7n2 −1 y a = 00 4 en caso contrario. Los riesgos asociados son R(θ1 , d?n ) = Pθ1 {3n1 −1 2n2 +n3 ≤ 7n2 −1 },

R(θ2 , d?n ) = Pθ2 {3n1 −1 2n2 +n3 > 7n2 −1 }.

Para n = 2, s´olo el resultado (0, 2, 0) cumple la primera desigualdad; as´ı que R(θ1 , d?2 ) = 00 22 = 00 04 y R(θ2 , d?2 ) = 1 − 00 72 = 00 51. Por tanto, la p´erdida esperada resulta rˆ2 ((00 7, 00 3)) = 00 7 00 04 + 00 3 00 51 = 00 181, con una disminuci´ on de 00 23 − 00 181 = 00 049 respecto al caso n = 1. Para n = 3, los resultados que cumplen 3n1 −1 2n2 +n3 ≤ 7n2 −1 son (1, 2, 0), (0, 3, 0) y (0, 2, 1) ; por consiguiente R(θ1 , d?3 ) = 3 00 6 00 22 + 00 23 + 3 00 23 = 00 104, R(θ1 , d?3 ) = 1 − (3 00 2 00 72 + 00 73 + 3 00 72 00 1) = 00 216; y, en definitiva, rˆ3 ((00 7, 00 3)) = 00 7 00 104 + 00 3 00 216 = 00 1376 ya es menor que 00 15. El c´ alculo de los valores de la p´erdida esperada para los sucesivos valores de n permite saber la cantidad que hay que estar dispuesto a pagar por cada repetici´ on: 00 07 por la primera, 00 049 por la segunda, 00 181 − 00 1376 = 0 0 0434 por la tercera; etc. Ejercicio 4.9 a) Cuando no se realiza ning´ un experimento y la distribuci´ on de los estados de la naturaleza es P (θ1 ) = π, P (θ1 ) = 1 − π, cada acci´on da una ganancia esperada r(π, a1 ) = 120π + 40(1 − π) = 40 + 80π r(π, a2 ) = 20π + 80(1 − π) = 80 − 60π

Cap´ıtulo 4

187

de modo que la acci´on Bayes es ?

a =



a1 a2

si π ≥ 2/7 si π ≤ 2/7.

que, en concreto para π = 00 6, vale a1 y da un beneficio de 88. Despu´es de realizar el experimento cuatro veces, sea N el n´ umero veces que se obtiene el resultado x1 , cuya distribuci´ on seg´ un el estado de la naturaleza es   4 0 k 0 4−k Pθ1 {N = k} = 08 02 k   4 0 k 0 4−k Pθ2 {N = k} = 03 07 k para cada k = 0, 1, 2, 3, 4. Luego, si se observa N = k y π = 00 6, la distribuci´ on a posteriori es π(θ1 |N = k) =

00 6 00 8k 00 24−k 1 = 3 k 7 4. 00 6 00 8k 00 24−k + 00 4 00 3k 00 74−k ) (2) 1 + 46 ( 28

Dado que π(θ1 |N = k) ≥ 2/7 ⇔ k log

3 6 5 2 ≤ log + log + 4 log ⇔ k ≥ 10 65, 28 4 2 7

la regla de decisi´on Bayes frente a la distribuci´ on a priori (00 6, 00 4) resulta  a1 si k ≥ 2 d? (k) = a2 si k ≤ 1. Para cada estado de la naturaleza, la ganancia esperada de dicha regla de decisi´on es R(θ1 , d? ) = 120 Pθ1 {N ≥ 2} + 20 Pθ2 {N ≤ 1} = 1170 28 R(θ2 , d? ) = 40 Pθ2 {N ≥ 2} + 80 Pθ2 {N ≤ 1} = 660 07

con lo cual, ponderando con la distribuci´ on a priori, se obtiene la ganancia esperada rˆ4 (00 6) = 00 6 1170 28 + 00 4 660 07 = 960 8, de la que hay que descontar el coste de experimentaci´on 4c = 8. En total, resulta un beneficio esperado de 880 8. b) Para una distribuci´ on a priori cualquiera (π, 1 − π), la distribuci´ on a posteriori, cuando se observa N = k, es π(θ1 |N = k) =

1

1+

1−π 3 k 7 4 . π ( 28 ) ( 2 )

188

Soluci´ on de los ejercicios

La regla de decisi´on Bayes elige la acci´on a1 cuando k ≥ kπ =

π log 1−π + log

log

5 2 3 28

+ 4 log 72

.

Es decir, seg´ un el valor de π, las reglas de decisi´on que pueden ser Bayes son las que figuran en la tabla siguiente, cuyas primeras columnas indican la acci´on elegida seg´ un el valor de k observado.

d1 d2 d3 d4 d5 d6

0

1

2

3

4

θ1

θ2

a1 a2 a2 a2 a2 a2

a1 a1 a2 a2 a2 a2

a1 a1 a1 a2 a2 a2

a1 a1 a1 a1 a2 a2

a1 a1 a1 a1 a1 a2

120 119084 117028 101092 600 96 20

40 490 6 660 07 760 65 790 68 80

Las columnas encabezadas por θ1 y θ2 proporcionan la ganancia esperada de cada regla de decisi´on. Los segmentos que unen cada punto (120, 40), (119084, 4906), . . ., (20, 80) con el siguiente forman la frontera superior del conjunto de ganancias esperadas. c) Desde luego, la regla de decisi´on maximin no aleatorizada es d4 , que asegura una ganancia esperada superior a 760 65, cualquiera que sea el estado de la naturaleza. Sin embargo, hay una regla de decisi´on aleatorizada mejor. Puesto los puntos correspondientes a d4 y d5 son los m´as pr´oximos a la diagonal, hay una regla de decisi´on aleatorizada, que elige d4 con probabilidad α y d5 con probabilidad 1 − α, tal que α 1010 92 + (1 − α) 600 96 = α 760 65 + (1 − α) 790 68. Corresponde a tomar α = 00 4256, que da a ambos miembros el valor 780 39. As´ı pues, la regla de decisi´on maximin es  a2 si k ≤ 2    a2 con probabilidad 00 5744 si k = 3 ˜ = d(k) a1 con probabilidad 00 4256 si k = 3    a1 si k = 4.

d) Repitiendo el experimento n veces, la distribuci´ on a posteriori, si se observa N = k, es 1 π(θ1 |N = k) = 4 3 k 7 n. 1 + 6 ( 28 ) ( 2 ) Pero 15 2 3 ≤ log + n log π(θ1 |N = k) ≥ 2/7 ⇔ k log 28 4 7 ⇔ k ≥ 00 561n − 00 592 = kn .

Cap´ıtulo 4

189

de forma que la regla de decisi´on Bayes es  a1 si k ≥ kn ? dn (k) = a2 si k ≤ kn . Los beneficios esperados frente a cada estado de la naturaleza son R(θ1 , d?n ) = 20Pθ1 {N ≤ kn } + 120Pθ1 {N ≥ kn } R(θ2 , d?n ) = 80Pθ2 {N ≤ kn } + 40Pθ2 {N ≥ kn }. Ahora bien, en virtud de la ley de los grandes n´ umeros,  0 N 0 8 si el estado de la naturaleza es θ1 −→ 00 3 si el estado de la naturaleza es θ2 . n Por consiguiente R(θ1 , d?n ) −→ 120

y

R(θ2 , d?n ) −→ 80;

con lo cual el beneficio esperado converge a 00 6 · 120 + 00 4 · 80 = 104. Ejercicio 4.10 a) Frente a una distribuci´ on de θ con densidad π(θ), los rendimientos por hect´ area de cada cultivo son Z 1 r(π, A) = π(θ)(3 + 2θ) dθ = 3 + 2Eπ [θ], 0

r(π, B) =

Z

0

1

π(θ)(4 − θ) dθ = 4 − Eπ [θ];

de forma que el mayor rendimiento esperado es  3 + 2Eπ [θ] si Eπ [θ] ≥ 1/3 con el cultivo de A, rˆ0 (π) = 4 − Eπ [θ] si Eπ [θ] ≤ 1/3 con el cultivo de B. En caso de que fuese Eπ [θ] = 1/3, ambas acciones producen el mismo rendimiento esperado: 11/3. Para el caso concreto de ser π(θ) = 2(1 − θ), es Z 1 2(1 − θ)θ dθ = 1/3, Eπ [θ] = 0

luego ambos cultivos producen el mismo rendimiento: de 11/3 ' 30 666. b) El reparto del terreno, en las proporciones x y 1 − x para cada cultivo, produce un rendimiento x (3 + 2θ) + (1 − x) (4 − θ) = θ (3x − 1) + 4 − x.

190

Soluci´ on de los ejercicios

Si x > 1/3, dicho rendimiento se hace m´ınimo en θ = 0, donde vale 4 − x. Para x < 1/3, el rendimiento m´ınimo, 2x + 3, se obtiene para θ = 1. En cambio, para x = 1/3, el rendimiento es independiente de θ y vale 11/3; superior a 4 − x, para cualquier x > 1/3 y a 2x + 3, para cualquier x < 1/3. Por consiguiente, la estrategia maximin es dedicar 1/3 del terreno al cultivo de A y 2/3 al cultivo de B. Es una estrategia ecualizadora que es Bayes (como cualquier otra) frente a cualquier distribuci´ on π con Eπ [θ] = 1/3; en consecuencia, es maximin de acuerdo con la proposici´on 3.12. Las distribuciones con Eπ [θ] = 1/3 son las m´as desfavorables. c) Condicionado por las posibles respuestas del experto, las densidades a posteriori son π(θ) θ π(θ) (1 − θ) π(θ|r1 ) = , π(θ|r2 ) = ; Eπ [θ] 1 − Eπ [θ] cuyas medias Z 1 Eπ [θ2 ] π(θ) θ2 E[θ|r1 ] = dθ = Eπ [θ] Eπ [θ] 0 Z 1 Eπ [θ] − Eπ [θ2 ] π(θ) (1 − θ)θ = E[θ|r2 ] = 1 − Eπ [θ] 1 − Eπ [θ] 0

hay que comparar con 1/3 (seg´ un el resultado del apartado (a)) para hallar la acci´on Bayes en cada caso. As´ı, cuando se obtiene la respuesta r1 , la acci´on Bayes es  E [θ2 ]   A si Eπ [θ] ≤ 3Eπ [θ2 ] con rˆ(π|r1 ) = 3 + 2 Eπ [θ] , π d? (r1 ) = 2  E π [θ ] 2  B si Eπ [θ] ≥ 3Eπ [θ ] con rˆ(π|r1 ) = 4 − E [θ] . π En caso de obtener la respuesta r2 , la acci´on Bayes es  E [θ]−Eπ [θ2 ] ,   A si 4Eπ [θ] − 3Eπ [θ2 ] ≥ 1 con rˆ(π|r2 ) = 3 + 2 π1−E [θ] π d? (r2 ) = 2  E [θ]− E π [θ ]  B si 4Eπ [θ] − 3Eπ [θ2 ] ≤ 1 con rˆ(π|r2 ) = 4 − π . 1−Eπ [θ] 1 Dentro de la regi´ on x2

Eπ [θ2 ]

= y

que limita los posibles valores de Eπ [θ] y Eπ [θ2 ], el gr´ afico adjunto muestra las regiones en que las reglas de decisi´on Bayes son d1 = (A, A), d2 = (A, B) y d3 = (B, B) respectivamente. La regla de decisi´on d4 = (B, A) no es Bayes frente a ninguna distribuci´ on a priori, salvo θ = 1/3 con probabilidad 1.

y=

x

0 ≤ Eπ [θ]2 ≤ Eπ [θ2 ] ≤ Eπ [θ] ≤ 1,

d1

d2 0

d3 0

3y = 4x − 3y = 1 Eπ [θ]

x

1

La misma conclusi´ on se obtiene de asociar a cada una de las cuatro reglas de decisi´on su riesgo, R(θ, d), cuando el estado de la naturaleza es θ y el correspondiente riesgo Bayes para una distribuci´ on a priori π; tal como indica la tabla siguiente:

Cap´ıtulo 4

191

d1 = (A, A) d2 = (A, B) d3 = (B, B) d4 = (B, A)

R(θ, d)

r(π, d)

3 + 2θ θ(3 + 2θ) + (1 − θ)(4 − θ) 4−θ θ(4 − θ) + (1 − θ)(3 + 2θ)

3 + 2Eπ [θ] 3Eπ [θ2 ] − 2Eπ [θ] + 4 4 − Eπ [θ] −3Eπ [θ2 ] + 3Eπ [θ] + 3

As´ı, resulta directamente  3 + 2Eπ [θ]     rˆ(π) = 3Eπ [θ2 ] − 2Eπ [θ] + 4     4 − Eπ [θ]

si (1 + 3Eπ [θ2 ])/4 ≤ Eπ [θ] ≤ 3Eπ [θ2 ], si Eπ [θ] ≤ 3Eπ [θ2 ] y 4Eπ [θ] ≤ 1 + 3Eπ [θ2 ], si 3Eπ [θ2 ] ≤ Eπ [θ] ≤ (1 + 3Eπ [θ2 ])/4.

Aunque a esta conclusi´ on tambi´en se llega, teniendo en cuenta que P(r1 ) =

Z

1

θ π(θ) dθ = Eπ [θ],

0

P(r2 ) = 1 − Eπ [θ],

mediante el c´ alculo (con las expresiones obtenidas antes) de P(r1 )ˆ r (π|r1 ) + P(r2 )ˆ r (π|r2 ). Para el caso concreto de la distribuci´ on a priori de densidad 2(1 − θ), es Eπ [θ] =

1 , 3

Eπ [θ2 ] =

1 , 6

de modo que la regla de decisi´on Bayes es d2 = (A, B) y el riesgo Bayes es 3/6 − 2/3 + 4 = 23/6 ' 30 8333. Comparado con la soluci´on de (a), la respuesta del experto vale 23/6 − 11/3 = 1/6 ' 00 1666. d) Entre las reglas de decisi´on aleatorizadas (α1 , α2 , α3 , α4 ), que eligen cada regla de decisi´on di con probabilidad αi (α4 = 1 − α1 − α2 − α3 ), son ecualizadoras las que consiguen que α1 (3 + 2θ) + α2 (3θ2 − 2θ + 4) + α3 (4 − θ) + α4 (−3θ2 + 3θ + 3)

= 3θ2 (α1 + 2α2 + α3 − 1) − θ(α1 + 5α2 + 4α3 − 3) + α2 + α3 + 3

no dependa de θ; es decir α1 + 2α2 + α3 = 1,

α1 + 5α2 + 4α3 = 3.

Por tanto, son ecualizadoras todas las reglas de decisi´on con 2 2 1 α1 = λ − , α2 = − λ, α3 = λ, α4 = − λ 3 3 3

192

Soluci´ on de los ejercicios

donde 1/3 ≤ λ ≤ 2/3. Todas ellas son Bayes frente a la distribuci´ on a priori tal que θ = 1/3 con probabilidad 1; luego son reglas de decisi´on maximin. N´ otese que cualquiera de ellas, tanto si se observa r1 como si se observa r2 , elige el cultivo de A con probabilidad 1/3 y el cultivo de B con probabilidad 2/3. Es decir que, como reglas de comportamiento, todas las reglas de decisi´on maximin coinciden con la hallada en (b). e) El pron´ ostico T tiene densidad marginal f (t) =

Z

0

1

4 4 ( − t2 + (2t − 1)θ)π(θ) dθ = − t2 + (2t − 1)Eπ (θ); 3 3

mientras que la densidad a posteriori de θ cuando se conoce el valor T = t del pron´ ostico es π(θ)[4/3 − t2 + (2t − 1)θ] π(θ|t) = f (t) con lo cual E[θ|t] =

(4/3 − t2 )Eπ [θ] + (2t − 1)Eπ [θ2 ] . f (t)

Por consiguiente, la regla de decisi´on Bayes frente a la densidad a priori π(θ) es  A si E[θ|t] ≥ 1/3 d? (t) = B si E[θ|t] ≤ 1/3. Llamando x = Eπ [θ] e y = Eπ [θ2 ], la condici´on Eπ [θ|t] ≥ 1/3 equivale a g(t) = t2 (1 − 3x) + 2t(3y − x) + 5x − 3y − 4/3 ≥ 0; como g(0) = 5x − 3y − 4/3 y g(1) = 3y − 3, las rectas y = 1/9 y 15x − 9y = 4 dividen la regi´ on 0 ≤ x2 ≤ y ≤ x ≤ 1 en tres regiones que se muestran en el gr´afico siguiente: 1 15x − 9y = 4 x2

2

y

=

x

y=

Eπ [θ ] d?1

d?3 d?2 0

y = 1/9 Eπ [θ]

1

En la de la derecha, g(0), g(1) ≥ 0 y x > 1/3, de forma que g(t) es positivo para cualquier t y la regla de decisi´on Bayes es d?1 (t) ≡ A. En la de la izquierda, g(0), g(1) ≤ 0 y x < 1/3, con lo cual g(t) ≤ 0 para todo t ∈ [0, 1] y d?2 (t) ≡ B es la

Cap´ıtulo 4

193

regla Bayes. En la regi´ on por encima de ambas rectas es g(0) ≤ 0 ≤ g(1), as´ı que g(t) cambia de signo en una ra´ız t0 de g(t) = 0 y la regla de decisi´on Bayes resulta  A si t ≥ t0 ? d3 (t) = B si t ≤ t0 . Por ejemplo, con la densidad a priori π(θ) = 2(1 − θ), como x = 1/3 e y = 1/6, g(t) se reduce a (2t − 1)/6 de modo que t0 = 1/2. En este caso, los riesgos de la acci´on Bayes son R(θ, d?3 ) = (3 + 2θ)Pθ {T ≥ 1/2} + (4 − θ)Pθ {T ≤ 1/2} = (3 + 2θ)

3 + 2θ 5 − 2θ 6θ2 − θ + 29 + (4 − θ) = 8 8 8

de modo que el riesgo Bayes resulta rˆ =

89 6E[θ2 ] − E[θ] + 29 = ' 30 70833. 8 24

Tambi´en puede calcularse, teniendo en cuenta que E[θ|t] = (t2 −t−5/6)/(3t2 −2t−3) y f (t) = −(3t2 − 2t − 3)/3:   Z 1  Z 1/2  t2 − t − 5/6 89 t2 − t − 5/6 f (t) dt + 3+2 2 f (t) dt = rˆ = 4− 2 . 3t − 2t − 3 3t − 2t − 3 24 1/2 0 En cualquier caso, el pron´ ostico del servicio meteorol´ogico vale 89/24 − 11/3 = 1/24 ' 00 04166. Ejercicio 4.11 a) Como θ, 1 − θ ≥ 0, la ganancia G(θ, a) crece al crecer a1 y a2 ; as´ı que cualquier acci´on (a1 , a2 ) est´ a dominada por las acciones (a1 + h, a2 ) y (a1 , a2 + h) para cualquier h > 0, siempre que tales acciones pertenezcan a A. Por consiguiente, las u ´nicas acciones no dominadas son las que verifican a1 , a2 ≥ 0 y a21 + a22 = 1. Dicho de otra forma, la clase de las acciones admisibles es Aad = {a = (a1 , a2 ) ∈ IR2 |a1 , a2 ≥ 0, a21 + a22 = 1} y basta limitarse a considerar acciones de este tipo. En el caso en que se observe X = x ∈ [0, 1], se tiene θ ∈ [0, x] y m´ın G(θ, a) = m´ın a2 + θ(a1 − a2 ) θ∈[0,x] √  a2 si a1 ≥ a2 o bien a1 ≥ 1/√2 = a2 + x(a1 − a2 ) si a1 ≤ a2 o bien a1 ≤ 1/ 2 √  p 2 si a1 ≥ 1/√2 p1 − a1 p = 1 − a21 + x(a1 − 1 − a21 ) si a1 ≤ 1/ 2. p La segunda funci´ on es creciente hasta a1 = x/ x2 + (1 − x)2 y decreciente despu´es; por tanto, el m´aximo de m´ınθ∈[0,x] G(θ, a) se alcanza: θ∈[0,x]

194

Soluci´ on de los ejercicios si x/

p √ x2 + (1 − x)2 ≤ 1/ 2, o lo que es lo mismo x ≤ 1/2, con

donde vale

x a1 (x) = p , 2 x + (1 − x)2

p x2 + (1 − x)2 ;

1−x a2 (x) = p 2 x + (1 − x)2

en caso contrario, es decir si x ≥ 1/2, con 1 a1 (x) = a2 (x) = √ 2 √ donde vale 1/ 2. Por otro lado, si se observa X = x ∈ [1, 2], necesariamente θ ∈ [x − 1, 1] y √  a2 + (x − 1)(a1 − a2 ) si a1 ≥ 1/√2 m´ın G(θ, a) = a1 si a1 ≤ 1/ 2 θ∈[x−1,1] √  a si a1 ≤ 1/√2 1 p p = 1 − a21 + (x − 1)(a1 − 1 − a21 ) si a1 ≥ 1/ 2

p La segunda funci´ on es creciente hasta a1 = (x − 1)/ (x − 1)2 + (2 − x)2 y decreciente a partir de tal valor; luego, el m´aximo de m´ınθ∈[x−1,1] G(θ, a) se alcanza: p √ para (x − 1)/ (x − 1)2 + (2 − x)2 ≥ 1/ 2, es decir x ≥ 3/2, en x−1 a1 (x) = p , ((x − 1)2 + (2 − x)2

donde vale

p (x − 1)2 + (2 − x)2

para x ≤ 3/2, en

√ donde vale 1/ 2.

2−x a2 (x) = p ((x − 1)2 + (2 − x)2

1 a1 (x) = a2 (x) = √ 2

En definitiva, la regla de decisi´on a? (x) buscada queda caracterizada por p  si x ≤ 1/2  x/√ x2 + (1 − x)2 a?1 (x) = 1/ 2 p si 1/2 ≤ x ≤ 3/2  (x − 1)/ (x − 1)2 + (2 − x)2 si x ≥ 3/2

p con a?2 (x) = 1 − a?1 (x)2 . Dicha regla es una peculiaridad propia de este caso, debida al hecho de que el recorrido de X depende de θ; de no ser as´ı (es decir, si la distribuci´ on de X tuviese una soporte com´ un para todos los valores de θ) a? (x) no depender´ıa de x y ser´ıa simplemente la acci´on maximin del problema de decisi´on

Cap´ıtulo 4

195

sin experimentaci´on. En cambio, los riesgos de cada regla de decisi´on d(x) son en esta situaci´ on Z θ+1 Z θ+1 Z θ+1 p 1 − d1 (x)2 dx R(θ, d) = G(θ, d(x)) dx = θ d1 (x) dx + (1 − θ) θ

θ

θ

y la regla de decisi´on maximin es aquella que maximiza el m´ınθ∈[0,1] R(θ, d). En principio, parece un problema notablemente m´as dif´ıcil que el resuelto antes.

b) Sin experimentaci´on y para una distribuci´ on cualquiera π ∈ Θ? , la ganancia esperada de la acci´on admisible (a1 , a2 ) es q r(π, a1 , a2 ) = a2 + m(a1 − a2 ) = a2 + m( 1 − a22 − a2 ) donde m = Eπ [θ] ∈ [0, 1].

El m´aximo se alcanza con

1−m , a2 = p 2 m + (1 − m)2

m a1 = p 2 m + (1 − m)2

que constituye la acci´on Bayes frente a π y produce una ganancia esperada p rˆ0 (π) = m2 + (1 − m)2 .

√ En particular, si π tiene densidad 2θ en [0, 1], √ √ es m =0 2/3; as´ı que a2 = 1/ 5 y a1 = 2/ 5 y la ganancia esperada o´ptima es 5/3 ' 0 7453. Si se lleva a cabo la experimentaci´on, despu´es de observar el valor x ∈ [0, 1] de X, la densidad a posteriori de θ es Rx θπ(θ) dθ π(θ) π(θ|x) = R x , con E[θ|x] = R0 x π(θ) dθ π(θ) dθ 0 0

y hay que remplazar m por E[θ|x] para obtener el valor de las componentes a1 (x), a2 (x) de la regla de decisi´on Bayes frente a π. En cambio, cuando el valor observado verifique x ∈ [1, 2], se tiene R1 θπ(θ) dθ π(θ) π(θ|x) = R 1 y E[θ|x] = Rx−1 1 x−1 π(θ) dθ x−1 π(θ) dθ

es el valor por el que hay que reemplazar m para obtener, en este caso, las componentes de la regla de decisi´on Bayes. En concreto, para π(θ) = 2θ en [0, 1] resulta  2x/3 si x ∈ [0, 1] E[θ|x] = 2(x2 − x + 1)/3x si x ∈ [1, 2] de manera que, sustituyendo m por dichos valores, la regla de decisi´on Bayes es √  si x ∈ [0, 1] 2x/ 8x2 − 12x√+ 9 a1 (x) = 2(x2 − x + 1)/ 8x4 − 28x3 + 45x2 − 28x + 8 si x ∈ [1, 2], √  (3 − 2x)/ 8x2 − √ 12x + 9 si x ∈ [0, 1] a2 (x) = (−2x2 + 5x − 2)/ 8x4 − 28x3 + 45x2 − 28x + 8 si x ∈ [1, 2].

196

Soluci´ on de los ejercicios

Adem´as, seg´ un el valor de x, la ganancia esperada vale  √ 2 √8x − 12x + 9/3 rˆ(π|x) = 8x4 − 28x3 + 45x2 − 28x + 8/3x

si x ∈ [0, 1] si x ∈ [1, 2]

y la densidad marginal de X es f (x) =

( Rx 0

2θ dθ = x2

R1

x−1 2θ dθ

= x(2 − x)

para x ∈ [0, 1] para x ∈ [1, 2]

con lo cual (mediante integraci´ on num´erica) resulta rˆ(π) =

Z

2

Z

1

√ 8x2 − 12x + 9 2 x dx 3

rˆ(π|x)f (x) dx = 0 Z 2√ 4 3 8x − 28x + 45x2 − 28x + 8 + x(2 − x) dx ' 00 77417. 3x 1 0

Es inmediato que, para la distribuci´ on √ a priori causal en θ = 1/2, la regla de decisi´on Bayes se reduce a a ˜1 (x) = a ˜2 (x) =√1/ 2. Adem´as dicha regla de decisi´on es ecua˜ ) = 1/ 2. En consecuencia, seg´ lizadora, puesto que G(θ, a un la Proposici´on 3.12, se trata de la regla de decisi´on maximin considerada en el apartado anterior. Ejercicio 4.12 a) Cada regla de decisi´on d queda definida por las acciones: d(r1 ) = x, d(r2 ) = y, con x, y ∈ [0, 1], que se utilizan seg´ un cual sea el resultado del experimento. Las ganancias correspondientes a la regla de decisi´on d = (x, y) son G(θ1 , d) = 00 8x + 00 2y G(θ2 , d) = 00 2(1 − x2 ) + 00 8(1 − y 2 ) = 1 − 00 2x2 − 00 8y 2 . La regla de decisi´on d1 = (x1 , y1 ) est´ a dominada por aquellas reglas de decisi´on d = (x, y) que verifican 0

0

00 8x + 00 2y = G(θ1 , d1 ) 1

0

0 8x + 0 2y ≥ G(θ1 , d1 )

1 − 0 2x2 − 00 8y 2 ≥ G(θ2 , d1 ); es decir que son aquellas, dentro del cuadrado [0, 1]2 , situadas por encima de la recta 00 8x + 00 2y = G(θ1 , d1 ) y en el interior de la elipse 1 − 00 2x2 − 00 8y 2 = G(θ2 , d1 ), como indica la figura adjunta. Para que no haya reglas de decisi´on que dominen a d1 :

y

1 − 00 2x2 − 00 8y 2 = G(θ2 , d1 ) d1

0

0

x

1

Cap´ıtulo 4

197

la recta tiene que ser tangente a la elipse (con lo cual la regi´on marcada se reduce al vac´ıo). Dado que la recta tiene pendiente −4 y la tangente a la elipse en el punto (x, y) tiene pendiente y 0 = −x/4y, ello sucede cuando −

x1 = −4 4y1

es decir

x1 = 16y1 .

o, tambi´en, la regi´ on marcada puede estar fuera del cuadrado [0, 1]2 . As´ı ocurre cuando x1 = 1 y y1 ≥ 1/16. En definitiva, el conjunto de reglas de decisi´on admisibles es Rad = {(16y, y) | 0 ≤ y ≤ 1/16} ∪ {(1, y) | 1/16 ≤ y ≤ 1} que se ha marcado en azul sobre la figura. Para las primeras las ganancias son G(θ1 , (16y, y)) = 13y,

G(θ2 , (16y, y)) = 1 − 52y 2 ;

mientras que las segundas tienen ganancias asociadas G(θ1 , (1, y)) = 00 8 + 00 2y,

G(θ2 , (1, y)) = 00 8 − 00 8y 2 .

b) Frente a la distribuci´ on a priori π = (π, 1−π), la ganancia esperada con cualquier regla de decisi´on d = (x, y) es g(π, d) = π(00 8x + 00 2y) + (1 − π)(1 − 00 2x2 − 00 8y 2 ). Como funci´ on de x e y respectivamente, g es creciente mientras sea ∂g = 00 8π + (1 − π)(−00 4x) ≥ 0 ∂x ∂g = 00 2π + (1 − π)(−10 6y) ≥ 0 ∂y

⇔ ⇔

2π 1−π π y≤ 8(1 − π) x≤

Habida cuenta que x, y ≤ 1, la regla de decisi´on Bayes es    π 2π   si π ≤ 1/3 ,     1 − π 8(1 − π)  π d?π = si 1/3 ≤ π ≤ 8/9 1,    8(1 − π)   (1, 1) si π ≥ 8/9.

Alternativamente, sin experimentaci´on, la acci´on Bayes frente a π es  π/2(1 − π) si π ≤ 2/3 a?π = 1 si π ≥ 2/3; donde sustituyendo π por π(θ1 |r1 ) =

8π 6π + 2

y

π(θ1 |r2 ) =

2π , 8 − 6π

198

Soluci´ on de los ejercicios

vuelve a obtenerse la regla de decisi´on d?π . En cualquier caso, como ten´ıa que ocurrir, al variar π, d?π recorre el conjunto de reglas de decisi´on admisibles, desde (0, 0) hasta (1, 1/16) a lo largo de la recta x = 16y y, despu´es, desde (1, 1/16) hasta (1, 1). Sustituyendo en g(π, d) los valores hallados, resulta  29π 2 − 32π + 16   si π ≤ 1/3    16(1 − π) π 2 − 64π + 64 g(π, d?π ) = si 1/3 ≤ π ≤ 8/9    80(1 − π)   π si π ≥ 8/9.

p Se trata de una funci´ on continua que alcanza su m´ınimo en π ? = 1 − 13/29 ' √ 00 3305, donde vale ( 377 − 13)/8 ' 00 802. p p La distribuci´ on m´as desfavorable es pues (1 − 13/29, 13/29) ' (00 3305, 006695). Frente a ella la regla de decisi´on Bayes, que es a la vez la regla de decisi´on maximin, es p p x = 2( 29/13 − 1) ' 00 9871, y = ( 29/13 − 1)/8 ' 00 0617. Ejercicio 4.13 a) Hay 8 reglas de decisi´on no aleatorizadas, d1 , d2 , . . . , d8 , que especifican el tratamiento a emplear para cada resultado del an´alisis. Figuran en la tabla siguiente, junto con los riesgos que cada una produce, seg´ un la variedad de la enfermedad r1 d1 d2 d3 d4 d5 d6 d7 d8

t1 t1 t1 t1 t2 t2 t2 t2

r2 t1 t1 t2 t2 t1 t1 t2 t2

r3

A

B

min

t1 t2 t1 t2 t1 t2 t1 t2

0

0

00 3 00 54 00 4 00 52 00 35 00 42 00 45 00 4

06 00 54 00 58 00 52 00 48 00 42 00 46 00 4

03 00 65 00 4 00 75 00 35 00 7 00 45 00 8

Por ejemplo, los riesgos de la regla d2 son PA (r1 )00 6 + PA (r2 )00 6 + PA (r3 )00 4 = 00 6 · 00 6 + 00 1 · 00 6 + 00 3 · 00 4 = 00 54 PB (r1 )00 3 + PB (r2 )00 3 + PB (r3 )00 8 = 00 1 · 00 3 + 00 2 · 00 3 + 00 7 · 00 8 = 00 65. Se aprecia que las reglas d5 , d6 y d7 est´ an dominadas por d4 que produce mayores probabilidades de curaci´on sea cual sea la variedad de la enfermedad. La u ´ltima columna contiene el m´ınimo de ambas probabilidades de curaci´on y alcanza su m´aximo, 00 54, con la regla de decisi´on d2 : aplicar el tratamiento t1 , si el resultado del an´alisis es r1 o r2 , y el tratamiento t2 cuando el resultado es r3 . Se

Cap´ıtulo 4

199

trata de la regla de decisi´on maximin no aleatorizada, que asegura una probabilidad de curaci´on superior a 00 54, sea cual sea la variedad de la enfermedad. b) Calculando los riesgos Bayes frente a la distribuci´ on a priori πA = 3/5, πB = 2/5, se a˜ nade a la tabla anterior la columna

d1 d2 d3 d4 d5 d6 d7 d8

r1

r2

r3

A

B

r(d)

t1 t1 t1 t1 t2 t2 t2 t2

t1 t1 t2 t2 t1 t1 t2 t2

t1 t2 t1 t2 t1 t2 t1 t2

00 6 00 54 00 58 00 52 00 48 00 42 00 46 00 4

00 3 00 65 00 4 00 75 00 35 00 7 00 45 00 8

00 48 00 584 00 508 00 612 00 428 00 532 00 456 00 56

La regla de decisi´on d4 , consistente en aplicar el tratamiento t1 cuando se observa r1 y t2 cuando se observan r2 o r3 , consigue la m´axima probabilidad de curaci´on: el 610 2 % de los pacientes. c) Frente a una distribuci´ on a priori πA = π, πB = 1 − π arbitraria, los riesgos de cada regla de decisi´on figuran expresados en la u ´ltima columna de la tabla siguiente, en la que se han eliminado las filas de las reglas dominadas d5 , d6 y d7 : r1 d1 d2 d3 d4 d8

t1 t1 t1 t1 t2

r2 t1 t1 t2 t2 t2

r3

A

B

t1 t2 t1 t2 t2

0

0

06 00 54 00 58 00 52 00 4

03 00 65 00 4 00 75 00 8

r(d) 00 3 + 00 3π 00 65 − 00 11π 00 4 + 00 18π 00 75 − 00 23π 00 8 − 00 4π

Representando en funci´ on de π ∈ [0, 1] las rectas r(di ), se obtiene que la regla de decisi´on Bayes frente a (π, 1 − π) es  d8 si π ≤ 5/17    d4 si 5/17 ≤ π ≤ 5/6 d? (π) = d2 si 5/6 ≤ π ≤ 35/41    d1 si π ≥ 35/41 que proporciona, para cada     rˆ(π) =   

valor de π, la m´axima probabilidad de curaci´on 00 8 − 00 4π 00 75 − 023π 00 65 − 00 11π 00 3 + 00 3π

si si si si

π ≤ 5/17 5/17 ≤ π ≤ 5/6 5/6 ≤ π ≤ 35/41 π ≥ 35/41

200

Soluci´ on de los ejercicios

El m´ınimo de rˆ(π) corresponde a π = 35/41, donde r(d1 ) = r(d2 ) = 114/205 ' 00 5561. As´ı pues, la distribuci´ on m´as desfavorable de la enfermedad es πA = 35/41 y πB = 6/41, que s´olo permite asegurar una probabilidad de curaci´on del 550 61 %; empleando cualquiera de las reglas de decisi´on d1 o d2 . Hay un procedimiento alternativo, para llegar a la conclusi´ on anterior. En el supuesto de que πA = π, πB = 1 − π sea la distribuci´ on a priori, si no hay tiempo para realizar el an´alisis, el tratamiento ´optimo es  t2 con riesgo 00 8 − 00 4π si π ≤ 5/7 t? = t1 con riesgo 00 3 + 00 3π si π ≥ 5/7. Por otra parte, seg´ un el resultado del an´alisis, la probabilidad a posteriori de la variedad A es 6π π 00 6 = π + (1 − π) 00 1 1 + 5π π π 00 1 = π(A|r2 ) = 0 π 0 1 + (1 − π) 00 2 2−π π 00 3 3π π(A|r3 ) = = 0 π 0 3 + (1 − π) 00 7 7 − 4π

π(A|r1 ) =

00 6

Por consiguiente, t? (r1 ) = t? (r2 ) = t? (r3 ) =



t2 t1

si 6π/(1 + 5π) ≤ 5/7 en caso contrario,

t2 t1

si π/(2 − π) ≤ 5/7 en caso contrario,



t2 t1

si 3π/(7 − 4π) ≤ 5/7 en caso contrario,



o bien π ≤ 5/17 o bien π ≤ 5/6 o bien π ≤ 35/41

son las acciones ´ optimas para cada uno de los resultados posibles del experimento. Se trata de la misma regla de decisi´on d? (π), expresada de otra forma. La expresi´on de rˆ(π) se sigue ahora de los valores r(d) contenidos en la u ´ltima tabla, sin necesidad de hacer comparaciones entre ellos. d) Frente a la distribuci´ on a priori m´as desfavorable, π 0 = (35/41, 6/41), d1 y d2 son las reglas de decisi´on Bayes y producen ambas el riesgo 114/205. Por tanto, debe haber una regla de decisi´on aleatorizada, que elija d1 con probabilidad α y d2 con probabilidad 1 − α, cuyo riesgo alcance dicho valor, cualquiera que sea la variedad de la enfermedad que se presente. Es decir, debe ser simult´ aneamente α00 6 + (1 − α)00 54 = 114/205 α00 3 + (1 − α)00 65 = 114/205.

Cap´ıtulo 4

201

Efectivamente, α = 11/41 ' 00 2683 es soluci´on de ambas ecuaciones; de modo que la regla de decisi´on aleatorizada que elige d1 con probabilidad 11/41 y d2 con probabilidad 30/41, asegura una probabilidad de curaci´on 00 5561, cualquiera que sea la variedad de la enfermedad del paciente. Es ligeramente superior a la probabilidad 00 54 que se aseguraba mediante la regla de decisi´on d2 en el apartado (a). Ejercicio 4.14 a) El coste esperado del equipo es L(θ, a1 ) = 50 + 30θ

o

L(θ, a2 ) = 60,

seg´ un que el equipo se compre sin garant´ıa (a1 ) o garantizado (a2 ). Frente a cualquier distribuci´ on π para θ ∈ [0, 1], el riesgo Bayes de ambas acciones resulta r(π, a1 ) = 50 + 30Eπ [θ]

y

r(π, a2 ) = 60;

de modo que la acci´on Bayes es a?π =



a1 a2

si Eπ [θ] ≤ 1/3 si Eπ [θ] ≥ 1/3,

que s´olo depende de la media de π. Obviamente la acci´on minimax es a2 , puesto que m´axθ L(θ, a1 ) = 80 y m´axθ L(θ, a2 ) = 60. b) La funci´ on de verosimilitud de las observaciones xi = 1 o 0, seg´ un que el equipo i haya fallado o no, es fθ (x1 , . . . , xn ) = θs (1 − θ)n−s

donde s =

n X

xi

i=1

es un estad´ıstico suficiente. La distribuci´ on a posteriori de θ, en el supuesto de que π tenga densidad π(θ) en [0, 1], depende exclusivamente del valor de s y viene dada por π(θ) θs (1 − θ)n−s π(θ | s) = R 1 π(θ) θs (1 − θ)n−s dθ 0 de forma que la regla de decisi´on Bayes es  a1 si Eπ [θ | s] ≤ 1/3 d?π (s) = a2 si Eπ [θ | s] ≥ 1/3

donde Eπ [θ | s] es la media de la distribuci´ on a posteriori. Parece l´ogico y puede probarse formalmente que Eπ [θ | s] es una funci´ on creciente de s (3 ); por consiguiente, 3

Z

0

1

Ello equivale a que se cumpla Z 1 θ s−1 θ s π(θ)(1 − θ)n θ dθ dθ ≤ π(θ)(1 − θ)n 1−θ 1 − θ 0 Z 1 Z 1 θ s θ s−1 θ dθ dθ π(θ)(1 − θ)n π(θ)(1 − θ)n 1−θ 1−θ 0 0

202

Soluci´ on de los ejercicios

la regla de decisi´on d?π es de la forma  a1 d?π (s) = a2

si s ≤ sπ si s > sπ

donde sπ es el mayor valor de s para el cual Eπ [θ|s] ≤ 1/3 que, naturalmente depende de la densidad π(θ). c) Para la distribuci´ on a priori π0 causal en cualquier θ0 > 1/3, la distribuci´ on a posteriori es tambi´en causal en θ0 , cualquiera que se el valor observado de s. Por tanto, la regla de decisi´on Bayes frente a π 0 es d?0 (s) ≡ a2 . Adem´as, la p´erdida L(θ, d?0 ) = 60 es constante, independiente de θ. En consecuencia, la Proposici´on 3.11 o la Proposici´on 3.12 garantizan que d?0 ≡ a2 es la regla de decisi´on minimax (y cualquiera de las distribuciones π 0 indicadas es –entre otras muchas– la distribuci´ on menos favorable). d) Con la distribuci´ on a priori que asigna probabilidades π y 1 − π a θ = 00 1 y 0 θ = 0 5 respectivamente, la media a posteriori de θ es Eπ [θ | s] =

00 1 π 00 1s 00 9n−s + 00 5(1 − π)00 5n ; π 00 1s 00 9n−s + (1 − π)00 5n

de modo que Eπ [θ | s] ≤ 1/3 equivale a 9s ≤

00 7 π 00 9n (1 − π)00 5n+1

o bien s ≤

log(π/(1 − π)) + n(log 9 − log 5) + log 7 − log 5 . log 9

La regla de decisi´on Bayes es pues  a1 ? dπ (s) = a2

si s ≤ cn + bπ si s ≥ cn + bπ

π . donde c = 1 − log 5/ log 9 ' 00 2675 y bπ ' 00 1531 + 00 4551 log 1−π

e) Si n = 2 el n´ umero s de equipos que han fallado puede ser s = 0, 1, 2 con probabilidades lo cual, dividiendo por el cuadrado de la segunda integral, se expresa Z 1 Z 1 Z 1 1 − θ π(θ|s)(1 − θ) dθ ≤ π(θ|s)θ dθ π(θ|s) dθ θ 0 0 0 o bien 1−

Z

1

π(θ|s)θ dθ ≤ 0

Z

1

π(θ|s)θ dθ 0

que, tras simplificar, se reduce a la desigualdad Z 1 −1 Z π(θ|s)θ dθ ≤ 0

Z

1

π(θ|s) 0

1

π(θ|s) 0

 1 dθ − 1 θ

1 dθ, θ

garantizada por la desigualdad de Jensen puesto que f (θ) = 1/θ es una funci´ on convexa.

Cap´ıtulo 4

203 s=0 θ θ = 00 1 θ = 00 5

2

(1 − θ) 00 81 00 25

s=1

s=2

2θ(1 − θ) 00 18 00 5

θ2 00 01 00 25

En la siguiente tabla, cada regla de decisi´on aparece representada por un vector (ai , aj , ak ) (i, j, k = 1, 2) cuyas componentes indican la acci´on que se adopta seg´ un que sea s = 0, 1, 2. Las dos columnas siguientes contienen los riesgos para cada uno de los valores de θ, teniendo en cuenta que L(00 1, a1 ) = 53, L(00 5, a1 ) = 65 y L(00 1, a2 ) = L(00 5, a2 ) = 60.

d1 d2 d3 d4 d5 d6 d7 d8

= (a1 , a1 , a1 ) = (a1 , a1 , a2 ) = (a1 , a2 , a1 ) = (a2 , a1 , a1 ) = (a1 , a2 , a2 ) = (a2 , a1 , a2 ) = (a2 , a2 , a1 ) = (a2 , a2 , a2 )

R(θ = 00 1, d)

R(θ = 00 5, d)

53 53 · 00 99 + 60 · 00 01 = 530 07 53 · 00 82 + 60 · 00 18 = 540 26 53 · 00 19 + 60 · 00 81 = 580 67 53 · 00 81 + 60 · 00 19 = 540 33 53 · 00 18 + 60 · 00 82 = 580 74 53 · 00 01 + 60 · 00 99 = 590 93 60

65 65 · 00 75 + 60 · 00 25 = 630 75 65 · 00 5 + 60 · 00 5 = 620 5 65 · 00 75 + 60 · 00 25 = 630 75 65 · 00 25 + 60 · 00 75 = 610 25 65 · 00 5 + 60 · 00 5 = 620 5 65 · 00 25 + 60 · 00 75 = 610 25 60

65

x d1 x d2

x d4 x d3 x d5

60

55

xd ˆ 6 G

x d7 x d8

50

55

60

65

La figura representa los puntos asociados a cada regla de decisi´on, entre las cuales s´olo son admisibles d1 , d2 , d5 y d8 . Cada una de ellas es Bayes frente a ciertas distribuciones a priori π = (π, 1 − π). Concretamente, seg´ un la conclusi´ on obtenida en (c), lo es d1 si 2c + bπ ≥ 2 o sea π ≥ 00 947, d2 si 2 ≥ 2c + bπ ≥ 1 o sea 00 947 ≥ π ≥ 00 6649,

d5 si 1 ≥ 2c + bπ ≥ 0 o sea 00 6649 ≥ π ≥ 00 1806, d8 si 0 ≥ 2c + bπ o sea π ≤ 00 1806.

204

Soluci´ on de los ejercicios

Ejercicio 4.15 a) Con la acci´on a1 de suscribir la p´ oliza tiene una p´erdida segura de cK euros, pero en caso de robo la compa˜ n´ıa le reintegrar´ıa el valor K del objeto substra´ıdo. En cambio, la acci´on a0 de no realizar el seguro le puede producir una p´erdida K, con probabilidad θ, o ninguna con probabilidad 1 − θ. Es decir: L(θ, a1 ) = cK

y

L(θ, a0 ) = Kθ.

La acci´on de realizar el seguro es preferible cuando sea Kθ > cK

o bien

θ > c.

b) Frente a la distribuci´ on a priori de densidad π(θ), los riesgos Bayes de cada acci´on son Z 1 r(π, a0 ) = Kθπ(θ) dθ = KEπ [θ] y r(π, a1 ) = cK; 0

de modo que la acci´on Bayes es a?π

=



a1 a0

si Eπ [θ] ≥ c si Eπ [θ] ≤ c,

que s´olo depende de la media de π. c) Las reglas consideradas quedan caracterizadas por el valor p0 y el riesgo se expresa R(θ, dp0 ) = KθPθ {p ≤ p0 } + cKPθ {p > p0 } = cK + K(θ − c)Pθ {p ≤ p0 }. Adem´as, np tiene distribuci´ p on binomial(n, θ); o bien, como n es grande, p es muy aproximadamente N (θ, θ(1 − θ)/n). Por consiguiente, √  n(p0 − θ) p R(θ, dp0 ) = cK + K(θ − c) φ θ(1 − θ)

donde φ es la funci´ on de distribuci´ on de la N (0, 1). En cualquier caso, Pθ {p ≤ p0 } es creciente con p0 ; es decir Pθ {p ≤ p0 } ≤ Pθ {p ≤ p1 }

si p0 < p1 .

Al multiplicar por θ − c resulta R(θ, dp0 ) ≤ R(θ, dp1 ) R(θ, dp0 ) ≥ R(θ, dp1 )

si θ − c > 0 si θ − c < 0;

luego, ni dp0 domina a dp1 , ni dp1 domina a dp0 .

Cap´ıtulo 4

205

d) Seg´ un el resultado de (b), la regla Bayes frente a π es  a1 si Eπ [θ|p] ≥ c d?π (p) = a0 si Eπ [θ|p] ≤ c; pero, como se prob´ o en el ejercicio anterior, Eπ [θ|p] es una funci´ on creciente de p (= s/n). Luego,  a1 si p > p0 ? dπ (p) = a0 si p ≤ p0 , donde p0 es el mayor valor para el que se cumple Eπ [θ|p0 ] ≤ c. En el caso en que sea Eπ [θ|p0 ] = c, la regla Bayes no es u ´nica pues, si bien es forzoso elegir a0 para p < p0 y a1 para p > p0 , para p = p0 puede elegirse indistintamente entre a0 y a1 , o bien sortear entre ambas con probabilidades arbitrarias. Supuesto que la distribuci´ on a priori es uniforme en [0, 1], como np tienen distribuci´on binomial (n, θ), la distribuci´ on a posteriori es π(θ| p) = R 1 0

θnp (1 − θ)n(1−p)

θnp (1 − θ)n(1−p) dθ

con lo cual la media a posteriori es R1

θnp+1 (1 − θ)n(1−p) dθ np + 1 β(np + 2, n(1 − p) + 1) = = E[θ| p] = 0R 1 np n(1−p) β(np + 1, n(1 − p) + 1) n+2 dθ 0 θ (1 − θ)

y resulta p0 = c + (2c − 1)/n

e) El problema de decisi´on tiene ahora como espacio de acciones A = [0, K], correspondiente a todas las cantidades por las que puede realizar el seguro. La acci´on a ∈ A tiene asociada una p´erdida L(θ, a) = ca + θ(K − a) puesto que ha de pagar la prima ca y, en caso de robo, perder´ a el valor K y recuperar´ a la cantidad a. Frente a cualquier distribuci´ on para θ ∈ [0, 1], de densidad π(θ), el riesgo Bayes de la acci´on a ser´a Z 1 π(θ)[ca + θ(K − a)] dθ = a(c − Eπ [θ]) + KEπ [θ]. r(π, a) = 0

Si c > Eπ [θ], el m´ınimo riesgo Bayes se alcanza con a = 0 y vale KEπ [θ]. Para c = Eπ [θ], todas las acciones tienen riesgo Bayes KEπ [θ]. Y, si c < Eπ [θ], el m´ınimo riesgo Bayes corresponde a a = K. Por tanto, la acci´on Bayes frente a π es  0 si c ≥ Eπ [θ] a?π = K si c ≤ Eπ [θ],

206

Soluci´ on de los ejercicios

que coincide con la acci´on Bayes hallada en (b). Ejercicio 4.16 a) Si π, 1 − π son las probabilidades a priori de θ = 1 y θ = 2 respectivamente, sin experimentaci´on, los beneficios esperados adoptando cada conclusi´ on son: r(π, a1 ) = 8π − 6(1 − π) = 14π − 6

r(π, a2 ) = −6π + 8(1 − π) = 8 − 14π r(π, a3 ) = 2. Por tanto, la decisi´on que produce mayor beneficio esperado es    8 − 14π si π ≤ 3/7  a2 si π ≤ 3/7 2 si 3/7 ≤ π ≤ 4/7 a3 si 3/7 ≤ π ≤ 4/7 con rˆ0 (π) = a?π =   14π − 6 si π ≥ 4/7 a1 si π ≥ 4/7

como beneficio ´ optimo para cada π. En particular, con π = 00 6, es rˆ0 (00 6) = 20 4. Tras realizar el experimento, si se observa el resultado x ∈ [1, 2], las probabilidades a posteriori son π(θ = 1 | x) =

00 6[1

00 6[1 − (x − 1)2 ] 3x(x − 2) = 2 2 0 2 − (x − 1) ] + 0 4[1 − (x − 2) ] 5x − 14x + 6

y π(θ = 2 | x) = 1 − π(θ = 1 | x). En x ∈ [0, 1] y π(θ = 1 | x) = 0 si x ∈ [2, 3].  3x(x − 2) ≥ 4/7 2 ≤ 3/7 5x − 14x + 6

cambio, desde luego, π(θ = 1 | x) = 1 si Dado que √ para x ≤ √73 − 7 ' 10 544 para x ≥ 3 ' 10 732

la regla de decisi´on ´ optima es   a1 d? (x) = a  3 a2

√ si 0√≤ x ≤ 73 − √ 7 si √73 − 7 ≤ x ≤ 3 si 3 ≤ x ≤ 3.

Adem´as, llamando F1 (x) = x2 (3 − x)/4 para x ∈ [0, 2] y F2 (x) = 1 − (x3 − 6x + 9)/4 para x ∈ [1, 3] a las funciones de distribuci´ on de la observaci´ on cuando θ = 1 y θ = 2 respectivamente, ser´a √ √ Pθ=1 {x ≤ 73 − 7} = F1 ( 73 − 7) ' 00 8678, √ √ Pθ=1 {x ≥ 3} = 1 − F1 ( 3) ' 00 049, √ √ Pθ=2 {x ≤ 73 − 7} = F2 ( 73 − 7) ' 00 1817 √ √ Pθ=2 {x ≥ 3} = 1 − F2 ( 3) ' 00 6962, con lo cual los riesgos de la regla de decisi´on d? resultan R(θ = 1, d? ) = 8 · 00 8678 − 6 · 00 049 + 2 · 00 0832 = 60 8142 R(θ = 2, d? ) = −6 · 00 1817 + 8 · 00 6962 + 2 · 00 1221 = 40 7233

Cap´ıtulo 4

207

y el riesgo esperado vale rˆ(00 6) = 00 6 · 60 8142 + 00 4 · 40 7233 = 50 9778, con una mejora de 30 5778 respecto al riesgo sin experimentaci´on. El c´ alculo puede tambi´en hacerse observando que πx = π(θ = 1 | x) vale  1  

3x(x − 2) πx =  5x2 − 14x + 6  0

y, por tanto,

si x ≤ 1 si x ∈ [1, 2]

si x ≥ 2

 8     −6 + 14 · 3x(x − 2)/(5x2 − 14x + 6)  rˆ0 (πx ) = 2    8 − 14 · 3x(x − 2)/(5x2 − 14x + 6)   8

si si si si si

x≤1 √ 1 ≤ x ≤ 73 − √ 7 √ √73 − 7 ≤ x ≤ 3 3≤x≤2 x ≥ 2.

Entonces

rˆ(00 6) =

Z

+

Z

+ +

8[00 6f1 (x)] dx

0 √ 73−7

1

+

1

Z

√ 3

√ 73−7 Z 2  √ 3 3

Z

2



42x(x − 2) −6+ 2 5x − 14x + 6



[00 6f1 (x) + 00 4f2 (x)] dx

 2[00 6f1 (x) + 00 4f2 (x) dx

8−

  42x(x − 2) [00 6f1 (x) + 00 4f2 (x) dx 2 5x − 14x + 6

8[00 4f2 (x)] dx ' 50 9778.

b) Al variar la distribuci´ on a priori, las reglas de decisi´on Bayes son de la forma   a1 si 0 ≤ x ≤ x1 a3 si x1 ≤ x ≤ x2 d? (x) =  a2 si x2 ≤ x ≤ 3.

con x1 < x2 ∈ [1, 2], cuyos riesgos son

R(θ = 1, d? ) = 8F1 (x1 ) − 6[1 − F1 (x2 )] + 2[F1 (x2 ) − F1 (x1 )] R(θ = 2, d? ) = −6F2 (x1 ) + 8[1 − F2 (x2 )] + 2[F2 (x2 ) − F2 (x1 )].

208

Soluci´ on de los ejercicios

Queda entonces R(θ = 1, d? ) = −3x31 /2 + 9x21 /2 − 2x32 + 6x22 − 6,

R(θ = 2, d? ) = 2x31 − 12x21 + 18x1 + 3x32 /2 − 9x22 + 27x2 /2 − 6. Para igualar ambos riesgos, basta tomar x1 = 3/2 − c y x2 = 3/2 + c, sim´etricos respecto a 3/2, resultando entonces R(θ = 1, d? ) = R(θ = 2, d? ) = −c3 /2 − 21c2 /4 + 9c/8 + 93/16 √ √ 41 ' 50 872 para c = 13 − 7/2 ' 00 1055; o que alcanza el m´ aximo valor 13 13 − √ √ sea con x1 = 5 − 13 ' 10 3944 y x2 = 13 − 2 ' 10 6055. Dicha estrategia maximin es Bayes frente a la distribuci´ on a priori π = 00 5. Ejercicio 4.17 a) La verosimilitud de la muestra x = (x1 , . . . , xn ), con xi = 1 o 0 seg´ un que la i-´esima pieza sea o no defectuosa es fθ (x1 , . . . , xn ) = θs (1 − θ)n−s

con s =

n X

xi .

i=1

Por otro lado, la distribuci´ on a priori tiene densidad en (0, 1) π(θ) =

θp−1 (1 − θ)q−1 β(p, q)

donde p, q > 1.

La distribuci´ on a posteriori es entonces π(θ | x) = R 1 0

θp−1 (1 − θ)q−1 θs (1 − θ)n−s

θp−1 (1 − θ)q−1 θs (1 − θ)n−s dθ

=

θp+s−1 (1 − θ)n+q−s−1 β(p + s, n + q − s)

frente a la cual el riesgo Bayes de la acci´on a es 1 (θ − a)2 θp+s−1 (1 − θ)n+q−s−1 r(π(θ | x), a) = K dθ β(p + s, n + q − s) 0 θ(1 − θ)   n+p+q−1 p+s 2 (n + p + q − 1)(n + p + q − 2) =K a . − 2a + (p + s − 1)(n + q − s − 1) n+q−s−1 n+q−s−1

Z

El m´ınimo se alcanza en a=

p+s−1 n+p+q−2

donde vale

rˆ(π(θ | x)) =

Por tanto, la regla de decisi´on Bayes es Pn xi + p − 1 d? (x) = i=1 n+p+q−2

K . n+p+q−2

Cap´ıtulo 4

209

y el m´ınimo riesgo Bayes no depende de las observaciones obtenidas. b) El tama˜ no muestral ´ optimo es el valor de n en que se alcance el m´ınimo del riesgo m´as el coste: K + nc. n+p+q−2 La derivada con respecto a n es K (n + p + q − 2)2 p y s´olo se anula para n? = 2 − p − q + K/c. Supuesto que n? > 0, el tama˜ no muestral ´ optimo puede ser el entero anterior o siguiente a n? . Por ejemplo, con K = 100 y c = 00 25, resulta n? = 22 − p − q. c−

Ejercicio 4.18 a) La verosimilitud de la muestra es fθ (x1 , . . . , xn ) =

P 2 1 −1/2σ2 x i=1 (xi −θ) e (2πσ 2 )n/2

mientras que la distribuci´ on a priori de θ tiene densidad 2 1 π(θ) = √ e−θ /2 ; 2π

de modo que la densidad a posteriori es 2

2

Px

2

e−θ /2 e−1/2σ i=1 (xi −θ) P . 2 −θ 2 /2 e−1/2σ2 x i=1 (xi −θ) dθ IR e

π(θ | x) = R

El denominador es una constante que no depende de θ; por su parte, el exponente del numerador vale   n n n + σ2 2 2θ X 1 X 2 − θ − xi + x 2σ 2 n + σ 2 i=1 n + σ 2 i=1 i 2  2   n X n n 1 1 X 1 X 2 n + σ2 x − xi θ− xi − 2 =− 2σ 2 n + σ 2 i=1 2σ i=1 i n + σ 2 i=1 donde el u ´ltimo sumando es una constante (no depende de θ). Luego, la distribuci´ on a posteriori es   n σ 1 X √ . x , N i n + σ 2 i=1 n + σ2 Puesto que la funci´ on de p´erdida es cuadr´atica, el estimador Bayes es la media a posteriori n 1 X d? (x) = xi n + σ 2 i=1

210

Soluci´ on de los ejercicios

y el m´ınimo riesgo Bayes coincide con la varianza, independiente de la muestra, rˆ(π) =

σ2 . n + σ2

b) La suma del riesgo m´as el coste de observaci´ on de una muestra de tama˜ no n es σ2 + cn, n + σ2 cuya derivada respecto a n: c−

σ2 (n + σ 2 )2

√ √ es positiva si n > σ/ c − σ 2 . Luego no conviene hacer observaciones si σ/ c − σ 2 es negativo y, en caso contrario, el tama˜ no muestral ´optimo puede ser el entero √ anterior o siguiente a σ/ c − σ 2 . Pn c) A la vista de la distribuci´ on a posteriori de θ, cuando se conoce i=1 xi , se verifica Pn   θ − i=1 xi /(n + σ 2 ) 0 0 √ P − 1 96 ≤ ≤ 1 96 = 00 95 σ/ n + σ 2 luego

 Pn

Pn  xi xi σ σ 0 0 i=1 − 1 96 √ + 1 96 √ , n + σ2 n + σ2 n + σ2 n + σ2 i=1

es el intervalo de confianza Bayesiano para θ de nivel de confianza 00 95. Ejercicio 4.19 a) La verosimilitud de la muestra es fθ (x1 , . . . , xn ) = θ−n I{x(n) ≤θ} donde x(n) es la mayor observaci´ on en la muestra. La distribuci´ on a priori de θ tiene densidad: 1 π(θ) = I{0≤θ≤l} . l Por tanto, la densidad de la distribuci´ on a posteriori de θ es π(θ | x) =

θ−n I{x(n) ≤θ≤l} (n − 1)θ−n = −n+1 I{x(n) ≤θ≤l} . Rl −n dθ x(n) − l−n+1 x(n) θ

Con p´erdida cuadr´atica el estimador Bayes es la media a posteriori d? (x) =

n−1 −n+1 x(n) − l−n+1

Z

l

xn

θ−n+1 dθ =

−n+2 −n+2 n − 1 x(n) − l −n+1 n − 2 x(n) − l−n+1

Cap´ıtulo 4

211

que es funci´ on del estad´ıstico suficiente x(n) que var´ıa en (0, l). Una vez observada la muestra, el riesgo es la varianza a posteriori rˆ(π|x) =

−n+2 −n+3 −n+2 2 −n+3 ) (n − 1)2 (x(n) − l n − 1 x(n) − l − . −n+1 −n+1 2 −n+1 −n+1 n − 3 x(n) − l (n − 2) (x(n) − l )2

que, para cada l fijo, es una funci´ on de x(n) que decrece a medida que n aumenta. b) En funci´ on de λ la verosimilitud de la muestra es fλ (x1 , . . . , xn ) = λn I{x(n) ≤1/λ} . Por otra parte, la distribuci´ on uniforme en (0, l) de θ equivale a la distribuci´ on de λ con densidad 1 π(λ) = 2 I{λ≥1/l} ; lλ con lo cual la distribuci´ on a posteriori de λ resulta π(λ | x) =

λn−2 I{1/l≤λ≤1/x(n) } (n − 1)λn−2 = −n+1 I{1/l≤λ≤1/x(n) } . R 1/x(n) x(n) − l−n+1 λn−2 dλ 1/l

El estimador Bayes de λ es la media de la distribuci´ on a posteriori Z 1/x(n) −n x−n n−1 n−1 (n) − l n−1 λ dλ = d? (x) = −n+1 −n+1 n x(n) x(n) − l−n+1 1/l − l−n+1

que claramente no es el inverso del estimador Bayes obtenido en (a). Su riesgo a posteriori es −n−1 −n 2 −n−1 (x−n ) (n − 1)2 n − 1 x(n) − l (n) − l − . rˆ(π|x) = −n+1 −n+1 2 n + 1 x(n) − l−n+1 n (x(n) − l−n+1 )2

Ejercicio 4.20 a) La funci´ on de verosimilitud de la muestra x = (x1 , . . . , xn ) es 2n x1 · · · xn I{x(n) ≤θ} I{x(1) ≥0} θ2n donde x(1) = m´ın xi y x(n) = m´ax xi . Por tanto, en el supuesto de que x(1) ≥ 0, la distribuci´ on a posteriori de θ cuando se observa la muestra x resulta fθ (x) =

π(θ|x) =

(2n + 3) x ˆ2n+3 2n x1 · · · xn /θ2n+4 I{θ≥m´ax(1,x(n) )} (n) R∞ = I{θ≥ˆx(n) } θ2n+4 2n x1 · · · xn m´ax(1,x(n) ) θ−2n−4 dθ

donde xˆ(n) = m´ax(1, x(n) ). Se trata de una densidad concentrada en el intervalo [ˆ x(n) , ∞) y decreciente en dicho intervalo. Por consiguiente, el intervalo de confianza para θ, m´as corto posible ser´a de la forma [ˆ x(n) , c], donde c > x ˆ(n) debe cumplir 00 1 = (2n + 3)ˆ x2n+3 (n)

Z

c



θ−2n−4 dθ =

x ˆ2n+1 (n) c2n+3

;

212

Soluci´ on de los ejercicios

por tanto, c = xˆ(n) 101/(2n+3) . Por ejemplo, para n = 6, el intervalo de confianza es [ˆ x(n) , xˆ(n) 10 166]. b) En el caso de la p´erdida L(θ, a) = (θ − a)2 , el estimador Bayes es E[θ|x] =

2n + 3 xˆ(n) . 2n + 2

Observada la muestra x, la p´erdida esperada es la varianza de la distribuci´ on a posteriori σ 2 (θ|x) =

2n + 3 (2n + 3)2 2 2n + 3 2 x ˆ(n) = xˆ2 . x ˆ(n) − 2 2n + 1 (2n + 2) (2n + 1)(2n + 2)2 (n)

Como Fθ (x) = x2 /θ2 en [0, θ], la distribuci´ on de x(n) = m´ax xi dado θ es Pθ {x(n) ≤ x} =

x2n θ2n

para x ∈ [0, θ],

de densidad gθ (x) = 2nx2n−1 θ−2n en [0, θ]. Por consiguiente, la densidad marginal de x(n) resulta Z ∞  6n  x2n−1 si x ≤ 1,  6nx2n−1 θ−2n−4 dθ = 2n + 3 1 Z g(x) = ∞ 6n   6nx2n−1 x−4 si x > 1; θ−2n−4 dθ = 2n +3 x

con lo cual x ˆ(n) = m´ax(1, xn ) tiene la misma densidad en (1, ∞), m´as un salto en 1 de probabilidad 3/(2n + 3). En definitiva, el riesgo a priori de la regla de decisi´on E[θ|x] es Z ∞ 3 6n 3 rˆ(π) = + . x−2 dx = (2n + 1)(2n + 2)2 (2n + 1)(2n + 2)2 1 (2n + 2)2

Con la p´erdida L(θ, a) = |θ − a|, el estimador Bayes es la mediana de la distribuci´ on a posteriori, cuya funci´ on de distribuci´ on es 1 − (x/θ)2n+3 . Por consiguiente, M [θ|x] = 21/(2n+3) x ˆ(n) . Su riesgo a posteriori queda rˆ(π|x) =

Z



x ˆ(n)

2n+3

θ − 21/(2n+3) x(n) ˆ

 = (2n + 3)

x(n) 2 (2n + 3)ˆ θ2n+4



21/(2n+3) 22/(2n+3)) 1 − + 2n + 1 n+1 2n + 3



x ˆ2(n) .

E, integrando respecto a la distribuci´ on de x ˆ(n) , el riesgo a priori resulta   1 21/(2n+3) 22/(2n+3)) rˆ(π) = 3(2n + 1) − + 2n + 1 n+1 2n + 3

Cap´ıtulo 4

213

En el caso de la p´erdida L(θ, a) = (θ2 −a2 )2 = a4 −2a2 θ2 +θ4 , frente a la distribuci´ on a priori π el riesgo de la acci´on a: r(π, a) = a4 − 2a2 Eπ [θ2 ] + Eπ [θ4 ] alcanza su m´ınimo en a? = Eπ [θ2 ]1/2 . Por tanto, la regla de decisi´on Bayes es d? (x) = Eπ [θ2 |x]1/2 . Con la distribuci´ on a posteriori hallada, resulta r 2n + 3 ? x ˆ(n) d (x) = 2n + 1 cuyo riesgo a posteriori rˆ(π|x) =

p  2n + 3 2n + 2 − (2n + 1)(2n + 3) xˆ2(n) , (n + 1)(2n + 1)

proporciona como riesgo a priori rˆ(π) =

p  3 2n + 2 − (2n + 1)(2n + 3) n+1

c) Considerando θ0 = 6 (π0 = 7/8, a = 9) y θ1 = 4 (π1 = 1/8, b = 3), el test Bayes decide aceptar θ = 6 cuando sea π1 bfθ1 (x) =

1 2n x1 · · · xn 7 2n x1 · · · xn (x) = 2 I < π af 9 I{x(n) ≤6} 0 θ {x ≤4} 0 (n) 8 42n 8 62n

es decir

2 I{x(n) ≤4} < 42n La desigualdad se cumple, por supuesto, verifica siempre en caso de ser  2n 2 2 o sea < 63 3

63 I{x(n) ≤6} . 62n cuando 4 < x(n) ≤ 6; pero tambi´en se n