JUGANDO CON LA TEORÍA DE JUEGOS (ll)

Disponible en formato PDF

 

Ricardo Miró

Consejo de la Magistratura de la Nación

Área de procesamiento de Datos

rmiro@sion.com

 

 

Juegos con información imperfecta: suma cero y 2-uplas de equilibrio.

 

El análisis de un árbol de juego es útil siempre que su orden sea  pequeño, tal como sucede en el caso anteriormente estudiado de los seis fósforos. Al respecto, recuérdese que las estrategias se definen sobre los árboles y son por su propia naturaleza   finitos conjuntos de finitas flechas. Así,  en un juego dado, cada jugador  tiene a su disposición, un conjunto finito de estrategias, que por lo tanto se pueden numerar e individualizar sin ambigüedad. Por ejemplo, el conjunto

 

 

 

designa a una estrategia determinada en donde  con la variable entera natural , sin ambigüedad, se distinguen las   flechas que constituyen una estrategia elegida., entre todas las estrategias diferentes a disposición del jugador . Obsérvese, de paso, que la expresión  señala que la cantidad de estrategias disponibles en el juego para cada jugador es una cantidad variable, que depende precisamente de cada jugador. Con respecto a los árboles correspondientes al ajedrez,  bridge o  póquer, debe reiterarse que su estructura es abrumadoramente compleja, de tal manera que el estudio exhaustivo  de los mismos es prácticamente imposible. Se dice que el enunciado explícito de  las reglas J1 a J5 , más el árbol correspondiente, define un juego de acuerdo con la  forma  extensiva.

La teoría existente tiene otra manera  de definir juegos, que es analíticamente más útil que la forma extensiva, y consiste en la siguiente idealización, denominada  forma normal:

 

 

 El conjunto de partidas posibles para cualquier juego como  los estudiados por la teoría es finito, y queda numerado por la variable natural . Cada  jugador , ,  define de antemano todas las la opciones posibles  elegidas frente a  cada una de las opciones  correspondientes  al alcance de sus rivales. Cuanto esta tarea está concluida,  un árbitro oficial asigna a cada jugador   la utilidad obtenida , gestada por  la partida número .

 

 

Obsérvese que mediante la definición normal desaparece la exigencia de información perfecta y aparece la idea de incertidumbre e información imperfecta en cada jugada., una por vez para cada jugador. Se  introduce explícitamente  la función de utilidad , que fija los premios y castigos del juego para el jugador . Este enfoque permite acercarse de manera más fidedigna a las situaciones de conflicto observadas en la vida real, y permite obtener resultados útiles para los llamados juegos de dos personas de suma cero

Dicho con precisión, un juego entre dos personas o entidades cualesquiera es de suma cero cuando los logros o ganancias de un jugador se originan exactamente  en las pérdidas o cesiones que debe afrontar el otro jugador. Por ejemplo,  la cobranza negociada de una deuda, o una acción bélica limitada entre dos entidades armadas, se describen de manera muy aceptable como juegos de suma cero, tal como se verá a continuación.

 

Cobro negociado de un anticipo:  El jugador llamado A acuerda la venta de un determinado bien con el jugador B por una cierta suma de dinero, (cuyo valor total no interesa especificar), y negocia con él el monto del anticipo.  El deudor B analiza sus posibilidades financieras  y determina con todo cuidado 4 estrategias diferentes de formalizar el pago del anticipo acordado. A, el acreedor,  estudia también sus propios intereses financieros, y determina a su vez 5 estrategias de efectuar el cobro. La situación se puede explicitar utilizando una tabla o matriz de  5 x 4 (5 filas por cuatro columnas). Las filas corresponden a las estrategias de cobro y las columnas a las estrategias de pago. La situación que será analizada esta definida así

:

 

b1

b2

b3

b4

 

a1

18

3

0

2

 

a2

0

3

8

20

 

a3

5

4

5

5

 

a4

16

4

2

25

 

a5

9

3

0

20

 

 

Fig.5 : matriz del juego del anticipo

 

La tabla anterior se interpreta de manera obvia. Cada columna vertical constituye una de las 4 estrategias de pago elaboradas por B para el anticipo en cuestión. Como ejemplo, la columna b3 está constituida por los siguientes valores de la función de utilidad asociada: 0, 8, 5, 2, 0. Similarmente, cada fila horizontal detalla alguna de las 5 estrategias de cobro preparada por A. Por ejemplo, los valores de la función de utilidad para la fila  a4 son: 16, 4. 2, 25.  Se analizará a continuación el efecto del juego desde el punto de vista de cada uno de los jugadores.

Si el vendedor A es el que comienza a estudiar sus estrategias de cobro,  ¿Cuál será la  más conveniente para sus intereses?  Ante las diversas estrategias imaginadas por A, será natural que B elija aquella que implique la menor erogación por su parte, tal como  lo indica la tabla siguiente, construida a  partir de la matriz de juego de la figura 1:

 

 

Estrategias

 

 

 

 

 

 

     propuestas por A

 

 

 

 

 

a1

a2

a3

a4

a5

 

 

 

 

 Elección de B

0

0

4

2

0

  Niveles de seguridad para A

 

Cada uno de los valores que B elegiría naturalmente sobre las estrategias de cobro disponible, constituye los niveles de seguridad de las estrategias de A, señalados en la tabla anterior. Queda entonces definida la función nivel de seguridad para A, que indica los valores posibles de cobro C(k) para todas estrategias de pago k a disposición de B,  La citada función nivel de seguridad  es de tipo discreto y se puede graficar de manera discreta según lo expresa el gráfico siguiente:

 

Fig. 6: función de niveles de seguridad para  A

 

Se observa que la estrategia a3 proporciona el máximo nivel de seguridad para A, es decir: maximiza dicho nivel. Este es el criterio básico que ofrece la teoría para sugerir al vendedor  A su mejor elección para una estrategia de cobro, que será la estrategia a3..

En definitiva lo que realiza  A, teniendo a la vista los valores  de la matriz del juego de la figura 5, es proponer  el siguiente valor de cobro :     

 

 = 4   (estrategia maximin)

 

            Si ahora es B el que estudia las consecuencias asociadas con sus estrategias de pago, será natural aceptar en este caso que el vendedor A elegirá los máximos valores de cada una de las mismas, tal como lo indica la tabla siguiente, seguida por la función discreta de cobro C(k)

 

 

Estrategias

 

 

 

 

 

propuestas por B

 

 

 

 

b1

b2

b3

b4

 

 

 

Elección de A

18

4

8

25

Niveles de seguridad para B

 

Cada una de las elecciones de A define los niveles de seguridad para B asociados con la estrategia respectiva.

Aquí también se observa que B posee una estrategia, b2,  que  le permite pagar lo menos posible. Se entiende que esta conducta es la primariamente natural en B, para la cual el juego está diseñado La tabla anterior define entonces una función discreta de pago, notada ahora consecuentemente como P(k), definida sobre las estrategias de B, y cuyas imágenes son ahora los niveles de seguridad de B.

El gráfico siguiente señala la función P(k):

 

 

      Fig. 7: función de niveles de seguridad para B

 

Luego, al tener también a la vista la función discreta P(j), el comprador B propondrá naturalmente el siguiente valor de pago P:

 

 =   4    (estrategia minimax)

 

Se observa, finalmente que los valores C y P calculados sobre la matriz de juego  coinciden. En estas condiciones, es decir cuando

 

P = Q,

 

se dice que el par ordenado de estrategias  (a3, b2forman una 2-upla de equilibrio.

 

ii) Análisis de un  juego de guerra previo a un combate real. El concepto de 2-upla de equilibrio surge naturalmente en la descripción de algunos enfrentamientos armados de carácter restringido [8], [9].  

Un trabajo realizado por O. G. Haywood[1] analiza los dos criterios de decisión válidos mediante las cuales un jefe militar puede encarar las consideraciones  previas a las  acciones de un combate inminente.

             En la primera de ellas, el jefe selecciona el curso de las acciones estimando lo que el enemigo es capaz de realizar. En la segunda, la selección se realiza sobre la estimación de lo que el enemigo intentará realizar. Como ejemplo de estas opciones, las fuerzas armadas de los Estados Unidos propician primariamente la toma de  decisiones basadas  en la  capacidad de las fuerzas enemigas y no en las  posibles intenciones de éstas. Al respecto, se analizará aquí un episodio de la Segunda Guerra Mundial,  conocido en la literatura como Batalla del Mar de Bismarck. Un mapa donde transcurrieron las acciones que se analizarán a continuación se ofrece en la figura 8.

 A fines de 1942, cuando el clima bélico en el Pacífico Oriental estaban ingresando en uno de sus picos más altos, los informes de inteligencia aliados señalaron que las fuerzas japonesas embarcarían un grueso contingente de infantería, zarpando en conjunto con varias naves de transporte de  combustible en el puerto de Rabaul. Esta plaza está ubicada al norte de la isla de Nueva Bretaña, y el destino detectado por los informes daba por seguro al puerto de Lae,  localizado en una pequeña península de la isla de Nueva Guinea, que separa el Mar de Bismarck del Mar de Salomón, tal como se observa en la figura 8.

 

 

Fig.8. Ámbito geográfico de la Batalla del Mar de Bismarck

 

El estado mayor de las fuerzas imperiales, al mando del veterano contralmirante Kimura Masatomi [9], analizó las dos rutas disponibles para llegar a destino, tal como se puede observar en la figura 8 Una de ellas, caracterizada por su clima lluvioso, atraviesa el mar de Bismarck bordeando el litoral marítimo norte de Nueva Bretaña. La otra ruta atraviesa el mar de Salomón, y posee en general buenas condiciones meteorológicas. En cualquiera de los dos casos la travesía duraría alrededor de tres días.

El general norteamericano George Kenney, al estudiar el escenario descrito, reparó en las dos elecciones que ofrecía la situación. Ambas implicaban concentrar sus aviones de reconocimiento sobre una ruta o la otra. Una vez avistado, el convoy podría ser bombardeado antes de su llegada a Lae. En unidades dadas por días de bombardeo, el estado mayor del general norteamericano elaboró la siguiente matriz para el inminente enfrentamiento:

 

 

 

 

Estrategias de Masatomi

 

 

 

ruta norte

ruta sur

Estrategias

de Kenney

ruta norte

2

2

 

 

ruta sur

1

3



 

 

 

 

Aplicando los criterios minimax y maximin, se puede ver fácilmente que existe un par de estrategias que conforman una 2-upla de equilibrio: (ruta norte; ruta norte), con un costo medio estimado de 2 (dos) días de bombardeo. Los aviones de reconocimiento norteamericanos y australianos participantes en el evento, avistaron el convoy en la madrugada del 1 de marzo de 1943, unas horas después de que hubiera abandonado el puerto de Rabaul. 

 La batalla desatada en consecuencia sentó doctrina para luchas de este tipo, desaconsejando totalmente periplos marítimos como el comentado, al alcance cercano de la aviación hostil. En efecto, el resultado fue completamente adverso para las fuerzas japonesas. A pesar de esto - observa Haywood en su artículo-,  no puede afirmarse que la elección del contralmirante Masatomi haya sido errónea. La elección de la ruta norte fue correcta, en el sentido teórico  proporcionado por la teoría de juegos. Es decir, como mínimo, fue tan buena como la estrategia provista por la ruta sur, al enfrentarla contra cualquiera de las elecciones a disposición del general Kenney.

 

 

Estrategias mixtas y el teorema minimax.

 

      Se desea recalcar que un juego de suma cero no tiene por qué tener necesariamente una 2-upla de equilibrio, tal como queda ilustrado por el juego que posee la siguiente matriz de utilidades:

 

b1

b2

A1

3

1

A2

2

4

 

En efecto, como se puede observar fácilmente, el juego anterior no tiene una 2-úpla de equilibrio. En realidad, tal circunstancia se cumple estrictamente si se consideran solo las estrategias dadas de manera explícita. Como en la elección de cada una de ellas no interviene el azar, se las llama  estrategias puras.

Para facilitar el análisis de este apartado, se sugiere seguir utilizando la interpretación del juego del anticipo dado anteriormente. Supóngase entonces que A elige las estrategias de cobro  a1 y a2 de manera aleatoria, de acuerdo con una determinada distribución de probabilidad sobre las elecciones. Es decir: A elige a1 con una probabilidad  , y también elige a2  con probabilidad complementaria 1  x. Recuérdese que por definición  es   Se verá el efecto de esta  nueva estrategia, llamada ahora mixta, pues en ella interviene explícitamente el azar. Si en el juego anterior B decide elegir b1, entonces en promedio A cobrará un retorno en efectivo de   todas las veces que B proceda de esa manera. Pero si B elige b2, entonces A cobrará en promedio  todas las veces que B realice esa elección. El nivel de seguridad de A, o sea la cota mínima para el cobro que pretende ejecutar A, estará dado por la menor de estas expresiones. Es decir, en este caso, la función de cobro  tendrá la representación siguiente:

 

                                    

 

Se observa ahora que  es una función continua. Luego de algunas manipulaciones elementales,  se podrá escribir así:

 

 
Esta es una función continua que posee el siguiente gráfico:

 

 

Fig. 8: función de niveles de seguridad para A

 

            Se determina analíticamente de manera sencilla, que el máximo de  se verifica en: , valor para el cual el cobrador recibe un retorno óptimo de ,

De tal modo que se verifica:

 

                              (estrategia de cobro maximin)

 

Un análisis similar se realizará ahora para el jugador B.

Utilizando la misma matriz de utilidades, B elegirá ahora la estrategia b1 con una probabilidad  z  y  la estrategia  b2 con una probabilidad 1  z, donde por definición será: .

 Si ahora el vendedor A decide optar por a1,  B deberá pagar en promedio   todas las veces que A realice esa elección. Pero si A elige a2, B deberá pagar en promedio  todas las veces que A proceda de esa manera.  Obsérvese que ahora el nivel de seguridad de B queda definido por el máximo de estas dos expresiones, que es la naturalmente preferida por A. Es decir, queda  definida la siguiente función  de pago:

 

                         

 

Esta expresión, se puede escribir así:

 

 

 Su gráfico es como sigue:

 

Fig.9: función de niveles de seguridad para B

 

Queda claro entonces que el comprador B paga un mínimo cuando