JUGANDO CON LA TEORÍA DE JUEGOS (ll)
Ricardo Miró
Consejo de la Magistratura de la Nación
Área de procesamiento de Datos
Juegos con información imperfecta: suma cero y 2-uplas de equilibrio.
El análisis de un árbol de juego
es útil siempre que su orden sea
pequeño, tal como sucede en el caso anteriormente estudiado de los seis
fósforos. Al respecto, recuérdese que las estrategias se definen sobre los
árboles y son por su propia naturaleza
finitos conjuntos de finitas flechas. Así, en un juego dado, cada jugador tiene a su disposición, un conjunto finito de
estrategias, que por lo tanto se pueden numerar e individualizar sin
ambigüedad. Por ejemplo, el conjunto
designa a
una estrategia determinada en donde con
la variable entera natural ,
sin ambigüedad, se distinguen las
flechas que constituyen una estrategia
elegida., entre todas las estrategias diferentes a disposición del jugador
.
Obsérvese, de paso, que la expresión
señala que la cantidad de estrategias
disponibles en el juego para cada jugador es una cantidad variable, que depende
precisamente de cada jugador. Con respecto a los árboles correspondientes al
ajedrez, bridge o póquer, debe reiterarse que su estructura es
abrumadoramente compleja, de tal manera que el estudio exhaustivo de los mismos es prácticamente imposible. Se
dice que el enunciado explícito de las
reglas J1 a J5 , más el árbol correspondiente, define un juego de acuerdo con
la forma extensiva.
La teoría existente tiene otra manera de definir juegos, que es analíticamente más útil que la forma extensiva, y consiste en la siguiente idealización, denominada forma normal:
El conjunto de partidas posibles para
cualquier juego como los estudiados por
la teoría es finito, y queda numerado por la variable natural .
Cada jugador
,
, define de antemano todas las la opciones
posibles
elegidas frente a cada una de las opciones
correspondientes al alcance de
sus rivales. Cuanto esta tarea está concluida,
un árbitro oficial asigna a cada jugador
la utilidad obtenida
,
gestada por la partida número
.
Obsérvese que mediante la
definición normal desaparece la exigencia de información perfecta y
aparece la idea de incertidumbre e información imperfecta en cada
jugada., una por vez para cada jugador. Se
introduce explícitamente la
función de utilidad ,
que fija los premios y castigos del juego para el jugador
.
Este enfoque permite acercarse de manera más fidedigna a las situaciones de
conflicto observadas en la vida real, y permite obtener resultados útiles para
los llamados juegos de dos personas de suma cero
Dicho con precisión, un juego entre dos personas o entidades cualesquiera es de suma cero cuando los logros o ganancias de un jugador se originan exactamente en las pérdidas o cesiones que debe afrontar el otro jugador. Por ejemplo, la cobranza negociada de una deuda, o una acción bélica limitada entre dos entidades armadas, se describen de manera muy aceptable como juegos de suma cero, tal como se verá a continuación.
Cobro negociado de un anticipo: El jugador llamado A acuerda la venta de un determinado bien con el jugador B por una cierta suma de dinero, (cuyo valor total no interesa especificar), y negocia con él el monto del anticipo. El deudor B analiza sus posibilidades financieras y determina con todo cuidado 4 estrategias diferentes de formalizar el pago del anticipo acordado. A, el acreedor, estudia también sus propios intereses financieros, y determina a su vez 5 estrategias de efectuar el cobro. La situación se puede explicitar utilizando una tabla o matriz de 5 x 4 (5 filas por cuatro columnas). Las filas corresponden a las estrategias de cobro y las columnas a las estrategias de pago. La situación que será analizada esta definida así
:
|
|
b1 |
b2 |
b3 |
b4 |
|
|
a1 |
18 |
3 |
0 |
2 |
|
|
a2 |
0 |
3 |
8 |
20 |
|
|
a3 |
5 |
4 |
5 |
5 |
|
|
a4 |
16 |
4 |
2 |
25 |
|
|
a5 |
9 |
3 |
0 |
20 |
|
Fig.5 : matriz del juego del anticipo
La tabla anterior se interpreta de manera obvia. Cada columna vertical constituye una de las 4 estrategias de pago elaboradas por B para el anticipo en cuestión. Como ejemplo, la columna b3 está constituida por los siguientes valores de la función de utilidad asociada: 0, 8, 5, 2, 0. Similarmente, cada fila horizontal detalla alguna de las 5 estrategias de cobro preparada por A. Por ejemplo, los valores de la función de utilidad para la fila a4 son: 16, 4. 2, 25. Se analizará a continuación el efecto del juego desde el punto de vista de cada uno de los jugadores.
Si el vendedor A es el que comienza a estudiar sus estrategias de cobro, ¿Cuál será la más conveniente para sus intereses? Ante las diversas estrategias imaginadas por A, será natural que B elija aquella que implique la menor erogación por su parte, tal como lo indica la tabla siguiente, construida a partir de la matriz de juego de la figura 1:
|
|
Estrategias |
|
|
|
|
|
|||
|
|
propuestas por A |
|
|
|
|
||||
|
|
a1 |
a2 |
a3 |
a4 |
a5 |
|
|
|
|
|
Elección de B |
0 |
0 |
4 |
2 |
0 |
Niveles de seguridad para A |
||
Cada uno de los valores que
B elegiría naturalmente sobre las estrategias de cobro disponible, constituye los
niveles de seguridad de las estrategias de A, señalados en la tabla
anterior. Queda entonces definida la función nivel de seguridad para A,
que indica los valores posibles de cobro C(k) para todas estrategias de
pago k a disposición de B, La citada función nivel de seguridad es de tipo discreto y se puede graficar de
manera discreta según lo expresa el gráfico siguiente:

Fig. 6: función de niveles de seguridad para A
Se observa que la estrategia a3 proporciona el máximo nivel de seguridad para A, es decir: maximiza dicho nivel. Este es el criterio básico que ofrece la teoría para sugerir al vendedor A su mejor elección para una estrategia de cobro, que será la estrategia a3..
En
definitiva lo que realiza A, teniendo a
la vista los valores de la matriz del juego de la figura 5, es
proponer el siguiente valor de cobro
:
= 4 (estrategia
maximin)
Si ahora es B el que estudia las consecuencias asociadas con sus estrategias de pago, será natural aceptar en este caso que el vendedor A elegirá los máximos valores de cada una de las mismas, tal como lo indica la tabla siguiente, seguida por la función discreta de cobro C(k)
|
|
Estrategias |
|
|
|
|
||
|
|
propuestas por B |
|
|
|
|||
|
|
b1 |
b2 |
b3 |
b4 |
|
|
|
Elección de A |
18 |
4 |
8 |
25 |
Niveles de seguridad para B |
||
Cada una de las elecciones de A define los niveles de seguridad para B asociados con la estrategia respectiva.
Aquí también se observa que B posee una estrategia, b2, que le permite pagar lo menos posible. Se entiende que esta conducta es la primariamente natural en B, para la cual el juego está diseñado La tabla anterior define entonces una función discreta de pago, notada ahora consecuentemente como P(k), definida sobre las estrategias de B, y cuyas imágenes son ahora los niveles de seguridad de B.
El gráfico siguiente señala la función P(k):

Fig. 7: función de niveles de seguridad para B
Luego, al tener también a la vista la función discreta P(j), el comprador B propondrá naturalmente el siguiente valor de pago P:
=
4 (estrategia minimax)
Se observa, finalmente que los valores C y P calculados sobre la matriz de juego coinciden. En estas condiciones, es decir cuando
P = Q,
se dice que el par ordenado de estrategias (a3, b2) forman una 2-upla de equilibrio.
ii) Análisis de un juego de guerra previo a un combate real. El concepto de 2-upla de equilibrio surge naturalmente en la descripción de algunos enfrentamientos armados de carácter restringido [8], [9].
Un trabajo realizado por O. G. Haywood[1] analiza los dos criterios de decisión válidos mediante las cuales un jefe militar puede encarar las consideraciones previas a las acciones de un combate inminente.
En la primera de ellas, el jefe selecciona el curso de las acciones estimando lo que el enemigo es capaz de realizar. En la segunda, la selección se realiza sobre la estimación de lo que el enemigo intentará realizar. Como ejemplo de estas opciones, las fuerzas armadas de los Estados Unidos propician primariamente la toma de decisiones basadas en la capacidad de las fuerzas enemigas y no en las posibles intenciones de éstas. Al respecto, se analizará aquí un episodio de la Segunda Guerra Mundial, conocido en la literatura como Batalla del Mar de Bismarck. Un mapa donde transcurrieron las acciones que se analizarán a continuación se ofrece en la figura 8.
A fines de 1942, cuando el clima bélico en el Pacífico Oriental estaban ingresando en uno de sus picos más altos, los informes de inteligencia aliados señalaron que las fuerzas japonesas embarcarían un grueso contingente de infantería, zarpando en conjunto con varias naves de transporte de combustible en el puerto de Rabaul. Esta plaza está ubicada al norte de la isla de Nueva Bretaña, y el destino detectado por los informes daba por seguro al puerto de Lae, localizado en una pequeña península de la isla de Nueva Guinea, que separa el Mar de Bismarck del Mar de Salomón, tal como se observa en la figura 8.

Fig.8. Ámbito geográfico de la Batalla del Mar de Bismarck
El estado mayor de las fuerzas imperiales, al mando del veterano contralmirante Kimura Masatomi [9], analizó las dos rutas disponibles para llegar a destino, tal como se puede observar en la figura 8 Una de ellas, caracterizada por su clima lluvioso, atraviesa el mar de Bismarck bordeando el litoral marítimo norte de Nueva Bretaña. La otra ruta atraviesa el mar de Salomón, y posee en general buenas condiciones meteorológicas. En cualquiera de los dos casos la travesía duraría alrededor de tres días.
El general norteamericano George Kenney, al estudiar el escenario descrito, reparó en las dos elecciones que ofrecía la situación. Ambas implicaban concentrar sus aviones de reconocimiento sobre una ruta o la otra. Una vez avistado, el convoy podría ser bombardeado antes de su llegada a Lae. En unidades dadas por días de bombardeo, el estado mayor del general norteamericano elaboró la siguiente matriz para el inminente enfrentamiento:
|
|
|
|
Estrategias de Masatomi |
|
|
|
|
|
ruta norte |
ruta sur |
|
Estrategias |
de Kenney |
ruta norte |
2 |
2 |
|
|
|
ruta sur |
1 |
3 |
Aplicando los criterios minimax y maximin, se puede ver fácilmente que existe un par de estrategias que conforman una 2-upla de equilibrio: (ruta norte; ruta norte), con un costo medio estimado de 2 (dos) días de bombardeo. Los aviones de reconocimiento norteamericanos y australianos participantes en el evento, avistaron el convoy en la madrugada del 1 de marzo de 1943, unas horas después de que hubiera abandonado el puerto de Rabaul.
La batalla desatada en consecuencia sentó doctrina para luchas de este tipo, desaconsejando totalmente periplos marítimos como el comentado, al alcance cercano de la aviación hostil. En efecto, el resultado fue completamente adverso para las fuerzas japonesas. A pesar de esto - observa Haywood en su artículo-, no puede afirmarse que la elección del contralmirante Masatomi haya sido errónea. La elección de la ruta norte fue correcta, en el sentido teórico proporcionado por la teoría de juegos. Es decir, como mínimo, fue tan buena como la estrategia provista por la ruta sur, al enfrentarla contra cualquiera de las elecciones a disposición del general Kenney.
Estrategias mixtas y el teorema minimax.
Se desea recalcar que un juego de suma cero no tiene por qué tener necesariamente una 2-upla de equilibrio, tal como queda ilustrado por el juego que posee la siguiente matriz de utilidades:
|
|
b1 |
b2 |
|
A1 |
3 |
1 |
|
A2 |
2 |
4 |
En efecto, como se puede observar fácilmente, el juego anterior no tiene una 2-úpla de equilibrio. En realidad, tal circunstancia se cumple estrictamente si se consideran solo las estrategias dadas de manera explícita. Como en la elección de cada una de ellas no interviene el azar, se las llama estrategias puras.
Para
facilitar el análisis de este apartado, se sugiere seguir utilizando la
interpretación del juego del anticipo dado anteriormente. Supóngase
entonces que A elige las estrategias de cobro
a1 y a2 de manera aleatoria, de acuerdo con una
determinada distribución de probabilidad sobre las elecciones. Es decir: A
elige a1 con una probabilidad , y también elige a2 con
probabilidad complementaria 1
x. Recuérdese que por definición es
Se verá el efecto de esta nueva estrategia, llamada ahora mixta,
pues en ella interviene explícitamente el azar. Si en el juego anterior B
decide elegir b1, entonces en promedio A cobrará un retorno en efectivo de
todas las veces que B proceda de esa manera.
Pero si B elige b2, entonces A cobrará en promedio
todas las veces que B realice esa elección.
El nivel de seguridad de A, o sea la cota mínima para el cobro que pretende
ejecutar A, estará dado por la menor de estas expresiones. Es decir, en este
caso, la función de cobro
tendrá la representación siguiente:
Se
observa ahora que es una función continua. Luego de algunas
manipulaciones elementales,
se podrá escribir así:

Fig. 8: función de niveles de seguridad para A
Se
determina analíticamente de manera sencilla, que el máximo de se verifica en:
,
valor para el cual el cobrador recibe un retorno óptimo de
,
De tal modo que se verifica:
(estrategia de cobro maximin)
Un análisis similar se realizará ahora para el jugador B.
Utilizando
la misma matriz de utilidades, B elegirá ahora la estrategia b1 con una
probabilidad z y la
estrategia b2 con una probabilidad 1 z, donde por definición será:
.
Si ahora el vendedor A decide optar por a1, B deberá pagar en promedio todas las veces que A realice esa elección.
Pero si A elige a2, B deberá pagar en promedio
todas las veces que A proceda de esa
manera. Obsérvese que ahora el nivel de
seguridad de B queda definido por el máximo de estas dos expresiones, que es la
naturalmente preferida por A. Es decir, queda
definida la siguiente función
de pago:
Esta expresión, se puede escribir así:
Su gráfico es como sigue:

Fig.9: función de niveles de seguridad para B
Queda claro entonces que el comprador B paga un
mínimo cuando