0% encontró este documento útil (0 votos)
72 vistas68 páginas

Capitulo 09

Este documento presenta tres ejemplos de juegos de dos personas para ilustrar los conceptos básicos de la teoría de juegos. El primer ejemplo involucra a dos jugadores que colocan monedas y reciben pagos dependiendo de si las monedas coinciden o no. El segundo ejemplo analiza las decisiones de precios de dos supermercados competidores. El tercer ejemplo describe una batalla naval durante la Segunda Guerra Mundial donde los líderes aliados y japoneses deben tomar decisiones estratégicas. La teoría de j

Cargado por

chemaMed
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
72 vistas68 páginas

Capitulo 09

Este documento presenta tres ejemplos de juegos de dos personas para ilustrar los conceptos básicos de la teoría de juegos. El primer ejemplo involucra a dos jugadores que colocan monedas y reciben pagos dependiendo de si las monedas coinciden o no. El segundo ejemplo analiza las decisiones de precios de dos supermercados competidores. El tercer ejemplo describe una batalla naval durante la Segunda Guerra Mundial donde los líderes aliados y japoneses deben tomar decisiones estratégicas. La teoría de j

Cargado por

chemaMed
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

CAPÍTULO

Shutterstock/Franck Boston

 La teoría de juegos puede aplicarse al análisis de cualquier comportamiento competitivo, incluyendo juegos comunes.

Cadenas de Markov
y teoría de juegos
2      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

9.1 Juegos de dos personas: estrategias puras


La moderna teoría de juegos se desarrolló en los años de 1940 por John von Neumann y Oskar Mor-
gensten1 para proporcionar un marco matemático general para la economía. Las ideas principales de
esta teoría se extrajeron de juegos comunes como ajedrez, bridge, solitario, dominó y damas. La
teoría general se desarrolló sin ninguna referencia directa a un juego en particular. La teoría de juegos
puede aplicarse al análisis de cualquier comportamiento competitivo, incluyendo juegos comunes, la
economía, la guerra y la competencia biológica. En el estudio de la competencia biológica la teoría de
juegos ofrece un útil marco conceptual para entender el comportamiento.2
Muchos juegos conocidos tienen oponentes o competidores que realizan una secuencia de movi-
mientos de acuerdo con las reglas del juego. En algunos juegos, los movimientos consecutivos se
realizan con la información completa sobre las oportunidades del oponente (ajedrez). En otros jue-
gos, los movimientos se realizan simplemente por el azar (por ejemplo, lanzando una moneda) o el
jugador puede elegir sus movimientos deliberadamente de entre todos los movimientos posibles. El
juego puede terminar después de un número finito de movimientos con un ganador y un perdedor.
Generalmente hay un rendimiento para el ganador del juego, que puede ser un pago en efectivo o
simplemente la satisfacción del triunfo. (El rendimiento para las especies que juegan el juego de la
ecología es que se les permite seguir jugando).
Un juego está caracterizado por sus reglas. En algunos casos el juego puede ser tan complicado
que descubrir sus reglas puede ser un logro considerable. Considérese el problema de determinar las
reglas del ajedrez viendo cómo se juega. Después de cuatro o cinco juegos, las reglas principales se-
rían evidentes, pero sería necesario observar muchos más juegos para determinar todas las reglas.
Similarmente, las complejas interacciones de un sistema social humano o de un ecosistema pueden
pensarse como el desenvolvimiento de un juego con un número muy grande de jugadores: sus reglas
no se comprenden completamente.
Una vez que se conocen las reglas de un juego, el problema es determinar cómo deberían elegir
sus movimientos los jugadores y qué consecuencias existen para estos movimientos. En otras pala-
bras, los jugadores deben determinar sus estrategias mediante el análisis de las reglas del juego. El
resultado final de un juego generalmente dependerá de manera crítica de la elección de movimientos
de todos los jugadores. Para juegos complejos, puede resultar imposible analizar todas las posibilida-
des y, en este caso, los jugadores deben basarse en la experiencia, la intuición o el simple ensayo y
error para determinar sus movimientos.
En esta sección y en la siguiente se estudiará un juego sencillo entre dos personas con gran deta-
lle. Los conceptos presentados y los resultados obtenidos para este juego forman un modelo para el
análisis de juegos más generales. Se empezará con tres ejemplos de juegos de dos personas.

E JE M P LO 9.1.1 Monedas coincidentes

Dos jugadores, R y C, (denotados “renglón” y “columna”, respectivamente) cada uno coloca una
moneda frente a sí y al hacerlo determinan si una Cara o una Cruz está hacia arriba. Ninguno de los
jugadores sabe, inicialmente, si el otro jugador ha seleccionado una cara o una cruz. Entonces se
muestran las monedas. Si las monedas coinciden (esto es, ambas son caras o ambas son cruces), en-
tonces el jugador R le paga al jugador C 1 dólar. Si las monedas no coinciden, entonces el jugador C
le paga al jugador R 1 dólar.

1
John von Neumann y Oskar Morgensten, The Theory of Games and Economic Behavior, (Princeton, N.J.: Princeton University Press,
1944).
2
R.C. Lowontin, “Evolution and the Theory of Games”, Journal of Theoretical Biology, 1(1961):382-403.
L.B. Slobodkin, “The Strategy of Evolution”, American Scientist, 52(1964):342-357
9.1 Juegos de dos personas: estrategias puras      3

Podemos describir este juego en términos de una matriz de pagos (anotada desde el punto de
vista de R):

Jugador C
Cara Cruz
Cara –1 1
Jugador R 
Cruz ( 1 –1)

Por lo tanto, por ejemplo, si el jugador R elige Cara y el jugador C elige Cruz, entonces el jugador R
gana 1 unidad (en este caso $1). Si tanto el jugador R como el jugador C seleccionan Cara, entonces
el jugador R pierde 1 unidad.

EJ EMPLO 9.1.2 Un juego de negocios

Big Save y Giant Foods son los únicos supermercados en Central City. El mercado minorista de ali-
mentos está compartido a partes iguales por estas dos empresas. Debido a un aumento en los costos,
Big Save desea aumentar sus precios. Sin embargo, si lo hace, teme perder parte del negocio en favor
de Giant Foods. Por otro lado, si baja sus precios y Giant Foods sube sus precios, la ganancia resul-
tante de clientes compensará por mucho la reducción de ganancia por unidad. Ambas empresas tie-
nen tres opciones: aumentar los precios, no hacer cambios, y bajar los precios.
Big Save puede controlar sus precios, pero no tiene control sobre lo que hace Giant Foods. Para
ayudarle a decidir qué hacer, contrata a un analista independiente en investigación de mercados,
quien obtiene la información en la tabla 9.1. Los números en la tabla representan porcentajes de au-
mentos o decrementos. Por ejemplo, si Big Save mantiene sus precios iguales y Giant Foods baja sus
precios, entonces Big Save perderá 3% del número total de clientes en favor de Giant Foods. Si Big
Save baja sus precios y Giant Foods sube sus precios, entonces Big Save ganará 10% de mercado.

Tabla 9.1 Elecciones de mercado para supermercados competidores


Elecciones
de Giant Food Manter precios
Aumentar precios (I) Bajar precios (D)
Elecciones iguales (S)
de Big Save
Aumentar precios (I)  2 –2 –7

Manter precios iguales (S)  6  0 –3

Bajar precios (D) 10  5  3

Estos datos pueden representarse en la siguiente matriz de pagos:

Giant Foods
I S D
I 2 –2 –7
Big Save  S 6 0 –3
D ( 10 5 3)

¿Qué debe hacer cada supermercado? Se contestará esta pregunta más adelante en esta sección.
4      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

E JE M P LO 9.1.3 Un juego de guerra3

Durante la Segunda Guerra Mundial, una batalla crucial, llamada la Batalla del Mar de Bismark, se
peleó por el control de Nueva Guinea. El líder aliado, General Kenney, tenía reportes de inteligencia
que indicaban que los japoneses movilizarían un convoy de tropas y suministros del puerto de Rabaul,
en el extremo este de la isla de Nueva Bretaña, hacia Lae, justo al oeste de Nueva Bretaña en Nueva
Guinea. El líder japonés tenía dos opciones: tomar una ruta que pasaba por el norte de Nueva Breta-
ña o una que pasara por el sur. En la ruta del norte, la poca visibilidad era casi una certeza, mientras
que en la ruta del sur era casi seguro que el clima estaría despejado. En cualquier elección el viaje
duraría 3 días.
El General Kenney tenía la elección de concentrar el grueso de sus aviones de reconocimiento
en una u otra ruta. Una vez avistado, el convoy sería bombardeado hasta su llegada a Lae. En días de
tiempo de bombardeo, el equipo de Kenney estimó los resultados de varias opciones dadas en la tabla
9.2.

Tabla 9.2 Elecciones para japoneses y aliados (número de días de bombardeo)


Elecciones
de japoneses
Ruta del norte Ruta del sur
Elecciones
de los aliados
Ruta del norte 2 2

Ruta del sur 1 3

De nuevo, estas opciones pueden representarse mediante una matriz de pagos.

Elecciones
japonesas
N  S
N 2 2
Elecciones aliadas 
S ( 1 3)

¿Qué rutas debían haberse elegido? Si el convoy japonés iba al norte, se expondría a ya sea 1 o 2 días
de bombardeo. Si iba a sur, enfrentaría 2 o 3 días de bombardeo. Ir al norte ciertamente luce mejor.
Desde el punto de vista del General Kenney, al concentrar sus fuerzas en el norte podía garantizar al
menos 2 días de bombardeo; en el sur solo podía garantizar 1 día.
Resulta que ambos comandantes eligieron la ruta del norte. Y como se verá muy pronto, estas
elecciones son consistentes con aquellas predichas por la teoría de juegos.
Estos ejemplos llevan a la siguiente definición:

D Definición 9.1.1
Juego de matrices
Sea A = (aij) una matriz de m × n. Considere un juego determinado por A, jugado entre dos
competidores R y C (renglones y columnas) de acuerdo con las siguientes reglas:

3
Este ejemplo está adaptado de un caso en Games and Decisions de R. Duncan Luce y Howard Raiffa (New York: Wiley, 1958),
64-65.
9.1 Juegos de dos personas: estrategias puras      5

1. En cada movimiento del juego R elige uno de los m renglones de A y C elige una de las n
columnas de A. Estas elecciones se hacen simultáneamente, y ningún competidor conoce
por adelantado la elección (o movimiento) del otro competidor.
2. Si R elige el i-ésimo renglón y C elige la j-ésima columna, entonces C le paga a R una can-
tidad aij. Si aij es negativa, esto se interpreta como que C recibe una cantidad –aij de R.

Este juego es el juego de matrices de m × n determinado por la matriz A = (aij) de m × n.

El juego de matrices puede terminar después de un movimiento o puede continuar por cualquier
número de movimientos. La matriz A = (aij) del juego se denomina la matriz de juego o la matriz de Juego de matrices
pagos. Matriz de pagos
Los siguientes ejemplos ilustran cómo pueden analizarse los juegos de matrices.

EJ EMPLO 9.1.4 Dos juegos de matrices

Describa los juegos de matrices con cada matriz de pagos.

1 0 1 0
1 2
a) A = b) B = 0 –1 2 0
( –2 3)
( –1 0 3 1)

SOLUCIÓN ► 
a) En este juego de matrices de 2 × 2 tanto R como C tienen dos opciones. Si R elige el primer
renglón, R gana 1 unidad si C elige la primera columna, y 2 unidades si C elige la segunda colum-
na. Si R elige el segundo renglón, pierde 2 unidades si C elige la primera columna, y gana 3 uni-
dades si C elige la segunda columna. Si C está jugando racionalmente, C elegirá la primera colum-
na. En este caso, R debería elegir el primer renglón. Con estas elecciones, R garantiza que ganará
al menos 1 unidad y C garantiza que al menos no perderá más de 1 unidad.
b) En este juego de matrices de 3 × 4 R tiene tres elecciones y C tiene cuatro elecciones. Al analizar
todas las elecciones posibles, es claro que a C le irá mejor si elige la segunda columna. Con esta
elección, C garantiza que no sufrirá pérdidas; a R le irá mejor si elige el primer renglón. Si se
hacen estas elecciones, no hay pagos entre los jugadores.

El juego de matrices general de m × n es un ejemplo de un juego de dos personas, de suma cero ya que
hay dos competidores y la suma de sus ganancias es cero. Las ganancias de un competidor son las
pérdidas del otro.
Los dos jugadores del juego de matrices A = (aij) de m × n deben analizar sus movimientos po-
sibles y decidir qué renglones o columnas jugar en los siguientes movimientos. Una estrategia pura Estrategia pura
para R (o C) es la decisión de jugar el mismo renglón (o columna) en cada movimiento del juego. Se
dice que el jugador R (o C) usa una estrategia mixta si elige más de un renglón (o columna) en dife- Estrategia mixta
rentes movimientos del juego. Si ambos jugadores emplean estrategias puras, el resultado de cada
movimiento es exactamente el mismo y el juego es completamente predecible. Por ejemplo, si R
siempre elige el i-ésimo renglón y C siempre elige la j-ésima columna, entonces en cada jugada R re-
cibe aij unidades de C. Cuando se usan estrategias mixtas, por uno o ambos jugadores, el juego es más
complicado. Por ejemplo, si R decide usar una estrategia mixta, aleatorizará la elección de renglones
a fin de aumentar su rendimiento.
Para una discusión más precisa de las estrategias se necesitan algunas ideas de la teoría de la
probabilidad.
6      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

Un poco de teoría de la probabilidad


Supóngase que se realiza un experimento. Para cada posible resultado E del experimento se asigna un
número entre 0 y 1. Este número se llama la probabilidad del resultado E y está denotada por P(E).
Se subraya que 0 ≤ P(E)≤ 1. Por ejemplo, si se lanza una moneda justa, entonces P(cara) = P(cruz) =
1
. Otro ejemplo: un mazo de cartas tiene 52 cartas; de estas, 13 son corazones. Por tanto si se elige
2
una carta aleatoriamente del mazo, entonces
13 1
P(corazón) ==
52 4
En un experimento la suma de probabilidades de todos los resultados posibles es 1.
Por supuesto, no todas las probabilidades se calculan tan fácilmente. Se han escrito libros ente-
ros sobre la materia. Sin embargo, no es necesario calcular probabilidades para comprender el papel
que la teoría de la probabilidad desempeña en la teoría de juegos.
Una variable aleatoria es una función que asigna un número a cada resultado de un experimento.
El valor esperado de una variable aleatoria es un promedio ponderado de los valores que puede adop-
tar. Para calcular el valor esperado se “acumula” la multiplicación de cada valor adoptado por la va-
riable aleatoria por la probabilidad de obtener dicho valor. Por ejemplo, supóngase que los posibles
1 5
valores adoptados por la variable aleatoria son 7, 5, –3, y 10 con probabilidades P(7) = , P(5) = ,
8 16
1 1
P(–3) = y P(10) = . (Nótese que estas probabilidades suman 1). Se tiene
2 16
2 5 8 1 14 + 25 – 24 + 10
Valor esperado = 7 · +5· –3· + 10 · =
16 16 16 16 16
25
=
16

Se volverá ahora a la discusión de la estrategia.


¿Cuándo usar una estrategia pura? ¿Cuándo usar una estrategia mixta? Para responder a estas
preguntas debe precisarse más qué significa estrategia.

Vector de El vector renglón de n componentes p = (p1 p2 … pn) es un vector de probabilidad si todas las


probabilidad componentes son nonegativas y la suma de componentes es 1:

p1 + p2 + … + pn = 1

E JE M P LO 9.1.5 Seis vectores de probabilidad

Los siguientes son vectores de probabilidad.


1 4 1 1 1 1 1 3 1 1 1 5
a) (5 5) b) (3 3 3) c) (8 2 8) d) (6 3 12 12)
1 1 2 1 4
e)
(0 2 0 2) f) (0 5 3 0  14 )
Estrategia Una estrategia para R en el juego con matriz A = (aij) de m × n es un vector de probabilidad con m
componentes p = (p1 p2 … pm), donde pi es la probabilidad de que R juegue el i-ésimo renglón
para i = 1, 2, …, m. Una estrategia para C es un vector de probabilidad de n componentes
q1
q2
p=

( )
qn
9.1 Juegos de dos personas: estrategias puras      7

donde qj es la probabilidad que C juegue la j-ésima columna para j = 1, 2, …, n.


Los jugadores R y C deben elegir sus estrategias p y q. En otras palabras, deben elegir las proba-
bilidades pi y qj que determinarán con qué frecuencia jugarán los diversos renglones y columnas. Por
ejemplo, si R y C juegan el primer renglón y la primera columna de A en cada movimiento, están ju-
gando las estrategias puras p = (1 0 … 0) y
1
0
q=

()
0
Si R y C juegan todos los renglones y columnas con probabilidades iguales, están jugando las estrate-
gias mixtas p = (1/m 1/m … 1/m) y
1
n
1
n
q=

()

1
n

Cada vector de probabilidad de m componentes es una posible estrategia para R, y cada vector de
probabilidad de n componentes es una posible estrategia para C.
Para ver cuándo puede usarse una estrategia pura, considérese el siguiente ejemplo.

E J EMPLO 9.1.6 Un juego de matrices con un punto de silla

Considérese el juego de matrices cuya matriz de pagos es

6 2 3
6 5 4
A=
7 –1 2
( 2 6 1 )
¿Qué estrategias deben adoptar R y C?

SOLUCIÓN ►  R jugará para hacer la cantidad más pequeña que ganará lo más grande posible
(leer de nuevo el último enunciado). Si R juega el renglón 1, ganará al menos 2 unidades, no importa
qué columna juegue C. Si R juega el renglón 2, R ganará al menos 4 unidades. De la misma manera,
si R juega el renglón 3 o el renglón 4 ganará al menos –1 o 1 unidad respectivamente. Por lo tanto su
rendimiento mínimo máximo es de 4 unidades.
Pero, ¿qué debe jugar C? C quiere reducir su pérdida máxima. Si C juega la columna 1, puede
perder hasta 7 unidades; en la columna 2, C puede perder cuando mucho 6 unidades y en la columna
3 C puede perder cuando mucho 4 unidades. Se anotan estos números como sigue:

Mínimo renglón
C ↓
6 2 3 ⟵ 2
R
6 5 4 ⟵ 4
7 –1 2 ⟵ –1
(
2 6 0 ) ⟵ 1
Máximo ↑ ↑ ↑
columna ⟶ 7 6 4
8      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

El número 4 en la posición 2,3 es un mínimo en su renglón y un máximo en su columna. Dicho nú-


Punto de silla mero se llama un punto de silla para la matriz de pagos A. En la siguiente sección se mostrará
que cuando el número aij es un punto de silla, las estrategias óptimas para R y C son, para R, jugar el
i-ésimo renglón y para C jugar la j-ésima columna. Por lo tanto, en el ejemplo, R debe adoptar la es-
trategia pura de jugar el segundo renglón [p = (0 1 0 0)] y C debe adoptar la estrategia pura de
jugar la tercera columna

0
q= 1
( 1)
Antes de terminar con este ejemplo, una observación que puede simplificar los cálculos. Cada núme-
ro del primer renglón de A es menor que o igual a la componente correspondiente en el segundo
renglón de A. Es decir, 6 ≤ 6, 2 < 5, y 3 < 4. Así, R nunca elegirá el primer renglón porque a R siem-
Renglón recesivo pre le puede ir mejor si elige el segundo renglón. Al primer renglón se le llama renglón recesivo.
Igualmente, cada número en la primera columna de A es mayor que el número correspondiente en
la tercera columna de A; es decir, 6 > 3, 6 > 4, 7 > 2 y 2 > 1. De ahí que C nunca elegirá la prime-
ra columna, porque entonces C con seguridad perdería más que si hubiera elegido la tercera colum-
Columna recesiva na (recordar que la ganancia de R es la pérdida de C). A la primera columna se le llama columna re-
cesiva.
Pueden eliminarse el renglón y la columna recesivos de futuras consideraciones. Si se hace así,
se obtiene la nueva matriz de pagos A′:

5 4
Aʹ = –1 2
( 6 1)
Igual que antes, 4 es un mínimo en su renglón y un máximo en su columna y es un punto de silla
para A′. El segundo renglón es recesivo, así que la matriz puede reducirse más para obtener A″ =
5 4 4
( 6 1); entonces A‴ = ( 1) ya que la primera columna de A″ es recesiva. Siguiendo, se observa que el
iv
segundo renglón de A‴ es recesivo, así A = (4). Evidentemente, esto lo más lejos que puede llegarse.

Ahora se describirá una estrategia general para jugar un juego de matrices en aquellos casos
donde hay un punto de silla.

Determinación de estrategias puras para un juego de matrices


Paso 1. Eliminar todos los renglones y columnas recesivos.
  Observación Paso 2. Encontrar el número más bajo en cada renglón. A este se le llama el mí-
nimo de renglón.
En el problema 33 se pide demostrar Paso 3. Encontrar el número más alto en cada columna. A este se le llama el
que si aij y akl son puntos de silla para máximo de columna.
A, entonces aij = akl. En este caso, se
mantendrá el mismo resultado en el
Paso 4. Buscar el punto de silla; este es un número que es tanto un mínimo de
Paso 4 si se usa cualquiera de los renglón como un máximo de columna.4 Si aij es un punto de silla, enton-
puntos de silla. ces R debe jugar el renglón i y C debe jugar la columna j. En este caso se
dice que el juego de matrices está estrictamente determinado.

4
A veces se denomina a un punto de silla como la solución minimax a un juego de matrices.
9.1 Juegos de dos personas: estrategias puras      9

Paso 5. Si no hay un punto de silla, entonces ya sea R o C (o ambos) deben jugar una
estrategia mixta. Este juego no está estrictamente determinado.

EJ EMPLO 9.1.7 Determinación de si un juego está estrictamente determinado

Determinar si un juego cuya matriz de pagos está dada está estrictamente determinado. Si es así,
determinar las estrategias óptimas para R y C.

3 0 5 1 6 2
1 0 5
a)  2 1 3    b)  4 2 3    c) 
( 1 –5 0)
( 2 –1 –2) ( 5 1 6)

SOLUCIÓN ► 
a) Dado que cada número en el renglón 3 es menor que o igual a el número correspondiente en el
renglón 2, el renglón 3 es recesivo. Igualmente, cada número en la columna 1 es mayor que el
número correspondiente en la columna 2, entonces la columna 1 es recesiva. Al eliminar el ren-
glón 3 y la columna 1 se obtiene

Mínimo renglón

0 5 0
( 1 3) 1
Máximo
columna ⟶ 1 5

Se observa que 1 es en mínimo en este renglón y el máximo en esta columna, así 1 es un punto
de silla y el juego está estrictamente determinado. Dado que 1 es la componente 2,2 de la ma-
triz de pagos, las estrategias óptimas son p = (0 1 0) y

0
q= 1
( 0)
Es decir, R juega el renglón 2 y C juega la columna 2.5
b) No hay renglones o columnas recesivos. Al reescribir la matriz de pagos se tiene

Mínimo renglón

1 6 2 1
4 2 3 2
( 5 1 6) 1
Máximo
columna ⟶ 5 6 6

En este caso no hay punto de silla porque ningún número es tanto un mínimo en su renglón como
un máximo en su columna. Este juego no está estrictamente determinado y se requiere una estra-
tegia mixta.

5 0 5 0
Se observa más adelante que en ( 1   3 ) la segunda columna es recesiva, entonces la matriz se reduce a ( 1 ). Pero ahora el primer
renglón es recesivo y se termina con la matriz de 1 × 1 (1). Este es el punto de silla.
10      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

c) El renglón 2 es recesivo, como la columna 1. El juego de matrices se reduce a (0 5) y 0 es un


punto de silla. Obsérvese que hay dos ceros en la matriz de pagos pero únicamente el cero en la
posición 1,2 es un punto de silla. El juego está estrictamente determinado y las estrategias ópti-
mas son p = (1 0) y

0
q= 1
( 0)
Es decir, R juega el renglón 1 y C juega la columna 2.

E JE M P LO 9.1.8 Monedas coincidentes (continuación)

En el juego de las monedas coincidentes del ejemplo 1 la matriz de pagos es

Mínimo renglón
Cara Cruz ↓
Cara  –1 1 –1
Cruz ( 1 –1) –1
Máximo
columna ⟶ 1 1

No hay puntos de silla, así que se requiere de una estrategia mixta. Se encontrará la estrategia óptima
en la siguiente sección.

E JE M P LO 9.1.9 Un juego de negocios (continuación)

En el juego de negocios del ejemplo 2 la matriz de pagos es

Mínimo renglón
I  S  D ↓
I 2 –2 –7 –7
S 6 0 –3 –3
D ( 10 5 3) 3
Máximo
columna ⟶ 10 5 3

En este caso 3 es un punto de silla, así que Big Save debe jugar el renglón 3 y Giant Foods debe jugar
la columna 3. Es decir, si los datos son correctos, ambos deben bajar los precios. Obsérvese que los
renglones 1 y 2 son recesivos y las columnas 1 y 2 son recesivas, así que el juego de matrices se redu-
ce a la matriz de pagos de 1 × 1 (3).

E JE M P LO 9.1.10 Un juego de guerra (continuación)

En el juego de guerra del ejemplo 3 la matriz de pagos es

Norte Sur
Norte 2 2
Sur ( 1 3)

El 2 en la posición 1,1 es un punto de silla, así que ambos comandantes debían elegir la ruta norte.
En efecto, esto es lo que sucedió.
9.1 Juegos de dos personas: estrategias puras      11

En la siguiente sección se usará un teorema de Von Neumann para demostrar por qué siempre
deben usarse las estrategias puras cuando hay un punto de silla. En dicha sección también se demos-
trará cómo encontrar las estrategias óptimas cuando un juego de matrices no está estrictamente de-
terminado.

PROBLEMAS 9.1

En los problemas del 1 al 10 determine si el vector dado es un vector de probabilidad.


1 1 1 1
1. (2 2) 2. (3 3)
1 1 1 1 1 1 1 1
3. (5 5 5 5) 4. (4 4 4 4)
1 1 1 1 5
5. (2 – 2 1) 6. (3 4 12)

7. (1 0 0 0) 8. (0 1 0 1)

1 2 3 4 5
9. (0.235 0.361 0.162 0.242) 10. (10 10 10 10 10)
En los problemas de 11 al 20 está dada la matriz de pagos para un juego. Determine si el juego está
estrictamente determinado y, si es así, encuentre las estrategias óptimas para R y C.

1 1 1 0 0 0
11. 2 2 3 12. 1 1 2
( –2 4 5) ( –3 3 4)

4 6 –2 5 6 4 7
13. 3 5 7 14. 3 2 3 1
( 2 –3 1) ( 4 6 2 5)

1 6 2 –3 –2 0
15. 3 4 16. –4 –6 –1 2
( 5 5) ( 0 –3 2 5)

1 6 2 4
2 –3 –2 0
–1 3 7 5
17. –4 –6 –1 2 18.
( 0 –2 2 –5) ( 2
3
1 7
0 –5
8
4)
4 2 1 3 1 0 0 1
6 4 3 5 0 1 0 1
19. 20.
( 2
1
1
4
3
2
6
0 ) ( 1
1
1
1
0
0
0
1)
En los problemas 21 al 30 formule cada situación como un juego de matrices de dos personas y anote
la matriz de pagos para dicho juego. Si el juego está estrictamente determinado, encuentre la estrate-
gia óptima para cada jugador.
12      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

21. Dos personas simultáneamente muestran, cada una, uno o dos dedos. Si el número total de
dedos es par, R le paga a C dicho número de dólares. Si el número es non, C le paga a R dicho
número de dólares.

22. Repita el problema 21, con la excepción de que cada jugador muestra cuatro o cinco dedos.

23. Repita el problema 21, con la excepción de que cada jugador muestra uno, dos o tres dedos.

24. Repita el problema 21, con la excepción de que cada jugador muestra uno, dos, tres, cuatro o
cinco dedos.

25. Dos estaciones de gasolina compiten por el negocio en un pueblo pequeño. La Estación A ha
determinado que si sube sus precios, perderá 1% del mercado si B sube sus precios, 3% del
mercado si B no hace ningún cambio y 11% del mercado si B baja sus precios. Si A no hace
ningún cambio, entonces gana 4% si B aumenta sus precios y pierde 5% si B los baja. No hay
cambios en la cuota de mercado si ambas estaciones no cambian sus precios. Finalmente, si A
baja sus precios, gana 9% si B sube sus precios, gana 3% si B se mantiene y pierde 1% si también
B baja sus precios.

26. Se está construyendo un nuevo centro comercial en Centerville. Dos tiendas de ropa estilo va-
quero, Vince’s y Readywear, comparten el mercado en Centerville y sus alrededores. Si una de
las tiendas se muda al nuevo centro comercial, ganará el 80% del mercado. Si ambas o ninguna
se mudan, continuarán dividiéndose el mercado en partes iguales.

27. Un distrito del Congreso está dividido en dos regiones. Hay un candidato demócrata y un can-
didato republicano compitiendo. Las regiones tienen 60 000 votantes y 40 000 votantes respec-
tivamente. Quedan 2 días de campaña y cada candidato puede pasar 0, 1 o 2 días en cada re-
gión. Los analistas políticos han estimado que si los candidatos pasan el mismo número de días
en una región, se dividirán los votos de dicha región. Sin embargo, si un candidato pasa 1 o 2
días más que su oponente en una región, obtendrá 53% o 57% de los votos de dicha región,
respectivamente.

28. En diversos experimentos, los cuervos y los periquitos han aprendido a reconocer números
hasta 7. Se propone el siguiente experimento: la dieta de un cuervo R y de un periquito C se de-
terminará mediante un juego de matrices. Se muestran tres cartas a cada ave, marcadas con 2,
4 y 7 puntos. Si cada ave elige la misma carta, entonces R recibe de la dieta de C un número de
gusanos equivalente a dos veces el número de puntos en la carta. Si las cartas elegidas son dife-
rentes, entonces C recibe de la dieta de R un número de gusanos igual a la diferencia del núme-
ro de puntos en la carta. Se asume que los movimientos se realizan de forma independiente.

29. Peter quiere llamar a su novia Roberta. Está planeando llamarla en la noche cuando el precio
de una llamada de 3 minutos de estación a estación es de 2 dólares y una llamada de 3 minutos
de persona a persona es de 4.50 dólares. Si Roberta no está en su casa, él sabe que puede lla-
marle al día siguiente en su trabajo y que pagará la tarifa diurna de 3 dólares para una llamada
de 3 minutos de estación a estación. Si hace una llamada de estación a estación y Roberta está
en su casa, Peter ahorra dinero. Por otro lado, si contesta la compañera de habitación de Ro-
berta y ella no está en su casa, Peter pierde dinero.

30. Un granjero cultiva tomates. Mientras más tiempo se quedan los tomates en el racimo, se pon-
drán más rojos y será más alto el precio que puede cobrar por bushel.6 Por otro lado, si llega una
helada, se echarán a perder algunos tomates y descenderá el precio promedio por bushel. Si

6
Un bushel es una unidad de volumen imperial (Reino Unido) y estadounidense que se usa para medir productos agrícolas; equivale
a 8 galones.
9.1 Juegos de dos personas: estrategias puras      13

corta los tomates el 25 de agosto, puede estar seguro de que no habrá helada y obtendrá un
precio promedio por bushel de 8 dólares. Si espera hasta el 5 de septiembre, obtendría 11 dóla-
res por bushel si no hay helada, y 5 dólares por bushel si hay una helada.
31. La empresa llantera Maxigrip Tire tiene un conflicto con su sindicato. Cada grupo (la gerencia
y los trabajadores) tiene una elección entre cuatro posturas de negociación: dura, mantenerse
firmes; un enfoque razonable basado en la lógica; dejar el asunto a los abogados para buscar
una solución legal al conflicto; ser conciliador. Un experto en relaciones laborales ha determi-
nado que la empresa pagará salarios semanales más altos dependiendo de las posiciones que
ella y el sindicato adopten. Las diversas posibilidades están dadas en la tabla.

Incremento semanal para la empresa llantera por trabajador (en dólares)


Posición
del sindicato
Dura Lógica Legal Conciliatoria
Posición
de la empresa
Dura 20 24 15 17

Lógica 35 30 26 28

Legal 15 23 20 30

Conciliatoria 40 35 23 28

¿Qué debe hacer el sindicato?


32. La Universidad de Montana (UM) juega futbol americano cada año contra la Universidad Es-
tatal de Montana (UEM). En un down, el mariscal de campo de la UM tiene la opción de cinco
jugadas: carrera halfback, carrera fullback, pase corto, pase largo y draw play. La defensa de
UEM tiene cuatro elecciones: defensa normal, defensa preventiva contra un pase largo, defensa
preventiva contra un pase corto, blitz. Un entrenador estimó el número aproximado de yardas
que se ganarían con todas las combinaciones de las opciones ofensivas y defensivas. Dichas
estimaciones están dadas en la tabla.

Yardas por ganar esperadas


UEM Preventiva Preventiva
Normal Blitz
UM (corto) (largo)
Carera HB  2 4 8  6

Carrera FB  5 5 7  9

Pase corto  4 0 6 –2
Pase largo  8 3 0 –4
Draw Play –1 2 4 10

¿Qué debe hacer cada equipo?


33. Demuestre que si una matriz de pagos tiene dos puntos de silla aij y akl, entonces aij = akl. [Pis-
ta: Anote la matriz A y explique qué está implicado en el hecho de que aij es el mínimo en el
i-ésimo renglón y el máximo en la j-ésima columna. Haga lo mismo para akl.]
14      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

9.2 Juegos de dos personas: estrategias mixtas


En la sección 9.1 se mostró cómo determinar las estrategias óptimas cuando un juego está estricta-
mente determinado. Sin embargo, a fin de demostrar que una estrategia es óptima es necesario res-
ponder a la pregunta “¿óptima con respecto a qué?”. En esta sección se demostrará cómo calcular el
rendimiento esperado para los jugadores en un juego. Entonces, una estrategia es óptima para R si
optimiza el rendimiento de R. Se iniciará con un ejemplo.

E JE M P LO 9.2 .1 Cálculo del rendimiento esperado


3 2
Considérese el juego cuya matriz de pagos es A =
( –2 4). ¿Cuál es el rendimiento esperado para
2
1 2 5
R si R adopta la estrategia p = (   ) y C adopta la estrategia q = ?
3 3 ( 3) 5

SOLUCIÓN ►   Aquí R tiene cuatro posibles rendimientos: 3, 2, –2 y 4. Recibirá 3 unidades,


1
por ejemplo, si elige el primer renglón (con probabilidad ) y C elige la primera columna (con
3
2
probabilidad ). Dado que se asume que ni R ni C saben lo que el otro está haciendo, los eventos
5
{1er. renglón} y {1a. columna} son independientes.7 Por lo tanto,
1 2 2
P(1er. renglón ∩ 1a. columna) = P(1er. renglón) ⋅ P(1a. columna) = ⋅ =
3 5 15
y tenemos
2
P(3) = P(rendimiento de 3) =
15
Igualmente,
1 3 1
P(2) = P(1er. renglón ∩ 2a. columna) =
⋅ =
3 5 5
2 2 4
P(–2) = P(2o. renglón ∩ 1a. columna) = ⋅ =
3 5 15
y
2 3 2
P(4) = P(2o. renglón ∩ 2a. columna) = ⋅ =
3 5 5
Ahora, si E(p, q) denota el valor esperado de la variable aleatoria que adopta valores iguales a los
posibles rendimientos de R, se tiene
E(p, q) = 3P(3) + 2P(2) + (–2)P(–2) + 4P(4)
2 1 4 2 28
=3⋅ + 2 ⋅ – 2 ⋅ + 4 ⋅ = ≈ 1.87
15 5 15 5 15
Ahora se observa que
2
1 2 3 2 5
pAq = (   )
3 3 ( –2 4)( 3)
5
12
1 2 5 12 16 28
=(   ) = + = ≈ 1.87
3 3 ( 5
) 15 15 15
8

7
Por definición, dos eventos A y B son independientes si P(A ∩ B) = P(A)P(B).
9.2 Juegos de dos personas: estrategias mixtas     15

El Ejemplo 1 puede generalizarse.


Supóngase que R utiliza estrategias p y que C utiliza estrategias q para el juego cuya matriz de Rendimiento
pagos es la matriz A de m × n. El rendimiento esperado para R, denotado por E(p, q), está dado por esperado

E(p, q) = rendimiento esperado = pAq (1)

Nota
EJ EMPLO 9.2. 2 Cálculo del rendimiento esperado Dado que A es una matriz de m × n y q
es un vector r de n componentes (una
¿Cuál es el rendimiento esperado para R en el juego de matrices de 3 × 4 matriz de n × 1), el producto Aq es una
matriz de m × 1 y pAq es entonces una
matriz de (1 × m) × (m × 1) = 1 × 1, o
2 –1 3 0 simplemente, un número real.
A= 3 –2 –1 2
( 1 4 3 –3)
1
4
1
1 1 1 8
a) si R adopta la estrategia (     ) y C adopta la estrategia ?
3 2 6
()
1
8
1
2

b) si R y C eligen el 2o. renglón y la 3a. columna, respectivamente?


1
SOLUCIÓN ►  4
2 –1 3 0 1
1 1 1 8
a) E(p, q) = (     ) 3 –2 –1 2
3 2 6
( 1 4 3 –3)
()
1
8
1
2
3
4
1 1 1 7
=(     ) 11
8
= = 0.875
3 2 6 8
( )– 38

0
0
b) Aquí p = (0 1 0) y q = . Entonces
()1
0

0
2 –1 3 0 3
0
E(p, q) = (0 1 0) 3 –2 –1 2 = (0 1 0) –1 = –1
( 1 4 3 –3) 1
0 () ( 3)

Esta es, por supuesto, la componente 2,3 de A.


La pregunta básica permanece: ¿Cómo eligen R y C las estrategias? Esta pregunta se responde
parcialmente mediante un resultado fundamental descubierto por Von Neumann.
16      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

Teorema 9.1.1 Teorema de Von Neumann


Para cualquier juego de matriz A de m × n, existen estrategias p0 y q0 y un número v tal que
E(p0, q) ≥ v para cualquier estrategia q y E(p, q0) ≤ v para cualquier estrategia p. Las estrate-
gias p0 y q0 se denominan estrategias óptimas para R y C, respectivamente, y el número v se
denomina el valor del juego.

¿Por qué p0 y q0 son óptimas? Porque si R elige p0 entonces sabe que ganará al menos v unidades. Si
elige alguna otra estrategia, entonces C puede elegir q0 y asegurar que R ganará cuando mucho v uni-
dades. De este modo, asumiendo que C juegue inteligentemente, a R puede irle mejor si elige la estra-
tegia p0. Un razonamiento similar demuestra que la estrategia óptima para C es q0.
Usando el teorema de Neumann es posible demostrar que

Si aij es un punto de silla, entonces el valor del juego es aij y las estrategias óptimas son las
estrategias puras de jugar el renglón i y la columna j con probabilidad 1.

Esto justifica jugar las estrategias puras dictadas por un punto de silla.
El teorema de Von Neumann es limitado en tanto que dice cuáles son las estrategias óptimas y
el valor del juego, pero no dice cómo calcularlos. Resulta que es relativamente sencillo calcularlos
cuando el juego de matrices es una matriz de 2 × 2. Otros casos resultan más difíciles y se discuten
en la siguiente sección.
Sea
a11 a12
A= (2)
( a21 a22)
Estrategias óptimas para un juego de matrices de 2 × 2. Si la matriz en (2) no está estrictamente de-
terminada, entonces las estrategias óptimas para R y C son

a22 – a21 a11 – a12


p0 = (  
(3)
a11 + a22 – a12 – a21 a11 + a22 – a12 – a21)

a22 – a21
a11 + a22 – a12 – a21
q0 = a11 – a12 (4)
( a11 + a22 – a12 – a21 )
El valor del juego es

a11a22 – a12a21
v= (5)
a11 + a22 – a12 – a21

En el problema 44 se pide demostrar por qué las ecuaciones (3), (4) y (5) son válidas.
9.2 Juegos de dos personas: estrategias mixtas      17

EJ EMPLO 9.2. 3 Estrategias óptimas para el juego de las monedas coincidentes

Determinar las estrategias óptimas y el valor del juego de las monedas coincidentes del ejemplo 9.1.1
ubicado al inicio del capítulo.

SOLUCIÓN ►  La matriz del juego es

Cara Cruz
Cara –1 1
Cruz ( 1 –1)

Entonces a11 = –1, a12 = 1, a21 = 1, a22 = –1 y, de (3), (4) y (5),


–1 – 1 –1 – 1 1 1
p0 = (  
=  
–1 – 1 – 1 – 1 –1 – 1 – 1 – 1) (2 2)

–1 – 1 1
–1 – 1 – 1 – 1 2
q0 = =
–1 – 1
( ) ()
1
–1 – 1 – 1 – 1 2

y
(–1)(–1) – (1)(1)
v= =0
–1 – 1 – 1 – 1
Por lo tanto, en este muy sencillo juego a R y C les irá mejor si eligen una cara o cruz con igual pro-
babilidad. El valor de este juego es cero.

Un juego es imparcial si su valor es cero. Juego imparcial


Las monedas coincidentes es un ejemplo de juego imparcial.

EJ EMPLO 9.2. 4 Estrategias óptimas para un juego de guerra

Para el juego de guerra del ejemplo 9.1.3 se modificarán los supuestos para obtener la tabla 9.3.

Tabla 9.3 Elecciones para japoneses y aliados


(número de días de bombardeo)
Elecciones
japonesas
Ruta del norte Ruta del sur
Elecciones
aliadas
Ruta del norte 2 1

Ruta del sur 1 3

¿Cuáles son ahora las estrategias óptimas?


2 1
SOLUCIÓN ►  La matriz del juego es ( y no hay un punto de silla, de modo que el
1 3)
juego no está estrictamente determinado. Tenemos a11 = 2, a12 = 1, a21, y a22 = 3. Por lo tanto
3–1 2–1 2 1
p0 = (  
=  
2 + 3 – 1 – 1 2 + 3 – 1 – 1) (3 3)
18      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

3–1 2
2+3–1–1 3
q0 = =
2–1
( ) ()
1
2+3–1–1 3

y
2·3–1·1 5
v=( =
2 + 3 – 1 – 1) 3
Esto significa que si este juego se repitiera muchas veces, ambos comandantes elegirían la ruta norte
2 1 5
del tiempo y la ruta sur del tiempo. Habría un promedio de días de bombardeo. Por supuesto,
3 3 3
este procedimiento no se realizará más de una vez. Por lo tanto, la interpretación correcta del vector
2 1 2
p0 = (   ) es que el General Kenney debe ir al norte con de probabilidad. Él podría hacer esto,
3 3 3
por ejemplo, colocando dos N y una S en una caja y elegir una letra aleatoriamente. Su número espe-
5
rado de días de bombardeo sería entonces ; sin embargo, él solo podría tener 1, 2 o 3 días de bom-
3
bardeo.

E JE M P LO 9.2 .5 Evaluación de riesgos en procedimientos médicos

Como es bien sabido, muchos procedimientos médicos involucran un riesgo considerable para el
paciente y solo deben asumirse cuando el paciente está expuesto a un riesgo mayor si no se le da
el tratamiento. ¿Cómo se determina en una situación dada qué riesgo es mayor? Este problema se
complica aún más cuando no hay una certeza completa de que el paciente padece la enfermedad
sospechada. Por ejemplo, con frecuencia se realiza una cirugía para extirpar tumores, incluso cuando
solo existe una posibilidad relativamente pequeña de que el tumor resulte maligno. ¿Qué tan grande
debe ser esta probabilidad antes de que pueda recomendarse la cirugía?
Para analizar esta cuestión, supóngase que la probabilidad de que un paciente tenga una enfer-
medad particular es q1. (Esta probabilidad ha sido determinada mediante el desempeño de varias
pruebas). El tratamiento para esta enfermedad es una operación importante. Si el paciente padece la
enfermedad pero no se le opera, puede esperar vivir 5 años, pero si el paciente se opera, puede esperar
vivir 20 años. Si el paciente no padece la enfermedad, puede esperar vivir 25 años con la operación y
30 años sin la operación. La decisión de operarlo o no evidentemente depende de q1, la probabilidad
de que el paciente padezca la enfermedad. Si q1 = 0, entonces el paciente no padece la enfermedad y
no debe operársele. Si q1 = 1, el paciente padece la enfermedad y debe operársele. ¿Cuál es el valor
más pequeño de q1 para el cual la operación es recomendable?

SOLUCIÓN ►  Este problema puede analizarse como un juego de matrices. Defina

20 25
A=
( 5 30)

como la matriz del juego. El paciente “juega” los renglones; el renglón 1 corresponde a hacerse la
operación y el renglón dos corresponde a no hacerse la operación. El oponente, la naturaleza, juega
las columnas; la columna 1 corresponde a enfermedad y la columna 2 corresponde a no enfermedad.
La estrategia de la naturaleza es

q1
q=
( 1 – q1 )
9.2 Juegos de dos personas: estrategias mixtas      19

donde q1 es la probabilidad de que el paciente padezca la enfermedad. El paciente debe jugar una es-
trategia pura, pero de momento, supóngase que la estrategia del paciente es p = (p1 p2) =
(p1 1 – p1). El rendimiento esperado (en años de vida) es

20 25 q1
E(p, q) = (p1 1 – p1)
( 5 30)( 1 – q1 )

20q1 + 25(1 – q1)


= (p1 1 – p1)
(  5q1 + 30(1 – q1) )
= 20p1q1 – 5p1 – 25q1 + 30

Si se opera al paciente, entonces p = (1 0) y E(p, q) = 25 – 5q1. Si no se opera, entonces p = (1 0)


y E(p, q) = 30 – 25q1. El paciente debe operarse si 25 – 5q1 > 30 – 25q1, es decir, si 20q1 > 5, o q1 >
0.25. Esto significa que el paciente debe operarse si la probabilidad de que padezca la enfermedad es
mayor al 25%. Si la información disponible indica que la probabilidad de la enfermedad es, por ejem-
plo, 15%, no debe realizarse la operación. Debe obtenerse más información antes de recomendar la
operación.

E J EMPLO 9. 2. 6 Eliminación de un renglón y una columna recesivos a fin de


determinar las estrategias óptimas

Considere un juego cuya matriz de pagos es

4 5 7
A= 1 2 4
( 5 8 3)
Este no es un juego de 2 × 2 y no tiene punto de silla, así que no está estrictamente determinado. Sin
embargo, el renglón 2 es recesivo. A R siempre le irá mejor si elige el renglón 1, así que nunca elegirá
el renglón 2. Igualmente, la columna 2 es recesiva y C nunca la elegirá. Al eliminar el renglón y la
columna recesivas, se obtiene

4 7
A′ =
( 5 3)

Las estrategias óptimas y el valor del juego son, de (3), (4) y (5),

4
2 3 5 23
p′0 = (   ),  q′0 =  y v =
()
5 6 1 5
5

Por lo tanto
4
5
2 3
p0 = (  0  ) y q0 = 0
5 5
(45)
23
son las estrategias óptimas para A. El valor del juego sigue siendo .
5
20      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

Se cerrará esta sección con un magnífico ejemplo del uso de la teoría de juegos aplicado a la fi-
losofía.8

E JE M P LO 9.2 .7 Libre albedrío

¿Jugamos un papel en la dirección de nuestras vidas? ¿O estamos destinados a llevar a cabo un plan
predestinado y movernos a lo largo de la banda transportadora del destino? Una de las columnas de
Martin Gardner que generó una respuesta considerable de sus lectores fue su discusión del libre albe-
drío y el determinismo, ilustrada por lo que se conoce como la paradoja de Newcomb.
La paradoja involucra la habilidad de un “Ser superior” para predecir el comportamiento con
exactitud. Este Ser puede ser un psíquico, un viajero del tiempo, Dios u otra entidad presente.
Una persona está frente a dos cajas. La caja A contiene 1 000 dólares; la caja B contiene ya sea
1 millón de dólares o nada. La persona puede tomar lo que está en ambas cajas, o puede tomar solo
lo que está en la caja B. En algún momento antes de que la persona tome una decisión, el Ser superior
hace una predicción acerca de la elección. Si el Ser cree que la persona solo tomará la caja B, enton-
ces pondrá 1 millón en ella. Si predice que la persona tomará ambas cajas, dejará la caja B vacía. El
Ser no es necesariamente infalible, pero es un predictor extremadamente exacto.
¿Cuál es la elección de la persona? Si toma ambas cajas, el Ser habrá predicho esto y dejado la
caja B vacía. Si la persona solo toma la caja B, obtendrá 1 millón de dólares. En su experiencia, el Ser
nunca se ha equivocado. Tomar la caja B parece ser la elección correcta.

El Ser El Ser
predice B predice A y B
Tomar B $1 000 000    $0

Tomar A y B $1 001 000 $1 000

Sin embargo, considérese otro argumento. El Ser hizo su predicción hace una semana, o tal vez el día
en el que la persona nació. O puso $1 millón en la caja B o no lo puso, y el dinero no desaparecerá.
Entonces tiene más sentido tomar ambas cajas, porque si la caja B tiene dinero, la persona obtiene
$1 001 000; si no, la persona al menos tiene $1 000. Si la persona solo toma la caja B, incluso hay una
remota posibilidad de que la persona no obtenga nada.
Gardner sugiere que una forma de considerar la paradoja es usar una matriz de pagos. Si se con-
sidera el resultado de ambas elecciones a la luz de las predicciones del Ser, parece que la mejor op-
ción es tomar ambas cajas; a esa opción le asigna el pago máximo más alto ($1 001 000) así como el
pago mínimo más alto ($1 000). Obsérvese que $1 000 es un punto de silla.
Sin embargo, otro enfoque de la teoría de juegos, multiplicar los diversos resultados de cada
elección por la probabilidad de que sucederán, resulta en la conclusión opuesta. Incluso si se asume
que el predictor está en lo correcto el 90% del tiempo, el rendimiento esperado de tomar ambas cajas
es 90% de $1 000 más 10% de $1 001 000, equivaliendo a $101 000. En otras palabras, si la persona
juega el juego diez veces, la toma promedio sería de $101 000. Tomar solo la caja B arroja el 90% de
$1 000 000 más 10% de cero, equivaliendo a $900 000. Es mejor solo tomar la caja B incluso si el Ser
está en lo correcto solo un poco más de la mitad del tiempo.
La paradoja está basada en los conceptos contradictorios del libre albedrío y el determinismo.
Para aquellos que sienten que sus elecciones están totalmente comprometidas con un presente futuro
o son completamente dependientes de lo que el pragmatista del siglo XIX, William James llamó el
“impulso del pasado”, la única elección es tomar la caja B, si así puede llamársele, porque un Ser
omnisciente o u viajero del tiempo estaría consciente de dichas fuerzas.

8
Usado con permiso de Martin Gardner. Para una discusión más amplia de la paradoja de Newcomb, ver capítulos 13 y 14 de Knotted
Doughnuts and Other Mathematical Entertainments de Gardner (W.H. Freeman & Co., 1986).
9.2 Juegos de dos personas: estrategias mixtas      21

Para aquellos que creen que pueden hacerse elecciones independientes —que existe, no importa
qué tan infinitesimal sea, una libertad de acción más allá de lo ordenado por el pasado o establecido
en el futuro— tomar ambas cajas es la acción correcta. Supóngase que la persona ha observado 1 000
intentos previos a su decisión, y cada persona que tomó la caja B recibió $1 millón, y aquellos que
tomaron ambas cajas encontraron vacía la caja B. Incluso, un amigo de la persona, capaz de ver el
contenido de ambas cajas antes de que la persona tome su decisión, sin importar qué hay en ellas, le
aconsejaría tomar ambas, porque ya sea que la caja B tenga o no $1 millón, la persona todavía saldría
ganando $1 000.
Isaac Asimov, en una respuesta a Gardner, escribió: “Sin duda, yo tomaría ambas cajas. Soy un
determinista, pero me queda perfectamente claro que cualquier ser humano digno de ser considerado
un ser humano (incluido con toda certeza yo mismo) preferiría el libre albedrío, si algo así existe…
Al menos así, usted habrá expresado su disposición a apostar por la no-omnisciencia [de Dios] y por
su propio libre albedrío… Sin embargo, si solo toma la segunda caja usted obtendrá su condenado
millón y no solo usted es un esclavo, pero también habrá demostrado su disposición a ser un esclavo
por ese millón, y usted no es alguien a quien yo reconozca como humano”.
Al parecer Martin Gardner disfruta más proponiendo paradojas como esta que resolviéndolas.
“Soy un indeterminista, lo que quiere decir que no soy un determinista”, asegura. “No creo que la
paradoja se haya explicado adecuadamente aún, pero no voy a perder sueño por eso”.

PROBLEMAS 9.2

En los problemas del 1 al 10 está dada la matriz de pagos de un juego. Encuentre el rendimiento es-
perado para R con el par de estrategias dadas p y q.
3 1
5 3 1 2 4 5 3 2
1. A =
( 3 6); p = (3 3), q = 2. A =
( 3 6); p = (1 0), q =
() ()
1 1
2 2

1 1
4 3
1 3 –1 1 4 1 1 3 –1 1
3. A = ; p = (   ), q = 4. A = ; p = (0 1), q =
(2 0 4) (2 0 4)
() ()
5 5 2 3
1 1
4 3

0
1 3 –1 2 1
5. A =
( 2 0 4); p = (3 3), q = 1
( 0)

1
3
2 –1 4 1
1 1 1
6. A = 5 7 3 ; p =     , q =
(3 3 3)
()
3
( 6 2 –2) 1
3

2 –1 4 0
1 1 1
7. A = 5 7 3 ; p = (     ), q = 0
( 6 2 –2) 2 3 6
( 1)
22      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

1
5
2 –1 4 2
1 1
8. A = 5 7 3 ; p = (0    ), q =
()
5
( 6 2 –2) 2 2
2
5
1
10
–3 4 2 3 1
1 3 5
9. A = –2 6 1 5 ; p = (  0  ), q =
( –4 0 6 7) 4 4
()
3
10
2
5

1
4
–3 4 2 3 1
1 3 1 4
20. A = –2 6 1 5 ; p = (     ), q =
( –4 0 6 7) 5 5 5
()
1
2
0

En los problemas 11 a 23 determine las estrategias óptimas y el valor de la matriz de juego dada. ¿Qué
juegos son imparciales?

2 –1 1 3 1 0
11. 12. 13.
( –1 2) ( 2 –1) ( –2 2)

1
2 – 12 0 1 1 –1
14. 15. 16.
( – 12 1) ( –1 0) ( –1 1)
2

1 3
–1 –1 2 2 3 5
17. 18. 19.
( 0 –2) ( 12 1) ( 2 6)

5 3 2
5 –3 7 4 2
20. 21. 22. 3 2 6
( –5 3) ( 5 3 6)
( 4 0 1)
5 8 4
3 7 1
23.
( 4
5
6
7
9
2 )
24. Suponga que la matriz de juego en el ejemplo 5 es

10 39
A=
( 5 40)
¿Cuál es el valor mínimo de probabilidad de que tiene el paciente padece la enfermedad para
la cual se puede recomendar la operación?
25. El modelo de toma de decisiones médicas en el ejemplo 5 puede estudiarse de forma más gene-
ral. Defina la matriz de juego
a11 a12
A=
( a21 a22)
9.2 Juegos de dos personas: estrategias mixtas      23

donde a11, a12, a21, y a22 son las duraciones esperadas de vida si el paciente se opera y padece
la enfermedad, se opera y no padece la enfermedad, padecer la enfermedad y no se opera o no
padece la enfermedad y no se opera, respectivamente. Asumiendo que el paciente desea maxi-
mizar la duración esperada de vida, demuestre que la operación puede recomendarse si la
probabilidad de que el paciente padezca la enfermedad es mayor que
a22 – a12
a11 + a22 – a12 – a21
[Pista: Compare el tiempo de vida esperado del paciente si se opera con la duración esperada
de vida si no se opera.]
26. Demuestre que el juego del problema 9.1.21 no es imparcial. ¿Cuál es su valor? ¿Qué estrategia
debe adoptar R?
27. Responda a las preguntas del problema 26 para el juego del problema 9.1.22.
28. En el problema 9.1.25, ¿qué debe hacer el dueño de la estación de gasolina A si sabe que el
dueño de la estación de gasolina B lanzará una moneda para determinar si baja o sube los pre-
cios?
29. Encuentre la estrategia óptima para el granjero en el problema 9.1.30 si la probabilidad de una
helada entre el 25 de agosto y el 5 de septiembre es de 0.5.
30. Responda a la pregunta en el problema 29 si la probabilidad de una helada es de 0.2.
31. Responda a la pregunta en el problema 29 si la probabilidad de una helada es de 0.9.
32. En una cierta región agrícola, el clima promedio durante la temporada de cultivo es ya sea frío
o cálido. Van a plantarse dos cosechas en una granja de 1 500 acres. Si la temporada de cultivo
el clima es frío, las ganancias esperadas son de 20 dólares por acre para la cosecha I, y de 10
dólares por acre para la cosecha II. Si la temporada de cultivo es cálida, las ganancias esperadas
son de 10 dólares por acre para la cosecha I, y de 30 dólares por acre para la cosecha II. Des-
criba la competencia entre el granjero y el clima como un juego de matrices. Si no hay informa-
ción disponible sobre las probabilidades de un clima frío o cálido, ¿cuál es la estrategia óptima
para el granjero?
33. Suponga que el clima en el problema 32 tiene la misma probabilidad de ser frío que de ser cá-
lido. ¿Cuántos acres de cada cosecha debe plantar el granjero?
34. En un experimento, un mono debe elegir uno de tres paneles para recibir un plátano. En cada
intento del experimento, el experimentador coloca ya sea dos plátanos detrás del panel I o un
plátano detrás de los paneles II y III. (Estos son los dos “movimientos” del experimentador).
Describa este experimento como un juego de matrices de 3 × 2. ¿Cuáles son las estrategias
óptimas para el mono y para el experimentador?
35. Si todas las componentes de una matriz de juego son positivas, demuestre que el valor del juego
es positivo.
*36. Dados dos juegos de matrices A = (aij) y B = (bij) de m × n, tales que bij = aij + k para todos
los i y todas las j, demuestre que el valor del juego de B es igual al valor del juego de A más la
constante k. Demuestre que las estrategias óptimas para R y C son las mismas que para B y
para A. (Se dice que los juegos de A y B son juegos de matrices equivalentes).
37. ¿Determine las estrategias óptimas y los valores de los juegos de matrices equivalentes

3 2 5 4
A=
( 2 –3) y B = ( 4 –1)
24      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

38. Establezca las estrategias óptimas y los valores de los juegos de matrices equivalentes

1 1 1 0 0 0
A= 2 2 3  y B = 1 1 2
( –2 4 5) ( –3 3 4)
39. Mientras la variable t aumenta de 0 a 1, ¿cómo cambian las estrategias óptimas en los siguientes
juegos?

t 0 1 2t t t2
a)  b) c)
( 0 1 – t) ( 0 t) ( 12 1)
4

40. Determine los valores de los juegos de matrices de 2 × 2 del problema 39 como funciones de t
para 0 ≤ t ≤ 1. ¿Para cuáles valores de t estos juegos son imparciales?
41. a) Demuestre que el juego de matrices de 2 × 2

t 1–t
(1 – t t )

no está estrictamente determinado para cualquier valor de t.


b) Demuestre que el valor de este juego es una constante independiente de t. Encuentre dicha
constante.
*42. a) Suponga que cada componente de p0A es mayor que o igual a v. Demuestre que E(p0, q) =
p0Aq ≥ v. [Pista: Utilice el hecho de que las componentes de q tienen una suma de 1.]
b) Si E(p0, q) ≥ v para cada estrategia q, demuestre que cada componente de p0A es mayor que
o igual a v. [Pista: Demuestre que la k-ésima componente de p0A es igual a E(p0, q), donde q
es el vector de columna con un 1 en la k-ésima posición y un 0 en todas las demás posicio-
nes.]
*43. Siguiendo un procedimiento similar al del problema 42, demuestre que cada componente de
Aq0 es menor que o igual a v si, y solo si, E(p, q0) ≤ v para cada estrategia p.
*44. Asuma que p0, q0, y v están dados por (3), (4) y (5), respectivamente.
a) Demuestre que p0A ≥ v y Aq0 ≤ v.
b) Utilice los resultados de los problemas 42 y 43 para concluir que (3) y (4) en verdad propor-
cionan estrategias óptimas y que v, dado por (5), es el valor del juego de matrices de 2 × 2.

9.3 Cadenas de Markov


En esta sección se discutirá una técnica matemática que se usa para modelar una gran variedad de
procesos en los negocios y las ciencias sociales, biológicas y físicas. La técnica, las cadenas de Markov,
fue desarrollada en 1906 por el matemático ruso A. A. Markov (1856–1922). En un principio, las
cadenas de Markov se usaron para analizar procesos en la física y en la meteorología. Una aplicación
inicial fue para predecir patrones del clima. Aplicaciones más recientes incluyen el análisis de los
movimientos de los precios de las mercancías, el mantenimiento de maquinaria de alto desempeño,
el comportamiento de animales de laboratorio, la selección de productos por los consumidores, la
longitud de las filas en supermercados y aeropuertos, la variedad y magnitud de inventarios y la ad-
ministración de plantas.
Antes de iniciar la discusión de las cadenas de Markov es necesario abundar en la discusión de
la probabilidad de la sección 9.1.
9.3 Cadenas de Markov      25

Sea E un evento (un resultado o un experimento) con P(E)> 0. Entonces la probabilidad condi- Probabilidad
cional de un evento A dado que E ha sucedido está denotada por P(A∣E) y está dada por condicional

P(A ∩ E)
P(A∣E) = (1)
P(E)

EJ EMPLO 9.3.1 Cálculo de probabilidades

Se lanzan dos dados imparciales (numerados del 1 al 6). ¿Cuál es la probabilidad de que
a) La suma sea 7?
b) La suma sea 7 dado que al menos uno de los números sea 2?

SOLUCIÓN ► 
a) Hay 36 posibilidades [(1, 1), (1, 2), …, (1, 6), (2, 1), …, (2, 6), …, (6, 1), (6, 2), …, (6, 6)]. De
estas, seis suman 7: (1, 6), 6, 1), (2, 5), 5, 2), (3, 4), (4, 3). Por lo tanto
6 1
P(7) = =
36 6
b) Se ha dicho que hay al menos un 2. Por lo tanto, los únicos resultados posibles son (2, 1), (2, 2),
(2, 3), (2, 4), (2, 5), (2, 6), (1, 2), 3, 2), (4, 2), (5, 2), y (6, 2). De estos resultados igualmente
posibles, solamente dos suman 7: (2, 5) y (5, 2). Por lo tanto
2
P(7∣ al menos un 2) =
11
Puede obtenerse esta respuesta mediante la fórmula de la probabilidad condicional.
P(7 y al menos un 2)
P(7∣ al menos un 2) =
P(al menos un 2)
2
36 2
= =
11 11
36
Nota
Los resultados en este ejemplo pueden representarse mediante un diagrama de árbol.
Esto se muestra en la figura 9.1. De hecho, en cualquier momento que se tiene un ex- El evento 7 y al menos un 2 sucede en
perimento de dos (o más) partes las diversas probabilidades pueden representarse dos sentidos: (2, 5) y (5, 2), así que su
mediante un diagrama de árbol. Los diagramas de árbol se utilizan para ilustrar la 2
probabilidad es .
teoría de las cadenas de Markov. 36
De la ecuación (1) puede obtenerse otro resultado útil.

Teorema de multiplicación

P(A ∩ E) = P(A∣E)P(E) (2)

EJ EMPLO 9.3. 2 Cálculo de probabilidad usando el teorema de multiplicación

En una cierta ciudad, 60% de los votantes registrados son demócratas mientras que 40% son republi-
canos. 80% de los demócratas y 35% de los republicanos apoyan la prohibición de armas de fuego.
¿Cuál es la probabilidad de que un votante seleccionado de forma aleatoria apoye la prohibición de
armas de fuego?
26      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

Primer dado Segundo dado Resultado Suma


1/6
1 (1, 1)  2
1/6
1/6
2 (1, 2)  3
3 (1, 3)  4
1 1/6
1/6
3 (1, 4)  5
1/6 5 (1, 5)  6
6 (1, 6)  7
1 (2, 1)  3
2 (2, 2)  4
1/6 3 (2, 3)  5
2
1/6 3 (2, 4)  6
5 (2, 5)  7
6 (2, 6)  8
1 (3, 1)  4
2 (3, 2)  5
1/6 3 (3, 3)  6
3
3 (3, 4)  7
5 (3, 5)  8
6 (3, 6)  9
1/6
1 (4, 1)  5
2 (4, 2)  6
3 (4, 3)  7
4
1/6 3 (4, 4)  8
5 (4, 5)  9
6 (4, 6) 10
1 (5, 1)  6
2 (5, 2)  7
1/6 3 (5, 3)  8
5
3 (5, 4)  9
5 (5, 5) 10
6 (5, 6) 11
1 (6, 1)  7
Figura 9.1 2 (6, 2)  8
Diagrama de árbol que 3 (6, 3)  9
6
muestra los resultados 3 (6, 4) 10
posibles cuando se lanzan 5 (6, 5) 11
dos dados.   6 (6, 6) 12

SOLUCIÓN ►  Sea D el evento {demócrata}, R el evento {republicano}, y B el evento {apoya la


prohibición de armas de fuego}. Entonces la información en el problema puede anotarse como sigue:

P(D) = 0.6  P(R) = 0.4  P(B∣D) = 0.8  P(B∣R) = 0.35

Se pide encontrar P(B). Hay dos formas de obtener B (ver figura 9.2):

B = (B ∩ D) ∪ (B ∩ R)

Votantes registrados

B B

D R
B∩D B∩R
Figura 9.2
Un diagrama de Venn que
muestra los conjuntos D
(demócratas), R (republica-
nos), B, B ∩ D y B ∩ D.  
9.3 Cadenas de Markov      27

Entonces

de (2)

P(B) = P(B ∩ D) + P(B ∩ R) = P(B∣D)P(D) + P(B∣R)P(R)
= (0.8)(0.6) + (0.35)(0.4) = 0.62

Hay otra forma de representar este resultado. La información en el problema está dada en el diagra-
ma de la figura 9.3.

0.8 B∣D

D
0.6

Figura 9.3
0.35 B∣R
Diagrama de árbol que
muestra las probabilidades en
0.4
R
el problema de la prohibición
de armas de fuego.  

El evento {apoya prohibición} = B puede obtenerse ya sea a través de D o a través de R. Por lo tanto
puede multiplicarse a través del árbol para obtener

P(B) = (0.6)(0.8) + (0.4)(0.35) = 0.62

Esto puede hacerse debido al teorema de multiplicación.

Ahora se iniciará la discusión de las cadenas de Markov.


Antes de ofrecer definiciones generales, se iniciará con un ejemplo.

EJ EMPLO 9.3. 3 Una cadena de Markov procedente de los negocios

La empresa de banquetes Gourmet tiene 40% del negocio de banquetes en una cierta ciudad mediana.
Su única competencia, Delicious Foods Services (DFS) tiene el otro 60%. Para ser más competitiva,
Gourmet contrata a una agencia de publicidad para impulsar su imagen. Durante una amplia campa-
ña publicitaria se recopilaron las cifras de ventas mensuales. Se encontró que 90% de los clientes de
Gourmet regresan a Gourmet al siguiente mes, mientras que el 20% de los clientes de DFS se cam-
bian a Gourmet.
a) ¿Qué porcentaje de clientes usa cada servicio después de 1 mes?
b) ¿Qué porcentaje usa cada servicio cada 2 meses?
c) ¿Cuál es la cuota de mercado de largo plazo para cada servicio?

SOLUCIÓN ►  Este problema se soluciona en varios pasos. Primero, se presenta alguna termi-
nología. En el lenguaje de las cadenas de Markov el mercado de servicio de banquetes en la ciudad
del ejemplo es un sistema en el cual hay dos estados: Gourmet y DFS. Un cliente de los banquetes
está en el estado Gourmet si usa los servicios de Gourmet. En el caso contrario, está en el estado
DFS. Las probabilidades de moverse de un estado a otro se llaman probabilidades de transición. Para
este problema, las probabilidades de transición se indican en la figura 9.4. Las cuatro probabilidades
en las ramas de la derecha del árbol son todas probabilidades condicionales. Anotando esto se tiene
28      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

Después de un mes
Al inicio Gourmet
0.9 0.4 × 0.9 = 0.36
(G1)
Gourmet
0.4 (G)
0.1 DFS1 0.4 × 0.1 = 0.04

Figura 9.4 Gourmet


0.2 0.6 × 0.2 = 0.12
Diagrama de árbol que 0.6 (G1)
muestra las probabilidades DFS
en el problema de
banquetes.   0.8 DFS1 0.6 × 0.8 = 0.48

P(Gourmet ∣Gourmet) = 0.9


P(DFS ∣Gourmet) = 0.1
P(Gourmet ∣DFS) = 0.2
P(DFS ∣DFS) = 0.8
a) Al multiplicar a través del árbol, se obtiene (denotando una preferencia por Gourmet después de
1 mes mediante G1 y una preferencia por DFS después de 1 mes mediante DFS1)

P(G1) = P(G1∣G)P(G) + P(G1∣DFS)P(DFS)


= (0.9)(0.4) + (0.2)(0.6) = 0.36 + 0.12 = 0.48

P(DFS1) = P(DFS1∣G)P(G) + P(DFS1∣DFS)P(DFS)


= (0.1)(0.4) + (0.8)(0.6) = 0.04 + 0.48 = 0.52

Por lo tanto, después de 1 mes 48% de los clientes de banquetes eligen Gourmet y 52% eligen
DFS. Obsérvese que 0.48 + 0.52 = 1.
Es posible obtener esta respuesta de otra forma. Se define al vector de probabilidad inicial p0
por p0 = (0.4 0.6). Se define a la matriz de transición T por

    Hacia
Desde  G DFS
G 0.9 0.1
T=
DFS ( 0.2 0.8)

La matriz de transición exhibe las probabilidades de pasar de un estado a otro durante un intento
del experimento. Por lo tanto, por ejemplo, la componente 1,2 de T es la probabilidad de pasar del
estado 1 (Gourmet) al estado 2 (DFS) en un mes.
Ahora obsérvese que

0.9 0.1
p0T = (0.4 0.6)
( 0.2 0.8) = (0.48 0.52) = p1

es el vector de probabilidad de proporciones después de 1 mes. Debe explicar por qué tomar el
producto de p0T arroja el mismo resultado que multiplicar a través del diagrama de árbol.
b) Hay dos formas de obtener p2, el vector de proporciones después de 2 meses. Primero, puede
trazarse un diagrama de árbol como en la figura 9.5. Al multiplicar a través del árbol se obtiene
9.3 Cadenas de Markov      29

Después de dos meses

Después de un mes 0.9 G2 0.4 × 0.9 × 0.9 = 0.324


G1
Al inicio 0.9 0.1 DFS2 0.4 × 0.9 × 0.1 = 0.036
G
G1 0.2 G2 0.4 × 0.1 × 0.2 = 0.008
0.4 0.1
DFS1
DFS1 0.8 DFS2 0.4 × 0.1 × 0.8 = 0.032

0.9 G2 0.6 × 0.2 × 0.9 = 0.108


G1
0.6 0.2
0.1 DFS2 0.6 × 0.2 × 0.1 = 0.012
Figura 9.5
DFS
Diagrama de árbol que
muestra las probabilidades 0.2 G2 0.6 × 0.8 × 0.2 = 0.096
en el problema de
0.8
DFS1
banquetes después de 2
meses.   0.8 DFS2 0.6 × 0.8 × 0.8 = 0.384

P(G2) = (0.4)(0.9)(0.9) + (0.4)(0.1)(0.2) + (0.6)(0.2)(0.9)


+ (0.6)(0.8)(0.2) = 0.536

P(DFS2) = (0.4)(0.9)(0.1) + (0.4)(0.1)(0.8) + (0.6)(0.2)(0.1)


+ (0.6)(0.8)(0.8) = 0.464

Por lo tanto, p2, el vector de proporciones después de 2 meses, está dado por

p2 = (0.536 0.464)

Obsérvese que 0.536 + 0.464 = 1. Alternativamente, por el mismo razonamiento que en la parte
a), se encuentra que

0.9 0.1
p2 = p1T = (0.48 0.52)
( 0.2 0.8) = (0.536 0.464)

c) De las partes a) y b) se concluye que

p1 = p0T
p2 = p1T = (p0T)T = p0T 2
p3 = p2T = (p0T 2)T = p0T 3
p4 = p3T = p0T 4

y así en adelante. Por ejemplo

0.9 0.1
p3 = p2T = (0.536 0.464)
( 0.2 0.8) = (0.5752 0.4248)
30      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

Mediante un programa de cálculo se obtienen los resultados de la tabla 9.4. Parece que en la
medida que n (el número de meses) aumenta, las proporciones se acercan al vector de probabili-
dad fijo
2 1
t = (0.6666… 0.3333…) = (   )
3 3
A este se le llama un vector fijo para la matriz de probabilidad T porque

2 1 0.9 0.1 2 1
tT = (   ) =(   )=t
3 3 ( 0.2 0.8) 3 3

Es decir, el vector t no cambia cuando se multiplica a la derecha por la matriz T. Por lo tanto, se
2
concluye que las proporciones de largo plazo de las cuotas son , o 67 %, del mercado para Gour-
3
1
met y , o 33 %, del mercado para DFS.
3

Tabla 9.4
Vector de probabilidad
Mes n (o proporción)
después de n meses
(Inicial)  0 (0.4 0.6)

1 (0.48 0.52)

2 (0.536 0.464)

3 (0.5752 0.4248)

4 (0.60264 0.39736)

5 (0.621848 0.378152)

7 (0.64470552 0.35529448)

10 (0.6591339934 0.3408660066)

15 (0.6654006503 0.3345993497)

20 (0.6664538873 0.3335461127)

25 (0.6666309048 0.3333690952)

30 (0.6666606562 0.3333393438)

40 (0.6666664969 0.3333335031)

Antes de dar ejemplos adicionales, se discutirán algunas propiedades generales de las matrices
de probabilidad y de las cadenas de Markov.
Matriz de La matriz P = (pij) de n × n es una matriz de probabilidad si cada uno de sus renglones es un
probabilidad vector de probabilidad. Esto significa que todas sus componentes son positivas y la suma de las com-
ponentes en cada renglón de P es 1.

E JE M P LO 9.3.4 Cinco matrices de probabilidad

Las siguientes son matrices de probabilidad.


9.3 Cadenas de Markov      31

1 1 1
1 1 4 4 2 1 0 0
1 0 1 1 5
a)   b)  2 2   c) 
0 1 0   d) 
( 12 12) ( 14 3)
(1 ) (0 1)
4 3 12
4 1 1
3 3 3 0
1 1
0 2 0 2
1 1 1 5
6 3 12 12
e) 1 1 1 1

( 4
1
7
4 4 4
3 2 1
7 7 7
)
Teorema 9.3.1

Sea p un vector de probabilidad de n componentes y sean P = (pij) y Q = (qij) matrices de


probabilidad de n × n. Entonces
i) pP es un vector de probabilidad.
ii) PQ es una matriz de probabilidad.
Es decir,
El producto de un vector de probabilidad (a la izquierda) y una matriz de probabilidad (a la
derecha) es un vector de probabilidad.
El producto de dos matrices de probabilidad es una matriz de probabilidad.

Demostración

i) El vector de probabilidad dado es p = (p1, p2, …, pn) y la matriz de probabilidad dada es


P = (pij) de n × n. Defina el vectror r = pP. Entonces
p11 p12 ⋯ p1n
p21 p22 ⋯ p2n
r = pP = (p1, p2, …, pn)
⋮ ⋮ ⋮
(pn1 pn2 ⋯ pnn
)
= (p1 p11 + p2 p21 + … + pn pn1, …, p1 p1n + p2 p2n + … + pn pnn)

En otras palabras, r = pP es vector de renglón de n componentes, r = (r1, r2, …, rn), con


la i-ésima componente ri = p1 p1i + p2p2i + … + pn pni. Cada ri es positiva dado que es la
suma de números no negativos. Para demostrar que r es un vector de probabilidad, se
debe demostrar que la suma de las componentes es 1.
n n
∑ ri = ∑ (p1 p1i + p2 p2i + … + pn pni)
i=1 i=1

n n n
= ∑ p1 p1i + ∑ p2 p2i + … + ∑ pn pni
i=1 i=1 i=1

n n n
= p1 ∑ p1i + p2 ∑ p2i + … + pn ∑ pni
i=1 i=1 i=1

= p1 + p2 + … + pn = 1
32      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

dado que ∑ni =1 pij, la suma de las componentes en el j-ésimo renglón de una matriz de
probabilidad, es 1 para j = 1, 2, …, n.
ii) Si P = (pij) y Q = (qij) son matrices de probabilidad de n × n, la matriz del producto PQ
es una matriz de probabilidad de n × n.
Defina el producto de la matriz R = PQ = (rij). Esta es una matriz de n × n cuya
ij-ésima componente es rij = ∑nk =1 pik qkj. Dado que las componentes de P y de Q son no
negativas, las componentes de R = PQ son positivas. La suma de las componentes en el
i-ésimo renglón de R es
n n n n n
∑ rij = ∑ ∑ pik qkj = ∑ ∑ pik qkj
j=1 j=1 k=1 k=1 j=1

n n n
= ∑ pik ∑ qkj = ∑ pik = 1
k=1 ( k=1 ) k=1

En esta demostración se ha revertido el orden de la doble suma y se han usado los hechos
de que ∑nk =1 pik = ∑nj =1 qkj = 1 dado que P y Q son matrices de probabilidad. Se ha
demostrado así que PQ es una matriz de probabilidad.

E JE M P LO 9.3.5 El producto de un vector de probabilidad y una matriz


de probabilidad es un vector de probabilidad
1 1 1
4 4 2
1 1 3
Sea p = (     ) y P = 0 1 0 . Verifique que pP es un vector de probabilidad.
8 2 8
(1 1 1)
3 3 3

SOLUCIÓN ► 
1 1 1
4 4 2
1 1 3 5 21 3
pP = (     ) 0 1 0 =(    
32 32 16 )
8 2 8
(1 1 1 )
3 3 3

5 21 3
es un vector de probabilidad dado que + + = 1.
32 32 16

E JE M P LO 9.3.6 El producto de dos matrices de probabilidad es una matriz


de probabilidad
1 1 1
4 4 2 1 0 0
Sea P = 0 1 0 yQ= 1 1 5 .
(1 ) (0 1)
4 3 12
1 1
3 3 3 0
Verifique que PQ es una matriz de probabilidad.

SOLUCIÓN ► 
1 1 1 5 1 29
4 4 2 1 0 0 16 12 48
PQ = 0 1 0 = 1 1 5 = 1 1 5

(1 1) (0 1) ( )
4 3 12 4 3 12
1 5 1 17
3 3 3 0 12 9 36
9.3 Cadenas de Markov      33

5 1 29 1 1 5 5 1 17
Las componentes de PQ son todas no negativas. También, + + = + + = + +
16 12 48 4 3 12 12 9 36
= 1. Por lo tanto, PQ es una matriz de probabilidad.

Para definir una cadena de Markov, considérese un experimento con un espacio muestral finito
S = {E1, E2, …, En}. Considérese una secuencia (o cadena) de intentos de este experimento. Se dice
que el experimento está en el estado Ei en el m-ésimo intento si Ei es el resultado del m-ésimo intento Estado
del experimento.

D Definición 9.3.1
Cadena de Markov Una secuencia de intentos de un experimento es una cadena de Markov si
1. El resultado del m-ésimo intento solamente depende del resultado del (m – 1)-ésimo inten-
to y no del resultado de intentos anteriores, y
2. La probabilidad de pasar del estado Ei al estado Ej en dos intentos sucesivos del experimen-
to no cambia.

Por ejemplo, si la probabilidad de pasar del estado E2 a E4 en el tercer intento es 0.6, entonces la
probabilidad de pasar de E2 a E4 en el cuarto, décimo o décimo quinto intento también es 0.6.
Nótese que en el ejemplo 3 se asumió que la probabilidad de que un cliente eligiera Gourmet en
un mes particular dependía solamente de la empresa de banquetes que había elegido el mes anterior.
Si el clima de hoy depende solamente del clima de ayer, entonces los problemas de observar y
predecir el clima son un problema que involucra a las cadenas de Markov. Si la probabilidad de elegir
una marca particular de automóvil en la próxima compra depende solamente de automóvil que se
tiene actualmente, entonces el análisis de los patrones de venta es un problema que involucra a las
cadenas de Markov.
Por otro lado, si el clima de hoy está determinado por el clima de varios días pasados, entonces
ya no se tiene una cadena de Markov. Igualmente, si en la compra del próximo automóvil se toman
en consideración los últimos tres autos adquiridos, entonces el análisis del patrón de automóviles no
involucra a una cadena de Markov. Esto resulta así porque la probabilidad de elegir una marca de
automóvil en el m-ésimo intento del experimento (el m-ésimo automóvil) depende de las elecciones
para el (m – 1), (m – 2) y (m – 3) automóviles (las últimas tres elecciones).
Una cadena de Markov se caracteriza por las probabilidades de que el sistema pase de un estado
a cualquier otro estado en intentos sucesivos.
La matriz de transición de una cadena de Markov es la matriz de probabilidad T = (pij) de n × n Matriz de
cuya ij-ésima componente pij es la probabilidad de que el sistema pase del estado Ei al estado Ej en transición de una
intentos sucesivos del experimento. cadena de Markov

EJ EMPLO 9.3.7 Una matriz de transición

0.9 0.1
En el ejemplo 3 la matriz de transición es T =
( 0.2 0.8).
Esto significa, por ejemplo, que la probabilidad de pasar del estado 1 (Gourmet) al estado 2 (DFS)
es 0.1.

Sea T la matriz de transición de una cadena de Markov. Dado que el producto de dos matrices
2 3 2 4 5
de probabilidad es una matriz de probabilidad, resulta que las matrices T = TT, T = T T, T , T , …
son todas matrices de probabilidad.
34      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

D Definición 9.3.2
Matriz regular y cadena de Markov regular Una matriz de probabilidad es regular si todas las
m
componentes de al menos una de sus potencias T son estrictamente positivas (mayores que
cero). Una cadena de Markov es regular si su matriz de transición es regular.

E JE M P LO 9.3.8 Determinación de si una matriz es una matriz de transición para una


cadena de Markov regular

¿Cuáles de las siguientes matrices son matrices de transición para una cadena de Markov regular?
1 1 3 1 1
1 1 1 1
0 2 2 5 5 5
a) 2 2   b)  2 2   c)  1 1   d)  1 1 1
0
( 13 2) (0 1) ( 0) ( )
2 2 4 2 4
3 1 1 1 1 1
2 2 4 4 2

SOLUCIÓN ► 
1 1
a) T = 2 2 es regular porque todas sus componentes son positivas.
( 13 2)
3
1 1 1 1 1 3
b) T 2 = 2 2 2 2 = 4 4 ,
( 0 1)( 0 1) ( 0 1)
1 7 1 15
T3 = 8 8 ,   T 4 = 16 16 ,
( 0 1) ( 0 1)
m
y así en adelante. Dado que siempre hay un cero en la posición 2,1 en T , se concluye que T no
es regular.
1 1 1 1 1 1 1
0 2 2 0 2 2 2 4 4
c) T 2 = 1
0 1 1
0 1 = 1 1 1

( 0)( 0) ( )
2 2 2 2 4 2 4
1 1 1 1 1 1 1
2 2 2 2 4 4 2

entonces T es regular.
d) Las componentes son todas positivas, entonces T es regular.

¿Por qué se estudian las cadenas de Markov regulares? En el ejemplo 1 se observó que la cadena
0.9 0.1
de Markov regular (regular porque T =
( 0.2 0.8) tiene todas las componentes positivas) tenía un
2 1 n
vector de probabilidad fijo t = (   ) y que el vector de probabilidad pn = p0T se acercaba a t a
3 2
medida que n se hacía más grande. Esto no es accidental.

Teorema 9.3. 2
Existencia de un vector de probabilidad fijo
Si T es una matriz de probabilidad regular, entonces existe un único vector de probabilidad t
n
tal que tT = t. Además, para cualquier vector de probabilidad p, el vector de probabilidad pT
se acerca cada vez más a t a medida que n aumenta. Al vector fijo t se le llama la distribución
estacionaria de la cadena de Markov regular cuya matriz de transición es T. Además, a medida
n
que n aumenta, cada renglón de T se acerca al vector fijo t.
9.3 Cadenas de Markov      35

Se presenta una demostración parcial del teorema 9.3.2 al final de la sección.

EJ EMPLO 9.3. 9 Encontrando vectores fijos

Encuéntrese el vector fijo para cada matriz regular.


3 1 1
1 1 5 5 5
a) 2 2   b)  1 1 1
( 13 2)
3 (
4
1
2
1
4
1 )
4 4 2

SOLUCIÓN ►  Se busca un vector de probabilidad t tal que tT = t. Si t = (x y), se resuelve la


ecuación
1 1
(x y) 2 2 = (x y)
( 13 2)
3
o
1 1 1 2
(2x + 3y 2x + 3y) = (x y)
Igualando componentes, se obtiene
1 1
x+ y=x
2 3
1 2
x+ y=y
2 3
o
1 1
– x+ y=0
2 3
1 1
x– y=0
2 3
También, dado que t es un vector de probabilidad, deben tenerse x + y = 1. Esto conduce al sistema
1 1
– x+ y=0
2 3
1 1
x– y=0
2 3
x +   y = 1
Simplificando renglones se obtiene, sucesivamente,

– 12 1
3
∣ 0 1 – 23 ∣ 0 R2 → R2 – 12R1 1 – 23 ∣ 0
R1 → –2R1 R3 → R3 – R1
1
2 – 13 ∣ 0 1
2 – 13 ∣ 0 0 0 ∣ 0
( 1 1 ∣ 1) (1 1 ∣ 1) (0 3
5
∣ 1)
1 – 23 ∣ 0 1 0 ∣ 2
5 1 0 ∣ 2
5
9
R3 → 35R3 R1 → R1 – 23R3 R2 ⇄ R3
0 0 ∣ 0 0 0 ∣ 0 0 1 ∣ 3
5
.
(0 1 ∣ 3
5
) (0 1 ∣ 3
5
) (0 0 ∣ 0 )
2 3 2 3
Por lo tanto x = , y = , lo que da el vector único de probabilidad t = (   ).
5 5 5 5

9
La notación R2 ⇄ R3 significa intercambio entre el renglón 2 y el renglón 3.
36      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

1 1
2 3 2 3
Comprobación. tT = (   ) 2 2 =(   )=t
5 5 (1 2) 5 5
3 3
b) Resolviendo
3 1 1
5 5 5
t = (x y z) = tT = (x y z) 1 1 1

( )
4 2 4
1 1 1
4 4 2

o
3 1 1 1 1 1 1 1 1
(x y z) = ( x + y + z  x + y + z  x + y + z)
5 4 4 5 2 4 5 4 2
o
3 1 1
x+ y+ z=x
5 4 4
1 1 1
x+ y+ z=y
5 2 4
1 1 1
x+ y+ z=z
5 4 2
Entonces, junto con la condición x + y + z = 1, se obtiene el sistema

  x +  y +  z = 1
2 1 1
– x+ y+ z=0
5 4 4
1 1 1
  x– y+ z=0
5 2 4
1 1 1
  x+ y– z=0
5 4 2
Ahora se simplifican renglones:
R2 → R2 + 25R1
1 1 1 ∣ 1 1 1 1 ∣ 1
R3 → R3 – 15R1
– 25 1
4
1
4
∣ 0 R4 → R4 – 15R1 0 13
20
13
20
∣ 2
5
1
– 12 1 ∣ 0 0 7
– 10 1 ∣ – 15
( 5
1
5
1
4
4
– 12 ∣ 0 ) (0 1
20
20
7
– 10 ∣ – 15 )
1 1 1 ∣ 1
R2 → 20
13R2
0 1 1 ∣ 8
13
0 7
– 10 1 ∣ – 15
(0 1
20
20
7
– 10 ∣ – 15)
R1 → R1 – R2
7 1 0 0 ∣ 5
13
R3 → R3 + 10 R2
1
R4 → R4 – 20 R2 0 1 1 ∣ 8
13
0 0 3 ∣ 3

(0 0
4
– 34 ∣
13
3
– 13 )
9.3 Cadenas de Markov      37

1 0 0 ∣ 5
13
R3 → 43R3 0 1 1 ∣ 8
13
0 0 1 ∣ 4

(0 0 – 34 ∣
13
3
– 13 )
1 0 0 ∣ 5
13
R2 → R2 – R3
R4 → R4 + 34R3 0 1 0 ∣ 4
13
0 0 1 ∣ 4

(0 0 0 ∣
13
0 )
5 4 4 5 4 4
Por lo tanto x = , y = , z = , y t = (     ).
13 13 13 13 13 13

3 1 1
5 5 5
5 4 4 5 4 4
Comprobación. tT = (     ) 1 1 1 =(     )   Observación
( )
13 13 13 4 2 4 13 13 13
1 1 1
4 4 2 Para la matriz en la parte a) de este
ejemplo se usa una calculadora para
calcular algunas potencias de T.
1 1
0.5 0.5
T= 2 2 =
( 13 2) (0.3333… 0.6666… )
3
7 7
2 0.4166… 0.5833…
T = 12 12 =
( 18
11 11 ) (0.3888… 0.6111… )
18

4 2 2 0.400462963 0.599537037
T =T T ≈
(0.399691358 0.600308642 )

8 4 4 0.4000003572 0.5999996428
T =T T ≈
(0.3999997618 0.6000002382 )

2 3
16 8 8 0.4 0.6
T =T T ≈ = 5 5
( 0.4 0.6) ( 2 3)
5 5

m 0.4 0.6
T =
( 0.4 0.6)  para m > 16  ¡Revise!

Las últimas dos matrices son correctas hasta diez decimales.


Ahora, sea p = (a b) cualquier vector de probabilidad. Entonces para m > 16

m 0.4 0.6
pT = (a b)
( 0.4 0.6) = (0.4a + 0.4b 0.6a + 0.6b)
= (0.4(a + b) 0.6(a + b))

m 2 3
Dado que a + b = 1, se observa que, hasta diez decimales, pT = (0.4 0.6) = (   ) para cual-
5 5
quier vector de probabilidad p inicial.
38      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

E JE M P LO 9.3.10 Un experimento de laboratorio

Se coloca a un ratón dentro de una caja dividida en tres compartimentos, como se muestra en la figu-
ra 9.6. Ante la ausencia de más información, es razonable suponer que el ratón elegirá una puerta
aleatoriamente para pasar de un compartimento a otro. Si este supuesto es válido, puede esperarse
que a la larga el ratón esté en cada uno de los tres compartimentos con la misma frecuencia. Wecker
describió una serie de experimentos con ratones ciervos que puede analizarse en estos términos.10 Al
permitir que el ratón se mueva entre los compartimentos, la mitad en campo abierto y la mitad en un
área boscosa, Wecker pudo estudiar la fuerza de la preferencia del ratón ciervo por el habitat del
campo por sobre el habitat boscoso.

II

Figura 9.6 III


Una caja con tres
compartimentos.  

Puede analizarse la situación del ratón en términos de una cadena de Markov y demostrar que,
a la larga, es válida la intuición de que el ratón pasará cantidades de tiempo iguales en cada uno de
los compartimentos. Los tres estados obvios en este ejemplo son los compartimentos I, II, y III. Dado
1
que es igualmente posible que se elijan todas las puertas, la probabilidad es a que el ratón se move-
2
rá a uno o los dos compartimentos en los que no está. Esto arroja una matriz de transición

1 1
0 2 2
T= 1
0 1

( 0)
2 2
1 1
2 2

Dado que

1 1 1
2 4 4
2
T = 1 1 1

( )
4 2 4
1 1 1
4 4 2

T es regular y tiene un único vector de probabilidad fijo t = (x y z); entonces x + y + z = 1 y

1 1
0 2 2
(x y z) 1
0 1 = (x y z)
( 0)
2 2
1 1
2 2

10
Wecker, Stanley C. "HABITAT SELECTION." Scientific American 211, no. 4 (Oct 1964): 109-17.
9.3 Cadenas de Markov      39

o
1 1
    
y+ z=x
2 2
1      1
x + z=y
2 2
1 1
x + y      = z
2 2
o
 x +  y +  z = 1
1 1
–x + y + z = 0
2 2
1 1
x –  y + z = 0
2 2
1 1
x + y –  z = 0
2 2
Simplificando renglones se obtiene
R2 → R2 + R1
1 1 1 ∣ 1 1 1 1 ∣ 1
R3 → R3 – 12R1
–1 1 1 ∣ 0 R4 → R4 – 1 0 3 3 ∣ 1
2 2 2R1 2 2
1
–1 1 ∣ 0 0 – 32 0 ∣ – 12
( 2
1
2
1
2
2
–1 ∣ 0 ) (0 0 – 32 ∣ – 12 )
1 1 1 ∣ 1
R2 → 32R2 0 1 1 ∣ 2
3
0 – 32 0 ∣ – 12
(0 0 – 32 ∣ – 12 )
1 0 0 ∣ 1
3
R1 → R1 – R2
R3 → R3 + 32R2 0 1 1 ∣ 2
3
0 0 3 ∣ 1

(0 0
2
– 32 ∣
2
– 12)
1 0 0 ∣ 1
3
R3 → 23R3 0 1 1 ∣ 2
3
0 0 1 ∣ 1

(0 0 – 32 ∣
3
– 12)
1 0 0 ∣ 1
3
R2 → R2 – R3
R4 → R4 + 32R3 0 1 0 ∣ 1
3
0 0 1 ∣ 1

(0 0 0 ∣ 0
3
)
40      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

1 1 1
Por lo tanto, t = (     ), que significa que, como se esperaba, el ratón pasará cantidades iguales
3 3 3
de tiempo en cada uno de los tres compartimentos.

E JE M P LO 9.3.11 Predicción del clima

El clima en Montreal es bueno, neutro o malo en un día cualquiera. Si el clima es bueno hoy, será
bueno mañana con una probabilidad de 0.6, neutro con una probabilidad de 0.20, y malo con una
probabilidad de 0.20. Si el clima es neutro hoy, mañana será bueno, neutro o malo con probabilidades
de 0.25, 0.50, y 0.25, respectivamente. Finalmente, si el clima es malo hoy, las probabilidades son de
0.25, 0.25 y 0.50 para un clima bueno, neutro o malo mañana. Esto puede describirse como una ca-
dena de Markov de intentos de un experimento con tres resultados E1, E2, y E3, correspondientes
al clima bueno, neutro y malo en un día cualquiera. La matriz de transición para esta cadena de
Markov es

    Hacia
Desde  B     N     M
3 1 1
B 0.60 0.20 0.20 5 5 5
N   0.25 0.50 0.25 = 1 1 1
M ( 0.25 0.25 0.50) ( 1 )
4 2 4
1 1
4 4 2

5 5 4
Nota Esta es regular. En el ejemplo 9 se calculó el vector fijo (
   
13 13 13)
. Esto significa
5 4
que, a la larga, el clima en Montreal será bueno ≈ 38% del tiempo, neutro ≈ 31%
Este problema pudo resolverse solo al 3 13
suponer que el clima de hoy es del tiempo, y malo 31% del tiempo.
afectado solamente por el clima de
ayer, no por lo que sucedió en días
previos.

Demostración parcial del Teorema 9.3.2 (opcional)


Teorema 9.3.3

Si P = (pij) es una matriz de probabilidad de n × n, entonces existe un vector renglón t de


n componentes (diferente de cero) tal que tP = t. Es decir, cada matriz de probabilidad tiene
un vector fijo.

Demostración

La ecuación tP = t es equivalente a t(P – I) = 0 o, transponiendo, (P – I)ttt = 0t. Este sistema


homogéneo tiene una solución t diferente de cero si, y solo si,

det(P – I)t = det(P – I) = 0

Esto se deduce de la teoría de los determinantes. Pero det(P – I) = 0 si, y solo si, las columnas
de la matriz P – I son linealmente dependientes. Dado que P es una matriz de probabilidad,
se sabe que

p11 + p12 + … + p1n = p21 + p22 + … + p2n = …


= pn1 + pn2 + … + pnn = 1
9.3 Cadenas de Markov      41

Estas ecuaciones pueden anotarse en la siguiente forma de vector equivalente:

p11 – 1 p12 p1n 0


p21 p22 – 1 p2n 0
+ +…+ =
⋮ ⋮ ⋮ ⋮
( pn1 ) ( pn2 ) ( pnn – 1 ) () 0

Los vectores a la izquierda de esta ecuación son exactamente las columnas de P – I. Por lo
tanto las columnas de P – I son linealmente dependientes, y se prueba el resultado.

Una vez que se sabe que T tiene un vector fijo, puede demostrarse mediante una simplificación
de renglones que tiene un vector de probabilidad fijo, es decir, un vector fijo con componentes no
negativos que suman 1. Debido a que los cálculos pueden resultar tediosos, se observará qué sucede
en el caso de 2 × 2. Sea

a b
A=
( c d)
donde a, b, c, d ≥ 0, a + b = 1, y c + d = 1. Sea t = (x, y) un vector fijo.
Entonces

a b
(x, y)
( c d) = (x, y)
ax + cy = x (a – 1)x + cy = 0
 o 
bx – dy = y bx + (d – 1)y = 0
Pero d – 1 = –c y a – 1 = –b, entonces el sistema es

–bx + cy = 0
  bx – cy = 0

que significa que bx = cy.


Ahora, no es posible que b = c = 0 porque si ese fuera el caso, se tendría

1 0 1 0
T=
( 0 1) y T = ( 0 1)
n

c
lo que contradice el hecho de que T es regular. Supóngase que b ≠ 0; entonces x = y y se establece
b
c c+b
1=x+y= y+y= y
b b
b c b c
yy= , así que x = · = .
c+b b c+b c+b
b c
Por lo tanto, el vector (   es un vector de probabilidad fijo para T. Esta es la parte
c + b c + b)
fácil de comprobar. Aún debe probarse que pTk → t cuando k → ∞ para un vector de probabilidad p.
El esbozo restante se basa en la teoría de valores propios y vectores propios del capítulo 8. Si tT = t,
entonces (tT)t = tt o Tttt = tt. Es decir, tt es un vector propio de Tt correspondiente al valor propio 1.
Dado que T y Tt tiene los mismos valores propios, 1 es un valor propio de T.
Ahora se usa el teorema del círculo de Gershgorin. Si λ es cualquier valor propio de T, entonces

|λ – aii| ≤ ri
42      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

donde ri = |ai1| + |ai2| + … + |ai,i–1| + |ai,i+1| + … + |ain|


En realidad, aquí no se necesitan las barras de valor absoluto porque aij ≥ 0. (T es una matriz de
probabilidad.) Por una versión de la desigualdad del triángulo,

||λ| + |ai1|| ≤ |λ – aii| ≤ ri

así que

–ri ≤ |λ| – aii ≤ ri

–ri + aii ≤ |λ| ≤ ri + aii

Pero ri + aii es la suma de las componentes en el i-ésimo renglón de T que es igual a 1. Por lo tanto,

∣λ∣ ≤ 1

Se ha demostrado que cada valor propio de una matriz de probabilidad tiene un valor absoluto menor
que o igual a 1. También es posible demostrar que si Tt es la transposición de una matriz de probabi-
lidad regular, entonces todos los valores propios excepto el valor propio 1 tienen un valor absoluto
menor que 1 y existen n vectores propios lineales independientes para T t.
Supóngase que 1, λ2, λ3, …, λn, son los valores propios de Tt con los correspondientes vectores
n
propios tt, v2, v3, …, vn. Sea pt una columna de vector de probabilidad en ℝ . Entonces, debido a que
n
n vectores lineales independientes forman una base en ℝ , existen escalares c1, c2, … cn tales que

pt = c1tt + c2v2 + c3v3 + … + cnvn

Entonces

T tpt = c1tt + c2Tv2 + c3Tv3 + … + cnTvn


= c1tt + c2λ2v2 + c3λ3v3 + … + cnλnvn

(T t)kpt = c1tt + c2λk2v2 + c3λk3v3 + … + cnλknvn

Dado que ∣λi∣ < 1, λki → 0 conforme k → ∞ para i = 2, 3, …, n. Por lo tanto

(T t)kpt → c1tt  cuando k → ∞
  Observación
Una demostración completa de este Pero (Tt)kpt tiene componentes que deben sumar 1 (explique por qué) de modo que
teorema, así como demostraciones de c1 = 1, y se tiene
los resultados citados en la sección
9.4, pueden encontrarse en el (T t)kpt → tt  cuando k ⟶ ∞
interesante ensayo “On Markov
Processes in Elementary Mathematics
Courses” de John T. Baldwin en The Finalmente, transponiendo, se obtiene
American Mathematical Monthly, vol.
96, no. 2, febrero 1989, 147-153.
pT k → t  cuando k → ∞
9.3 Cadenas de Markov      43

El resto de la demostración es sencillo. Si p = (1, 0 …, 0) entonces pT k es el primer renglón de Tk, de


modo que el primer renglón de T k → t cuando k → ∞. Una demostración similar funciona para los
otros renglones.

PROBLEMAS 9.3

En los problemas del 1 al 10 determine si la matriz dada es una matriz de probabilidad.

1 1 1 1 1
2 2 0 2 2 2
1. 1 1 2. 1 1 1
0
( 0) ( )
2 2 2 2 2
1 1 1 1 1
2 2 2 2 2

1
1 0 0 2 1 – 12
2 2
3. 0 1 0 4. – 13
( 0 0 1) ( )
3 3
3 3
– 15 5 5

1 1 1 1
0.99 0.22 –0.01 2 4 8 8
5. 0 6. 1 1
1  0 0 0
(1 )
2 2
(0.98 0.1  0.1 ) 1 1 1
2 4 8 8

1 1 1
3 3 3 1 0 0
7. 1 1 8. 1 0 0
0
(1 0 0)
( 0 0 0)
2 2

3 1 1
1 1 5 5 5 0
2 2 0 1 1 1 1
1 1 1 6 3 4 4
9. 20. 1 2 3 1
( ) ( )
4 4 2
1 1 3 7 7 7 7
8 8 4 2 5 1 3
11 11 11 11

En los problemas 11 al 20 están dados una matriz T y un vector inicial de probabilidad p0. Calcule p1,
p2, y p3.
1 1 1 1
1 1
11. T = 2 2 ;p = 12. T = 2 2 ;p = (1 0)
( 34 1) 0 (2 2) ( 34 1) 0
4 4
1 7 1 7
2 3
13. T = 8 8 ;p = (0 1) 14. T = 8 8 ;p =(   )
( 23 1) 0
3
( 23 1) 0
3
5 5

1 1 1
0 1 0 3 2 6
1 3 1 1 2 2
15. T = 1
0 1 ; p0 = (     ) 16. T = 1 0 0 ; p0 = (     )
( ) (1 )
2 2 2 8 8 5 5 5
1 1 1 1 1
3 3 3 4 4 2

1 3 1
8 4 8 0 0 1
2 1 4
17. T = 1 1
0 ; p0 = (     ) 18. T = 0 1 0 ; p0 = (1 0 0)
( ) ( 1 0 0)
2 2 7 7 7
1 1 3
5 5 5
44      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

0 0 1
1 1 1
19. T = 0 1 0 ; p0 = (     )
( 1 0 0) 3 3 3

0.16 0.49 0.35


20. T = 0.23 0.58 0.19 ; p0 = (0.31 0.44 0.25)
( 0.37 0.21 0.42)
En los problemas 21 al 30 determine si la matriz de probabilidad dada es regular. Si es regular, en-
cuentre su vector de probabilidad fijo único.
1 3 3 2
21. 4 4 22. 5 5
( 12 1)
2
( 25 3)
5
1 4
1 0 5 5
23. 24.
( 34 1)
4
( 23 1)
3

a 1–a
25.
( b 1 – b ), donde 0 < a < 1 y 0 < b < 1
1 1
2 0 2 1 0 0
26. 1 1 1 27. 1 1
0
( ) (3 )
3 3 3 2 2
1 1 1 1 1
4 2 4 5 5 5

0.2 0.3 0.5 0.12 0.37 0.51


28. 0.4 0.4 0.2 29. 0.43 0.19 0.38
( 0.3 0.6 0.1) ( 0.26 0.59 0.15)

0.285 0 0.162 0.555


0 0.217 0.498 0.285
30.
( 0.361
0.085
0.203
0.416
0.092
0.122
0.344
0.377)
31. a) Calcule el vector de probabilidad fijo para la matriz
2 1 1
3 6 6
T= 1 1 1

(0 0 1)
4 2 4

b) ¿Este vector es único?


32. a) Calcule el vector de probabilidad fijo para la matriz
1 1 1
2 4 4
T= 0 1 0
(0 0 1)
b) ¿Este vector es único?
33. En un día cualquiera, una persona está sana o enferma. Si la persona está sana hoy, la probabi-
lidad de que esté sana mañana está estimada en 98%. Si la persona está enferma hoy, la proba-
9.3 Cadenas de Markov      45

bilidad de que esté sana mañana es de 30%. Describa la secuencia de estados de salud como
una cadena de Markov. ¿Cuál es la matriz de transición?
34. Si la persona del problema 33 está enferma hoy, ¿cuáles son las probabilidades de que se recu-
pere mañana, a 2 días de ahora, y a 3 días de ahora?
35. ¿En qué porcentaje de días estará sana la persona del problema 33?
36. Considere el experimento de colocar a un ratón en la caja ilustrada en la figura 9.7.
a) Suponiendo que es igualmente posible que el ratón elija cualquier puerta para salir de un
compartimento, describa este experimento como una cadena de Markov y determine la
matriz de transición.
b) Encuentre el porcentaje de tiempo que, a la larga, pasará el ratón en cada compartimento.

I IV

II III

Figura 9.7  

37. Un examen consiste en 100 preguntas de tipo verdadero o falso. Para un estudiante promedio
el examen es tal que si contesta correctamente una pregunta la probabilidad de que la siguiente
3
pregunta se conteste correctamente es . Igualmente, si contesta incorrectamente una pregun-
4 1
ta, la probabilidad de que la próxima pregunta se conteste correctamente es . Estime la califi-
4
cación promedio de este examen, suponiendo que la primera pregunta se contesta correcta-
mente.
38. Un animal de laboratorio tiene la elección de tres alimentos disponibles en unidades estándar.
Después de una larga observación, se descubre que si el animal elige un alimento en un intento,
elegirá el mismo alimento en el siguiente intento con probabilidad del 50% y elegirá los otros
alimentos en el siguiente intento con probabilidades iguales del 25%.
a) Describa este proceso como una cadena de Markov y determine la matriz de transición.
b) Demuestre que, a la larga, se consumen cantidades iguales de alimento.
39. Hay cinco exámenes en un cierto curso. Las calificaciones posibles para cada examen son A, B,
C, D, y E. Se estima que la probabilidad de que un estudiante obtenga la misma calificación que
en el examen anterior es de 60% y de 10% para cada una de las otras posibilidades. Describa
este proceso como una cadena de Markov. ¿Cuál es la matriz de transición?
40. a) Si un estudiante recibe una A en el primer examen del problema 39, ¿cuál es la probabilidad
de que reciba una calificación de C en el tercer examen?
b) Si un estudiante recibe una B en el segundo examen, ¿cuál es la probabilidad de que todas
sus calificaciones en las tres pruebas restantes sean de B?
46      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

41. La empresa de renta de automóviles UDrive opera en California y carga una sobretasa para los
autos que se rentan en una ubicación y se dejan en otra. Para determinar el cargo adecuado, se
dividió al estado en tres áreas: norte, centro y sur. Se determinaron las siguientes probabilida-
des de que un auto se recoja en un área y se deje en la misma o en un área diferente:

Hacia
Norte Centro Sur
Desde
Norte 0.6 0.3 0.1

Centro 0.2 0.5 0.3

Sur 0.1 0.2 0.7

Describa este proceso como una cadena de Markov y determine la matriz de transición.
42. En el problema 41 determine el porcentaje de autos que, a la larga, estarán en cada una de las
tres áreas.
43. Jeffrey Newman es un representante de ventas de una empresa grande de libros de texto. El
señor Newman vende libros de texto en un área que está subdividida en cuatro regiones. Visita
campus universitarios en una región cada semana y nunca visita la misma región en dos sema-
nas consecutivas. Si vende en la región I esta semana, tiene una posibilidad del 70% de ir a la
región II y una posibilidad del 30% de ir a la región IV la siguiente semana. Si vende en la región
III esta semana, venderá en la región II la siguiente semana. Si vende en la región II o IV esta
semana, venderá en una de las otras regiones con igual probabilidad en la siguiente semana.
Describa el calendario de viajes del señor Newman como una cadena de Markov y encuentre
la matriz de transición.
44. En el problema 43, ¿qué porcentaje de tiempo pasará a la larga el señor Newman en cada región?
45. En el problema 44, la empresa del señor Newman gasta $700, $650, $580 y $820, respectiva-
mente, para cubrir los gastos semanales en las cuatro regiones. ¿Cuál será a la larga el gasto
promedio semanal de la empresa?
46. Una empresa debe elegir entre dos fotocopiadoras para rentar. Las copiadoras son indistingui-
bles. Cada máquina está ya sea funcionando o no. De acuerdo con los registros de servicio
anteriores, se ha determinado que si la copiadora I está funcionando un día, la probabilidad de
que esté funcionando al día siguiente es de 0.95. Si no está funcionando, la probabilidad de que
esté funcionando al día siguiente es de 0.75. Si la máquina II está funcionando hoy, la probabi-
lidad de que esté funcionando mañana es de 0.9. Si no está funcionando hoy, la probabilidad
de que esté funcionando mañana es de 0.8. ¿Qué copiadora debe rentar la empresa?
47. En las elecciones para el senado de un cierto estado se ha determinado que una persona cam-
biará sus votos de acuerdo con las siguientes probabilidades:

Hacia
Demócrata Republicano Independiente
Desde
Demócrata 0.7 0.2 0.1

Republicano  0.35 0.6  0.05

Independiente 0.4 0.3 0.3

A la larga, ¿qué porcentaje de votantes votará por un demócrata, un republicano o un indepen-


diente?
9.4 Cadenas de Markov absorbentes      47

9.4 Cadenas de Markov absorbentes


En el experimento del ratón del ejemplo 9.3.10 (ver figura 9.6) se introduce la modificación de que
el ratón se saca de la caja cuando llega al compartimento III. Este nuevo procedimiento experimental
puede describirse como una cadena de Markov si se acuerda expresar que el sistema permanece en el
tercer estado en todos los intentos después de que llega al tercer estado. Los estados con esta propie-
dad son muy comunes en las aplicaciones de las cadenas de Markov.
Un estado Ei de una cadena de Markov es absorbente si, una vez que el sistema alcanza el esta- Estado absorbente
do Ei en algún intento, el sistema permanece en el estado Ei en todos los intentos fu- Cadena de Markov
turos. absorbente
Una cadena de Markov es absorbente si tiene uno o más estados absorbentes y si Nota
es posible alcanzar un estado absorbente desde cada estado no absorbente.
Si el estado Ei es absorbente, la probabilidad de transición de Ei a Ei es 1. En Puede que sea necesario pasar por
otras palabras, el estado Ei es absorbente si, y solo si, pii = 1. El número de estados varios estados no absorbentes antes
absorbentes en una cadena de Markov absorbente es igual al número de unos en la de alcanzar un estado absorbente.
diagonal de su matriz de transición. Los estados no absorbentes de una cadena de
Markov absorbente se llaman estados transitorios. La probabilidad de que el sistema Estados
esté en un estado transitorio disminuye en la medida en la que aumenta el número de transitorios
intentos.

EJ EMPLO 9.4 .1 El estado absorbente de un experimento de laboratorio

Si el ratón (ejemplo 9.3.10) permanece en el tercer compartimento una vez que llega ahí, la matriz de
transición es
1 1
0 2 2
T= 1
0 1

(0 0 1)
2 2

Aquí E1 y E2 son estados transitorios y E3 es un estado absorbente. Se nota que es posible alcanzar
E3 ya sea desde E1 o E2, y por lo tanto, la cadena de Markov es absorbente.

EJ EMPLO 9.4 .2 Una cadena de Markov con un estado absorbente

La matriz
1 1
2 0 2
T= 0 1 0
(1 1 1)
3 3 3

es la matriz de transición de una cadena de Markov absorbente con tres estados. El segundo estado
es absorbente. Puede alcanzarse desde E3 en un intento y desde E1 después de dos intentos (primero
1 1
va desde E1 a E3 con probabilidad y entonces desde E3 a E2 con probabilidad ).
2 3
EJ EMPLO 9.4 .3 Un juego de canicas

Considérese un juego con dos jugadores en el que cada uno inicia con dos canicas (bolitas, bochas).
En cada jugada, el primer jugador tiene la probabilidad p de ganar una canica y la probabilidad q =
1 – p de perder una canica. El juego termina cuando algún jugador pierde todas sus canicas. Describa
el juego como una cadena de Markov.
48      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

SOLUCIÓN ►  Este juego tiene cinco estados, E0, E1, E2, E3, y E4, correspondientes al primer
jugador que tiene 0, 1, 2, 3, o 4 canicas. Los estados E0 y E4 son absorbentes, y los estados E1, E2 y E3
son no absorbentes o transitorios. La matriz de transición es

p00 p01 p02 p03 p04 1 0 0 0 0


p10 p11 p12 p13 p14 q 0 p 0 0
T= p20 p21 p22 p23 p24 = 0 q 0 p 0

( p30
p40
p31
p41
p32
p42
p33
p43
p34
p44
) ( 0
0
0
0
q
0
0
0
p
1
)
El sistema inicia en el estado E2; es decir, la distribución inicial de probabilidad es p0 = (0 0 1 
0 0). En juegos subsecuentes las distribuciones sucesivas de probabilidad son p1 = p0T =
( 0 q 0 p 0), p2 = (q2 0 2pq 0 p2), p3 = (q2 2pq2 0 2p2q p2), p4 = (q2 + 2pq3 
0 4p2q2 0 p2 + 2p3q), … Después de muchos intentos la probabilidad de que el sistema esté en
uno de los estados transitorios se vuelve muy pequeña. Esto significa que después de un gran número
de jugadas es casi una certeza que uno de los jugadores ha perdido todas sus canicas. Por ejemplo, si
2 1
p = , entonces q = y
3 3
1 2 2 1 3 2 2 1 2 2 2 2 3 1
p4 = ( ) + 2( )( )  0 4( ) ( )  0 ( ) + 2( ) ( )
3 3 3 3 3 3 3 3
13 16 52
=(  0   0  )
81 81 81

Estas son las probabilidades de estar en un estado transitorio después de 4 jugadas.

El resultado del último ejemplo sugiere que cuando se trata de una cadena de Markov absorbente, el
sistema eventualmente estará en un estado absorbente. Este hecho no se demostrará aquí, pero se
utilizará en el recordatorio de la sección. Por supuesto, surgen dos preguntas:

 1. ¿Qué tanto, en promedio, estará el sistema en algún estado transitorio antes de pasar a un estado
absorbente?
 2. Si existe más de un estado absorbente, ¿cuáles son las probabilidades en el largo plazo de termi-
nar en un estado absorbente?

Existe una técnica para responder a estas preguntas. La demostración de que esta técnica funciona es
difícil y no se discutirá aquí. En su lugar, se ilustrará la técnica en una matriz específica y después se
utilizará la técnica en otros ejemplos.
Considérese la matriz
1 1 1 1
2 8 8 4
0 1 0 0
T= 1 1 3 1

(03 6
0 0 1
8 8
)
Esta es la matriz de transición de una cadena de Markov absorbente con estados absorbentes 2 y 4.

Paso 1. Desde la matriz de transición T, elimine los renglones correspondientes a los estados absor-
bentes; llame a la nueva matriz T′:
1 1 1 1
T′ = 2 8 8 4
( 13 1
6
3
8
1)
8
9.4 Cadenas de Markov absorbentes      49

Paso 2. Divida la matriz T′ en estados absorbentes y no absorbentes. Llame a la matriz correspon-


diente a los estados absorbentes S y la correspondiente a los estados no absorbentes R.
En este ejemplo, la segunda y cuarta columnas de T′ representan los estados absorbentes:

Estados absorbentes
Estados no absorbentes

1 1 1 1
2 8 8 4
( 13 1
6
3
8
1)
8

Por lo tanto
1 1 1 1
S= 8 4  y R = 2 8
( 16 2)
8
( 13 3)
8

Paso 3. Calcule la matriz Q = (I – R)–1. Aquí Nota


1 1 1
1 0 – 18
I–R= – 2 8 = 2
( 0 1) ( 1 3) (– 13 5)
Se llama Q a la matriz fundamental
para la cadena de Markov absorbente.
3 8 8
Ahora pueden contestarse las
y preguntas.
5 1 30 6
48 8
Q = (I – R)–1 = 8 = 13 13
13( 1 1) ( 13
16 24)
3 2 13

Paso 4. La componente qij de Q se interpreta como sigue: si se inicia un estado transitorio i, qij es el
número esperado de veces que se estará en un estado transitorio j antes de alcanzar algún estado ab-
16
sorbente. En el ejemplo, el número q21 = significa que si se inicia en el segundo estado transitorio
13
(que es el estado 3 en el problema), entonces se debe regresar al estado transitorio 1 un promedio de
16 16
≈ 1.23 veces antes de pasar a un estado absorbente (estado 2 o estado 4). También, dado que
13 13
24 40
+ = ≈ 3.08, se debe estar en algún estado transitorio un promedio de 3.08 veces si se inicia en
13 13
el estado transitorio 2.

Paso 5. Calcule la matriz de probabilidad A = QS. Aquí


1 1
1 30 6
A = QS = 8 4
13( 16 24)( 1 1)
6 8
13 33 18 33
1 4 0.3654 0.6346
= 4 = 52 52 ≈
13( 6 7) ( 136 137 ) ( 0.4615 0.5385)

Obsérvese que A es una matriz de probabilidad.


Para interpretar las componentes en A, se añaden etiquetas:

Estado Estado
absorbente 1 absorbente 2
Estado transitorio 1 0.3654 0.6346
Estado transitorio 2 ( 0.4615 0.5385)
50      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

Esto significa que si se inicia en el estado transitorio 1 se terminará en el estado absorbente 1 para
0.3654 = 36.54% del tiempo y en el estado absorbente 2 para 0.6346 = 63.46% del tiempo. Se da una
interpretación similar en el segundo renglón de A.
Ahora se aplica la técnica a una situación práctica.

E JE M P LO 9.4 .4 Predicción de tasas de graduación

Centerville Vo-Tech es una escuela estatal, con cursos de 2 años, especializada en entrenamiento vo-
cacional. Cada 2 años, la Junta Estatal de Regidores presenta un presupuesto para Centerville a la
legislatura estatal. El presupuesto está basado tanto en el número de estudiantes que asisten como el
número de quienes se espera se gradúen. Para calcular estos números se agrupa a los estudiantes en
cuatro categorías: primer año, segundo año, graduado y desertor. La última categoría incluye a aque-
llos que se transfirieron a otra escuela.
Después de recopilar datos a lo largo de varios años, la escuela puede predecir la proporción de
estudiantes que se moverán de una categoría a otra en cualquier año. Estos datos están dados en la
tabla 9.5. Si hay 2 000 estudiantes de primer año y 1 500 de segundo año en Centerville este año,
¿cuántos de estos estudiantes se graduarán eventualmente?

Tabla 9.5
Hacia Primer Segundo
Graduado Desertor
Desde año año
Primer año 0.15 0.65 0 0.2

Segundo año 0 0.1 0.75 0.15

Graduado 0 0 1 0

Desertor 0 0 0 1

SOLUCIÓN ►  Este proceso puede describirse como una cadena de Markov absorbente con
cuatro estados, dos de los cuales (graduado y desertor) son absorbentes. La matriz de transición para
esta cadena de Markov es

    Hacia
Desde 1o.  2o.  G     D
1o. 0.15 0.65 0 0.2
2o. 0 0.1 0.75 0.15
T=
G
D
( 0
0
0
0
1
0
0
1 )

0.15 0.65 0 0.2


Paso 1 T′ =
(0 0.1 0.75 0.15 )

0.15 0.65 0 0.2


Paso 2 R= ,   S =
(0 0.1 ) ( 0.75 0.15 )

1 0 0.15 0.65 0.85 –0.65


I–R=
Paso 3
( 0 1) – ( 0 0.1 ) =
( 0 0.9 )
9.4 Cadenas de Markov absorbentes      51

y
1.17647 0.84967
Q = (I – R)–1 =
(0 1.11111 )

Paso 4 Los números en Q significan que el estudiante promedio, ahora en su primero o segundo
año, pasará aproximadamente 1.18 años en el primer año y 0.85 años en el segundo año antes de al-
canzar un estado absorbente (graduación o deserción). El estudiante promedio de segundo año pasa-
rá 1.11 años en su segundo año antes de graduarse o desertar.

1.17647 0.84967 0 0.2


Paso 5 A = QS ≈
(0 1.11111 )( 0.75 0.15 )

0.6373 0.3627

( 0.8333 0.1667)

Esto significa que 63.7% de los estudiantes de primer año se graduarán (dentro del estado absorben-
te 1) y 36.3% desertarán, mientras que 83.3% y 16.7% de los estudiantes de segundo año se graduarán
y desertarán, respectivamente. Ahora, contestamos las preguntas: Nota
De los 2 000 estudiantes de primer año,
En el paso 5 se calculó el número de
2 000 × 0.6373 = 1 275 se graduarán quienes que se graduarán eventual-
mente, mientras que en el paso 4 se
De los 1 500 estudiantes de segundo año, determinó qué tan realmente largo
“eventualmente” significa para cada
1 500 × 0.8333 = 1 250 se graduarán estudiante.

E J EMPLO 9. 4 .5 Análisis adicional del experimento de laboratorio

En el ejemplo 9.4.1, E1 y E2 son estados transitorios, mientras que E3 es absorbente. Por lo tanto,
1 1
0 2 2
dado que T = 1
0 1 , se tiene:
(0 1)
2 2
0

1 1 1 1
0 0
T′ = 2 2 ,  R = 2   y  S = 2
( 12 0 1)
2
( 12 0) ( 12)
Dado que solo hay un estado absorbente, es evidente que dicho estado debe alcanzarse desde todos
1
los estados no absorbentes, así A debe ser la matriz
( 1). Este hecho puede usarse para verificar los
cálculos. Ahora,

4 2
1 – 12
I–R=  y Q = (I – R)–1 = 3 3
(– 12 1) ( 23 4)
3

2
El significado de q12 = , por ejemplo, es que si el sistema inicia en el estado E1, el número esperado
3 2 4 2
de veces en que el sistema estará en el estado E2 es . Igualmente, q11 + q12 = + = 2. En otras
3 3 3
palabras, si el ratón está en el compartimento I en el primer movimiento, el número esperado de
52      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

movimientos (incluyendo al primer movimiento) antes de alcanzar el compartimento III es 2. Final-


mente,
4 2 1
1
A = QS = 3 3 2 =
( 23 4)( 1) ( 1)
3 2

como ese esperaba.

E JE M P LO 9.4 .6 Análisis adicional del juego de canicas

En el ejemplo 9.4.3 la matriz de transición para el juego es

1 0 0 0 0
q 0 p 0 0
T= 0 q 0 p 0

( 0
0
0
0
q
0
0
0
p
1
)
De modo que

q 0 p 0 0
T′ = 0 q 0 p 0
( 0 0 q 0 p)
Dado que el primero y el quinto estado son absorbentes, se tiene

0 p 0 q 0
R= q 0 p  y S = 0 0
( 0 q 0) ( 0 p)
1
Para simplificar, considérese el caso p = q = . Entonces
2
1 1
0 2 0 0
2
1 1
R= 2 0 2 ,  S = 0 0
(0 1
2 0) ( 0 12)
3 1
1 – 12 0 2 1 2
I – R = – 12 1 – 12  y (I – R)–1 = 1 2 1 = Q
( 0 – 12 1) ( 12 1 32)
Esto expresa, por ejemplo, que si el primer jugador inicia con dos canicas, entonces puede esperar
que el juego dure q21 + q22 + q23 = 1 + 2 + 1 = 4 movimientos antes de que gane todo o pierda todo.
Finalmente,

3 3 1
1 12
2
1
2 0 4 4
A = QS = 1 2 1 0 0 = 1 1
( 12 1 32)( 0 12) (
2
1
2
3)
4 4

Por lo tanto, si el jugador 1 inicia con 1 canica (estado transitorio 1) terminará con ninguna canica
3 1
(estado absorbente 1) veces y con todas las 4 canicas (estado absorbente 2) veces.
4 4
9.4 Cadenas de Markov absorbentes      53

PROBLEMAS 9.4

En los problemas del 1 al 10 está dada una matriz. Determine si la matriz es la matriz de transición
de una cadena de Markov absorbente. Si es así, encuentre el número de estados absorbentes.
1 1 1 1
2 2 2 2 1 0
1. 2. 3.
( 0 1) ( 1 0) ( 0 1)
1 1 1
1 0 0 0 1 0 3 3 3
4. 0 0 1 5. 1 0 0 6. 0 0 1
( 0 1 0) ( 0 0 1) (1 1 1)
3 3 3

1 1 1 1 1
2 2 0 0 2 3 6 0
1 1 1
2 6 3 1 0 0 0 0 1 0 0
7. 0 1 0 8. 9.
(0 0 1) (0
0 0 1 0
1 1) (
0 0 1 0
1 3 1 )
0 2 2 2 8 0 8
1 4
5 5 0 0
1 1 1
0 3 3 3
10.
(0 )
0 0 1 0
0 0 1
En los problemas del 11 al 20 está dada la matriz de transición de una cadena de Markov absorbente.
Determine las matrices T′, R, S, Q y A.
1 2
3 3 1 0
11. 12.
( 0 1) ( 34 1)
4
1 1 1
3 3 3 0.2 0.7 0.1
13. 1 1 14.
0 0.6 0.1 0.3
(0 0 1)
2 2
(0 0 1 )
1 1 1
2 3 6 0
0.4 0.4 0.2 1 1 1 1
4 4 4 4
15. 0 1 0 16.
(0 0 1 )
(0 )
0 0 1 0
0 0 1

1 0 0 0
0.21 0.46 0.13 0.20
1 1 1 1
3 3 6 6 0 1 0 0
17. 1 1 18.
(0 2 0 0
0 0 1
2
) ( 0.31
0
0.25
0
0.21
0
0.23
1 )
1 1 1 1 3
8 4 8 6 8
1 2 1 2 1 0.17 0.23 0.15 0.32 0.13
7 7 7 7 7 0 1 0 0 0
1 1 1 1
19. 4 2 0 8 8 20. 0.15 0.21 0 0.38 0.26

( 0 0 0 1 0
0 0 0 0 1
) ( 0
0
0
0
0
0
1
0
0
1
)
54      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

21. Un animal de laboratorio debe completar una cierta tarea para recibir una unidad de alimento. La
4
probabilidad de la culminación exitosa de la tarea en cualquier intento es . Suponga que el ani-
5
mal repite la tarea hasta que recibe un total de cuatro unidades de alimento. Describa este proce-
so como una cadena de Markov absorbente con cinco estados. ¿Cuál es la matriz de transición?
22. ¿Cuál es el número esperado de veces que la tarea del problema 21 se repetirá hasta la culmina-
ción exitosa de la tarea?
*23. Dos apostadores, G1 y G2, están jugando un juego; la probabilidad de que G1 gane en cada mo-
3
vimiento es . Suponga que G1 inicia con 7 dólares y G2 inicia con 1 dólar. En cada jugada
7
ambos jugadores apuestan 1 dólar y el juego continua hasta que un jugador haya perdido todo
su dinero.
a) Describa este juego como una cadena de Markov absorbente con nueve estados.
b) ¿Cuáles son las distribuciones de probabilidad de los estados después de una jugada y des-
pués de dos jugadas?
c) ¿Cuál es la probabilidad de que G1 gane?
24. En el juego del problema 23 suponga que G2 apuesta todo su dinero en cada jugada del juego.
a) Describa este juego como una cadena de Markov absorbente con cinco estados.
b) ¿Cuál es el número de jugadas esperadas de este juego?
c) ¿Cuál es la probabilidad de que G1 gane?
25. Un animal de laboratorio debe elegir uno de cuatro paneles para recibir alimento. Si se eligen
los paneles I y II, el resultado es una cantidad muy pequeña de alimento. Por su parte, paneles
III y IV contienen mayores cantidades de alimento. Si se elige ya sea el panel III o el panel IV
en un intento, se observa que se elige el mismo panel en todos los intentos futuros. Si se elige
ya sea el panel I o el panel II en un intento, entonces puede elegirse cualquiera de los cuatro
paneles en el siguiente intento con igual probabilidad. Describa este proceso como una cadena
de Markov absorbente con cuatro estados. Si se elige el panel I en el primer intento, ¿cuál es el
número esperado de intentos antes de que se elija el panel III o el panel IV?
26. La empresa Zephyr Electronics fabrica computadoras portátiles. Antes de lanzar a la venta una
computadora pasa una inspección. Las categorías de inspección son: no funciona (NF), regu-
lar, buena y excelente. Las computadoras NF se desechan, mientras que las excelentes de inme-
diato se ponen en venta. Las computadoras regulares y buenas se regresan para ajustes y se re-
visan de nuevo. Las proporciones de computadoras regulares y buenas que cambian de
categoría están dadas en la tabla.

Hacia
NF Regular Buena Excelente
Desde
Regular 0.05 0.25 0.35 0.35

Buena 0 0.15 0.2 0.65

a) Describa este proceso de pruebas como una cadena de Markov absorbente y calcule la ma-
triz de transición.
b) ¿Cuántas veces, en promedio, una computadora calificada como regular se probará de nuevo?
c) ¿Cuántas veces, en promedio, una computadora calificada como buena se probará de nuevo?
d) ¿Cuál es la probabilidad que una computadora regular eventualmente se deseche?
e) ¿Cuál es la probabilidad que una computadora regular eventualmente se ponga a la venta?
f) De 30 000 computadoras que originalmente se calificaron como buenas, ¿cuántas eventual-
mente se pondrán a la venta?
9.5 Dos aplicaciones de las cadenas de Markov: teoría de colas y un modelo en psicología      55

27. La Mastervise Corporation emite tarjetas de crédito a 20 000 individuos en un cierto estado.
Su auditor descubre que 2 356 de ellos no hicieron sus pagos el mes pasado. Es una política de
la empresa que si no se han hecho pagos durante 3 meses seguidos se cancelan los privilegios
de la tarjeta y la cuenta se entrega a un despacho de cobranza. Experiencias anteriores de Mas-
tervise mostraron las experiencias de cobranza en la tabla.

Hacia 1 mes 2 meses 3 meses Tarjeta


Pagada
Desde moroso moroso moroso cancelada
1 mes moroso 0 0.35 0 0.65 0

2 meses moroso 0 0 0.4 0.6 0

3 meses moroso 0 0 0 0.3 0.7

a) Describa este proceso como una cadena de Markov absorbente y encuentre su matriz de
transición.
b) ¿A cuántos de los 2 356 pagadores morosos se les cancelará la tarjeta?
28. Regrese al problema 9.3.36. Asuma que una vez que el ratón llega al compartimento II o al
compartimento IV, se queda ahí.
a) Si un ratón inicia en el compartimento I, ¿cuántos compartimentos visitará en promedio?
b) ¿Qué porcentaje de los ratones que inician en el compartimento III terminarán en el com-
partimento IV?
29. En el ejemplo 9.4.4 se descubre que 30% de los estudiantes de primer año repiten el primer año,
45% pasan al segundo año, y 25% desertan. Si todos los datos permanecen iguales, ¿cuántos de
los actuales 2 000 estudiantes de primer año se graduarán?
*30. a) Considere un juego entre el equipo A y el equipo B con un total de n jugadores en los dos
equipos. En cada jugada del juego un equipo gana un jugador del otro equipo y el juego
continúa hasta que un equipo haya perdido a todos sus integrantes. Si hay k jugadores en el
equipo A y n – k jugadores en el equipo B, la probabilidad de que el equipo A gane un juga-
dor en la siguiente jugada es (k/n)2. Describa este juego como una cadena de Markov absor-
bente. ¿Las reglas son “imparciales”? (Este es un modelo elemental de la competencia entre
especies).
b) Para el juego anterior, suponga que k = 3 y n = 6. ¿Cuál es la distribución de probabilidad
de los equipos después de una jugada? ¿Después de dos jugadas?

9.5  Dos aplicaciones de las cadenas de Markov:


teoría de colas y un modelo en psicología
(opcional)
En esta sección se describen dos aplicaciones interesantes para la teoría de las cadenas de Markov.
La primera aplicación, la teoría de colas, solo necesita del material en la sección 9.3. La segunda
aplicación necesita del material de las secciones 9.3 y 9.4.

Teoría de colas
Una cola es una fila, como en “formémonos en la cola para comprar boletos”. La teoría de colas es la
rama de las matemáticas que describe las filas de espera. Existen muchas aplicaciones de esta teoría.
56      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

Por ejemplo, el gerente de un supermercado quiere asegurarse de que 1) no pierde negocio por tener
a muchas personas impacientes esperando en largas filas en las cajas y 2) no pierde dinero pagándole
a empleados de cajas que están ociosos sin clientes a los que atender. Otro ejemplo es suministrado
por los viajeros de una aerolínea. Si alguna vez una persona ha comprado un boleto en el aeropuerto,
tuvo que 1) formarse en una cola para comprar el boleto, 2) formarse en otra cola para pasar la revi-
sión de seguridad, 3) esperar a la salida del avión que está en una cola de aviones esperando para
despegar, 4) hacer lo mismo en el aterrizaje, 5) esperar por el equipaje y 6) esperar en la cola para un
taxi.
En estas y otras situaciones similares resulta de gran interés responder a esta pregunta: ¿Cuál es
el porcentaje de tiempo en que habrá n personas en una cola, donde n = 0, 1, 2, 3, …? Por razones
obvias, el gerente del supermercado o el supervisor en cualquier forma de viaje necesita una respues-
ta a esta pregunta para mantener niveles razonables tanto de satisfacción del cliente como de ganan-
cias. Un análisis general de los modelos de colas está más allá de alcance de este texto. Sin embargo,
se discutirá un modelo simplificado para mostrar cómo puede usarse la teoría de las cadenas de
Markov para obtener una respuesta a la pregunta planteada anteriormente.
Se describe el modelo usando el ejemplo de una sola cola en un mostrador de boletos de una lí-
nea aérea. Se hacen los siguientes supuestos:
1
 1. En un periodo de 1 minuto hay una probabilidad de de que una persona se unirá a la cola y una
3
2
probabilidad de de que nadie se unirá a la cola. Por lo tanto, se asume que no más de una per-
3
sona se unirá a la cola en cualquier intervalo de 1 minuto.
 2. Si se atiende a una persona en un periodo, entonces la probabilidad de que una persona haya
3
recibido su boleto y salga de la cola en el siguiente periodo de tiempo es de .
8
 3. Todas las probabilidades son independientes de qué ha sucedido anteriormente en los periodos.
 4. No puede atenderse a una persona en el mismo periodo en el que se unió a la cola.
 5. Cuando mucho, puede atenderse a una persona en un solo periodo de 1 minuto.
 6. Debido a una política de anticongestionamiento, la cola se cierra si tiene cuatro personas. Es
decir, hay un máximo de cuatro personas en la cola en cualquier tiempo único.

Puede verse este modelo muy simplificado como una cadena de Markov con cinco estados, don-
de el estado del sistema está definido como el número de personas en la cola, incluyendo la persona
a la que se está atendiendo. Los cinco estados están representados por los números 0, 1, 2, 3, y 4. La
matriz de transición para esta cadena de Markov está dada por

0 1 2 3 4
2 1
0 3 3 0 0 0
1 13 5
1 4 24 24 0 0
T= 2 0 14 24
13 5
24 0

( )
1 13 5
3 0 0 4 24 24
4 0 0 0 38 58

Esto se explica como sigue:


2 1
1. En el primer renglón se tiene p00 = y p = . Puede pasarse del estado 0 al estado 0 solo si
3 01 3 2
nadie se une a la cola. De acuerdo con el supuesto 1 este evento tiene una probabilidad de ; el
3
1
supuesto 1 también explica por qué p01 = .
3
9.5 Dos aplicaciones de las cadenas de Markov: teoría de colas y un modelo en psicología      57

1 13 5
2. En el segundo renglón se tiene p10 = , p11 = , y p12 = . Para pasar del estado 1 al estado 0
4 24 24
deben ocurrir dos eventos independientes. Primero, se atiende a la persona en la línea, y segun-
3
do, ninguna persona nueva se une a la cola. La probabilidad del primer evento es (por el su-
8
2
puesto 2) y la probabilidad del segundo evento es (por el supuesto 1). Por lo tanto
3
3 2 1
p10 = ⋅ =
8 3 4
Después, para pasar del estado 1 al estado 1, una de dos cosas mutuamente excluyentes puede
suceder:
a) No se atiende a nadie y nadie se une a la cola, o
5 2
b) Se atiende a una persona y una persona se une a la cola. La probabilidad de a) es ⋅ y la
8 3
3 1
probabilidad de b) es ⋅ . Por lo tanto
8 3
5 2 3 1 10 13 13
p11 = ⋅ + ⋅ = + =
8 3 8 3 24 24 24
Finalmente, para pasar del estado 1 al estado 2, se debe tener ninguna persona atendida (con
5 1
probabilidad ) y una persona que se une a la cola (con probabilidad ). Por lo tanto,
8 3
5 1 5
p12 = ⋅ =
8 3 24
Obsérvese que

1 13 5
p10 + p11 + p12 = + + =1
4 24 24
3. Los renglones 3 y 4 se obtienen igual que el renglón 2.
3 5
4. En el quinto renglón se tiene p43 = y p44 = . Para pasar del estado 4 al estado 3, debe tenerse
8 8
una persona atendida (obsérvese que nadie puede unirse a la cola ahora cerrada, de acuerdo con
el supuesto 6). Igualmente, para pasar del estado 4 al estado 4, no debe haber ninguna persona
5
atendida (con probabilidad ).
8
Debe recordarse que una cadena de Markov es regular si alguna potencia Tm de su matriz de
transición T tiene componentes estrictamente positivas. Con una calculadora, se calculan las prime-
ras cuatro potencias de T hasta diez decimales:

0.6667 0.3333 0.0000 0.0000 0.0000


0.2500 0.5417 0.2083 0.0000 0.0000
T≈ 0.0000 0.2500 0.5417 0.2083 0.0000

( 0.0000
0.0000
0.0000
0.0000
0.2500
0.0000
0.5417
0.3750
0.2083
0.6250
)
0.5278 0.4028 0.0694 0.0000 0.0000
0.3021 0.4288 0.2257 0.0434 0.0000
T2 ≈ 0.0625 0.2709 0.3976 0.2257 0.0434

( 0.0000
0.0000
0.0625
0.0000
0.2709
0.0938
0.4236
0.4375
0.2430
0.4687
)
58      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

0.4526 0.4115 0.1215 0.0145 0.0000


0.3086 0.3894 0.2224 0.0705 0.0090
T3 ≈ 0.1094 0.2670 0.3282 0.2214 0.0741

( 0.0156 0.1016 0.2657 0.3770 0.2401


0.0000 0.0234 0.1602 0.4323 0.3841
)
0.4046 0.4041 0.1551 0.0331 0.0030
0.3031 0.3694 0.2192 0.0879 0.0203
T4 ≈ 0.1397 0.2631 0.2887 0.2161 0.0924

( 0.0358
0.0059
0.1267
0.0527
0.2593 0.3496 0.2286
0.1997 0.4116 0.3301
)
Dado que T 4 tiene componentes estrictamente positivas, se observa que la cadena de Markov es regular.
Ahora debe recordarse el resultado [ver teorema 9.3.2], que establece que dado que T es una
matriz regular hay un vector de probabilidad t único cuyas componentes son todas positivas tal que
tT = t. Además, las matrices T m se acercan (conforme m se hace más grande) a la matriz P, cada uno
de cuyos renglones es igual al vector t. En este caso las componentes de t son las probabilidades de
largo alcance de la longitud de la cola. Para encontrar t, se inicia con
tT = t
o
2 1
3 3 0 0 0
1 13 5
4 24 24 0 0
(p0 p1 p2 p3 p4) 0 14 24
13 5
24 0 = (p0 p1 p2 p3 p4)

( )
1 13 5
0 0 4 24 24
0 0 0 38 58
o
2
3p0 + 14p1                = p0
1 13
3p0 + 24 p1 + 14p2           = p1
5 13
24p1 + 24 p2 + 14p3      = p2
5 13
24p2 + 24 p3 + 38p4 = p3
5
24p3 + 58p4 = p4

Dado que t es un vector de probabilidad, también se tiene


p0 + p1 + p2 + p3 + p4 = 1
Combinando términos, se obtiene el sistema

–13p0 + 14p1                = 0


1 11
3p0 – 24 p1 + 14p2           = 0
5 11
24p1 – 24 p2 + 14p3      = 0
5 11
24p2 – 24 p3 + 38p4 = 0
5
– 38p4 = 0
24p3
p0 +  p1 +  p2 +   p3 +  p4= 1
9.5 Dos aplicaciones de las cadenas de Markov: teoría de colas y un modelo en psicología      59

Ahora se anota el sistema en forma de matriz aumentada y se resuelve mediante reducción de renglo-
nes. Para simplificar, se inicia multiplicando las primeras cinco ecuaciones por 24:

–8 6 0 0 0 ∣ 0
8 –11 6 0 0 ∣ 0
0 5 –11 6 0 ∣ 0
5 –11 9 ∣
( )
0 0 0
0 0 0 5 –9 ∣ 0
1 1 1 1 1 ∣ 1

1  –0.75 0 0 0 ∣ 0
8 –11 6 0 0 ∣ 0
R1 → –18R1 0  5 –11 6 0 ∣ 0
5 –11 9 ∣
( )
0  0 0
0  0 0 5 –9 ∣ 0
1  1 1 1 1 ∣ 1

1 –0.75 0 0 0 ∣ 0
R2 → R2 – 8R1 0 –5 6 0 0 ∣ 0
R6 → R6 – R1 0  5 –11 6 0 ∣ 0
5 –11 9 ∣
( )
0  0 0
0  0 0 5 –9 ∣ 0
0  1.75 1 1 1 ∣ 1

1 –0.75 0 0 0 ∣ 0
0  1  –1.2 0 0 ∣ 0
R2 → –15R2 0  5 –11 6 0 ∣ 0
–11 9 ∣ 0
( )
0  0 5
0  0 0 5 –9 ∣ 0
0  1.75 1 1 1 ∣ 1

R1 → R1 + 0.75R2 1 0 –0.9 0 0 ∣ 0
R3 → R3 – 5R2 0 1 –1.2 0 0 ∣ 0
R6 → R6 – 1.75R2 0 0 –5 6 0 ∣ 0
–11 9 ∣
( )
0 0  5 0
0 0  0 5 –9 ∣ 0
0 0  3.1 1 1 ∣ 1

1 0 –0.9   0 0 ∣ 0
0 1 –1.2   0 0 ∣ 0
R3 → –15R3 0 0  1  –1.2 0 ∣ 0
9 ∣
( )
0 0  5 –11 0
0 0  0   5 –9 ∣ 0
0 0  3.1   1 1 ∣ 1
R1 → R1 + 0.9R3
R2 → R2 + 1.2R3 1 0 0 –1.08 0 ∣ 0
R4 → R4 – 5R3 0 1 0 –1.44 0 ∣ 0
R6 → R6 – 3.1R3 0 0 1 –1.2 0 ∣ 0
9 ∣
( )
0 0 0 –5 0
0 0 0  5 –9 ∣ 0
0 0 0  4.72 1 ∣ 1
60      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

Dado que el quinto renglón es el negativo del cuarto, se elimina y se continua dividiendo el cuarto
renglón entre –5:

1 0 0 –1.08  0 ∣ 0
0 1 0 –1.44  0 ∣ 0
R4 → –15R4
0 0 1 –1.2  0 ∣ 0

( 0
0
0
0
0
0
 1
 4.72
–1.8
 1


0
1
)
R1 → R1 + 1.08R4
R2 → R2 + 1.44R4 1 0 0 0 –1.944 ∣ 0
R3 → R3 + 1.2R4 0 1 0 0 –2.592 ∣ 0
R5 → R5 – 4.72R4
0 0 1 0 –2.16 ∣ 0

( 0
0
0
0
0
0
1
0
–1.8
 9.496


0
1
)
Hasta este punto, todos los números son exactos. Se realizan los cálculos restantes con hasta cinco
decimales de exactitud.

1 0 0 0 –1.944 ∣ 0
0 1 0 0 –2.592 ∣ 0
1
R5 → –9.496 R5
0 0 1 0 –2.16 ∣ 0

( 0
0
0
0
0
0
1
0
–1.8
 1


0
0.10531
)
R1 → R1 + 1.944R5
R2 → R2 + 2.592R5 1 0 0 0 0 ∣ 0.20472
R3 → R3 + 2.16R5 0 1 0 0 0 ∣ 0.27296
R4 → R4 + 1.8R5
0 0 1 0 0 ∣ 0.22746

( 0
0
0
0
0
0
1
0
0
1


0.18955
0.10531
)
Por lo tanto, el vector de probabilidad fija está dado por

(p0 p1 p2 p3 p4) = (0.20472 0.27296 0.22746 0.18955 0.10531)

Esto significa, por ejemplo, que el vendedor de boletos está ocioso alrededor de 20% del tiempo (da-
do que p0 ≈ 0.20). Además, la fila está cerrada alrededor del 10% del tiempo dado que p4 ≈ 0.10, y
esto significa que hay cuatro personas en la cola alrededor de 10% del tiempo. Finalmente, se tiene a
una persona en la cola alrededor de 27% del tiempo, dos personas alrededor del 23% del tiempo, y
tres personas alrededor del 19% del tiempo.
De nuevo, se subraya que se ha trabajado con un modelo muy simplificado. No obstante, este
ejemplo muestra el poder de las cadenas de Markov combinado con la teoría de matrices para anali-
zar situaciones interesantes.

Modelo en psicología: aprendizaje asociado por parejas


Como segunda aplicación se presenta un modelo sencillo para analizar un proceso de aprendizaje. Se
procede con cautela porque solo las actividades más elementales y simplificadas de la mente pueden
tratarse con algún tipo de modelo viable. El modelo que se describe fue analizado matemáticamente
por primera vez por G.H. Bower11 y se llama aprendizaje asociado por parejas.

11
G.H. Bower, “Applications of a Model to Paired Associate Learning”, Psychometrica, 26, (1961): 255-280.
9.5 Dos aplicaciones de las cadenas de Markov: teoría de colas y un modelo en psicología      61

En el modelo de Bower hay un experimentador y uno o más sujetos. El experimentador diseña


dos conjuntos: un conjunto de estímulos y un conjunto de respuestas. Para cada elemento s en el
conjunto de estímulos S hay una respuesta correcta r en el conjunto de respuestas R. Por lo tanto, en
efecto, el experimentador crea un conjunto de parejas ordenadas de la forma (s, r), donde s ∈ S y r ∈
R. En el experimento original de Bower S y R contienen diez elementos cada uno. Por ejemplo, S
puede contener diez letras y R diez números asignados aleatoriamente a las diez letras. En un contex-
to diferente, S podría contener diez palabras en español y R sus equivalentes en inglés. O, como
ejemplo final, S podría contener diez sílabas sin significado (dah, dum, uph, etc.) y R un grupo de
sílabas adicionales, cada una asociada con las sílabas en S.12
Una vez que se crean S y R, puede iniciar el experimento. En cada intento del experimento, el
experimentador muestra (o dice) un elemento s ∈ S al sujeto, y el sujeto responde con un elemento
r ∈ R. Por supuesto, el sujeto trata de dar la respuesta correcta, la r que está asociada a la s dada. Si
el sujeto da la respuesta correcta, se registra un 0. Si el sujeto da una respuesta incorrecta, se registra
un 1, y el experimentador le dice o muestra la respuesta correcta al sujeto.
Se asume que, inicialmente, el sujeto no sabe las respuestas correctas y debe adivinar. Si el sujeto
adivina incorrectamente, se le da la respuesta correcta y, se supone, empieza a aprender. El experi-
mento continúa hasta que el sujeto es capaz de dar las respuestas correctas al estímulo dado dos veces
seguidas. En este momento se asume que el sujeto ha aprendido completamente las respuestas.
Para analizar este modelo, se deben hacer cinco supuestos más o menos razonables. Se hará re-
ferencia a las parejas estímulo-respuesta con la forma (s, r).

Supuestos

1. Cada pareja de estímulo-respuesta es uno de dos estados en cualquier intento del experimento:
condicionado (C) o adivinando (G). Está en el estado C si el sujeto ha aprendido la respuesta co-
rrecta (r) a la pregunta dada o estímulo (s). Está en el estado G si el sujeto no sabe la respuesta
correcta y debe adivinar.
2. Inicialmente, todas las parejas están en el estado G. Es decir, se asume que cuando
inicia el experimento el sujeto no conoce ninguna de las respuestas correctas.
3. Si un elemento está en el estado C en el n-ésimo intento del experimento, entonces Nota
permanece en el estado C en todos los intentos futuros. Es decir, una vez que el
sujeto ha aprendido la respuesta correcta a un estímulo dado, ya no la olvida. El supuesto 4 es el menos razonable
4. Si un elemento está en el estado G en el n-ésimo intento del experimento, la pro- de los hechos hasta ahora. Aquí se
está asumiendo que 1) todos los
babilidad es c > 0 de que estará en el estado C en el (n + 1)-ésimo intento del ex- elementos son igualmente fáciles (o
perimento. Es decir, c es la probabilidad de que el sujeto aprenda la respuesta co- difíciles) de aprender y 2) no es más
rrecta antes del siguiente intento del experimento. probable que el sujeto aprenda la
5. Si el elemento está en el estado G y hay N respuestas posibles, la probabilidad es respuesta correcta después de muchas
1/N de que el sujeto adivine la correcta. Es decir, en el estado adivinando todas las adivinanzas que después de solo una.
Se espera que si los sujetos son seres
respuestas tienen igual posibilidad de ser elegidas.
humanos de inteligencia normal, las
probabilidades de aprender se
Con estos supuestos, se puede considerar al proceso de aprender la respuesta correcta incrementarán después de cada
para cada estímulo como una cadena de Markov con los estados C y G.13 La matriz de adivinanza y después de cada vez que
transición para esta cadena de Markov es al sujeto se le da la respuesta correcta.

12
En el experimento original de Bower el estímulo consistía en diez parejas de letras, y las respuestas eran los números 1 o 2. Es
decir, a los sujetos se les daba una pareja de letras y se les pedía que contestaran “1” o “2”. Después de cada intento, se les decía a
los sujetos si sus respuestas eran correctas o no. Si los sujetos eran capaces de contestar correctamente cada uno de los diez estí-
mulos dos veces seguidas, entonces se asumía que habían aprendido las respuestas correctas y se terminaba el experimento.
13
Obsérvese que existe una cadena de Markov para cada item de estímulo-respuesta (s, r). Por lo tanto, si hay diez parejas (s, r), como
en el experimento de Bower, entonces hay diez cadenas de Markov. Sin embargo, bajo los supuestos, todas las diez cadenas de
Markov tienen propiedades idénticas.
62      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

C  G
C 1 0
T= (1)
G ( c 1 – c)
dado que —por el supuesto 3— una vez que se está en C, se queda en C. También —por el supuesto
4— si se está en G, entonces la probabilidad es c de que se estará en C en el siguiente intento del expe-
rimento.
Usando la matriz de transición dada por (1), puede calcularse la probabilidad de que un elemen-
to esté en los estados C o G después de cualquier intento del experimento. Primero, por el supuesto
2, la distribución inicial de probabilidad es

p0 = (0 1) (2)

Ahora

1 0 1 0 1 0
T2 =
( c 1 – c)( c 1 – c) = ( c[1 + (1 – c)] (1 – c)2)

1 0
T3 =
(c[1 + (1 – c) + (1 – c)2] (1 – c)3)

Siguiendo de esta forma (ver problema 9.5.18), puede demostrarse que

1 0
Tn = (3)
( c[1 + (1 – c) + (1 – c)2 + … + (1 – c)n–1] (1 – c)n)

La fórmula para la suma de una progresión geométrica es (ver problema 9.5.19)


1 – xn
1 + x + x2 + … + xn–1 = ,  para x ≠ 1 (4)
1–x
Por lo tanto
1 – (1 – c)n 1 – (1 – c)n
1 + (1 – c) + (1 – c)2 + … + (1 – c)n–1 = = (5)
1 – (1 – c) c
e insertando (5) en (3), se tiene

1 0
Tn = (6)
(1 – (1 – c)n (1 – c)n)

La probabilidad de que un elemento esté en el estado C o G después del n-ésimo intento es

1 0
pn = p0 T n = (0 1)
(1 – (1 – c)n (1 – c)n) = (1 – (1 – c)  (1 – c) )
n n
(7)

La fórmula (7) es muy reveladora. Dado que 0 < c ≤ 1 (por el supuesto 4), se tiene 0 ≤ 1 – c < 1. Por
n
lo tanto, (1 – c) se acerca cada vez más a cero a medida que n se hace más grande. Esto expresa que
mientas c no sea cero, eventualmente se aprenderá la respuesta correcta al estímulo. Mientras más
grande sea el valor de c, se aprenderá más rápido.

E JE M P LO 9.5.1 Las probabilidades después de 20 intentos

Sea c = 0.25. Entonces 1 – c = 0.75. La siguiente tabla da las probabilidades de que el item esté en el
estado G o C después de cada intento.
9.5 Dos aplicaciones de las cadenas de Markov: teoría de colas y un modelo en psicología      63

Intento P(C) = 1 – (0.75)n P(G) = (0.75)n

 0 0 1

 1 0.25 0.75

 2 0.4375 0.5625

 3 0.5781 0.4219

 4 0.6836 0.3164

 5 0.7627 0.2373

 6 0.8220 0.1780

 7 0.8665 0.1335

 8 0.8999 0.1001

 9 0.9249 0.0751

10 0.9437 0.0563

11 0.9578 0.0422

12 0.9683 0.0317

13 0.9762 0.0238

14 0.9822 0.0178

15 0.9866 0.0134

16 0.9000 0.0100

17 0.9925 0.0075

18 0.9944 0.0056

19 0.9958 0.0042

20 0.9968 0.0032

Obsérvese que después del décimo sexto intento hay un 99% de certeza de que el sujeto haya apren-
dido la respuesta correcta.
Resulta interesante analizar esta cadena de Markov en términos de la teoría de cadenas de
Markov absorbentes (ver la sección 9.4). Esta cadena de Markov es absorbente porque el estado C es
absorbente. Ahora se usará la notación de la sección 9.4. Se tiene

G  C
T′ = (1 – c c)

R es la matriz (1 – c) de 1 × 1 e I – R = 1 – (1 – c) = c, de modo que


1
Q = (I – R)–1 =
c
Es decir, el sujeto estará adivinando —o en estado transitorio G— un promedio de 1/c veces antes de
aprender la respuesta correcta.
64      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

E JE M P LO 9.5.2 Número promedio de adivinanzas antes del aprendizaje

En el ejemplo 9.5.1, c = 0.25, de modo que el sujeto estará adivinando un promedio de 1/0.25 = 4
veces antes de aprender la respuesta correcta.
Se pasará ahora a una situación más complicada (y más interesante). En el modelo ya discutido
no se hizo la distinción entre adivinar correctamente y adivinar incorrectamente para un elemento en
el estado G. Si se desea hacer la distinción entre estas posibilidades, es necesario analizar el modelo
mediante una cadena de Markov con tres estados:

E1: adivinar correctamente


E2: adivinar incorrectamente
E3: condicionado

La matriz de transición para esta cadena de Markov es

E1 E2 E3
(1 – c) 1
(1 – c)(1 – c
N)
E1
N
T = E2 (1 – c) 1 (8)
(1 – c)(1 – ) c

( )
N N
E3 0 0 1

Esto se explica como sigue: p11 es la probabilidad de que un elemento inicie en E1 y se quede en E1.
Para hacer esto, el elemento debe iniciar y permanecer en un estado de adivinando (con probabilidad
1 – c) y debe adivinarse correctamente la respuesta (con probabilidad 1/N, por el supuesto 5). Por lo
tanto
1 1–c
p11 = (1 – c) = ( =
N) N
Igualmente, p21 = (1 – c)/N. Después, p12 es la probabilidad de que el elemento inicie y permanezca
en un estado adivinando (con probabilidad 1 – c) y que el sujeto adivine incorrectamente (con pro-
babilidad 1 – 1/N). Por lo tanto, p12 = (1 – c)(1 – 1/N). El mismo razonamiento demuestra que p22 =
(1 – c)(1 – 1/N). Finalmente, las otras probabilidades se deducen del modelo más sencillo discutido
anteriormente. De los supuestos, resulta aparente que la distribución inicial de probabilidad es

1 1
p0 = (  1 –  0)
N N

En nuestra nueva cadena de Markov los estados transitorios son E1 y E2, mientras que el estado E3 es
absorbente. La matriz R está dada por

1–c 1
(1 – c)(1 – )
N N
R= (9)
( 1–c
N
1
(1 – c)(1 – )
N )
E JE M P LO 9.5.3 Número promedio de adivinanzas antes del aprendizaje

Se considera el experimento del ejemplo 9.5.1 con N = 5. Entonces como c = 0.25, se tiene [de (8) y
(9) y del hecho que (1 – c)/N = (1 – 0.25)/5 = 0.75/5 = 0.15]
9.5 Dos aplicaciones de las cadenas de Markov: teoría de colas y un modelo en psicología      65

0.15 0.6 0.25


0.15 0.6 0.85 –0.6
T= 0.15 0.6 0.25 ,  R = ( ,  I – R =
0.15 0.6) ( –0.15  0.4)
(0 0 1 )
y

1 0.4 0.6 1.6 2.4


Q = (I – R)–1 = = =
0.25 ( 0.15 0.85 ) ( 0.6 3.3)

1
Inicialmente, el sujeto está en el estado E1 (adivinanza incorrecta) con probabilidad = 0.2 y el esta-
5
do E2 con probabilidad 0.8. Por lo tanto el número esperado de veces que estará en el estado E1 es

P(E1) × (número esperado de veces en E1 cuando inicia en E1)


+ P(E2) × (número esperado de veces en E1 cuando inicia en E2)
= (0.2)(1.6) + (0.8)(0.6) = 0.8

Igualmente, el número esperado de veces en E2 es

(0.2)(2.4) + (0.8)(3.4) = 3.2

Es decir, el sujeto adivinará correctamente un promedio de 0.8 veces e incorrectamente un promedio


de 3.2 veces antes de haber aprendido la respuesta correcta.

PROBLEMAS 9.5

1. En el modelo de las colas descrito en esta sección, suponga que la probabilidad de que una
1 4
persona se una a la cola es y de que nadie se una es . Suponga que la probabilidad de que
5 5 1
una persona atendida esté fuera de la cola en un periodo es . Conserve los supuestos 3 al 6.
2
a) Encuentre la matriz asociada con la cadena de Markov inherente en el modelo.
b) Demuestre que la cadena de Markov es regular.
c) Encuentre las probabilidades de largo alcance de que n personas estarán en la fila, para n =
0, 1, 2, 3, y 4.
2. En un supermercado el número de personas que se unen a la fila de la caja rápida (personas
con menos de 10 artículos) es aleatorio pero promedia siete personas cada 10 minutos entre el
mediodía y las 2 pm. Una persona atendida habrá dejado la fila 1 minuto más tarde con proba-
3
bilidad . Si cinco personas están formadas, la línea se cierra. Estime el porcentaje de tiempo
4
que
a) El cajero estará ocioso.
b) La fila estará cerrada.
c) Estarán en la fila exactamente tres personas.
3. Responda las preguntas del problema 2 si se cierra la fila cuando hay seis personas en la fila y
todos los demás hechos permanecen iguales.
4. Un estudiante está tomando un curso de lectura en francés. Aprende el vocabulario mediante
palabras en francés puestas en un lado de una tarjeta y sus equivalentes en inglés en el otro la-
do. Hay 10 tarjetas. Se hacen los siguientes supuestos:
66      CAPÍTULO 9 Cadenas de Markov y teoría de juegos

i. Inicialmente, el estudiante conoce las diez palabras en inglés pero no tiene idea de qué pa-
labra en francés va con qué palabra en inglés. Está adivinando.
ii. Se muestra al estudiante una palabra en francés, él da un equivalente en inglés y si está co-
rrecto, se le muestra el otro lado de la tarjeta. El estudiante conoce la palabra o está adivi-
nando.
iii. Si el estudiante está adivinando, elige una de las diez respuestas en inglés aleatoriamente.
iv. Una vez que el estudiante aprende una palabra, la recuerda.
v. Si adivina (correcta o incorrectamente) y si entonces se le muestra la palabra correcta, la
probabilidad de que sabrá el equivalente en inglés de la palabra en francés que acaba de ver
la próxima vez que la vea es 0.3.
Con estos supuestos, encuentre la matriz de transición de la cadena de Markov con estados K
(para saber una palabra dada) y G (para adivinar).
5. En el problema 4, ¿cuál es la probabilidad de que el estudiante haya aprendido la traducción
correcta de una palabra en francés dada antes de adivinar cuatro veces?
6. En el problema 4, ¿cuántas veces debe repetirse el experimento hasta que la probabilidad de
que el estudiante se haya aprendido la palabra sea del 98%?
7. En el problema 4, ¿cuál es el número esperado de veces en que el estudiante adivinará hasta que
se aprenda la palabra?
8. En el problema 4, encuentre la matriz de transición de la cadena de Markov asociada con tres
estados: adivinando correctamente, adivinando incorrectamente y conociendo.
9. En el problema 8, ¿cuál es el número esperado de veces en que el estudiante adivinará incorrec-
tamente hasta que sepa una palabra dada?
10. En el problema 8, ¿cuál es el número esperado de veces en que el estudiante adivinará correc-
tamente hasta que sepa la palabra?
11. En un experimento se coloca a un mono frente a cuatro puertas. Cada puerta tiene un marca-
dor azul, rojo, verde o café. Detrás de la puerta verde hay un plátano. Se le permite al mono
abrir una de las puertas. Si elige la puerta verde, se le recompensa al obtener el plátano. Si elige
cualquier otra puerta, se le muestra el plátano, pero no se le da. El experimento se repite mo-
viendo los marcadores y de nuevo poniendo el plátano detrás de la puerta verde. El objeto
es determinar cuánto le toma al mono averiguar que no es la puerta sino el color lo que deter-
mina la ubicación de la recompensa. Experimentos previos con otros monos han indicado que
el mono tiene una probabilidad del 40% de aprender de qué se trata después de la primera
adivinanza. Utilice el supuesto del problema 4 y encuentre la matriz de transición de este expe-
rimento.
12. En el problema 11, ¿cuál es la probabilidad de que mono haya averiguado las reglas antes de su
tercer intento por el plátano?
13. En el problema 11, ¿cuántos intentos debe tener el mono para tener al menos 95% de certeza
de que ha aprendido a jugar?
14. En el problema 11, ¿cuántas adivinanzas hará el mono, en promedio, hasta que conozca las
reglas?
15. En el problema 11 encuentre la matriz de transición para la cadena de Markov asociada con
tres estados: adivinando correctamente, adivinando incorrectamente y conociendo las reglas.
16. En el problema 15, ¿cuál es el número esperado de veces en que el mono adivinará correcta-
mente hasta que aprenda a jugar?
9.5 Dos aplicaciones de las cadenas de Markov: teoría de colas y un modelo en psicología      67

17. En el problema 15, ¿cuál es el número esperado de veces en que el mono adivinará correcta-
mente?
*18. Demuestre que la fórmula (3) es verdadera.
19. Sea S = 1 + x + x2 + … + xn.
a) Calcule xS.
b) Calcule (1 – x)S
n+1
c) Demuestre que S = (1 – x )/(1– x) si x ≠ 1.
20. En el modelo en este capítulo se discutieron las cadenas de Markov de dos y tres estados. Sea
que E(G), E(GC), y E(G1) denotan el número esperado de adivinanzas en la cadena de Markov
de dos estados, el número esperado de adivinanzas correctas en la cadena de Markov de tres
estados, y el número esperado de adivinanzas incorrectas en la cadena de Markov de tres esta-
dos, respectivamente.
Demuestre que
E(GC) + E(GI) = E(G)
*21. Si T está dada por (8), demuestre que

1 1
(1 – c)n 1 – (1 – c)n
(1 – N)(1 – c)
n
N
Tn = 1 1
(1 – c)n 1 – (1 – c)n
(1 – N)(1 – c)
n

( )
N
0 0 1

También podría gustarte