Capitulo 09
Capitulo 09
Shutterstock/Franck Boston
La teoría de juegos puede aplicarse al análisis de cualquier comportamiento competitivo, incluyendo juegos comunes.
Cadenas de Markov
y teoría de juegos
2 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
Dos jugadores, R y C, (denotados “renglón” y “columna”, respectivamente) cada uno coloca una
moneda frente a sí y al hacerlo determinan si una Cara o una Cruz está hacia arriba. Ninguno de los
jugadores sabe, inicialmente, si el otro jugador ha seleccionado una cara o una cruz. Entonces se
muestran las monedas. Si las monedas coinciden (esto es, ambas son caras o ambas son cruces), en-
tonces el jugador R le paga al jugador C 1 dólar. Si las monedas no coinciden, entonces el jugador C
le paga al jugador R 1 dólar.
1
John von Neumann y Oskar Morgensten, The Theory of Games and Economic Behavior, (Princeton, N.J.: Princeton University Press,
1944).
2
R.C. Lowontin, “Evolution and the Theory of Games”, Journal of Theoretical Biology, 1(1961):382-403.
L.B. Slobodkin, “The Strategy of Evolution”, American Scientist, 52(1964):342-357
9.1 Juegos de dos personas: estrategias puras 3
Podemos describir este juego en términos de una matriz de pagos (anotada desde el punto de
vista de R):
Jugador C
Cara Cruz
Cara –1 1
Jugador R
Cruz ( 1 –1)
Por lo tanto, por ejemplo, si el jugador R elige Cara y el jugador C elige Cruz, entonces el jugador R
gana 1 unidad (en este caso $1). Si tanto el jugador R como el jugador C seleccionan Cara, entonces
el jugador R pierde 1 unidad.
Big Save y Giant Foods son los únicos supermercados en Central City. El mercado minorista de ali-
mentos está compartido a partes iguales por estas dos empresas. Debido a un aumento en los costos,
Big Save desea aumentar sus precios. Sin embargo, si lo hace, teme perder parte del negocio en favor
de Giant Foods. Por otro lado, si baja sus precios y Giant Foods sube sus precios, la ganancia resul-
tante de clientes compensará por mucho la reducción de ganancia por unidad. Ambas empresas tie-
nen tres opciones: aumentar los precios, no hacer cambios, y bajar los precios.
Big Save puede controlar sus precios, pero no tiene control sobre lo que hace Giant Foods. Para
ayudarle a decidir qué hacer, contrata a un analista independiente en investigación de mercados,
quien obtiene la información en la tabla 9.1. Los números en la tabla representan porcentajes de au-
mentos o decrementos. Por ejemplo, si Big Save mantiene sus precios iguales y Giant Foods baja sus
precios, entonces Big Save perderá 3% del número total de clientes en favor de Giant Foods. Si Big
Save baja sus precios y Giant Foods sube sus precios, entonces Big Save ganará 10% de mercado.
Giant Foods
I S D
I 2 –2 –7
Big Save S 6 0 –3
D ( 10 5 3)
¿Qué debe hacer cada supermercado? Se contestará esta pregunta más adelante en esta sección.
4 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
Durante la Segunda Guerra Mundial, una batalla crucial, llamada la Batalla del Mar de Bismark, se
peleó por el control de Nueva Guinea. El líder aliado, General Kenney, tenía reportes de inteligencia
que indicaban que los japoneses movilizarían un convoy de tropas y suministros del puerto de Rabaul,
en el extremo este de la isla de Nueva Bretaña, hacia Lae, justo al oeste de Nueva Bretaña en Nueva
Guinea. El líder japonés tenía dos opciones: tomar una ruta que pasaba por el norte de Nueva Breta-
ña o una que pasara por el sur. En la ruta del norte, la poca visibilidad era casi una certeza, mientras
que en la ruta del sur era casi seguro que el clima estaría despejado. En cualquier elección el viaje
duraría 3 días.
El General Kenney tenía la elección de concentrar el grueso de sus aviones de reconocimiento
en una u otra ruta. Una vez avistado, el convoy sería bombardeado hasta su llegada a Lae. En días de
tiempo de bombardeo, el equipo de Kenney estimó los resultados de varias opciones dadas en la tabla
9.2.
Elecciones
japonesas
N S
N 2 2
Elecciones aliadas
S ( 1 3)
¿Qué rutas debían haberse elegido? Si el convoy japonés iba al norte, se expondría a ya sea 1 o 2 días
de bombardeo. Si iba a sur, enfrentaría 2 o 3 días de bombardeo. Ir al norte ciertamente luce mejor.
Desde el punto de vista del General Kenney, al concentrar sus fuerzas en el norte podía garantizar al
menos 2 días de bombardeo; en el sur solo podía garantizar 1 día.
Resulta que ambos comandantes eligieron la ruta del norte. Y como se verá muy pronto, estas
elecciones son consistentes con aquellas predichas por la teoría de juegos.
Estos ejemplos llevan a la siguiente definición:
D Definición 9.1.1
Juego de matrices
Sea A = (aij) una matriz de m × n. Considere un juego determinado por A, jugado entre dos
competidores R y C (renglones y columnas) de acuerdo con las siguientes reglas:
3
Este ejemplo está adaptado de un caso en Games and Decisions de R. Duncan Luce y Howard Raiffa (New York: Wiley, 1958),
64-65.
9.1 Juegos de dos personas: estrategias puras 5
1. En cada movimiento del juego R elige uno de los m renglones de A y C elige una de las n
columnas de A. Estas elecciones se hacen simultáneamente, y ningún competidor conoce
por adelantado la elección (o movimiento) del otro competidor.
2. Si R elige el i-ésimo renglón y C elige la j-ésima columna, entonces C le paga a R una can-
tidad aij. Si aij es negativa, esto se interpreta como que C recibe una cantidad –aij de R.
El juego de matrices puede terminar después de un movimiento o puede continuar por cualquier
número de movimientos. La matriz A = (aij) del juego se denomina la matriz de juego o la matriz de Juego de matrices
pagos. Matriz de pagos
Los siguientes ejemplos ilustran cómo pueden analizarse los juegos de matrices.
1 0 1 0
1 2
a) A = b) B = 0 –1 2 0
( –2 3)
( –1 0 3 1)
SOLUCIÓN ►
a) En este juego de matrices de 2 × 2 tanto R como C tienen dos opciones. Si R elige el primer
renglón, R gana 1 unidad si C elige la primera columna, y 2 unidades si C elige la segunda colum-
na. Si R elige el segundo renglón, pierde 2 unidades si C elige la primera columna, y gana 3 uni-
dades si C elige la segunda columna. Si C está jugando racionalmente, C elegirá la primera colum-
na. En este caso, R debería elegir el primer renglón. Con estas elecciones, R garantiza que ganará
al menos 1 unidad y C garantiza que al menos no perderá más de 1 unidad.
b) En este juego de matrices de 3 × 4 R tiene tres elecciones y C tiene cuatro elecciones. Al analizar
todas las elecciones posibles, es claro que a C le irá mejor si elige la segunda columna. Con esta
elección, C garantiza que no sufrirá pérdidas; a R le irá mejor si elige el primer renglón. Si se
hacen estas elecciones, no hay pagos entre los jugadores.
El juego de matrices general de m × n es un ejemplo de un juego de dos personas, de suma cero ya que
hay dos competidores y la suma de sus ganancias es cero. Las ganancias de un competidor son las
pérdidas del otro.
Los dos jugadores del juego de matrices A = (aij) de m × n deben analizar sus movimientos po-
sibles y decidir qué renglones o columnas jugar en los siguientes movimientos. Una estrategia pura Estrategia pura
para R (o C) es la decisión de jugar el mismo renglón (o columna) en cada movimiento del juego. Se
dice que el jugador R (o C) usa una estrategia mixta si elige más de un renglón (o columna) en dife- Estrategia mixta
rentes movimientos del juego. Si ambos jugadores emplean estrategias puras, el resultado de cada
movimiento es exactamente el mismo y el juego es completamente predecible. Por ejemplo, si R
siempre elige el i-ésimo renglón y C siempre elige la j-ésima columna, entonces en cada jugada R re-
cibe aij unidades de C. Cuando se usan estrategias mixtas, por uno o ambos jugadores, el juego es más
complicado. Por ejemplo, si R decide usar una estrategia mixta, aleatorizará la elección de renglones
a fin de aumentar su rendimiento.
Para una discusión más precisa de las estrategias se necesitan algunas ideas de la teoría de la
probabilidad.
6 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
p1 + p2 + … + pn = 1
()
⋮
1
n
Cada vector de probabilidad de m componentes es una posible estrategia para R, y cada vector de
probabilidad de n componentes es una posible estrategia para C.
Para ver cuándo puede usarse una estrategia pura, considérese el siguiente ejemplo.
6 2 3
6 5 4
A=
7 –1 2
( 2 6 1 )
¿Qué estrategias deben adoptar R y C?
SOLUCIÓN ► R jugará para hacer la cantidad más pequeña que ganará lo más grande posible
(leer de nuevo el último enunciado). Si R juega el renglón 1, ganará al menos 2 unidades, no importa
qué columna juegue C. Si R juega el renglón 2, R ganará al menos 4 unidades. De la misma manera,
si R juega el renglón 3 o el renglón 4 ganará al menos –1 o 1 unidad respectivamente. Por lo tanto su
rendimiento mínimo máximo es de 4 unidades.
Pero, ¿qué debe jugar C? C quiere reducir su pérdida máxima. Si C juega la columna 1, puede
perder hasta 7 unidades; en la columna 2, C puede perder cuando mucho 6 unidades y en la columna
3 C puede perder cuando mucho 4 unidades. Se anotan estos números como sigue:
Mínimo renglón
C ↓
6 2 3 ⟵ 2
R
6 5 4 ⟵ 4
7 –1 2 ⟵ –1
(
2 6 0 ) ⟵ 1
Máximo ↑ ↑ ↑
columna ⟶ 7 6 4
8 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
0
q= 1
( 1)
Antes de terminar con este ejemplo, una observación que puede simplificar los cálculos. Cada núme-
ro del primer renglón de A es menor que o igual a la componente correspondiente en el segundo
renglón de A. Es decir, 6 ≤ 6, 2 < 5, y 3 < 4. Así, R nunca elegirá el primer renglón porque a R siem-
Renglón recesivo pre le puede ir mejor si elige el segundo renglón. Al primer renglón se le llama renglón recesivo.
Igualmente, cada número en la primera columna de A es mayor que el número correspondiente en
la tercera columna de A; es decir, 6 > 3, 6 > 4, 7 > 2 y 2 > 1. De ahí que C nunca elegirá la prime-
ra columna, porque entonces C con seguridad perdería más que si hubiera elegido la tercera colum-
Columna recesiva na (recordar que la ganancia de R es la pérdida de C). A la primera columna se le llama columna re-
cesiva.
Pueden eliminarse el renglón y la columna recesivos de futuras consideraciones. Si se hace así,
se obtiene la nueva matriz de pagos A′:
5 4
Aʹ = –1 2
( 6 1)
Igual que antes, 4 es un mínimo en su renglón y un máximo en su columna y es un punto de silla
para A′. El segundo renglón es recesivo, así que la matriz puede reducirse más para obtener A″ =
5 4 4
( 6 1); entonces A‴ = ( 1) ya que la primera columna de A″ es recesiva. Siguiendo, se observa que el
iv
segundo renglón de A‴ es recesivo, así A = (4). Evidentemente, esto lo más lejos que puede llegarse.
Ahora se describirá una estrategia general para jugar un juego de matrices en aquellos casos
donde hay un punto de silla.
4
A veces se denomina a un punto de silla como la solución minimax a un juego de matrices.
9.1 Juegos de dos personas: estrategias puras 9
Paso 5. Si no hay un punto de silla, entonces ya sea R o C (o ambos) deben jugar una
estrategia mixta. Este juego no está estrictamente determinado.
Determinar si un juego cuya matriz de pagos está dada está estrictamente determinado. Si es así,
determinar las estrategias óptimas para R y C.
3 0 5 1 6 2
1 0 5
a) 2 1 3 b) 4 2 3 c)
( 1 –5 0)
( 2 –1 –2) ( 5 1 6)
SOLUCIÓN ►
a) Dado que cada número en el renglón 3 es menor que o igual a el número correspondiente en el
renglón 2, el renglón 3 es recesivo. Igualmente, cada número en la columna 1 es mayor que el
número correspondiente en la columna 2, entonces la columna 1 es recesiva. Al eliminar el ren-
glón 3 y la columna 1 se obtiene
Mínimo renglón
↓
0 5 0
( 1 3) 1
Máximo
columna ⟶ 1 5
Se observa que 1 es en mínimo en este renglón y el máximo en esta columna, así 1 es un punto
de silla y el juego está estrictamente determinado. Dado que 1 es la componente 2,2 de la ma-
triz de pagos, las estrategias óptimas son p = (0 1 0) y
0
q= 1
( 0)
Es decir, R juega el renglón 2 y C juega la columna 2.5
b) No hay renglones o columnas recesivos. Al reescribir la matriz de pagos se tiene
Mínimo renglón
↓
1 6 2 1
4 2 3 2
( 5 1 6) 1
Máximo
columna ⟶ 5 6 6
En este caso no hay punto de silla porque ningún número es tanto un mínimo en su renglón como
un máximo en su columna. Este juego no está estrictamente determinado y se requiere una estra-
tegia mixta.
5 0 5 0
Se observa más adelante que en ( 1 3 ) la segunda columna es recesiva, entonces la matriz se reduce a ( 1 ). Pero ahora el primer
renglón es recesivo y se termina con la matriz de 1 × 1 (1). Este es el punto de silla.
10 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
0
q= 1
( 0)
Es decir, R juega el renglón 1 y C juega la columna 2.
Mínimo renglón
Cara Cruz ↓
Cara –1 1 –1
Cruz ( 1 –1) –1
Máximo
columna ⟶ 1 1
No hay puntos de silla, así que se requiere de una estrategia mixta. Se encontrará la estrategia óptima
en la siguiente sección.
Mínimo renglón
I S D ↓
I 2 –2 –7 –7
S 6 0 –3 –3
D ( 10 5 3) 3
Máximo
columna ⟶ 10 5 3
En este caso 3 es un punto de silla, así que Big Save debe jugar el renglón 3 y Giant Foods debe jugar
la columna 3. Es decir, si los datos son correctos, ambos deben bajar los precios. Obsérvese que los
renglones 1 y 2 son recesivos y las columnas 1 y 2 son recesivas, así que el juego de matrices se redu-
ce a la matriz de pagos de 1 × 1 (3).
Norte Sur
Norte 2 2
Sur ( 1 3)
El 2 en la posición 1,1 es un punto de silla, así que ambos comandantes debían elegir la ruta norte.
En efecto, esto es lo que sucedió.
9.1 Juegos de dos personas: estrategias puras 11
En la siguiente sección se usará un teorema de Von Neumann para demostrar por qué siempre
deben usarse las estrategias puras cuando hay un punto de silla. En dicha sección también se demos-
trará cómo encontrar las estrategias óptimas cuando un juego de matrices no está estrictamente de-
terminado.
PROBLEMAS 9.1
7. (1 0 0 0) 8. (0 1 0 1)
1 2 3 4 5
9. (0.235 0.361 0.162 0.242) 10. (10 10 10 10 10)
En los problemas de 11 al 20 está dada la matriz de pagos para un juego. Determine si el juego está
estrictamente determinado y, si es así, encuentre las estrategias óptimas para R y C.
1 1 1 0 0 0
11. 2 2 3 12. 1 1 2
( –2 4 5) ( –3 3 4)
4 6 –2 5 6 4 7
13. 3 5 7 14. 3 2 3 1
( 2 –3 1) ( 4 6 2 5)
1 6 2 –3 –2 0
15. 3 4 16. –4 –6 –1 2
( 5 5) ( 0 –3 2 5)
1 6 2 4
2 –3 –2 0
–1 3 7 5
17. –4 –6 –1 2 18.
( 0 –2 2 –5) ( 2
3
1 7
0 –5
8
4)
4 2 1 3 1 0 0 1
6 4 3 5 0 1 0 1
19. 20.
( 2
1
1
4
3
2
6
0 ) ( 1
1
1
1
0
0
0
1)
En los problemas 21 al 30 formule cada situación como un juego de matrices de dos personas y anote
la matriz de pagos para dicho juego. Si el juego está estrictamente determinado, encuentre la estrate-
gia óptima para cada jugador.
12 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
21. Dos personas simultáneamente muestran, cada una, uno o dos dedos. Si el número total de
dedos es par, R le paga a C dicho número de dólares. Si el número es non, C le paga a R dicho
número de dólares.
22. Repita el problema 21, con la excepción de que cada jugador muestra cuatro o cinco dedos.
23. Repita el problema 21, con la excepción de que cada jugador muestra uno, dos o tres dedos.
24. Repita el problema 21, con la excepción de que cada jugador muestra uno, dos, tres, cuatro o
cinco dedos.
25. Dos estaciones de gasolina compiten por el negocio en un pueblo pequeño. La Estación A ha
determinado que si sube sus precios, perderá 1% del mercado si B sube sus precios, 3% del
mercado si B no hace ningún cambio y 11% del mercado si B baja sus precios. Si A no hace
ningún cambio, entonces gana 4% si B aumenta sus precios y pierde 5% si B los baja. No hay
cambios en la cuota de mercado si ambas estaciones no cambian sus precios. Finalmente, si A
baja sus precios, gana 9% si B sube sus precios, gana 3% si B se mantiene y pierde 1% si también
B baja sus precios.
26. Se está construyendo un nuevo centro comercial en Centerville. Dos tiendas de ropa estilo va-
quero, Vince’s y Readywear, comparten el mercado en Centerville y sus alrededores. Si una de
las tiendas se muda al nuevo centro comercial, ganará el 80% del mercado. Si ambas o ninguna
se mudan, continuarán dividiéndose el mercado en partes iguales.
27. Un distrito del Congreso está dividido en dos regiones. Hay un candidato demócrata y un can-
didato republicano compitiendo. Las regiones tienen 60 000 votantes y 40 000 votantes respec-
tivamente. Quedan 2 días de campaña y cada candidato puede pasar 0, 1 o 2 días en cada re-
gión. Los analistas políticos han estimado que si los candidatos pasan el mismo número de días
en una región, se dividirán los votos de dicha región. Sin embargo, si un candidato pasa 1 o 2
días más que su oponente en una región, obtendrá 53% o 57% de los votos de dicha región,
respectivamente.
28. En diversos experimentos, los cuervos y los periquitos han aprendido a reconocer números
hasta 7. Se propone el siguiente experimento: la dieta de un cuervo R y de un periquito C se de-
terminará mediante un juego de matrices. Se muestran tres cartas a cada ave, marcadas con 2,
4 y 7 puntos. Si cada ave elige la misma carta, entonces R recibe de la dieta de C un número de
gusanos equivalente a dos veces el número de puntos en la carta. Si las cartas elegidas son dife-
rentes, entonces C recibe de la dieta de R un número de gusanos igual a la diferencia del núme-
ro de puntos en la carta. Se asume que los movimientos se realizan de forma independiente.
29. Peter quiere llamar a su novia Roberta. Está planeando llamarla en la noche cuando el precio
de una llamada de 3 minutos de estación a estación es de 2 dólares y una llamada de 3 minutos
de persona a persona es de 4.50 dólares. Si Roberta no está en su casa, él sabe que puede lla-
marle al día siguiente en su trabajo y que pagará la tarifa diurna de 3 dólares para una llamada
de 3 minutos de estación a estación. Si hace una llamada de estación a estación y Roberta está
en su casa, Peter ahorra dinero. Por otro lado, si contesta la compañera de habitación de Ro-
berta y ella no está en su casa, Peter pierde dinero.
30. Un granjero cultiva tomates. Mientras más tiempo se quedan los tomates en el racimo, se pon-
drán más rojos y será más alto el precio que puede cobrar por bushel.6 Por otro lado, si llega una
helada, se echarán a perder algunos tomates y descenderá el precio promedio por bushel. Si
6
Un bushel es una unidad de volumen imperial (Reino Unido) y estadounidense que se usa para medir productos agrícolas; equivale
a 8 galones.
9.1 Juegos de dos personas: estrategias puras 13
corta los tomates el 25 de agosto, puede estar seguro de que no habrá helada y obtendrá un
precio promedio por bushel de 8 dólares. Si espera hasta el 5 de septiembre, obtendría 11 dóla-
res por bushel si no hay helada, y 5 dólares por bushel si hay una helada.
31. La empresa llantera Maxigrip Tire tiene un conflicto con su sindicato. Cada grupo (la gerencia
y los trabajadores) tiene una elección entre cuatro posturas de negociación: dura, mantenerse
firmes; un enfoque razonable basado en la lógica; dejar el asunto a los abogados para buscar
una solución legal al conflicto; ser conciliador. Un experto en relaciones laborales ha determi-
nado que la empresa pagará salarios semanales más altos dependiendo de las posiciones que
ella y el sindicato adopten. Las diversas posibilidades están dadas en la tabla.
Lógica 35 30 26 28
Legal 15 23 20 30
Conciliatoria 40 35 23 28
Carrera FB 5 5 7 9
Pase corto 4 0 6 –2
Pase largo 8 3 0 –4
Draw Play –1 2 4 10
7
Por definición, dos eventos A y B son independientes si P(A ∩ B) = P(A)P(B).
9.2 Juegos de dos personas: estrategias mixtas 15
Nota
EJ EMPLO 9.2. 2 Cálculo del rendimiento esperado Dado que A es una matriz de m × n y q
es un vector r de n componentes (una
¿Cuál es el rendimiento esperado para R en el juego de matrices de 3 × 4 matriz de n × 1), el producto Aq es una
matriz de m × 1 y pAq es entonces una
matriz de (1 × m) × (m × 1) = 1 × 1, o
2 –1 3 0 simplemente, un número real.
A= 3 –2 –1 2
( 1 4 3 –3)
1
4
1
1 1 1 8
a) si R adopta la estrategia ( ) y C adopta la estrategia ?
3 2 6
()
1
8
1
2
0
0
b) Aquí p = (0 1 0) y q = . Entonces
()1
0
0
2 –1 3 0 3
0
E(p, q) = (0 1 0) 3 –2 –1 2 = (0 1 0) –1 = –1
( 1 4 3 –3) 1
0 () ( 3)
¿Por qué p0 y q0 son óptimas? Porque si R elige p0 entonces sabe que ganará al menos v unidades. Si
elige alguna otra estrategia, entonces C puede elegir q0 y asegurar que R ganará cuando mucho v uni-
dades. De este modo, asumiendo que C juegue inteligentemente, a R puede irle mejor si elige la estra-
tegia p0. Un razonamiento similar demuestra que la estrategia óptima para C es q0.
Usando el teorema de Neumann es posible demostrar que
Si aij es un punto de silla, entonces el valor del juego es aij y las estrategias óptimas son las
estrategias puras de jugar el renglón i y la columna j con probabilidad 1.
Esto justifica jugar las estrategias puras dictadas por un punto de silla.
El teorema de Von Neumann es limitado en tanto que dice cuáles son las estrategias óptimas y
el valor del juego, pero no dice cómo calcularlos. Resulta que es relativamente sencillo calcularlos
cuando el juego de matrices es una matriz de 2 × 2. Otros casos resultan más difíciles y se discuten
en la siguiente sección.
Sea
a11 a12
A= (2)
( a21 a22)
Estrategias óptimas para un juego de matrices de 2 × 2. Si la matriz en (2) no está estrictamente de-
terminada, entonces las estrategias óptimas para R y C son
a22 – a21
a11 + a22 – a12 – a21
q0 = a11 – a12 (4)
( a11 + a22 – a12 – a21 )
El valor del juego es
a11a22 – a12a21
v= (5)
a11 + a22 – a12 – a21
En el problema 44 se pide demostrar por qué las ecuaciones (3), (4) y (5) son válidas.
9.2 Juegos de dos personas: estrategias mixtas 17
Determinar las estrategias óptimas y el valor del juego de las monedas coincidentes del ejemplo 9.1.1
ubicado al inicio del capítulo.
Cara Cruz
Cara –1 1
Cruz ( 1 –1)
–1 – 1 1
–1 – 1 – 1 – 1 2
q0 = =
–1 – 1
( ) ()
1
–1 – 1 – 1 – 1 2
y
(–1)(–1) – (1)(1)
v= =0
–1 – 1 – 1 – 1
Por lo tanto, en este muy sencillo juego a R y C les irá mejor si eligen una cara o cruz con igual pro-
babilidad. El valor de este juego es cero.
Para el juego de guerra del ejemplo 9.1.3 se modificarán los supuestos para obtener la tabla 9.3.
3–1 2
2+3–1–1 3
q0 = =
2–1
( ) ()
1
2+3–1–1 3
y
2·3–1·1 5
v=( =
2 + 3 – 1 – 1) 3
Esto significa que si este juego se repitiera muchas veces, ambos comandantes elegirían la ruta norte
2 1 5
del tiempo y la ruta sur del tiempo. Habría un promedio de días de bombardeo. Por supuesto,
3 3 3
este procedimiento no se realizará más de una vez. Por lo tanto, la interpretación correcta del vector
2 1 2
p0 = ( ) es que el General Kenney debe ir al norte con de probabilidad. Él podría hacer esto,
3 3 3
por ejemplo, colocando dos N y una S en una caja y elegir una letra aleatoriamente. Su número espe-
5
rado de días de bombardeo sería entonces ; sin embargo, él solo podría tener 1, 2 o 3 días de bom-
3
bardeo.
Como es bien sabido, muchos procedimientos médicos involucran un riesgo considerable para el
paciente y solo deben asumirse cuando el paciente está expuesto a un riesgo mayor si no se le da
el tratamiento. ¿Cómo se determina en una situación dada qué riesgo es mayor? Este problema se
complica aún más cuando no hay una certeza completa de que el paciente padece la enfermedad
sospechada. Por ejemplo, con frecuencia se realiza una cirugía para extirpar tumores, incluso cuando
solo existe una posibilidad relativamente pequeña de que el tumor resulte maligno. ¿Qué tan grande
debe ser esta probabilidad antes de que pueda recomendarse la cirugía?
Para analizar esta cuestión, supóngase que la probabilidad de que un paciente tenga una enfer-
medad particular es q1. (Esta probabilidad ha sido determinada mediante el desempeño de varias
pruebas). El tratamiento para esta enfermedad es una operación importante. Si el paciente padece la
enfermedad pero no se le opera, puede esperar vivir 5 años, pero si el paciente se opera, puede esperar
vivir 20 años. Si el paciente no padece la enfermedad, puede esperar vivir 25 años con la operación y
30 años sin la operación. La decisión de operarlo o no evidentemente depende de q1, la probabilidad
de que el paciente padezca la enfermedad. Si q1 = 0, entonces el paciente no padece la enfermedad y
no debe operársele. Si q1 = 1, el paciente padece la enfermedad y debe operársele. ¿Cuál es el valor
más pequeño de q1 para el cual la operación es recomendable?
20 25
A=
( 5 30)
como la matriz del juego. El paciente “juega” los renglones; el renglón 1 corresponde a hacerse la
operación y el renglón dos corresponde a no hacerse la operación. El oponente, la naturaleza, juega
las columnas; la columna 1 corresponde a enfermedad y la columna 2 corresponde a no enfermedad.
La estrategia de la naturaleza es
q1
q=
( 1 – q1 )
9.2 Juegos de dos personas: estrategias mixtas 19
donde q1 es la probabilidad de que el paciente padezca la enfermedad. El paciente debe jugar una es-
trategia pura, pero de momento, supóngase que la estrategia del paciente es p = (p1 p2) =
(p1 1 – p1). El rendimiento esperado (en años de vida) es
20 25 q1
E(p, q) = (p1 1 – p1)
( 5 30)( 1 – q1 )
4 5 7
A= 1 2 4
( 5 8 3)
Este no es un juego de 2 × 2 y no tiene punto de silla, así que no está estrictamente determinado. Sin
embargo, el renglón 2 es recesivo. A R siempre le irá mejor si elige el renglón 1, así que nunca elegirá
el renglón 2. Igualmente, la columna 2 es recesiva y C nunca la elegirá. Al eliminar el renglón y la
columna recesivas, se obtiene
4 7
A′ =
( 5 3)
Las estrategias óptimas y el valor del juego son, de (3), (4) y (5),
4
2 3 5 23
p′0 = ( ), q′0 = y v =
()
5 6 1 5
5
Por lo tanto
4
5
2 3
p0 = ( 0 ) y q0 = 0
5 5
(45)
23
son las estrategias óptimas para A. El valor del juego sigue siendo .
5
20 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
Se cerrará esta sección con un magnífico ejemplo del uso de la teoría de juegos aplicado a la fi-
losofía.8
¿Jugamos un papel en la dirección de nuestras vidas? ¿O estamos destinados a llevar a cabo un plan
predestinado y movernos a lo largo de la banda transportadora del destino? Una de las columnas de
Martin Gardner que generó una respuesta considerable de sus lectores fue su discusión del libre albe-
drío y el determinismo, ilustrada por lo que se conoce como la paradoja de Newcomb.
La paradoja involucra la habilidad de un “Ser superior” para predecir el comportamiento con
exactitud. Este Ser puede ser un psíquico, un viajero del tiempo, Dios u otra entidad presente.
Una persona está frente a dos cajas. La caja A contiene 1 000 dólares; la caja B contiene ya sea
1 millón de dólares o nada. La persona puede tomar lo que está en ambas cajas, o puede tomar solo
lo que está en la caja B. En algún momento antes de que la persona tome una decisión, el Ser superior
hace una predicción acerca de la elección. Si el Ser cree que la persona solo tomará la caja B, enton-
ces pondrá 1 millón en ella. Si predice que la persona tomará ambas cajas, dejará la caja B vacía. El
Ser no es necesariamente infalible, pero es un predictor extremadamente exacto.
¿Cuál es la elección de la persona? Si toma ambas cajas, el Ser habrá predicho esto y dejado la
caja B vacía. Si la persona solo toma la caja B, obtendrá 1 millón de dólares. En su experiencia, el Ser
nunca se ha equivocado. Tomar la caja B parece ser la elección correcta.
El Ser El Ser
predice B predice A y B
Tomar B $1 000 000 $0
Sin embargo, considérese otro argumento. El Ser hizo su predicción hace una semana, o tal vez el día
en el que la persona nació. O puso $1 millón en la caja B o no lo puso, y el dinero no desaparecerá.
Entonces tiene más sentido tomar ambas cajas, porque si la caja B tiene dinero, la persona obtiene
$1 001 000; si no, la persona al menos tiene $1 000. Si la persona solo toma la caja B, incluso hay una
remota posibilidad de que la persona no obtenga nada.
Gardner sugiere que una forma de considerar la paradoja es usar una matriz de pagos. Si se con-
sidera el resultado de ambas elecciones a la luz de las predicciones del Ser, parece que la mejor op-
ción es tomar ambas cajas; a esa opción le asigna el pago máximo más alto ($1 001 000) así como el
pago mínimo más alto ($1 000). Obsérvese que $1 000 es un punto de silla.
Sin embargo, otro enfoque de la teoría de juegos, multiplicar los diversos resultados de cada
elección por la probabilidad de que sucederán, resulta en la conclusión opuesta. Incluso si se asume
que el predictor está en lo correcto el 90% del tiempo, el rendimiento esperado de tomar ambas cajas
es 90% de $1 000 más 10% de $1 001 000, equivaliendo a $101 000. En otras palabras, si la persona
juega el juego diez veces, la toma promedio sería de $101 000. Tomar solo la caja B arroja el 90% de
$1 000 000 más 10% de cero, equivaliendo a $900 000. Es mejor solo tomar la caja B incluso si el Ser
está en lo correcto solo un poco más de la mitad del tiempo.
La paradoja está basada en los conceptos contradictorios del libre albedrío y el determinismo.
Para aquellos que sienten que sus elecciones están totalmente comprometidas con un presente futuro
o son completamente dependientes de lo que el pragmatista del siglo XIX, William James llamó el
“impulso del pasado”, la única elección es tomar la caja B, si así puede llamársele, porque un Ser
omnisciente o u viajero del tiempo estaría consciente de dichas fuerzas.
8
Usado con permiso de Martin Gardner. Para una discusión más amplia de la paradoja de Newcomb, ver capítulos 13 y 14 de Knotted
Doughnuts and Other Mathematical Entertainments de Gardner (W.H. Freeman & Co., 1986).
9.2 Juegos de dos personas: estrategias mixtas 21
Para aquellos que creen que pueden hacerse elecciones independientes —que existe, no importa
qué tan infinitesimal sea, una libertad de acción más allá de lo ordenado por el pasado o establecido
en el futuro— tomar ambas cajas es la acción correcta. Supóngase que la persona ha observado 1 000
intentos previos a su decisión, y cada persona que tomó la caja B recibió $1 millón, y aquellos que
tomaron ambas cajas encontraron vacía la caja B. Incluso, un amigo de la persona, capaz de ver el
contenido de ambas cajas antes de que la persona tome su decisión, sin importar qué hay en ellas, le
aconsejaría tomar ambas, porque ya sea que la caja B tenga o no $1 millón, la persona todavía saldría
ganando $1 000.
Isaac Asimov, en una respuesta a Gardner, escribió: “Sin duda, yo tomaría ambas cajas. Soy un
determinista, pero me queda perfectamente claro que cualquier ser humano digno de ser considerado
un ser humano (incluido con toda certeza yo mismo) preferiría el libre albedrío, si algo así existe…
Al menos así, usted habrá expresado su disposición a apostar por la no-omnisciencia [de Dios] y por
su propio libre albedrío… Sin embargo, si solo toma la segunda caja usted obtendrá su condenado
millón y no solo usted es un esclavo, pero también habrá demostrado su disposición a ser un esclavo
por ese millón, y usted no es alguien a quien yo reconozca como humano”.
Al parecer Martin Gardner disfruta más proponiendo paradojas como esta que resolviéndolas.
“Soy un indeterminista, lo que quiere decir que no soy un determinista”, asegura. “No creo que la
paradoja se haya explicado adecuadamente aún, pero no voy a perder sueño por eso”.
PROBLEMAS 9.2
En los problemas del 1 al 10 está dada la matriz de pagos de un juego. Encuentre el rendimiento es-
perado para R con el par de estrategias dadas p y q.
3 1
5 3 1 2 4 5 3 2
1. A =
( 3 6); p = (3 3), q = 2. A =
( 3 6); p = (1 0), q =
() ()
1 1
2 2
1 1
4 3
1 3 –1 1 4 1 1 3 –1 1
3. A = ; p = ( ), q = 4. A = ; p = (0 1), q =
(2 0 4) (2 0 4)
() ()
5 5 2 3
1 1
4 3
0
1 3 –1 2 1
5. A =
( 2 0 4); p = (3 3), q = 1
( 0)
1
3
2 –1 4 1
1 1 1
6. A = 5 7 3 ; p = , q =
(3 3 3)
()
3
( 6 2 –2) 1
3
2 –1 4 0
1 1 1
7. A = 5 7 3 ; p = ( ), q = 0
( 6 2 –2) 2 3 6
( 1)
22 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
1
5
2 –1 4 2
1 1
8. A = 5 7 3 ; p = (0 ), q =
()
5
( 6 2 –2) 2 2
2
5
1
10
–3 4 2 3 1
1 3 5
9. A = –2 6 1 5 ; p = ( 0 ), q =
( –4 0 6 7) 4 4
()
3
10
2
5
1
4
–3 4 2 3 1
1 3 1 4
20. A = –2 6 1 5 ; p = ( ), q =
( –4 0 6 7) 5 5 5
()
1
2
0
En los problemas 11 a 23 determine las estrategias óptimas y el valor de la matriz de juego dada. ¿Qué
juegos son imparciales?
2 –1 1 3 1 0
11. 12. 13.
( –1 2) ( 2 –1) ( –2 2)
1
2 – 12 0 1 1 –1
14. 15. 16.
( – 12 1) ( –1 0) ( –1 1)
2
1 3
–1 –1 2 2 3 5
17. 18. 19.
( 0 –2) ( 12 1) ( 2 6)
5 3 2
5 –3 7 4 2
20. 21. 22. 3 2 6
( –5 3) ( 5 3 6)
( 4 0 1)
5 8 4
3 7 1
23.
( 4
5
6
7
9
2 )
24. Suponga que la matriz de juego en el ejemplo 5 es
10 39
A=
( 5 40)
¿Cuál es el valor mínimo de probabilidad de que tiene el paciente padece la enfermedad para
la cual se puede recomendar la operación?
25. El modelo de toma de decisiones médicas en el ejemplo 5 puede estudiarse de forma más gene-
ral. Defina la matriz de juego
a11 a12
A=
( a21 a22)
9.2 Juegos de dos personas: estrategias mixtas 23
donde a11, a12, a21, y a22 son las duraciones esperadas de vida si el paciente se opera y padece
la enfermedad, se opera y no padece la enfermedad, padecer la enfermedad y no se opera o no
padece la enfermedad y no se opera, respectivamente. Asumiendo que el paciente desea maxi-
mizar la duración esperada de vida, demuestre que la operación puede recomendarse si la
probabilidad de que el paciente padezca la enfermedad es mayor que
a22 – a12
a11 + a22 – a12 – a21
[Pista: Compare el tiempo de vida esperado del paciente si se opera con la duración esperada
de vida si no se opera.]
26. Demuestre que el juego del problema 9.1.21 no es imparcial. ¿Cuál es su valor? ¿Qué estrategia
debe adoptar R?
27. Responda a las preguntas del problema 26 para el juego del problema 9.1.22.
28. En el problema 9.1.25, ¿qué debe hacer el dueño de la estación de gasolina A si sabe que el
dueño de la estación de gasolina B lanzará una moneda para determinar si baja o sube los pre-
cios?
29. Encuentre la estrategia óptima para el granjero en el problema 9.1.30 si la probabilidad de una
helada entre el 25 de agosto y el 5 de septiembre es de 0.5.
30. Responda a la pregunta en el problema 29 si la probabilidad de una helada es de 0.2.
31. Responda a la pregunta en el problema 29 si la probabilidad de una helada es de 0.9.
32. En una cierta región agrícola, el clima promedio durante la temporada de cultivo es ya sea frío
o cálido. Van a plantarse dos cosechas en una granja de 1 500 acres. Si la temporada de cultivo
el clima es frío, las ganancias esperadas son de 20 dólares por acre para la cosecha I, y de 10
dólares por acre para la cosecha II. Si la temporada de cultivo es cálida, las ganancias esperadas
son de 10 dólares por acre para la cosecha I, y de 30 dólares por acre para la cosecha II. Des-
criba la competencia entre el granjero y el clima como un juego de matrices. Si no hay informa-
ción disponible sobre las probabilidades de un clima frío o cálido, ¿cuál es la estrategia óptima
para el granjero?
33. Suponga que el clima en el problema 32 tiene la misma probabilidad de ser frío que de ser cá-
lido. ¿Cuántos acres de cada cosecha debe plantar el granjero?
34. En un experimento, un mono debe elegir uno de tres paneles para recibir un plátano. En cada
intento del experimento, el experimentador coloca ya sea dos plátanos detrás del panel I o un
plátano detrás de los paneles II y III. (Estos son los dos “movimientos” del experimentador).
Describa este experimento como un juego de matrices de 3 × 2. ¿Cuáles son las estrategias
óptimas para el mono y para el experimentador?
35. Si todas las componentes de una matriz de juego son positivas, demuestre que el valor del juego
es positivo.
*36. Dados dos juegos de matrices A = (aij) y B = (bij) de m × n, tales que bij = aij + k para todos
los i y todas las j, demuestre que el valor del juego de B es igual al valor del juego de A más la
constante k. Demuestre que las estrategias óptimas para R y C son las mismas que para B y
para A. (Se dice que los juegos de A y B son juegos de matrices equivalentes).
37. ¿Determine las estrategias óptimas y los valores de los juegos de matrices equivalentes
3 2 5 4
A=
( 2 –3) y B = ( 4 –1)
24 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
38. Establezca las estrategias óptimas y los valores de los juegos de matrices equivalentes
1 1 1 0 0 0
A= 2 2 3 y B = 1 1 2
( –2 4 5) ( –3 3 4)
39. Mientras la variable t aumenta de 0 a 1, ¿cómo cambian las estrategias óptimas en los siguientes
juegos?
t 0 1 2t t t2
a) b) c)
( 0 1 – t) ( 0 t) ( 12 1)
4
40. Determine los valores de los juegos de matrices de 2 × 2 del problema 39 como funciones de t
para 0 ≤ t ≤ 1. ¿Para cuáles valores de t estos juegos son imparciales?
41. a) Demuestre que el juego de matrices de 2 × 2
t 1–t
(1 – t t )
Sea E un evento (un resultado o un experimento) con P(E)> 0. Entonces la probabilidad condi- Probabilidad
cional de un evento A dado que E ha sucedido está denotada por P(A∣E) y está dada por condicional
P(A ∩ E)
P(A∣E) = (1)
P(E)
Se lanzan dos dados imparciales (numerados del 1 al 6). ¿Cuál es la probabilidad de que
a) La suma sea 7?
b) La suma sea 7 dado que al menos uno de los números sea 2?
SOLUCIÓN ►
a) Hay 36 posibilidades [(1, 1), (1, 2), …, (1, 6), (2, 1), …, (2, 6), …, (6, 1), (6, 2), …, (6, 6)]. De
estas, seis suman 7: (1, 6), 6, 1), (2, 5), 5, 2), (3, 4), (4, 3). Por lo tanto
6 1
P(7) = =
36 6
b) Se ha dicho que hay al menos un 2. Por lo tanto, los únicos resultados posibles son (2, 1), (2, 2),
(2, 3), (2, 4), (2, 5), (2, 6), (1, 2), 3, 2), (4, 2), (5, 2), y (6, 2). De estos resultados igualmente
posibles, solamente dos suman 7: (2, 5) y (5, 2). Por lo tanto
2
P(7∣ al menos un 2) =
11
Puede obtenerse esta respuesta mediante la fórmula de la probabilidad condicional.
P(7 y al menos un 2)
P(7∣ al menos un 2) =
P(al menos un 2)
2
36 2
= =
11 11
36
Nota
Los resultados en este ejemplo pueden representarse mediante un diagrama de árbol.
Esto se muestra en la figura 9.1. De hecho, en cualquier momento que se tiene un ex- El evento 7 y al menos un 2 sucede en
perimento de dos (o más) partes las diversas probabilidades pueden representarse dos sentidos: (2, 5) y (5, 2), así que su
mediante un diagrama de árbol. Los diagramas de árbol se utilizan para ilustrar la 2
probabilidad es .
teoría de las cadenas de Markov. 36
De la ecuación (1) puede obtenerse otro resultado útil.
Teorema de multiplicación
En una cierta ciudad, 60% de los votantes registrados son demócratas mientras que 40% son republi-
canos. 80% de los demócratas y 35% de los republicanos apoyan la prohibición de armas de fuego.
¿Cuál es la probabilidad de que un votante seleccionado de forma aleatoria apoye la prohibición de
armas de fuego?
26 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
Se pide encontrar P(B). Hay dos formas de obtener B (ver figura 9.2):
B = (B ∩ D) ∪ (B ∩ R)
Votantes registrados
B B
D R
B∩D B∩R
Figura 9.2
Un diagrama de Venn que
muestra los conjuntos D
(demócratas), R (republica-
nos), B, B ∩ D y B ∩ D.
9.3 Cadenas de Markov 27
Entonces
de (2)
↓
P(B) = P(B ∩ D) + P(B ∩ R) = P(B∣D)P(D) + P(B∣R)P(R)
= (0.8)(0.6) + (0.35)(0.4) = 0.62
Hay otra forma de representar este resultado. La información en el problema está dada en el diagra-
ma de la figura 9.3.
0.8 B∣D
D
0.6
Figura 9.3
0.35 B∣R
Diagrama de árbol que
muestra las probabilidades en
0.4
R
el problema de la prohibición
de armas de fuego.
El evento {apoya prohibición} = B puede obtenerse ya sea a través de D o a través de R. Por lo tanto
puede multiplicarse a través del árbol para obtener
La empresa de banquetes Gourmet tiene 40% del negocio de banquetes en una cierta ciudad mediana.
Su única competencia, Delicious Foods Services (DFS) tiene el otro 60%. Para ser más competitiva,
Gourmet contrata a una agencia de publicidad para impulsar su imagen. Durante una amplia campa-
ña publicitaria se recopilaron las cifras de ventas mensuales. Se encontró que 90% de los clientes de
Gourmet regresan a Gourmet al siguiente mes, mientras que el 20% de los clientes de DFS se cam-
bian a Gourmet.
a) ¿Qué porcentaje de clientes usa cada servicio después de 1 mes?
b) ¿Qué porcentaje usa cada servicio cada 2 meses?
c) ¿Cuál es la cuota de mercado de largo plazo para cada servicio?
SOLUCIÓN ► Este problema se soluciona en varios pasos. Primero, se presenta alguna termi-
nología. En el lenguaje de las cadenas de Markov el mercado de servicio de banquetes en la ciudad
del ejemplo es un sistema en el cual hay dos estados: Gourmet y DFS. Un cliente de los banquetes
está en el estado Gourmet si usa los servicios de Gourmet. En el caso contrario, está en el estado
DFS. Las probabilidades de moverse de un estado a otro se llaman probabilidades de transición. Para
este problema, las probabilidades de transición se indican en la figura 9.4. Las cuatro probabilidades
en las ramas de la derecha del árbol son todas probabilidades condicionales. Anotando esto se tiene
28 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
Después de un mes
Al inicio Gourmet
0.9 0.4 × 0.9 = 0.36
(G1)
Gourmet
0.4 (G)
0.1 DFS1 0.4 × 0.1 = 0.04
Por lo tanto, después de 1 mes 48% de los clientes de banquetes eligen Gourmet y 52% eligen
DFS. Obsérvese que 0.48 + 0.52 = 1.
Es posible obtener esta respuesta de otra forma. Se define al vector de probabilidad inicial p0
por p0 = (0.4 0.6). Se define a la matriz de transición T por
Hacia
Desde G DFS
G 0.9 0.1
T=
DFS ( 0.2 0.8)
La matriz de transición exhibe las probabilidades de pasar de un estado a otro durante un intento
del experimento. Por lo tanto, por ejemplo, la componente 1,2 de T es la probabilidad de pasar del
estado 1 (Gourmet) al estado 2 (DFS) en un mes.
Ahora obsérvese que
0.9 0.1
p0T = (0.4 0.6)
( 0.2 0.8) = (0.48 0.52) = p1
es el vector de probabilidad de proporciones después de 1 mes. Debe explicar por qué tomar el
producto de p0T arroja el mismo resultado que multiplicar a través del diagrama de árbol.
b) Hay dos formas de obtener p2, el vector de proporciones después de 2 meses. Primero, puede
trazarse un diagrama de árbol como en la figura 9.5. Al multiplicar a través del árbol se obtiene
9.3 Cadenas de Markov 29
Por lo tanto, p2, el vector de proporciones después de 2 meses, está dado por
p2 = (0.536 0.464)
Obsérvese que 0.536 + 0.464 = 1. Alternativamente, por el mismo razonamiento que en la parte
a), se encuentra que
0.9 0.1
p2 = p1T = (0.48 0.52)
( 0.2 0.8) = (0.536 0.464)
p1 = p0T
p2 = p1T = (p0T)T = p0T 2
p3 = p2T = (p0T 2)T = p0T 3
p4 = p3T = p0T 4
0.9 0.1
p3 = p2T = (0.536 0.464)
( 0.2 0.8) = (0.5752 0.4248)
30 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
Mediante un programa de cálculo se obtienen los resultados de la tabla 9.4. Parece que en la
medida que n (el número de meses) aumenta, las proporciones se acercan al vector de probabili-
dad fijo
2 1
t = (0.6666… 0.3333…) = ( )
3 3
A este se le llama un vector fijo para la matriz de probabilidad T porque
2 1 0.9 0.1 2 1
tT = ( ) =( )=t
3 3 ( 0.2 0.8) 3 3
Es decir, el vector t no cambia cuando se multiplica a la derecha por la matriz T. Por lo tanto, se
2
concluye que las proporciones de largo plazo de las cuotas son , o 67 %, del mercado para Gour-
3
1
met y , o 33 %, del mercado para DFS.
3
Tabla 9.4
Vector de probabilidad
Mes n (o proporción)
después de n meses
(Inicial) 0 (0.4 0.6)
1 (0.48 0.52)
2 (0.536 0.464)
3 (0.5752 0.4248)
4 (0.60264 0.39736)
5 (0.621848 0.378152)
7 (0.64470552 0.35529448)
10 (0.6591339934 0.3408660066)
15 (0.6654006503 0.3345993497)
20 (0.6664538873 0.3335461127)
25 (0.6666309048 0.3333690952)
30 (0.6666606562 0.3333393438)
40 (0.6666664969 0.3333335031)
Antes de dar ejemplos adicionales, se discutirán algunas propiedades generales de las matrices
de probabilidad y de las cadenas de Markov.
Matriz de La matriz P = (pij) de n × n es una matriz de probabilidad si cada uno de sus renglones es un
probabilidad vector de probabilidad. Esto significa que todas sus componentes son positivas y la suma de las com-
ponentes en cada renglón de P es 1.
1 1 1
1 1 4 4 2 1 0 0
1 0 1 1 5
a) b) 2 2 c)
0 1 0 d)
( 12 12) ( 14 3)
(1 ) (0 1)
4 3 12
4 1 1
3 3 3 0
1 1
0 2 0 2
1 1 1 5
6 3 12 12
e) 1 1 1 1
( 4
1
7
4 4 4
3 2 1
7 7 7
)
Teorema 9.3.1
Demostración
n n n
= ∑ p1 p1i + ∑ p2 p2i + … + ∑ pn pni
i=1 i=1 i=1
n n n
= p1 ∑ p1i + p2 ∑ p2i + … + pn ∑ pni
i=1 i=1 i=1
= p1 + p2 + … + pn = 1
32 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
dado que ∑ni =1 pij, la suma de las componentes en el j-ésimo renglón de una matriz de
probabilidad, es 1 para j = 1, 2, …, n.
ii) Si P = (pij) y Q = (qij) son matrices de probabilidad de n × n, la matriz del producto PQ
es una matriz de probabilidad de n × n.
Defina el producto de la matriz R = PQ = (rij). Esta es una matriz de n × n cuya
ij-ésima componente es rij = ∑nk =1 pik qkj. Dado que las componentes de P y de Q son no
negativas, las componentes de R = PQ son positivas. La suma de las componentes en el
i-ésimo renglón de R es
n n n n n
∑ rij = ∑ ∑ pik qkj = ∑ ∑ pik qkj
j=1 j=1 k=1 k=1 j=1
n n n
= ∑ pik ∑ qkj = ∑ pik = 1
k=1 ( k=1 ) k=1
En esta demostración se ha revertido el orden de la doble suma y se han usado los hechos
de que ∑nk =1 pik = ∑nj =1 qkj = 1 dado que P y Q son matrices de probabilidad. Se ha
demostrado así que PQ es una matriz de probabilidad.
SOLUCIÓN ►
1 1 1
4 4 2
1 1 3 5 21 3
pP = ( ) 0 1 0 =(
32 32 16 )
8 2 8
(1 1 1 )
3 3 3
5 21 3
es un vector de probabilidad dado que + + = 1.
32 32 16
SOLUCIÓN ►
1 1 1 5 1 29
4 4 2 1 0 0 16 12 48
PQ = 0 1 0 = 1 1 5 = 1 1 5
(1 1) (0 1) ( )
4 3 12 4 3 12
1 5 1 17
3 3 3 0 12 9 36
9.3 Cadenas de Markov 33
5 1 29 1 1 5 5 1 17
Las componentes de PQ son todas no negativas. También, + + = + + = + +
16 12 48 4 3 12 12 9 36
= 1. Por lo tanto, PQ es una matriz de probabilidad.
Para definir una cadena de Markov, considérese un experimento con un espacio muestral finito
S = {E1, E2, …, En}. Considérese una secuencia (o cadena) de intentos de este experimento. Se dice
que el experimento está en el estado Ei en el m-ésimo intento si Ei es el resultado del m-ésimo intento Estado
del experimento.
D Definición 9.3.1
Cadena de Markov Una secuencia de intentos de un experimento es una cadena de Markov si
1. El resultado del m-ésimo intento solamente depende del resultado del (m – 1)-ésimo inten-
to y no del resultado de intentos anteriores, y
2. La probabilidad de pasar del estado Ei al estado Ej en dos intentos sucesivos del experimen-
to no cambia.
Por ejemplo, si la probabilidad de pasar del estado E2 a E4 en el tercer intento es 0.6, entonces la
probabilidad de pasar de E2 a E4 en el cuarto, décimo o décimo quinto intento también es 0.6.
Nótese que en el ejemplo 3 se asumió que la probabilidad de que un cliente eligiera Gourmet en
un mes particular dependía solamente de la empresa de banquetes que había elegido el mes anterior.
Si el clima de hoy depende solamente del clima de ayer, entonces los problemas de observar y
predecir el clima son un problema que involucra a las cadenas de Markov. Si la probabilidad de elegir
una marca particular de automóvil en la próxima compra depende solamente de automóvil que se
tiene actualmente, entonces el análisis de los patrones de venta es un problema que involucra a las
cadenas de Markov.
Por otro lado, si el clima de hoy está determinado por el clima de varios días pasados, entonces
ya no se tiene una cadena de Markov. Igualmente, si en la compra del próximo automóvil se toman
en consideración los últimos tres autos adquiridos, entonces el análisis del patrón de automóviles no
involucra a una cadena de Markov. Esto resulta así porque la probabilidad de elegir una marca de
automóvil en el m-ésimo intento del experimento (el m-ésimo automóvil) depende de las elecciones
para el (m – 1), (m – 2) y (m – 3) automóviles (las últimas tres elecciones).
Una cadena de Markov se caracteriza por las probabilidades de que el sistema pase de un estado
a cualquier otro estado en intentos sucesivos.
La matriz de transición de una cadena de Markov es la matriz de probabilidad T = (pij) de n × n Matriz de
cuya ij-ésima componente pij es la probabilidad de que el sistema pase del estado Ei al estado Ej en transición de una
intentos sucesivos del experimento. cadena de Markov
0.9 0.1
En el ejemplo 3 la matriz de transición es T =
( 0.2 0.8).
Esto significa, por ejemplo, que la probabilidad de pasar del estado 1 (Gourmet) al estado 2 (DFS)
es 0.1.
Sea T la matriz de transición de una cadena de Markov. Dado que el producto de dos matrices
2 3 2 4 5
de probabilidad es una matriz de probabilidad, resulta que las matrices T = TT, T = T T, T , T , …
son todas matrices de probabilidad.
34 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
D Definición 9.3.2
Matriz regular y cadena de Markov regular Una matriz de probabilidad es regular si todas las
m
componentes de al menos una de sus potencias T son estrictamente positivas (mayores que
cero). Una cadena de Markov es regular si su matriz de transición es regular.
¿Cuáles de las siguientes matrices son matrices de transición para una cadena de Markov regular?
1 1 3 1 1
1 1 1 1
0 2 2 5 5 5
a) 2 2 b) 2 2 c) 1 1 d) 1 1 1
0
( 13 2) (0 1) ( 0) ( )
2 2 4 2 4
3 1 1 1 1 1
2 2 4 4 2
SOLUCIÓN ►
1 1
a) T = 2 2 es regular porque todas sus componentes son positivas.
( 13 2)
3
1 1 1 1 1 3
b) T 2 = 2 2 2 2 = 4 4 ,
( 0 1)( 0 1) ( 0 1)
1 7 1 15
T3 = 8 8 , T 4 = 16 16 ,
( 0 1) ( 0 1)
m
y así en adelante. Dado que siempre hay un cero en la posición 2,1 en T , se concluye que T no
es regular.
1 1 1 1 1 1 1
0 2 2 0 2 2 2 4 4
c) T 2 = 1
0 1 1
0 1 = 1 1 1
( 0)( 0) ( )
2 2 2 2 4 2 4
1 1 1 1 1 1 1
2 2 2 2 4 4 2
entonces T es regular.
d) Las componentes son todas positivas, entonces T es regular.
¿Por qué se estudian las cadenas de Markov regulares? En el ejemplo 1 se observó que la cadena
0.9 0.1
de Markov regular (regular porque T =
( 0.2 0.8) tiene todas las componentes positivas) tenía un
2 1 n
vector de probabilidad fijo t = ( ) y que el vector de probabilidad pn = p0T se acercaba a t a
3 2
medida que n se hacía más grande. Esto no es accidental.
Teorema 9.3. 2
Existencia de un vector de probabilidad fijo
Si T es una matriz de probabilidad regular, entonces existe un único vector de probabilidad t
n
tal que tT = t. Además, para cualquier vector de probabilidad p, el vector de probabilidad pT
se acerca cada vez más a t a medida que n aumenta. Al vector fijo t se le llama la distribución
estacionaria de la cadena de Markov regular cuya matriz de transición es T. Además, a medida
n
que n aumenta, cada renglón de T se acerca al vector fijo t.
9.3 Cadenas de Markov 35
– 12 1
3
∣ 0 1 – 23 ∣ 0 R2 → R2 – 12R1 1 – 23 ∣ 0
R1 → –2R1 R3 → R3 – R1
1
2 – 13 ∣ 0 1
2 – 13 ∣ 0 0 0 ∣ 0
( 1 1 ∣ 1) (1 1 ∣ 1) (0 3
5
∣ 1)
1 – 23 ∣ 0 1 0 ∣ 2
5 1 0 ∣ 2
5
9
R3 → 35R3 R1 → R1 – 23R3 R2 ⇄ R3
0 0 ∣ 0 0 0 ∣ 0 0 1 ∣ 3
5
.
(0 1 ∣ 3
5
) (0 1 ∣ 3
5
) (0 0 ∣ 0 )
2 3 2 3
Por lo tanto x = , y = , lo que da el vector único de probabilidad t = ( ).
5 5 5 5
9
La notación R2 ⇄ R3 significa intercambio entre el renglón 2 y el renglón 3.
36 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
1 1
2 3 2 3
Comprobación. tT = ( ) 2 2 =( )=t
5 5 (1 2) 5 5
3 3
b) Resolviendo
3 1 1
5 5 5
t = (x y z) = tT = (x y z) 1 1 1
( )
4 2 4
1 1 1
4 4 2
o
3 1 1 1 1 1 1 1 1
(x y z) = ( x + y + z x + y + z x + y + z)
5 4 4 5 2 4 5 4 2
o
3 1 1
x+ y+ z=x
5 4 4
1 1 1
x+ y+ z=y
5 2 4
1 1 1
x+ y+ z=z
5 4 2
Entonces, junto con la condición x + y + z = 1, se obtiene el sistema
x + y + z = 1
2 1 1
– x+ y+ z=0
5 4 4
1 1 1
x– y+ z=0
5 2 4
1 1 1
x+ y– z=0
5 4 2
Ahora se simplifican renglones:
R2 → R2 + 25R1
1 1 1 ∣ 1 1 1 1 ∣ 1
R3 → R3 – 15R1
– 25 1
4
1
4
∣ 0 R4 → R4 – 15R1 0 13
20
13
20
∣ 2
5
1
– 12 1 ∣ 0 0 7
– 10 1 ∣ – 15
( 5
1
5
1
4
4
– 12 ∣ 0 ) (0 1
20
20
7
– 10 ∣ – 15 )
1 1 1 ∣ 1
R2 → 20
13R2
0 1 1 ∣ 8
13
0 7
– 10 1 ∣ – 15
(0 1
20
20
7
– 10 ∣ – 15)
R1 → R1 – R2
7 1 0 0 ∣ 5
13
R3 → R3 + 10 R2
1
R4 → R4 – 20 R2 0 1 1 ∣ 8
13
0 0 3 ∣ 3
(0 0
4
– 34 ∣
13
3
– 13 )
9.3 Cadenas de Markov 37
1 0 0 ∣ 5
13
R3 → 43R3 0 1 1 ∣ 8
13
0 0 1 ∣ 4
(0 0 – 34 ∣
13
3
– 13 )
1 0 0 ∣ 5
13
R2 → R2 – R3
R4 → R4 + 34R3 0 1 0 ∣ 4
13
0 0 1 ∣ 4
(0 0 0 ∣
13
0 )
5 4 4 5 4 4
Por lo tanto x = , y = , z = , y t = ( ).
13 13 13 13 13 13
3 1 1
5 5 5
5 4 4 5 4 4
Comprobación. tT = ( ) 1 1 1 =( ) Observación
( )
13 13 13 4 2 4 13 13 13
1 1 1
4 4 2 Para la matriz en la parte a) de este
ejemplo se usa una calculadora para
calcular algunas potencias de T.
1 1
0.5 0.5
T= 2 2 =
( 13 2) (0.3333… 0.6666… )
3
7 7
2 0.4166… 0.5833…
T = 12 12 =
( 18
11 11 ) (0.3888… 0.6111… )
18
4 2 2 0.400462963 0.599537037
T =T T ≈
(0.399691358 0.600308642 )
8 4 4 0.4000003572 0.5999996428
T =T T ≈
(0.3999997618 0.6000002382 )
2 3
16 8 8 0.4 0.6
T =T T ≈ = 5 5
( 0.4 0.6) ( 2 3)
5 5
m 0.4 0.6
T =
( 0.4 0.6) para m > 16 ¡Revise!
m 0.4 0.6
pT = (a b)
( 0.4 0.6) = (0.4a + 0.4b 0.6a + 0.6b)
= (0.4(a + b) 0.6(a + b))
m 2 3
Dado que a + b = 1, se observa que, hasta diez decimales, pT = (0.4 0.6) = ( ) para cual-
5 5
quier vector de probabilidad p inicial.
38 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
Se coloca a un ratón dentro de una caja dividida en tres compartimentos, como se muestra en la figu-
ra 9.6. Ante la ausencia de más información, es razonable suponer que el ratón elegirá una puerta
aleatoriamente para pasar de un compartimento a otro. Si este supuesto es válido, puede esperarse
que a la larga el ratón esté en cada uno de los tres compartimentos con la misma frecuencia. Wecker
describió una serie de experimentos con ratones ciervos que puede analizarse en estos términos.10 Al
permitir que el ratón se mueva entre los compartimentos, la mitad en campo abierto y la mitad en un
área boscosa, Wecker pudo estudiar la fuerza de la preferencia del ratón ciervo por el habitat del
campo por sobre el habitat boscoso.
II
Puede analizarse la situación del ratón en términos de una cadena de Markov y demostrar que,
a la larga, es válida la intuición de que el ratón pasará cantidades de tiempo iguales en cada uno de
los compartimentos. Los tres estados obvios en este ejemplo son los compartimentos I, II, y III. Dado
1
que es igualmente posible que se elijan todas las puertas, la probabilidad es a que el ratón se move-
2
rá a uno o los dos compartimentos en los que no está. Esto arroja una matriz de transición
1 1
0 2 2
T= 1
0 1
( 0)
2 2
1 1
2 2
Dado que
1 1 1
2 4 4
2
T = 1 1 1
( )
4 2 4
1 1 1
4 4 2
1 1
0 2 2
(x y z) 1
0 1 = (x y z)
( 0)
2 2
1 1
2 2
10
Wecker, Stanley C. "HABITAT SELECTION." Scientific American 211, no. 4 (Oct 1964): 109-17.
9.3 Cadenas de Markov 39
o
1 1
y+ z=x
2 2
1 1
x + z=y
2 2
1 1
x + y = z
2 2
o
x + y + z = 1
1 1
–x + y + z = 0
2 2
1 1
x – y + z = 0
2 2
1 1
x + y – z = 0
2 2
Simplificando renglones se obtiene
R2 → R2 + R1
1 1 1 ∣ 1 1 1 1 ∣ 1
R3 → R3 – 12R1
–1 1 1 ∣ 0 R4 → R4 – 1 0 3 3 ∣ 1
2 2 2R1 2 2
1
–1 1 ∣ 0 0 – 32 0 ∣ – 12
( 2
1
2
1
2
2
–1 ∣ 0 ) (0 0 – 32 ∣ – 12 )
1 1 1 ∣ 1
R2 → 32R2 0 1 1 ∣ 2
3
0 – 32 0 ∣ – 12
(0 0 – 32 ∣ – 12 )
1 0 0 ∣ 1
3
R1 → R1 – R2
R3 → R3 + 32R2 0 1 1 ∣ 2
3
0 0 3 ∣ 1
(0 0
2
– 32 ∣
2
– 12)
1 0 0 ∣ 1
3
R3 → 23R3 0 1 1 ∣ 2
3
0 0 1 ∣ 1
(0 0 – 32 ∣
3
– 12)
1 0 0 ∣ 1
3
R2 → R2 – R3
R4 → R4 + 32R3 0 1 0 ∣ 1
3
0 0 1 ∣ 1
(0 0 0 ∣ 0
3
)
40 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
1 1 1
Por lo tanto, t = ( ), que significa que, como se esperaba, el ratón pasará cantidades iguales
3 3 3
de tiempo en cada uno de los tres compartimentos.
El clima en Montreal es bueno, neutro o malo en un día cualquiera. Si el clima es bueno hoy, será
bueno mañana con una probabilidad de 0.6, neutro con una probabilidad de 0.20, y malo con una
probabilidad de 0.20. Si el clima es neutro hoy, mañana será bueno, neutro o malo con probabilidades
de 0.25, 0.50, y 0.25, respectivamente. Finalmente, si el clima es malo hoy, las probabilidades son de
0.25, 0.25 y 0.50 para un clima bueno, neutro o malo mañana. Esto puede describirse como una ca-
dena de Markov de intentos de un experimento con tres resultados E1, E2, y E3, correspondientes
al clima bueno, neutro y malo en un día cualquiera. La matriz de transición para esta cadena de
Markov es
Hacia
Desde B N M
3 1 1
B 0.60 0.20 0.20 5 5 5
N 0.25 0.50 0.25 = 1 1 1
M ( 0.25 0.25 0.50) ( 1 )
4 2 4
1 1
4 4 2
5 5 4
Nota Esta es regular. En el ejemplo 9 se calculó el vector fijo (
13 13 13)
. Esto significa
5 4
que, a la larga, el clima en Montreal será bueno ≈ 38% del tiempo, neutro ≈ 31%
Este problema pudo resolverse solo al 3 13
suponer que el clima de hoy es del tiempo, y malo 31% del tiempo.
afectado solamente por el clima de
ayer, no por lo que sucedió en días
previos.
Demostración
Esto se deduce de la teoría de los determinantes. Pero det(P – I) = 0 si, y solo si, las columnas
de la matriz P – I son linealmente dependientes. Dado que P es una matriz de probabilidad,
se sabe que
Los vectores a la izquierda de esta ecuación son exactamente las columnas de P – I. Por lo
tanto las columnas de P – I son linealmente dependientes, y se prueba el resultado.
Una vez que se sabe que T tiene un vector fijo, puede demostrarse mediante una simplificación
de renglones que tiene un vector de probabilidad fijo, es decir, un vector fijo con componentes no
negativos que suman 1. Debido a que los cálculos pueden resultar tediosos, se observará qué sucede
en el caso de 2 × 2. Sea
a b
A=
( c d)
donde a, b, c, d ≥ 0, a + b = 1, y c + d = 1. Sea t = (x, y) un vector fijo.
Entonces
a b
(x, y)
( c d) = (x, y)
ax + cy = x (a – 1)x + cy = 0
o
bx – dy = y bx + (d – 1)y = 0
Pero d – 1 = –c y a – 1 = –b, entonces el sistema es
–bx + cy = 0
bx – cy = 0
1 0 1 0
T=
( 0 1) y T = ( 0 1)
n
c
lo que contradice el hecho de que T es regular. Supóngase que b ≠ 0; entonces x = y y se establece
b
c c+b
1=x+y= y+y= y
b b
b c b c
yy= , así que x = · = .
c+b b c+b c+b
b c
Por lo tanto, el vector ( es un vector de probabilidad fijo para T. Esta es la parte
c + b c + b)
fácil de comprobar. Aún debe probarse que pTk → t cuando k → ∞ para un vector de probabilidad p.
El esbozo restante se basa en la teoría de valores propios y vectores propios del capítulo 8. Si tT = t,
entonces (tT)t = tt o Tttt = tt. Es decir, tt es un vector propio de Tt correspondiente al valor propio 1.
Dado que T y Tt tiene los mismos valores propios, 1 es un valor propio de T.
Ahora se usa el teorema del círculo de Gershgorin. Si λ es cualquier valor propio de T, entonces
|λ – aii| ≤ ri
42 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
así que
Pero ri + aii es la suma de las componentes en el i-ésimo renglón de T que es igual a 1. Por lo tanto,
∣λ∣ ≤ 1
Se ha demostrado que cada valor propio de una matriz de probabilidad tiene un valor absoluto menor
que o igual a 1. También es posible demostrar que si Tt es la transposición de una matriz de probabi-
lidad regular, entonces todos los valores propios excepto el valor propio 1 tienen un valor absoluto
menor que 1 y existen n vectores propios lineales independientes para T t.
Supóngase que 1, λ2, λ3, …, λn, son los valores propios de Tt con los correspondientes vectores
n
propios tt, v2, v3, …, vn. Sea pt una columna de vector de probabilidad en ℝ . Entonces, debido a que
n
n vectores lineales independientes forman una base en ℝ , existen escalares c1, c2, … cn tales que
Entonces
(T t)kpt → c1tt cuando k → ∞
Observación
Una demostración completa de este Pero (Tt)kpt tiene componentes que deben sumar 1 (explique por qué) de modo que
teorema, así como demostraciones de c1 = 1, y se tiene
los resultados citados en la sección
9.4, pueden encontrarse en el (T t)kpt → tt cuando k ⟶ ∞
interesante ensayo “On Markov
Processes in Elementary Mathematics
Courses” de John T. Baldwin en The Finalmente, transponiendo, se obtiene
American Mathematical Monthly, vol.
96, no. 2, febrero 1989, 147-153.
pT k → t cuando k → ∞
9.3 Cadenas de Markov 43
PROBLEMAS 9.3
1 1 1 1 1
2 2 0 2 2 2
1. 1 1 2. 1 1 1
0
( 0) ( )
2 2 2 2 2
1 1 1 1 1
2 2 2 2 2
1
1 0 0 2 1 – 12
2 2
3. 0 1 0 4. – 13
( 0 0 1) ( )
3 3
3 3
– 15 5 5
1 1 1 1
0.99 0.22 –0.01 2 4 8 8
5. 0 6. 1 1
1 0 0 0
(1 )
2 2
(0.98 0.1 0.1 ) 1 1 1
2 4 8 8
1 1 1
3 3 3 1 0 0
7. 1 1 8. 1 0 0
0
(1 0 0)
( 0 0 0)
2 2
3 1 1
1 1 5 5 5 0
2 2 0 1 1 1 1
1 1 1 6 3 4 4
9. 20. 1 2 3 1
( ) ( )
4 4 2
1 1 3 7 7 7 7
8 8 4 2 5 1 3
11 11 11 11
En los problemas 11 al 20 están dados una matriz T y un vector inicial de probabilidad p0. Calcule p1,
p2, y p3.
1 1 1 1
1 1
11. T = 2 2 ;p = 12. T = 2 2 ;p = (1 0)
( 34 1) 0 (2 2) ( 34 1) 0
4 4
1 7 1 7
2 3
13. T = 8 8 ;p = (0 1) 14. T = 8 8 ;p =( )
( 23 1) 0
3
( 23 1) 0
3
5 5
1 1 1
0 1 0 3 2 6
1 3 1 1 2 2
15. T = 1
0 1 ; p0 = ( ) 16. T = 1 0 0 ; p0 = ( )
( ) (1 )
2 2 2 8 8 5 5 5
1 1 1 1 1
3 3 3 4 4 2
1 3 1
8 4 8 0 0 1
2 1 4
17. T = 1 1
0 ; p0 = ( ) 18. T = 0 1 0 ; p0 = (1 0 0)
( ) ( 1 0 0)
2 2 7 7 7
1 1 3
5 5 5
44 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
0 0 1
1 1 1
19. T = 0 1 0 ; p0 = ( )
( 1 0 0) 3 3 3
a 1–a
25.
( b 1 – b ), donde 0 < a < 1 y 0 < b < 1
1 1
2 0 2 1 0 0
26. 1 1 1 27. 1 1
0
( ) (3 )
3 3 3 2 2
1 1 1 1 1
4 2 4 5 5 5
(0 0 1)
4 2 4
bilidad de que esté sana mañana es de 30%. Describa la secuencia de estados de salud como
una cadena de Markov. ¿Cuál es la matriz de transición?
34. Si la persona del problema 33 está enferma hoy, ¿cuáles son las probabilidades de que se recu-
pere mañana, a 2 días de ahora, y a 3 días de ahora?
35. ¿En qué porcentaje de días estará sana la persona del problema 33?
36. Considere el experimento de colocar a un ratón en la caja ilustrada en la figura 9.7.
a) Suponiendo que es igualmente posible que el ratón elija cualquier puerta para salir de un
compartimento, describa este experimento como una cadena de Markov y determine la
matriz de transición.
b) Encuentre el porcentaje de tiempo que, a la larga, pasará el ratón en cada compartimento.
I IV
II III
Figura 9.7
37. Un examen consiste en 100 preguntas de tipo verdadero o falso. Para un estudiante promedio
el examen es tal que si contesta correctamente una pregunta la probabilidad de que la siguiente
3
pregunta se conteste correctamente es . Igualmente, si contesta incorrectamente una pregun-
4 1
ta, la probabilidad de que la próxima pregunta se conteste correctamente es . Estime la califi-
4
cación promedio de este examen, suponiendo que la primera pregunta se contesta correcta-
mente.
38. Un animal de laboratorio tiene la elección de tres alimentos disponibles en unidades estándar.
Después de una larga observación, se descubre que si el animal elige un alimento en un intento,
elegirá el mismo alimento en el siguiente intento con probabilidad del 50% y elegirá los otros
alimentos en el siguiente intento con probabilidades iguales del 25%.
a) Describa este proceso como una cadena de Markov y determine la matriz de transición.
b) Demuestre que, a la larga, se consumen cantidades iguales de alimento.
39. Hay cinco exámenes en un cierto curso. Las calificaciones posibles para cada examen son A, B,
C, D, y E. Se estima que la probabilidad de que un estudiante obtenga la misma calificación que
en el examen anterior es de 60% y de 10% para cada una de las otras posibilidades. Describa
este proceso como una cadena de Markov. ¿Cuál es la matriz de transición?
40. a) Si un estudiante recibe una A en el primer examen del problema 39, ¿cuál es la probabilidad
de que reciba una calificación de C en el tercer examen?
b) Si un estudiante recibe una B en el segundo examen, ¿cuál es la probabilidad de que todas
sus calificaciones en las tres pruebas restantes sean de B?
46 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
41. La empresa de renta de automóviles UDrive opera en California y carga una sobretasa para los
autos que se rentan en una ubicación y se dejan en otra. Para determinar el cargo adecuado, se
dividió al estado en tres áreas: norte, centro y sur. Se determinaron las siguientes probabilida-
des de que un auto se recoja en un área y se deje en la misma o en un área diferente:
Hacia
Norte Centro Sur
Desde
Norte 0.6 0.3 0.1
Describa este proceso como una cadena de Markov y determine la matriz de transición.
42. En el problema 41 determine el porcentaje de autos que, a la larga, estarán en cada una de las
tres áreas.
43. Jeffrey Newman es un representante de ventas de una empresa grande de libros de texto. El
señor Newman vende libros de texto en un área que está subdividida en cuatro regiones. Visita
campus universitarios en una región cada semana y nunca visita la misma región en dos sema-
nas consecutivas. Si vende en la región I esta semana, tiene una posibilidad del 70% de ir a la
región II y una posibilidad del 30% de ir a la región IV la siguiente semana. Si vende en la región
III esta semana, venderá en la región II la siguiente semana. Si vende en la región II o IV esta
semana, venderá en una de las otras regiones con igual probabilidad en la siguiente semana.
Describa el calendario de viajes del señor Newman como una cadena de Markov y encuentre
la matriz de transición.
44. En el problema 43, ¿qué porcentaje de tiempo pasará a la larga el señor Newman en cada región?
45. En el problema 44, la empresa del señor Newman gasta $700, $650, $580 y $820, respectiva-
mente, para cubrir los gastos semanales en las cuatro regiones. ¿Cuál será a la larga el gasto
promedio semanal de la empresa?
46. Una empresa debe elegir entre dos fotocopiadoras para rentar. Las copiadoras son indistingui-
bles. Cada máquina está ya sea funcionando o no. De acuerdo con los registros de servicio
anteriores, se ha determinado que si la copiadora I está funcionando un día, la probabilidad de
que esté funcionando al día siguiente es de 0.95. Si no está funcionando, la probabilidad de que
esté funcionando al día siguiente es de 0.75. Si la máquina II está funcionando hoy, la probabi-
lidad de que esté funcionando mañana es de 0.9. Si no está funcionando hoy, la probabilidad
de que esté funcionando mañana es de 0.8. ¿Qué copiadora debe rentar la empresa?
47. En las elecciones para el senado de un cierto estado se ha determinado que una persona cam-
biará sus votos de acuerdo con las siguientes probabilidades:
Hacia
Demócrata Republicano Independiente
Desde
Demócrata 0.7 0.2 0.1
Si el ratón (ejemplo 9.3.10) permanece en el tercer compartimento una vez que llega ahí, la matriz de
transición es
1 1
0 2 2
T= 1
0 1
(0 0 1)
2 2
Aquí E1 y E2 son estados transitorios y E3 es un estado absorbente. Se nota que es posible alcanzar
E3 ya sea desde E1 o E2, y por lo tanto, la cadena de Markov es absorbente.
La matriz
1 1
2 0 2
T= 0 1 0
(1 1 1)
3 3 3
es la matriz de transición de una cadena de Markov absorbente con tres estados. El segundo estado
es absorbente. Puede alcanzarse desde E3 en un intento y desde E1 después de dos intentos (primero
1 1
va desde E1 a E3 con probabilidad y entonces desde E3 a E2 con probabilidad ).
2 3
EJ EMPLO 9.4 .3 Un juego de canicas
Considérese un juego con dos jugadores en el que cada uno inicia con dos canicas (bolitas, bochas).
En cada jugada, el primer jugador tiene la probabilidad p de ganar una canica y la probabilidad q =
1 – p de perder una canica. El juego termina cuando algún jugador pierde todas sus canicas. Describa
el juego como una cadena de Markov.
48 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
SOLUCIÓN ► Este juego tiene cinco estados, E0, E1, E2, E3, y E4, correspondientes al primer
jugador que tiene 0, 1, 2, 3, o 4 canicas. Los estados E0 y E4 son absorbentes, y los estados E1, E2 y E3
son no absorbentes o transitorios. La matriz de transición es
( p30
p40
p31
p41
p32
p42
p33
p43
p34
p44
) ( 0
0
0
0
q
0
0
0
p
1
)
El sistema inicia en el estado E2; es decir, la distribución inicial de probabilidad es p0 = (0 0 1
0 0). En juegos subsecuentes las distribuciones sucesivas de probabilidad son p1 = p0T =
( 0 q 0 p 0), p2 = (q2 0 2pq 0 p2), p3 = (q2 2pq2 0 2p2q p2), p4 = (q2 + 2pq3
0 4p2q2 0 p2 + 2p3q), … Después de muchos intentos la probabilidad de que el sistema esté en
uno de los estados transitorios se vuelve muy pequeña. Esto significa que después de un gran número
de jugadas es casi una certeza que uno de los jugadores ha perdido todas sus canicas. Por ejemplo, si
2 1
p = , entonces q = y
3 3
1 2 2 1 3 2 2 1 2 2 2 2 3 1
p4 = ( ) + 2( )( ) 0 4( ) ( ) 0 ( ) + 2( ) ( )
3 3 3 3 3 3 3 3
13 16 52
=( 0 0 )
81 81 81
El resultado del último ejemplo sugiere que cuando se trata de una cadena de Markov absorbente, el
sistema eventualmente estará en un estado absorbente. Este hecho no se demostrará aquí, pero se
utilizará en el recordatorio de la sección. Por supuesto, surgen dos preguntas:
1. ¿Qué tanto, en promedio, estará el sistema en algún estado transitorio antes de pasar a un estado
absorbente?
2. Si existe más de un estado absorbente, ¿cuáles son las probabilidades en el largo plazo de termi-
nar en un estado absorbente?
Existe una técnica para responder a estas preguntas. La demostración de que esta técnica funciona es
difícil y no se discutirá aquí. En su lugar, se ilustrará la técnica en una matriz específica y después se
utilizará la técnica en otros ejemplos.
Considérese la matriz
1 1 1 1
2 8 8 4
0 1 0 0
T= 1 1 3 1
(03 6
0 0 1
8 8
)
Esta es la matriz de transición de una cadena de Markov absorbente con estados absorbentes 2 y 4.
Paso 1. Desde la matriz de transición T, elimine los renglones correspondientes a los estados absor-
bentes; llame a la nueva matriz T′:
1 1 1 1
T′ = 2 8 8 4
( 13 1
6
3
8
1)
8
9.4 Cadenas de Markov absorbentes 49
Estados absorbentes
Estados no absorbentes
1 1 1 1
2 8 8 4
( 13 1
6
3
8
1)
8
Por lo tanto
1 1 1 1
S= 8 4 y R = 2 8
( 16 2)
8
( 13 3)
8
Paso 4. La componente qij de Q se interpreta como sigue: si se inicia un estado transitorio i, qij es el
número esperado de veces que se estará en un estado transitorio j antes de alcanzar algún estado ab-
16
sorbente. En el ejemplo, el número q21 = significa que si se inicia en el segundo estado transitorio
13
(que es el estado 3 en el problema), entonces se debe regresar al estado transitorio 1 un promedio de
16 16
≈ 1.23 veces antes de pasar a un estado absorbente (estado 2 o estado 4). También, dado que
13 13
24 40
+ = ≈ 3.08, se debe estar en algún estado transitorio un promedio de 3.08 veces si se inicia en
13 13
el estado transitorio 2.
Estado Estado
absorbente 1 absorbente 2
Estado transitorio 1 0.3654 0.6346
Estado transitorio 2 ( 0.4615 0.5385)
50 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
Esto significa que si se inicia en el estado transitorio 1 se terminará en el estado absorbente 1 para
0.3654 = 36.54% del tiempo y en el estado absorbente 2 para 0.6346 = 63.46% del tiempo. Se da una
interpretación similar en el segundo renglón de A.
Ahora se aplica la técnica a una situación práctica.
Centerville Vo-Tech es una escuela estatal, con cursos de 2 años, especializada en entrenamiento vo-
cacional. Cada 2 años, la Junta Estatal de Regidores presenta un presupuesto para Centerville a la
legislatura estatal. El presupuesto está basado tanto en el número de estudiantes que asisten como el
número de quienes se espera se gradúen. Para calcular estos números se agrupa a los estudiantes en
cuatro categorías: primer año, segundo año, graduado y desertor. La última categoría incluye a aque-
llos que se transfirieron a otra escuela.
Después de recopilar datos a lo largo de varios años, la escuela puede predecir la proporción de
estudiantes que se moverán de una categoría a otra en cualquier año. Estos datos están dados en la
tabla 9.5. Si hay 2 000 estudiantes de primer año y 1 500 de segundo año en Centerville este año,
¿cuántos de estos estudiantes se graduarán eventualmente?
Tabla 9.5
Hacia Primer Segundo
Graduado Desertor
Desde año año
Primer año 0.15 0.65 0 0.2
Graduado 0 0 1 0
Desertor 0 0 0 1
SOLUCIÓN ► Este proceso puede describirse como una cadena de Markov absorbente con
cuatro estados, dos de los cuales (graduado y desertor) son absorbentes. La matriz de transición para
esta cadena de Markov es
Hacia
Desde 1o. 2o. G D
1o. 0.15 0.65 0 0.2
2o. 0 0.1 0.75 0.15
T=
G
D
( 0
0
0
0
1
0
0
1 )
y
1.17647 0.84967
Q = (I – R)–1 =
(0 1.11111 )
Paso 4 Los números en Q significan que el estudiante promedio, ahora en su primero o segundo
año, pasará aproximadamente 1.18 años en el primer año y 0.85 años en el segundo año antes de al-
canzar un estado absorbente (graduación o deserción). El estudiante promedio de segundo año pasa-
rá 1.11 años en su segundo año antes de graduarse o desertar.
0.6373 0.3627
≈
( 0.8333 0.1667)
Esto significa que 63.7% de los estudiantes de primer año se graduarán (dentro del estado absorben-
te 1) y 36.3% desertarán, mientras que 83.3% y 16.7% de los estudiantes de segundo año se graduarán
y desertarán, respectivamente. Ahora, contestamos las preguntas: Nota
De los 2 000 estudiantes de primer año,
En el paso 5 se calculó el número de
2 000 × 0.6373 = 1 275 se graduarán quienes que se graduarán eventual-
mente, mientras que en el paso 4 se
De los 1 500 estudiantes de segundo año, determinó qué tan realmente largo
“eventualmente” significa para cada
1 500 × 0.8333 = 1 250 se graduarán estudiante.
En el ejemplo 9.4.1, E1 y E2 son estados transitorios, mientras que E3 es absorbente. Por lo tanto,
1 1
0 2 2
dado que T = 1
0 1 , se tiene:
(0 1)
2 2
0
1 1 1 1
0 0
T′ = 2 2 , R = 2 y S = 2
( 12 0 1)
2
( 12 0) ( 12)
Dado que solo hay un estado absorbente, es evidente que dicho estado debe alcanzarse desde todos
1
los estados no absorbentes, así A debe ser la matriz
( 1). Este hecho puede usarse para verificar los
cálculos. Ahora,
4 2
1 – 12
I–R= y Q = (I – R)–1 = 3 3
(– 12 1) ( 23 4)
3
2
El significado de q12 = , por ejemplo, es que si el sistema inicia en el estado E1, el número esperado
3 2 4 2
de veces en que el sistema estará en el estado E2 es . Igualmente, q11 + q12 = + = 2. En otras
3 3 3
palabras, si el ratón está en el compartimento I en el primer movimiento, el número esperado de
52 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
1 0 0 0 0
q 0 p 0 0
T= 0 q 0 p 0
( 0
0
0
0
q
0
0
0
p
1
)
De modo que
q 0 p 0 0
T′ = 0 q 0 p 0
( 0 0 q 0 p)
Dado que el primero y el quinto estado son absorbentes, se tiene
0 p 0 q 0
R= q 0 p y S = 0 0
( 0 q 0) ( 0 p)
1
Para simplificar, considérese el caso p = q = . Entonces
2
1 1
0 2 0 0
2
1 1
R= 2 0 2 , S = 0 0
(0 1
2 0) ( 0 12)
3 1
1 – 12 0 2 1 2
I – R = – 12 1 – 12 y (I – R)–1 = 1 2 1 = Q
( 0 – 12 1) ( 12 1 32)
Esto expresa, por ejemplo, que si el primer jugador inicia con dos canicas, entonces puede esperar
que el juego dure q21 + q22 + q23 = 1 + 2 + 1 = 4 movimientos antes de que gane todo o pierda todo.
Finalmente,
3 3 1
1 12
2
1
2 0 4 4
A = QS = 1 2 1 0 0 = 1 1
( 12 1 32)( 0 12) (
2
1
2
3)
4 4
Por lo tanto, si el jugador 1 inicia con 1 canica (estado transitorio 1) terminará con ninguna canica
3 1
(estado absorbente 1) veces y con todas las 4 canicas (estado absorbente 2) veces.
4 4
9.4 Cadenas de Markov absorbentes 53
PROBLEMAS 9.4
En los problemas del 1 al 10 está dada una matriz. Determine si la matriz es la matriz de transición
de una cadena de Markov absorbente. Si es así, encuentre el número de estados absorbentes.
1 1 1 1
2 2 2 2 1 0
1. 2. 3.
( 0 1) ( 1 0) ( 0 1)
1 1 1
1 0 0 0 1 0 3 3 3
4. 0 0 1 5. 1 0 0 6. 0 0 1
( 0 1 0) ( 0 0 1) (1 1 1)
3 3 3
1 1 1 1 1
2 2 0 0 2 3 6 0
1 1 1
2 6 3 1 0 0 0 0 1 0 0
7. 0 1 0 8. 9.
(0 0 1) (0
0 0 1 0
1 1) (
0 0 1 0
1 3 1 )
0 2 2 2 8 0 8
1 4
5 5 0 0
1 1 1
0 3 3 3
10.
(0 )
0 0 1 0
0 0 1
En los problemas del 11 al 20 está dada la matriz de transición de una cadena de Markov absorbente.
Determine las matrices T′, R, S, Q y A.
1 2
3 3 1 0
11. 12.
( 0 1) ( 34 1)
4
1 1 1
3 3 3 0.2 0.7 0.1
13. 1 1 14.
0 0.6 0.1 0.3
(0 0 1)
2 2
(0 0 1 )
1 1 1
2 3 6 0
0.4 0.4 0.2 1 1 1 1
4 4 4 4
15. 0 1 0 16.
(0 0 1 )
(0 )
0 0 1 0
0 0 1
1 0 0 0
0.21 0.46 0.13 0.20
1 1 1 1
3 3 6 6 0 1 0 0
17. 1 1 18.
(0 2 0 0
0 0 1
2
) ( 0.31
0
0.25
0
0.21
0
0.23
1 )
1 1 1 1 3
8 4 8 6 8
1 2 1 2 1 0.17 0.23 0.15 0.32 0.13
7 7 7 7 7 0 1 0 0 0
1 1 1 1
19. 4 2 0 8 8 20. 0.15 0.21 0 0.38 0.26
( 0 0 0 1 0
0 0 0 0 1
) ( 0
0
0
0
0
0
1
0
0
1
)
54 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
21. Un animal de laboratorio debe completar una cierta tarea para recibir una unidad de alimento. La
4
probabilidad de la culminación exitosa de la tarea en cualquier intento es . Suponga que el ani-
5
mal repite la tarea hasta que recibe un total de cuatro unidades de alimento. Describa este proce-
so como una cadena de Markov absorbente con cinco estados. ¿Cuál es la matriz de transición?
22. ¿Cuál es el número esperado de veces que la tarea del problema 21 se repetirá hasta la culmina-
ción exitosa de la tarea?
*23. Dos apostadores, G1 y G2, están jugando un juego; la probabilidad de que G1 gane en cada mo-
3
vimiento es . Suponga que G1 inicia con 7 dólares y G2 inicia con 1 dólar. En cada jugada
7
ambos jugadores apuestan 1 dólar y el juego continua hasta que un jugador haya perdido todo
su dinero.
a) Describa este juego como una cadena de Markov absorbente con nueve estados.
b) ¿Cuáles son las distribuciones de probabilidad de los estados después de una jugada y des-
pués de dos jugadas?
c) ¿Cuál es la probabilidad de que G1 gane?
24. En el juego del problema 23 suponga que G2 apuesta todo su dinero en cada jugada del juego.
a) Describa este juego como una cadena de Markov absorbente con cinco estados.
b) ¿Cuál es el número de jugadas esperadas de este juego?
c) ¿Cuál es la probabilidad de que G1 gane?
25. Un animal de laboratorio debe elegir uno de cuatro paneles para recibir alimento. Si se eligen
los paneles I y II, el resultado es una cantidad muy pequeña de alimento. Por su parte, paneles
III y IV contienen mayores cantidades de alimento. Si se elige ya sea el panel III o el panel IV
en un intento, se observa que se elige el mismo panel en todos los intentos futuros. Si se elige
ya sea el panel I o el panel II en un intento, entonces puede elegirse cualquiera de los cuatro
paneles en el siguiente intento con igual probabilidad. Describa este proceso como una cadena
de Markov absorbente con cuatro estados. Si se elige el panel I en el primer intento, ¿cuál es el
número esperado de intentos antes de que se elija el panel III o el panel IV?
26. La empresa Zephyr Electronics fabrica computadoras portátiles. Antes de lanzar a la venta una
computadora pasa una inspección. Las categorías de inspección son: no funciona (NF), regu-
lar, buena y excelente. Las computadoras NF se desechan, mientras que las excelentes de inme-
diato se ponen en venta. Las computadoras regulares y buenas se regresan para ajustes y se re-
visan de nuevo. Las proporciones de computadoras regulares y buenas que cambian de
categoría están dadas en la tabla.
Hacia
NF Regular Buena Excelente
Desde
Regular 0.05 0.25 0.35 0.35
a) Describa este proceso de pruebas como una cadena de Markov absorbente y calcule la ma-
triz de transición.
b) ¿Cuántas veces, en promedio, una computadora calificada como regular se probará de nuevo?
c) ¿Cuántas veces, en promedio, una computadora calificada como buena se probará de nuevo?
d) ¿Cuál es la probabilidad que una computadora regular eventualmente se deseche?
e) ¿Cuál es la probabilidad que una computadora regular eventualmente se ponga a la venta?
f) De 30 000 computadoras que originalmente se calificaron como buenas, ¿cuántas eventual-
mente se pondrán a la venta?
9.5 Dos aplicaciones de las cadenas de Markov: teoría de colas y un modelo en psicología 55
27. La Mastervise Corporation emite tarjetas de crédito a 20 000 individuos en un cierto estado.
Su auditor descubre que 2 356 de ellos no hicieron sus pagos el mes pasado. Es una política de
la empresa que si no se han hecho pagos durante 3 meses seguidos se cancelan los privilegios
de la tarjeta y la cuenta se entrega a un despacho de cobranza. Experiencias anteriores de Mas-
tervise mostraron las experiencias de cobranza en la tabla.
a) Describa este proceso como una cadena de Markov absorbente y encuentre su matriz de
transición.
b) ¿A cuántos de los 2 356 pagadores morosos se les cancelará la tarjeta?
28. Regrese al problema 9.3.36. Asuma que una vez que el ratón llega al compartimento II o al
compartimento IV, se queda ahí.
a) Si un ratón inicia en el compartimento I, ¿cuántos compartimentos visitará en promedio?
b) ¿Qué porcentaje de los ratones que inician en el compartimento III terminarán en el com-
partimento IV?
29. En el ejemplo 9.4.4 se descubre que 30% de los estudiantes de primer año repiten el primer año,
45% pasan al segundo año, y 25% desertan. Si todos los datos permanecen iguales, ¿cuántos de
los actuales 2 000 estudiantes de primer año se graduarán?
*30. a) Considere un juego entre el equipo A y el equipo B con un total de n jugadores en los dos
equipos. En cada jugada del juego un equipo gana un jugador del otro equipo y el juego
continúa hasta que un equipo haya perdido a todos sus integrantes. Si hay k jugadores en el
equipo A y n – k jugadores en el equipo B, la probabilidad de que el equipo A gane un juga-
dor en la siguiente jugada es (k/n)2. Describa este juego como una cadena de Markov absor-
bente. ¿Las reglas son “imparciales”? (Este es un modelo elemental de la competencia entre
especies).
b) Para el juego anterior, suponga que k = 3 y n = 6. ¿Cuál es la distribución de probabilidad
de los equipos después de una jugada? ¿Después de dos jugadas?
Teoría de colas
Una cola es una fila, como en “formémonos en la cola para comprar boletos”. La teoría de colas es la
rama de las matemáticas que describe las filas de espera. Existen muchas aplicaciones de esta teoría.
56 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
Por ejemplo, el gerente de un supermercado quiere asegurarse de que 1) no pierde negocio por tener
a muchas personas impacientes esperando en largas filas en las cajas y 2) no pierde dinero pagándole
a empleados de cajas que están ociosos sin clientes a los que atender. Otro ejemplo es suministrado
por los viajeros de una aerolínea. Si alguna vez una persona ha comprado un boleto en el aeropuerto,
tuvo que 1) formarse en una cola para comprar el boleto, 2) formarse en otra cola para pasar la revi-
sión de seguridad, 3) esperar a la salida del avión que está en una cola de aviones esperando para
despegar, 4) hacer lo mismo en el aterrizaje, 5) esperar por el equipaje y 6) esperar en la cola para un
taxi.
En estas y otras situaciones similares resulta de gran interés responder a esta pregunta: ¿Cuál es
el porcentaje de tiempo en que habrá n personas en una cola, donde n = 0, 1, 2, 3, …? Por razones
obvias, el gerente del supermercado o el supervisor en cualquier forma de viaje necesita una respues-
ta a esta pregunta para mantener niveles razonables tanto de satisfacción del cliente como de ganan-
cias. Un análisis general de los modelos de colas está más allá de alcance de este texto. Sin embargo,
se discutirá un modelo simplificado para mostrar cómo puede usarse la teoría de las cadenas de
Markov para obtener una respuesta a la pregunta planteada anteriormente.
Se describe el modelo usando el ejemplo de una sola cola en un mostrador de boletos de una lí-
nea aérea. Se hacen los siguientes supuestos:
1
1. En un periodo de 1 minuto hay una probabilidad de de que una persona se unirá a la cola y una
3
2
probabilidad de de que nadie se unirá a la cola. Por lo tanto, se asume que no más de una per-
3
sona se unirá a la cola en cualquier intervalo de 1 minuto.
2. Si se atiende a una persona en un periodo, entonces la probabilidad de que una persona haya
3
recibido su boleto y salga de la cola en el siguiente periodo de tiempo es de .
8
3. Todas las probabilidades son independientes de qué ha sucedido anteriormente en los periodos.
4. No puede atenderse a una persona en el mismo periodo en el que se unió a la cola.
5. Cuando mucho, puede atenderse a una persona en un solo periodo de 1 minuto.
6. Debido a una política de anticongestionamiento, la cola se cierra si tiene cuatro personas. Es
decir, hay un máximo de cuatro personas en la cola en cualquier tiempo único.
Puede verse este modelo muy simplificado como una cadena de Markov con cinco estados, don-
de el estado del sistema está definido como el número de personas en la cola, incluyendo la persona
a la que se está atendiendo. Los cinco estados están representados por los números 0, 1, 2, 3, y 4. La
matriz de transición para esta cadena de Markov está dada por
0 1 2 3 4
2 1
0 3 3 0 0 0
1 13 5
1 4 24 24 0 0
T= 2 0 14 24
13 5
24 0
( )
1 13 5
3 0 0 4 24 24
4 0 0 0 38 58
1 13 5
2. En el segundo renglón se tiene p10 = , p11 = , y p12 = . Para pasar del estado 1 al estado 0
4 24 24
deben ocurrir dos eventos independientes. Primero, se atiende a la persona en la línea, y segun-
3
do, ninguna persona nueva se une a la cola. La probabilidad del primer evento es (por el su-
8
2
puesto 2) y la probabilidad del segundo evento es (por el supuesto 1). Por lo tanto
3
3 2 1
p10 = ⋅ =
8 3 4
Después, para pasar del estado 1 al estado 1, una de dos cosas mutuamente excluyentes puede
suceder:
a) No se atiende a nadie y nadie se une a la cola, o
5 2
b) Se atiende a una persona y una persona se une a la cola. La probabilidad de a) es ⋅ y la
8 3
3 1
probabilidad de b) es ⋅ . Por lo tanto
8 3
5 2 3 1 10 13 13
p11 = ⋅ + ⋅ = + =
8 3 8 3 24 24 24
Finalmente, para pasar del estado 1 al estado 2, se debe tener ninguna persona atendida (con
5 1
probabilidad ) y una persona que se une a la cola (con probabilidad ). Por lo tanto,
8 3
5 1 5
p12 = ⋅ =
8 3 24
Obsérvese que
1 13 5
p10 + p11 + p12 = + + =1
4 24 24
3. Los renglones 3 y 4 se obtienen igual que el renglón 2.
3 5
4. En el quinto renglón se tiene p43 = y p44 = . Para pasar del estado 4 al estado 3, debe tenerse
8 8
una persona atendida (obsérvese que nadie puede unirse a la cola ahora cerrada, de acuerdo con
el supuesto 6). Igualmente, para pasar del estado 4 al estado 4, no debe haber ninguna persona
5
atendida (con probabilidad ).
8
Debe recordarse que una cadena de Markov es regular si alguna potencia Tm de su matriz de
transición T tiene componentes estrictamente positivas. Con una calculadora, se calculan las prime-
ras cuatro potencias de T hasta diez decimales:
( 0.0000
0.0000
0.0000
0.0000
0.2500
0.0000
0.5417
0.3750
0.2083
0.6250
)
0.5278 0.4028 0.0694 0.0000 0.0000
0.3021 0.4288 0.2257 0.0434 0.0000
T2 ≈ 0.0625 0.2709 0.3976 0.2257 0.0434
( 0.0000
0.0000
0.0625
0.0000
0.2709
0.0938
0.4236
0.4375
0.2430
0.4687
)
58 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
( 0.0358
0.0059
0.1267
0.0527
0.2593 0.3496 0.2286
0.1997 0.4116 0.3301
)
Dado que T 4 tiene componentes estrictamente positivas, se observa que la cadena de Markov es regular.
Ahora debe recordarse el resultado [ver teorema 9.3.2], que establece que dado que T es una
matriz regular hay un vector de probabilidad t único cuyas componentes son todas positivas tal que
tT = t. Además, las matrices T m se acercan (conforme m se hace más grande) a la matriz P, cada uno
de cuyos renglones es igual al vector t. En este caso las componentes de t son las probabilidades de
largo alcance de la longitud de la cola. Para encontrar t, se inicia con
tT = t
o
2 1
3 3 0 0 0
1 13 5
4 24 24 0 0
(p0 p1 p2 p3 p4) 0 14 24
13 5
24 0 = (p0 p1 p2 p3 p4)
( )
1 13 5
0 0 4 24 24
0 0 0 38 58
o
2
3p0 + 14p1 = p0
1 13
3p0 + 24 p1 + 14p2 = p1
5 13
24p1 + 24 p2 + 14p3 = p2
5 13
24p2 + 24 p3 + 38p4 = p3
5
24p3 + 58p4 = p4
Ahora se anota el sistema en forma de matriz aumentada y se resuelve mediante reducción de renglo-
nes. Para simplificar, se inicia multiplicando las primeras cinco ecuaciones por 24:
–8 6 0 0 0 ∣ 0
8 –11 6 0 0 ∣ 0
0 5 –11 6 0 ∣ 0
5 –11 9 ∣
( )
0 0 0
0 0 0 5 –9 ∣ 0
1 1 1 1 1 ∣ 1
1 –0.75 0 0 0 ∣ 0
8 –11 6 0 0 ∣ 0
R1 → –18R1 0 5 –11 6 0 ∣ 0
5 –11 9 ∣
( )
0 0 0
0 0 0 5 –9 ∣ 0
1 1 1 1 1 ∣ 1
1 –0.75 0 0 0 ∣ 0
R2 → R2 – 8R1 0 –5 6 0 0 ∣ 0
R6 → R6 – R1 0 5 –11 6 0 ∣ 0
5 –11 9 ∣
( )
0 0 0
0 0 0 5 –9 ∣ 0
0 1.75 1 1 1 ∣ 1
1 –0.75 0 0 0 ∣ 0
0 1 –1.2 0 0 ∣ 0
R2 → –15R2 0 5 –11 6 0 ∣ 0
–11 9 ∣ 0
( )
0 0 5
0 0 0 5 –9 ∣ 0
0 1.75 1 1 1 ∣ 1
R1 → R1 + 0.75R2 1 0 –0.9 0 0 ∣ 0
R3 → R3 – 5R2 0 1 –1.2 0 0 ∣ 0
R6 → R6 – 1.75R2 0 0 –5 6 0 ∣ 0
–11 9 ∣
( )
0 0 5 0
0 0 0 5 –9 ∣ 0
0 0 3.1 1 1 ∣ 1
1 0 –0.9 0 0 ∣ 0
0 1 –1.2 0 0 ∣ 0
R3 → –15R3 0 0 1 –1.2 0 ∣ 0
9 ∣
( )
0 0 5 –11 0
0 0 0 5 –9 ∣ 0
0 0 3.1 1 1 ∣ 1
R1 → R1 + 0.9R3
R2 → R2 + 1.2R3 1 0 0 –1.08 0 ∣ 0
R4 → R4 – 5R3 0 1 0 –1.44 0 ∣ 0
R6 → R6 – 3.1R3 0 0 1 –1.2 0 ∣ 0
9 ∣
( )
0 0 0 –5 0
0 0 0 5 –9 ∣ 0
0 0 0 4.72 1 ∣ 1
60 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
Dado que el quinto renglón es el negativo del cuarto, se elimina y se continua dividiendo el cuarto
renglón entre –5:
1 0 0 –1.08 0 ∣ 0
0 1 0 –1.44 0 ∣ 0
R4 → –15R4
0 0 1 –1.2 0 ∣ 0
( 0
0
0
0
0
0
1
4.72
–1.8
1
∣
∣
0
1
)
R1 → R1 + 1.08R4
R2 → R2 + 1.44R4 1 0 0 0 –1.944 ∣ 0
R3 → R3 + 1.2R4 0 1 0 0 –2.592 ∣ 0
R5 → R5 – 4.72R4
0 0 1 0 –2.16 ∣ 0
( 0
0
0
0
0
0
1
0
–1.8
9.496
∣
∣
0
1
)
Hasta este punto, todos los números son exactos. Se realizan los cálculos restantes con hasta cinco
decimales de exactitud.
1 0 0 0 –1.944 ∣ 0
0 1 0 0 –2.592 ∣ 0
1
R5 → –9.496 R5
0 0 1 0 –2.16 ∣ 0
( 0
0
0
0
0
0
1
0
–1.8
1
∣
∣
0
0.10531
)
R1 → R1 + 1.944R5
R2 → R2 + 2.592R5 1 0 0 0 0 ∣ 0.20472
R3 → R3 + 2.16R5 0 1 0 0 0 ∣ 0.27296
R4 → R4 + 1.8R5
0 0 1 0 0 ∣ 0.22746
( 0
0
0
0
0
0
1
0
0
1
∣
∣
0.18955
0.10531
)
Por lo tanto, el vector de probabilidad fija está dado por
(p0 p1 p2 p3 p4) = (0.20472 0.27296 0.22746 0.18955 0.10531)
Esto significa, por ejemplo, que el vendedor de boletos está ocioso alrededor de 20% del tiempo (da-
do que p0 ≈ 0.20). Además, la fila está cerrada alrededor del 10% del tiempo dado que p4 ≈ 0.10, y
esto significa que hay cuatro personas en la cola alrededor de 10% del tiempo. Finalmente, se tiene a
una persona en la cola alrededor de 27% del tiempo, dos personas alrededor del 23% del tiempo, y
tres personas alrededor del 19% del tiempo.
De nuevo, se subraya que se ha trabajado con un modelo muy simplificado. No obstante, este
ejemplo muestra el poder de las cadenas de Markov combinado con la teoría de matrices para anali-
zar situaciones interesantes.
11
G.H. Bower, “Applications of a Model to Paired Associate Learning”, Psychometrica, 26, (1961): 255-280.
9.5 Dos aplicaciones de las cadenas de Markov: teoría de colas y un modelo en psicología 61
Supuestos
1. Cada pareja de estímulo-respuesta es uno de dos estados en cualquier intento del experimento:
condicionado (C) o adivinando (G). Está en el estado C si el sujeto ha aprendido la respuesta co-
rrecta (r) a la pregunta dada o estímulo (s). Está en el estado G si el sujeto no sabe la respuesta
correcta y debe adivinar.
2. Inicialmente, todas las parejas están en el estado G. Es decir, se asume que cuando
inicia el experimento el sujeto no conoce ninguna de las respuestas correctas.
3. Si un elemento está en el estado C en el n-ésimo intento del experimento, entonces Nota
permanece en el estado C en todos los intentos futuros. Es decir, una vez que el
sujeto ha aprendido la respuesta correcta a un estímulo dado, ya no la olvida. El supuesto 4 es el menos razonable
4. Si un elemento está en el estado G en el n-ésimo intento del experimento, la pro- de los hechos hasta ahora. Aquí se
está asumiendo que 1) todos los
babilidad es c > 0 de que estará en el estado C en el (n + 1)-ésimo intento del ex- elementos son igualmente fáciles (o
perimento. Es decir, c es la probabilidad de que el sujeto aprenda la respuesta co- difíciles) de aprender y 2) no es más
rrecta antes del siguiente intento del experimento. probable que el sujeto aprenda la
5. Si el elemento está en el estado G y hay N respuestas posibles, la probabilidad es respuesta correcta después de muchas
1/N de que el sujeto adivine la correcta. Es decir, en el estado adivinando todas las adivinanzas que después de solo una.
Se espera que si los sujetos son seres
respuestas tienen igual posibilidad de ser elegidas.
humanos de inteligencia normal, las
probabilidades de aprender se
Con estos supuestos, se puede considerar al proceso de aprender la respuesta correcta incrementarán después de cada
para cada estímulo como una cadena de Markov con los estados C y G.13 La matriz de adivinanza y después de cada vez que
transición para esta cadena de Markov es al sujeto se le da la respuesta correcta.
12
En el experimento original de Bower el estímulo consistía en diez parejas de letras, y las respuestas eran los números 1 o 2. Es
decir, a los sujetos se les daba una pareja de letras y se les pedía que contestaran “1” o “2”. Después de cada intento, se les decía a
los sujetos si sus respuestas eran correctas o no. Si los sujetos eran capaces de contestar correctamente cada uno de los diez estí-
mulos dos veces seguidas, entonces se asumía que habían aprendido las respuestas correctas y se terminaba el experimento.
13
Obsérvese que existe una cadena de Markov para cada item de estímulo-respuesta (s, r). Por lo tanto, si hay diez parejas (s, r), como
en el experimento de Bower, entonces hay diez cadenas de Markov. Sin embargo, bajo los supuestos, todas las diez cadenas de
Markov tienen propiedades idénticas.
62 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
C G
C 1 0
T= (1)
G ( c 1 – c)
dado que —por el supuesto 3— una vez que se está en C, se queda en C. También —por el supuesto
4— si se está en G, entonces la probabilidad es c de que se estará en C en el siguiente intento del expe-
rimento.
Usando la matriz de transición dada por (1), puede calcularse la probabilidad de que un elemen-
to esté en los estados C o G después de cualquier intento del experimento. Primero, por el supuesto
2, la distribución inicial de probabilidad es
p0 = (0 1) (2)
Ahora
1 0 1 0 1 0
T2 =
( c 1 – c)( c 1 – c) = ( c[1 + (1 – c)] (1 – c)2)
1 0
T3 =
(c[1 + (1 – c) + (1 – c)2] (1 – c)3)
1 0
Tn = (3)
( c[1 + (1 – c) + (1 – c)2 + … + (1 – c)n–1] (1 – c)n)
1 0
Tn = (6)
(1 – (1 – c)n (1 – c)n)
1 0
pn = p0 T n = (0 1)
(1 – (1 – c)n (1 – c)n) = (1 – (1 – c) (1 – c) )
n n
(7)
La fórmula (7) es muy reveladora. Dado que 0 < c ≤ 1 (por el supuesto 4), se tiene 0 ≤ 1 – c < 1. Por
n
lo tanto, (1 – c) se acerca cada vez más a cero a medida que n se hace más grande. Esto expresa que
mientas c no sea cero, eventualmente se aprenderá la respuesta correcta al estímulo. Mientras más
grande sea el valor de c, se aprenderá más rápido.
Sea c = 0.25. Entonces 1 – c = 0.75. La siguiente tabla da las probabilidades de que el item esté en el
estado G o C después de cada intento.
9.5 Dos aplicaciones de las cadenas de Markov: teoría de colas y un modelo en psicología 63
0 0 1
1 0.25 0.75
2 0.4375 0.5625
3 0.5781 0.4219
4 0.6836 0.3164
5 0.7627 0.2373
6 0.8220 0.1780
7 0.8665 0.1335
8 0.8999 0.1001
9 0.9249 0.0751
10 0.9437 0.0563
11 0.9578 0.0422
12 0.9683 0.0317
13 0.9762 0.0238
14 0.9822 0.0178
15 0.9866 0.0134
16 0.9000 0.0100
17 0.9925 0.0075
18 0.9944 0.0056
19 0.9958 0.0042
20 0.9968 0.0032
Obsérvese que después del décimo sexto intento hay un 99% de certeza de que el sujeto haya apren-
dido la respuesta correcta.
Resulta interesante analizar esta cadena de Markov en términos de la teoría de cadenas de
Markov absorbentes (ver la sección 9.4). Esta cadena de Markov es absorbente porque el estado C es
absorbente. Ahora se usará la notación de la sección 9.4. Se tiene
G C
T′ = (1 – c c)
En el ejemplo 9.5.1, c = 0.25, de modo que el sujeto estará adivinando un promedio de 1/0.25 = 4
veces antes de aprender la respuesta correcta.
Se pasará ahora a una situación más complicada (y más interesante). En el modelo ya discutido
no se hizo la distinción entre adivinar correctamente y adivinar incorrectamente para un elemento en
el estado G. Si se desea hacer la distinción entre estas posibilidades, es necesario analizar el modelo
mediante una cadena de Markov con tres estados:
E1 E2 E3
(1 – c) 1
(1 – c)(1 – c
N)
E1
N
T = E2 (1 – c) 1 (8)
(1 – c)(1 – ) c
( )
N N
E3 0 0 1
Esto se explica como sigue: p11 es la probabilidad de que un elemento inicie en E1 y se quede en E1.
Para hacer esto, el elemento debe iniciar y permanecer en un estado de adivinando (con probabilidad
1 – c) y debe adivinarse correctamente la respuesta (con probabilidad 1/N, por el supuesto 5). Por lo
tanto
1 1–c
p11 = (1 – c) = ( =
N) N
Igualmente, p21 = (1 – c)/N. Después, p12 es la probabilidad de que el elemento inicie y permanezca
en un estado adivinando (con probabilidad 1 – c) y que el sujeto adivine incorrectamente (con pro-
babilidad 1 – 1/N). Por lo tanto, p12 = (1 – c)(1 – 1/N). El mismo razonamiento demuestra que p22 =
(1 – c)(1 – 1/N). Finalmente, las otras probabilidades se deducen del modelo más sencillo discutido
anteriormente. De los supuestos, resulta aparente que la distribución inicial de probabilidad es
1 1
p0 = ( 1 – 0)
N N
En nuestra nueva cadena de Markov los estados transitorios son E1 y E2, mientras que el estado E3 es
absorbente. La matriz R está dada por
1–c 1
(1 – c)(1 – )
N N
R= (9)
( 1–c
N
1
(1 – c)(1 – )
N )
E JE M P LO 9.5.3 Número promedio de adivinanzas antes del aprendizaje
Se considera el experimento del ejemplo 9.5.1 con N = 5. Entonces como c = 0.25, se tiene [de (8) y
(9) y del hecho que (1 – c)/N = (1 – 0.25)/5 = 0.75/5 = 0.15]
9.5 Dos aplicaciones de las cadenas de Markov: teoría de colas y un modelo en psicología 65
1
Inicialmente, el sujeto está en el estado E1 (adivinanza incorrecta) con probabilidad = 0.2 y el esta-
5
do E2 con probabilidad 0.8. Por lo tanto el número esperado de veces que estará en el estado E1 es
PROBLEMAS 9.5
1. En el modelo de las colas descrito en esta sección, suponga que la probabilidad de que una
1 4
persona se una a la cola es y de que nadie se una es . Suponga que la probabilidad de que
5 5 1
una persona atendida esté fuera de la cola en un periodo es . Conserve los supuestos 3 al 6.
2
a) Encuentre la matriz asociada con la cadena de Markov inherente en el modelo.
b) Demuestre que la cadena de Markov es regular.
c) Encuentre las probabilidades de largo alcance de que n personas estarán en la fila, para n =
0, 1, 2, 3, y 4.
2. En un supermercado el número de personas que se unen a la fila de la caja rápida (personas
con menos de 10 artículos) es aleatorio pero promedia siete personas cada 10 minutos entre el
mediodía y las 2 pm. Una persona atendida habrá dejado la fila 1 minuto más tarde con proba-
3
bilidad . Si cinco personas están formadas, la línea se cierra. Estime el porcentaje de tiempo
4
que
a) El cajero estará ocioso.
b) La fila estará cerrada.
c) Estarán en la fila exactamente tres personas.
3. Responda las preguntas del problema 2 si se cierra la fila cuando hay seis personas en la fila y
todos los demás hechos permanecen iguales.
4. Un estudiante está tomando un curso de lectura en francés. Aprende el vocabulario mediante
palabras en francés puestas en un lado de una tarjeta y sus equivalentes en inglés en el otro la-
do. Hay 10 tarjetas. Se hacen los siguientes supuestos:
66 CAPÍTULO 9 Cadenas de Markov y teoría de juegos
i. Inicialmente, el estudiante conoce las diez palabras en inglés pero no tiene idea de qué pa-
labra en francés va con qué palabra en inglés. Está adivinando.
ii. Se muestra al estudiante una palabra en francés, él da un equivalente en inglés y si está co-
rrecto, se le muestra el otro lado de la tarjeta. El estudiante conoce la palabra o está adivi-
nando.
iii. Si el estudiante está adivinando, elige una de las diez respuestas en inglés aleatoriamente.
iv. Una vez que el estudiante aprende una palabra, la recuerda.
v. Si adivina (correcta o incorrectamente) y si entonces se le muestra la palabra correcta, la
probabilidad de que sabrá el equivalente en inglés de la palabra en francés que acaba de ver
la próxima vez que la vea es 0.3.
Con estos supuestos, encuentre la matriz de transición de la cadena de Markov con estados K
(para saber una palabra dada) y G (para adivinar).
5. En el problema 4, ¿cuál es la probabilidad de que el estudiante haya aprendido la traducción
correcta de una palabra en francés dada antes de adivinar cuatro veces?
6. En el problema 4, ¿cuántas veces debe repetirse el experimento hasta que la probabilidad de
que el estudiante se haya aprendido la palabra sea del 98%?
7. En el problema 4, ¿cuál es el número esperado de veces en que el estudiante adivinará hasta que
se aprenda la palabra?
8. En el problema 4, encuentre la matriz de transición de la cadena de Markov asociada con tres
estados: adivinando correctamente, adivinando incorrectamente y conociendo.
9. En el problema 8, ¿cuál es el número esperado de veces en que el estudiante adivinará incorrec-
tamente hasta que sepa una palabra dada?
10. En el problema 8, ¿cuál es el número esperado de veces en que el estudiante adivinará correc-
tamente hasta que sepa la palabra?
11. En un experimento se coloca a un mono frente a cuatro puertas. Cada puerta tiene un marca-
dor azul, rojo, verde o café. Detrás de la puerta verde hay un plátano. Se le permite al mono
abrir una de las puertas. Si elige la puerta verde, se le recompensa al obtener el plátano. Si elige
cualquier otra puerta, se le muestra el plátano, pero no se le da. El experimento se repite mo-
viendo los marcadores y de nuevo poniendo el plátano detrás de la puerta verde. El objeto
es determinar cuánto le toma al mono averiguar que no es la puerta sino el color lo que deter-
mina la ubicación de la recompensa. Experimentos previos con otros monos han indicado que
el mono tiene una probabilidad del 40% de aprender de qué se trata después de la primera
adivinanza. Utilice el supuesto del problema 4 y encuentre la matriz de transición de este expe-
rimento.
12. En el problema 11, ¿cuál es la probabilidad de que mono haya averiguado las reglas antes de su
tercer intento por el plátano?
13. En el problema 11, ¿cuántos intentos debe tener el mono para tener al menos 95% de certeza
de que ha aprendido a jugar?
14. En el problema 11, ¿cuántas adivinanzas hará el mono, en promedio, hasta que conozca las
reglas?
15. En el problema 11 encuentre la matriz de transición para la cadena de Markov asociada con
tres estados: adivinando correctamente, adivinando incorrectamente y conociendo las reglas.
16. En el problema 15, ¿cuál es el número esperado de veces en que el mono adivinará correcta-
mente hasta que aprenda a jugar?
9.5 Dos aplicaciones de las cadenas de Markov: teoría de colas y un modelo en psicología 67
17. En el problema 15, ¿cuál es el número esperado de veces en que el mono adivinará correcta-
mente?
*18. Demuestre que la fórmula (3) es verdadera.
19. Sea S = 1 + x + x2 + … + xn.
a) Calcule xS.
b) Calcule (1 – x)S
n+1
c) Demuestre que S = (1 – x )/(1– x) si x ≠ 1.
20. En el modelo en este capítulo se discutieron las cadenas de Markov de dos y tres estados. Sea
que E(G), E(GC), y E(G1) denotan el número esperado de adivinanzas en la cadena de Markov
de dos estados, el número esperado de adivinanzas correctas en la cadena de Markov de tres
estados, y el número esperado de adivinanzas incorrectas en la cadena de Markov de tres esta-
dos, respectivamente.
Demuestre que
E(GC) + E(GI) = E(G)
*21. Si T está dada por (8), demuestre que
1 1
(1 – c)n 1 – (1 – c)n
(1 – N)(1 – c)
n
N
Tn = 1 1
(1 – c)n 1 – (1 – c)n
(1 – N)(1 – c)
n
( )
N
0 0 1