Elementos de matemáticas para ciencias
económicas
con notas históricas y contextos económicos
Optimización y sistemas dinámicos
Sergio Monsalve
y
Ömer Özak
Volumen II
Universidad Nacional de Colombia
Facultad de Ciencias Económicas
Escuela de Economía
BOGOTÁ, D.C.
2017
Índice general
Presentación IX
III. Elementos de optimización 1
1. Funciones cóncavas, convexas, cuasicóncavas y cuasiconve-
xas 3
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Funciones cóncavas y convexas . . . . . . . . . . . . . . . 5
1.3. Propiedades de las funciones cóncavas . . . . . . . . . . . 10
1.4. Funciones cuasicóncavas y cuasiconvexas . . . . . . . . . . 22
1.5. Propiedades de las funciones cuasicóncavas . . . . . . . . . 24
1.6. Contexto económico . . . . . . . . . . . . . . . . . . . . . 34
1.6.1. Concavidad-convexidad y marginalidad decreciente 34
1.6.2. Concavidad-convexidad y rendimientos a escala . . . 36
1.6.3. Concavidad-convexidad en la teoría del consumo . . 43
1.6.4. Breve nota sobre no-convexidades . . . . . . . . . . 50
2. Optimización estática 59
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.2. Planteamiento del problema . . . . . . . . . . . . . . . . . 60
2.3. El teorema de Weierstrass . . . . . . . . . . . . . . . . . . 62
2.4. El método de los multiplicadores de Lagrange . . . . . . . 64
2.5. El método (de) Kühn-Tucker . . . . . . . . . . . . . . . . 77
iii
iv Índice general
2.5.1. El algoritmo (de) Kühn-Tucker . . . . . . . . . . . 79
2.5.2. El teorema de la envolvente . . . . . . . . . . . . . . 93
2.6. Optimización lineal: el método simplex . . . . . . . . . . . 97
2.6.1. El problema y su solución gráfica . . . . . . . . . . . 98
2.6.2. El algoritmo simplex . . . . . . . . . . . . . . . . . 104
2.6.3. El teorema de dualidad . . . . . . . . . . . . . . . . 113
2.7. Teoremas de separación de Minkowski . . . . . . . . . . . 121
2.7.1. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . 125
2.8. El teorema del máximo . . . . . . . . . . . . . . . . . . . . 129
2.9. Teoremas de punto fijo . . . . . . . . . . . . . . . . . . . . 134
2.9.1. Aplicaciones de los teoremas de punto fijo . . . . . . 138
2.10. Contexto económico . . . . . . . . . . . . . . . . . . . . . 140
2.10.1. Comportamiento racional sin interacciones . . . . . 142
2.10.2. Funciones del productor y del consumidor . . . . . . 156
2.10.3. Tradición paretiana del modelo competitivo . . . . . 163
2.10.4. Teoría de juegos clásica . . . . . . . . . . . . . . . . 189
IV. Elementos de sistemas dinámicos 223
3. Sistemas dinámicos 225
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 225
3.2. Sistemas continuos en una dimensión . . . . . . . . . . . . 227
3.2.1. Diagramas de fase . . . . . . . . . . . . . . . . . . . 231
3.2.2. Estabilidad . . . . . . . . . . . . . . . . . . . . . . . 233
3.3. Sistemas continuos en dos dimensiones . . . . . . . . . . . 240
3.3.1. Diagramas de fase . . . . . . . . . . . . . . . . . . . 243
3.3.2. Estabilidad . . . . . . . . . . . . . . . . . . . . . . . 248
3.3.3. Sistemas lineales . . . . . . . . . . . . . . . . . . . . 249
3.3.4. Sistemas no-homogéneos . . . . . . . . . . . . . . . . 265
3.3.5. Sistemas no-lineales . . . . . . . . . . . . . . . . . . 268
3.3.6. El método de Lyapunov . . . . . . . . . . . . . . . 272
3.4. Sistemas discretos en una dimensión . . . . . . . . . . . . 279
3.4.1. Diagramas de fase para sistemas autónomos . . . . . 286
3.4.2. Estabilidad en sistemas autónomos . . . . . . . . . . 289
3.5. Sistemas discretos en dos dimensiones . . . . . . . . . . . 294
3.5.1. Estabilidad y diagramas de fase . . . . . . . . . . . 296
3.5.2. Sistemas lineales . . . . . . . . . . . . . . . . . . . . 297
3.5.3. Sistemas no-homogéneos . . . . . . . . . . . . . . . . 303
3.5.4. Sistemas no-lineales . . . . . . . . . . . . . . . . . . 306
Índice general v
3.5.5. El método de Lyapunov . . . . . . . . . . . . . . . . 309
3.6. Ciclos límite, puntos periódicos, bifurcaciones y caos . . . 314
3.6.1. Ciclos límites y K-ciclos . . . . . . . . . . . . . . . . 315
3.6.2. Bifurcación y caos . . . . . . . . . . . . . . . . . . . 318
3.7. Contexto económico . . . . . . . . . . . . . . . . . . . . . 325
3.7.1. El modelo IS-LM . . . . . . . . . . . . . . . . . . . . 326
3.7.2. El modelo Arrow-Debreu . . . . . . . . . . . . . . . 337
3.7.3. La teoría de interacciones . . . . . . . . . . . . . . . 359
3.7.4. Nota sobre la “mano invisible” de Adam Smith . . . 372
4. Introducción a la optimización dinámica 385
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 385
4.2. Espacios métricos . . . . . . . . . . . . . . . . . . . . . . . 386
4.2.1. Nociones topológicas fundamentales . . . . . . . . . 389
4.2.2. Espacios métricos completos . . . . . . . . . . . . . 398
4.2.3. Espacios métricos compactos . . . . . . . . . . . . . 407
4.3. Espacios de Banach . . . . . . . . . . . . . . . . . . . . . . 414
4.4. Espacios de Hilbert . . . . . . . . . . . . . . . . . . . . . . 420
4.5. Teoría de ecuaciones diferenciales . . . . . . . . . . . . . . 425
4.6. El cálculo de variaciones clásico . . . . . . . . . . . . . . . 428
4.6.1. El problema fundamental . . . . . . . . . . . . . . . 430
4.6.2. Existencia de soluciones . . . . . . . . . . . . . . . . 432
4.6.3. Ecuaciones de Euler . . . . . . . . . . . . . . . . . . 433
4.7. Control óptimo (caso continuo) . . . . . . . . . . . . . . . 441
4.7.1. Solución por el principio del máximo . . . . . . . . . 442
4.7.2. Solución por programación dinámica . . . . . . . . . 459
4.8. Control óptimo (caso discreto) . . . . . . . . . . . . . . . 466
4.8.1. Solución por el principio del máximo . . . . . . . . . 466
4.8.2. Solución por programación dinámica . . . . . . . . . 473
4.8.3. Programación dinámica estocástica . . . . . . . . . . 478
4.9. Contexto económico . . . . . . . . . . . . . . . . . . . . . 484
4.9.1. Los productores en el modelo de Ramsey . . . . . . 485
4.9.2. Los consumidores en el modelo de Ramsey . . . . . 487
4.9.3. El concepto de equilibrio competitivo . . . . . . . . 490
4.9.4. El problema de un planificador central . . . . . . . . 492
4.9.5. Los dos teoremas del bienestar económico . . . . . . 497
4.9.6. Estabilidad del equilibrio . . . . . . . . . . . . . . . 498
vi Índice general
5. ¿Necesita la economía de unas matemáticas propias? 509
5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 509
5.2. Los pioneros: Cournot, Jevons, Marshall y Edgeworth . . 510
5.3. León Walras . . . . . . . . . . . . . . . . . . . . . . . . . . 513
5.4. Influencias poswalrasianas . . . . . . . . . . . . . . . . . . 515
5.5. La Guerra Fría . . . . . . . . . . . . . . . . . . . . . . . . 519
5.6. Kenneth Arrow y Gerard Debreu . . . . . . . . . . . . . . 522
5.7. Las matemáticas del “buen economista” . . . . . . . . . . 522
5.8. Problemas sin matemáticas apropiadas . . . . . . . . . . . 523
5.9. Posibles alternativas . . . . . . . . . . . . . . . . . . . . . 525
5.10. A manera de conclusión . . . . . . . . . . . . . . . . . . . 527
Respuestas y sugerencias a algunos problemas 529
Bibliografía 545
Índice alfabético 567
Dedicado a la memoria del profesor de matemáticas Jesús Hernando Pérez
Presentación
Los dos volúmenes que comprenden la colección Elementos de matemáti-
cas para ciencias económicas, con notas históricas y contextos económicos
(volumen I: Álgebra lineal y cálculo en varias variables; volumen II: Op-
timización y sistemas dinámicos) que ahora se presentan a la comunidad
académica y profesional, son una versión revisada, en algunas partes am-
pliada y, en otras, reducida, de la anterior colección Matemáticas básicas
para economistas, que fuera publicada en el año 2010 bajo el sello de la Uni-
versidad Nacional de Colombia–Sede Bogotá y con el auspicio de la Facultad
de Ciencias Económicas.
Este trabajo es, entonces, una síntesis de algunas de las herramientas ma-
temáticas a las que todo estudiante actual de ciencias económicas y, en
particular, de economía, debería acceder en sus primeras etapas de forma-
ción. Hacerlo de esta manera, le facilitará un acercamiento, no sólo a los
más importantes temas y problemas económicos, sino a una comprensión
más profunda desde el punto de vista científico. Es por ello que, a manera
de introducción, al final de cada uno de los capítulos del libro, se ha escrito
una sección de “contexto económico”, en donde se busca integrar los resul-
tados matemáticos que se vienen estudiando, con importantes vertientes de
la teoría económica.
Cabe advertir, sin embargo, que al emprender el estudio de este volumen
sobre optimización y sistemas dinámicos, se está asumiendo que, además del
curso básico en cálculo diferencial ordinario, el estudiante ya ha aprobado
satisfactoriamente un curso de álgebra lineal y cálculo diferencial en varias
variables, y también, ojalá, alguno de microeconomía y otro de macroeco-
nomía. El presente texto está, por consiguiente, dirigido a un tercer curso
ix
x Presentación
de matemáticas para ciencias económicas. En la práctica, para alcanzar el
objetivo, el estudiante debe comprometerse, entonces, no sólo en la lectura
juiciosa del material sino, y de manera importante, en la realización de una
buena cantidad de los ejercicios propuestos. Buscando ayudar con esto, al
final se ha adicionado un pequeño solucionario a algunos de los ejercicios
planteados, con la esperanza de que el lector intentará resolverlos y conten-
drá la tentación de consultarlo, hasta tanto no haya hecho un buen esfuerzo
en este sentido.
Para terminar, agradecemos a la Facultad de Ciencias Económicas y, en
especial, a los profesores Edgar Bejarano, José Guillermo García, Germán
Guerrero y Gustavo Junca, quienes dieron su apoyo y prestaron gestión pa-
ra que este esfuerzo pudiera consolidarse. A la profesora Angélica Chappe,
quien colaboró en el último capítulo de libro; al profesor Leonardo Duarte
quien nos dio su concepto de una versión preliminar; al economista Die-
go Ávila, quien nos ayudó con el ensamblaje de los dos volúmenes de esta
edición; a los matemáticos Alexander Muñoz y Daniel Restrepo, y a las
economistas Lina Castillo y Leidy Gómez, quienes revisaron la versión fi-
nal; también a dos referees anónimos, quienes con sus valiosas sugerencias
ayudaron a mejorar el texto, les extendemos nuestro agradecimiento. Adi-
cionalmente, en este tiempo tuvimos el excelente apoyo del Centro Editorial
de la Facultad, de su director, profesor Álvaro Zerda; de su coordinadora,
señora Nadeyda Suárez; y, en general, de todo el equipo de trabajo.
Al final, igualmente quisiéramos reconocer y agradecer aquí a todos aquellos
que, de una u otra forma, respaldaron y colaboraron en aquel proyecto de
2010.
Sergio Monsalve
Escuela de Economía
Universidad Nacional de Colombia
Bogotá D.C.
Ömer Özak
Department of Economics
Southern Methodist University
Dallas, TX
USA
noviembre de 2016
Parte III
Elementos de optimización
1
Capítulo 1
Funciones cóncavas, convexas, cuasicóncavas y cuasiconvexas
1.1. Introducción
Ya conocemos la importancia de la segunda derivada de una función de
una sola variable. Así como el signo de la primera derivada determina si la
función es creciente o decreciente, el signo de la segunda derivada determina
el lado hacia el cual se curvará la gráfica de la función. Por ejemplo, si
la función es creciente y la segunda derivada es positiva dentro de cierto
intervalo, entonces la primera derivada crece y la función tendrá una forma
como la de la figura 1.1a. De otro lado, si la función es creciente y la segunda
derivada es negativa en un intervalo, entonces la primera derivada decrece,
y la función tendrá una forma como la de la figura 1.1b. A una función como
la de la figura 1.1a se le llama función convexa; a una como la de la figura
1.1b, función cóncava.
Quizás fueron los griegos, más de dos mil años atrás, quienes comenzaron a
estudiar estas curvas que aparecían inicialmente en las formas cónicas (que
son cortes de conos con planos en distintos ángulos). Hasta donde se sabe, se
presentaban también a menudo en los intentos por resolver los famosos pro-
blemas de la geometría euclidiana: la trisección del ángulo, es decir, dividir
un ángulo dado en tres partes iguales, sólo con regla y compás; la cuadratura
del círculo, es decir, construir un cuadrado de área igual a la de un círculo
dado, sólo con regla y compás; entre otros. Una vez obtenidas las curvas,
los griegos continuaron estudiándolas, en parte por estar interesados en las
3
4 Capítulo 1. Funciones cóncavas y cuasicóncavas
formas geométricas en general, y en parte por haber descubierto la posi-
bilidad de utilizarlas para intentar “controlar” la naturaleza. Por ejemplo,
Apolonio [262-190 a.C.] utilizaba espejos cóncavos para hacer arder objetos
colocados en su foco, pues un espejo parabólico tiene la particularidad de
que concentra la luz y el calor en ese punto. También dice la tradición que
Arquímedes [287-212 a.C.] construyó un gigantesco paraboloide que utiliza-
ba para concentrar los rayos solares sobre los barcos romanos que asediaban
su ciudad (Siracusa) y así poder incendiarlos. Actualmente, la posibilidad
de concentrar la luz se aprovecha, por ejemplo, en la construcción de teles-
copios reflectores (inventados por Newton). Y como el comportamiento de
las ondas de radio es similar al de los rayos luminosos, también se utilizan
reflectores parabólicos para concentrar ondas de radio emitidas por fuentes
débiles y convertirlas en un haz intenso.
y y
β
β
α α
x x
a) b)
Figura 1.1. En el panel a) tenemos una función con segunda derivada positiva en un
intervalo; como se observa, β > α; por tanto, la pendiente crece. En el panel b) aparece
una función con segunda derivada negativa en un intervalo; allí, β < α, por lo que la
pendiente decrece.
En el Renacimiento, fue Galileo Galilei (1632) quien primero comprendió
los principios fundamentales que regulan el fenómeno del movimiento curvi-
líneo. Galileo se proponía entender, en particular, el comportamiento de los
proyectiles. Y aunque el cañón, que se usaba desde el siglo XIV, había tenido
muchos perfeccionamientos, la teoría del movimiento de los proyectiles era
deficiente, ya que matemáticos y físicos intentaban aplicarle las equivocadas
leyes del movimiento basadas en la física de Aristóteles. Gracias a Galileo
(y también a Newton) hoy sabemos que la trayectoria de una piedra arroja-
da desde un borde de cierta altura corresponde a un movimiento parabólico
descrito funcionalmente por
gt2
s(t) = − + v0 t + s0
2
1.2. Funciones cóncavas y convexas 5
donde t es la variable tiempo; s(t) es la altura de la piedra en el tiempo t;
g ≡ 9.8 m/s2 es la aceleración constante de los cuerpos que caen; v0 es la
velocidad inicial con que fue lanzada la piedra; y s0 es la altura desde la que
se hizo el lanzamiento (figura 1.2). Como veremos, esta curva s(·) es una
función cóncava.
Un siglo después, ya en el plano puramente analítico, podría decirse que la
primera investigación detallada de curvas de orden superior (incluyendo allí
curvas cóncavas y convexas) fue el libro de Leonhard Euler (1748) titulado
Introductio in Analysis Infinitorum. En el primer volumen de este libro,
Euler muestra la geometría analítica de estas curvas en un lenguaje muy
cercano al que aparece en los textos contemporáneos. En particular, esta fue
la primera vez que se estudiaron ecuaciones cartesianas para las tres cónicas
(elipse, parábola e hipérbola) cuya geometría tanto había preocupado a los
antiguos griegos clásicos y alejandrinos. Y es desde este trabajo de Euler que
se apuntala todo el estudio moderno de las funciones cóncavas y convexas.
De las importantes nociones de concavidad y convexidad (y sus generaliza-
ciones) discutiremos entonces en este capítulo.
s(t)
s0
t
Figura 1.2. Tiro parabólico.
1.2. Funciones cóncavas y convexas
A menos que se especifique lo contrario, asumiremos, en adelante, que C es
un conjunto convexo1 , no-vacío de Rn .
Definición 1. (Función cóncava)
Diremos que una función f : C → R es cóncava si, y sólo si, para todo x,
y ∈ C, λ ∈ [0, 1], se cumple que
f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y) (1.1)
1 n
Recordemos que C ⊆ R es un conjunto convexo si, y sólo si, para todo x, y ∈ C y
λ ∈ [0, 1], se tiene que también λx + (1 − λ)y ∈ C.
6 Capítulo 1. Funciones cóncavas y cuasicóncavas
Diremos, además, que f (·) es estrictamente cóncava si la desigualdad (1.1)
es estricta para x 6= y, λ ∈ (0, 1).
Así, geométricamente, una función de dos variables es cóncava si el segmento
de recta que une dos puntos cualesquiera está por debajo del arco de la curva
que los une (figura 1.3a).
Definición 2. (Función convexa)
Diremos que una función f : C → R es convexa si, y sólo si, para todo
x, y ∈ C, λ ∈ [0, 1], se cumple que
f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y) (1.2)
Diremos que es estrictamente convexa si la desigualdad (1.2) es estricta
para x 6= y, λ ∈ (0, 1).
La interpretación geométrica para dos variables es que el segmento de recta
está por encima del arco de la curva que une a x y y (figura 1.3b).
y y
y)
λ)
λf
−
(x
(1
)+
+
λx
f(
(1
y)
f(
−
λ)
λ)
−
f(
(1
y)
+ f(
) λx
(x +
λf (1
−
λ)
y)
x y x x y x
(a) (b)
Figura 1.3. Panel a): Típica función cóncava. Panel b): Típica función convexa.
Nota 1.
a) Dadas las definiciones anteriores, es claro que una función f (·) es convexa
(estricta) si, y sólo si, −f (·) es cóncava (estricta).
b) Observemos que la concavidad es una noción de conjunto; es decir, una
función puede ser convexa en cierta región de su dominio y cóncava en
otra (figura 1.4a).
c) A partir de la definición, también es claro que toda función estrictamente
cóncava es cóncava, y que toda función estrictamente convexa es convexa.
1.2. Funciones cóncavas y convexas 7
Ejemplo 1.
√
Probemos, mediante la definición 1, que f (x) = x es estrictamente cóncava
en [0, ∞) (figura 1.4b).
Solución.
Sean x, y ≥ 0, x 6= y y λ ∈ (0, 1). Entonces debemos mostrar que
f (λx + (1 − λ)y) > λf (x) + (1 − λ)f (y)
o, lo que es equivalente,
q √ √
λx + (1 − λ)y > λ x + (1 − λ) y
Si elevamos ambos lados de esta desigualdad al cuadrado, tenemos que
√ √
λx + (1 − λ)y > λ2 x + (1 − λ)2 y + 2λ(1 − λ) x y
de la cual, reordenando términos, obtenemos que
√ √
λ(1 − λ)x + λ(1 − λ)y > 2λ(1 − λ) x y
√ √ √ √ 2
o, lo que es igual, x + y > 2 x y, o, x − y > 0, lo cual se cum-
√
ple siempre, ya que hemos asumido x 6= y. Por lo tanto, f (x) = x es
estrictamente cóncava en [0, ∞). N [2]
y f (x)
a b
x x
Figura 1.4. Panel a): Función convexa en [0, a] y cóncava en [a, b].
√
Panel b): f (x) = x, x ≥ 0 es estrictamente cóncava.
Ejemplo 2.
√
Probemos que f (x1 , x2 ) = x1 x2 es cóncava en R2+ , donde R2+ = {(x, y) ∈
R2 | x ≥ 0, y ≥ 0}. ¿Será estrictamente cóncava? (figura 1.5a).
2
Recordemos que aquí, y en el volumen I (Álgebra lineal y cálculo en varias variables)
el símbolo N significa que el ejemplo que se está analizando, ha finalizado.
8 Capítulo 1. Funciones cóncavas y cuasicóncavas
Solución.
Tomemos x = (x1 , x2 ), y = (y1 , y2 ) ∈ R2+ , y λ ∈ [0, 1]. Entonces debemos
probar que
f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y)
o, lo que es equivalente, que
f (λx1 + (1 − λ)y1 , λx2 + (1 − λ)y2 ) ≥ λf (x1 , x2 ) + (1 − λ)f (y1 , y2 )
Y esto es
q √ √
(λx1 + (1 − λ)y1 )(λx2 + (1 − λ)y2 ) ≥ λ x1 x2 + (1 − λ) y1 y2
Si elevamos ambos lados de la desigualdad al cuadrado, obtenemos
√ √
(λx1 +(1−λ)y1 )(λx2 +(1−λ)y2 ) ≥ λ2 x1 x2 +(1−λ)2 y1 y2 +2λ(1−λ) x1 x2 y1 y2
y, realizando los productos de la desigualdad, llegamos a:
λ2 x1 x2 + λ(1 − λ)x1 y2 + λ(1 − λ)y1 x2 + (1 − λ)2 y1 y2 ≥
√ √
λ2 x1 x2 + (1 − λ)2 y1 y2 + 2λ(1 − λ) x1 x2 y1 y2
de lo cual obtenemos que
√ √
λ(1 − λ)x1 y2 + λ(1 − λ)y1 x2 ≥ 2λ(1 − λ) x1 x2 y1 y2
Si λ = 0 o λ = 1, esta desigualdad es cierta. Y si λ 6= 0, 1 entonces se tiene
que
√ √
x1 y2 + y1 x2 ≥ 2 x1 x2 y1 y2
o
√ √
( x1 y2 − y1 x2 )2 ≥ 0
y esta desigualdad se cumple siempre. Por lo tanto, tenemos que f (x) =
√
f (x1 , x2 ) = x1 x2 es cóncava en R2+ . Sin embargo, observe que esta función
no es estrictamente cóncava pues la parte izquierda de la última desigualdad
podría ser cero, escogiendo adecuadamente x = (x1 , x2 ) y y = (y1 , y2 ). Por
ejemplo, esto sucede si tomamos (x1 , x2 ) = t(y1 , y2 ), para cualquier t > 0.
√
La idea intuitiva aquí de por qué f (x1 , x2 ) = x1 x2 es cóncava pero no
estrictamente cóncava es que la superficie está conformada “cóncavamente”
por rectas (o rayos) que parten del origen (0, 0) (figura 1.5a).3
3
Imagine el lector cómo se forma una superficie cóncava uniendo sólo varillas rectas.
1.2. Funciones cóncavas y convexas 9
f (x, y) f (x, y)
y
y
x x
a) b)
√
Figura 1.5. En el panel a), la función f (x, y) = xy, x ≥ 0, y ≥ 0.
En el panel b), la función f (x, y) = x2 + y 2 .
Ejemplo 3.
Probemos que f (x1 , x2 ) = (x1 )2 + (x2 )2 es estrictamente convexa en R2
(figura 1.5b).
Solución.
Tomemos x = (x1 , x2 ) 6= (y1 , y2 ) = y ∈ R2 , y λ ∈ (0, 1). Entonces debemos
probar que
h i h i
(λx1 +(1−λ)y1 )2 +(λx2 +(1−λ)y2 )2 < λ (x1 )2 + (x2 )2 +(1−λ) (y1 )2 + (y2 )2
lo cual, calculando los cuadrados, es
λ2 (x1 )2 + (1 − λ)2 (y1 )2 + 2λ(1 − λ)x1 y1 + λ2 (x2 )2 + (1 − λ)2 (y2 )2 +
2λ(1 − λ)x2 y2 < λ(x1 )2 + λ(x2 )2 + (1 − λ)(y1 )2 + (1 − λ)(y2 )2
o, simplificando, esto es equivalente a
λ2 (x1 )2 + (y1 )2 − 2λ(y1 )2 + λ2 (y1 )2 + 2λx1 y1 − 2λ2 x1 y1 + λ2 (x2 )2 +
(y2 )2 − 2λ(y2 )2 + λ2 (y2 )2 + 2λx2 y2 − 2λ2 x2 y2 < λ(x1 )2 + λ(x2 )2 +
(y1 )2 − λ(y1 )2 + (y2 )2 − λ(y2 )2
y de nuevo simplificando, arribamos a que
λ2 (x1 )2 − λ(y1 )2 + λ2 (y1 )2 + 2λx1 y1 − 2λ2 x1 y1 + λ2 (x2 )2 − λ(y2 )2 +
λ2 (y2 )2 + 2λx2 y2 − 2λ2 x2 y2 < λ(x1 )2 + λ(x2 )2
10 Capítulo 1. Funciones cóncavas y cuasicóncavas
Agrupando términos, obtenemos
2λ(1 − λ)x1 y1 + 2λ(1 − λ)x2 y2 < λ(1 − λ)(x1 )2 + λ(1 − λ)(x2 )2 +
λ(1 − λ)(y1 )2 + λ(1 − λ)(y2 )2
que es equivalente a
λ(1 − λ)(x1 − y1 )2 + λ(1 − λ)(x2 − y2 )2 > 0
y que, claramente, se cumple, pues λ ∈ (0, 1) y x1 6= y1 o x2 6= y2 .
Ejercicios 1
1. Pruebe que si una función de una sola variable f (·) es cóncava (es-
tricta) en C (conjunto convexo y no-vacío en Rn ), entonces también
h(x, y) = f (x) + βf (y) es cóncava (estricta) en C × C, para β > 0.
2. Pruebe, utilizando la respectiva definición, que:
a) f (x, y) = Mín{x, y} es cóncava para x > 0, y > 0. ¿Será estricta-
mente cóncava?
b) f (x, y) = Máx{x, y} es convexa para x > 0, y > 0. ¿Será estricta-
mente convexa?
c) ¿Será cierto que si una función f : R+ → R+ es convexa, y f −1 (·)
existe, entonces f −1 (·) es cóncava? [Sugerencia: un gráfico de f (·)
y f −1 (·) ayudaría].
1.3. Propiedades de las funciones cóncavas
Recordemos que hemos asumido que, en adelante, C ⊆ Rn es un conjunto
convexo no-vacío. Dado esto, los siguientes teoremas nos presentan las pro-
piedades básicas de las funciones cóncavas. El primero de estos nos muestra
que la definición aparentemente algebraica de función cóncava tiene una
muy fuerte implicación topológica:
Teorema 1. (Concavidad ⇒ continuidad)
Si f (·) es cóncava en C, entonces es continua en el interior 4 de C. Es decir,
no existen funciones cóncavas discontinuas en C.
◦
4
Recordemos que el interior de un conjunto C ⊆ Rn es el subconjunto C ⊆ C confor-
mado por los puntos x ∈ C para los cuales existe un r > 0 tal que la bola abierta de radio
r y centro en x, Br (x), está contenida en C; esto es, Br (x) ⊆ C –ver volumen I (Álgebra
lineal y cálculo en varias variables)–.
1.3. Propiedades de las funciones cóncavas 11
Demostración.
(Ver el ejercicio complementario 24 al final del presente capítulo).
Teorema 2. (Característica de las funciones cóncavas)
Si f : C → R es cóncava, el conjunto de nivel superior a α definido por
Sα = {x ∈ C | f (x) ≥ α}, es convexo para todo α ∈ R (figura 1.6a) 5 . La
afirmación recíproca no siempre es cierta (ver ejemplo 7, adelante).
Demostración.
Si x, y ∈ Sα , entonces f (x) ≥ α, f (y) ≥ α. Como f (·) es cóncava, entonces
para todo λ ∈ [0, 1],
f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y)
≥ λα + (1 − λ)α = α
Luego, λx + (1 − λ)y ∈ Sα , y así Sα es un conjunto convexo.
y f (x) D
B
Sα C
x y x x
a) b)
Figura 1.6. En el panel a) se muestra el conjunto de nivel superior Sα , el cual es un
conjunto convexo (teorema 2). En el panel b) se presenta la condición de concavidad
“ pendiente de CD ≤ pendiente de AB ” (teorema 3).
Teorema 3. (Condición de primer orden)
Sea f : C → R continua en C y diferenciable con continuidad 6 en el interior
de C; entonces, f (·) es cóncava en C si, y sólo si, para todo x, y en el interior
de C:
f (x) − f (y) ≤ ∇f (y) · (x − y) (1.3)
En particular, en el caso de funciones cóncavas de una sola variable, tene-
mos que
f (x) − f (y) ≤ f ′ (y)(x − y) (figura 1.6b) (1.4)
5
Aquí, si Sα = ∅ entonces el resultado es cierto por “vacuidad”.
6
Es decir, con primeras derivadas parciales continuas en C.
12 Capítulo 1. Funciones cóncavas y cuasicóncavas
Además, en el caso general de n variables, f (·) es estrictamente cóncava si,
y sólo si, f (x) − f (y) < ∇f (y) · (x − y) para todo x, y en el interior de C,
con x 6= y.
Demostración.
Probaremos inicialmente el caso para una sola variable:
a) Supongamos que f (·) es cóncava en C. Entonces, para λ ∈ (0, 1] y x 6= y,
f (λ(x − y) + y) = f (λx + (1 − λ)y)
≥ λf (x) + (1 − λ)f (y)
= λ(f (x) − f (y)) + f (y)
lo cual implica que
f (λ(x − y) + y) − f (y)
(x − y) ≥ f (x) − f (y)
λ(x − y)
Dado que f (·) es diferenciable, tenemos que si λ → 0+ ,
f ′ (y)(x − y) ≥ f (x) − f (y)
b) Si x, y están en el interior de C, para λ ∈ [0, 1],
f (x) ≤ f (λx + (1 − λ)y) + f ′ (λx + (1 − λ)y)(1 − λ)(x − y)
f (y) ≤ f (λx + (1 − λ)y) + f ′ (λx + (1 − λ)y)(λ)(y − x)
Multiplicando la primera desigualdad por λ y la segunda por (1 − λ), y
sumando, se obtiene que
λf (x) + (1 − λ)f (y) ≤ f (λx + (1 − λ)y)
y así, f (·) es cóncava en C.
La demostración para el caso general es ya casi inmediata, pues basta tomar
la función F (λ) ≡ f (y + λ(x − y)) con ǫ < λ < 1 + ǫ para ǫ > 0 pequeño,
y calcular F ′ (λ) para luego aplicar el caso de una sola variable. En efecto,
utilizando el resultado anterior en esta función tendríamos que
F (1) − F (0) ≤ ∇F (0)(1 − 0)
1.3. Propiedades de las funciones cóncavas 13
que es equivalente a
f (x) − f (y) ≤ ∇f (y) · (x − y)
que era lo que queríamos probar. Es claro que el caso de concavidad estricta
es similar.
Sin embargo, esta condición de primer orden para la noción de concavidad,
aunque fundamental, no es la más utilizada en las aplicaciones. En su lugar,
era de esperarse, aparecen las condiciones de segundo orden, pues estas son
las que caracterizan la forma como se “curva” la función. Veamos esto.
Teorema 4. (Condición de segundo orden)
a) Si f (·) es dos veces diferenciable con continuidad en el interior de C y
continua en C, entonces f (·) es cóncava en C si, y sólo si, para todo x
en el interior de C, la matriz hessiana
" #n
∂2f
Hf (x) = (x) (1.5)
∂xi ∂xj i,j=1
es semidefinida negativa; es decir, si, y sólo si, XHf (x)X T ≤ 0 para
todo X ∈ Rn .
b) En particular, en el caso de funciones de dos variables, tendremos que
f (x, y) es cóncava en C si, y sólo si, la matriz hessiana
" #
A B
Hf (x) =
B C
satisface A ≤ 0 y AC − B 2 ≥ 0 en todo punto (x, y) del interior de C,
2 ∂2f 2
donde A = ∂∂xf2 (x, y), B = ∂x∂y (x, y), C = ∂∂yf2 (x, y).
c) Y en el caso de funciones de una sola variable (n=1), esta condición es,
simplemente, f ′′ (x) ≤ 0 para todo x en el interior de C (es decir, las
pendientes de las rectas tangentes a f (·) van decreciendo (figura 1.7).
Demostración.
Primero demostraremos c), y luego a); el literal b) queda como ejercicio
para el lector. Veamos la demostración de c):
14 Capítulo 1. Funciones cóncavas y cuasicóncavas
i) Supongamos que f (·) es cóncava en C. Por el teorema 3, tenemos que
para todo x en el interior de C y h suficientemente pequeño,
f (x) − f (x + h) ≤ f ′ (x + h)(−h) y f (x + h) − f (x) ≤ f ′ (x)(h)
Luego,
f ′ (x + h) − f ′ (x) f ′ (x + h)h − f ′ (x)h
f ′′ (x) = lı́m = lı́m
h→0 h h→0 h2
f (x + h) − f (x) − f (x + h) + f (x) 0
≤ lı́m 2
= lı́m 2 = 0
h→0 h h→0 h
x
Figura 1.7. Rectas tangentes con pendientes decrecientes.
ii) Por otro lado, si f ′′ (x) ≤ 0 para todo x entonces, tomando x, y ∈ C
fijos pero arbitrarios en el interior de C, por el teorema de Taylor, existe
c ∈ (x, y) tal que
f ′′ (c)
f (x) − f (y) = f ′ (x)(x − y) + (x − y)2
2!
Pero, por nuestro supuesto, f ′′ (c) ≤ 0, y así,
f (x) − f (y) ≤ f ′ (x)(x − y)
Aplicando el teorema 3, obtenemos el resultado buscado.
Veamos ahora la demostración de a):
◦
i) Sea a ∈ C (interior de C). Entonces, para h = (hi ) fijo, tendremos que
◦
a + λh ∈ C si |λ| es suficientemente pequeño (digamos |λ| < ǫ para
1.3. Propiedades de las funciones cóncavas 15
◦
ǫ > 0 pequeño). Si f (·) es cóncava en C entonces F (λ) ≡ f (a + λh)
también es cóncava en (−ǫ, ǫ); así, por la parte c) de este teorema, se
P ∂ 2 f
tendrá que F ′′ (0) = hi hj ≤ 0, que es exactamente lo que
∂xj ∂xi x=a
queríamos demostrar.
◦
ii) Sean a, b ∈ C, y h ≡ b − a. Como a, b son puntos interiores de X,
◦
existe un ǫ > 0 tal que a + λh ∈ C para −ǫ < λ < 1 + ǫ. Luego, de
nuevo por la parte c) de este teorema, se tiene que F (λ) ≡ f (a + λh) es
P ∂2f
cóncava en (−ǫ, 1 + ǫ) ya que F ′′ (λ) = hi hj ≤ 0. Pero como
∂xj ∂xi
λ = (1 − λ)0 + λ1, a + λh = (1 − λ)a + λb, F (0) = f (a), y F (1) = f (b),
la desigualdad (1 − λ)F (0) + λF (1) ≤ F ((1 − λ)(0) + λ(1) se convierte
en (1 − λ)f (a) + λf (b) ≤ f ((1 − λ)a + λb) que es cierta para todo
◦
λ ∈ [0, 1], a, b ∈ C.
El siguiente teorema está en la misma dirección del teorema 4. Sin embargo,
es muy importante especificarlo porque hará la advertencia de que, en el
caso de la concavidad estricta, ya la equivalencia de resultados no se da, y
en su lugar únicamente tenemos una implicación. Los contraejemplos para
mostrar que esto es así, son abundantes.
Teorema 5. (Característica diferencial)
a) Si f (·) es dos veces diferenciable con continuidad en el interior de C y
continua en C, entonces f (·) es estrictamente cóncava si, para todo
x en el interior de C, la matriz hessiana Hf (x) es definida negativa.
El recíproco no es cierto siempre.
b) En particular, en el caso de dos variables, tendremos que f (·) es estric-
tamente cóncava si la matriz hessiana
" #
A B
Hf (x, y) =
B C
∂2f ∂2f ∂2f ∂2f
donde A = , B = = , C = , satisface A < 0 y
∂x2 ∂x∂y ∂y∂x ∂y 2
AC−B 2 > 0 para todo x en el interior de C (observe que, en tal situación,
también C < 0).
c) En el caso de funciones de una sola variable, f (·) es cóncava estricta si,
y sólo si, f ′′ (x) < 0 para todo x en el interior de C.
16 Capítulo 1. Funciones cóncavas y cuasicóncavas
Demostración.
La prueba de esta propiedad es similar a la del teorema 4, utilizando la
condición para concavidad estricta del teorema 3. Sin embargo, es necesario
mostrar un caso en el que el recíproco no sea cierto, como asegura el teorema.
Para ello basta considerar el ejemplo típico de función cóncava estricta para
la cual A = B = C = 0 : f (x, y) = −x4 − y 4 en (0, 0).
Nota 2. (Propiedades de las funciones convexas)
Las propiedades fundamentales de las funciones convexas se obtienen uti-
lizando el hecho de que f (·) es convexa si, y sólo si, −f (·) es cóncava y,
utilizando los resultados de los teoremas anteriores. Un buen ejercicio para
el lector sería escribirlas explícitamente.
Ejemplo 4.
Es fácil mostrar (figura 1.8) que:
i) f (x) = ln(x) es estrictamente cóncava para x > 0.
ii) Si α > 0, g(x) = 1/xα es estrictamente convexa para x > 0.
Y aplicando directamente el teorema 5c), obtenemos, en cada caso, que:
1 α(1 + α)
I) f ′′ (x) = − < 0 si x > 0. II) g ′′ (x) = > 0 si x > 0.
x2 x2+α
f (x) g(x)
f (x) = ln x 1
g(x) = , α>0
xα
x x
a) b)
Figura 1.8. f (x) = ln x y g(x) = 1/xα .
Ejemplo 5.
Mostremos (figura 1.9) que la función f (x) = xα con x > 0 y α ≥ 0 es:
i) Cóncava si, y sólo si, 0 ≤ α ≤ 1.
ii) Estrictamente cóncava si 0 < α < 1.
1.3. Propiedades de las funciones cóncavas 17
iii) Convexa si, y sólo si, α ≥ 1.
y
α=4 α=2 α=1
α = 0.5
α = 0.3
1
1 x
Figura 1.9. f (x) = xα con diferentes valores de α.
Solución.
La segunda derivada de la función viene dada por
f ′′ (x) = α(α − 1)xα−2
i) f (·) es cóncava si, y sólo si, f ′′ (x) ≤ 0; así que debemos tener
α(α − 1)xα−2 ≤ 0, lo cual se cumple si, y sólo si, α ≥ 0 y α − 1 ≤ 0;
esto es, cuando 0 ≤ α ≤ 1.
ii) Para la concavidad estricta necesitamos que la desigualdad en I) se
cumpla estrictamente. Por un argumento similar al anterior, tenemos
que la función es cóncava estricta si 0 < α < 1.
iii) Para que la función sea convexa necesitamos que f ′′ (x) ≥ 0, lo cual se
cumple si, y sólo si, α ≥ 0 y α − 1 ≥ 0; esto es, cuando α ≥ 1.
Ejemplo 6.
Mostremos que la función f (x, y) = xα y β , con x > 0, y > 0; α, β > 0, es:
i) Cóncava si, y sólo si, α + β ≤ 1.
ii) Estrictamente cóncava si, y sólo si, α + β < 1.
iii) Además, mostremos que, en ningún caso, la función es convexa.
Solución.
Tenemos que
∂f ∂f
= αxα−1 y β , = βxα y β−1
∂x ∂y
18 Capítulo 1. Funciones cóncavas y cuasicóncavas
y la matriz hessiana está definida por
" #
A B
Hf (x) =
B C
donde
∂2f ∂2f
A= = α(α − 1)xα−2 y β , B= = αβxα−1 y β−1
∂x2 ∂x∂y
∂2f
C= = β(β − 1)xα y β−2
∂y 2
i) Así, Hf (x, y) es semidefinida negativa si, y sólo si,
a) Cumple que
∂2f ∂2f
A= ≤ 0, y C = ≤0
∂x2 ∂y 2
es decir, si α ≤ 1 y β ≤ 1.
b) Y también debe cumplir que
!2
∂2f ∂2f ∂2f
− ≥0
∂x2 ∂y 2 ∂x∂y
es decir,
h ih i h i2
α(α − 1)xα−2 y β β(β − 1)xα y β−2 − αβxα−1 y β−1 ≥0
o, lo que es lo mismo,
αβ(α − 1)(β − 1)x2α−2 y 2β−2 ≥ α2 β 2 x2α−2 y 2β−2
o,
(α − 1)(β − 1) ≥ αβ
de lo cual obtenemos, −α − β + 1 ≥ 0 que es equivalente a
α+β ≤1
ii) Por lo anterior, las condiciones de concavidad estricta A < 0 y AC −
B 2 > 0 se satisfacen si, y sólo si, α < 1 y α + β < 1; es decir, si, y sólo
si, α + β < 1 (puesto que hemos supuesto α > 0 y β > 0).
1.3. Propiedades de las funciones cóncavas 19
iii) Para que la función sea convexa debe ser A ≥ 0, lo cual se cumple si, y
sólo si, α ≥ 1. Además, debe ser AC −B 2 ≥ 0, lo cual, hemos mostrado,
se satisface si, y sólo si, α + β ≤ 1. Pero estas dos desigualdades no se
pueden satisfacer simultáneamente, dado que α, β > 0. Por lo tanto,
la función nunca es convexa.
Ejemplo 7.
De acuerdo con el ejemplo anterior, la función f (x, y) = x2 y 2 no es cóncava
en R2++ = {(x, y) ∈ R2 | x > 0, y > 0} puesto que su suma de exponentes
(2+2=4) es mayor que 1 (figura 1.10b)). Sin embargo, para todo escalar
α ∈ R+ , el conjunto de nivel superior a α,
( )
n o α1/2
Sα = (x, y) ∈ R2++ | f (x, y) ≥ α = (x, y) ∈ R2++ |y≥
x
es todavía un conjunto convexo7 . Esto demuestra que el recíproco del teo-
rema 2 es, en general, falso.
f (x, y) f (x, y)
y y
a) x b) x
√
Figura 1.10. En el panel a), la función f (x, y) = xy.
En el panel b), la función f (x, y) = x2 y 2 para x > 0, y > 0.
Solución.
Para ver esto, supongamos que (x1 , y1 ), (x2 , y2 ) ∈ Sα ; es decir, asumamos
α1/2 α1/2
que y1 ≥ y y2 ≥ ; entonces
x1 x2
α1/2 α1/2
λy1 + (1 − λ)y2 ≥ λ + (1 − λ)
x1 x
2
λ 1 − λ
= α1/2 +
x1 x2
1/2
= α (λg(x1 ) + (1 − λ)g(x2 ))
7
En esta definición hemos asumido α ≥ 0. Si α < 0, Sα = ∅ que, por vacuidad, también
es convexo.
20 Capítulo 1. Funciones cóncavas y cuasicóncavas
donde g(x) = 1/x. Pero sabemos (ejemplo 4), que g(x) es estrictamente
convexa para x > 0; así que
α1/2 (λg(x1 ) + (1 − λ)g(x2 )) ≥ α1/2 g(λx1 + (1 − λ)x2 )
1/2 1
=α
λx1 + (1 − λ)x2
lo que es equivalente a λ(x1 , y1 ) + (1 − λ)(x2 , y2 ) ∈ Sα , que es el resultado
buscado.
Dada la definición de función cóncava, podemos derivar sus propiedades
algebraicas:
Teorema 6. (Álgebra de funciones cóncavas)
a) Si a ∈ R, y f (·) es cóncava, entonces f (·) + a es cóncava.
b) Si a ∈ R+ y f (·) es cóncava, entonces a f (·) es cóncava.
c) Si f (·), g(·) son funciones cóncavas, entonces (f + g)(·) es cóncava.
d) Si f (·), g(·) son funciones cóncavas, entonces (f · g)(·) ni (f /g)(·) son
necesariamente cóncavas.
e) Si f : C → R es cóncava estricta y F : R → R es estrictamente monótona
creciente y estrictamente cóncava, entonces (F ◦f )(·) es también cóncava
estricta.
Demostración.
a) Sea f (·) cóncava, y definamos g(·) = f (·) + a; entonces
g(λx + (1 − λ)y) = f (λx + (1 − λ)y) + a
≥ λf (x) + (1 − λ)f (y) + a
= λ(f (x) + a) + (1 − λ)(f (y) + a)
= λg(x) + (1 − λ)g(y)
b) Sea a ∈ R+ y f (·) cóncava, y definamos g(·) = a f (·); entonces
g(λx + (1 − λ)y) = a f (λx + (1 − λ)y)
≥ a [λf (x) + (1 − λ)f (y)]
= λ(a f (x)) + (1 − λ)(a f (y))
= λg(x) + (1 − λ)g(y)
1.3. Propiedades de las funciones cóncavas 21
c) Sean f (·), g(·) funciones cóncavas; entonces
(f + g)(λx + (1 − λ)y) = f (λx + (1 − λ)y) + g(λx + (1 − λ)y)
≥ λf (x) + (1 − λ)f (y) + λg(x) + (1 − λ)g(y)
= λ(f + g)(x) + (1 − λ)(f + g)(y)
d) Si f (x) = x y g(x) = x1/2 , vemos que ambas son cóncavas, pero
(f · g)(x) = x3/2 no lo es. Por otro lado, si f (x) = x1/2 y g(x) = x,
entonces (f /g)(x) = x−1/2 es convexa.
e) Sean F (·) estrictamente creciente y estrictamente cóncava, y f (·) estric-
tamente cóncava; entonces
(F ◦ f )(λx + (1 − λ)y) = F [f (λx + (1 − λ)y)]
> F [λf (x) + (1 − λ)f (y)]
> λF [f (x)] + (1 − λ)F [f (y)]
El siguiente teorema es uno de los más utilizados en las aplicaciones, ya que
afirma que si usted ya está seguro de que la función que va a maximizar es
cóncava, entonces basta derivarla (si esto es posible) y hacerla igual a cero.
Allí aparecerán entonces los puntos de máxima (si existen).
Teorema 7. (Es fácil optimizar funciones cóncavas)
Si f : C → R es cóncava y diferenciable con continuidad en el interior de C,
todo punto crítico (esto es, todo x∗ en el interior de C tal que ∇f (x∗ ) = 0)
es un máximo global (o absoluto) (figura 1.11).
y
x∗ x
∗
Figura 1.11. Todo punto crítico x de una función cóncava es un máximo global.
Demostración.
Por el teorema 3, tenemos que si y ∈ C, y 6= x∗ ,
f (y) − f (x∗ ) ≤ ∇f (x∗ )(y − x∗ ) = 0
22 Capítulo 1. Funciones cóncavas y cuasicóncavas
Puesto que ∇f (x∗ ) = 0 (x∗ es un punto crítico), entonces
f (y) ≤ f (x∗ ) para todo y ∈ C
Por lo tanto, x∗ es un máximo global.
Ejercicios 2
1. Utilizando las condiciones de segundo orden, determine las regiones
de sus dominios donde las siguientes funciones son cóncavas (estricta-
mente) o convexas (estrictamente):
a) f (x) = x3 b) f (x) = e2x /x, x 6= 0
c) f (x, y) = 3 ln(x + y), d) f (x, y) = x2 + y 2 − 1
x+y >1
√ √
e) f (x, y) = 4 x + 2 y f) f (x, y) = x(y + 4)
x > 0, y > 0 x > 0, y > 0
√
g) f (x, y) = x − y 2 h) f (x, y) = ln x − ey
x > 0, y > 0 x > 1, y > 0
2. Como ilustración del teorema 1, muestre que
(
x2 si x ∈ (0, 1]
f (x) =
1 si x = 0
es convexa en [0, 1], continua en (0, 1], pero discontinua en [0, 1].
1.4. Funciones cuasicóncavas y cuasiconvexas
Una pregunta básica, que trataremos de responder en esta sección, es para
qué tipo de funciones es cierto el recíproco del teorema 2; es decir, que Sα
sea convexo para todo α ∈ R. La respuesta la encontramos en las funciones
cuasicóncavas, introducidas por John von Neumann en 1928.
Definición 3. [Función cuasicóncava –von Neumann (1928)–]
Diremos que una función f : C → R (donde, recordemos, C es un subconjunto
convexo no-vacío de Rn ) es cuasicóncava si, y sólo si, para todo x, y ∈ C,
λ ∈ [0, 1], se cumple que
f (λx + (1 − λ)y) ≥ Mín{f (x), f (y)} (1.6)
1.4. Funciones cuasicóncavas y cuasiconvexas 23
Además, diremos que f (·) es cuasicóncava estricta si, y sólo si, para todo
x, y ∈ C, x 6= y, λ ∈ (0, 1), se cumple
f (λx + (1 − λ)y) > Mín{f (x), f (y)} (1.7)
Definición 4. [Función cuasiconvexa –von Neumann (1928)–]
Diremos que una función f : C → R es cuasiconvexa (estricta) en C si, y
sólo si, −f (·) es cuasicóncava (estricta) en C.
Una inmediata relación entre las funciones cóncavas y cuasicóncavas la en-
contramos en el siguiente teorema:
Teorema 8. (Concavidad ⇒ cuasiconcavidad)
Toda función cóncava (estricta) es cuasicóncava (estricta); y toda función
convexa (estricta) es cuasiconvexa (estricta).
Demostración.
Sea f : C → R una función cóncava; entonces para todo x, y ∈ C, λ ∈ [0, 1],
f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y)
≥ λ Mín{f (x), f (y)} + (1 − λ) Mín{f (x), f (y)}
= Mín{f (x), f (y)}
De manera similar, tenemos que toda función convexa es cuasiconvexa. Las
demostraciones bajo la condición estricta son también similares.
Nota 3.
Que la condición de cuasiconcavidad es realmente un debilitamiento de las
condiciones de concavidad, se ve en el hecho de que no toda función cuasi-
cóncava es cóncava (figura 1.12). De manera similar, no toda función cuasi-
convexa es convexa.
f (y)
f (x) = Mín{f (x), f (y)}
x y
Figura 1.12. Una función cuasicóncava no cóncava.
24 Capítulo 1. Funciones cóncavas y cuasicóncavas
Ejercicios 3
1. Determine si las siguientes funciones son cuasicóncavas (estrictas) o
cuasiconvexas (estrictas) en el dominio indicado:
a) f (x, y) = x2 + y 2 − 1, con x, y > 0
b) f (x, y) = Mín{x, y}, con x, y > 0
c) f (x, y) = α ln x + β ln y, con α, β > 0, x > 1, y > 1
1.5. Propiedades de las funciones cuasicóncavas
Quizás la primera propiedad de las funciones cuasicóncavas que debe men-
cionarse es que, a diferencia de las funciones cóncavas, no toda función
cuasicóncava es continua, como se puede ver en la figura 1.13. Sin embargo,
sí existe una relación entre monotonicidad y cuasiconcavidad para funciones
con dominio real, que la expresamos formalmente en el teorema 9.
x
Figura 1.13. Una función cuasicóncava no continua.
Teorema 9. (Monotonicidad ⇒ cuasiconcavidad)
Si C ⊆ R, entonces toda función monótona8 (estricta) es cuasicóncava (es-
tricta). Sin embargo, no toda función cuasicóncava es monótona.
Demostración.
Supongamos (sin pérdida de generalidad) que f (·) es monótona crecien-
te. Entonces, para x, y ∈ C, si x ≥ y, Mín{f (x), f (y)} = f (y); y como
λx + (1 − λ)y ≥ y, entonces por la monotonicidad de f (·), se tiene que
f (λx + (1 − λ)y) ≥ f (y), que es lo que se quería probar. La demostración
para el caso estricto es similar. Se deja como ejercicio al lector, mostrar una
función cuasicóncava que no sea monótona.
8
Es decir, creciente o decreciente.
1.5. Propiedades de las funciones cuasicóncavas 25
La principal característica de las funciones cuasicóncavas se tiene en el si-
guiente resultado:
Teorema 10. (Caracterización topológica)
Una función f : C → R es cuasicóncava si, y sólo si, para todo α ∈ R, el
conjunto de nivel
Sα = {x ∈ C | f (x) ≥ α}
es un conjunto convexo.
Demostración.
a) Supongamos que f (·) es cuasicóncava y probemos que Sα es convexo.
Para esto, sean x, y ∈ Sα ; entonces f (x) ≥ α, f (y) ≥ α. Y así,
f (λx + (1 − λ)y) ≥ Mín{f (x), f (y)} ≥ Mín{α, α} = α
Luego, λx + (1 − λ)y ∈ Sα .
b) Ahora supongamos que, para todo α, Sα es convexo, y probemos que
f (·) es cuasicóncava. Para ello, definamos
α = Mín{f (x), f (y)} con x, y ∈ C fijos
Entonces f (x) ≥ α y f (y) ≥ α. Y, por la convexidad de Sα , tenemos que
λx + (1 − λ)y ∈ Sα , y así,
f (λx + (1 − λ)y) ≥ α = Mín{f (x), f (y)}
que es la definición de cuasiconcavidad.
Ejemplo 8. (Una clase especial de funciones cuasicóncavas)
Todas las funciones (Cobb-Douglas9 ) f (x, y) = xγ y β , con β, γ > 0 son
cuasicóncavas estrictas en R2++ (figura 1.14), porque para todo α ≥ 0, el
conjunto de nivel superior a α,
Sα = {(x, y) ∈ R2++ | f (x, y) ≥ α} = {(x, y) ∈ R2++ | xγ y β ≥ α}
( )
α1/β
= (x, y) ∈ R2++ | y ≥ γ/β
x
es un conjunto convexo (la prueba de esto es similar a la del ejemplo 7).
En particular, observemos que si γ + β > 1, entonces f (·) es cuasicóncava
estricta, pero no es cóncava.
9
Estas funciones toman su nombre de C. Cobb y P. Douglas (1928).
26 Capítulo 1. Funciones cóncavas y cuasicóncavas
Ejemplo 9. (Una función cuasicóncava y convexa)
Existen funciones cuasicóncavas que inclusive son convexas (y no son linea-
les): Si f (x) = x2 , x ≥ 0, entonces para α ≥ 0,
√
Sα = {x ∈ R+ | x2 ≥ α} = {x ∈ R+ | x ≥ α}
es un intervalo y, por lo tanto, es un conjunto convexo.
xγ y β = 2.4
xγ y β = 1.6
xγ y β = 1
Figura 1.14. Sα para la función f (x, y) = xγ y β ; γ, β > 0; x, y > 0.
Teorema 11. (Álgebra de funciones cuasicóncavas)
Si f (·), g(·) son dos funciones cuasicóncavas, entonces se cumple que:
a) La función h(·) = f (·) + a, a ∈ R, es cuasicóncava.
b) La función h(·) = a f (·) es cuasicóncava, si a ≥ 0.
c) La función h(·) = f (·) + g(·) no es necesariamente cuasicóncava.
d) Ni la función h(·) = f (·) g(·), ni h(·) = f (·)/g(·) son necesariamente
cuasicóncavas.
e) Si F (·) es estrictamente creciente, entonces la función compuesta
(F ◦ f )(·) también es cuasicóncava. Si además f (·) es cuasicóncava es-
tricta, entonces la función compuesta (F ◦ f )(·) es cuasicóncava estricta.
Demostración.
a) Si f (λx + (1 − λ)y) ≥ Mín{f (x), f (y)}, entonces
f (λx + (1 − λ)y) + a ≥ Mín{f (x), f (y)} + a
1.5. Propiedades de las funciones cuasicóncavas 27
b) Si f (λx + (1 − λ)y) ≥ Mín{f (x), f (y)}, entonces
af (λx + (1 − λ)y) ≥ a Mín{f (x), f (y)} = Mín{af (x), af (y)}
c) La esencia de la dificultad aquí radica en que la función Mín{x, y} no es
lineal. Por ejemplo, para x ≥ 0, sean f (x) = x2 y g(x) = −x. Entonces
(f + g)(x) = x2 − x no es cuasicóncava, pues si x = 0, y = 1 y λ = 12 ,
1
(f + g)(λx + (1 − λ)y) = − < Mín {(f + g)(0), (f + g)(1)} = 0
4
Sin embargo, f (·) y g(·) sí lo son, pues f (x) = x2 (x ≥ 0) es cuasicóncava
estricta (ejemplo 9 y figura 1.15a), y g(x) = −x es lineal y, por tanto,
cuasicóncava.
y
y
λx
+
(1
−
λ)
y
x
x
a) b)
Figura 1.15. En el panel a) una función cuasicóncava y convexa y = x2 , x > 0. En el
panel b) se muestra que las combinaciones convexas λx + (1 − λ)y, λ ∈ (0, 1) siempre
obtienen un mayor valor cuando la función es cuasicóncava estricta.
d) Si f (x) = x, entonces f 2 (x) = x2 (figura 1.15a) no es cuasicóncava en R.
De otro lado, si f (x) = x3 y g(x) = x, entonces f (x)/g(x) = x2 , x 6= 0,
que no es cuasicóncava.
e) Si f (λx + (1 − λ)y) ≥ Mín{f (x), f (y)} y F (z) ≥ F (w) si z ≥ w, entonces
F (f (λx + (1 − λ)y)) ≥ F (Mín{f (x), f (y)}) = Mín{F (f (x)), F (f (y))}.
Nota 4. (Una propiedad importante)
La definición de cuasiconcavidad estricta implica, en particular, que si f (x) =
f (y) = α con x 6= y, entonces f (λx + (1 − λ)y) > α para todo λ ∈ (0, 1). Es
decir, las combinaciones convexas λx + (1 − λ)y, λ ∈ (0, 1), tienen siempre
mayor valor que los puntos x, y, cuando estos dos estén en la misma curva
de nivel (figura 1.15b). N
28 Capítulo 1. Funciones cóncavas y cuasicóncavas
Hasta aquí hemos especificado la cuasiconcavidad sin hacer referencia a la
diferenciabilidad de las funciones; sin embargo, si la función f (·) es diferen-
ciable (una o dos veces), podemos caracterizar la cuasiconcavidad mediante
los teoremas siguientes:
Teorema 12. (Condición de primer orden)
Sea f : C → R diferenciable en el interior de C. Entonces f (·) es cuasicón-
cava (estricta) en C si, y sólo si, f (x) ≥ f (y) implica
∇f (y)(x − y) ≥ 0 (∇f (y)(x − y) > 0)
Demostración.
(Presentamos aquí la demostración para funciones de una variable; el caso
de más variables es similar, pues basta utilizar el típico recurso de definir
F (λ) ≡ f (y + λ(x − y)) con ǫ < λ < 1 + ǫ y ǫ > 0 pequeño, para luego
aplicar la condición demostrada en el caso de una sola variable).
a) Supongamos que f (·) es cuasicóncava y que f (x) ≥ f (y). Entonces
f (λx + (1 − λ)y) ≥ f (y)
lo cual, para x 6= y, es igual a
f (λx + (1 − λ)y) − f (y)
(x − y) ≥ 0
(1 − λ)(x − y)
Dado que f (·) es diferenciable, tenemos que
f (λx + (1 − λ)y) − f (y)
lı́m (x − y) = f ′ (y)(x − y) ≥ 0
λ→1− (1 − λ)(x − y)
b) Supongamos que f (x) ≥ f (y) implica f ′ (y)(x − y) ≥ 0 y probemos que
f (·) es cuasicóncava. Sean x, y en el interior de C tales que
f (x) ≥ f (y) y definamos la función φ : [0, 1] → R como φ(λ) =
f (λx+(1−λ)y) = f (λ(x−y)+y), la cual también es continua y diferencia-
ble. Para demostrar que f (·) es cuasicóncava, debe ser que φ(λ) ≥ φ(0)
para todo λ ∈ (0, 1). Supongamos, por el contrario, que φ(λ) < φ(0)
para algún λ ∈ (0, 1). Entonces podemos encontrar λ0 ∈ (0, 1) tal que
φ(λ0 ) < φ(0) y φ′ (λ0 ) < 0. Por la regla de la cadena
φ′ (λ0 ) = f ′ (λ0 (x − y) + y)(x − y) < 0
Y como hemos supuesto que
φ(0) = f (y) ≥ f (λ0 (x − y) + y) = φ(λ0 )
1.5. Propiedades de las funciones cuasicóncavas 29
entonces, por hipótesis,
f ′ (λ0 (x − y) + y)λ0 (x − y) ≥ 0
lo cual es una contradicción.
La demostración para las funciones cuasicóncavas estrictas es similar.
Así como las funciones cóncavas están determinadas por ciertas condiciones
sobre la matriz hessiana (teorema 4), también podría esperarse que las fun-
ciones cuasicóncavas tuvieran una característica similar. En efecto, es así,
y la correspondiente matriz se conoce como matriz hessiana orlada. ¿Cómo
surge? Sabemos, por el teorema de la función implícita –volumen I (Álge-
bra lineal y cálculo en varias variables)–, que si y(x) define localmente una
función a partir de la curva de nivel f (x, y) = α, entonces se tendrá que, en
esa vecindad,
dy ∂f /∂x
=−
dx ∂f /∂y
Y si a esta curva y(x) nos es posible calcularle la segunda derivada, obten-
dremos que
d2 y d ∂f /∂x
2
=−
dx dx ∂f /∂y
" # " #
∂f ∂ 2 f ∂ 2 f dy ∂f ∂ 2 f ∂ 2 f dy
+ − +
∂y ∂x2 ∂y∂x dx ∂x ∂x∂y ∂y 2 dx
=− 2
∂f
∂y
2 2
∂f ∂2f ∂f ∂f ∂ 2 f ∂f ∂2f
− 2 +
∂y ∂x2 ∂x ∂y ∂y∂x ∂x ∂y 2
=−
∂f 3
∂y
∂f ∂f
0
∂x ∂y
1 ∂f ∂2f ∂ 2 f
= 3
∂f ∂x
∂x2 ∂x∂y
∂y ∂f ∂2f ∂2f
∂y ∂y∂x ∂y 2
30 Capítulo 1. Funciones cóncavas y cuasicóncavas
∂f ∂f
Parece claro que condiciones sobre el determinante y sobre , , de-
∂x ∂y
terminarán qué tipo de concavidad-convexidad tendrán las curvas de nivel
f (x, y) = α y, de allí, la concavidad-convexidad del conjunto
Sα = {(x, y) ∈ C | f (x, y) ≥ α}
que es el criterio que determina la cuasiconcavidad-cuasiconvexidad de f (·).
Es precisamente a este determinante al que llamaremos (en el caso 2 × 2) el
hessiano orlado (de orden 2) correspondiente a f (·, ·).
Definición 5. (Matriz hessiana orlada)
Dada f : C → R, definimos, para r ≤ n, la matriz hessiana orlada de orden
r (correspondiente a f (·)) como la matriz
∂f ∂f ∂f
0 ∂x1 ∂x2 ··· ∂xr
∂f ∂2f ∂2f ∂2f
∂x1 ∂x21 ∂x1 ∂x2 ··· ∂x1 ∂xr
∂f ∂2f ∂2f ∂2f
···
Dr = ∂x2 ∂x2 ∂x1 ∂x22 ∂x2 ∂xr
. .. .. .. ..
.. . . . .
∂f ∂2f ∂2f ∂2f
∂xr ∂xr ∂x1 ∂xr ∂x2 ··· ∂x2r
Observe que una función de n variables tiene n matrices hessianas orladas
D1 , D2 , . . . , Dn .
Teorema 13. (Caracterización de segundo orden)
Supongamos que f (·) es dos veces diferenciable con continuidad en C ⊆ Rn .
Entonces:
a) Si las matrices hessianas orladas satisfacen (−1)r | Dr |> 0 para todo x
en C, y todo r = 1, 2, . . . , n entonces f (·) es cuasicóncava estricta en
C.
b) En el caso de dos variables, tendremos que f (·, ·) es cuasicóncava si la
matriz hessiana orlada
0 a c
a A B
c B C
∂f ∂f ∂2f ∂2f ∂2f
donde a = ,c= ,A= , B = , C = , satisface
∂x ∂y ∂x2 ∂x∂y ∂y 2
1.5. Propiedades de las funciones cuasicóncavas 31
i) a > 0 y c > 0; ó, a < 0 y c < 0.
ii) a2 C − 2acB + c2 A ≤ 0
Demostración.
Presentamos sólo la parte b) de la prueba; para la parte a), remitiremos al
lector al artículo clásico de Arrow & Enthoven (1961). Asumamos, entonces,
I) y II), y probemos que f (·) es cuasicóncava. Supongamos que a y b son
ambas positivas (el caso ambas negativas es similar). Por el teorema de la
función implícita –volumen I (Álgebra lineal y cálculo en varias variables)–
de f (x, y) = α con α constante, podemos escribir x = h(y) para cierta
función dos veces diferenciable h(·). Como de la condición II) se tiene que
B ≥ 0, entonces h(·) es convexa.
Sean (x0 , y0 ), (x1 , y1 ) dos puntos sobre la curva de nivel f (x, y) = α; enton-
ces x0 = h(y0 ) y x1 = h(y1 ). Tomemos (x2 , y2 ) = (1 − λ)(x0 , y0 ) + λ(x1 , y1 )
con λ ∈ [0, 1]. En tal caso
h(y2 ) ≤ (1 − λ)h(y0 ) + λh(y1 ) = (1 − λ)x0 + λx1 = x2
Luego
α = f (h(y2 ), y2 ) ≤ f (x2 , y2 )
Por lo tanto, f (x0 , y0 ) = f (x1 , y1 ) implica
f ((1 − λ)(x0 , y0 ) + λ(x1 , y1 )) = f (x2 , y2 ) ≥ f (h(y2 ), y2 ) = α
= f (x0 , y0 )
que es la condición de cuasiconcavidad para este caso.
Ahora supongamos que f (x1 , y1 ) > f (x0 , y0 ), y sea λ̄ el máximo λ tal que
f ((1 − λ)(x0 , y0 ) + λ(x1 , y1 )) = f (x0 , y0 )
(¿Por qué existe este λ̄?) y sea (x2 , y2 ) = (1 − λ̄)(x0 , y0 ) + λ̄(x1 , y1 ). Como
0 ≤ λ ≤ λ̄, entonces podemos escribir
(1 − λ)(x0 , y0 ) + λ(x1 , y1 ) = (1 − t)(x0 , y0 ) + t(x2 , y2 )
donde t = λ/λ̄. Y como f (x2 , y2 ) = f (x0 , y0 ), entonces tendremos que
f ((1 − λ)(x0 , y0 ) + λ(x1 , y1 )) = f ((1 − t)(x0 , y0 ) + t(x2 , y2 )) ≥ f (x0 , y0 )
Y aplicando continuidad y la definición de λ̄, se tendrá que
f ((1 − λ)(x0 , y0 ) + λ(x1 , y1 )) > f (x0 , y0 )
Esto muestra que f (·, ·) es cuasicóncava.
32 Capítulo 1. Funciones cóncavas y cuasicóncavas
Ejemplo 10.
Probemos mediante el criterio del hessiano orlado del teorema anterior, que
la función f (x, y) = xα y β , α, β > 0, es cuasicóncava en R2++ .
Solución.
Aquí, a = αxα−1 y β , c = βxα y β−1 , A = α(α − 1)xα−2 y β , B = αβxα−1 y β−1 ,
C = β(β − 1)xα y β−2 .
a) En primer lugar, es claro que a > 0 y c > 0.
b) Además, se tiene que
2
a2 C − 2acB + c2 A = αxα−1 y β β(β − 1)xα y β−2 −
2 αxα−1 y β βxα y β−1 αβxα−1 y β−1 +
2
+ βxα y β−1 α(α − 1)xα−2 y β
= α2 β(β − 1)x3α−2 y 3β−2 − 2α2 β 2 x3α−2 y 3β−2
+ α(α − 1)β 2 x3α−2 y 3β−2
= −αβ(α + β)x3α−2 y 3β−2 < 0.
Por lo tanto, se tiene la cuasiconcavidad de f (·, ·).
Ejemplo 11.
Podemos probar que f (x, y) = yex (figura 1.16) es cuasicóncava en R2+
utilizando el criterio del hessiano orlado.
f (x, y)
x
Figura 1.16. La función f (x, y) = yex .
1.6. Contexto económico 33
En efecto: aquí a = yex , c = ex , A = yex , B = ex , C = 0, y vemos que, en
primer lugar, a > 0 y c > 0. Además,
a2 C − 2acB + c2 A = 0 (yex )2 − 2 (yex ) (ex ) (ex ) + (ex )2 (yex )
= −2ye3x + ye3x = −ye3x < 0
de tal forma que f (·, ·) es cuasicóncava.
Ejercicios 4
1. Utilizando el teorema del presente capítulo que considere más conve-
niente, determine cuáles de las siguientes funciones son cuasicóncavas
(estrictas) y cuasiconvexas (estrictas) en el dominio especificado:
√ √
a) f (x, y) = x+ y, con x, y > 0
b) f (x, y) = x2 + y, con x, y > 0
c) f (x, y) = (x + y)3 , con x, y > 0
d) f (x, y) = (xα + y α )1/α , con x, y > 0 y α > 0
e) f (x, y) = Máx{3x, 4y}, con x, y > 0
2 2
1 1
f) f (x, y) = x − 2 + y− 2 , con x, y > 0
g) f (x, y) = (ln x)α + (ln y)β , con α, β > 0, x > 1, y > 1
h) f (x, y) = x(y + 4), con x, y > 0
i) f (x, y) = 100x − 10x2 + 10xy, con x, y > 0
j) f (x, y) = 200y − 15y 2 + 10xy, con x, y > 0
2. ¿Será que la propiedad b) del teorema 11 es sólo cierta para a ≥ 0? Si
es así, escriba un ejemplo en el que no sea cierto para a < 0. Si no es
así, entonces pruebe el resultado.
3. Construya una tabla con todas las funciones estudiadas en este capí-
tulo y analícelas bajo los criterios de concavidad (estricta), cuasicon-
cavidad (estricta), convexidad (estricta) y cuasiconvexidad (estricta).
34 Capítulo 1. Funciones cóncavas y cuasicóncavas
1.6. Contexto económico
1.6.1. Concavidad-convexidad y marginalidad decreciente
De discusiones en el volumen I (Álgebra lineal y cálculo en varias variables)
ha quedado claro que la teoría económica convencional está construida, en
gran parte, sobre la base de tasas marginales decrecientes que, como vere-
mos, están íntimamente ligadas a la noción de concavidad (funciones cónca-
vas): funciones de utilidad cóncavas, funciones de producción cóncavas, etc.
En cada uno de estos casos, la justificación es diferente.
Una función de utilidad cóncava estricta (y que también se acostumbra a
asumir creciente) indica que mayor es el consumo del agente cuando mayor
satisfacción obtiene, aunque este nivel de satisfacción es cada vez “menos
intenso”. El concepto de utilidad marginal decreciente fue utilizado quizá
por primera vez por Nicholas Bernoulli (1713) y Daniel Bernoulli (1738)
para resolver la paradoja de San Petersburgo sobre utilidades esperadas. En
sus inicios, Jeremy Bentham (1789) recurrió a esta noción, pues permitía
conectar los conceptos de “deseo” de las mercancías con la demanda efecti-
va. Posteriormente, todos los economistas marginalistas (Jevons, Marshall,
Walras y Pareto, entre otros) utilizaron una y otra vez esta fundamental no-
ción sobre el comportamiento individual al tomar una decisión de consumo.
Por su parte, una función de producción cóncava estricta (y también crecien-
te) indica que, cuanto mayor sea el número de insumos utilizados, mayor
será el nivel de producción, aunque el rendimiento de la “máquina” (por
desgaste y otras limitaciones) es cada vez menor. Esta idea, conocida co-
mo la ley de los rendimientos marginales decrecientes o de la productividad
marginal decreciente (para evitar confusiones con la idea de rendimientos
decrecientes a escala), fue pensada originalmente para aplicaciones a la eco-
nomía de factores agrícolas, por A.R.J. Turgot en sus Observations de 1767,
y por Thomas Robert Malthus en su Essay on the Principle of Population
de 1798. Posteriormente fue aplicada, más generalmente, a otros factores de
producción, por Johann Heinrich von Thünen (1826), y otros. Pero la cima
del concepto se encuentra en el trabajo de John Bates Clark (1889, 1891,
1899) y en el de Philip H. Wicksteed (1894).
La relación entre concavidad y marginalidad decreciente de la utilidad o de
la productividad se puede escribir formalmente. Asumamos que podemos
representar la utilidad o la producción por medio de una función dos veces
diferenciable con continuidad F : C → R con C ⊆ R2 un conjunto convexo,
abierto y no-vacío. Note que con la hipótesis de convexidad de C asumimos
1.6. Contexto económico 35
que los bienes son perfectamente divisibles, de tal forma que tenga sentido
hablar de cambios infinitesimales en el consumo o en la producción de los
mismos. Así, podemos representar la utilidad o la productividad marginal
del bien xi (i = 1, 2) como la derivada parcial ∂F/∂xi . Claramente, un signo
positivo de esta derivada confirmaría que el aumento de la cantidad de xi
aumenta el nivel de utilidad o de producción. Por otro lado, la hipótesis
de utilidad o de productividad marginal decreciente del bien xi se escribe
∂ 2 F/∂x2i < 0, y la de la utilidad o la productividad marginal no-creciente
del bien xi se escribe ∂ 2 F/∂x2i ≤ 0.
Teorema 14. (Concavidad estricta ⇒ marginalidad decreciente)
Sea F : C → R una función de utilidad o de producción, dos veces diferen-
ciable con continuidad, donde C ⊆ R2 es abierto, convexo y no-vacío.
a) Si la función de utilidad o de producción es cóncava estricta, entonces
tiene utilidades o productividades marginales decrecientes.
b) Si C ⊆ R, la función de utilidad o de producción es cóncava estricta si,
y sólo si, tiene utilidad o productividad marginal decreciente.
Este teorema es una implicación directa del teorema 5, y nos permite re-
lacionar utilidades o productividades marginales decrecientes y concavidad.
Sin embargo, como se puede inducir fácilmente, no siempre la existencia
de utilidades o productividades marginales decrecientes implica la conca-
vidad de la función de utilidad o de producción. Por ejemplo, la función
F (x, y) = x2/3 y 2/3 tiene marginalidades decrecientes, aunque no es cónca-
va. Aún así, por una aplicación directa del teorema 13, se tiene el siguiente
resultado:
Teorema 15. (Marginalidad decreciente y cuasiconcavidad)
Sea F : C → R una función de utilidad (o de producción) monótona creciente
en cada uno de sus argumentos, y dos veces diferenciable con continuidad,
donde C ⊆ R2 es abierto, convexo y no-vacío. Si la función tiene utilidades
(o productividades) marginales decrecientes y ∂ 2 F/∂x∂y ≥ 0, entonces la
función de utilidad (o de producción) es cuasicóncava estricta.
Sin embargo, es fácil ver que no toda función cuasicóncava tiene marginali-
dades decrecientes. Por ejemplo, la función F (x, y) = x2 y 3 es cuasicóncava,
pero no tiene marginalidades decrecientes.
36 Capítulo 1. Funciones cóncavas y cuasicóncavas
1.6.2. Concavidad-convexidad y rendimientos a escala
El concepto de rendimientos a escala para funciones de producción, aunque
apareció aquí y allá en la historia del pensamiento económico, sólo fue defini-
do con precisión por Alfred Marshall (1890) en el contexto de las economías
de escala al explicar por qué estas cambiaban por razones tecnológicas o de
precios. Sin embargo, el concepto también sería estudiado posteriormente
por Knut Wicksell (1900, 1901a, 1901b), Philip H. Wicksteed (1894), Piero
Sraffa (1926) y John Hicks (1932, 1936), entre otros.
Aunque una función de producción particular puede exhibir sólo uno de
los tres tipos específicos de rendimientos a escala, es común (desde las Lec-
tures on Political Economy (1901a) de Wicksell) encontrar descripciones
que muestran funciones de producción que tienen diferentes rendimientos
a escala para diferentes niveles de producción: cuando una firma produce
pequeñas cantidades puede mostrar rendimientos crecientes a escala debi-
do, típicamente, a que un aumento en su tamaño podría hacer un uso más
eficiente de los recursos a través de la especialización; pero si produce gran-
des cantidades enfrentaría rendimientos decrecientes ya que un aumento en
el tamaño de la empresa haría, probablemente, el trabajo más complicado
(figura 1.17).
Figura 1.17. Función de producción según Wicksell (1901a).
Pero la justificación económica para los diferentes rendimientos a escala
no resulta ser algo simple. En un nivel muy elemental, se justifican los
rendimientos crecientes a escala apelando a algún argumento de división
del trabajo como afirmaba Adam Smith (1776): si agregamos más mano de
obra y más máquinas en un proceso productivo, cada trabajador y cada
máquina podría especializarse en un subpropósito particular del proceso,
haciéndolo con mayor precisión en un menor tiempo. En general, es corriente
1.6. Contexto económico 37
encontrar el argumento de que los rendimientos crecientes a escala capturan
de una u otra forma, la idea de progreso tecnológico. Esto lo encontramos
explícitamente en el trabajo de Allyn Young (1928) y Nicholas Kaldor (1966)
y, en general, en toda la teoría del crecimiento endógeno moderna. Se hace
claro que los rendimientos a escala no son sólo un problema de escala: son
acerca de cambios de técnicas y de las razones de su emergencia (Arthur,
1989).
Ahora presentamos una perspectiva no-marginalista desde donde también
se han estudiado los rendimientos a escala, y que se centra en el problema
del tipo de escala.
Definición 6. (Conjunto de producción)
Definimos un plan de producción como un vector y = (y1 , . . . , yn ) ∈ Rn , tal
que cada yi identifica cuánto del i-ésimo bien se ha utilizado en ese plan.
Si yi < 0, el bien se ha empleado como insumo en el plan de producción; si
yi > 0, el bien es un producto final del plan; y si yi = 0 el bien no se ha
utilizado en el plan. Al conjunto Y ⊆ Rn de todos los planes de producción
disponibles lo llamamos conjunto de producción.
Para utilizar estos conjuntos en la elaboración de una teoría de la producción
es necesario dotarlos de ciertas propiedades matemáticas. A lo largo de esta
sección supondremos que los conjuntos de producción Y son subconjuntos
no-vacíos de Rn tales que si y ∈ Y y z ≤ y, entonces z ∈ Y 10 ; es decir, que
dadas ciertas cantidades de insumos, siempre es posible producir menos que
lo que se produciría con aquellas cantidades.
Ahora: dado un plan de producción y en un conjunto de producción Y ,
cambiar la escala de operación es multiplicar y por un número no negativo
λ. Aumentar la escala es permitir a λ ser mayor que 1; y disminuirla es
permitir a λ ser menor que 1.
Definición 7. (Rendimientos a escala)
Dado un conjunto de producción Y , diremos que:
a) Y tiene rendimientos crecientes a escala si se tiene que cuando y ∈ Y ,
entonces λy ∈ Y para todo λ ≥ 1 (figura 1.18a).
b) Y tiene rendimientos decrecientes a escala si se tiene que cuando y ∈ Y ,
entonces λy ∈ Y para todo 0 ≤ λ ≤ 1 (figura 1.18b).
10
Que z ≤ y significa que la componente i del vector z es estrictamente menor que la
componente i del vector y, para todo i = 1, 2, ...n. En la literatura moderna, a un conjunto
con esta característica se le denomina “comprehensivo”.
38 Capítulo 1. Funciones cóncavas y cuasicóncavas
c) Y tiene rendimientos constantes a escala si se tiene que cuando y ∈ Y ,
entonces λy ∈ Y para todo λ ≥ 0 (figura 1.18c). Así, Y tiene rendi-
mientos constantes a escala si, y sólo si, tiene rendimientos crecientes y
decrecientes a escala.
producto producto producto
Y Y
Y
insumo insumo insumo
a) b) c)
Figura 1.18. En el panel a): un conjunto de producción con rendimientos crecientes a
escala. En el panel b): un conjunto de producción con rendimientos decrecientes a escala.
En el panel c): un conjunto con rendimientos constantes a escala.
Los siguientes teoremas establecen la conexión directa entre el concepto de
cambio de escala y el de convexidad del conjunto de producción Y .
Teorema 16.
Si Y es convexo y 0 ∈ Y (posibilidad de no acción), entonces Y tiene
rendimientos decrecientes a escala.
Demostración.
Supongamos que Y es convexo y 0 ∈ Y . Para y ∈ Y y λ ∈ [0, 1] se tiene,
por la convexidad de Y , que λy + (1 − λ)0 ∈ Y ; es decir, λy ∈ Y para todo
λ ∈ [0, 1].
Teorema 17.
Y es un cono11 con vértice en 0 si, y sólo si, Y tiene rendimientos constantes
a escala.
Demostración.
Si Y es un cono con vértice en 0, es decir, si Y satisface que para todo
y ∈ Y , λ ≥ 0, se tiene que λy ∈ Y , entonces Y tiene rendimientos constantes
a escala. Asimismo, si Y tiene rendimientos constantes a escala, para todo
y ∈ Y y λ ≥ 0 se tiene λy ∈ Y . En particular, 0(y) = 0 ∈ Y y, por lo tanto,
Y es un cono con vértice en 0.
11
Un conjunto Y ⊆ Rn y 0 ∈ Y es un cono (con vértice en 0) si para cada y ∈ Y y
λ ≥ 0 se tiene que λy ∈ Y .
1.6. Contexto económico 39
Como vimos en la sección anterior, es usual estudiar la teoría de la produc-
ción haciendo uso de funciones de producción. A continuación relacionamos
los conceptos de conjunto de producción y de función de producción. Pa-
ra ello supondremos, en adelante, que el conjunto de producción Y es un
subconjunto no-vacío y cerrado de Rn y que, además, tiene una propiedad
especial.
Definición 8. (Función de producción)
Consideremos aquellos específicos conjuntos de producción Y ⊆ Rn donde
n−1 son insumos y sólo se fabrica un producto. Entonces podemos describir
cada plan de producción en Y como un vector de la forma (y, −z) con −z
escrito de la forma (−z1 , −z2 , . . . , −zn−1 ) donde y, zi ≥ 0 para todo i, de
forma que distingamos el producto y de los insumos z. Con esto, podemos
definir la función de producción f (z) asociada a este conjunto de producción
Y que denota la máxima producción posible para cada nivel de insumos
z = (z1 , . . . , zn ) si esta existe; es decir, para cada z definimos
f (z) = Máx{ y | (y, −z) ∈ Y }
cuando este máximo exista (¿En qué casos podría no existir?).
y
f (z)
z
Figura 1.19. Función de producción cóncava asociada a un conjunto de producción
convexo.
Así, la función de producción está determinada por la frontera superior del
conjunto de producción cuando esta exista (figura 1.19). Además, es claro
que bajo nuestras hipótesis, la función de producción puede ser discontinua
y no diferenciable. Sin embargo, si el conjunto de producción es convexo,
podemos asegurar al menos, la continuidad de la función de producción,
cuando esta exista. Entonces, Para evitar discusiones no pertinentes aquí,
asumiremos en adelante, que los conjuntos de producción del tipo mencio-
nado antes, tienen efectivamente, asociada una función de producción.
40 Capítulo 1. Funciones cóncavas y cuasicóncavas
Teorema 18.
La función de producción asociada al conjunto de producción Y es cónca-
va, si, y sólo si, Y es convexo (figura 1.19). Por tanto, todo conjunto de
producción convexo tiene asociada una función de producción continua.
Demostración.
Supongamos que Y es convexo; entonces para todo λ ∈ (0, 1), y (y, −z),
(y ′ , −z ′ ) ∈ Y , tenemos que λ(y, −z) + (1 − λ)(y ′ , −z ′ ) ∈ Y . En particu-
lar, esto es válido para (y, −z), (y ′ , −z ′ ) en la frontera superior del conjun-
to de producción, es decir con y = f (z) y y ′ = f (z ′ ). Pero en ese caso,
f (λz + (1 − λ)z ′ ) ≥ λf (z) + (1 − λ)f (z ′ ) por definición de función de produc-
ción. Como esta última desigualdad también se cumple (trivialmente) para
λ = 1 y λ = 0, la función de producción es cóncava.
Por otro lado, supongamos que la función de producción es cóncava y sean
(y, −z), (y ′ , −z ′ ) ∈ Y , λ ∈ (0, 1). Por definición de concavidad y de la
función de producción, sabemos que
f (λz + (1 − λ)z ′ ) ≥ λf (z) + (1 − λ)f (z ′ ) ≥ λy + (1 − λ)y ′ ≥ 0;
por lo tanto, λ(y, −z) + (1 − λ)(y ′ , −z ′ ) ∈ Y ; es decir, Y es convexo.
Así, de los teoremas 16 y 18, obtenemos, inmediatamente, el siguiente re-
sultado:
Corolario 1.
Si la función de producción f (·) asociada al conjunto de producción Y es
cóncava y satisface f (0) = 0, entonces Y tiene rendimientos decrecientes a
escala.
Después de estudiar el concepto de escala en conjuntos de producción, nos
corresponde analizar este mismo concepto para funciones de producción,
y relacionarlo con la noción de concavidad de estas. Comencemos por las
definiciones básicas:
Definición 9. [Rendimientos a escala (II)]
Sea f : D → R, donde D ⊆ R ó D ⊆ R2 , una función tal que si x ∈ D se
tiene que λx ∈ D para todo λ ≥ 0. Entonces diremos que f (·):
a) Tiene rendimientos decrecientes a escala si, y sólo si, para todo λ ≥ 1,
f (λx) ≤ λf (x)
1.6. Contexto económico 41
b) Tiene rendimientos constantes a escala si, y sólo si, para todo λ ≥ 0,
f (λx) = λf (x)
c) Tiene rendimientos crecientes a escala si, y sólo si, para todo λ ≥ 1,
f (λx) ≥ λf (x)
De la definición 9 es inmediato el siguiente resultado:
Teorema 19.
Sea f : D → R, donde D ⊆ R o D ⊆ R2 , una función de producción
tal que si x ∈ D se tiene que λx ∈ D para todo λ ≥ 0; entonces, f (·)
tiene rendimientos constantes a escala si, y sólo si, f (·) tiene rendimientos
crecientes y decrecientes a escala.
Ejemplo 12.
Veamos un par de ejemplos de funciones de producción y sus rendimientos
a escala:
a) La función de producción f (x) = ln(x+1) para x ≥ 0, tiene rendimientos
decrecientes a escala pues ln(λx + 1) ≤ λ ln(x + 1) para cualquier λ ≥ 1.
En efecto: la anterior desigualdad es equivalente a (x + 1)λ ≥ λx + 1, que
es una consecuencia directa del teorema binomial de Newton estudiado
en el curso de cálculo diferencial.
b) La función de producción f (x) = ex para x ≥ 2 tiene rendimientos
crecientes a escala pues eλx ≥ λ(ex ) conduce, cuando λ 6= 1, a que
1 1
x ≥ ln(λ) λ−1 , y esto es cierto ya que 2 ≥ ln(λ λ−1 ) para todo λ > 1. La
1
dificultad, aquí, radica en que si 0 ≤ x < 2 entonces x ≥ ln λ λ−1 puede
no tenerse para algunos λ’s. N
Y ahora relacionamos los rendimientos a escala en los conjuntos de produc-
ción con los rendimientos a escala en las funciones de producción mediante
el siguiente importante teorema:
Teorema 20.
Sea Y ⊆ Rn un conjunto de producción de una tecnología que produce un
n−1
único bien y (ye), utilizando insumos z ∈ R+ ; y sean, además,
n−1
Z = {z ∈ R+ | (y, −z) ∈ Y }
y f : Z → R la función de producción asociada a Y . Entonces:
42 Capítulo 1. Funciones cóncavas y cuasicóncavas
a) f (·) tiene rendimientos crecientes a escala si, y sólo si, Y tiene rendi-
mientos crecientes a escala.
b) f (·) tiene rendimientos constantes a escala si, y sólo si, Y tiene rendi-
mientos constantes a escala.
c) f (·) tiene rendimientos decrecientes a escala si, y sólo si, Y tiene rendi-
mientos decrecientes a escala.
Demostración.
Claramente, Y = {(y, −z) ∈ Rn | y ≤ f (z)}. Luego:
a) Supongamos que f (·) tiene rendimientos crecientes a escala, y que
(y, −z) ∈ Y ; probemos, entonces, que también λ(y, −z) ∈ Y para λ ≥ 1.
En efecto, como (y, −z) ∈ Y , entonces y ≤ f (z) y, por tanto, λy ≤ λf (z)
para todo λ ≥ 0. Pero como λf (z) ≤ f (λz) para todo λ ≥ 1 por hipó-
tesis, entonces λy ≤ f (λz) y esto significa que λ(y, −z) ∈ Y para todo
λ ≥ 1. Por otro lado, si suponemos que Y tiene rendimientos crecientes
a escala, entonces λ(f (z), −z) ∈ Y para todo λ ≥ 1. Pero por definición
de función de producción, f (λz) ≥ λf (z).
b) Supongamos que f (·) tiene rendimientos constantes a escala y, además,
sea (y, −z) ∈ Y ; entonces probemos que también λ(y, −z) ∈ Y para
todo λ ≥ 0. En efecto, como (y, −z) ∈ Y , entonces y ≤ f (z) y, por tanto,
λy ≤ λf (z) para todo λ ≥ 0. Pero como λf (z) = f (λz) para todo λ ≥ 1
por hipótesis, entonces λy ≤ f (λz) y esto significa que λ(y, −z) ∈ Y
para λ ≥ 1. Si 0 ≤ λ ≤ 1, entonces λ1 f (λz) = f ( λ1 λz) = f (z), por lo
tanto, λf (z) = f (λz) y, así, λy ≤ f (λz) para todo 0 ≤ λ ≤ 1. Por
esto, λ(y, −z) ∈ Y para todo λ ≥ 0. Por otro lado, si suponemos que
Y tiene rendimientos constantes a escala, entonces para todo λ ≥ 0 si
(f (z), −z) ∈ Y , tendremos λ(f (z), −z) ∈ Y ; es decir, λf (z) ≤ f (λz);
luego, λ1 f (λz) ≤ f ( λ1 λz); es decir, λf (z) ≥ f (λz); de lo cual, λf (z) =
f (λz) para todo λ ≥ 1.
c) Supongamos que f (·) tiene rendimientos decrecientes a escala, y sea
(y, −z) ∈ Y . Probemos que λ(y, −z) ∈ Y para todo 0 ≤ λ ≤ 1. Por
definición, λy ≤ λf (z); y, por hipótesis, tenemos que f ( λ1 λz) ≤ λ1 f (λz);
por lo tanto, λy ≤ λf (z) ≤ f (λz) para todo 0 ≤ λ ≤ 1. Por otro lado, si
Y tiene rendimientos decrecientes a escala, entonces λ1 f (λz) ≤ f ( λ1 λz)
para todo λ ≥ 1, por lo cual, f (λz) ≤ λf (z) para todo λ ≥ 1.
Y el siguiente es uno de los resultados centrales de esta sección.
1.6. Contexto económico 43
Teorema 21. (Concavidad ⇒ rendimientos decrecientes a escala)
Sea f : D → R una función de producción y f (0) = 0. Si f (·) es cóncava
entonces f (·) tiene rendimientos decrecientes a escala.
Demostración.
Es consecuencia directa del corolario 1 y del teorema 20.
Nota 5. (Mitos en la teoría básica de la producción)
Aunque la concavidad de la función de producción (con f (0) = 0) implica
rendimientos decrecientes a escala, la relación entre las nociones de ren-
dimientos a escala y concavidad-convexidad no es inmediata. Invitamos al
lector a dar ejemplos que ilustren las siguientes afirmaciones:
a) Los rendimientos decrecientes a escala de una función de producción, no
implican su concavidad. [Sugerencia: f (x) = e−x para x ≥ 0]
b) La convexidad de la función de producción no implica un tipo particular
de rendimientos a escala. [Sugerencia: f (x) = ex para x ≥ 0]
c) Los rendimientos crecientes a escala de una función de producción no im-
plican su convexidad. [Sugerencia: una función Cobb-Douglas con suma
de exponentes mayor que 1 podría servir (ejemplo 6)]
1.6.3. Concavidad-convexidad en la teoría del consumo
En la década de 1930, los economistas consideraban que la teoría de la
utilidad mostraba señales de esterilidad, pero su resurgimiento vino de la
mano de Hicks & Allen (1934) con su teoría ordinal de la satisfacción. A
su vez, una de las principales preocupaciones de las décadas de 1940 y de
1950 se centraba alrededor de los problemas fundacionales que conlleva la
teoría de la elección bajo una función de utilidad; en particular, sobre qué
comportamientos básicos de un consumidor dan origen a que sus elecciones
se realicen de tal forma que pareciera que estuvieran regidos por una función
de utilidad. Las respuestas a esta pregunta provinieron de varios frentes.
Quizá el primero en discernir sobre esto fue un matemático del grupo Bour-
baki (1939): Samuel Eilenberg, en 1941. Pero fueron von Neumann y Mor-
genstern (1944), basándose en el trabajo de Eilenberg, quienes darían las
primeras condiciones sobre preferencias de un consumidor, para que este
eligiera bajo una función de utilidad. A este trabajo le siguieron clarifica-
ciones y simplificaciones que darían forma a lo que hoy conocemos como
los fundamentos de la teoría del consumidor y, en general, de la elección.
44 Capítulo 1. Funciones cóncavas y cuasicóncavas
Entre ellos, aparecen Arrow (1951a; 1951b), Herstein & Milnor (1953), De-
breu (1954) y, de forma importante e influyente, Savage (1954), quien en
The Foundations of Statistics señalaría con claridad los axiomas que pro-
ducen distribuciones de probabilidad subjetivas y, así, funciones de utilidad
esperada.
[Link]. Sobre la existencia de una función de utilidad
a) En primer lugar, asumimos que todo consumidor selecciona sus planes
(o canastas) de consumo dentro del espacio cartesiano de mercancías de-
finido por el conjunto Rn+ = {x ∈ Rn | x ≥ 0} donde n es el número
de mercancías disponibles en el mercado. Notamos a este conjunto, lla-
mado conjunto de consumo del consumidor, mediante X, y asumiremos
entonces que este es un subconjunto no-vacío, cerrado y convexo de Rn+ .
b) En segundo lugar, asumimos también que este consumidor tiene un cri-
terio de selección entre los diversos planes de consumo en X, que está
estructurado de la siguiente forma:
Dados dos planes de consumo x1 , x2 ∈ X, estos son siempre comparables
mediante cierta relación definida sobre X, la cual notamos 4, tal que
x1 4 x2 ó x2 4 x1 (*)
La primera relación se lee como x1 es a lo más tan deseado como x2 ; y
la segunda se lee x2 es a lo más tan deseado como x1 .
Para que opere como una relación de preferencia, además de asumir
que es una relación completa (es decir, que cualesquiera dos planes de
consumo sean comparables a la manera de (*)); también asumimos que
4 es reflexiva (es decir, x1 4 x1 para todo x1 ∈ X) y que es transitiva (es
decir, si x1 4 x2 y x2 4 x3 , entonces x1 4 x3 para todo x1 , x2 , x3 ∈ X).
Todos estos supuestos hacen de 4 un preorden completo sobre X.
Además, si sucede que x1 4 x2 y x2 4 x1 , entonces diremos que los
planes x1 y x2 son indiferentes, y escribimos x1 ∼ x2 . Y si se da el
caso que x1 4 x2 pero no que x2 4 x1 , entonces diremos que x2 es
(estrictamente) preferido a x1 , y lo notaremos por x1 ≺ x2 , o bien x2 ≻
x1 . Puede observarse que la relación definida sobre X por ∼ (llamada
relación de indiferencia) es reflexiva, transitiva y, además, simétrica (es
decir, x1 ∼ x2 implica x2 ∼ x1 para todo x1 , x2 ∈ X); por tanto, es
una relación de equivalencia sobre X que genera clases disyuntas de
1.6. Contexto económico 45
equivalencia: para un x1 ∈ X fijo, su clase de equivalencia, que en este
contexto llamaremos una clase de indiferencia (Edgeworth, 1881), es el
conjunto
[x1 ] = {x ∈ X | x ∼ x1 }
Así, un plan de consumo x ∈ X cualquiera, pertenece a su clase de
indiferencia, y a ninguna otra. En otras palabras, se ha “particionado”
el conjunto de consumo X en clases disjuntas de indiferencia, como se
muestra en la figura 1.20.
bien 2
x1 [x1 ] =
• clase de
indiferencia
de la
canasta x1
bien 1
Figura 1.20. Clases de indiferencia sobre R2+ .
c) Ahora que hemos partido el conjunto de consumo en clases disjuntas de
indiferencia a través de la relación ordinal 4 sobre los planes de consu-
mo, la pregunta es: ¿será posible asociar, con cada clase de indiferencia,
un número, de tal forma que si las canastas en una clase son todas pre-
feridas a las canastas en otra clase, el número asociado a la primera será
mayor que el número asociado a la segunda? En otras palabras, dado
un preorden completo sobre el conjunto de consumo X, ¿existirá una
función creciente u : X → R tal que u(x1 ) ≤ u(x2 ) si, y sólo si, x1 4 x2 ;
y u(x1 ) = u(x2 ) si, y sólo si, x1 ∼ x2 ? La existencia de una función
cardinal de utilidad para la relación ordinal dada, no puede asegurarse
siempre. Es importante una hipótesis adicional que, además, garantice
que la función de utilidad sea “analíticamente dúctil”, es decir, que sea
continua.
Para afinar nuestra discusión establezcamos entonces lo que entendere-
mos por función de utilidad:
Definición 10. (Función de utilidad)
Una función de utilidad (continua) sobre el conjunto de consumo X
preordenado por 4 es una función continua u : X → R tal que
46 Capítulo 1. Funciones cóncavas y cuasicóncavas
a) x1 4 x2 si, y sólo si, u(x1 ) ≤ u(x2 ).
b) x1 ∼ x2 si, y sólo si, u(x1 ) = u(x2 ).
Con esta definición tenemos el siguiente teorema:
Teorema 22. [Existencia de la función de utilidad (Eilenberg,
1941)]
Si para todo x1 ∈ X, los conjuntos
{x ∈ X | x 4 x1 } ; {x ∈ X | x < x1 } (*)
son cerrados en Rn+ , entonces existe una función de utilidad sobre el
conjunto X preordenado por 4.
Demostración.
Ver Debreu (1959).
Nota 6. (Orden lexicográfico)
Un ejemplo de preorden completo que no puede representarse mediante
una función de utilidad es el orden lexicográfico12 en R2+ . Este es, por
definición, (a, b) ≺ (a′ , b′ ) si (i) a < a′ ó (ii) a = a′ y b < b′ . Veamos
esto más claramente: supongamos que u(·) es una función de utilidad que
representa las preferencias lexicográficas. Entonces, para cada x1 , x2 ∈
R+ con x1 > x2 , se tiene que
u(x1 , 2) > u(x1 , 1) > u(x2 , 2) > u(x2 , 1)
Además, para cada x ∈ R+ podemos encontrar un racional r(x) tal que
u(x, 2) > r(x) > u(x, 1)13 . Así, se tiene que si x1 > x2 entonces
r(x1 ) > u(x1 , 1) > u(x2 , 2) > r(x2 )
y, por lo tanto, la función r(x) así definida de los reales a los racionales
se ha construido de tal manera que es uno-a-uno (pues es estrictamente
creciente). Pero esto es una contradicción, ya que la cardinalidad de los
números reales R es mayor que la de los números racionales Q [14] . Un
ejercicio para el lector es probar que los conjuntos (*) en el teorema 22,
no son cerrados en R2+ .
12
Es decir, el orden del diccionario.
13
Esta es una aplicación de la propiedad de densidad de los números racionales Q. Es
decir, que dados cualquier par de números reales x, y con x < y existe un número racional
z tal que x < z < y.
14
Este es un resultado de la teoría básica de conjuntos. Afirma que el conjunto de los
números racionales Q puede colocarse en una lista, es decir, es contable. Pero que esto no
es posible con los números reales. Por ello el cardinal de R es mayor que el cardinal de Q.
1.6. Contexto económico 47
[Link]. Sobre la convexidad de las preferencias
Por razones de índole más matemática que económica, se asumen ciertas
características de convexidad sobre las preferencias. Quizás algunas de ellas
estén asociadas a la tendencia humana a “mezclar” en el consumo: al fin y al
cabo, difícilmente podemos consumir únicamente de un producto. Veamos,
entonces, cuáles son esas propiedades.
Definición 11. (Convexidad de las preferencias)
Sean x1 , x2 ∈ X con x1 6= x2 , para λ ∈ (0, 1),
a) Si x2 < x1 , entonces λx2 +(1−λ)x1 < x1 (convexidad débil de 4) (figura
1.21a)).
b) Si x2 ≻ x1 , entonces λx2 + (1 − λ)x1 ≻ x1 (convexidad de 4) (figura
1.21b)).
c) Si x2 ∼ x1 , entonces λx2 + (1 − λ)x1 ≻ x1 (convexidad estricta de 4)
(figura 1.21c)).
Teorema 23.
Si para todo x1 ∈ X los conjuntos
{x ∈ X | x 4 x1 }, ; {x ∈ X | x < x1 }
son cerrados, entonces para la relación de preferencia 4 se cumple que:
convexidad estricta =⇒ convexidad =⇒ convexidad débil
Demostración.
Ver Debreu (1959).
bien 2 bien 2 bien 2
x2
x2
x2
x1
x1 x1
bien 1 bien 1 bien 1
a) b) c)
Figura 1.21. En el panel a) unas preferencias 4 con convexidad débil. En el panel b) unas
preferencias 4 convexas. En el panel c) unas preferencias 4 con convexidad estricta.
48 Capítulo 1. Funciones cóncavas y cuasicóncavas
Y, finalmente, conectamos los conceptos de convexidad de las preferencias
con una noción ya familiar para nosotros: la de cuasiconcavidad de la función
de utilidad.
Teorema 24. (Convexidad de preferencias y cuasiconcavidad)
Sea u(·) una función de utilidad para 4 (cuya existencia esté garantizada
por las condiciones del teorema 22); entonces:
a) 4 es convexa débil si, y sólo si, u(·) es cuasicóncava.
b) 4 es convexa estricta si, y sólo si, u(·) es cuasicóncava estricta.
Demostración.
a) Supongamos que 4 es convexa débil; entonces x < y implica λx+(1−λ)y
< y. Como u(·) es función de utilidad, de estas dos relaciones se tiene
que u(x) ≥ u(y) implica u(λx + (1 − λ)y) ≥ u(y) = Mín{u(x), u(y)}.
Por tanto, u(·) es cuasicóncava. Por otro lado, si suponemos que u(·)
es cuasicóncava, entonces u(λx + (1 − λ)y) ≥ Mín{u(x), u(y)}. Y, así,
u(y) ≤ u(x) implica u(λx + (1 − λ)y) ≥ u(y) y como u(·) es función de
utilidad, esto equivale a que y 4 x implica λx + (1 − λ)y < y.
b) Es similar a a).
Notemos el significado económico de la hipótesis de cuasiconcavidad estricta.
Ya habíamos observado que toda función cuasicóncava estricta u(x) tiene la
propiedad de que si u(x) = α y u(y) = α, donde x, y ∈ R2 , y α > 0, entonces
u(λx + (1 − λ)y) > α, λ ∈ (0, 1); es decir, cualquier combinación estricta
de los planes de consumo x, y es siempre mejor (en términos del nivel de
utilidad) que cualquiera de los dos planes x, y. Esto podría llevarnos a pensar
en que un consumidor con una función de utilidad cuasicóncava es aquel que
no se especializa en ningún tipo de producto: siempre prefiere combinar. De
hecho, un carro de supermercado cargado con múltiples productos describe
tal comportamiento de consumo.
[Link]. Breve nota sobre la función de utilidad esperada
Ya hemos visto cómo se modela la elección de los consumidores y producto-
res cuando estos tienen plena certidumbre sobre los efectos de las acciones
que toman. Vamos ahora a analizar cómo un agente racional puede tomar
decisiones bajo riesgo. Para entender el tipo de problemas al que nos en-
frentamos, supongamos que se nos ofrece la oportunidad de participar en el
1.6. Contexto económico 49
siguiente juego de azar: se lanza una moneda (que suponemos no está car-
gada) hasta que salga una cara, y si esto ocurre en el n-ésimo lanzamiento,
se nos promete un pago de 2n−1 monedas. ¿Cuánto estaríamos dispuestos
a pagar para participar en tal juego? Sabemos que el “valor actuarial” del
juego es igual al valor esperado de los pagos del mismo; es decir,
∞ n
X ∞ n
1 1X 1
· 2n−1 = · 2n =
i=1
2 2 i=1 2
1
(1/2) · 2 + (1/4)22 + (1/8)23 + · · · = ∞
2
Por lo tanto, si valoramos el juego por su valor actuarial, deberíamos estar
dispuestos a pagar cualquier cantidad finita de dinero para tener el derecho
a jugar. Sin embargo, un poco de introspección nos deja ver que, en general,
nadie estará dispuesto a pagar más allá de cierta cantidad finita determina-
da. Esta es precisamente, la ya mencionada Paradoja de San Petersburgo,
debido a que contravenía lo que en esa época se creía era una forma correcta
de valorar una acción riesgosa. Así, la Paradoja de San Petersburgo mos-
traba que el valor actuarial no era siempre una guía del comportamiento de
los agentes en situaciones de riesgo.
Una propuesta para solucionar esta paradoja fue presentada por Daniel
Bernoulli (1738) y Gabriel Cramer (1750). Ellos proponían que los agentes
podrían valorar este tipo de situaciones utilizando lo que Bernoulli denomi-
nó expectativas morales, que puede interpretarse como la utilidad esperada
(u(x)) del dinero (x) para el agente, y que en el caso de este juego es la
expectativa
∞ n
X 1
E(u) = u(2n−1 ) = (1/2)u(1) + (1/2)u(2)+
i=1
2
(1/4)u(22 ) + (1/8)u(23 ) + ...
Tal como lo hizo Bernoulli, si se supone que u(x) = α ln x para cierto α > 0,
entonces E(u) < ∞, pues, por el criterio de la razón para series infinitas
–ver volumen I (Álgebra lineal y cálculo en varias variables)–, se tiene que
n+1
1
n ln 2
2 1 n 1
lı́m = lı́m = <1
n→∞ 1 n n→∞ 2 n−1 2
(n − 1) ln 2
2
50 Capítulo 1. Funciones cóncavas y cuasicóncavas
Más aún: se puede mostrar (¿podría hacerlo el lector?), que si la utili-
dad marginal es decreciente, entonces en este juego siempre se tiene que
E(u) < ∞, quedando así “resuelta” la paradoja.
La teoría de Cramer y Bernoulli ha sido incorporada como una de las prin-
cipales formas de modelar la elección de agentes bajo incertidumbre, y se
conoce como la teoría de la utilidad esperada (con probabilidades objetivas),
que fuera axiomatizada por primera vez por von Neumann and Oskar Mor-
genstern (1944) –y, posteriormente, por el mismo Savage (1954)–. No obs-
tante, experiementos pioneros tales como los de Allais (1952), Raiffa (1968)
y Slovic & Tversky (1974) mostraron que los agentes no se comportan co-
mo si maximizaran una función de utilidad esperada tipo von Neumann &
Morgenstern, y por ello desde hace ya varias décadas se vienen desarrollan-
do modelos experimentales (por ejemplo, en economía del comportamiento
(behavioral economics) que buscan sustento teórico al comportamiento hu-
mano en complejos procesos de elección –ver, por ejemplo, Machina (1983);
Hey & Orme (1994), Kahneman & Tversky (eds.) (2000), Kahneman et al
(2011)–).
1.6.4. Breve nota sobre no-convexidades
La teoría económica neoclásica, como quizás el lector lo haya percibido, se
basa principalmente en la hipótesis de rendimientos a escala decrecientes o
constantes. Pero claramente, los rendimientos crecientes a escala sí existen
en las economías reales. De hecho, existe un volumen apreciable de literatu-
ra sobre estos mecanismos que data, por lo menos, de los tiempos de Alfred
Marshall (1890). La teoría del comercio internacional, la economía del desa-
rrollo, la economía regional, la economía de alta tecnología, entre otros, son
casos en los que estas teorías se aplican con relativo éxito. A estos mecanis-
mos se les conoce con distintos nombres: rendimientos crecientes, causalidad
acumulativa, círculos virtuosos, no convexidades, efectos de trifurcación, etc.
Los orígenes varían: costos fijos muy altos, efectos de aprendizaje, efectos
de coordinación, efectos de expectativas, efectos de red, entre otros.
Un ejemplo notable de rendimientos crecientes son los productos con al-
ta tecnología implicada, donde los costos de investigación y diseño son muy
altos, donde los procesos de producción pueden mejorarse a través de apren-
dizaje y donde pertenecer a una red de estándares tecnológicos es fundamen-
tal. Sin duda, las economías de alta tecnología son economías en las que los
mecanismos de rendimientos crecientes surgen muy naturalmente, pero no
los de rendimientos decrecientes.
Ejercicios complementarios 51
Sin embargo, la dificultad consiste en que la teoría económica moderna tie-
ne un desarrollo sesgado hacia las técnicas que se adaptan bien con los
rendimientos decrecientes. Normalmente, los modelos que implican no con-
vexidades obligan tratamientos formales mucho más sutiles, complicados y
hechos a la medida de la situación a la mano. No existe aún una “caja de
herramientas” para estos modelos, aunque la teoría de juegos (clásica y no
clásica), junto con las técnicas de dinámica cualitativa y teoría de la pro-
babilidad, han comenzado a abrir el espacio. Este es parte del reto para los
años que vienen. Al final, lo que debe entenderse es que el fenómeno de los
rendimientos crecientes a escala no es una “anomalía” de la teoría económica
estándar, sino un complemento (Arthur, 1994; 2009).
Ejercicios complementarios
(Observación: Los ejercicios señalados con uno (*) o dos asteriscos (**)
tienen, a juicio de los autores, un nivel de dificultad un tanto o muy superior,
con respecto a los ejercicios corrientes que aparecen sin asterisco.
1. Indique una función cuasicóncava que no sea monótona (creciente o
decreciente).
2. Pruebe que toda función convexa y cóncava es un hiperplano que no
necesariamente pasa por el origen.
3. ¿Será que toda función cuasiconvexa y cuasicóncava es entonces un
hiperplano que no necesariamente pasa por el origen?
4. Pruebe que si f (·) y g(·) son convexas (cóncavas) en C, entonces
también Máx{f (·), g(·)} es convexa (cóncava) en C. ¿Qué pasa con
Mín{f (·), g(·)}?
5. Analice cuáles de las siguientes funciones son cóncavas (estrictas), con-
vexas (estrictas), cuasicóncavas (estrictas), cuasiconvexas (estrictas):
a) f (x, y) = xα + βy α ; α > 0; 0 < β < 1; x, y > 0
b) f (x, y) = x + ln y; x, y > 1
c) f (x, y) = 3xy − y 3 + 1
d) f (x, y) = 3x2 + y 2 − 1
6. Si (
x2 si x < 0
f (x) =
ln(x + 1) si x ≥ 0
52 Capítulo 1. Funciones cóncavas y cuasicóncavas
¿Será f (·) cóncava (estricta)? ¿convexa (estricta)? ¿cuasicóncava (es-
tricta)? ¿cuasiconvexa (estricta)?
7. Pruebe que (
2 si x 6= 0
f (x) =
0 si x = 0
es cuasiconvexa. ¿Será estrictamente cuasiconvexa? ¿Será convexa?
8. Se conoce la función CES
1
f (x, y) = A [αxρ + βy ρ ] ρ
(donde x, y ≥ 0, α, β ≥ 0, −∞ < ρ ≤ 1, ρ 6= 0, A > 0) como
función de utilidad y de producción. ¿Bajo qué condiciones es cóncava
(estricta), convexa (estricta), cuasicóncava (estricta) o cuasiconvexa
(estricta) esta función?
9. La función CRRA
1−γ
x
−1
si γ 6= 1
f (x) = 1−γ
ln x si γ = 1
con x > 0, γ > 0, al igual que la función CARA
e−αx
f (x) = −
α
con x > 0, α > 0, también son estudiadas como funciones de utilidad.
¿Bajo qué condiciones son estas funciones cóncavas (estrictas), conve-
xas (estrictas), cuasicóncavas (estrictas) y cuasiconvexas (estrictas)?
10. Utilizando el teorema 7, encuentre el valor máximo de la función
P (x, y) = −x2 − y 2 + 22x + 18y − 102, para x > 0, y > 0.
11. ¿Será cierta, falsa o incierta la siguiente afirmación?: “Puesto que la
suma de dos funciones cóncavas es una función cóncava, entonces la
fusión de dos empresas con rendimientos decrecientes a escala debe
resultar en otra, también con rendimientos decrecientes a escala”. Ex-
plique.
12. (*) El teorema 11e) asegura, en particular, que si f (·) es cóncava y F (·)
estrictamente creciente, entonces (F ◦ f )(·) es cuasicóncava. Muestre
Ejercicios complementarios 53
que si f (·) es cóncava y F (·) es monótona cualquiera, entonces (F ◦f )(·)
es cuasicóncava. [Sin embargo, Kenneth J. Arrow & Alain C. Entho-
ven (1961) construyen un ejemplo en el que la afirmación recíproca de
1
este teorema no es cierta: h(x, y) = (x − 1) + (1 − x)2 + 4(x + y) 2 es
cuasicóncava, pero no es la transformación monótona de ninguna fun-
ción cóncava (mostrar esto último podría ser un reto aún para el lector
aventajado y por ello recomendamos consultar la cita bibliográfica)].
13. a) ¿Será que un punto crítico de una función cuasicóncava es un má-
ximo global?
b) ¿Será que un máximo local de una función cuasicóncava es un má-
ximo global? [Sugerencia: Tome f (x) = [[x]] ]15 ¿Y si la función es
cuasicóncava estricta?
14. En R2 construya conjuntos de producción:
a) Convexos.
b) No convexos.
c) Con rendimientos decrecientes a escala.
d) Con rendimientos constantes a escala.
e) Con rendimientos crecientes a escala.
15. Existen ciertas funciones de producción para las cuales podemos ca-
racterizar fácilmente el tipo de rendimientos a escala que presentan;
estas se conocen como funciones homogéneas . Recordemos que una
función f : D → R es homogénea (de grado α) si, y sólo si, existe un
α ∈ R+ tal que
f (tx) = tα f (x)
donde, para todo t > 0 y x ∈ D, se tiene que tx ∈ D. Algunos ejemplos
de funciones homogéneas son:
√
a) Si f (x) = x, x ≥ 0, entonces
√ √√ 1
f (tx) = tx = t x = t 2 f (x)
para todo t > 0. Así, f (·) es homogénea de grado 1/2.
15
[[x]] es la parte entera de x.
54 Capítulo 1. Funciones cóncavas y cuasicóncavas
b) Otro ejemplo es la función lineal f (x, y) = x + y, x, y ∈ R; aquí,
f (tx, ty) = tx + ty = t(x + y) = tf (x, y)
para todo t > 0. Así, f (·, ·) es homogénea de grado 1.
c) Ahora consideremos la función f (x, y) = xy, x, y ∈ R; aquí,
f (tx, ty) = (tx)(ty) = t2 xy = t2 f (x, y)
para todo t > 0. Así, f (·, ·) es homogénea de grado 2.
x
d) Finalmente, consideremos la función f (x, y) = , x, y ∈ R, y 6= 0;
y
aquí,
tx x
f (tx, ty) = = = f (x, y)
ty y
para todo t > 0 y, así, f (·, ·) es homogénea de grado 0.
e) Quizás no sobre advertir que no todas las funciones son homogé-
neas. Tomemos, por ejemplo, la función ln x. ¿Podría el lector dar
otro ejemplo?
Asuma f : D → R+ con D ⊆ R+ ó D ⊆ R2+ no-vacíos, y pruebe que:
a) Si f (·) es homogénea de grado α con 0 < α < 1, entonces f (·) tiene
rendimientos decrecientes a escala.
b) Si f (·) es homogénea de grado α = 1, entonces f (·) tiene rendi-
mientos constantes a escala.
c) Si f (·) es homogénea de grado α > 1, entonces f (·) tiene rendi-
mientos crecientes a escala.
16. Para las siguientes funciones, determine si son homogéneas y, en caso
de que lo sean, su grado de homogeneidad:
a) f (x) = ln x b) f (x) = (x + 3)2
c) f (x, y) = x/y d) f (x, y) = (x + y)2
x2 f) f (x, y) = ex+y
e) f (x, y) = + xy
5
17. Para las siguientes funciones, si es posible, determine el tipo de rendi-
mientos a escala que presentan; si lo considera necesario, en cada caso
restrinja el dominio donde se presenta el tipo de rendimiento:
Ejercicios complementarios 55
1
a) f (x) = ln(x + 1) b) f (x) = x n con n ∈ N.
c) f (x) = x2 d) f (x, y) = x + y
e) f (x, y) = xy f) f (x) = 1 − e−x
18. ¿Será que si una función de producción es convexa y f (0) = 0, entonces
tiene rendimientos crecientes a escala?
19. ¿Será que los rendimientos marginales decrecientes implican o son im-
plicados por los rendimientos a escala decrecientes?
20. (*) Muestre que si C ⊆ Rn+ es un cono convexo y f : C → R es
homogénea de grado 1 y cuasicóncava, entonces f (·) es, de hecho,
cóncava.
21. a) Una “explicación” intuitiva sobre por qué la suma de dos funciones
cuasicóncavas no necesariamente es cuasicóncava se encuentra en
la teoría del consumidor. Si dos consumidores prefieren (cada uno
independientemente) la combinación a la especialización cuando
estos dos consumidores hacen sus compras como un único agen-
te, podría ser que se especializaran en algún tipo de producto. El
ejemplo de la pareja donde a la muchacha le gusta sólo el pollo y
el queso en su pizza, pero al muchacho sólo le gusta el pollo y los
champiñones, los obligaría, en caso de cenar juntos, a escoger la
pizza sólo con pollo, muestra bien lo que queremos explicar. Aún
así, cabe mencionar que en ningún caso afirmamos que la función
agregada de utilidad sea siempre la suma de las funciones de utili-
dad de cada uno de los agentes. Sólo que este ejemplo justifica el
resultado cuando esto sí pueda tenerse. ¿Podría el lector dar otro
ejemplo que ilustre el punto anterior?
b) En 1982, los ganadores del Premio Nobel de economía, Gerard De-
breu (ganador en 1983) y Tjalling Koopmans (ganador en 1975),
presentaron el siguiente resultado. Si f = f1 + f2 es cuasicóncava
en C, donde f1 y f2 son dos funciones no constantes, entonces algu-
na de las dos funciones es cóncava estricta en C. ¿Cómo podemos
aplicar esto al problema de agregación de la teoría del consumidor?
La generalización a n funciones f1 , f2 , . . . , fn , todas ellas no cons-
tantes, es que si f = f1 +f2 +· · ·+fn es cuasicóncava, entonces a lo
más una de ellas no es cóncava estricta. ¿Podríamos decir, a partir
de esto, algo acerca de los mecanismos de consumo en general?
56 Capítulo 1. Funciones cóncavas y cuasicóncavas
22. Considere las siguientes hipótesis sobre una familia de conjuntos de
producción {Yj }nj=1 y del conjunto de producción agregado de la eco-
P
nomía, Y = nj=1 Yj :
i) Yj es cerrado
ii) Y es cerrado
iii) 0 ∈ Yj , 0 ∈ Y (posibilidad de no acción)
iv) Y ∩ (R+ ) = 0 (imposibilidad de producción gratuita)
v) Y ∩ (−Y ) = {0} (irreversibilidad)
vi) Yj + Yj ⊆ Yj (aditividad)
vii) Yj es convexo.
viii) −Rn+ ⊆ Y (libre disponibilidad de insumos)
a) Interprete económicamente cada una de las anteriores afirmaciones.
b) (∗) Pruebe que si se cumple la condición de convexidad para Y ,
este es cerrado, y se satisface la condición de libre disponibilidad
(VIII) arriba), entonces Y − Rn+ ⊆ Y (Debreu, 1959). Interprete el
significado económico de este resultado.
23. Pruebe que, para x1 ∈ R2+ fijo, los conjuntos
{x ∈ R2+ | x 4 x1 } ; {x ∈ R2+ | x < x1 }
para el orden lexicográfico, no son cerrados en R2+ .
24. (**) [Demostración del teorema 1]. Este ejercicio, para el lector aven-
tajado, consiste en seguir cuidadosamente la demostración del teo-
rema 1: Sea x ∈ C cualquiera, y {xk }∞ k=0 tal que xk → x cuan-
do k → ∞. Además, sea ǫ > 0 y K tal que para todo k ≥ K,
||xk − x|| < ǫ (sabemos que tal K existe, ya que xk → x), y sea
también A = {y ∈ C | |y − x| = ǫ}. Entonces, para todo k ≥ K existen
yk ∈ A y λk ∈ [0, 1] tales que xk = λk x + (1 − λk )yk ; y dado que
xk → x y |yk − x| = ǫ, entonces λk → 1. Por la concavidad de f (·),
f (xk ) = f (λk x + (1 − λk )yk ) ≥ λk f (x) + (1 − λk )f (yk )
Ejercicios complementarios 57
y así
[ 16 ]
lı́m ı́nf f (xk ) ≥ f (x) (*)
k→∞
De manera similar, podemos elegir zk ∈ A y λk ∈ [0, 1] tales que
x = λk xk + (1 − λk )zk . Por un argumento similar, tenemos que
f (x) = f (λk xk + (1 − λk )zk ) ≥ λk f (xk ) + (1 − λk )f (zk )
de tal forma que
f (x) ≥ lı́m sup f (xk ) (**)
k→∞
De las dos desigualdades (*) y (**) se tiene que
lı́m ı́nf f (xk ) ≥ f (x) ≥ lı́m sup f (xk )
k→∞ k→∞
y sabiendo que
lı́m sup f (xk ) ≥ lı́m ı́nf f (xk )
k→∞ k→∞
se tiene, entonces, que
f (x) = lı́m sup f (xk ) = lı́m ı́nf f (xk )
k→∞ k→∞
y, por lo tanto, lı́mk→∞ f (xk ) = f (x) y, así, f (·) es continua en x.
16
Dada una sucesión de números reales {an }, supongamos que existe un número A tal
que: i) Para cada ǫ > 0 existe un entero N > 0 tal que n > N implica an < A + ǫ.
ii) Dados ǫ > 0 y m > 0 existe un entero n > m tal que an > A − ǫ. Entonces A se
llama el límite superior de {an }, lı́m supn→∞ an . El límite inferior de {an } se define como
lı́mı́nf n→∞ an = − lı́m supn→∞ −an .
Capítulo 2
Optimización estática
2.1. Introducción
En todas sus ramas, el análisis matemático proveyó a la física y a la tecno-
logía con potentes métodos para la solución de problemas de muchas clases.
Ya hemos visto surgir los dos primeros en cursos previos: encontrar la tasa
de cambio de una magnitud cuando sabemos cómo depende esta magnitud
del tiempo (derivada); y encontrar el área de figuras curvilíneas y el volumen
de sólidos (la integral). Además de esto, el análisis matemático ha mostrado
métodos para encontrar el máximo y el mínimo de valores de una magnitud
bajo condiciones dadas. Con estas reglas, por ejemplo, es posible determinar
la forma de una cisterna cilíndrica que, para un volumen dado, tendrá la
superficie más pequeña y, por tanto, requerirá de la mínima cantidad de
material para construirla: la cisterna debe igualar su altura al diámetro de
la base. Estos métodos también nos permiten determinar la forma de la
curva a lo largo de la cual un cuerpo debe rodar para caer, en el mínimo
tiempo posible, de un punto a otro (esta curva se llama la cicloide), y esto
lo estudiaremos más adelante.
Pero el análisis matemático no sólo nos entrega métodos para resolver pro-
blemas particulares. También nos da reglas generales para la formulación
matemática de “leyes” cuantitativas de las ciencias. Las leyes generales de
la mecánica no podrían formularse matemáticamente sin recurso a concep-
tos del análisis matemático, y sin tal formulación no seríamos capaces de
59
60 Capítulo 2. Optimización estática
resolver los problemas de la mecánica. En la misma forma, las leyes de la
conducción del calor, la propagación de la luz a través de distintos medios
físicos, las reacciones químicas, las leyes del electromagnetismo, y muchas
otras, simplemente no podrían tener una formulación matemática sin los
conceptos del análisis. Y es sólo como resultado de esta formulación, que
podemos aplicar estas leyes a una gran variedad de casos concretos.
La motivación para calcular máximos y mínimos es profunda, pues nume-
rosos fenómenos naturales muestran lo que se conoce como un principio de
mínima acción. Es corriente encontrar que la naturaleza, al llevar a cabo
una acción, utilice la mínima cantidad de energía necesaria para su ejecu-
ción. Por ejemplo, es común observar que la trayectoria de una partícula o
de una onda en movimiento se completa siguiendo la trayectoria más corta
o en el menor tiempo posible. O ambos.
Un famoso ejemplo de esta economía del comportamiento físico lo descubrió
Herón de Alejandría en el siglo I d.C. Él encontraba que la igualdad de los
ángulos de incidencia y reflexión formados por un rayo de luz que alcanza
a un espejo plano se debe a que sigue la trayectoria más corta posible. Mil
seiscientos años más tarde, Fermat mostraría que también un principio del
mínimo regía el proceso de refracción de la luz. Y otros ejemplos importantes
han surgido en mecánica, electrodinámica, relatividad y física cuántica.
La búsqueda de propiedades de máximo y mínimo ha jugado un papel im-
portante en el desarrollo de la ciencia moderna, e incluso se ha creído que,
para las leyes físicas, los principios del mínimo y del máximo son su acceso
natural, y hasta en ocasiones en la historia se ha buscado a través de ellos
el principio unificador de todas las ciencias.
2.2. Planteamiento del problema
Una típica (y muy común en la práctica) caracterización de problemas de
optimización es encontrar valores extremos de una función f (x, y) restrin-
gida a un subconjunto bien especificado de R2+ :
Maximizar f (x, y)
sujeta a g(x, y) ≥ 0 (KT)
x, y ≥ 0
donde f, g : R2+ → R son funciones diferenciables. Aquí a f (·, ·) se le conoce
como función objetivo, y a g(·, ·) como función restricción.
2.2 Planteamiento del problema 61
z = f (x, y)
y
g(x, y) ≥ 0
x
Figura 2.1. El problema de optimización.
A este problema lo llamaremos, en adelante, problema (KT) (figura 2.1),
por razones que entenderemos enseguida.
Ejemplo 1.
En el problema
Maximizar xy
sujeta a 3x + 4y ≤ 5
x, y ≥ 0
tenemos que f (x, y) = xy, y g(x, y) = 5 − 3x − 4y.
Ejemplo 2.
En el problema
Maximizar x+y
sujeta a x + y2 ≤ 1
2
x, y ≥ 0
tenemos que f (x, y) = x + y, y g(x, y) = 1 − x2 − y 2 . N
De manera semejante, los problemas de minimización de una función, sujeta
a una restricción funcionalmente bien especificada, también están conside-
rados de esta forma, puesto que el problema
Minimizar f (x, y)
sujeta a g(x, y) ≥ 0
x, y ≥ 0
62 Capítulo 2. Optimización estática
es equivalente al problema
Maximizar − f (x, y)
sujeta a g(x, y) ≥ 0
x, y ≥ 0
Ejercicios 1
1. En los siguientes ejercicios, identifique f (x, y) y g(x, y) en la formula-
ción (KT):
a) b)
Minimizar (x−1)2 + y 2 Minimizar x2 − y 2
sujeta a y ≥ x2 + 1 sujeta a 3x + 4y ≥ 12
x, y ≥ 0 x, y ≥ 0
c) d)
Minimizar 3x+7y
Maximizar yex
3 3 3
sujeta a x +y ≥ (100) sujeta a 2x + 8y ≤ 50
x, y ≥ 0 x, y ≥ 0
e) f) 1 1
Minimizar 5x+2y Minimizar 3x 3 +5y 3
sujeta a 7x + 9y ≥ 15 sujeta a x+y ≥2
x, y ≥ 0 x, y ≥ 0
2.3. El teorema de Weierstrass
En el curso de cálculo diferencial 1 , se establece que si f : [a, b] → R es una
función continua, entonces esta alcanza un valor máximo y un valor mínimo,
ambos globales (figura 2.2). Este teorema, fundamental en la teoría de la
optimización de funciones de una sola variable, se puede generalizar así:
Teorema 1. (Teorema de Weierstrass)
Si f : S → R, con S ⊆ R2 compacto (es decir, cerrado y acotado), es
continua, entonces alcanza un valor máximo y uno mínimo, ambos globales.
1
Ver, por ejemplo, Monsalve (ed.), 2010, vol. II.
2.3. El teorema de Weierstrass 63
Demostración.
Sea R = f (S) ⊆ R; como S es compacto (es decir, cerrado y acotado),
entonces R también es compacto 2 y, así, existen a, A ∈ R tales que a =
Mín R y A = Máx R; luego, a = f (x0 , y0 ) y A = f (x1 , y1 ) para ciertos
puntos (x0 , y0 ), (x1 , y1 ) ∈ S.
f (x)
b
máximo
b
mínimo
x
a b
Figura 2.2. Máximo y mínimo global de una función continua sobre un conjunto
compacto.
Este es quizás el resultado básico de la teoría de la optimización matemática
y aquí lo utilizaremos ampliamente. En particular, si S = {(x, y) ∈ R2+
| g(x, y) ≥ 0} es compacto, y la función objetivo f (x, y) es continua, entonces
el problema (KT) siempre tendrá solución. Esto lo utilizaremos de manera
recurrente en el transcurso del presente capítulo.
Ahora: puesto que ya conocemos condiciones para la existencia de soluciones
al problema (KT), sería muy conveniente, en este punto, preguntarnos por
su unicidad. El siguiente teorema da condiciones suficientes para esto:
Teorema 2. (Un teorema de unicidad)
Si el conjunto S = {(x, y) ∈ R2+ | g(x, y) ≥ 0} es convexo, y f (x, y) es
estrictamente cuasicóncava, entonces toda solución de (KT) es única.
Demostración.
Supongamos que (x0 , y0 ) y (x1 , y1 ) son dos soluciones distintas al problema
(KT), y que, por lo tanto, f (x0 , y0 ) = f (x1 , y1 ). Entonces, para cualquier
λ ∈ (0, 1), se tendrá que f (λx0 +(1−λ)x1 , λy0 +(1−λ)y1 ) > f (x1 , y1 ), dado
que f (·) es cuasicóncava estricta. Además, como S es convexo, claramente
se tiene la condición (λx0 + (1 − λ)x1 , λy0 + (1 − λ)y1 ) ∈ S. Por lo tanto,
(x1 , y1 ) no puede ser solución al problema (KT) y, por ende, sólo puede
existir una única solución.
2
Ver volumen I (Álgebra lineal y cálculo en varias variables), teorema 4, capítulo 9.
64 Capítulo 2. Optimización estática
Ejercicios 2
1. En los siguientes ejercicios determine si se cumplen las condiciones
para existencia de la solución al problema dado. Si existe, ¿permite el
teorema 2 garantizar que esta solución es única?
a) Maximizar (x−1)2 + y 2 b) Minimizar x2 + y 2
sujeta a y ≥ x2 + 1 sujeta a 3x + 4y ≤ 12
x, y ≥ 0 x, y ≥ 0
c) Minimizar 3x+7y d)
1 Maximizar yex
sujeta a x2 + y 2 3
≥1 sujeta a 2x + 8y ≤ 50
x, y ≥ 0 x, y ≥ 0
e) Maximizar 5x+2y f) Maximizar
1
3x 2 +5y 2
1
sujeta a 7x + 9y ≤ 15 sujeta a x+y =2
x, y ≥ 0 x, y ≥ 0
[Sugerencia: dibuje el problema, y observe que el hecho de que el conjunto
de restricción no sea compacto no implica, automáticamente, que la solución
no exista.]
2.4. El método de los multiplicadores de Lagrange
El método de los multiplicadores de Lagrange es la técnica tradicional para
resolver explícitamente problemas de optimización restringida cuando las
funciones objetivo y de restricción son diferenciables con continuidad en
R2++ . Este método se centra en la solución específica del problema
Maximizar f (x,y)
sujeta a g(x, y) = 0 (L)
x, y > 0
donde la restricción es de igualdad estricta. En adelante, a este problema lo
denotaremos por (L).
2.4. El método de los multiplicadores de Lagrange 65
Con el objeto de entender cuál es la idea básica del método de los multi-
plicadores de Lagrange (Lagrange, 1788), tratemos de resolver el problema
siguiente:
Maximizar xy
sujeta a 3x + 4y = 5
x, y > 0
En estos problemas de optimización restringida, a menudo las curvas de nivel
son de una gran ayuda visual para identificar la ubicación de las soluciones
en el plano. Recordemos que en el primer cuadrante del plano, las curvas de
nivel (isocuantas) de la función f (x, y) = xy, son hipérbolas hacia el origen:
para α > 0, xy = α equivale a y = α/x como se ve en la figura 2.3a).
Y la restricción del problema es que se deben satisfacer las condiciones
3x + 4y = 5, con x, y > 0 [figura 2.3b)]. Es decir, debemos buscar sobre
el segmento de recta de la figura 2.3b), el punto (x∗ , y ∗ ) (ambos mayores
que cero) que haga f (x, y) lo más grande posible. Si superponemos la figura
2.3a) con la figura 2.3b) y observamos la dirección de crecimiento de las
curvas de nivel, encontramos la figura 2.4.
y y
α=1
1 1
α = 0.5
α = 0.1
0 0
x x
0 1 0 1
a) b)
Figura 2.3. Panel a): Curvas de nivel xy = α para distintos α’s. Panel b): Restricción
3x + 4y = 5, x, y > 0.
Gráficamente, un punto como (x∗ , y ∗ ) en la figura 2.4 resuelve nuestro pro-
blema. ¿Cómo hallarlo? Lagrange encontró que, precisamente en (x∗ , y ∗ ),
los vectores gradientes ∇f (x∗ , y ∗ ) y ∇g(x∗ , y ∗ ) ¡son paralelos! y que esto
sólo ocurre allí, como se ve en la figura 2.4 cuando comparamos el compor-
tamiento de los gradientes ∇f y ∇g en los puntos (x∗ , y ∗ ) y, por ejemplo,
66 Capítulo 2. Optimización estática
(x̄, ȳ). Así, existe un escalar λ tal que
∇f (x∗ , y ∗ ) = λ∇g(x∗ , y ∗ ) (2.1)
Y en honor del descubridor de esta importante condición, al número λ se le
llama multiplicador de Lagrange.3
y ∇g
ȳ ∇f
∇f = λ∇g
y∗
x∗ x̄ x
Figura 2.4. Curvas de nivel y recta de restricción.
Definición 1. (Condiciones de primer orden (CPO) de Lagrange)
Si f (·) y g(·) son funciones diferenciables con continuidad en R2++ , y λ ∈ R,
definimos las condiciones de primer orden del problema de Lagrange (L) de
la siguiente forma:
∇f (x, y) = λ∇g(x, y)
g(x, y) = 0
o, equivalentemente,
∂f ∂g ∂f ∂g
=λ , =λ , g(x, y) = 0 (CPO)
∂x ∂x ∂y ∂y
Y ahora nos preguntamos cuándo funciona bien el método de Lagrange;
es decir, cuándo las soluciones al problema de optimización que tenemos a
mano, realmente están entre las soluciones encontradas por el método. La
respuesta la encontramos en el siguiente teorema:
3
El término “multiplicador de Lagrange” fue acuñado por Gillie A. Larew (1919).
2.4. El método de los multiplicadores de Lagrange 67
Teorema 3. [Multiplicadores de Lagrange (Lagrange, 1788)]
Supongamos que f : R2++ → R y g : R2++ → R tienen derivadas parciales
continuas. Si (x∗ , y ∗ ) ∈ R2++ resuelve el problema
Maximizar f (x, y)
sujeta a g(x, y) = 0 (L)
x, y > 0
entonces existe un número λ 6= 0 tal que
∇f (x∗ ,y∗ ) = λ∇g (x∗ ,y∗ )
siempre y cuando
∇g (x∗ ,y∗ ) 6= 0
Demostración.
Por el teorema de la función implícita –volumen I (Álgebra lineal y cálculo
en varias variables)– se tiene, de g(x, y) = 0, que alrededor de (x∗ , y ∗ ) existe
una única función diferenciable y(x) tal que g(x, y(x)) = 0 y que, además,
dy ∂g/∂x
=−
dx ∂g/∂y
en esa vecindad. Ahora: de la condición que surge de maximizar f (x, y(x))
en (x∗ , y ∗ ), obtenemos que, en (x∗ , y ∗ ),
∂f ∂f
df = dx + dy = 0
∂x ∂y
Luego, en (x∗ , y ∗ ),
−1 −1
∂f ∂g ∂f ∂g
=
∂x ∂x ∂y ∂y
−1
∂f ∂g
Llamemos λ ≡ . Así, en (x∗ , y ∗ ),
∂y ∂y
(x∗ ,y ∗ )
−1
∂f ∂f ∂g ∂g ∂g
= =λ (2.2)
∂x ∂y ∂y ∂x ∂x
y, de manera similar,
−1
∂f ∂f ∂g ∂g ∂g
= =λ (2.3)
∂y ∂x ∂x ∂y ∂y
68 Capítulo 2. Optimización estática
De (2.2) y (2.3) se obtiene que
∂f ∂f ∂g ∂g
, =λ ,
∂x ∂y ∂x ∂y
o, lo que es igual,
∇f (x∗ ,y∗ ) = λ∇g (x∗ ,y∗ )
Nota 1. (Definición de lagrangiano 4 )
Existe una forma equivalente de resolver el problema (L). Definamos su
lagrangiano, L(·), como la función L : R++ × R++ × R → R definida por
L(x, y, λ) = f (x, y) − λ g(x, y). Entonces el problema de optimizar L(x, y, λ)
nos conduce al problema (L). En efecto: las condiciones de primer orden
para optimizar L(·) son
∂L ∂f ∂g ∂L ∂f ∂g ∂L
= −λ = 0, = −λ = 0, = −g(x, y) = 0
∂x ∂x ∂x ∂y ∂y ∂y ∂λ
y esto es,
∂f ∂g ∂f ∂g
=λ , =λ , g(x, y) = 0
∂x ∂x ∂y ∂y
o, de forma más simple,
∇f (·) = λ∇g(·); g(·) = 0
que son, exactamente, las condiciones de solución del problema (L).
Ejemplo 3.
Resolvamos el problema
Maximizar xy
sujeta a 3x + 4y = 5
x, y > 0
utilizando las condiciones de primer orden de Lagrange (figura 2.5).
4
Aunque la idea fundamental es de Lagrange (1788), el término “lagrangiano” fue
acuñado, al parecer, por Samuel Zahl (1964).
2.4. El método de los multiplicadores de Lagrange 69
Solución.
Aquí, f (x, y) = xy, g(x, y) = 3x + 4y − 5. Ambas funciones tienen derivadas
parciales continuas; luego, por el teorema 3, si (x∗ , y ∗ ) resuelve este problema
de optimización, entonces existe un escalar λ 6= 0 tal que
∇f (x∗ , y ∗ ) = (y ∗ , x∗ ) = λ(3, 4) = λ∇g(x∗ , y ∗ )
o, equivalentemente, un λ 6= 0 tal que
x∗ = 4λ, y ∗ = 3λ
5
Pero como 3x∗ + 4y ∗ = 5, entonces 3(4λ) + 4(3λ) = 5. Y así, λ = 24 . Por
consiguiente,
5 5
x∗ = , y∗ =
6 8
y
Solución
5
y∗ = 8
x∗ = 5 x
6
Figura 2.5. Solución gráfica del ejemplo 3.
Vemos que ∇g(x∗ , y ∗ ) = (3, 4) 6= (0, 0); por lo tanto, el punto (x∗ , y ∗ ) satis-
face todas las condiciones del teorema 3. Dado que este punto es la única
solución a las CPO, debería
ser la solución al problema.
En efecto: puesto
que el conjunto S = (x, y) ∈ R2+ | 3x + 4y = 5 es compacto y la función
objetivo f (x, y) = xy es continua, por el teorema de Weierstrass existe so-
lución al problema. Además, como en los extremos del conjunto restricción,
( 35 , 0), (0, 45 ), la función no tiene su máximo (pues su valor allí es 0, y va-
riando un poco x y y podemos obtener más que 0), el valor máximo de la
función es f (x∗ , y ∗ ) = x∗ y ∗ = 56 58 = 25
48
[5] .
5
¿El lector podría explicar por qué en la solución (x∗ , y ∗ ) se tiene y ∗ < x∗ ?
70 Capítulo 2. Optimización estática
Ejemplo 4.
También podemos utilizar la técnica de Lagrange para resolver el problema
de optimización
Maximizar x+y
sujeta a x + y2 = 1
2
x, y > 0
Solución.
Aquí, f (x, y) = x + y, g(x, y) = x2 + y 2 − 1, y dado que ambas funciones
tienen derivadas parciales continuas, buscamos un número λ 6= 0 tal que
∇f (x, y) = λ ∇g(x, y)
Es decir,
(1, 1) = λ(2x, 2y)
o,
2λx = 1, 2λy = 1
Es claro que λ 6= 0; y puesto que x2 + y 2 = 1, entonces
2 2
1 1
+ =1
2λ 2λ
Por lo tanto, λ2 = 21 y tendremos que λ = ± √12 . Como debe ser x > 0,
y > 0, entonces la solución a las CPO es
√
∗ ∗ 2
x = y =
2
y
√ya √que esta es la única solución a las CPO y satisface ∇g(x∗ , y ∗ ) =
2, 2 6= (0, 0), debería ser la solución al problema, tal como se ilus-
tra en la figura 2.6. En efecto: puesto que el conjunto
n o
S = (x, y) ∈ R2+ | x2 + y 2 = 1
es compacto y f (x, y) = x+y es continua en S, por el teorema de Weierstrass
existe solución al problema; además, dado que en los extremos del conjunto,
(0, 1) y (1, 0), la función objetivo f (x, y) no toma su valor máximo sobre S,
√ √ √
entonces el valor máximo es el previsto: f (x∗ , y ∗ ) = x∗ +y ∗ = 22 + 22 = 2
[6] .
6
¿El lector podría explicar por qué x∗ = y ∗ ? Es decir, ¿cuáles de las características del
problema hacen que las soluciones sean iguales?
2.4. El método de los multiplicadores de Lagrange 71
y
solución
√
2 b
y∗ = 2
x∗ =
√
2
2 x
Figura 2.6. Solución gráfica del ejemplo 4.
Ejemplo 5. (Un problema geométrico)
Para encontrar, entre todos los rectángulos inscritos en un círculo de radio
r, el que tiene mayor área, podemos representar el área de un rectángulo
como el producto (2x)(2y) de sus lados, donde x, y son números positivos
que satisfacen la ecuación x2 + y 2 = r2 (figura 2.7a)). Este problema se
puede solucionar convirtiéndolo en el problema representado en la figura
2.7b). El problema es, entonces,
Maximizar xy
sujeta a x2 + y 2 = r2
x, y > 0
y
Solución
r √
y y∗ = 2r b
2
√
x∗ = 2r x
2
a) b)
Figura 2.7. En el panel a): rectángulos inscritos en un círculo de radio r. En el panel b):
transformación y solución gráfica del ejemplo 5.
Aquí, f (x, y) = xy, g(x, y) = x2 + y 2 − r2 , y dado que ambas funciones
tienen derivadas parciales continuas, queremos encontrar un λ 6= 0 tal que
∇f (x, y) = λ∇g(x, y)
72 Capítulo 2. Optimización estática
Es decir,
∇f (x, y) = (y, x) = λ(2x, 2y) = λ∇g(x, y)
Así, y = 2xλ y x = 2yλ, por lo que x∗ = y ∗ . Reemplazando esto en la
restricción g(x, y) = 0, tenemos que
(x∗ )2 + (y ∗ )2 = 2(x∗ )2 = r2
y, por consiguiente,
r
x∗ = y ∗ = √
2
√ √
Como ∇g(x∗ , y ∗ ) = ( 2r, 2r) 6= (0, 0) y esta es la única solución a las
CPO, debe entonces ser (después de aplicar el teorema de Weierstrass y
estudiar los valores de la función objetivo en los dos extremos de la restric-
ción) la solución al
√ problema. Así, el problema original se resuelve con un
cuadrado de lado 2 r, que, por consiguiente, tendrá área 2r2 .
Ejemplo 6. (Otro problema geométrico)
Queremos encontrar el diseño de un tanque cilíndrico que contenga V litros
de agua, pero que utilice la menor cantidad de material en su construcción.
Solución.
La cantidad de material que se utiliza es igual a la suma de las áreas de la
base y de la pared del tanque; esto es, πr2 + 2πrh, donde r es el radio del
cilindro y h su altura. El volumen del tanque es πr2 h. Así, el problema es
Minimizar πr2 +2πrh
sujeta a πr2 h = V
r>0
h>0
Aquí, f (r, h) = −(πr2 +2πrh), g(r, h) = πr2 h−V ; por lo tanto, se satisfacen
las condiciones del teorema de Lagrange, de manera que las soluciones (que
existen por el teorema de Weierstrass, y no pueden ser soluciones con r = 0
o h = 0) deben estar entre las soluciones de las condiciones de primer orden,
las cuales son
−(2πr + 2πh, 2πr) = λ(2πrh, πr2 )
Esto es equivalente a
−2πr − 2πh = λ2πrh, −2πr = λπr2
2.4. El método de los multiplicadores de Lagrange 73
lo que implica que λ = − 2r 6= 0; y así, r∗ = h∗ ; de esto, reemplazando en la
restricción, obtenemos s
3 V
r∗ = h∗ =
π
Como√ se satisface ∇g(x∗ , y ∗ ) 6= (0, 0), la cantidad óptima de material a usar
3
es 3 πV 2 .
Ejemplo 7. [La ley de la refracción de la luz (Ley de Snell, 1621)]
Un punto móvil debe pasar de A a B (figura 2.8). En la trayectoria AM se
mueve con velocidad v1 , y en la M B con velocidad v2 . ¿Dónde deberíamos
colocar el punto M sobre la línea horizontal DD′ para que la trayectoria de
A hasta B pueda recorrerse lo más rápido posible?
A
a α
α
M D′
D
β b
β
B
c
Figura 2.8. Ley de la refracción de la luz.
Solución.
Sean α, β los ángulos desconocidos señalados en la figura 2.8; a y b las
longitudes conocidas de las perpendiculares de los puntos A y B a la línea
horizontal DD′ , respectivamente; y c la distancia horizontal conocida entre
tales puntos. El tiempo requerido para recorrer el camino de A a B está
dado por la función
a b π
t(α, β) = + 0 < α, β <
v1 cos α v2 cos β 2
Se requiere entonces encontrar el mínimo de la función t (α, β) sujeta a la
relación entre los ángulos
a tan α + b tan β = c
74 Capítulo 2. Optimización estática
Aquí, la función objetivo t(α, β) es continua, el conjunto restricción es com-
pacto y, por tanto, el problema cumple las condiciones del teorema de
Weierstrass para que tenga solución. Además, ninguna solución está en los
extremos de la restricción, como fácilmente puede comprobar el lector. Así,
dado que se cumplen las condiciones del teorema de Lagrange, la solución
debe satisfacer las condiciones de primer orden
a sen α b sen β a b
− − ,− =λ ,
v1 cos2 α v2 cos2 β cos2 α cos2 β
Y esto, con un poco de álgebra, implica que
sen α v1
=
sen β v2
que es, precisamente, la ley de refracción de la luz. Según esto, un rayo de
luz se refractará en su paso de un medio a otro de tal forma que el tiempo
que transcurre de un punto en un medio, a otro punto en el otro medio, ¡es
mínimo!
Ejemplo 8.
Resolvamos para α, β > 0, p1 , p2 > 0 fijos,
Maximizar xα y β
sujeta a p1 x + p2 y = M
x, y > 0
Solución.
Las condiciones de primer orden (CPO) de este problema son:
αxα−1 y β , βxα y β−1 = λ(−p1 , −p2 )
donde λ 6= 0. De allí obtenemos que
αy p1
=
βx p2
De esta igualdad despejemos y:
p1 β
y= x
p2 α
y reemplacemos en la restricción, de forma que (figura 2.9)
αM
x∗ =
(α + β)p1
2.4. El método de los multiplicadores de Lagrange 75
y, por tanto,
βM
y∗ =
(α + β)p2
Como se cumple ∇g(x∗ , y ∗ ) = (−p1 , −p2 ) 6= (0, 0), y (x∗ , y ∗ ) es la única
solución de las CPO, ella esla solución al problema. Podemos
afirmar esto,
2
dado que el conjunto S = (x, y) ∈ R+ | p1 x + p2 y = M es compacto, la
función objetivo f (x, y) = xα y β es continua y no es máxima en los bordes
del conjunto de restricción (teorema de Weierstrass). El máximo aquí viene
dado entonces por
α β
∗ ∗ αM βM αα β β M α+β
f (x , y ) = = .
(α + β)p1 (α + β)p2 (α + β)α+β pα1 pβ2
Vemos que este resultado generaliza el ejemplo 3.
y
solución
βM
y∗ = (α+β)p2
b
x∗ = αM x
(α+β)p1
Figura 2.9. Solución gráfica del ejemplo 8.
Ejemplo 9.
Resolvamos el problema
Maximizar xy
sujeta a x + xy + y 3 = 1
x, y > 0
Solución.
En este caso, f (x, y) = xy, g(x, y) = x + xy + y 3 − 1. Vemos que la función
objetivo es continua y que el conjunto {(x, y) ∈ R2+ | x + xy + y 3 = 1}
es compacto, de tal forma que, por el teorema de Weierstrass, el problema
76 Capítulo 2. Optimización estática
tiene solución. Dado que el óptimo no puede estar en los bordes del con-
junto restricción, y como, además, las derivadas parciales son continuas, la
solución debe estar entre las condiciones de primer orden, las cuales vienen
dadas por:
(y, x) = λ(1 + y, x + 3y 2 )
de lo cual se obtiene
y 1+y
=
x x + 3y 2
o, lo que es equivalente,
3y 3 = x
Reemplazando en la restricción obtenemos 3y 4 + 4y 3 = 1, lo que implica que
y ∗ = 0.56 y así, x∗ = 0.53
Dado que ∇g(x∗ , y ∗ ) 6= (0, 0), hemos encontrado el punto óptimo.
Ejercicios 3
1. Encuentre el valor máximo de f (x, y) = xy sobre la elipse
x2 y 2
+ =1
8 2
asumiendo x > 0, y > 0. [Sugerencia: Una gráfica ayudaría].
2. Utilizando el método gráfico, decida si el problema de maximizar
f (x, y) = x3 + y 3 sobre la recta x + y = 1 tiene solución (asuma
x > 0, y > 0).
3. Resuelva analíticamente los siguientes problemas de optimización:
a) Minimizar x+y b) Maximizar xy
sujeta a xy = 7 sujeta a x+y =7
x, y > 0 x, y > 0
c) √ √ d) Maximizar 3x + 8y
Maximizar x+ y
1 1
sujeta a 9x + 2y = 5 sujeta a x2 + y 2 = 1
x, y > 0 x, y > 0
2.5. Optimización con restricciones de desigualdad 77
e) Maximizar x(y + 4) f) Minimizar 3x − 2y
2
sujeta a x +y =7 sujeta a 2xy = 4
x, y > 0 x, y > 0
4. Calcule los puntos sobre la curva x2 y = 2 más próximos al origen.
5. Encuentre el máximo volumen que puede contener un tanque cilíndrico
con tapas, si se tiene una cantidad A de material para construirlo.
6. Entre los rectángulos con perímetro fijo, demuestre que el cuadrado
es el de mayor área.
7. a) Entre todos los triángulos inscritos en un círculo dado, demuestre
que el triángulo equilátero es el de mayor área.
b) ¿Cuál es el rectángulo de mayor área inscrito en un círculo?
c) ¿Cuál es el polígono regular de mayor área inscrito en un círculo?
2.5. El método (de) Kühn-Tucker
Otra caracterización fundamental de problemas de optimización es buscar
valores extremos de una función f (x, y) cuando existen restricciones de de-
sigualdad bien determinadas funcionalmente dentro del dominio de elección.
Un problema que aparece muy comúnmente (y que ya habíamos especificado
al principio de este capítulo con las letras KT) es, en su forma más simple,
el siguiente:
Maximizar f (x, y)
sujeta a g(x, y) ≥ 0 (KT)
x, y ≥ 0
En lo que sigue mostraremos la aproximación de Harold Kühn [1925-2014]
y Albert Tucker [1905-1995] a este tipo de problemas, partiendo de las téc-
nicas de programación lineal desarrolladas previamente por George Dantzig
y Jack Laderman en 1947 (ver Dorfman et al, 1958). En Kühn & Tucker
(1951, 1956) se advierte la posibilidad y necesidad de una generalización
del método lineal, buscando resolver, particularmente, problemas de utiliza-
ción eficiente de recursos cuando las funciones objetivo, y las restricciones,
no eran necesariamente lineales. Veamos entonces algunos ejemplos hacia
los cuales está expresamente dirigida la técnica desarrollada por estos dos
matemáticos.
78 Capítulo 2. Optimización estática
Ejemplo 10. (Soluciones de esquina)
Consideremos el siguiente problema,
Minimizar x+y
sujeta a x + y2 ≥ 1
2
x, y ≥ 0
Claramente, este problema es uno del tipo (KT) si establecemos las igual-
dades f (x, y) = −(x + y) y g(x, y) = x2 + y 2 − 1. Es decir, el problema puede
escribirse como
Maximizar − (x + y)
sujeta a x + y2 − 1 ≥ 0
2
x, y ≥ 0
Aquí podemos encontrar las soluciones gráficamente: estas son (1, 0) y (0, 1)
(figura 2.10). Y obsérvese que en ambos casos la restricción x2 + y 2 ≥ 1
se satisface con igualdad, pero que la solución no es interior a R2+ , como
se estudiaba en el método de los multiplicadores de Lagrange. Estas solu-
ciones se conocen como soluciones de esquina o borde (por obvias razones),
y el método (de) Kühn-Tucker es útil para hallarlas analíticamente, como
veremos más adelante.
y
{(x, y) ∈ R2+ | x2 + y 2 ≥ 1}
solución
solución
x
Figura 2.10. Solución gráfica del ejemplo 10.
Ejemplo 11. (Soluciones interiores a la restricción)
Consideremos el problema
2
1 2 1
Minimizar x− + y−
2 2
sujeta a x+y ≤5
x, y ≥ 0
2.5. Optimización con restricciones de desigualdad 79
que claramente se resuelve para x∗ = y ∗ = 12 , como se ve en la figura 2.11.
Observe que la solución ni siquiera satisface la restricción con igualdad,
2 2
1 1
ya que x∗ + y ∗ < 5. En este ejemplo, f (x, y) = x− 2 + y− 2 y
g(x, y) = 5 − x − y. N
y
solución
x
Figura 2.11. Solución gráfica del ejemplo 11.
Y aunque, como hemos visto, estos problemas son trivialmente resueltos,
existen abundantes situaciones en las que no es fácil resolver el problema
geométricamente y necesitaremos una herramienta más sofisticada: ese es,
precisamente, el algoritmo (o método) de optimización (de) Kühn-Tucker.
2.5.1. El algoritmo (de) Kühn-Tucker
Consideremos nuevamente la función lagrangiana
L : R+ × R+ × R → R
definida por L(x, y, λ) = f (x, y) − λg(x, y). Ya sabemos que (bajo ciertas
condiciones) las soluciones al problema del lagrangiano
Maximizar f (x, y)
sujeta a g(x, y) = 0 (L)
x, y > 0
están dentro de las soluciones a las condiciones de primer orden
∂f ∂g ∂f ∂g
−λ =0 ; −λ =0
∂x ∂x ∂y ∂y
g(x, y) = 0
x, y > 0
80 Capítulo 2. Optimización estática
La dificultad ahora es que Kühn-Tucker
Maximizar f (x, y)
sujeta a g(x, y) ≥ 0 (KT)
x, y ≥ 0
podría implicar soluciones de esquina, o también interiores, a la restricción
g(x, y) = 0. Si la solución a (KT) es de esquina, digamos (0, y ∗ , λ∗ ) con
y ∗ > 0, λ∗ ∈ R, entonces, siguiendo lo hecho para el problema lagrangiano,
debemos tener que (0, y ∗ ) resuelve para cierto λ∗ ∈ R,
Maximizar L(x, y, λ)
sujeta a x, y ≥ 0
Así, L(0 + ∆x, y ∗ , λ∗ ) ≤ L(0, y ∗ , λ∗ ) para todo ∆x > 0 (¿por qué sólo para
∆x > 0 y no para ∆x < 0?). Ahora: por el teorema de Taylor aprendido en
el curso de cálculo diferencial (ver Monsalve (ed.) (2010), vol. II),
∗ ∗ ∂L ∗ ∗ ∂ 2 L (∆x)2
L(0 + ∆x, y , λ ) = L(0, y , λ ) + ∆x +
∂x (0,y∗ ) ∂x2 (ζ ∗) 2
x ,y
donde 0 < ζx < ∆x. Y como L(0 + ∆x, y ∗ , λ∗ ) ≤ L(0, y ∗ , λ∗ ) entonces
∂L ∂ 2 L (∆x)2
∆x + ≤0
∂x (0,y∗ ,λ∗ ) ∂x2 (ζ ∗ ,λ∗ ) 2
x ,y
que al dividirlo por ∆x y tomando el límite cuando ∆x → 0+ , es
∂L
≤0
∂x (0,y∗ ,λ∗ )
∂f ∂g
o, lo que es igual, a − λ∗ ≤ 0.
∂x (0,y∗ ) ∂x (0,y∗ )
Así, mientras la primera derivada del lagrangiano con respecto a x se anu-
la si x∗ > 0, en la esquina (x∗ = 0) esta primera derivada es menor que
o igual a cero (figura 2.12). En otra forma, el producto de x∗ y la de-
rivada del lagrangiano ! en (x∗ , y ∗ , λ∗ ) (con respecto a x) siempre es cero:
∂L
x∗ = 0. De esta manera tendremos que
∂x (x∗ ,y∗ ,λ∗ )
!
∂f ∂g ∂f ∂g
− λ∗ ≤ 0 y x∗ − λ∗ =0
∂x (x∗ ,y∗ ) ∂x (x∗ ,y∗ )
∂x (x∗ ,y∗ ) ∂x (x∗ ,y∗ )
2.5. Optimización con restricciones de desigualdad 81
y
solución
solución
x
Figura 2.12. En el problema (KT) las soluciones de esquina tienen pendiente negativa.
Es claro que el papel de x es simétrico al de y; así que por un razonamiento
similar tendremos que
!
∂f ∂g ∂f ∂g
− λ∗ ≤ 0 y y∗ − λ∗ =0
∂y (x∗ ,y∗ ) ∂y (x∗ ,y∗ )
∂y (x∗ ,y∗ ) ∂y (x∗ ,y∗ )
Finalmente, para (x∗ , y ∗ ) fijos, maximizar L(x∗ , y ∗ , λ) requiere λ∗ ≤ 0 (dado
que g(x∗ , y ∗ ) ≥ 0).
Este es, en forma heurística, el origen de las condiciones de primer orden
del problema de Kühn-Tucker (KT), que ahora presentamos.
Definición 2. (Condiciones de primer orden (CPO) (de) Kühn-
Tucker)
Si f (·), g(·) son funciones diferenciables con continuidad en R2+ y λ ≤ 0,
definimos las condiciones de primer orden (CPO) del problema de Kühn-
Tucker (KT) de la siguiente forma:
∂f ∂g ∂f ∂g
i) −λ ≤ 0; −λ ≤ 0; g(x, y) ≥ 0
∂x ∂x ∂y ∂y
∂f ∂g ∂f ∂g
ii) x −λ = 0; y −λ = 0; λg(x, y) = 0 (CPO)
∂x ∂x ∂y ∂y
Nota 2. (Kühn-Tucker generaliza Lagrange)
Observe que si x > 0, y > 0, e igualamos g(·, ·) a 0, las CPO son equivalentes
a:
∂f ∂g ∂f ∂g
=λ ; =λ ; g(·, ·) = 0
∂x ∂x ∂y ∂y
y estas no son más que las condiciones de primer orden del método de
Lagrange.
82 Capítulo 2. Optimización estática
Ahora nos preguntamos: ¿cuáles son las condiciones que garantizan que
dentro de las soluciones a las condiciones de primer orden (CPO) siempre
están las soluciones a nuestro problema de optimización? La respuesta la
encontramos en el siguiente teorema:
Teorema 4. (KT=⇒CPO)
Sean f (·, ·) y g(·, ·) cuasicóncavas y diferenciables con continuidad en R2+ .
Si (x∗ , y ∗ ) resuelve el problema
Maximizar f (x, y)
sujeta a g(x, y) ≥ 0
x, y ≥ 0
entonces existe un λ ≤ 0 tal que (x∗ , y ∗ ) satisface las condiciones de primer
orden (CPO) siempre que se tenga alguna (y basta una) de las siguientes
condiciones:
i) La función g(·, ·) es convexa en R2+ .
ii) La función g(·, ·) es cóncava en R2+ y existe un (x̄, ȳ) ∈ R2+ tal que
g(x̄, ȳ) > 0.
Demostración.
Ver Arrow, Hurwicz & Uzawa (1958).
Ejemplo 12.
Tomemos el problema
Maximizar x+y
sujeta a x + y2 ≤ 1
2
x, y ≥ 0
y apliquemos el método de Kühn-Tucker.
Solución.
En este caso, f (x, y) = x + y, g(x, y) = 1 − x2 − y 2 . Puesto que estas
funciones son cuasicóncavas (como puede fácilmente verificarlo el lector) y
g(x, y) = 1−x2 −y 2 es cóncava en R2+ , además de que para (x̄, ȳ) = (0.5, 0.5)
se tiene g(x̄, ȳ) = 0.5 > 0, entonces, por el teorema 4, cualquier solución
del problema de optimización (si existe) está entre las soluciones de las
condiciones de primer orden:
i) 1 + λ(2x) ≤ 0; 1 + λ(2y) ≤ 0; 1 − x2 − y 2 ≥ 0
ii) x(1 + λ(2x)) = 0; y(1 + λ(2y)) = 0; λ(1 − x2 − y 2 ) = 0
Estudiamos cuatro casos:
2.5. Optimización con restricciones de desigualdad 83
1. Si x > 0, y > 0, entonces, de ii),
1 1
λ=− 6= 0; λ=− 6= 0
2x 2y
lo que implica x = y. Del hecho √
de que λ 6=
√
0, y de ii), tenemos que
x2 + y 2 = 1; y así, x∗ = y ∗ = 22 , λ∗ = − 22 .
1
2. Si x > 0, y = 0, entonces de ii), λ = − 6= 0 y así, x2 = 1 ó x = 1.
2x
Sin embargo, no se satisface i), pues 1 + λ(2 · 0) = 1 0.
3. Si x = 0, y > 0, entonces, de forma similar a lo analizado en el caso
anterior, obtenemos que no se satisface i), pues 1 + λ(2 · 0) = 1 0.
4. Si x = 0, y = 0, entonces de ii), debe ser λ = 0, y no se satisface i).
Por lo tanto, x = 0, y = 0 no es solución a las condiciones de primer
orden.
Dado que f (x, y) = x+y es continua, y el conjunto restricción es compacto,
por el teorema√ de Weierstrass f (·) alcanza un máximo. Vemos que, en 1.,
∗ ∗
f (x , y ) = 2; en 2., f (x , y ) = 1; y en 3., f (x∗ , y ∗ ) = 1. Por lo tanto,
∗ ∗
entre 1., 2., y 3. se llega a que el valor máximo de f (x, y) = x + y sujeta a
las restricciones g(x, y) = 1 − x2 + y 2 ≥ 0, x ≥ 0, y ≥ 0, se obtiene cuando
√ √
∗ ∗ 2 ∗ 2
x =y = , λ =−
2 2
√
y el valor máximo es 2.
Ejemplo 13. (Soluciones interiores, de nuevo)
Consideremos nuevamente el problema del ejemplo 11:
2
1 2 1
Minimizar x− + y−
2 2
sujeta a x+y ≤5
x, y ≥ 0
y resolvámoslo ahora por el método Kühn-Tucker.
Solución. 2 2
En este caso, f (x, y) = − x − 12 − y − 12 (para reducir el “problema de
minimizar” a uno de “maximizar”) y g(x, y) = 5 − x − y (recuérdese que la
84 Capítulo 2. Optimización estática
restricción debe aparecer en la forma g(x, y) ≥ 0). En este caso, la función
objetivo es cóncava y, por lo tanto, cuasicóncava. Además, la restricción es
lineal; es decir, convexa y cuasicóncava. Por el teorema 4, las condiciones
de primer orden (CPO) son necesarias para la solución de nuestro problema
que, por el teorema de Weierstrass, tiene solución (puesto que el conjunto
de restricción es compacto, y la función objetivo es continua). Las CPO son:
1 1
−2 x − −λ(−1) ≤ 0; −2 y − −λ(−1) ≤ 0; 5−x−y ≥ 0
2 2
(i)
x (1 − 2x + λ) = 0; y (1 − 2y + λ) = 0; λ(5 − x − y) = 0 (ii)
Estudiamos cuatro casos:
1. Si x > 0, y > 0, entonces, de (ii), λ = 2x − 1; y λ = 2y − 1; lo que
implica que x = y. Debemos considerar dos casos: λ = 0 y λ 6= 0.
a) Si λ = 0, tenemos que x∗ = y ∗ = 12 , λ∗ = 0.
b) Si λ 6= 0, de (ii), tenemos que x + y = 5; y así, x∗ = y ∗ = 52 , λ∗ = 4.
Esta solución no cumple la condición λ∗ ≤ 0 y, por lo tanto, no
puede considerarse.
2. Si x > 0, y = 0, entonces de (ii), λ = 2x−1 6= 0. Nuevamente, debemos
considerar dos casos: λ = 0 y λ 6= 0.
a) Si λ = 0, entonces x = 21 . Luego, x∗ = 21 , y ∗ = 0, λ∗ = 0. Pero
esta solución
no puede aceptarse ya que no satisface la condición
1
(i) −2 y − 2 − λ(−1) ≤ 0.
b) Si λ 6= 0, de ii), x = 5. Luego, x∗ = 5, y ∗ = 0, λ∗ = 9. Esta solución
tampoco puede aceptarse, ya que λ∗ > 0.
3. Si x = 0, y > 0, entonces, de forma similar a lo hecho en el segundo
caso, obtenemos que este tercer caso no proporciona soluciones.
4. Si x = 0, y = 0, entonces λ∗ = 0, pero esta solución no satisface (i).
2 2
De lo anterior, obtenemos que el valor mínimo de x − 12 − y − 12 sujeta
a las restricciones g(x, y) = 5 − x − y ≥ 0, x ≥ 0, y ≥ 0 se obtiene (figura
2.11) en
x∗ = 12 , y ∗ = 21 , λ∗ = 0
Aquí, λ∗ = 0 se debe a que la solución es interior a la restricción (not
binding) como entenderemos mejor más adelante.
2.5. Optimización con restricciones de desigualdad 85
Nota 3. (¿Falla el método Kühn-Tucker?)
A la luz del método Kühn-Tucker (teorema 4), ¿el lector podría decir por
qué en el ejemplo clásico presentado por Arrow y Enthoven (1961),
Maximizar xy
sujeta a (1 − x − y)3 ≥ 0
x≥0
y≥0
se tiene como solución x = y = 1/2, pero no existe ningún λ que satisfaga
las CPO en ese punto? N
Continuando con nuestra presentación del método Kühn-Tucker, ahora nos
podríamos preguntar: ¿cuándo es cierto el recíproco del teorema 4? Es de-
cir, si (x∗ , y ∗ ) es una solución de las (CPO), será entonces que también es
una solución al problema de optimización (KT)? Una respuesta está en el
próximo teorema, pero antes mostremos, precisamente, un ejemplo en el que
las CPO, por sí mismas, no son suficientes para resolver el problema KT.
El caso clásico, también presentado por Arrow y Enthoven en 1961, es:
Maximizar (x−1)3
sujeta a 2 − x ≥ 0
x≥0
cuyas soluciones de CPO arrojan x = 1, λ = 0, siendo la verdadera solución
x = 2. Veamos entonces qué condiciones sobre f (·, ·) y g(·, ·) se requieren
para que CPO ⇒ KT.
Teorema 5. (CPO =⇒ KT)
Sean f (·, ·) y g(·, ·) cuasicóncavas y diferenciables con continuidad en R2+ . Si
(x∗ , y ∗ , λ∗ ) satisface las (CPO) y se cumple alguna (y sólo una es suficiente)
de las siguientes condiciones:
∂f ∂f
a) <0 ó < 0;
∂x (x∗ ,y∗ ) ∂y (x∗ ,y∗ )
∂f
b) >0 y g(x, y) ≥ 0 para algún x > 0, y ≥ 0; o bien
∂x (x∗ ,y∗ )
∂f
>0 y g(x, y) ≥ 0 para algún x ≥ 0, y > 0;
∂y (x∗ ,y∗ )
86 Capítulo 2. Optimización estática
c) ∇f |(x∗ ,y∗ ) 6= 0 y f (x, y) es dos veces diferenciable en una vecindad de
(x∗ , y ∗ );
d) f (x, y) es cóncava;
entonces (x∗ , y ∗ ) es solución al problema de optimización (KT).
Demostración.
Ver Arrow & Enthoven (1961).
Ejemplo 14.
Resolvamos el problema
Maximizar 2x+3y
sujeta a x+y ≤1
x, y ≥ 0
Solución.
En este ejemplo, f (x, y) = 2x + 3y y g(x, y) = 1 − x − y. Dado que en
este caso se cumplen las condiciones de los teoremas 4 y 5 (ya que tanto la
restricción como la función objetivo son lineales), las condiciones de primer
orden nos entregan exactamente las soluciones. Estas son:
i) 2 + λ ≤ 0; 3 + λ ≤ 0; 1−x−y ≥0
ii) x(2 + λ) = 0; y(3 + λ) = 0; λ(1 − x − y) = 0
Analizamos cuatro casos:
1. Si x > 0, y > 0, entonces de ii), λ∗ = −3 y λ∗ = −2, lo cual es
imposible.
2. Si x > 0, y = 0, entonces de ii), λ∗ = −2 y x∗ = 1. Pero, de i), se tiene
que λ = −2 no satisface 3 + λ ≤ 0.
3. Si x = 0, y > 0, entonces de ii), λ∗ = −3 y y ∗ = 1 y estas satisfacen
todas las condiciones; por lo tanto, x∗ = 0, y ∗ = 1, λ∗ = −3 es una
solución al problema.
4. Si x = 0, y = 0, entonces, de ii), λ∗ = 0, pero esta no satisface i).
Vemos que el máximo se obtiene en
x∗ = 0, y ∗ = 1, λ∗ = −3
y es igual a 3 (figura 2.13a).
2.5. Optimización con restricciones de desigualdad 87
y y
1 • ȳ
•
solución solución
0
x ȳ x
0 1
a) b)
Figura 2.13. En el panel a), la solución gráfica del ejemplo 14.
En el panel b), la solución gráfica del ejemplo 15.
Ejemplo 15.
Resolvamos, para ȳ > 0 dado, el problema
Minimizar 4x2 + 2y 2
sujeta a x + y ≤ ȳ
x, y ≥ 0
Solución.
En este problema, f (x, y) = −4x2 − 2y 2 y g(x, y) = x + y − ȳ. Vemos que
la función objetivo es cóncava y, por lo tanto, cuasicóncava; y la función
restricción es lineal y, así, convexa y cuasicóncava (figura 2.13b). Es claro
que el problema satisface las condiciones de los teoremas 4 y 5 y, por lo tanto,
las soluciones del problema son, a su vez, las soluciones a las condiciones de
primer orden, las cuales son:
(i) −8x − λ ≤ 0; −4y − λ ≤ 0; x + y − ȳ = 0
(ii) x (−8x − λ) = 0; y (−4y − λ) = 0; λ(x + y − ȳ) = 0
Analizamos tres casos (ya que el caso x = y = 0 no podemos considerarlo,
puesto que x + y = ȳ > 0):
1. Si x > 0, y > 0, entonces, de (ii), λ = −8x 6= 0 y λ = −4y 6= 0; lo que
implica y = 2x y, de nuevo por (ii),
ȳ 2ȳ 8ȳ
x∗ = , y∗ = , λ∗ = −
3 3 3
lo cual satisface todas las condiciones; es decir, es una solución al
problema.
88 Capítulo 2. Optimización estática
2. Si x > 0, y = 0, entonces, de (ii), λ = −8x 6= 0 y de la restricción,
x = ȳ, y = 0, λ = −8ȳ. Sin embargo, esto no satisface la condición
−4y − λ ≤ 0, y por lo tanto, no es solución.
3. Si x = 0, y > 0, entonces, de (ii), λ = −4y 6= 0 y de la restricción,
x = 0 y y = ȳ, λ = −4ȳ; lo cual no satisface la condición −8x − λ ≤ 0,
y por lo tanto, no es solución.
Por el análisis anterior, tenemos que la única solución es
x∗ = ȳ/3, y ∗ = 2ȳ/3, λ∗ = −8ȳ/3
Ejemplo 16.
Resolvamos el problema
Minimizar 2x+3y
sujeta a x+y ≥1
x, y ≥ 0
Solución.
En este problema, f (x, y) = −2x − 3y y g(x, y) = x + y − 1. Notemos
que estas funciones cumplen las condiciones del teorema 5, aunque no las
del teorema 4 (¿por qué?); por lo tanto, las soluciones de las CPO son las
soluciones al problema de maximización. Las condiciones de primer orden
son:
i) −2 − λ ≤ 0; −3 − λ ≤ 0; x+y−1≥0
ii) x(−2 − λ) = 0; y(−3 − λ) = 0; λ(x + y − 1) = 0
y y
1 1
solución
0 • 0 •
x x
0 1 solución 0 1
a) b)
Figura 2.14. En el panel a) la solución gráfica del ejemplo 16.
En el panel b) la solución gráfica del ejemplo 17.
2.5. Optimización con restricciones de desigualdad 89
Analizamos cuatro casos:
1. Si x > 0, y > 0, entonces, de ii), λ = −2 y λ = −3, lo cual es imposible.
2. Si x > 0, y = 0, entonces, de ii), λ = −2 y de la restricción x∗ = 1.
Por lo tanto, x∗ = 1, y ∗ = 0, λ∗ = −2.
3. Si x = 0, y > 0, entonces, de ii), λ = −3 y de la restricción y ∗ = 1.
Por lo tanto, x∗ = 0, y ∗ = 1, λ∗ = −3, lo cual no cumple i).
4. Si x = 0, y = 0, entonces no se cumple i).
Por tanto, el mínimo del problema se obtiene en
x∗ = 1, y ∗ = 0, λ∗ = −2
y es igual a 2 (figura 2.14a).
Ejemplo 17.
Resolvamos para w1 , w2 > 0:
Minimizar w1 x + w2 y
sujeta a x − y2 ≥ 1
x, y ≥ 0
Solución.
En este ejemplo, f (x, y) = −(w1 x + w2 y), g(x, y) = x − y 2 − 1. La función
objetivo es lineal y, así, cóncava; además, la restricción es una función cón-
cava, y para (x̄, ȳ) = (2, 0.5) se tiene que g(x̄, ȳ) = 0.75 > 0. Entonces,
ambas funciones cumplen las condiciones de los teoremas 1 y 5 y, por lo
tanto, existe un máximo y las soluciones a las CPO son, precisamente, las
soluciones del problema. Las condiciones de primer orden son, en este caso:
i) −w1 − λ ≤ 0; −w2 + 2λy ≤ 0; x − y2 − 1 ≥ 0
ii) x(−w1 − λ) = 0; y(2λy − w2 ) = 0; λ(x − y 2 − 1) = 0
Analizamos cuatro casos:
w2
1. Si x > 0, y > 0 entonces, de ii), λ = −w1 6= 0 y λ = 6= 0, lo que
2y
w2
implica y = − , y esta no satisface y ∗ ≥ 0.
2w1
2. Si x > 0, y = 0, entonces, de ii), λ = −w1 6= 0, y nuevamente de ii),
x∗ = 1, y ∗ = 0, λ∗ = −w1 .
90 Capítulo 2. Optimización estática
w2
3. Si x = 0, y > 0, entonces, de ii), λ = 6= 0, y así, de ii), y 2 = −1, lo
2y
cual no tiene solución en R.
4. Si x = 0, y = 0, entonces, de ii), λ = 0, pero esta no satisface i).
El óptimo se encuentra en x∗ = 1, y ∗ = 0, λ∗ = −w1 y es w1 (figura 2.14b).
Ejemplo 18.
Resolvamos el problema
Minimizar 3x + 2y
sujeta a xy ≥ 5
x, y ≥ 0
Solución.
En este problema, f (x, y) = −3x − 2y y g(x, y) = xy − 5, y estas no cum-
plen las condiciones del teorema 4, ya que la restricción no es cóncava ni
convexa, aunque, como se puede verificar fácilmente, ambas funciones son
cuasicóncavas. Por lo tanto, si alguna solución de las CPO satisface alguna
de las condiciones adicionales del teorema 5, será solución al problema. Las
condiciones de primer orden son
i) −3 − λy ≤ 0; −2 − λx ≤ 0; xy − 5 ≥ 0
ii) x(−3 − λy) = 0; y(−2 − λx) = 0; λ(xy − 5) = 0
Aquí sólo hay un caso de estudio: x > 0, y > 0. De ii), λ = − x2 6= 0 y
λ = − y3 6= 0; lo que implica x = 23 y. Entonces, de ii),
q q
x∗ = 10
3 , y∗ = 15
2
q
∂f 15
Como ∂x (x∗ ,y ∗ ) = 2 > 0, y para (x̄, ȳ) = (5, 5) se tiene que g(x̄, ȳ) =
20 > 0, entonces (x∗ , y ∗ ) es solución al problema (figura 2.15).
y
solución
•
x
Figura 2.15. Solución gráfica del ejemplo 18.
2.5. Optimización con restricciones de desigualdad 91
Ejemplo 19.
Resolvamos el problema:
Minimizar 7 − y + x2
sujeta a x+y ≤5
x, y ≥ 0
Solución.
En este problema, vamos a maximizar la función f (x, y) = −(7 − y + x2 ) con
restricción g(x, y) = 5 − x − y. Dado que la función objetivo es continua y
el conjunto de restricción es compacto, por el teorema 1 la función objetivo
alcanza un máximo global.
y•
solución
x
Figura 2.16. Solución gráfica del ejemplo 19.
Además, el problema satisface las condiciones de los teoremas 4 y 5; por lo
tanto, las soluciones de las CPO son las soluciones al problema de optimi-
zación. Estas condiciones de primer orden son:
i) −2x + λ ≤ 0; 1 + λ ≤ 0; 5−x−y ≥0
ii) x(−2x + λ) = 0; y(1 + λ) = 0; λ(5 − x − y) = 0
Analizamos cuatro casos:
1. Si x > 0, y > 0 entonces, de ii), λ = 2x 6= 0 y λ = −1, y esto implica
que x = − 12 , lo cual no satisface las condiciones.
2. Si x > 0, y = 0 entonces, de ii), λ = 2x 6= 0; y así, x = 5, y = 0,
λ = 10, lo cual no satisface λ ≤ 0, y, por lo tanto, no es solución.
3. Si x = 0, y > 0 entonces, de ii), λ = −1, y así, x = 0, y = 5, lo
cual satisface todas las condiciones, y, por consiguiente, es solución a
nuestro problema.
92 Capítulo 2. Optimización estática
4. Si x = 0, y = 0 entonces, de ii), λ = 0, lo cual no satisface 1 + λ ≤ 0,
así que no es solución.
Del análisis concluimos que
x∗ = 0, y∗ = 5
es la solución óptima al problema, y el mínimo de la función objetivo es
igual a 2 (figura 2.16).
Ejemplo 20.
Resolvamos el problema
Maximizar x(y + 4)
2
sujeta a x +y ≤8
x, y ≥ 0
Solución.
En este problema, f (x, y) = x(y + 4) y g(x, y) = 8 − x2 − y. Vemos que la
función objetivo es continua y el conjunto de restricción es compacto; por lo
tanto, por el teorema de Weierstrass, existe un máximo global. Además, se
cumplen las condiciones del teorema 4 (ambas funciones son cuasicóncavas
y la restricción es convexa), de tal forma que entre las condiciones de primer
orden está la solución al problema. Las CPO son
i) y + 4 + 2λx ≤ 0; x + λ ≤ 0; 8 − x2 − y ≥ 0
ii) x(y + 4 + 2λx) = 0; y(x + λ) = 0; λ(8 − x2 − y) = 0
Analizamos cuatro casos:
1. Si x > 0, y > 0 entonces, de ii), λ = − y+4
2x 6= 0 y λ = −x 6= 0, lo que
implica x2 = y+4
2 , y de ii), x2 = 8 − y. Así, x∗ = 2, y ∗ = 4, λ∗ = −2.
2. Si x > 0, y = 0 entonces, de ii), λ = − y+4
2x 6= 0, y nuevamente de la
√
condición ii), x∗ = 2 2, y ∗ = 0, λ∗ = − √12 , que no satisfacen i).
3. Si x = 0, y > 0 entonces, de ii), λ = −x = 0, y así de i), y ≤ −4, lo
que no satisface la condición y ≥ 0.
4. Si x = 0, y = 0 entonces, de ii), λ∗ = 0; pero esto no satisface la
condición i) y + 4 + 2λx ≤ 0.
Vemos que 1. es la única solución a las CPO y, por tanto, el óptimo está en
x∗ = 2, y ∗ = 4, λ∗ = −2
y el valor máximo es 16 (figura 2.17).
2.5. Optimización con restricciones de desigualdad 93
y
solución
•
Figura 2.17. Solución gráfica del ejemplo 20.
2.5.2. El teorema de la envolvente
Hasta ahora parecería que los multiplicadores de Lagrange (λ) son sólo pa-
rámetros convenientes de ajuste para la solución del problema tipo Lagrange
Maximizar f (x,y)
sujeta a g(x, y) = 0 (L)
x, y > 0
Sin embargo, esto no es del todo cierto. Los valores de λ nos dan infor-
mación muy valiosa sobre el óptimo al cual están asociados: miden cierta
sensibilidad del valor óptimo de la función objetivo f (x, y) con respecto a
ciertas variaciones de la función g(x, y). Para verlo, escribamos primero (y
de nuevo) las condiciones de primer orden para un óptimo (x∗ , y ∗ , λ∗ ) (con
x∗ , y ∗ > 0) del problema (L):
∂f ∂g
− λ∗ =0
∂x (x∗ ,y∗ ) ∂x (x∗ ,y∗ )
∂f ∂g
− λ∗ =0 (*)
∂y (x∗ ,y∗ ) ∂y (x∗ ,y∗ )
g(x, y) = 0
Ahora: si, en vez, nuestro problema de Lagrange fuera:
Maximizar f (x,y)
sujeta a g(x, y) = a a 6= 0 (L’)
x, y > 0
94 Capítulo 2. Optimización estática
una pregunta legítima es: ¿cómo varía la nueva solución con respecto a la so-
lución original (x∗ , y ∗ )? Para responder esto, supongamos que x∗ (a), y ∗ (a)
son las nuevas soluciones. Entonces, sea
L(x(a), y(a), λ) ≡ f (x(a), y(a)) − λ [g(x(a), y(a)) − a] (**)
la función lagrangiana evaluada en funciones diferenciables de la forma
x(a), y(a) , donde x(0) = x∗ y y(0) = y ∗ . Derivando con respecto a a,
obtenemos
∂L ∂f ∂x ∂f ∂y ∂g ∂x ∂g ∂y
= + −λ −λ +λ
∂a ∂x ∂a ∂y ∂a ∂x ∂a ∂y ∂a
Evaluando en (x∗ , y ∗ ), obtenemos que
!
∂L ∂f ∂g ∂x
= −λ +
∂a (x∗ ,y∗ )
∂x (x∗ ,y∗ ) ∂x (x∗ ,y∗ ) ∂a
!
∂f ∂g ∂y
−λ + λ
∂y (x∗ ,y∗ ) ∂y (x∗ ,y∗ ) ∂a
Pero, de (*), los dos primeros términos del lado derecho de la última igualdad
se anulan, y esto arroja el resultado:
∂L
=λ
∂a (x∗ ,y∗ )
Y de la definición de L(·) en (**), y del hecho de que x∗ (a), y ∗ (a) es la
solución al problema (L’), es claro que
∂L ∂f
=
∂a (x∗ (a),y∗ (a)) ∂a (x∗ (a),y∗ (a))
Por lo tanto,
∂f
=λ
∂a (x∗ (a),y∗ (a))
Así, el multiplicador λ es la tasa de cambio del valor máximo de la función
objetivo, con respecto a un cambio en el parámetro a de la restricción. Esta
ecuación de sensibilidad del problema del lagrangiano es una versión del que
se conoce también como teorema de la envolvente (ver teorema 6).
La importancia de la ecuación de sensibilidad se ve claramente en el caso
en que λ = 0. Es el caso del ejemplo 13, donde la solución al problema es
2.5. Optimización con restricciones de desigualdad 95
x∗ = y ∗ = 1/2 y λ∗ = 0. Aquí, esta nulidad del multiplicador λ significa que
pequeñas variaciones de la función g(x, y) = 5 − x − y no arrojará ningún
cambio en el valor del óptimo f ( 21 , 12 ) = 0. Así, a mayor valor absoluto de λ,
mayor será el cambio de la valoración en el óptimo al cual λ está asociado.
Nota 4.
Quizás no sobre aclarar que en el problema de Kühn-Tucker, la ecuación de
sensibilidad es exactamente igual y la prueba es similar. N
Pero aunque al anterior resultado se le puede considerar un “teorema de la
envolvente”, a continuación presentamos su versión más conocida y general,
e invitamos al lector a probarlo (no es difícil) e interpretarlo adecuadamente
(figura 2.18).
Sean f (x, y, a) y g(x, y, a) funciones diferenciables con continuidad sobre
R3 , donde (x, y) ∈ R2 , a ∈ R, y consideremos el problema de máximo de
Kühn-Tucker
Maximizar f (x, y, a)
sujeta a g(x, y, a) ≥ 0
x, y ≥ 0
Definamos la función de valor máximo como F (a) = f (x(a), y(a), a) donde
el punto (x(a), y(a)) resuelve el problema de optimización para un valor de
a particular. Y entonces tenemos el resultado:
L(x(a), y(a), λ)
a
Figura 2.18. El teorema de la envolvente.
Teorema 6. (Teorema de la envolvente)
∂F (a) ∂L(x, y, λ)
=
∂a ∂a (x(a),y(a))
96 Capítulo 2. Optimización estática
donde L(x(a), y(a), λ) es la función lagrangiana
L(x(a), y(a), λ) ≡ f (x(a), y(a), a) − λ [g(x(a), y(a), a)] (***)
Una aplicación típica del teorema de la envolvente es la siguiente: puesto
que para a, b, α, Q > 0 cantidades conocidas, el problema de optimización
Minimizar ax + by
sujeta a xy = Qα
x, y > 0
tiene como solución
1/2 1/2
aQα bQα
x∗ = , y∗ =
b a
entonces, si definimos C(a, b, Q) = ax∗ + by ∗ , se tendrá que C(a, b, Q) =
2(ab)1/2 Qα/2 , y así, por el teorema de la envolvente (teorema 6), llegaremos
a que
∂C α
= α(ab)1/2 Q 2 −1
∂Q
Es decir, la importancia del teorema de la envolvente consiste en que permite
realizar operaciones de derivación directamente sobre las soluciones a los
problemas de optimización, sin tener que regresar a este, de nuevo, ante
cualquier cambio en los parámetros fijos.
Ejercicios 4
1. Resuelva analíticamente (utilizando los teoremas apropiados y encon-
trando las soluciones explícitamente) e ilustre gráficamente los siguien-
tes problemas:
a) Minimizar (x − 1)2 + (y − 2)2 b) Maximizar x2 y 2
sujeta a y ≥ x2 + 1 sujeta a 3x + 4y ≤ 12
x, y ≥ 0 x, y ≥ 0
c) Maximizar yex d) Minimizar 5x + 2y
sujeta a 2x + 8y ≤ 50 sujeta a 7x + 9y ≥ 15
x, y ≥ 0 x, y ≥ 0
2.6. Optimización lineal: el método simplex 97
1 1 1
e) Minimizar 3x 3 + 5y 3 f) Maximizar 3 ln x + y 2
sujeta a x+y =2 sujeta a 2x + 7y ≤ 90
x, y ≥ 0 x, y ≥ 0
2. De todos los óptimos calculados en este capítulo 2, ¿cuál es (o cuáles
son) más sensibles a cambios en la respectiva restricción? [Sugerencia:
aplicar el teorema de la envolvente].
2.6. Optimización lineal: el método simplex
La optimización lineal (también conocida como programación lineal)7 con-
siste en optimizar una función lineal, restringida por funciones lineales. Se
afirma que nació durante la Segunda Guerra Mundial, y que, después de
esta, crecería rápidamente debido a los esfuerzos conjuntos de matemáticos
y estadísticos por resolver problemas concretos del ejército norteamericano.
No obstante, el primer resultado general conocido sobre programación lineal
apareció en la Unión Soviética con la tesis de maestría de William Karush de
1939, aunque el Premio Nobel de Economía (1975) Leonid V. Kantorovich
[1912-1986], también en 1939, había ya propuesto modelos de programación
lineal para estudios de planeación de producción y un algoritmo de solución.
Pero los trabajos de Karush y Kantorovich fueron ignorados en la Unión So-
viética de entonces, y así permanecieron hasta la creación en 1947 (Dantzig,
1949) del muy útil método simplex de George B. Dantzig [1914-2005], que
fuera inspirado en el análisis insumo-producto de Wassily Leontief (1936)
–ver volumen I (Álgebra lineal y cálculo en varias variables)–.
Dantzig, a quien se le considera el “padre de la programación lineal” junto
con John von Neumann y el mismo Kantorovich, trabajó durante y después
de la Segunda Guerra Mundial en la Fuerza Aérea de los Estados Unidos.
Su objetivo era crear modelos matemáticos prácticos de planeación y pro-
gramación de asuntos de asignación en las tropas (de allí el término militar
“programación” que se le da a esta área de la optimización matemática).
De hecho, el origen mismo del método simplex para resolver problemas de
optimización lineal surgió en la conformación de una dieta apropiada para
estas tropas. Era un problema de 77 variables que requirió 120 días-hombre
para resolverlo manualmente, utilizando calculadoras de escritorio: hace un
7
Término acuñado por Tjalling Koopmans en conversación con Dantzig en 1947 (Dan-
tzig, 1949).
98 Capítulo 2. Optimización estática
poco más de 50 años no había los suficientes desarrollos para resolver este
problema en segundos, como lo hacemos hoy.
En la década de 1960, con el advenimiento de hardware, software y algo-
ritmos, muchos problemas de programación lineal pudieron ser resueltos
mediante el método simplex en los primeros computadores conocidos en ese
entonces. Durante cierto tiempo, Dantzig y sus colegas estudiaron numero-
sas situaciones tomadas de la experiencia de la Segunda Guerra Mundial,
y mostraron que muchas de ellas podían (con cierta aproximación) conver-
tirse al formato que hoy conocemos de la programación lineal. Dantzig y
su grupo (particularmente, Jack Laderman) continuaron probando su mé-
todo simplex, y encontraban que, a pesar de las dudas iniciales, funcionaba
realmente bien.
Así, acompañándose del desarrollo de los computadores, Dantzig comenzó
a soñar con un “laboratorio de optimización de sistemas”. Problemas de
planeación urbana, sistemas de transporte, diseño de mecanismos óptimos
en ecología, biología, medicina, economía, etc., comenzaron a tener, por
primera vez en la historia de las matemáticas, una posibilidad de tratamiento
analítico unificado. Desde la década de 1960, el método simplex ha venido
siendo explorado exhaustivamente por numerosos investigadores, y estos
cambios han transformado notablemente el que es, quizás, el más socorrido
método en la teoría de la optimización matemática.
2.6.1. El problema y su solución gráfica
El problema central de la optimización lineal es escoger valores no-negativos
de ciertas variables que maximicen o minimicen una función lineal (dada)
sujeta a un conjunto (dado) de restricciones lineales. Es decir, el problema
canónico de programación lineal (PL) es resolver
Maximizar c1 x1 + c2 x2 + · · · + cn xn
sujeta a a11 x1 + a12 x2 + · · · + a1n xn ≤ b1 (PL)
a21 x1 + a22 x2 + · · · + a2n xn ≤ b2
.. .. .. .. .. ..
. . . . . .
am1 x1 + am2 x2 + · · · + amn xn ≤ bm
donde x1 ≥ 0, x2 ≥ 0, . . . , xn ≥ 0; y c1 , ..., cn ; a11 , ..., amn ; b1 , b2 , ..., bm son
2.6. Optimización lineal: el método simplex 99
constantes. En forma matricial, esto se puede escribir así:
Maximizar cT x
sujeta a Ax ≤ b
x≥0
donde c = (ci )ni=1 , x = (xi )ni=1 , b = (bi )m
i=1 , A = (aij )i=1,...,m . Aquí la
j=1,...,n
condición x ≥ 0 significa que xi ≥ 0 para todo i = 1, . . . , n. De la misma
manera para Ax ≤ b. Si x ∈ Rn satisface la restricción Ax ≤ b, se dice que
x es factible.
Claramente este es un caso particular del problema de optimización de
Kühn-Tucker, en el que las funciones objetivo y las restricciones son, todas,
lineales. Sin embargo, aquí estudiaremos un algoritmo de solución (método
simplex), diferente del método de Kühn-Tucker, que se adapta mejor a este
tipo particular de problemas.8
Ejemplo 21. (El problema de la dieta)
El problema de la dieta –originado en Stigler (1945) y desarrollado por
Dantzig y Laderman, en 1947 (ver Dorfman et al, 1958)– es un clásico en
la literatura de la optimización lineal, porque fue el primer problema eco-
nómico resuelto mediante este método. Al igual que muchos otros modelos
matemáticos, este comenzó siendo sólo un ejemplo y un campo de prue-
bas del método de optimización lineal, pero terminó teniendo inesperadas e
importantes aplicaciones prácticas.
El hecho central del modelo es que una dieta adecuada debería satisfacer
ciertas especificaciones (calorías, vitaminas, etc.) y que esta calidad de la
dieta se mide sumando las calidades de estas componentes. Un ejemplo
simple es este: Supongamos que sólo tenemos tres elementos nutricionales:
1 (calorías), 2 (vitaminas), 3 (proteínas), con estándares mínimos diarios
de 700, 400 y 300 unidades, respectivamente. Asumamos que hay dos clases
de alimentos x1 , x2 , y que hay una cantidad constante de cada elemento
nutricional en cada unidad de cualquiera de los alimentos. Esta hipótesis
hace que el problema se pueda analizar con el instrumento de la optimización
lineal, pues, en definitiva, la información se puede resumir en una tabla
(matriz) como la de abajo, donde aij (i = 1, 2, 3; j = 1, 2) es el número de
unidades del elemento nutricional i que está contenido en el alimento j. Allí
8
Debe advertirse, sin embargo, que la historia del pensamiento matemático es al revés:
Kühn y Tucker se inspiraron en la programación lineal de Dantzig para desarrollar su
método dirigido a problemas de optimización no-lineal.
100 Capítulo 2. Optimización estática
asumimos que a11 = 1, a21 = 2, a31 = 1, y que a12 = 3, a22 = 1, a32 = 1
(de aquí, podemos decir que el alimento 2 tiene tres veces más calorías que
el alimento 1, la mitad de las vitaminas y la misma cantidad de proteínas).
Alimentos Estándares
x1 x2 mínimos
1 (calorías) a11 a12 b1 = 700
2 (vitaminas) a21 a22 b2 = 400
3 (proteínas) a31 a32 b3 = 200
Para completar el problema, sean p1 , p2 los precios (de mercado) por unidad
de los alimentos. Si x, y son las cantidades a consumir (en las unidades
adecuadas) de cada uno de los alimentos, entonces esta dieta cuesta
z = p1 x + p 2 y
Asumamos p1 = 2 y p2 = 12. La pregunta que buscamos contestar es: ¿cómo
conformamos una dieta que, cumpliendo con los estándares mínimos, resulte
lo menos costosa posible? Es decir, debemos resolver, para x, y:
Minimizar 2x+12y
sujeta a x + 3y ≥ 700
2x + y ≥ 400
x + y ≥ 200
x, y ≥ 0
Para atacar este problema podemos, primero, recurrir al método gráfico:
De la figura 2.19, y con un poco de álgebra elemental, obtenemos que la
solución es x∗ = 700 unidades del alimento 1, y ∗ = 0 unidades del alimento
2, y el costo de la dieta que satisface los estándares mínimos es 1400.
Pero también podemos encontrar la solución utilizando el método de Kühn-
Tucker. Sabemos que el problema tiene solución, y que esta se encuentra
entre las CPO, ya que se cumplen las condiciones del teorema 5. Las CPO
son:
i) −2 − λ1 − 2λ2 − λ3 ≤ 0 ; −12 − 3λ1 − λ2 − λ3 ≤ 0 ; x + 3y ≥ 700
2x + y ≥ 400 ; x + y ≥ 200
2.6. Optimización lineal: el método simplex 101
ii) x(−2 − λ1 − 2λ2 − λ3 ) = 0 ; y(−12 − 3λ1 − λ2 − λ3 ) = 0
λ1 (x+ 3y −700) = 0 ; λ2 (2x+y −400) = 0 ; λ3 (x+y −200) = 0
Dado que x y y no pueden ser cero simultáneamente, debemos analizar
únicamente tres casos:
1. Si x > 0, y > 0 entonces, de II), λ1 + 2λ2 + λ3 = −2 y 3λ1 + λ2 + λ3 =
−12. Esto nos conduce a tres situaciones:
a) Si λ1 = 0 entonces λ2 = 10 y λ3 = −22, y nuevamente por II),
x∗ = 200, y ∗ = 0, lo cual no satisface y > 0 ni λ2 ≤ 0.
b) Si λ2 = 0 entonces λ1 = −5 y λ3 = 3, que no satisface λ3 ≤ 0.
c) Si λ3 = 0 entonces λ1 = − 22 6
5 y λ2 = 5 , lo cual no satisface λ2 ≤ 0.
2. Si x > 0, y = 0 entonces, de II), λ1 + 2λ2 + λ3 = −2. Y aquí tenemos,
nuevamente, tres casos:
a) Si λ1 = λ2 = 0, entonces λ3 = −2 y de II), x∗ = 200, que no
satisface I).
b) Si λ1 = λ3 = 0, entonces λ2 = −1, y de II), x∗ = 200, y esto no
satisface I).
c) Si λ2 = λ3 = 0, entonces λ1 = −2 y, de II), x∗ = 700, y ∗ = 0. (esta,
sabemos, es la solución. ¿Puede decir el lector por qué?)
3. Si x = 0, y > 0, entonces de II), 3λ1 + λ2 + λ3 = −12. Tenemos, de
nuevo, tres casos:
a) Si λ1 = λ2 = 0, entonces λ3 = −12 y de II), y ∗ = 200, que no
satisface I).
b) Si λ1 = λ3 = 0, entonces λ2 = −12, lo que no satisface I).
c) Si λ2 = λ3 = 0, entonces λ1 = −4, que no satisface I).
Por lo tanto, la solución es x∗ = 700, y ∗ = 0, y el costo de la dieta es 1400,
tal y como lo habíamos calculado (más simplemente) utilizando la figura
2.19.
102 Capítulo 2. Optimización estática
y
800
600
400
200
solución
0 •
x
0 200 400 600 800
Figura 2.19. Solución gráfica del problema de la dieta.
Ejemplo 22. [El problema del transporte (Dantzig, 1949)]
Otro de los problemas clásicos de programación lineal es el problema del
transporte que consiste en lo siguiente: una compañía necesita enviar cierto
producto desde m lugares a n destinos. Supongamos que ai unidades del
producto están disponibles en el origen i-ésimo, con i = 1, . . . , m; y se
requieren bj unidades en el destino j, j = 1, . . . , n. Además, supongamos
que la cantidad total disponible en los distintos orígenes iguala la cantidad
total requerida en los distintos destinos; es decir,
m
X n
X
ai = bj
i=1 j=1
Si el costo de enviar una unidad de producto desde el origen i hasta el
destino j es cij , ¿cuántas unidades del producto deberían ser despachadas
entre cada par origen-destino, de tal manera que se minimice el costo total
de transporte? Definiendo xij como el número de unidades del producto que
se despachan desde el origen i al destino j, podemos formular este problema
así:
m X
X n
Minimizar cij xij
i=1 j=1
Xn
sujeta a xij = ai
j=1
Xm
xij = bj
i=1
xij ≥ 0
2.6. Optimización lineal: el método simplex 103
donde i = 1, . . . , n; j = 1, . . . , m. Ahora: para simplificar, supongamos que
m = n = 2 y que las unidades disponibles en los orígenes 1 y 2 son a1 = 5 y
a2 = 2 respectivamente, mientras que las unidades requeridas en los destinos
1 y 2 son b1 = 4 y b2 = 3. Por último, supongamos que los costos de
transporte vienen determinados por la siguiente tabla:
Destino 1 Destino 2
Origen 1 10 20
Origen 2 20 40
Todo esto nos lleva a que nuestro problema es:
Minimizar 10x11 + 20x12 + 20x21 + 40x22
sujeta a x11 + x12 = 5
x21 + x22 = 2
x11 + x21 = 4
x12 + x22 = 3
xij ≥ 0
Aquí, infortunadamente, no podemos solucionar gráficamente, pues el pro-
blema tiene más de dos variables. Pero dado que existen cuatro incógnitas
y cuatro restricciones, la solución al problema debe estar entre las solu-
ciones al sistema de ecuaciones lineales; por lo tanto, podemos utilizar el
método gaussiano de solución –volumen I (Álgebra lineal y cálculo en varias
variables)– para encontrar (si es posible) la solución a nuestro problema.
Tratemos primero de solucionar el sistema, para lo cual restamos la terce-
ra restricción de la primera y la cuarta de la segunda, de tal forma que
obtenemos
x12 − x21 = 1
−x12 + x21 = −1
x11 + x21 = 4
x12 + x22 = 3
Vemos que la primera y la segunda igualdad son linealmente dependientes;
por lo tanto, el sistema tiene la siguiente forma:
x11 = 4 − x21
x12 = 1 + x21
x22 = 2 − x21
104 Capítulo 2. Optimización estática
Para que la solución del sistema sea factible, es decir, que cumpla todas las
restricciones del problema, debe ser 0 ≤ x21 ≤ 2. Por otro lado, los costos de
transporte tienen el orden c11 < c12 = c21 < c22 , de tal forma que lo menos
económico es enviar desde el origen 2 al destino 2, y lo más económico es
enviar del origen 1 al destino 1. Por lo tanto, el plan óptimo debe enviar lo
menos posible del origen 2 al destino 2, y esto se logra tomando x21 = 2. De
esta forma, x11 = 2, x12 = 3, x22 = 0. Vemos que este plan es factible y su
costo es 120, que, a su vez, es el mínimo costo de envío de productos entre
los orígenes y destinos.
2.6.2. El algoritmo simplex
Aunque el método gráfico puede ser útil en problemas en dos dimensiones, no
lo es para problemas de orden superior. También vemos que el método Kühn-
Tucker es demasiado engorroso en estos casos específicos. Por tal razón,
debemos recurrir a otros métodos de solución. Una forma alternativa de
atacar el problema es el ya comentado método simplex desarrollado por
Dantzig. Para aplicar este método, lo primero que se hace es convertir las
desigualdades de las restricciones del problema (PL) en ecuaciones. Para
ello, se utilizan ciertas variables s = (s1 , . . . , sm ) ≥ 0, llamadas variables de
holgura, donde cada si se utiliza para asegurar que la i-ésima restricción se
cumpla estrictamente. Así, nuestro problema (PL) se convierte en
Maximizar c1 x1 + c2 x2 + · · · + cn xn
sujeta a a11 x1 + a12 x2 + · · · + a1n xn + s1 = b1
a21 x1 + a22 x2 + · · · + a2n xn + s2 = b2
.. .. .. .. .. ..
. . . . . .
am1 x1 + am2 x2 + · · · + amn xn + sm = bm
x1 ≥ 0, x2 ≥ 0, . . . , xn ≥ 0
s1 ≥ 0, s2 ≥ 0, . . . , sm ≥ 0
o, en forma matricial,
Maximizar cT x
sujeta a Ax + Is = b
x≥0
s≥0
donde I = Im es la matriz identidad de tamaño m × m, y donde, sin pérdida
de generalidad, suponemos b ≥ 0.
2.6. Optimización lineal: el método simplex 105
Ejemplo 23.
a) El problema de programación lineal
Maximizar 3x+2y
sujeta a x + 2y ≤ 5
3x + 4y ≤ 8
2x + y ≤ 4
x, y ≥ 0
se puede escribir, introduciendo las variables de holgura s1 , s2 , s3 , de esta
forma:
Maximizar 3x+2y
sujeta a x + 2y + s1 = 5
3x + 4y + s2 = 8
2x + y + s3 = 4
x, y ≥ 0
s1 ≥ 0, s2 ≥ 0, s3 ≥ 0
b) De forma similar, el problema
Maximizar 3x + 7y+10z
sujeta a 4x + y + 2z ≤ 3
7x + 3y + z ≤ 4
x + 5y + 4z ≤ 6
x, y ≥ 0
z≥0
lo podemos escribir como:
Maximizar 3x + 7y + 10z
sujeta a 4x + y + 2z + s1 = 3
7x + 3y + z + s2 = 4
x + 5y + 4z + s3 = 6
x, y ≥ 0
z≥0
s1 ≥ 0, s2 ≥ 0, s3 ≥ 0
introduciendo las variables de holgura s1 , s2 , s3 .
106 Capítulo 2. Optimización estática
Definición 3. (Variables básicas y no-básicas)
Supongamos un sistema (PL) con restricciones de m ecuaciones lineales
con n variables, x1 , . . . , xn , donde n > m, y que, arbitrariamente, podemos
elegir n − m variables xm+1 , xm+2 , . . . , xn , de tal forma que las restantes
m variables x1 , . . . , xm se puedan expresar en términos de ellas. Entonces
a x1 , . . . , xm las llamaremos variables básicas y a xm+1 , xm+2 , . . . , xn las
llamaremos variables no-básicas.
Ejemplo 24.
a) En el problema
Maximizar 3x+2y
sujeta a x + 2y + s1 = 5
3x + 4y + s2 = 8
2x + y + s3 = 4
x, y ≥ 0
s1 ≥ 0, s2 ≥ 0, s3 ≥ 0
tres variables básicas en el sistema de restricciones son las variables de
holgura s1 , s2 , s3 , ya que podemos expresarlas como
s1 = 5 − x − 2y
s2 = 8 − 3x − 4y
s3 = 4 − 2x − y
b) De manera similar, en el problema
Maximizar 3x + 7y + 10z
sujeta a 4x + y + 2z + s1 = 3
7x + 3y + z + s2 = 4
x + 5y + 4z + s3 = 6
x, y ≥ 0
z≥0
s1 ≥ 0, s2 ≥ 0, s3 ≥ 0
también tres variables básicas en el sistema de restricciones son las va-
riables de holgura s1 , s2 , s3 , ya que podemos expresarlas como
s1 = 3 − 4x − y − 2z
s2 = 4 − 7x − 3y − z
s3 = 6 − x − 5y − 4z N
2.6. Optimización lineal: el método simplex 107
Ahora que hemos convertido el problema (PL) en un problema con restric-
ciones de igualdad, podemos reescribirlo como un sistema de ecuaciones de
la siguiente forma:
a11 x1 + a12 x2 + · · · + a1n xn + s1 = b1
a21 x1 + a22 x2 + · · · + a2n xn + s2 = b2
.. .. .. .. ..
. . . . .
am1 x1 + am2 x2 + · · · + amn xn + sm = bm
c1 x1 + c2 x2 + · · · + cn xn + 0s1 + · · · + 0sm = f
o, en conveniente forma matricial,
Ax + Is = b
c x + 0T s = f
T
donde f representa el valor de la función objetivo. Si pensamos en el vector
de variables como (x, s) podemos representar este sistema por medio de la
tabla (o matriz) simplex siguiente. A los elementos de la última fila de esta
matriz que son diferentes de f , se les conoce como indicadores.
a11 a12 ··· a1n 1 0 ··· 0 b1
a21 a22 ··· a2n 0 1 ··· 0 b2
.. .. .. .. .. .. .. .. ..
. . . . . . . . .
am1 am2 · · · amn 0 0 · · · 1 bm
c1 c2 ··· cn 0 0 ··· 0 f
o
A I b
c 0 f
Ejemplo 25.
a) El problema
Maximizar 3x+2y
sujeta a x + 2y + s1 = 5
3x + 4y + s2 = 8
2x + y + s3 = 4
x, y ≥ 0
s1 ≥ 0, s2 ≥ 0, s3 ≥ 0
108 Capítulo 2. Optimización estática
lo representamos, entonces, por la matriz simplex
1 2 1 0 0 5
3 4 0 1 0 8
2 1 0 0 1 4
3 2 0 0 0 f
b) Asimismo, el problema
Maximizar 3x + 7y + 10z
sujeta a 4x + y + 2z + s1 = 3
7x + 3y + z + s2 = 4
x + 5y + 4z + s3 = 6
x, y ≥ 0
z≥0
s1 ≥ 0, s2 ≥ 0, s3 ≥ 0
lo representamos por la matriz simplex
4 1 2 1 0 0 3
7 3 1 0 1 0 4
1 5 4 0 0 1 6
3 7 10 0 0 0 f
Hagamos ahora una aproximación al método simplex. En primer lugar, es
claro que si en el problema (PL) se tiene que los indicadores ci son menores o
P
iguales a cero, entonces, para maximizar i ci xi , debe tomarse x = 0 como
solución óptima. Pero si algún cj es positivo, entonces se debe asignar a la
variable xj el máximo valor “posible”, es decir, el valor de xj debe permitir
una asignación factible a las restantes variables. Para esto observemos que
en la restricción
ai1 x1 + · · · + aij xj + · · · + ain xn + si = bi
donde aij > 0 el valor máximo que puede tomar xj es bi /aij , tomando las
demás variables como cero; pero puede suceder que al reemplazar este valor
2.6. Optimización lineal: el método simplex 109
en otra restricción donde akj > 0, se tenga que asignar valores no permitidos
a las demás variables. Por ejemplo en
4x + y + s1 = 8
2x + s2 = 1
si tomamos el valor de x como 8/4 = 2, entonces s2 = −3, y esto no es
posible. Por lo tanto se debe tomar aquella ecuación donde el factor bi /aij
sea mínimo y aij > 0, dado que esto permitirá una asignación factible en
las demás ecuaciones si este es el valor óptimo para la variable xj .
Después de encontrar la ecuación que permite una asignación factible en
las variables del problema, podemos pasar a resolver esta ecuación para xj ,
encontrando que
1
xj = [bi − si − ai1 x1 − ai2 x2 − · · · − aij−1 xj−1 − aij+1 xj+1 − · · · − ain xn ]
aij
y luego reemplazar esta expresión en las otras ecuaciones, obteniendo el
nuevo sistema
a1j bi a1j
a11 x1 + a12 x2 + · · · + a1n xn + s1 − si = b1 −
aij aij
a2j bi a2j
a21 x1 + a22 x2 + · · · + a2n xn + s2 − si = b2 −
aij aij
.. .. .. ..
. . . .
1 bi
ai1 x1 + ai2 x2 + · · · + ain xn + si =
aij aij
.. .. .. ..
. . . .
amj bi amj
am1 x1 + am2 x2 + · · · + amn xn + sm − si = bm −
aij aij
donde
aik
aij = 1; ahj = 0, h 6= i; aik = , k 6= j
aij
aik ahj
ahk = ahk − , h 6= j , k 6= j
aij
y, por tanto, el nuevo f está dado por
n
! !
X ai1 cj ai2 cj
ci xi = c1 − x1 + c2 − x2 + · · · +
i
aij aij
110 Capítulo 2. Optimización estática
!
ain cj cj cj
+ cn − xn + bi − si
aij aij aij
donde podemos repetir el proceso anterior hasta que los indicadores sean
menores o iguales a cero.9
Según lo anterior, el método simplex consiste en utilizar operaciones elemen-
tales entre filas hasta hacer que todos los indicadores sean números negativos
o ceros, ya que entonces se habrá encontrado el máximo f . Para hacer de
este proceso uno algorítmico, Dantzig sugería seguir los siguientes pasos:
Algoritmo 1. [Método simplex (Dantzig, 1949)]
Paso 1. En la tabla simplex elija entre las n − 1 primeras columnas, la
columna j que tenga el mayor indicador positivo. Si hay más de
una columna con el mismo valor, elija cualquiera de estas.
Paso 2. Para los elementos aij > 0 de la columna j elegida anteriormente,
defina el elemento pivote de la columna j como
( )
bi
a∗ij = arg mı́n
aij >0 aij
es decir, el pivote es el elemento positivo de la columna j de la
bi
matriz A que hace que sea mínimo.
aij
Paso 3. Una vez elegido el pivote a∗ij , realice operaciones elementales sobre
las filas de la tabla simplex utilizando siempre transformaciones de
la fila i, hasta que el elemento pivote sea igual a 1, y el resto de
elementos de la columna j (incluido el indicador de esa columna)
sean cero.
Paso 4. Verifique que todos los indicadores sean no-positivos. En caso dado,
deténgase; de lo contrario, regrese al paso 1.
Si todos los indicadores son no-positivos, se habrá alcanzado el máximo
valor de f . El valor de las variables no-básicas es cero, y el de las variables
básicas está dado por el valor de la última columna de la tabla simplex en
la fila en donde se puede despejar la variable básica. El valor óptimo f está
dado en la última entrada de la tabla simplex.
9
En algunos casos no es posible llegar a este objetivo, significando la no-existencia de
una solución.
2.6. Optimización lineal: el método simplex 111
Ejemplo 26.
a) Para ilustrar el método, regresemos a la tabla simplex del ejemplo 25a):
1 2 1 0 0 5
3 4 0 1 0 8
2 1 0 0 1 4
3 2 0 0 0 f
Entre las primeras 5 columnas, la que tiene el mayor indicador es la
columna 1, así que el pivote estará en esa columna. Calculamos
b1 b2 8 b3
= 5; = ; =2
a11 a21 3 a31
y, por tanto, el pivote es a∗31 . Utilizando la tercera fila, realicemos ahora
las siguientes operaciones fila básicas: dividimos la fila 3 entre 2; restamos
la fila 3 de la fila 1; multiplicamos la fila 3 por 3 y restamos de la fila 2;
y, multiplicamos la fila 3 por 3 y luego restamos de la fila 4. Obtenemos,
entonces, la siguiente tabla simplex:
3
0 2 1 0 − 12 3
0 5
0 1 − 32 2
2
1 1
0 0 1
2
2 2
1
0 2 0 0 − 32 f −6
Como se tiene un indicador positivo, regresamos al paso 1. La columna
con el mayor indicador es la columna 2, y el pivote es el elemento a∗22 ,
ya que
b1 b2 4 b3
= 2, = , =4
a12 a22 5 a32
Realizando operaciones elementales con la segunda fila, obtenemos la
tabla simplex
0 0 1 − 53 2
5
9
5
0 1 0 2
− 35 4
5 5
1 0 0 − 51 4 8
5 5
0 0 0 − 51 − 65 f− 32
5
112 Capítulo 2. Optimización estática
Como todos los indicadores son no-positivos, hemos encontrado el ópti-
mo, donde x∗ = 58 , y ∗ = 45 , s∗1 = 95 , s∗2 = s∗3 = 0 y el valor máximo es
32 ∗
5 . Pero, puesto que s1 6= 0, tendremos que la primera restricción en el
problema original se satisface estrictamente.
b) Por su parte, la tabla simplex del ejemplo 25b) es:
4 1 2 1 0 0 3
7 3 1 0 1 0 4
1 5 4 0 0 1 6
3 7 10 0 0 0 f
La columna con el mayor indicador positivo es la 3, y como
b1 3 b2 b3 3
= , = 4, =
a13 2 a23 a33 2
tenemos dos elementos que pueden ser el pivote. Tomemos el elemento
a∗13 . Realizando operaciones básicas entre filas, tenemos la siguiente tabla
simplex:
1 1 3
2 2 1 2 0 0 2
5 5
0 − 12 1 0 5
2 2
−7 3 0 −2 0 1 0
−17 2 0 −5 0 0 f − 15
Ahora el mayor indicador positivo está en la columna 2, y el pivote es
a∗32 , ya que:
b1 b2 b3
= 3, = 1, =0
a12 a22 a32
Utilizando de nuevo operaciones elementales entre filas obtenemos la
siguiente tabla simplex:
19 5 3
6 0 1 6 0 0 2
65
0 0 7
1 − 65 5
6 6 2
− 73 1 0 − 23 0 1
0
3
− 373 0 0 − 11
3 0 − 32 f − 15
Como todos los indicadores son no-positivos, tenemos que en el óptimo
3
x∗ = 0, y ∗ = 0, z∗ =
2
2.6. Optimización lineal: el método simplex 113
Además, la segunda restricción del problema original se satisface estric-
tamente, y el valor óptimo de la función es 15.
2.6.3. El teorema de dualidad
Ya vimos cómo resolver un problema de máximo utilizando el método sim-
plex. Ahora queremos dar respuesta a dos interrogantes: primero, cómo re-
solver un problema de mínimo utilizando el mismo método; segundo, cómo
cambia la solución óptima ante cambios (pequeños) en las restricciones. Para
ello, relacionamos el problema canónico (PL)
Maximizar cT x (PL)
sujeta a Ax ≤ b
x≥0
(que, de ahora en adelante, llamaremos problema primal) con el siguiente
problema dual (PD)
Minimizar bT y (PD)
T
sujeta a A y≥c
y≥0
donde y ∈ Rm
+ , c y b son iguales a los del problema primal.
Ejemplo 27.
a) El problema dual del ejemplo 23a) es
Minimizar 5x′ + 8y ′ + 4z ′
sujeta a x′ + 3y ′ + 2z ′ ≥ 3
2x′ + 4y ′ + z ′ ≥ 2
x′ ≥ 0
y′ ≥ 0
z′ ≥ 0
b) El problema dual del ejemplo 23b) es
Minimizar 3x′ + 4y ′ +6z ′
sujeta a 4x′ + 7y ′ + z ′ ≥ 3
2x′ + y ′ + 4z ′ ≥ 10
x′ , y ′ , z ′ ≥ 0 N
114 Capítulo 2. Optimización estática
El siguiente teorema muestra que el valor óptimo del problema dual es mayor
que o igual al valor óptimo del problema primal.
Teorema 7.
Si x ∈ Rn es factible en el problema primal y y ∈ Rm es factible en el
problema dual, entonces bT y ≥ cT x.
Demostración.
Multiplicando en el problema primal las restricciones por y y multiplicando
en el problema dual las restricciones por x, se obtiene y T Ax ≤ y T b, xT AT y ≥
xT c. Escribiendo de nuevo, tenemos bT y ≥ y T Ax ≥ cT x.
Y el próximo teorema da indicios de que existe una relación importante
entre los problemas primal y dual:
Teorema 8.
Supongamos que x∗ y y ∗ son factibles en el problema primal y dual respec-
tivamente, y que cT x∗ = bT y ∗ . Entonces x∗ resuelve el problema primal y
y ∗ resuelve el problema dual.
Demostración.
Como cT x∗ = bT y ∗ ≥ cT x para todo x factible, entonces x∗ resuelve el
problema primal. Así mismo, como bT y ≥ cT x∗ = bT y ∗ , y ∗ resuelve el
problema dual.
Y así, arribamos a uno de los teoremas más profundos de la optimización
estática: el teorema de dualidad, que muestra que el problema primal y el
problema dual están íntimamente relacionados.
Teorema 9. (Teorema de dualidad)
Si el problema primal tiene solución óptima finita, entonces el problema
dual también tiene solución óptima finita, y los valores de ambas funciones
objetivo son iguales. Si el primal no tiene óptimo acotado, entonces el dual
no tiene solución factible.
Demostración.
Ver teorema 13 adelante.
Así, utilizando el problema primal, todo problema de mínimo puede con-
vertirse en uno de máximo, el cual puede resolverse por el método simplex
anteriormente estudiado. Una vez obtenida la solución del problema de má-
ximo, por el teorema 13, el valor óptimo de la función objetivo en el problema
de mínimo es igual, y los valores óptimos de las variables en el problema de
mínimo son iguales al negativo de los indicadores de las variables de holgura
del problema de optimización.
2.6. Optimización lineal: el método simplex 115
Nota 5.
El teorema de dualidad (teorema 9), que es realmente sorprendente y muy
importante, fue primero señalado (aunque no probado) por von Neumann
en notas privadas que aparecieron antes de 1947.
Ejemplo 28.
Para destacar la fuerte relación primal-dual, consideremos el problema
Minimizar 60x + 20y + 3z + 20w
sujeta a 3x + 6y − z + 2w ≥ 4
−4x + 2y + z + 5w ≥ 2
w, x, y, z ≥ 0
Un análisis directo nos llevaría a un problema en el espacio euclidiano de
cuatro dimensiones. Pero es posible escribir este problema así:
60
20
Minimizar [x, y, z, w]
3
20
3 −4 " #T
6 2 4
sujeta a [x, y, z, w] ≥
−1 1 2
2 5
x, y, z, w ≥ 0
Por tanto, el problema primal es:
" #
x
Maximizar [4, 2] 1
x2
3 −4 " # 60
6
2 x1
20
sujeta a ≤
−1 1 x2 3
2 5 20
x1 ≥ 0, x2 ≥ 0
Y este problema primal sí puede dibujarse en un plano bidimensional como
en la figura 2.20. Allí vemos que la solución óptima ocurre en x∗1 = 30/13,
116 Capítulo 2. Optimización estática
x∗2 = 40/13, y así z ∗ = x∗ = 0. De esta manera, el problema original se
reduce a:
" #
20
Minimizar [y, w]
20
" #
6 2
sujeta a [y, w] ≥ [4, 2]
2 5
y ≥ 0, w≥0
cuya solución es y ∗ = 8/13, w∗ = 2/13. Por lo tanto, el problema original
tiene como solución al vector (0, 8/13, 0, 2/13):
60 " #
20 30/13
(0, 8/13, 0, 2/13) = (4, 2) = 200/13
3 40/13
20
x2
Solución (30/13, 40/13)
x1
Figura 2.20. Problema pivotal.
Ejemplo 29. (Problema de la dieta, de nuevo)
Volvamos al problema de la dieta:
Minimizar 2x+12y
sujeta a x + 3y ≥ 700
2x + y ≥ 400
x + y ≥ 200
x, y ≥ 0
2.6. Optimización lineal: el método simplex 117
El primal de este problema es
Maximizar 700x′ + 400y ′ + 200z ′
sujeta a x′ + 2y ′ + z ′ ≤ 2
3x′ + y ′ + z ′ ≤ 12
x′ ≥ 0, y ′ ≥ 0, z ′ ≥ 0
cuya tabla simplex es
1 2 1 1 0 2
3 1 1 0 1 12
700 400 200 0 0 f
El mayor indicador no negativo está en la columna 1 y el elemento pivote
es a∗11 , con lo cual obtenemos la siguiente tabla simplex:
1 2 1 1 0 2
0 −5 −2 −3 1 6
0 −1000 −500 −700 0 f − 1400
Como todos los indicadores son no-positivos, este es el óptimo del problema
primal cuyo valor óptimo es 1400 (tal como habíamos calculado gráficamen-
te). Además, los negativos de los indicadores de las variables de holgura son
700 y 0, de forma que en el problema original tendremos que x∗ = 700 y
y ∗ = 0, como habíamos mostrado anteriormente.
Ejemplo 30. (El problema del transporte, de nuevo)
Tomemos, una vez más, el problema del transporte
Minimizar 10x11 + 20x12 + 20x21 + 40x22
sujeta a x11 + x12 = 5
x21 + x22 = 2
x11 + x21 = 4
x12 + x22 = 3
xij ≥ 0
118 Capítulo 2. Optimización estática
que es el dual del problema
Maximizar 5x′11 + 2x′12 + 4x′21 + 3x′22
sujeta a x′11 + x′21 = 10
x′11 + x′22 = 20
x′12 + x′21 = 20
x′12 + x′22 = 40
xij ≥ 0
Como en este problema las restricciones son ecuaciones, no es necesario
incluir variables de holgura; sin embargo, para poder reinterpretar el resul-
tado, es necesario plantear el problema como uno de desigualdades, con lo
cual la tabla simplex es
1 0 1 0 1 0 0 0 10
1 0 0 1 0 1 0 0 20
0 1 1 0 0 0 1 0 20
0 1 0 1 0 0 0 1 40
5 2 4 3 0 0 0 0 f
Realizando las operaciones usuales, obtenemos como resultado
1 0 1 0 1 0 0 0 10
0 0 −1 1 −1 1 0 0 10
0 1 1 0 0 0 1 0 20
0 0 0 0 1 −1 −1 1 10
0 0 0 0 −2 −3 −2 0 f − 120
de donde, reinterpretando, obtenemos x∗11 = 2, x∗12 = 3, x∗21 = 2, x∗22 = 0,
y valor óptimo de la función es 120, como habíamos encontrado anterior-
mente, en el ejemplo 22. N
Finalmente, ¿cómo cambian los valores de las soluciones de un problema de
programación lineal cuando hay pequeños cambios en los parámetros de las
restricciones? Para resolverlo, supongamos que x∗ es la solución al problema
primal
Maximizar cT x
sujeta a Ax ≤ b
x≥0
2.6. Optimización lineal: el método simplex 119
que x∗ + ∆x es solución al problema primal
Maximizar cT x
sujeta a Ax ≤ b + ∆b
x≥0
y que y ∗ es la solución al problema dual de cada uno de los problemas
primales. Entonces, por el teorema 9,
cT x∗ = bT y ∗ , y cT (x∗ + ∆x) = (b + ∆b)T y ∗
y, por lo tanto, cT ∆x = ∆bT y ∗ . Pero cT ∆x no es más que el cambio en
el valor óptimo de la función objetivo del problema original al cambiar un
poco el valor de las restricciones. Por lo tanto, podemos interpretar (al igual
que en el caso de los multiplicadores de Lagrange) el valor de yi∗ como el
cambio en el valor de la función objetivo ante cambios (pequeños) en el valor
de bi [10] . Un ejercicio para el lector es probar que los conjuntos (*) en el
teorema 22, no son cerrados en R2+ .
Ejercicios 5
1. Encuentre los valores óptimos de los siguientes problemas lineales:
i) Utilizando el método gráfico.
ii) Utilizando el método de Kühn-Tucker.
iii) Utilizando el método simplex.
iv) Resolviendo el problema dual.
a) b)
Minimizar 5x−7y Maximizar 15x + 2y
sujeta a 3x + y ≥ 10 sujeta a 3x − y ≤ 10
x + 3y ≥ 4 x − 3y ≥ 4
x, y ≥ 0 x, y ≥ 0
10
Para el lector interesado en profundizar sobre la técnica de la programación lineal, se
recomienda Mora (2004).
120 Capítulo 2. Optimización estática
c) Maximizar 2x + 5y d)
Minimizar 12x+42y
sujeta a x≤4 sujeta a x + 2y ≥ 3
y≤3 x + 4y ≥ 4
x + 2y ≤ 8 3x + y ≥ 3
x, y ≥ 0 x, y ≥ 0
2. Pruebe que la solución del problema
Maximizar 5x + 2y + z
sujeta a x + 3y − z ≤ 6
y+z ≤4
3x + y ≤ 7
x, y ≥ 0
es x = 73 , y = 0, z = 4, y el valor del problema es 47
3 . Además, muestre
que la solución del problema dual está en x1 = 0, y1 = 1, z1 = 35 .
3. Pruebe que la solución del problema
Minimizar 3x − 2y + 5z
sujeta a − y + 2z ≥ 1
x+z ≥1
2x − 3y + 7z ≥ 5
x, y ≥ 0
es x = 0, y = 23 , z = 1, y el valor del problema es 11
3 . Además, muestre
que la solución del problema dual es x1 = 0, y1 = 31 , z1 = 23 .
4. Una empresa tiene tres depósitos, los cuales tienen 10, 000, 5, 000 y
16, 000 unidades de sus productos. El próximo mes deben enviarse
2, 000, 1, 000, 3, 000, 4, 500, 500, 600 y 950 unidades a siete distintos
almacenes. Encuentre el plan de envío de menor costo, si el costo
unitario de envío de cada depósito a cada uno de los almacenes viene
dado por la siguiente tabla:
Destino 1 D2 D3 D4 D5 D6 D7
Origen 1 10 8 16 3 10 25 18
Origen 2 19 25 18 7 12 18 19
Origen 3 20 17 20 5 14 16 17
2.7. Teoremas de separación de Minkowski 121
2.7. Teoremas de separación de Minkowski
Ahora es claro que los métodos de optimización están basados en: i) la es-
tructura topológica del conjunto sobre el que se optimiza, y ii) la estructura
analítica (lineal, continua, etc.) de la función objetivo. En esta sección pro-
fundizamos en una característica topológica del conjunto de restricción, que
ya había sido estudiada: la convexidad. Aquí destacaremos algo que se vis-
lumbraba con los problemas de programación lineal: que ciertas propiedades
geométricas de los conjuntos convexos están íntimamente conectados con la
forma como se resuelve problemas de optimización sobre ellos. Recordemos,
en primer lugar, que en el cálculo diferencial de una variable, cuando se re-
quería optimizar (maximizar o minimizar) una función cóncava estricta (o
convexa estricta) diferenciable, se recurría a encontrar los puntos donde la
recta tangente era paralela al eje de abscisas (figura 2.21). Allí notábamos
que esta recta tangente descomponía el plano en dos semiplanos, uno de
los cuales contenía totalmente a la gráfica de la función. En dos variables
sucedía lo mismo con el plano tangente, y, por supuesto, en varias variables
con el hiperplano tangente.
Figura 2.21. Recta tangente que separa. Figura 2.22. Optimización y separación.
En segundo lugar, recordemos que cuando intentábamos resolver problemas
típicos de optimización en dos variables, mediante el método de Lagrange o
de Kühn-Tucker, en general nos encontrábamos con que, en el punto donde
se resolvía el problema, las dos gráficas (la de restricción y la de objetivo)
solamente se intersectaban allí, y lo hacían de tal forma que se podía trazar
por allí una tangente que “separaba” a las dos gráficas (figura 2.22).
El siguiente es uno de los teoremas más profundos (y, por ello mismo, más
simple) de la teoría de optimización, que involucra, precisamente, la noción
de convexidad. Los teoremas de existencia de hiperplanos separadores esta-
blecen, básicamente, que un conjunto convexo y un punto que no está en
122 Capítulo 2. Optimización estática
este, pueden separarse mediante un hiperplano (figura 2.23); es decir, con
el conjunto convexo de un lado y el punto del otro lado. Veamos en qué
consisten estos dos teoremas centrales de la teoría de la optimización que,
como notaremos, son consecuencia del teorema de Wierstrass.
Teorema 10. [Existencia de hiperplanos separadores (Minkowski,
1910)]
Sea C un conjunto convexo y cerrado en Rn , y sea p ∈ Rn . Entonces se tiene
uno (y sólo uno) de los siguientes casos (figura 2.23):
a) p ∈ C.
b) Existe un hiperplano H de Rn que contiene a p y tal que C está totalmente
contenido en uno de los semiplanos abiertos determinados por H. En tal
caso, se dice que H es un hiperplano separador.
Demostración.
Supongamos que p ∈
/ C, y consideremos la función sobre el conjunto cerrado
C dada por
f (x) = ||x − p||
Como se puede probar fácilmente, esta función es continua y, utilizando
convenientemente el teorema de Weierstrass (teorema 1), tiene un mínimo
sobre C.
•
p
C
Figura 2.23. Un hiperplano separando un conjunto convexo y un punto.
Sea q un punto de C tal que
||q − p|| ≤ ||x − p||
para todo x ∈ C, y sea n = q − p. Como p ∈ / C, entonces n 6= 0. Veamos
que el hiperplano que pasa por p y es perpendicular a n satisfará nuestros
2.7. Teoremas de separación de Minkowski 123
requerimientos; es decir, que
H = {x ∈ Rn | (x − p) · n = 0}
es el hiperplano buscado, y para ello vamos a probar que C está contenido
en el semiespacio definido por la condición (x − p) · n > 0.
Sea ahora q ′ 6= q un punto cualquiera de C. Entonces, para todo t, con
0 < t ≤ 1, se tiene que
||q − p|| ≤ ||(q − p) + t(q ′ − q)||
y elevando esta desigualdad al cuadrado se tiene que
(q − p)2 ≤ (q − p)2 + 2t(q − p)(q ′ − q) + t2 (q ′ − q)2
Cancelando y dividiendo entre t, se obtiene que
0 ≤ 2(q − p)(q ′ − q) + t(q ′ − q)2
y haciendo t → 0 se obtiene que
0 ≤ (q − p)(q ′ − q) = n(q ′ − p) + n(p − q) = n(q ′ − p) − n · n
Pero como n · n > 0, entonces
n(q ′ − p) > 0
que era lo que queríamos probar.
Y aún podemos enunciar un resultado más general:
Teorema 11. [Otro teorema de Minkowski (1910)]
Si C ⊆ Rn es un conjunto convexo y p está en la frontera de C, [11] entonces
existe un hiperplano soporte de C en p; es decir, existe un hiperplano H
tal que p ∈ H, y C está contenido en uno de los dos semiespacios cerrados
determinados por H (figura 2.24).
11
La frontera de un conjunto S, ∂S, está definida como el conjunto de puntos que
pertenecen a la adherencia de S y a la adherencia del complemento de S, es decir, ∂S =
S ∩ S C . Recordemos también que la adherencia de S, S̄, es el conjunto de límites de
sucesiones de puntos de S –volumen I (Álgebra lineal y cálculo en varias variables)–.
124 Capítulo 2. Optimización estática
p• C
Figura 2.24. H es el hiperplano soporte de C en p.
Demostración.
Sea C la clausura de C. Es fácil mostrar que C también es convexo, y p
está en la frontera de C. Si es posible probar el teorema para C, entonces
claramente estaremos probándolo para C. Por lo tanto, podemos asumir que
C es cerrado. Ahora: para cada entero k > 2, encontremos un punto pk ∈ /C
que esté a una distancia menor que k1 de p. Por el teorema 10 inmediatamente
anterior, podemos encontrar un punto qk sobre C cuya distancia a pk sea
mínima. Hagamos ahora nk = qk −pk , y sea n′k el vector unitario (||nk || = 1)
en la dirección de nk . La sucesión de vectores n′k tiene un punto límite sobre
la esfera de radio 1, digamos n′ , ya que la esfera es un conjunto compacto
(cerrado y acotado). Nuevamente, por el teorema 10, para todo x ∈ C y
todo k,
x · n k > pk · n k
Y así, dividiendo a ambos lados por la norma de nk , se obtiene que para
todo k,
x · n′k > pk · n′k
Como n′ es un punto límite de la sucesión {n′k }, y p es un punto límite de
la sucesión {pk }, se sigue, por continuidad de la función producto interior,
que
x · n′ ≥ p · n′
y esto prueba el teorema.
Ejemplo 31.
Tomando, una vez más, el ejemplo 5, supongamos que para x ≥ 0, y ≥ 0,
definimos
f (x, y) = xy, g(x, y) = x2 + y 2
a) En primer lugar, recordemos que al resolver el problema de
2.7. Teoremas de separación de Minkowski 125
optimización
Maximizar f (x, y)
sujeta a g(x, y) ≤ r2
x, y ≥ 0
mediante el método √ de Kühn-Tucker,
√ encontrábamos que la solución
era (x∗ , y ∗ ) = (r/ 2, r/ 2). ¿Podría el lector ilustrar esto con una
gráfica apropiada?
b) En segundo lugar, al buscar una recta de la forma A(x − x∗ )+
B(y − y ∗ ) = 0 que pasa por el punto (x∗ , y ∗ ) y que lo separe del
conjunto convexo
{(x, y) ∈ R2+ | f (x, y) ≥ f (x∗ , y ∗ )} = {(x, y) ∈ R2+ | xy ≥ r2 /2}
encontramos que, como (A, B) es un vector normal a la recta, entonces
podemos hacer
∂f ∗ ∗ r ∂f ∗ ∗ r
A= (x , y ) = √ y B= (x , y ) = √
∂x 2 ∂y 2
lo
√ que nos lleva a que la ecuación de la recta (hiperplano) es x + y =
2r.
Nota 6.
El ejercicio anterior plantea el interrogante sobre el caso en el que la fron-
tera del conjunto convexo no fuera suave en el punto que queremos separar:
¿Cómo calcularíamos los respectivos gradientes? (figura 2.25). En estos ca-
sos, el cálculo diferencial no nos puede ayudar a resolver el problema de
optimización, y es allí donde los coeficientes que acompañan a las variables
de la ecuación cartesiana del hiperplano (es decir, los coeficientes del vector
normal), vienen a jugar el papel de las respectivas derivadas parciales.
2.7.1. Aplicaciones
En principio, y a diferencia de los métodos algorítmicos de optimización
(Lagrange, Kühn-Tucker, simplex), el teorema de Minkowski está más en
la tradición del teorema de Weierstrass, en el sentido de que es un teorema
de optimización de fina descripción teórica que no estaría diseñado para
aplicaciones algorítmicas concretas inmediatas. Sin embargo, es corriente
126 Capítulo 2. Optimización estática
p•
C
Figura 2.25. Conjunto convexo no-suave.
utilizarlo como poderosa herramienta para demostrar teoremas clásicos de
optimización que, ellos sí, tienen un desarrollo algorítmico específico. Aquí
ilustraremos lo anterior, probando el teorema del minimax de von Neumann
–volumen I (Álgebra lineal y cálculo en varias variables)–, y el teorema de
dualidad (teorema 9 del presente capítulo) para la programación lineal, que
estudiamos previamente.
Teorema 12. (Minkowski ⇒ minimax)
Para cualquier matriz Amxn , existen distribuciones de probabilidad p∗ ∈ ∆n
y q ∗ ∈ ∆m tales que, en ellas, se da la igualdad
Máxp Mínq qApT = Mínp Máxq qApT
donde ∆n , ∆m son los simplexes de dimensión n y m, respectivamente 12 .
Demostración.
a) Primero, notemos que para cualquier p ∈ ∆n y q ∈ ∆m , se tiene que
Mínq qApT ≤ qApT ≤ Máxp qApT
y, por lo tanto,
Máxp Mínq qApT ≤ Mínq Máxp qApT
b) Restaría entonces demostrar que
Mínq Máxp qApT ≤ Máxp Mínq qApT
para ciertos p∗ ∈ ∆n y q ∗ ∈ ∆m . Para ello, sea
H = {x ∈ ∆m | x = ApT para algún p ∈ ∆n y ApT ≥ v1 e}
12
Recordemos que el simplexde dimensión n (y,
Pnsimilarmente,
el de dimensión m), es
el conjunto definido por ∆n = x = (xi ) ∈ Rn
+ | i=1
xi = 1 .
2.7. Teoremas de separación de Minkowski 127
donde v1 = Máxp Mínq qApT y e = (1, ..., 1) ∈ Rn . Observe que H es convexo
y no vacío, y, por el teorema de separación de Minkowski (teorema 11), existe
q ∗ ∈ ∆m tal que q ∗ ApT ≤ v1 para todo p ∈ ∆n . Y como Mínq Máxp qApT ≤
Máxp q ∗ ApT , tendremos que
Mínq Máxp qApT ≤ v1 = Máxp Mínq qApT
que era lo que queríamos mostrar.
Teorema 13. (Minkowski ⇒ teorema de dualidad)
Si el problema primal tiene solución óptima finita, entonces el problema dual
también tiene solución óptima finita, y los valores de ambas funciones obje-
tivo son iguales. Si el primal no tiene óptimo acotado, entonces el problema
dual no tiene solución factible.
Demostración.
Primero demostremos la segunda proposición del teorema. Para ello, su-
pongamos que el problema dual no tiene solución óptima finita; entonces
bT y ∗ < −M para todo M > 0; pero, en tal caso, si x∗ es factible en el
problema primal tendríamos que cT x∗ < −M para todo M > 0, lo cual
claramente es imposible.
Ahora supongamos que el problema dual tiene solución óptima finita de
valor z 0 . Definamos el conjunto
C = {(r, w) ∈ Rn+1 | r = tz 0 − bT y, w = tb − AT y, y ≥ 0, t ≥ 0}
Como puede fácilmente verificar el lector, el conjunto C es un cono convexo
cerrado. Veamos que p = (1, 0) ∈ / C. Si w = t0 b − AT y 0 = 0 con t0 > 0
y 0
y y 0 ≥ 0, entonces y = 0 es factible en el problema dual y, por lo tanto,
t
r 0 − bT y ≤ 0; es decir, r ≤ 0. Por otro lado, si w = −AT y 0 = 0
= z
t0
con y 0 ≥ 0 y bT y 0 = −1, y si y es una solución factible del problema dual,
entonces y + αy 0 es factible para todo α ≥ 0 y, además, podemos obtener
valores arbitrariamente pequeños de la función objetivo, lo cual contradice
nuestra hipótesis de que la solución factible del problema dual es finita. Por
lo tanto, no puede existir tal y 0 , y así, p ∈
/ C.
Dado que C es un cono convexo y cerrado, y que p = (0, 1) ∈ / C, por el
teorema de separación de Minkowski (teorema 10), existe un hiperplano que
separa p de C. Así, existe un vector no nulo (s, x) ∈ Rn+1 y una constante
d tal que
s < d = ı́nf {sr + xw}
(r,w)∈C
128 Capítulo 2. Optimización estática
Como C es un cono, debe ser d ≥ 0; además, puesto que (0, 0) ∈ C, tenemos
que d ≤ 0. De esto concluimos que d = 0 y s < 0. Asumamos que s = −1;
entonces, por la desigualdad anterior, −r + xw ≥ 0 para todo (r, w) ∈ C
que, de la definición de C, implica
(b − Ax)y T − tz 0 + tcT x ≥ 0
para todo y ≥ 0 y t > 0. En particular, si t = 0, Ax ≤ b, es decir, x
es factible en el primal. Si y = 0 y t = 1, entonces cT x ≥ z 0 que, por el
teorema 7, implica cT x = z 0 ; y, a su vez, por el teorema 8, asegura que x es
un óptimo del problema primal. La demostración recíproca es similar y se
deja al lector como ejercicio.
Ejercicios 6
1. Halle, ilustrando con un dibujo adecuado, hiperplanos de soporte para
los siguientes conjuntos convexos C y correspondientes puntos p en el
plano:
a) C = {(x, y) ∈ R2 | x ≥ 0, y ≥ x2 }, p = (1, 1)
b) C = {(x, y) ∈ R2+ | y ≤ ln x, x ≥ 1}, p = (2, ln 2)
c) C = {(x, y) ∈ R2 | y ≥ ex + 1}, p = (0, 2)
2. ¿Será que, en el teorema 11, el hiperplano de soporte es único? Ilustre
con un par ejemplos.
3. [Teorema de J. Farkas (1902)] Pruebe, utilizando el teorema 11 de
separación de Minkowski, que si A una matriz n × n dada y b ∈ Rm ,
entonces una y sólo una de las siguientes alternativas es cierta:
a) El sistema Ax = b tiene una solución x ≥ 0 (todas la componentes
mayores o iguales a cero).
b) El sistema de desigualdades y T A ≥ 0 tiene una solución y ∈ Rn
que satisface y · b < 0.
c) ¿Geométricamente, cómo puede interpretarse esto desde la pers-
pectiva de las soluciones de un sistema de ecuaciones lineales? [Su-
gerencia: el teorema de Minkowski se manifiesta claramente en la
solución de un problema de optimización de una función lineal con
restricciones lineales de desigualdad].
2.8. El teorema del máximo 129
2.8. El teorema del máximo
Nuestros métodos hasta ahora están destinados a la optimización de funcio-
nes; es decir, de relaciones donde a cada número se le asigna otro número
(y sólo uno). Desde 1939, el grupo francés Bourbaki desarrolló el concepto
de correspondencia; es decir, relaciones en las que a cada número se le asig-
na ya no sólo otro número, sino una colección de números. Las situaciones
reales donde esto puede suceder son múltiples, y el objetivo de esta sección
es describir algunos resultados sobre optimización en este tipo de estructura.
Entre ellos, quizás el resultado más importante es el teorema del máximo, y
para comprenderlo nos preparamos ahora.
Definición 4. [Correspondencia (Bourbaki, 1939)]
Si S, T ⊆ Rn , no vacíos, entonces una correspondencia ϕ de S en T es una
función
ϕ : S → P(T )
donde P(T ) es el conjunto de partes de T (es decir, todos los posibles sub-
conjuntos de T ), y tal que, para todo s ∈ S, ϕ(s) 6= ∅. 13
Así, una correspondencia ϕ de S en T , le asigna a cada s ∈ S un conjunto
no-vacío ϕ(s) ∈ P(T ) (figura 2.26).
conjunto
T ϕ(s)
•
s S
Figura 2.26. Correspondencia ϕ(s).
Las nociones de continuidad en funciones de variables reales se trasladan a
correspondencias de la siguiente manera:
13
En ocasiones, sin embargo, y si la notación no permite confusión, escribiremos sim-
plemente ϕ : S → T.
130 Capítulo 2. Optimización estática
Definición 5. [Continuidad en correspondencias (Berge, 1959)]
i) Una correspondencia ϕ : S → P(T ) es semicontinua superiormente en
un punto s ∈ S si cuando sn → s y tn → t con tn ∈ ϕ(sn ), entonces
t ∈ ϕ(s).
ii) Una correspondencia ϕ : S → P(T ) es semicontinua inferiormente en
un punto s ∈ S si sn → s y t ∈ ϕ(s) implica que existe una sucesión
{tn } con tn ∈ ϕ(sn ) tal que tn → t.
iii) Una correspondencia ϕ : S → P(T ) es continua si es semicontinua
superiormente e inferiormente.
Nota 7.
El lector puede observar que si para cada s ∈ S se tiene que ϕ(s) es un
solo elemento de T (es decir, ϕ es una función de S en T ), el concepto de
semicontinuidad superior es equivalente a la continuidad de la función ϕ.
Ejemplo 32.
Sea S = T = [0, 5], y definamos
(
2 si x 6= 2.5
ϕ(s) =
[1, 3] si x = 2.5
Esta correspondencia (figura 2.27) es semicontinua superiormente, dado que
para toda sucesión {sn } con sn ∈ [0, 5] tal que sn → s sólo existe una única
sucesión {tn } tal que tn ∈ ϕ(sn ) y tn → t : la sucesión {tn } = {2}, la cual
converge a t = 2, y, claramente, t ∈ ϕ(s). Sin embargo, la correspondencia no
es semicontinua inferiormente, ya que podemos tomar sn → 2.5 y 3 ∈ ϕ(2.5),
pero no existe una sucesión {tn } que satisfaga tn → 3 tal que tn ∈ ϕ(sn ).
ϕ(s)
4
3
2
1
2.5 5 s
Figura 2.27. Correspondencia semicontinua superiormente
2.8. El teorema del máximo 131
Teorema 14. (Caracterización de la semicontinuidad superior)
La correspondencia ϕ : S → T es semicontinua superiormente sobre S si, y
sólo si, su gráfico
graf ϕ = {(s, t) ∈ S × T | t ∈ ϕ(s)}
es cerrado en S × T .14
Demostración.
a) Sean s ∈ S, sn → s, tn → t con tn ∈ ϕ(sn ); entonces (sn , tn ) → (s, t). Y,
como graf ϕ es cerrado, entonces (s, t) ∈ graf ϕ. Luego t ∈ ϕ(s) y, así, φ
es semicontinua superiormente.
b) Sean s ∈ S, sn → s, tn → t con tn ∈ ϕ(sn ). Entonces, como ϕ es
semicontinua superiormente, se tendrá que t ∈ ϕ(s) y, por lo tanto,
(s, t) ∈ graf ϕ; es decir, graf ϕ es cerrado.
conjunto
T ϕ(s)
•
s S
Figura 2.28. Una correspondencia ϕ(s) con graf ϕ cerrado.
Ejemplo 33.
Sean S = [0, 10] y T = [0, 100], y definamos
ϕ(s) = [s2 , s2 + 1]
Veamos que esta correspondencia es semicontinua superiormente mostrando
que graf ϕ es cerrado.
14
Recordemos que S × T es el producto cartesiano de S y T .
132 Capítulo 2. Optimización estática
Solución.
Sea {(sn , tn )} una sucesión en graf ϕ tal que (sn , tn ) → (s, t). Mostremos
que (s, t) ∈ graf ϕ. En efecto,
lı́m s2 ≤ lı́m tn ≤ lı́m s2n + 1
n→∞ n n→∞ n→∞
es decir, s2 ≤ t ≤ s2 + 1. Así que t ∈ ϕ(s) y, por lo tanto, (s, t) ∈ ϕ. Luego,
graf ϕ es cerrado y, por el teorema 14, es semicontinua superiormente. N
Ahora: dado s ∈ S, uno puede estar interesado en caracterizar los elemen-
tos ϕ(s) ⊆ T que maximizan cierta función continua f : S × T → R; y
también puede preguntarse por el comportamiento de la correspondencia de
valores máximos, µ(s), de f (·) sobre ϕ(s). Una respuesta a estas dos pre-
guntas está dada por el siguiente resultado muy importante en el análisis
de correspondencias:
Teorema 15. [Teorema del máximo (Berge, 1959)]
Sean S, T ⊆ Rn conjuntos no vacíos; si f : S × T → R es una función
continua y ϕ : S → P(T ) es una correspondencia continua en S y tal ϕ(s)
es compacto para todo s ∈ S, entonces:
a) f ∗ : S → R, definida por f ∗ (s) = Máx{f (s, t) | t ∈ ϕ(s)} es continua
en S.
b) µ : S → P(T ), s → µ(s) = arg Máx{f (s, t) | t ∈ ϕ(s)} es semiconti-
nua superiormente.
Demostración.
a) Sea {sn } ⊆ S tal que sn → s ∈ S, y probemos que f ∗ (sn ) → f ∗ (s).
i) Puesto que f (·, ·) es continua, entonces para todo t ∈ ϕ(s) fijo, se
tiene que f (sn , t) → f (s, t).
ii) Como ϕ : S → P(T ) es semicontinua inferiormente, entonces para
cada t ∈ ϕ(s) fijo, existe una sucesión tn ∈ ϕ(Sn ) tal que tn → t.
Ahora: dada la definición de f ∗ (·), existen sucesiones {ǫn } y {δn },
ambas tendiendo a 0, tales que
f (s, t) ≤ f ∗ (s) ≤ f (s, tn ) + ǫn
f (sn , t) ≤ f ∗ (sn ) ≤ f (sn , tn ) + δn
Por tanto,
f (sn , t) − f (s, tn ) − ǫn ≤ f ∗ (sn ) − f ∗ (s) ≤ f (sn , tn ) − f (s, t) + δn
El resultado se obtiene de i) y ii) cuando hacemos n → ∞.
2.8. El teorema del máximo 133
b) Notemos, en primer lugar, que
µ(s) = {t ∈ ϕ(s) | f (s, t) = f ∗ (s)}
Sea sn → s con {sn } ⊆ S, s ∈ T , y µ̄n → µ̄, con µ̄n ∈ µ(sn ), y probemos
que µ̄ ∈ µ(s). En efecto, como µ̄n ∈ ϕ(sn ) y f (sn , µ̄n ) = f ∗ (sn ), entonces,
puesto que f ∗ (·) es continua, se tendrá que f (sn , µ̄n ) → f ∗ (s); y como
también f (·, ·) es continua, entonces f (sn , µ̄n ) → f (s, µ̄). Por lo tanto,
f (s, µ̄) = f ∗ (s) y de aquí µ̄ ∈ µ(s), pues µ̄ ∈ ϕ(s) debido a que ϕ(·) es
semicontinua superiormente.
Ejemplo 34.
Corroboremos el teorema del máximo en el caso en que S, T = R, ϕ(s) =
[−2, 2] para todo s ∈ R, y f (s, t) = st:
a) f ∗ : R → R, definida por
f ∗ (s) = Máx{ st | t ∈ [−2, 2]} = 2|s|
es continua en R.
b) µ : R → R, definida por
2
si s>0
µ(s) = arg Máx{ st | t ∈ [−2, 2]} = [−2, 2] si s=0
−2 si s<0
es semicontinua superiormente.
Ejercicios 7
1. En cada uno de los siguientes casos, determine si la correspondencia
es semicontinua superior, semicontinua inferior o continua:
a) φ : [0, 1] → [0, 1] b) φ : [−1, 1] → [0, 1]
s → [0, s] s → (0, s2 ]
c) φ : [−2, 0] → [−2, 4] d) φ : [−2, −1] → [0; −1]
s → {s, s2 } 1
s → 0,
s
e) φ : [0, 1] → [0, 1] definida por
134 Capítulo 2. Optimización estática
h i
[s, 1] si s ∈ 1 3
2, 4
φ(s) =
0 en otro caso
[Sugerencia: un dibujo ayudaría en cada caso].
2. Adicione condiciones suficientes (si son necesarias) para que la siguien-
te afirmación sea teorema: “Si f es una función continua en el punto
s, y ϕ es semicontinua superiormente (semicontinua inferiormente) en
el punto f (s) entonces ψ = ϕ ◦ f es semicontinua superiormente (se-
micontinua inferiormente)”.
3. Falso o verdadero: “Si ψ : S → T es semicontinua superiormente y C ⊆
S es compacto, entonces ψ(C) = {t ∈ T | t ∈ ψ(c) para algún c ∈ C}
es compacto en T ”.
4. Defina si es posible aplicar el teorema del máximo en los siguientes
casos y, en caso de que sea así, llévelo a cabo y concluya.
a) φ : [0, 1] → [0, 1] definida por φ(s) = [0, s], y f (s, t) = s2 t.
b) φ : [0, 1] → [0, 1] definida por
h i
[s, 1] si s ∈ 1 3
2, 4
φ(s) =
0 en otro caso
1
y donde f (s, t) = .
1+s+t
2.9. Teoremas de punto fijo
Los teoremas de punto fijo son herramientas que están profundamente enrai-
zadas en la naturaleza topológica y algebraica de Rn . Establecen, de hecho,
interrelaciones entre las nociones de convexidad y continuidad, y ayudan
a reducir, en cierta medida, los comportamientos no-lineales a descripcio-
nes lineales del problema en estudio. En lo que sigue, haremos una primera
aproximación al concepto de punto fijo y a su naturaleza topológica, puesto
que ya hemos reunido un acervo suficiente de conocimientos para entender
a plenitud uno de sus principales resultados.
Teorema 16. [Teorema de punto fijo de Brouwer (1912)]
Supongamos que S es un subconjunto no-vacío, compacto y convexo en Rn .
2.9. Teoremas de punto fijo 135
Si ϕ : S → S es una función continua, entonces ϕ(·) tiene al menos un
punto fijo; es decir, existe x∗ es tal que ϕ(x∗ ) = x∗ (figura 2.29).
Demostración.
La prueba original (Brouwer, 1912) de este teorema requiere conceptos y
nociones que están más allá de los objetivos de este texto [ver, por ejem-
plo, H. Nikaido (1968)]. Sin embargo, asumiendo este teorema, enseguida
demostraremos, mediante otras técnicas, un resultado que lo generaliza.
y y=x
1
b
y = f (x)
x∗ 1 x
Figura 2.29. Teorema de punto fijo de Brouwer.
Ejemplo 35. (Ejemplos de puntos fijos)
a) Sea f : [0, 1] → [0, 1] definida por f (x) = x2 . Entonces los puntos fijos
se hallan resolviendo la ecuación x2 = x que nos lleva a dos puntos fijos:
x∗ = 0, x∗ = 1.
b) Sea ∆2 = {(x1 , x2 ) ∈ R2+ | x1 + x2 = 1} el simplex unitario en R2 (que
es un conjunto no vacío, compacto y convexo) y definamos f : ∆2 → ∆2
mediante
4x1 3x2
f (x1 , x2 ) = ,
x1 + 3 x1 + 3
que es una función continua. Los puntos fijos aparecen al resolver la
igualdad
4x1 3x2
, = (x1 , x2 )
x1 + 3 x1 + 3
la que nos lleva a
4x1 3x2
= x1 , = x2
x1 + 3 x1 + 3
o a (x1 )2 = x1 , x1 x2 = 0. Y así, los puntos fijos son todos los puntos de
la forma (0, x2 ) para x2 ∈ [0, 1], y el punto aislado (1, 0).
136 Capítulo 2. Optimización estática
El siguiente teorema clásico de puntos fijos es el teorema de Kakutani, que
ahora se aplica a correspondencias en lugar de aplicarse a funciones. Como
se verá adelante, este teorema es, de hecho, equivalente al teorema de punto
fijo de Brouwer.
Teorema 17. [Teorema de punto fijo de Kakutani (1941)]
Sea ϕ : S → P(S), con S un subconjunto no-vacío, compacto y convexo de
Rn . Si ϕ es una correspondencia semicontinua superiormente tal que para
todo s ∈ S, ϕ(s) es convexo (y no-vacío), entonces ϕ(·) tiene al menos un
punto fijo, es decir, existe s∗ ∈ S tal que s∗ ∈ ϕ(s∗ ) (figura 2.30).
S
s∗ ∈ ϕ(s∗ )
•∗
s S
Figura 2.30. Teorema del punto fijo de Kakutani.
Demostración.
Como S es compacto, dado ǫ > 0 podemos construir una colección de mǫ
bolas abiertas de radio ǫ, Bǫ (aǫi ), con aǫi ∈ S, y tales que
m
[ǫ
S⊆ Bǫ (aǫi )
i=1
Con esto, definimos la función ϕǫ : S → S mediante la fórmula
mǫ
X
ϕǫ (x) = wiǫ (x) bǫi
i=1
donde bǫi ∈ ϕ(aǫi ) es fijo, y wiǫ (x) está dado por la fórmula
Máx{ǫ− k x − aǫi k, 0}
wiǫ (x) = Pmǫ ǫ
j=1 Máx{ǫ− k x − aj k, 0}
Esta función satisface las condiciones del teorema de punto fijo de Brouwer
(teorema 16) y, por lo tanto, existe un xǫ ∈ S tal que ϕǫ (xǫ ) = xǫ . Ahora:
2.9. Teoremas de punto fijo 137
como S es compacto, podemos asumir que el conjunto de puntos fijos {xǫ }
tiene una subsucesión convergente {xǫn } –volumen I (Álgebra lineal y cálculo
en varias variables)–. Sea x ∈ S su límite cuando n → ∞, y probemos que
x ∈ ϕ(x) mostrando que la distancia entre x y el conjunto ϕ(x) es igual a 0.
Para hacerlo, definamos el conjunto ϑδ = ϕ(x) − Bδ (0) que es un conjunto
abierto que contiene al conjunto ϕ(x), y probemos que x ∈ ϑ2δ para todo δ >
0, pues esto, inmediatamente, nos conduce al objetivo requerido. En efecto:
como ϕ(·) es semicontinua superiormente, entonces podemos encontrar una
bola abierta Bǫ (x) tal que ϕ(Bǫ (x)) ⊆ ϑδ . Por lo tanto, para n grande se
tendrá que si wiǫn (xǫn ) > 0,
ǫ ǫ
kaǫi n − xk ≤k aǫi n − xǫn k + k xǫn − x k< + =ǫ
2 2
Así, aǫi n ∈ Bǫ (x) si wiǫn (xǫn ) > 0, y esto implica que bǫi n ∈ ϕ(Bǫ (x)) ⊆ ϑδ .
Además, como X ǫ
xǫn = wi n (x) bǫi n
y ϑδ es convexo, se tendrá que xǫn ∈ ϑδ . Haciendo n tender a infinito
tendremos que
x ∈ ϑ2δ
para todo δ, y esto finaliza la prueba.
Con la demostración del teorema 17, notamos que el teorema de Brouwer
implica el teorema de Kakutani; y es claro que el teorema de Brouwer es un
caso especial del teorema de Kakutani. Por lo tanto, podemos afirmar que:
Corolario 2.
Los teoremas de punto fijo de Brouwer y Kakutani son equivalentes.
Ejemplo 36. (Más ejemplos de puntos fijos)
a) Sea ϕ : [0, 1] → P([0, 1]) definida por ϕ(x) = [0, x2 ]. Esta corresponden-
cia satisface las condiciones del teorema de punto fijo de Kakutani (¿por
qué es ϕ semicontinua superiormente?). Por lo tanto, existe x∗ ∈ [0, 1]
tal que x∗ ∈ ϕ(x∗ ) = [0, (x∗ )2 ]. En efecto, x∗ = 0 y x∗ = 1 satisfacen
esta condición.
x
b) Sea ϕ : [0, 1] → P([0, 1]) definida por ϕ(x) = [0, e 2−1 ]. Esta corres-
pondencia también satisface las condiciones del teorema de Kakuta-
ni (¿por qué?). Para hallar los puntos fijos, recurrimos a la condición
x∗
x∗ ∈ ϕ(x∗ ) = [0, e 2−1 ], y arribamos a que x∗ = 0.
138 Capítulo 2. Optimización estática
c) Sea ϕ : [0, 1] → P([0, 1]) definida por ϕ(x) = [0, 2x2 − 32 x3 − 12 x4 + 10
1
].
También esta correspondencia satisface las condiciones del teorema de
Kakutani, y los puntos fijos están determinados mediante la condición
" #
2 (x∗ )4 1
x ∈ 0, 2(x ) − (x∗ )3 −
∗ ∗ 2
+
3 2 10
es decir, todos los puntos x∗ de la unión de intervalos [0, 0.13]∪[0.56, 0.91].
2.9.1. Aplicaciones de los teoremas de punto fijo
Son numerosas las aplicaciones de los teoremas de punto fijo. Aquí sólo pre-
sentamos dos, para mostrar la potencia de estas herramientas: el teorema
del minimax y el teorema de Perron-Frobenius. En ellas únicamente seña-
laremos pautas de demostración, dejando al lector el trabajo de completar
los detalles.
a) Aunque el teorema minimax fue demostrado anteriormente utilizando el
teorema de separación de Minkowski (teorema 12), no debería sorprender
que sea posible probarlo utilizando el teorema de punto fijo de Kakutani:
Defina K(p, q) = qApT para A = [aij ]m×n , p en el simplex unitario
∆n de Rn , y q en el simplex unitario ∆m de Rm ; y luego defina las
correspondencias
ϕ(q) = arg Máxq K(p, q), ψ(p) = arg Máxp K(p, q)
Defina la correspondencia
f (p, q) = ϕ(q) × ψ(p)
y establezca que su dominio y su rango es ∆n × ∆m .
Pruebe que esta correspondencia satisface las hipótesis del teorema de
punto fijo de Kakutani.
Por tanto, existen p∗ y q ∗ tales que (p∗ , q ∗ ) ∈ ϕ(q ∗ ) × ψ(p∗ ). Es decir,
p∗ ∈ ϕ(q ∗ ), q ∗ ∈ ψ(p∗ )
Así, K(p, q ∗ ) alcanza un máximo en p∗ , y K(p∗ , q) alcanza un mínimo
en q ∗ . Por consiguiente, (p∗ , q ∗ ) es un punto que satisface
Máxp Mínq qApT = Mínq Máxp qApT
2.9. Teoremas de punto fijo 139
b) También es posible demostrar el teorema de Frobenius (1903) –o, más
precisamente, de Perron-Frobenius (Perron, 1907)–:
Teorema 18. [Teorema de Perron (1907)-Frobenius (1903)]
Sea A una matriz cuadrada n×n no negativa (no nula). Entonces, la matriz
A tiene algún valor propio no negativo (y no todos cero). Y, con el máxi-
mo valor propio, está asociado un vector propio cuyas componentes son no
negativas (y no todas cero).
Estas son las pautas para su demostración (Nikaido, 1968):
Sea L(A) = {µ ∈ R | Ax ≥ µx para algún x ≥ 0} y pruebe que
L(A) 6= ∅ y es acotado superiormente.
Sea λ(A) = sup L(A). Pruebe que λ(A) ≥ 0 y λ(A) ∈ L(A). Así, existe
algún x ≥ 0 tal que Ax ≥ λ(A)x.
Sea Ω = {x ∈ ∆n | Ax ≥ λ(A)x} donde ∆n es el simplex unitario en
Rn , y establezcamos la función
f :Ω→Ω
definida por
1
f (x) = Pn (In + A)x
1+ i,j=1 aij xj
donde A = [aij ], x = (xj ). ¿Por qué está bien definida esta función?
[Sugerencia: pruebe que Af (x) ≥ λ(A)f (x)].
Pruebe que Ω es compacto y convexo en Rn .
Pruebe que f (·) es continua.
Aplique el teorema de punto fijo de Brouwer para garantizar la exis-
tencia de un x∗ ∈ Ω tal que f (x∗ ) = x∗ ; es decir
1
Pn ∗ (In + A)x∗ = x∗
1+ i,j=1 aij xj
Pruebe que
n
X
aij x∗j x∗ = Ax∗
i,j=1
y que
n
X
λ(A) = aij x∗j
i,j=1
140 Capítulo 2. Optimización estática
Ejemplo 37." #
5 4
a) La matriz tiene como valores propios λ1 = 1, λ2 = 6. Así, λ(A) =
1 2
6, y un vector propio asociado a este valor propio es (4, 1).
1 2 0
b) La matriz 2 2 2 tiene como valores propios λ1 = −1, λ2 = 2, λ3 = 5.
0 2 3
Así λ(A) = 5, y un correspondiente vector propio es (1, 2, 2).
" #
0 1
c) La matriz tiene como valores propios λ1 = λ2 = 0. Así, λ(A) = 0,
0 0
y un correspondiente vector propio es (1, 0).
Ejercicios 8
1. ¿Podemos aplicar el teorema de punto fijo de Kakutani en alguno de los
casos del ejercicio 1, Ejercicios 7? Explique.
2.10. Contexto económico
A mediados del siglo XIX los economistas compartían, en general, una mis-
ma perspectiva sobre la teoría del valor y la distribución. El valor de un saco
de maíz, por ejemplo, se creía que estaba determinado por los costos impli-
cados en producir ese bushel; y el producto de una economía se distribuía
entre los diferentes grupos sociales de acuerdo con los costos implicados por
estos grupos en producir ese producto. Esta era, vagamente, la teoría clási-
ca desarrollada por Adam Smith, David Ricardo, Thomas Robert Malthus,
John Stuart Mill y Karl Marx.
Pero algunos percibían dificultades con esta aproximación. Una de estas
era que los precios en el mercado no necesariamente reflejaban el valor, ya
que las personas, a menudo, estaban dispuestas a pagar más de lo que un
objeto valía. Las teorías clásicas que asociaban el valor como una propiedad
inherente de un objeto, gradualmente abrieron camino a una perspectiva en
la cual el valor estaba asociado con la relación entre el objeto y la persona
que tiene el objeto.
Varios economistas entre las décadas de 1870 y 1880 (William S. Jevons
y Francis Edgeworth en Inglaterra, León Walras en Suiza e Irving Fisher
2.10. Contexto económico 141
en Estados Unidos) comenzaron a basar el valor en la relación entre costos
de producción y elementos subjetivos en la demanda (función de utilidad).
Enmarcado dentro de la revolución marginalista (von Thünen, 1826) el in-
dividualismo metodológico (Menger, 1871) en economía, a tal desarrollo se le
denominó economía neo-clásica, término acuñado, al parecer, por Thorstein
Veblen en su The Preconceptions of Economic Science de 1910.
En este escenario, la economía neoclásica se acostumbraba describir así:
Toda economía se compone de individuos de dos tipos: consumidores y pro-
ductores.
a) Los consumidores tratan de maximizar su satisfacción (utilidad) de con-
sumir bienes y servicios, y lo hacen aumentando las compras de cada bien
hasta que lo que ganan por una unidad adicional de algún bien sea equi-
parada con lo que tendría que entregar por obtenerla. De forma similar,
los individuos ofrecen mano de obra a las firmas que quieren emplearlos
de tal modo que equiparan las ganancias de ofrecer una unidad marginal
de sus servicios (e.d. el salario que recibirían) con la “desutilidad” de la
mano de obra misma (posibilidades de ocio). Así, los individuos eligen
de acuerdo con la noción de marginalidad, y esto produce una teoría de
demanda de bienes y oferta de mano de obra.
b) En forma similar, los productores intentan producir las unidades de un
bien de tal forma que el costo de producir una unidad marginal sea
equiparado al rendimiento que genera, y así se maximizan sus beneficios.
Las firmas también contratan empleados de tal modo que el costo de
un contrato adicional sea equiparado con el valor del producto que ese
empleado adicional produciría.
A teorías basadas en estas hipótesis (aquí descritas verbalmente) se les lla-
ma, como era de esperarse, teorías neoclásicas. Así, en definitiva, para la
economía neoclásica, el sistema económico es un campo de mecánica racio-
nal: los agentes son los átomos; la función objetivo es la función de energía;
y el objetivo es la optimización de la energía mediante algún principio de
“mínima acción” o similar. Atomicidad, funciones objetivo y, sobre todo,
optimización, son las características centrales de la teoría neoclásica. Así,
ligada a una ciencia exitosa, como la Física, la economía neoclásica ha bus-
cado hacer de la Economía una ciencia también. Que lo haya logrado es un
tema aún de debate.
142 Capítulo 2. Optimización estática
2.10.1. Comportamiento racional sin interacciones
La división metodológica neoclásica de una economía entre productores y
consumidores condujo, inicialmente, a un análisis detallado de cada uno de
estos sectores separadamente, y, en particular, de cada firma o consumidor
aisladamente; es decir, no existe interacción, ni entre procesos productivos,
ni entre consumidores, ni entre productores y consumidores: los agentes
de estos sectores económicos operan paramétricamente a través de señales
del mercado tales como los precios, y no existe ninguna interacción entre
ellos que afecte sus decisiones económicas. A este esquema de operación
económica se le conoce como “competencia perfecta”. Veamos esto con cierto
detalle.
[Link]. Minimización de costos
Ya sabíamos –volumen I (Álgebra lineal y cálculo en varias variables)– que
una de las formas de modelar el comportamiento de los productores bajo
competencia perfecta es por medio del problema de mínimos costos:
Minimizar w1 x + w2 y
sujeta a f (x, y) ≥ y0
x, y ≥ 0
donde w1 , w2 > 0 son los precios de los insumos x y y respectivamente (que
son dados por el mercado); y0 > 0 fijo es la producción mínima requerida en
el período económico; y f (x, y) es una función de producción (o tecnología)
que relaciona las cantidades de los insumos x y y con una cantidad de
producción definida por la función f : R2+ → R (figura 2.31).
Para asegurar la existencia de una solución a este tipo de problema de
producción, sólo necesitaríamos que el conjunto
S = {(x, y) ∈ R2+ | f (x, y) ≥ y0 }
fuera compacto (teorema 1), ya que la función objetivo es lineal y, por tanto,
continua. Pero el conjunto S no es compacto, y por eso recurrimos a un
“truco”: primero, definimos un conjunto S ′ ⊆ S, que sí sea compacto y que
mantenga la esencia del problema económico: sea (x′ , y ′ ) ∈ R2+ cualquiera,
pero fijo; el costo mínimo buscado w1 x∗ + w2 y ∗ debe ser entonces menor o
igual a w1 x′ + w2 y ′ . Si restringimos la atención al conjunto compacto (figura
2.31)
S ′ = {(x, y) ∈ R2+ | f (x, y) ≥ y0 , w1 x + w2 y ≤ w1 x′ + w2 y ′ }
2.10. Contexto económico 143
notamos que podemos utilizarlo como conjunto compacto para que el pro-
blema del productor, ahora sí, tenga solución. Si la función de producción
es cuasicóncava estricta, entonces, podemos utilizar el teorema 2 de este
capítulo para asegurar que la solución (x∗ , y ∗ ) al problema del productor es
única.
y
costo mín. = w1 x∗ + w2 y ∗
y∗ •
f (x, y) = y0
x∗ x
Figura 2.31. Solución gráfica al problema del productor que minimiza costos.
De otro lado, notemos que si f (·, ·) es diferenciable con continuidad en R2+ , el
problema cumple con las condiciones del teorema 5, así que las soluciones de
las condiciones de primer orden de Kühn-Tucker son también las soluciones
del problema del productor. Estas condiciones de primer orden son:
∂f ∂f
(i) −w1 − λ ≤0 ; −w2 − λ ≤0 ; f (x, y) ≥ y0
∂x ∂y
∂f ∂f
(ii) x −w1 − λ = 0 ; y −w2 − λ = 0 ; λ (f (x, y) − y0 ) = 0
∂x ∂y
Además, por el teorema de la envolvente (teorema 6), tenemos que, en es-
te contexto, −λ mide el cambio en los costos óptimos cuando se varía la
producción mínima requerida.
Ejemplo 38. (Mínimos costos con tecnología Cobb-Douglas)
Resolvamos el problema de minimización de costos
Minimizar w1 x + w2 y
sujeta a xα y β ≥ y0
x, y ≥ 0
donde w1 , w2 , α, β > 0; y0 > 0 fijo (figura 2.32).
144 Capítulo 2. Optimización estática
y
y∗ •
xα y β = y0
x∗ x
Figura 2.32. Mínimos costos con tecnología Cobb-Douglas.
Solución.
Las condiciones de primer orden del problema del productor son:
i) −w1 − λαxα−1 y β ≤ 0; −w2 − λβxα y β−1 ≤ 0; xα y β ≥ y0
ii) x −w1 − λαxα−1 y β = 0; y −w2 − λβxα y β−1 = 0
λ xα y β − y0 = 0
Analizamos sólo el caso x > 0, y > 0 (¿por qué?): Si x > 0, y > 0, entonces,
w1 w2 w2 β
de (ii), λ = − α−1 β = − α β−1 6= 0, lo que implica y = x y
αx y βx y w1 α
entonces, nuevamente de ii),
β
1
α w2 α+β
x= y0α+β
β w1
Por consiguiente, las demandas de factores y el costo marginal son
β
1
∗ α w2 α+β
x = y0α+β
β w1
α
1
∗ β w1 α+β
y = y0α+β
α w2
β
1
∗ w1 α w2 α+β
−λ = y0α+β
αy0 β w1
2.10. Contexto económico 145
Así, el productor produce exactamente y0 , y el costo mínimo de producir al
menos esa cantidad es
β α
1
α w2 α+β β w1 α+β
C(w1 , w2 , y0 ) = w1 + w2 y α+β
0
β w1 α w2
A C(w1 , w2 , y0 ) se le conoce como la función de costos de la tecnología
Cobb-Douglas. Notemos que el problema del productor tiene solución, inde-
pendientemente del tipo de rendimientos a escala que presente la función de
producción.
Ejemplo 39. (Mínimos costos con tecnología lineal)
En el problema de mínimos costos
Minimizar w1 x+w2 y
sujeta a αx + βy ≥ y0
x, y ≥ 0
donde w1 , w2 , α, β > 0; y0 > 0 fijo, las condiciones de primer orden del
problema del productor son
i) −w1 − λα ≤ 0; −w2 − λβ ≤ 0; αx + βy ≥ y0
ii) x (−w1 − λα) = 0; y (−w2 − λβ) = 0; λ (αx + βy − y0 ) = 0
y y
y0
β •
•
y0 x x
α
a) b)
Figura 2.33. Solución gráfica del problema del productor con tecnología lineal. En el
w1 w1
panel a): α
β
> w2
. En el panel b): α
β
< w2
.
146 Capítulo 2. Optimización estática
Analizamos tres casos:
a) Si x > 0, y > 0, entonces, de ii), λ = −w1 /α 6= 0 y λ = −w2 /β 6= 0, lo
cual sólo se cumple si α/β = w1 /w2 (caso muy particular). Si se tiene esta
última igualdad, entonces λ∗ < 0, y de (ii) debe tenerse αx∗ + βy ∗ = y0 .
Por lo tanto, cualquier combinación de x, y que satisfaga la restricción
también satisface todas las condiciones.
b) Si x > 0, y = 0, entonces, de ii), λ = −w1 /α 6= 0 y x∗ = y0 /α. Para que
se cumpla la condición i) debe tenerse que w1 /w2 ≤ α/β, y en este caso,
x∗ = y0 /α, y ∗ = 0, λ∗ = −w1 /α (figura 2.33).
c) Si x = 0, y > 0, entonces de ii), λ = −w2 /β 6= 0 y y ∗ = y0 /β. Para
que se cumpla la condición (i), debe tenerse que: α/β ≤ w1 /w2 , en cuyo
caso, x∗ = 0, y ∗ = y0 /β, λ∗ = −w2 /β (figura 2.33).
Así, la producción óptima es y0 , y la función de costos de la tecnología lineal
es: w
2 α w1
y0 si ≤
β β w2
C(w1 , w2 , y0 ) =
w1 α w1
y0 si ≥
α β w2
Las demandas óptimas son las correspondencias
α w1
0 si <
β w2
∗ y0 α w1
x (w1 , w2 , y0 ) = 0, si =
α β w2
y0 α w1
si >
α β w2
y0 α w1
si <
β β w2
y ∗ (w1 , w2 , y0 ) = y0 α w1
0, si =
β β w2
α w1
0 si >
β w2
2.10. Contexto económico 147
y el costo marginal es:
w2 α w1
si ≤
β β w2
−λ∗ =
w1 α w1
si >
α β w2
Ejemplo 40. (Mínimos costos con tecnología CES)
En el problema de mínimos costos
Minimizar w1 x+w2 y
1
sujeta a [αxρ + βy ρ ] ρ ≥ y0
x, y ≥ 0
donde w1 , w2 , α, β > 0; y0 > 0 fijo, ρ ≤ 1, ρ 6= 0, las condiciones de primer
orden del problema del productor son:
1−ρ
(i) −w1 − λα [αxρ + βy ρ ] ρ xρ−1 ≤ 0
1−ρ
−w2 − λβ [αxρ + βy ρ ] ρ y ρ−1 ≤ 0
1
[αxρ + βy ρ ] ρ ≥ y0
1−ρ
(ii) x −w1 − λα [αxρ + βy ρ ] ρ xρ−1 = 0
1−ρ
y −w2 − λβ [αxρ + βy ρ ] ρ y ρ−1 = 0
1
λ [αxρ + βy ρ ] ρ − y0 = 0
Analizamos tres casos:
1. Si x > 0, y > 0, entonces de (ii),
w1 w2
λ=− 1−ρ =− 1−ρ 6= 0
α [αxρ + βy ρ ] ρ xρ−1 β [αxρ + βy ρ ] ρ y ρ−1
de lo cual resulta que
1
w2 α ρ−1
y= x
w1 β
148 Capítulo 2. Optimización estática
y utilizando nuevamente (ii), obtenemos que
" ρ #− 1 " ρ #− 1
ρ ρ
∗ w2 α ρ−1
∗ w1 β ρ−1
x = α+β y0 , y = α +β y0
w1 β w2 α
lo cual es equivalente a
1 ρ ρ − 1
1 1 1 ρ
∗ − ρ−1 ρ−1 − ρ−1 ρ−1 − ρ−1 ρ−1
x =α w1 α w1 +β w2 y0
1 ρ ρ − 1
1 1 1 ρ
∗ − ρ−1 ρ−1 − ρ−1 ρ−1 − ρ−1 ρ−1
y =β w2 α w1 +β w2 y0
y cuyo costo es
! 1 ! 1 ρ−1
ρ
w1ρ ρ−1
w2ρ ρ−1
C(w1 , w2 , y0 ) = + y0
α β
w1 y0
2. Si x > 0, y = 0, entonces de (ii), λ = − 1 . Así,1 6= 0 y x =
α αρ ρ
y0 w1
x∗ = 1 , y ∗ = 0, λ∗ = − 1 , que cumple todas las condiciones, y
αρ αρ
w 1 y0
cuyo costo es C(w1 , w2 , y0 ) = 1 (figura 2.34).
αρ
w2 y0
3. Si x = 0, y > 0, entonces de (ii), λ = − 1 6= 0 y y = 1 . Así, x∗ = 0,
βρ βρ
y 0 w 2
y ∗ = 1 , λ∗ = − 1 , que cumple todas las condiciones, y cuyo costo
βρ βρ
w 2 y0
es C(w1 , w2 , y0 ) = 1 (figura 2.34).
βρ
La función de costos de la tecnología CES es:
" # ρ−1
ρ 1 ρ 1 ρ
w ρ−1 w ρ−1
α
1
+ β2 y0 si ρ < 0
1
ρ 1 w1 α ρ
C(w1 , w2 , y0 ) = w1 ρ
y si ≤ ρ>0
α
0
w2 β
1
ρ 1
w1 α ρ
w 2 ρ y0
si ≥ ρ>0
β w2 β
2.10. Contexto económico 149
y y y
y0 y0
β 1/ρ • β 1/ρ •
• •
y0 x x y0 x
α1/ρ α1/ρ
a) b) c)
Figura 2.34. Solución gráfica del problema del productor con tecnología CES, caso ρ > 0.
α
ρ1 w1 α
ρ1 w1 α
ρ1 w1
En el panel a): β
> w2
. En el panel b): β
< w2
. En el panel c): β
= w2
.
y las demandas son las siguientes correspondencias:
− 1
ρ ρ
1
− ρ−1
1 1
− ρ−1 1
− ρ−1 ρ
α w1ρ−1 α w1ρ−1 + β w2ρ−1 y0 , ρ < 0
1
y0 w1 α ρ
x∗ (w1 , w2 , y0 ) = si ≤ ρ>0
1
w2 β
αρ 1
w1 α ρ
0 si ≥ ρ>0
w2 β
ρ ρ − 1
1
1
− ρ−1 1
− ρ−1 1
− ρ−1 ρ
β w2ρ−1 α w1ρ−1 + β w2ρ−1 y0 , ρ<0
1
w1 α ρ
y ∗ (w1 , w2 , y0 ) = 0 si ≤ ρ>0
w2 β
1
y0 w1 α ρ
si ≥ ρ>0
1
βρ w2 β
[Link]. Maximización de beneficios
Otro mecanismo muy utilizado para modelar el comportamiento del produc-
tor racional es el supuesto de que maximiza beneficios, es decir, se asume
que el productor resuelve el problema
Maximizar p ȳ − w1 x − w2 y
sujeta a ȳ = f (x, y)
x, y ≥ 0
150 Capítulo 2. Optimización estática
donde ȳ > 0 es el total de la producción, p > 0 es el precio de venta del
bien, w1 , w2 > 0 son los precios de los insumos utilizados en la producción
y f : R2+ −→ R+ (con f (0, 0)) es la función de producción (o tecnología).
Notemos que este problema es equivalente al problema
Maximizar pf (x, y) − w1 x − w2 y
sujeta a x, y ≥ 0
Siguiendo los teoremas 4 y 5, notamos que para que las condiciones KT
sean equivalentes a las condiciones CPO se requerirá que la función de pro-
ducción f (·, ·) satisfaga ser dos veces diferenciable con continuidad y cón-
cava en R2+ . Sin embargo, por sí mismas, estas condiciones no garantizan
siempre la existencia de solución. Para hacerlo, primero debemos asegu-
rar que ∇f (x, y) >> 0 en R++ (es decir, la función de producción f (·, ·)
tiene productividades marginales estrictamente crecientes en R++ ) y des-
pués debemos recurrir al teorema de Weierstrass aplicándolo a la función
π = pf (x) − w1 x − w2 y. Al aplicar este último teorema sobre el conjunto
compacto en R2++ conformado por la curva de todos los y ∗ ∈ R2++ tales que
f (y∗) = (1/p)(w1 , w2 ) · y ∗ (es decir, con beneficio cero) y (si fuera necesario)
los ejes coordenados x e y, podemos, entonces, asegurar que habrá solución
al problema en el interior de ese conjunto. Obviamente, aquí, asumimos que
esta curva de beneficio cero es distinta de (0, 0) y para garantizar esto y,
además, que la solución sea única, usualmente se requiere pedir que f (·, ·)
sea cóncava estricta, pues con ello se hace de la función π(·, ·) también una
función cóncava estricta.
Al final de cuentas, si la función de producción es cóncava estricta y tiene
productividades marginales crecientes, entonces la solución (interior al plano
R2+ ) es única y satisface las CPO del problema:
∂f ∂f
p − w1 = 0, p − w2 = 0
∂x ∂y
Es usual analizar este problema gráficamente utilizando una figura que re-
lacione el nivel de producción ẑ y uno de los insumos x ó y. Para ello, por
ejemplo, suponemos fijo el nivel de insumo y en y = ŷ, y dibujamos la función
de producción f (x, ŷ) en el plano (x, z̄), donde z̄ = f (x, ŷ) (figura 2.35a).
Asímismo, se pueden dibujar las diferentes combinaciones de producción z̄
e insumo x, dado ŷ, que obtienen el mismo nivel Π de beneficios. A estas
combinaciones las denominamos curvas de isobeneficios, y están dadas por
la ecuación
Π w1 w2
ȳ = + x+ ŷ
p p p
2.10. Contexto económico 151
como se muestra en la figura 2.35b). Vemos que la curva de isobeneficio más
alta se alcanza en el punto donde esta es tangente a la función de producción;
es decir, donde
w1 ∂f
=
p ∂x
que es la tradicional condición de igualdad entre ingreso marginal (valor del
producto marginal) y el costo marginal para funciones de producción de un
insumo variable (x) y otro fijo (y = ŷ) –ver figura 2.35c)–.
Π3 f (x, ŷ)
f (x, ŷ)
Π2
Π1 •
x x x
a) b) c)
Figura 2.35. Solución gráfica del problema del productor que maximiza beneficios. En el
panel a) la función de producción dado el valor ŷ del insumo y. En el panel b) las curvas
isobeneficio. En el panel c) el punto óptimo, donde el ingreso marginal es igual al costo
marginal.
Ejemplo 41. (Máximos beneficios con tecnología tipo Cobb-Douglas)
El problema de hacer máximos los beneficios, en este caso, se puede plantear
así: dados α, β, p, w1 , w2 > 0, α + β < 1,
Maximizar pf (x, y) − w1 x − w2 y
sujeta a f (x, y) = xα y β
x, y ≥ 0
Solución.
Las condiciones de primer orden para maximizar los beneficios con tecnolo-
gía Cobb-Douglas son
pαxα−1 y β = w1 , pβxα y β−1 = w2
de lo cual obtenemos que
w1 β
y= x
w2 α
152 Capítulo 2. Optimización estática
Reemplazando en las condiciones de primer orden, encontramos las funcio-
nes de demanda de factores:
1−β β
1
− α+β−1 w1 α+β−1 w2 α+β−1
x∗ (p, w1 , w2 ) = p
α β
α 1−α
1
− α+β−1 w1 α+β−1 w2 α+β−1
y ∗ (p, w1 , w2 ) = p
α β
con función de oferta
α β
∗ ∗
α+β
− α+β−1 w1 α+β−1 w2 α+β−1
f (x (p, w1 , w2 ), y (p, w1 , w2 )) = p
α β
y función de beneficio
α β
1
− α+β−1 w1 α+β−1 w2 α+β−1
Π(p, w1 , w2 ) = (1 − α − β) p
α β
¿Por qué debemos asumir en este problema que α + β < 1? Así, los rendi-
mientos de la tecnología Cobb-Douglas no pueden ser constantes o crecientes
a escala.
Ejemplo 42. (Máximos beneficios con tecnología tipo lineal)
Dados α, β, p, w1 , w2 > 0,
Maximizar pf (x, y) − w1 x − w2 y
sujeta a αx + βy = f (x, y)
x, y ≥ 0
Solución.
El problema de optimización del productor es equivalente a
Maximizar p(αx + βy) − w1 x − w2 y
sujeta a x, y ≥ 0
cuya función objetivo es creciente en x si p α > w1 , y en y si p β > w2 . Así,
las correspondencias de demanda de factores son
∞
si p α > w1
x(p, w1 , w2 ) = [0, ∞) si p α = w1
0 si p α < w1
∞
si p β > w2
y(p, w1 , w2 ) = [0, ∞) si p β = w2
0 si p β < w2
2.10. Contexto económico 153
la correspondencia de oferta es
∞
si p α > w1 , ó , p β > w2
f (x(p, w1 , w2 ), y(p, w1 , w2 )) = [0, ∞] si p α = w1 , y , p β = w2
0 si p α < w1 , y , p β < w2
y la correspondencia de beneficios es
∞
si p α > w1 , ó , p β > w2
Π(p, w1 , w2 ) = 0, ó, ∞ si p α = w1 , y , p β = w2
0 si p α < w1 , y , p β < w2
Estas correspondencias de demanda, de oferta y de beneficio muestran un
comportamiento que proviene de que la función de producción y, por tanto,
también la función de beneficio π(x, y) = pf (x, y) − w1 x − w2 y, son homo-
géneas de grado 1: π(tx, ty) = p(f (tx, ty)) − w1 (tx) − w2 (ty) = t(f (x, y) −
w1 x − w2 y) = tπ(x, y) para todo t > 0. ¿Por qué? Porque no puede existir
(x∗, y∗) ∈ R2+ que maximice π(x, y), ya que, en ese caso, para todo t > 1 se
tendrá π(tx∗ , ty ∗ ) = tπ(x∗ , y ∗ ) > π(x∗ , y ∗ ) y no se estaría maximizando el
beneficio en (x∗ , y ∗ ).
Por lo tanto, es común para la teoría neoclásica definir ad hoc la “función” de
beneficios mediante la relación de insumos dada por la ecuación π(x, y) = 0,
en vez de la correspondencia de beneficios descrita arriba. Esta hipótesis,
era de esperarse, tiene numerosas discusiones y debates sobre los cuales no
entraremos aquí –ver Monsalve (2016)–.
Ejemplo 43. (Máximos beneficios con tecnología tipo CES)
Dados α, β, ρ, p, w1 , w2 > 0,
Maximizar pf (x, y) − w1 x−w2 y
1
sujeta a (αxρ + βy ρ ) ρ = f (x, y)
x, y ≥ 0
Solución.
Aquí el argumento es similar al presentado en elejemplo anterior, debido a
que la función de producción CES es homogénea de grado 1, y, por tanto,
también lo es π(x, y) = pf (x, y) − w1 x − w2y (es decir, π(tx, ty) = tπ(x, y)
para todo t > 0).
154 Capítulo 2. Optimización estática
[Link]. Maximización de la utilidad
Como advertimos antes en esta misma sección, al modelar el comporta-
miento del consumidor nos basamos en la idea de que este busca su máxima
utilidad restringido a su asignación presupuestal, asumiendo que el resto de
la economía opera paramétricamente con respecto a él (o ella), y que sólo
recibe señales de precios como mensajeros de información de las activida-
des de los otros agentes. Desde esta visión, nuestro consumidor enfrenta el
problema
Maximizar u(x, y)
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0
donde p1 > 0 es el precio por unidad del bien x; p2 > 0 es el precio por
unidad del bien y, y ambos precios están dados; M > 0 es su presupuesto; y
u(x, y) es la función de utilidad que relaciona el consumo de x y y con el nivel
de satisfacción del individuo (figura 2.36). Para asegurar la existencia de una
solución al problema, por el teorema 1 basta que la función de utilidad sea
continua, ya que el conjunto S = {(x, y) ∈ R2+ | p1 x + p2 y ≤ M } es
compacto. Si, además, la función de utilidad es cuasicóncava estricta, por
el teorema 2 podemos asegurar que dicha solución es única, puesto que el
conjunto S es convexo.
• Solución
x
Figura 2.36. El problema del consumidor racional.
Si la función de utilidad es, además, diferenciable con continuidad en R2+ ,
entonces se cumplen las condiciones del teorema 5 y, así, la solución al
problema estará entre las condiciones de primer orden
2.10. Contexto económico 155
∂u ∂u
i) + λp1 ≤ 0; + λp2 ≤ 0; p1 x + p2 y ≤ M
∂x ∂y
∂u ∂u
ii) x + λp1 = 0; y + λp2 = 0; λ (M − p1 x − p2 y) = 0
∂x ∂y
Por el teorema de la envolvente (previo al teorema 6), tenemos que, en
este contexto, λ mide el cambio en la utilidad (óptima) cuando se varía el
presupuesto M ; esto es, λ es la utilidad marginal del presupuesto.
Ejemplo 44. (Máxima utilidad tipo Cobb-Douglas)
El problema, en este caso, es
Maximizar xα y β
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0
donde los parámetros p1 , p2 , M, α, β son todos positivos.
Solución.
Las condiciones de primer orden del problema del consumidor son
(i) αxα−1 y β + λp1 ≤ 0; βxα y β−1 + λp2 ≤ 0; p1 x + p2 y ≤ M
(ii) x αxα−1 y β + λp1 = 0; y βxα y β−1 + λp2 = 0
λ (M − p1 x − p2 y) = 0
Analizamos únicamente el caso x > 0, y > 0 (¿por qué?). De esta manera,
de (ii),
αxα−1 y β βxα y β−1
λ=− 6= 0 y λ=− 6= 0
p1 p2
y así,
p1 β
y= x
p2 α
y nuevamente de (ii), obtenemos las funciones de demanda del consumidor
αM βM
x∗ (p1 , p2 , M ) = , y ∗ (p1 , p2 , M ) =
p1 (α + β) p2 (α + β)
y nivel óptimo de utilidad
α β
∗ ∗ αM βM
u(x (p1 , p2 , M ), y (p1 , p2 , M )) =
p1 (α + β) p2 (α + β)
156 Capítulo 2. Optimización estática
2.10.2. Funciones del productor y del consumidor
Las diversas funciones estudiadas en el literal anterior poseen ciertas ca-
racterísticas estructurales que nos permiten distinguir claramente cuándo
una función cualquiera proviene (o no) del comportamiento racional de un
productor o de un consumidor. Veamos esto en cada uno de los casos que
hemos estudiado.
[Link]. Características de la función beneficio de un productor
racional
La función de beneficio asigna el máximo nivel de beneficio de la firma para
cada nivel de precio del producto y los precios de los insumos (figura 2.37).
El primer estudio de la función de beneficio fue el trabajo pionero de Harold
Hotelling (1932).
Teorema 19. [Función de beneficio (Hotelling, 1932)]
Si la función Π : R3++ → R, Π(p, w1 , w2 ), resuelve el problema de optimiza-
ción del productor
Maximizar pf (x, y) − w1 x − w2 y
sujeta a x, y ≥ 0
donde p, w1 , w2 > 0, y f (·, ·) es una función de producción continua (arbi-
traria), entonces Π(·, ·, ·) (ver figura 2.37) satisface las condiciones de abajo.
Π(p∗ , w1 , w2 )
w2
w1
Figura 2.37. Típica función de beneficio para un nivel de precios p∗ dado.
a) Π(p, w1 , w2 ) ≥ 0 para todo p, w1 , w2 , es decir, las firmas nunca eligen
trabajar con beneficios negativos.
2.10. Contexto económico 157
b) Π(p, w1 , w2 ) es no decreciente en p y no creciente en w1 y w2 , es decir,
que aumentos en el precio del bien vendido nunca perjudica los beneficios
de la firma, y que aumentos en los precios de los insumos nunca mejoran
los beneficios óptimos.
c) Π(·, ·, ·) es homogénea de grado 1 en (p, w1 , w2 ), es decir, que si multi-
plicamos por t > 0 todos los precios relevantes para la firma, entonces el
beneficio óptimo se aumentará en la misma proporción t.
d) Π(p, w1 , w2 ) es convexa en (p, w1 , w2 ).
Demostración.
Ejercicio complementario 33 al final de este capítulo.
Ejemplo 45.
Verifiquemos que la función de beneficio de la tecnología Cobb-Douglas
α β
1
− α+β−1 w1 α+β−1 w2 α+β−1
Π(p, w1 , w2 ) = (1 − α − β) p
α β
cumple con las propiedades del teorema anterior:
a) Aquí,
α β
∂Π(p, w1 , w2 ) 1 w1 α+β−1 w2 α+β−1
= p− α+β−1 −1 >0
∂p α β
α
−1 β
∂Π(p, w1 , w2 ) 1 w1 α+β−1 w2 α+β−1
= −p− α+β−1 <0
∂w1 α β
α β
−1
∂Π(p, w1 , w2 ) − 1 w1 α+β−1 w2 α+β−1
= −p α+β−1 <0
∂w2 α β
b) Además, para t > 0,
α β
1
− α+β−1 tw1 α+β−1 tw2 α+β−1
Π(tp,tw1 , tw2 ) = (1 − α − β) (tp)
α β
α β
1
− α+β−1 w1 α+β−1 w2 α+β−1
= t (1 − α − β) p
α β
= t Π(p, w1 , w2 )
c) Por último, es inmediato ver que la función es convexa, utilizando el
teorema 4 del capítulo 1.
158 Capítulo 2. Optimización estática
[Link]. Características de la función de costos
La función de costos (figura 2.38) y su análisis se debe al famoso texto
Foundations of Economic Analysis de Paul A. Samuelson (1947); y también
a los trabajos de Ronald Shephard (1953). Veamos cuáles características la
distinguen.
Teorema 20. [Función de costos (Samuelson, 1947)]
Si la función C : R3++ → R, C(w1 , w2 , y0 ), resuelve el problema de optimi-
zación del productor
Minimizar w1 x + w 2 y
sujeta a f (x, y) ≥ y0
x, y ≥ 0
donde f (·, ·) es una función de producción, entonces satisface (ver figura
2.38):
a) C(w1 , w2 , y0 ) es no decreciente en w1 , w2 , y0 .
b) C(w1 , w2 , y0 ) es homogénea de grado 1 en (w1 , w2 ), para y0 fijo.
c) C(w1 , w2 , y0 ) es cóncava en (w1 , w2 ), para y0 fijo.
Demostración.
Ver ejercicio complementario 34.
C(w1 , w2 , y0 )
w2
w1
Figura 2.38. Función de costos para nivel de producción y0 dado.
2.10. Contexto económico 159
Ejemplo 46.
Verifiquemos que la función de costos de la tecnología lineal (ejemplo 39)
w α w1
2
y0 si <
β β w2
C(w1 , w2 , y0 ) =
w1 α w1
y0 si ≥
α β w2
satisface las propiedades del teorema 20 anterior:
a) Si w1′ > w1 , entonces
w
w2 α w′ 2 α w1
y0
si ≤ 1
y0 si ≤
β β w2
β β w2
C(w1′ , w2 , y0 ) = ≥
w1 α w1
w′ α w′
y0 si ≥
1 y0
si ≥ 1 α β w2
α β w2
= C(w1 , w2 , y0 )
Y de forma similar si w2′ > w2 .
b) Además, para t > 0,
tw α w1 w α w1
2 2
y0 si ≤
t y0 si ≤
β β w2
β β w2
C(tw1 , tw2 , y0 ) = =
w1 α w1
tw α w1
si
1 y0 si ≥ t y0 ≥
α β w2 α β w2
= t C(w1 , w2 , y0 )
c) Sean (w1 , w2 ), (w1′ , w2′ ) ∈ R2++ y λ ∈ [0, 1]. Si se tiene que
w1 α w1′ α
≤ ; ′ ≤
w2 β w2 β
entonces
λw1 + (1 − λ)w1′
C(λw1 + (1 − λ)w1′ ,λw2 + (1 − λ)w2′ , y0 ) = y0
α
w1 w′
= λ y0 + (1 − λ) 1 y0
α α
= λC(w1 , w2 , y0 ) + (1 − λ)C(w1′ , w2′ , y0 )
160 Capítulo 2. Optimización estática
El caso con las desigualdades anteriores al revés es similar. Si
w1 α w′
≤ ≤ 1′
w2 β w2
entonces se tiene que
λw1 + (1 − λ)w1′ α λw1 + (1 − λ)w1′ α
′ ≤ , ó ′ ≥
λw2 + (1 − λ)w2 β λw2 + (1 − λ)w2 β
El primer caso implica que
λw1 + (1 − λ)w1′
C(λw1 + (1 − λ)w1′ ,λw2 + (1 − λ)w2′ , y0 ) = y0
α
w1 w′ w1 w′
= λ y0 + (1 − λ) 1 y0 ≥ λ y0 + (1 − λ) 2 y0
α α α β
′ ′
= λC(w1 , w2 , y0 ) + (1 − λ)C(w1 , w2 , y0 )
El otro caso es similar.
[Link]. Características de la función de demanda
Aquí observaremos las características que describen una función de demanda
cuando esta proviene del comportamiento racional de un consumidor (figura
2.39).
Teorema 21. (Función de demanda)
Si las funciones (x, y) : R3++ → R2+ , (x(p1 , p2 , M ), y(p1 , p2 , M )), resuelven
el problema de optimización del consumidor
Maximizar U (x, y)
sujeta a p1 x + p 2 y ≤ M
x, y ≥ 0
donde U (·, ·) es una función de utilidad continua, cuasicóncava estricta y
creciente en x y y, entonces (ver figura 2.39):
a) x(p1 , p2 , M ), y(p1 , p2 , M ) son no crecientes en p1 y p2 , respectivamente;
y no decrecientes en M .
b) x(p1 , p2 , M ), y(p1 , p2 , M ) son homogéneas de grado 0 en (p1 , p2 , M ).
c) x(p1 , p2 , M ), y(p1 , p2 , M ) son cóncavas en M .
2.10. Contexto económico 161
d) x(p1 , p2 , M ), y(p1 , p2 , M ) son continuas.
Demostración.
Ver ejercicio complementario 35.
x(p1 , p2 , M )
p2
p1
Figura 2.39. Función de demanda para presupuesto M dado.
Ejemplo 47. (Demandas de consumidor tipo Cobb-Douglas)
Las funciones de demanda de un consumidor con función de utilidad Cobb-
Douglas son
αM βM
x∗ (p1 , p2 , M ) = y ∗ (p1 , p2 , M ) =
p1 (α + β) p2 (α + β)
Veamos que estas satisfacen las condiciones del teorema anterior.
a) Calculando las derivadas parciales con respecto a p1 , p2 y M tenemos
que:
∂x∗ (p1 , p2 , M ) αM ∂y ∗ (p1 , p2 , M )
=− 2 <0 =0
∂p1 p1 (α + β) ∂p1
∂y ∗ (p1 , p2 , M ) βM ∂x∗ (p1 , p2 , M )
=− 2 <0 =0
∂p2 p2 (α + β) ∂p2
∂x∗ (p1 , p2 , M ) α ∂y ∗ (p1 , p2 , M ) β
= >0 = >0
∂M p1 (α + β) ∂M p2 (α + β)
162 Capítulo 2. Optimización estática
b) αλM
x∗ (λp1 , λp2 , λM ) = = x∗ (p1 , p2 , M )
λp1 (α + β)
βλM
y ∗ (λp1 , λp2 , λM ) = = y ∗ (p1 , p2 , M )
λp2 (α + β)
c) Ambas funciones son lineales en M y, por tanto, cóncavas.
d) Es claro que son continuas en (p1 , p2 , M ) ∈ R3++ .
[Link]. Características de la función de utilidad indirecta
A diferencia de la función de utilidad, la función de utilidad indirecta (Roy,
1947) es muy conveniente en la implementación econométrica, ya que esta
dependerá de parámetros susceptibles de ser medidos a través de datos. Por
esta sola razón merece tener un estudio particular.
Teorema 22. (Función de utilidad indirecta)
Si la función v : R3++ → R2+ , v(p1 , p2 , M ) = u(x(p1 , p2 , M ), y(p1 , p2 , M )) es
evaluada en las soluciones al problema de optimización del consumidor
Maximizar u(x, y)
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0
donde U (·, ·) es una función de utilidad continua, cuasicóncava estricta y
creciente en x y y, entonces satisface:
i) v(p1 , p2 , M ) es no creciente en p1 y en p2 ; y no decreciente en M .
ii) v(p1 , p2 , M ) es homogénea de grado 0 en (p1 , p2 , M ).
iii) v(p1 , p2 , M ) es cuasiconvexa en (p1 , p2 ).
iv) v(p1 , p2 , M ) es continua.
Demostración.
Ver ejercicio complementario 36.
Ejemplo 48.
Verifiquemos que la función de utilidad indirecta de la función de utilidad
Cobb-Douglas
α β
αM βM
v(p1 , p2 , M ) =
p1 (α + β) p2 (α + β)
satisface las condiciones del teorema anterior:
2.10. Contexto económico 163
i) Al derivar con respecto a p1 y p2 obtenemos:
α β
∂v(p1 , p2 , M ) α αM βM
=− <0
∂p1 p1 p1 (α + β) p2 (α + β)
α β
∂v(p1 , p2 , M ) β αM βM
=− <0
∂p2 p2 p1 (α + β) p2 (α + β)
ii) Además,
α β
αλM βλM
v(λp1 , λp2 , λM ) = = v(p1 , p2 , M )
λp1 (α + β) λp2 (α + β)
iii) La función de utilidad indirecta es una función cuasiconvexa en (p1 , p2 )
aplicando la definición 4 del capítulo 1.
iv) Esta función es, claramente, continua en R3++ .
2.10.3. Tradición paretiana del modelo competitivo
Después del trabajo pionero de Walras –Éléments d’Économie Politique Pu-
re (1874-77)– sobre el equilibrio general económico bajo competencia per-
fecta, y antes del modelo neowalrasiano Arrow-Debreu –Arrow & Debreu
(1954); Debreu (1959)– que estudiaremos en el próximo capítulo, la teoría
se bifurcó en dos grandes “escuelas”:
i) La primera, conocida como la “tradición alemana”, se enfocó, funda-
mentalmente, en el problema matemático de la existencia del equilibrio
general competitivo. Esta línea, inspirada por el modelo Walras-Cassel
aparecido en el texto de Gustave Cassel de 1918 Theoretische Sozia-
lökomie , continuó con los trabajos de Abraham Wald (1936), Karl
Schlesinger (1933), y el mismo von Neumann (1932) –ver volumen I
(Álgebra lineal y cálculo en varias variables)–. De hecho, la primera
prueba que se conoce sobre la existencia de un equilibrio competiti-
vo, la obtuvo precisamente Wald (1936, 1951), aunque también von
Neumann había alcanzado a mostrar la existencia de equilibrio en su
modelo de crecimiento de 1932.
ii) La segunda, conocida como la “tradición paretiana”, tuvo su inspira-
ción en el Manuel d’Économie Politique (1906) de Pareto, quien fuera
alumno y sucesor de Walras en la Escuela de Laussane (Suiza). Este,
164 Capítulo 2. Optimización estática
aunque reconocía la teoría pura formal (es decir, los Éléments) de Wal-
ras como su principal fuente de inspiración, una y otra vez aseguraba
que el resto del trabajo de su maestro era fútil metafísica. Este tipo
de afirmación de Pareto haría que se sesgara el estudio de Walras sólo
a la teoría pura, dejando de lado sus trabajos en economía política
aplicada y social, que para el francés eran parte integral de su obra.
Posteriormente, John Hicks profundizaría en este concepto cuando
afirmaba que si de estudiar el problema del equilibrio general plantea-
do por Walras se trataba, era mejor ir a Pareto o a Wicksell que al
propio Walras. De hecho, en el prólogo de Value and Capital de 1939,
Hicks aseguraba que su propósito general era “examinar la teoría de
Pareto y aplicar después esta teoría del valor perfeccionada a aquellos
problemas del capital que estaban fuera del alcance de Wicksell a causa
de la imperfección de los instrumentos de que disponía”.
Pareto y Hicks fueron, sin duda, los pioneros de una corriente muy
influyente en el pensamiento económico del siglo XX: el estudio del
concepto de equilibrio general competitivo y su profunda relación con
el problema del bienestar económico. Sin embargo, en su propósito, no
sólo limitaron el pensamiento original walrasiano, sino que aplicaron
y discutieron sobre objetos de los que no tenían la seguridad de que
existieran, pues, por cualquiera que sea la razón, los problemas de
existencia del equilibrio general competitivo nunca estuvieron en su
agenda de investigación.
Pareto (Manuel, § 38), al igual que Walras, se contentaba con el argu-
mento falaz de que si el número de ecuaciones es igual al número de
incógnitas entonces la existencia de solución estaba garantizada. Por
su parte, Hicks, implícitamente, argumentaba que la solución debería
existir basándose en el significado económico de las ecuaciones 15 .
Esta visión paretiana-hicksiana del trabajo original de Walras sería
fortalecida por la saga Bowley (1924), Hicks & Allen (1934), Lerner
(1932), Kaldor (1939), Scitovsky (1940), y los clásicos À la Recherche
15
Si el lector piensa que garantizar la existencia de un objeto que cumple cierta caracte-
rística, es un ejercicio importante pero sin consecuencia alguna, lo invitamos a considerar
el siguiente muy sencillo ejemplo: “Supongamos que existe un único número natural que
es el más grande de todos los números naturales. Entonces ese número es el 1, puesto
que si otro número natural x > 1 fuera el más grande, entonces, como x2 > x, ya x no
sería el más grande”. Esta es una simple muestra de a qué conclusiones podemos llegar si
comenzamos el argumento lógico con una hipótesis que es falsa.
2.10. Contexto económico 165
d´une Discipline Économique de Allais (1943), Foundations of Welfare
Economics de Lange (1942), y el Foundations of Economic Analysis
de Samuelson (1947) .
Una de las ventajas del sistema paretiano es que es pedagógicamente con-
veniente y su intuición gráfica es muy simple a través de tres herramientas
fundamentales: primero, las curvas de nivel (introducidas por Edgeworth
en su Mathematical Psychics de 1881); segundo, las cajas de Edgeworth
(confusamente vislumbradas por el mismo Edgeworth en su obra magna de
1881, pero introducidas en propiedad por Pareto en el Manuel de 1906); y
tercero, las fronteras de posibilidades de producción –introducidas por Ler-
ner (1932)–. Y aunque con ellas se ilustran claramente las condiciones del
equilibrio general, desafortunadamente, el gran costo de esta aproximación
es que, en general, se apoya en fuertes hipótesis de diferenciabilidad de las
distintas funciones empleadas.
[Link]. El modelo paretiano
Desde la perspectiva actual, el sistema paretiano podría describirse así:
a) Un conjunto de mercancías; es decir, “cosas valiosas e intercambiables”
(Walras, 1874, §41).
b) Un mercado de esas mercancías; es decir, “el lugar donde se cambian las
mercancías” (Walras, 1874, § 41).
c) Todos los agentes (consumidores y productores) responden a precios to-
mados paramétricamente, es decir, a precios dados por el mercado, justi-
ficándose esto sobre la base de que no era posible ningún comportamiento
manipulador dentro de una economía suficientemente grande. Al respec-
to, Walras (1874) afirmaba que (§ 41):
(...) Los mercados mejor organizados desde el punto de vista de la com-
petencia son aquellos en que las ventas y las compras se hacen mediante
subasta, a través de agentes tales como los agentes de cambio, corredores
de comercio o voceadores que las centralizan, de tal forma que ningún
cambio tiene lugar sin que las condiciones sean anunciadas y conocidas
y sin que los vendedores tengan la oportunidad de rebajar sus precios
y los compradores de aumentarlos. Así funcionan las bolsas de valores
públicos, las bolsas de comercio, los mercados de grano, de pescado, etc.
Al lado de estos mercados existen otros donde la competencia, aunque no
tan bien organizada, funciona todavía de una manera bastante adecuada
y satisfactoria: tales son los mercados de frutas y legumbres, de volatería.
Las calles de una ciudad donde se encuentran almacenes y panaderías,
166 Capítulo 2. Optimización estática
carnicerías, tiendas de ultramarinos, sastrerías, zapaterías, constituyen
mercados con una organización un poco más defectuosa desde el pun-
to de vista de la competencia pero, sin embargo, esta está presente de
forma suficiente. (...) Supondremos siempre un mercado perfectamente
organizado16 desde el punto de vista de la competencia, de igual forma
que en la mecánica pura se supone que las máquinas se encuentran libres
de rozamientos.
Y, por su parte, Pareto (1906) decía (§ 46, cap. III):
Si observamos la realidad, vemos que el tipo (I) [de individuo] 17 se en-
cuentra donde hay competencia entre los que se conforman. Las personas
con las cuales contratan pueden no estar en competencia y no seguir en
consecuencia el tipo (I). El tipo (I) es tanto más neto cuando la com-
petencia es más extensa y perfecta. Es precisamente porque cada día
en la Bolsa de París hay muchas personas que compran y venden ren-
ta francesa, que sería locura pretender modificar las condiciones de ese
mercado comprando o vendiendo algunos francos de renta. Evidentemen-
te, si todos los que venden (o compran) se pusieran de acuerdo, podrían
efectivamente modificar esas condiciones en provecho suyo; pero no se
conocen unos a otros, y cada uno actúa por su cuenta. En medio de esta
confusión, y de esta competencia, cada individuo no tiene otra cosa que
hacer, sino ocuparse de sus propios negocios y buscar cómo satisfacer sus
propios gustos, según las diferentes condiciones que pueden presentarse
en el mercado. Todos los vendedores (o los compradores) de renta, mo-
difican el precio, pero lo modifican sin previo designio, y no es el fin sino
el efecto de su intervención.
d) En este modelo también se asume que los consumidores poseen dotacio-
nes de factores y desean consumir bienes producidos por las firmas, que
son las que organizan la producción, demandando factores de los con-
sumidores y ofreciendo bienes producidos. El resto consiste en que los
consumidores escojan la vía de maximizar la utilidad, y los productores
la vía de maximizar el beneficio (siendo esta última una de las princi-
pales “contribuciones” de Pareto al sistema walrasiano). El equilibrio se
alcanza cuando se consigue un conjunto de precios que haga que en los
mercados de productos y de factores, la oferta y la demanda se igualen.
e) Las ilustraciones gráficas del sistema paretiano inevitablemente requie-
ren reducirlo a una economía compuesta por dos consumidores, dos
16
Quizás de aquí proviene el término “competencia perfecta”.
17
Para Pareto, un individuo tipo (I) es aquel que únicamente busca satisfacer sus gustos.
En su lugar, un individuo tipo (II) es el que busca modificar las condiciones del mercado
para “sacar ventaja, o para otro fin cualquiera”.
2.10. Contexto económico 167
productores, y dos factores (2 × 2 × 2). Es básicamente allí donde se
desarrolla todo el modelo. En estas gráficas se ilustra la situación en que
los dos consumidores buscan obtener satisfacción máxima por consumir
lo que producen las dos firmas, sabiendo que están restringidos a un pre-
supuesto determinado por el valor de los bienes de capital que poseen
y del trabajo que puedan ofrecer. Así, el capital y el trabajo requerido
para la producción está en manos de los dos consumidores. Las empre-
sas, siguiendo a Walras, son mecanismos para organizar la producción
tomando los insumos de los consumidores y ofreciéndoles bienes finales.
El equilibrio se alcanza cuando se encuentran unos precios que tienen la
característica de hacer que las firmas produzcan exactamente lo que los
consumidores necesitan.
Se acostumbra utilizar la siguiente notación:
a) Los consumidores son A y B.
b) Los factores son k y l, normalmente asociados con capital (k) y trabajo
(l) 18 .
c) Los productores (firmas) son x y y. Aquí se acostumbra a asumir que cada
firma produce únicamente un bien mediante una función de producción
x = f x (kx , lx ) : R2+ → R+ y y = f y (ky , ly ) : R2+ → R+ .
d) uA (xA , yA ) : R2+ → R es la función de utilidad del agente A que depende
del consumo de bienes (xA , yA ); y su dotación inicial de factores (es decir,
las cantidades de factores (unidades de capital y horas de trabajo) que
el consumidor A coloca a disposición del mercado en el período bajo
estudio) es wA = (k A , lA ).
e) De manera análoga, el consumidor B tiene su función de utilidad uB (xB , yB ) :
R2+ → R, y su dotación inicial wB = (k B , lB ).
Ahora:
i) La primera condición del sistema paretiano es la optimización por
parte de los consumidores:
18
Sobre los factores de producción, tanto Walras como Pareto tienen otras divisiones
metodológicas y de razonamiento económico. La presentada aquí es la más comúnmente
utilizada en la versión paretiana actual, aunque la discusión sobre la conveniencia de
asumir la existencia de una unidad básica de capital es un problema aún en discusión.
168 Capítulo 2. Optimización estática
a) Dados los precios px (del producto x), py (del producto y), r (del
factor k) y s (del factor l), el consumidor A se enfrenta al problema
Maximizar uA (xA , yA )
sujeta a px xA + py yA ≤ rk A + slA
xA , yA ≥ 0
y, puesto que el modelo paretiano asume diferenciabilidad con con-
tinuidad, monotonicidad estricta y concavidad estricta de la fun-
ción uA (·, ·), entonces podemos aplicar las condiciones de Lagran-
ge,19 que son, en este caso:
∂uA ∂uA
= λA px ; = λA py ; px xA + py yA = rk A + slA
∂xA ∂yA
donde λA es el multiplicador de Lagrange para el agente A. Observe
que, inmediatamente, se obtiene la conocida condición
∂uA
∂xA px
A
= (1)
∂u py
∂yA
que afirma que la tasa marginal de sustitución entre xA y yA es
igual a la razón de precios de los bienes px /py (figura 2.40).
yA
∗
yA •
∗)
uA (xA , yA ) = uA (x∗A , yA
x∗A xA
Figura 2.40. El problema del consumidor paretiano.
19
Tradicionalmente, se afirma que Edgeworth (1877), en su New and Old Methods of
Ethics, fue el primero en utilizar el método de los multiplicadores de Lagrange en la teoría
económica. Walras y Pareto, aunque bien dispuestos hacia las matemáticas y advertidos
por colegas de su existencia, omitieron siempre su utilización, debido, quizá, a su limitado
conocimiento del cálculo diferencial.
2.10. Contexto económico 169
b) Para el consumidor B, el problema es similar: este se enfrenta al
problema
Maximizar uB (xB , yB )
sujeta a px xB + py yB ≤ rk B + slB
xB , yB ≥ 0
y con las mismas condiciones sobre uB (xB , yB ) de monotonicidad y
concavidad estricta, las condiciones de Lagrange, son, en este caso:
∂uB ∂uB
= λB px ; = λB py ; px xB + py yB = rk B + slB
∂xB ∂yB
donde λB es el multiplicador de Lagrange para el agente B. Y
se obtiene la respectiva condición de sustitución entre bienes en
equilibrio:
∂uB
∂xB px
B
= (2)
∂u py
∂yB
c) Así, de (1) y (2),
∂uA ∂uB
∂xA (x∗ ,y∗ ) px ∂xB (x∗ ,y∗ )
A A
= = B B ; (3)
∂uA
py ∂uB
∂yA (x∗A ,yA
∗) ∂yB (x∗ ,y∗ )
B B
es decir, en equilibrio, las tasas marginales de sustitución entre los
dos bienes serán iguales para ambos agentes.
Advirtamos, de paso, que las demandas de los consumidores, x∗i y yi∗
para i = A, B, son independientes de una multiplicación por escalar
de los precios, porque si estos cambian de (px , py , r, s) a (tpx , tpy , tr, ts)
para t > 0, la recta presupuestal no se modifica para ningún consumi-
dor y, por ende, las demandas de los consumidores no cambian. Es por
esto que, en equilibrio, podemos escoger algún precio diferente de cero
(llamado “numerario”20 ), y representar los otros precios en términos
de este. Así, es natural encontrar que, en equilibrio, las demandas se
escriban en términos de precios relativos.
20
Término acuñado por Auguste Walras, padre de León Walras.
170 Capítulo 2. Optimización estática
ii) La tercera condición de este tipo de economía es la optimización por
parte de los productores:
i) Cada firma intenta maximizar sus beneficios sujeta a restricciones
tecnológicas y de precios (figura 2.41):
Para la firma que produce x:
Maximizar px x − rkx − slx
sujeta a x = f x (kx , lx )
kx , lx ≥ 0
y para la firma que produce y:
Maximizar py y − rky − sly
sujeta a y = f y (ky , ly )
ky , ly ≥ 0
Nuevamente, el modelo paretiano asume diferenciabilidad con
continuidad, monotononicidad estricta y concavidad estricta de
las funciones de producción f x (·.·) y f y (·.·), lo que, a su vez, im-
plica rendimientos decrecientes a escala en ambas firmas. Así, las
condiciones necesarias de optimalidad para los productos x y y
son respectivamente,
∂f x ∂f x
r = px ; s = px (4)
∂kx ∂lx
∂f y ∂f y
r = py ; s = py (5)
∂ky ∂ly
de donde se obtiene la conocida condición
∂f x ∂f y
∂kx r ∂ky
x = = (6)
∂f s ∂f y
∂lx ∂ly
que asegura que, en equilibrio, las tasas de las productividades
marginales de los factores son iguales a la tasa de sus respectivos
precios 21 .
21
Recordemos que al cociente del lado izquierdo de (6) se le llama tasa marginal de
sustitución técnica.
2.10. Contexto económico 171
lx
recta
rkx + slx = rkx∗ + slx∗
lx∗ •
curva
f x (kx , lx ) = f x (kx∗ , lx∗ )
kx∗ kx
Figura 2.41. El problema del productor paretiano.
iii) Así, encontrar un equilibrio competitivo consistirá en hallar unos pre-
cios de mercado px , py , r y s tales que las condiciones
x∗A + x∗B = f x (kx∗ , lx∗ )
∗ ∗
yA + yB = f y (ky∗ , ly∗ )
kx∗ + ky∗ = k A + k B (7)
lx∗ + ly∗ = lA + lB
se satisfagan; es decir, que se tengan las conocidas condiciones walrasianas de
“oferta=demanda”. Claramente, estos precios px , py , r y s y asignaciones kx∗ ,
lx∗ , ky∗ , ly∗ , x∗A , yA
∗ , x∗ , y ∗ , se calculan utilizando las ecuaciones de optimalidad
B B
(1), (2), (3), (4), (5) , (6) y (7) de arriba.
El problema general del equilibrio se escinde, en consecuencia, en otros tres
que consisten: 1° En determinar el equilibrio en lo que concierne a los gustos;
2° En determinar el equilibrio en lo que concierne a los obstáculos o en lo
que concierne a los productores; 3° En encontrar un punto común a esos dos
equilibrios, que formará un punto de equilibrio general. (Pareto, 1906, § 90,
cap. III).
[Link]. La caja de Edgeworth: típica herramienta paretiana22
Como afirmábamos antes, Pareto fue quien primero utilizó efectivamente el
instrumento gráfico conocido como la caja de Edgeworth para mostrar la
relación que existe entre los equilibrios competitivos (o walrasianos) y las
asignaciones óptimas. Sin embargo, este formidable instrumento tiene hoy
dos versiones: una, para describir la interrelación entre los dos consumidores
y, otra, para describir la interrelación entre los dos productores.
22
También conocida como la caja de Edgeworth-Bowley.
172 Capítulo 2. Optimización estática
a) En el caso de los dos consumidores, las dimensiones de la caja están
determinadas por las cantidades totales de las dos mercancías que ellos
ofrecen en la economía: el lado de la caja mide f x (kx , lx ), y la altura
mide f y (ky , ly ) donde kx + ky = k A + k B y lx + ly = lA + lB . El con-
sumidor A mide sus consumos desde la esquina inferior izquierda de la
caja, y el consumidor B mide sus consumos desde la esquina superior
derecha. Así, un punto de la caja de Edgeworth nos da completa infor-
mación sobre la cantidad de cada una de las mercancías que demanda
cada consumidor: la cantidad del bien x que demanda el consumidor A
se mide desde la esquina inferior-izquierda hacia la derecha, y la canti-
dad del bien y se mide desde la esquina inferior-izquierda hacia arriba.
La cantidad del bien x que demanda el consumidor B se mide desde la
esquina superior-derecha hacia la izquierda, y la cantidad del bien y se
mide desde esa misma esquina pero hacia abajo. Así, todo punto dentro
de la caja identifica ambas demandas por parte de los consumidores.
consumidor B
curva de contrato
consumidor A
Figura 2.42. Caja de Edgeworth para el consumidor paretiano.
En la figura 2.42, las intersecciones tangenciales de las curvas de nivel
de las funciones de utilidad de A y B dan origen a una curva muy im-
portante, que en adelante llamaremos “curva de contrato” (Edgeworth,
1881) de la economía. Y su importancia radica en que estos puntos de
la curva son precisamente aquellos pares (xA , yA ),(xB , yB ) que satisfacen
la condición (3) de optimalidad para los consumidores A y B, respecti-
vamente23 .
b) En el caso de la interrelación entre los dos productores, la caja de Edge-
worth tendrá medidas k A + k B (lado) y lA + lB (altura). En la figura 2.43
23
Aunque a veces es más conveniente dibujar la curva de contrato en un plano uA versus
uB al transformar las demandas óptimas en sus respectivas utilidades. Esta es la conocida
como “frontera Pareto”.
2.10. Contexto económico 173
productor y
frontera de
posibilidades
de producción
productor x
Figura 2.43. Caja de Edgeworth para el productor paretiano.
aparece una curva conformada por todas las intersecciones tangenciales
de las curvas de nivel de las funciones de producción. A esta curva se
le llama “frontera de posibilidades de producción (FPP)” (Lerner, 1932).
También en este caso, esta curva está conformada por todos los pares
(kx , lx ) y (ky , ly ) que satisfacen la ecuación (6) de optimalidad en la pro-
ducción 24 .
[Link]. La ley de Walras
Notemos que en el modelo paretiano se tiene que
(px xA + py yA ) + (px xB + py yB ) = (rlA + sk A ) + (rlB + sk B )
y, por lo tanto,
(px , py ) · (xA + xB , yA + yB ) = (r, s) · (lA + lB , k A + k B )
A esta igualdad, que Oskar Lange (1942) denominó ley de Walras, el propio
fundador de la Escuela de Laussane le dio mucha importancia (Walras,
1874, § 206) pues la colocaba como una de las condiciones de equilibrio.
Nótese que esta “restricción presupuestal” afirma que, en el agregado, la
valoración de la demanda iguala a la valoración de la oferta en término
de los precios vigentes. Y, quizás la observación más importante: de ella
se deduce que si los mercados de todas, menos una, las mercancías están
en equilibrio, entonces también lo estará el otro mercado. Esta anotación
aparentemente inocua, tendría implicaciones profundas en teoría monetaria
24
Aunque es más típico verla dibujada en un plano x versus y al transformar esos
insumos óptimos en sus respectivas producciones finales.
174 Capítulo 2. Optimización estática
pues algunos creyeron que haría las veces de vínculo con la entonces naciente
teoría keynesiana del dinero (Patinkin, 1956).
[Link]. Economías paretianas de intercambio puro
Un caso particular muy importante del modelo paretiano son las economías
de intercambio puro. Estas son economías en las que no existe sector pro-
ductivo alguno (por lo tanto, la mano de obra no juega ningún papel), y
de lo que se trata es de que cada consumidor intercambie las mercancías
que son de su propiedad, con los otros consumidores, dadas sus preferencias
sobre ellas, y sus respectivos presupuestos. La razón por la cual este tipo
de economía es fundamental en el modelo paretiano, es que allí se pueden
ilustrar magníficamente los principales resultados asociados con el modelo
general, mediante cajas de Edgeworth-Pareto.
Ejemplo 49. (Una economía de intercambio puro)
Consideremos una economía de intercambio puro (es decir, sin sector pro-
ductivo) conformada por dos mercancías x y y, y dos consumidores A y B
donde las preferencias están representadas por las funciones de utilidad
uA (xA , yA ) = xA yA , uB (xB , yB ) = xB yB
y las dotaciones de los consumidores son
wA = (1, 2), wB = (2, 2)
Aquí, el problema del consumidor A sería entonces
Maximizar uA (xA , yA ) = xA yA
sujeto a px xA + py yA = px + 2py
xA , yA ≥ 0
De las condiciones de primer orden se obtiene que
yA px
=
xA py
px xA + py yA = px + 2py
Resolviendo estas dos ecuaciones se obtienen las funciones de demanda del
consumidor A:
1 py
xA (px , py ) = +
2 px
px
yA (px , py ) = 1 +
2py
2.10. Contexto económico 175
El problema del consumidor B es similar, y se obtienen sus funciones de
demanda:
py
xB (px , py ) = 1 +
px
px
yB (px , py ) = 1 +
py
Las funciones de exceso de demanda serán, entonces,
2py 3
zx (px , py ) ≡ xA (px , py ) + xB (px , py ) − (wxA + wxB ) = −
px 2
3p x
zy (px , py ) ≡ yA (px , py ) + yB (px , py ) − (wyA + wyB ) = −2
2py
Observemos que las funciones de demanda y de exceso de demanda dependen
únicamente de los precios relativos: si los precios se multiplicaran por un
escalar positivo t, las demandas no se modificarían.
Las últimas dos ecuaciones satisfacen la correspondiente ley de Walras; es
decir, para cualquier par de precios positivos px , py , se tiene que
3 3
px zx (px , py ) + py zy (px , py ) = 2py − px + px − 2py = 0
2 2
Por tanto, es suficiente igualar a cero una de las funciones de exceso de
demanda para determinar los precios relativos de equilibrio. Por ejemplo,
3px
zy (px , py ) = −2=0
2py
Esta implica que la relación de precios de equilibrio es:
p∗x 4
∗
=
py 3
Reemplazando estos precios en las funciones de demanda que encontramos
más arriba, xi (px , py ), yi (px , py ) para i = A, B, llegamos a que el único
equilibrio competitivo de esta economía competitiva figura 2.44) es, tomando
como numerario p∗y = 1), el siguiente:
4 5 5 7 7
p∗x = , p∗y = 1, x∗A = , ∗
yA = , x∗B = , ∗
yB =
3 4 3 4 3
176 Capítulo 2. Optimización estática
yA
B
4
5/3 b
A 5/4 3 xA
Figura 2.44. Equilibrio competitivo para el ejemplo 49.
Nota 8.
En general, el modelo paretiano de intercambio puro permite las siguientes
observaciones:
1. Únicamente si el mercado coloca los precios de equilibrio (o un múl-
tiplo escalar de ellos), podrán los dos consumidores tener satisfechas
sus demandas de bienes. Cualquier otro precio los obligaría a tomar
decisiones subóptimas.
2. Los precios de equilibrio son una consecuencia de la riqueza y los gustos
de los agentes. Más precisamente, de las dotaciones iniciales y de las
utilidades marginales de los agentes.
3. En general, las mercancías más escasas tienen precios de equilibrio
más altos.
4. En general, en un equilibrio competitivo el “más rico” toma ventaja
de su posición con respecto al menos favorecido.
(...) la sociedad no es homogénea, y los que no cierren voluntariamente
los ojos, deben reconocer que los hombres difieren mucho los unos de
los otros desde el punto de vista físico, moral e intelectual.
A estas desigualdades propias del ser humano corresponden las de-
sigualdades económicas y sociales, que se observan en todos los pue-
blos, desde los tiempos más antiguos hasta los tiempos más modernos,
y sobre todos los puntos del globo, de tal suerte que estando siempre
presente ese carácter, se puede definir a la sociedad humana como una
colectividad jerárquica. (Pareto, 1906, §2, cap. VII).
2.10. Contexto económico 177
[Link]. Óptimos de Pareto
Desde su primer libro sobre economía (L’économie Politique et la Justice)
publicado en 1860, hasta su muerte en 1910, la preocupación fundamental
de Walras fue el problema de la justicia social. De hecho, su división entre
“economía pura” (positiva) (Walras, 1898) y “economía social” (normativa)
(Walras, 1896a) muestra bien esto, y, cabe notarlo, el propósito central de
sus Éléments de 1874-77 fue más el de mostrar la posibilidad de formular un
sistema económico racionalmente consistente que cumpliera las demandas
de justicia social.
En Théorie de la Proprieté de 1896, Walras definió la justicia en el inter-
cambio de bienes, en términos de dos condiciones: primero, la total libertad
de cada individuo para buscar su propia ventaja en el mercado; y segundo,
la completa eliminación de cualquier oportunidad para que un individuo se
beneficie en el intercambio a expensas de su contraparte o de cualquier otro.
Sin duda, bajo esta mirada, el sistema de equilibrio general walrasiano es
profundamente moralista.
De hecho, Walras no estaba convencido de que la competencia perfecta
en un mercado fuera la mejor manera de generar la máxima suma de la
satisfacción total para la sociedad, sino que era un sistema diseñado para
eliminar beneficio alguno del intercambio y de la producción. Por ello, en
equilibrio, nadie se hace más rico ni más pobre; allí, la única forma en que un
individuo se hace más rico es mediante la formación de capital a través del
ahorro, y la única forma en que se hace más pobre es consumiendo más allá
de sus ingresos: el sólo intercambio bajo competencia perfecta nunca tiene
efectos de distribución. Y esto no era por condenar la natural búsqueda de
beneficio en las actividades económicas, sino para realizar la función moral
de no dar algo por nada. Precisamente a este problema se refería Walras
cuando, en lo que se ha dado en llamar el Teorema de la máxima satisfacción
social, afirmaba que
El intercambio de dos mercancías en un mercado regido por la libre com-
petencia es una operación por medio de la cual todos los poseedores, tanto
de una como de dos mercancías, pueden lograr la mayor satisfacción posible
de sus necesidades, con la condición de entregar la mercancía que venden
y recibir la mercancía que compran en una proporción común e idéntica25 .
(1874, §99)
25
Esta proporción es la tasa marginal de sustitución.
178 Capítulo 2. Optimización estática
La historia del pensamiento económico no reconoce totalmente este aspecto
social del pensamiento walrasiano, y tampoco ve en este teorema el zumo de
una condición de optimalidad social inherente al equilibrio competitivo. En
su lugar, y con la confirmación gráfica de las cajas de Edgeworth, han esta-
blecido este mismo concepto alrededor de la siguiente definición de Pareto
(1906):
Diremos que los miembros de una colectividad gozan, en cierta posición,
del máximum de ophélimité26 , cuando es imposible encontrar un medio de
alejarse muy poco de esta posición, de tal suerte que la ophélimité de que
goza cada uno de los individuos de esta colectividad, aumenta o disminuye.
Es decir que cualquier pequeño desplazamiento a partir de esta posición
tiene necesariamente por efecto aumentar la ophélimité de que gozan ciertos
individuos, y disminuir aquella dela cual gozan otros; de ser agradable a unos
y desagradable a otros. (§ 33, cap. VI)
Esto se escribe, ahora, así:
Definición 6. (Óptimo de Pareto)
Una asignación factible [(xA , yA ), (xB , yB )] de una economía competitiva
es un óptimo de Pareto si, y sólo si, no existe otra asignación factible
′ ), (x′ , y ′ )] tal que ui (x′ , y ′ ) ≥ ui (x , y ) para i = A, B, pero también
[(x′A , yA B B i i i i
se tiene uj (x′j , yj′ ) > uj (xj , yj ) para j = A o j = B.
Es decir, un óptimo de Pareto es una asignación factible en la que ningún
agente puede mejorar sin que el otro agente pierda. Y una típica caracteri-
zación marginalista de estos óptimos se encuentra en el siguiente teorema,
que, también hoy, escribimos así:
Teorema 23. [Caracterización de los óptimos de Pareto –Walras
(1874), Edgeworth (1881), Pareto (1906)–]
Supongamos que las funciones de utilidad
uA : R2+ → R , uB : R2+ → R
son cuasicóncavas estrictas, estrictamente crecientes en cada uno de sus ar-
gumentos, y doblemente diferenciables con continuidad. Entonces, una asig-
∗ ), (x∗ , y ∗ )] en la caja de Edgeworth es óptima de Pareto
nación [(x∗A , yA A A
(interior) si, y sólo si, las tasas marginales de sustitución coinciden allí; es
26
“Ophélimité” es el término de Pareto para lo que hoy llamamos “utilidad”.
2.10. Contexto económico 179
decir, en este punto se tiene que
∂uA ∂uB
∂xA ∂xB
A
=
∂u ∂uB
∂yA ∂yB
Demostración.
Al resolver en la caja de Edgeworth-Pareto (es decir, con xA +xB = x∗A +x∗B
y yA + y B = y A∗ + y ∗ ) el problema que caracteriza a los óptimos de Pareto
B
Maximizar uA (xA , yA )
sujeta a uB (xB , yB ) = U
xA ≥ 0, xB ≥ 0
donde U es un nivel de utilidad fijo para el agente B,27 obtenemos que su
lagrangiano es
L = uA (xA , yA ) − λ (uB (xB , yB ) − U )
Y las condiciones de primer orden nos conducen a condiciones suficientes y
necesarias para el óptimo:28
∂uA ∂uB ∂uA ∂uB
=λ , =λ
∂xA ∂xA ∂yA ∂yB
El paso hacia la conclusión del teorema es inmediato.
Es conveniente destacar que las asignaciones paretianas, aunque óptimas en
un sentido muy particular, no son necesariamente “justas” o equitativas, y
esto lo veremos muy claramente en el siguiente ejemplo, en donde, típica-
mente, existen infinitas de ellas, unas que favorecen a un agente, y otras
que favorecen al otro. Aquí se resalta nítidamente que eficiencia y equidad
tienen dos direcciones normativas no necesariamente compatibles.
Ejemplo 50.
Consideremos la economía de intercambio puro de dos consumidores A y B,
con funciones de utilidad
uA (xA , yA ) = xA yA , uB (xB , yB ) = xB yB
27
¿Por qué es esto equivalente a la definición 6 de óptimo de Pareto?
28
¿Qué teoremas de este capítulo aplicamos para hacer tal afirmación?
180 Capítulo 2. Optimización estática
y dotaciones iniciales agregadas (3, 4). Escribiendo la correspondiente con-
dición de eficiencia paretiana, obtenemos que
∂uA ∂uB
∂xA yA ∂xB yB
A
= = B
=
∂u xA ∂u xB
∂yA ∂yB
4−yA
o, lo que es equivalente, yA = xyBB xA = 3−x A
xA Y, de aquí, arribamos
a la curva de óptimos de Pareto para esta economía (figura 2.45):
4xA
yA = 0 ≤ xA ≤ 3 N
3
yA
B
4
4xA
yA =
3
A 3 xA
Figura 2.45. Curva (recta) de contrato para el ejemplo 50.
Cabe advertirse que, además de Walras, también Edgeworth (1881) se ade-
lantó a Pareto en la noción de optimalidad que lleva su nombre:
Se requiere encontrar un punto (xy) tal que, en cualquier dirección en la que
demos un paso infinitamente pequeño, P y Π no aumenten a la vez, sino
que cuando uno aumente, el otro disminuya. Puede demostrarse desde una
diversidad de puntos de vista que el lugar geométrico del punto deseado es
dP dΠ dP dΠ
− =0
dx dy dy dx
cuyo lugar geométrico aquí proponemos denominar curva de contrato 29 .
29
Pareto (1906), en su lugar, la llamó “línea de los cambios” (§ 97, cap. III).
2.10. Contexto económico 181
aún así, difícilmente el término “óptimo de Pareto” podría tener una po-
sibilidad de hacer justicia con Walras y Edgeworth quienes, sin ninguna
duda, lo antecedieron. Por esto, en ocasiones seguiremos llamando “ópti-
mo de Pareto” al tradicional “óptimo de Pareto”, así como algunas veces
hemos llamado “caja de Pareto-Edgeworth” a la conocida como “caja de
Edgeworth”.
[Link]. Los dos teoremas del bienestar
Existen dos relaciones muy importantes entre la optimalidad paretiana y
el equilibrio competitivo. La primera formaliza, parcialmente, una creencia
largamente sostenida desde, por lo menos, el siglo XVIII de Adam Smith,
que afirmaba que la competencia perfecta “conducía” a un estado “óptimo”
de la economía. El problema aquí era que se creía que tal “óptimo” debería
contener criterios de justa distribución de la riqueza y del ingreso y, esa
no es una característica de los equilibrios competitivos. Por lo tanto, esta
conexión entre equilibrio competitivo y óptimo se aplazó hasta la aparición
de la noción de óptimo de Pareto. Esta, que fue claramente visualizada por
el mismo Walras, y explicitada por Pareto utilizando la caja de Edgeworth,
asegura que, bajo las hipótesis del modelo paretiano, el mecanismo de pre-
cios asigna los bienes eficientemente (en el sentido de Pareto). Veamos este
resultado en notación actual.
Teorema 24. [Primer teorema de la economía del bienestar –Walras
(1874), Edgeworth (1881), Pareto (1906)–]
Sean
ui : R2+ → R
(xi , yi ) → ui (xi , yi )
para i = A, B, funciones de utilidad estrictamente crecientes. Si
x∗ ≡ [(x∗A , yA
∗
), (x∗B , yB
∗
)], p∗ ≡ (p∗x , p∗y )
es un equilibrio competitivo, entonces x∗ ≡ [(x∗A , yA
∗ ), (x∗ , y ∗ )] es una asig-
B B
nación óptima de Pareto.
Demostración.
Supongamos que el equilibrio competitivo no es óptimo de Pareto y ob-
tengamos una contradicción. Sea [(x∗A , yA
∗ ), (x∗ , y ∗ ), (p∗ , p∗ )] un equilibrio
B B x y
competitivo y supongamos que existe una asignación [(xA , yA ), (xB , yB )] en
la caja de Pareto-Edgeworth tal que
uA (xA , yA ) > uA (x∗A , yA
∗
) y uB (xB , yB ) ≥ uB (x∗B , yB
∗
)
182 Capítulo 2. Optimización estática
Entonces, dado que [(x∗A , yA
∗ ), (x∗ , y ∗ )], (p∗ , p∗ )) es un equilibrio competiti-
B B x y
vo, satisface que
p∗x xA + p∗y yA > p∗x wxA + p∗y wyA , p∗x xB + p∗y yB > p∗x wxB + p∗y wyB
Sumando estas dos desigualdades se obtiene
p∗x (xA + xB ) + p∗y (yA + yB ) > p∗x (wxA + wxB ) + p∗y (wyA + wyB )
Y como [(xA , yA ), (xB , yB )] está en la caja de Pareto-Edgeworth, entonces
p∗x (wxA + wxB ) + p∗y (wyA + wyB ) > p∗x (wxA + wxB ) + p∗y (wyA + wyB )
lo cual es una contradicción.
Ejemplo 51.
Consideremos la economía de intercambio puro del ejemplo 50, donde dos
consumidores, A y B, tienen funciones de utilidad
uA (xA , yA ) = xA yA , uB (xB , yB ) = xB yB
y dotaciones iniciales agregadas (3, 4). Allí encontramos que la curva de
óptimos de Pareto para esta economía es:
4xA
yA = 0 ≤ xA ≤ 3
3
Para ilustrar el primer teorema de la economía del bienestar, basta darnos
cuenta de que la asignación de equilibrio competitivo (xA , yA ) = ( 45 , 53 ) está
en la curva de contrato. N
El teorema anterior nos muestra la calidad normativa que tiene un equi-
librio competitivo: no es, necesariamente, una asignación ni equitativa ni
“justa”, pero satisface cierto criterio de eficiencia. Pero este equilibrio no
tendría la importancia que se le ha dado, si no fuera porque también aparece
conectado con los problemas de la descentralización. El problema de asignar
recursos óptimamente mediante el vehículo de los precios, ha estado en el
corazón de los estudios sobre la descentralización de una economía. La sola
hipótesis de que si los consumidores y los productores resuelven sus pro-
blemas independientemente, sin saber nada uno del otro, sino a través del
mecanismo de información que son los precios, asegura una implementación
efectiva del óptimo previamente establecido por las autoridades económicas,
era y continúa siendo, uno de los más importantes problemas que enfrenta
la economía política. Un resultado así permitía entrever la posibilidad de
2.10. Contexto económico 183
descentralizar las decisiones de los agentes de una economía centralizada a
través de los precios.
El segundo teorema de la economía del bienestar que afirma que, bajo cierta
redistribución de los recursos, podemos hacer, de un óptimo de Pareto, un
equilibrio competitivo, no parece haber sido detectado por Walras, ni por
Edgeworth. Quizás Pareto (1906) lo vislumbró, pero lo que sí es cierto es
que nunca lo estableció con claridad:
Para los fenómenos del tipo (I) 30 , cuando el equilibrio tiene lugar en un
punto donde son tangentes las curvas de indiferencia de los contratantes, los
miembros de la colectividad considerada gozan del máximo de ophélimité.
(§ 34, cap. VI).
De hecho, al parecer las primeras veces que se tiene registro explícito de este
teorema es en los textos clásicos de Lange (1942) y Allais (1943).
Teorema 25. [Segundo teorema de la economía del bienestar –
Pareto(1906), Lange (1942), Allais (1943)–]
Sean
ui : R2+ → R
(xi , yi ) → ui (xi , yi )
para i = A, B, funciones de utilidad continuas, estrictamente crecientes y
cuasicóncavas. Sea [(x∗A , yA
∗ ), (x∗ , y ∗ )] una asignación óptima de Pareto en
B B
la que cada agente tiene una cantidad positiva de cada mercancía. Entonces
existen unos precios px y py no-negativos tales que [(x∗A , yA∗ ), (x∗ , y ∗ ), (p , p )]
B B x y
es un equilibrio competitivo para las dotaciones iniciales wxA = x∗A , wyA = yA ∗,
wxB = x∗B , wyB = yB
∗ .31
Demostración.
Debemos encontrar un vector de precios no-negativos (px , py ) que soporte
la asignación óptima de Pareto como un equilibrio competitivo. Sean
n o
∗
MA = (xA , yA ) ∈ R2+ | uA (xA , yA ) > uA (x∗A , yA )
n o
MB = (xB , yB ) ∈ R2+ | uB (xB , yB ) > uB (x∗B , yB
∗
)
30
Es decir, en condiciones de competencia perfecta.
31
Pareto, al parecer no muy claro del resultado que tenía a la mano, afirmó sobre esto:
Para los fenómenos (I) si existe un punto donde el sendero recorrido por los individuos
que contratan es tangente a las curvas de indiferencia de esos individuos, ese es un punto
de equilibrio. (Manuel, § 112, cap. III).
184 Capítulo 2. Optimización estática
es decir, MA es el conjunto de planes de consumo que el consumidor A prefie-
∗ ), y M es el conjunto de planes de consumo que el consumidor
re a (x∗A , yA B
B prefiere a (x∗B , yB ∗ ). Ya que las funciones de utilidad son estrictamente
cuasicóncavas, entonces MA y MB son conjuntos convexos.
Definamos ahora M ≡ MA + MB ; es decir, M es el conjunto de todas
las combinaciones agregadas que pueden ser distribuidas entre los dos con-
sumidores de tal forma que ambos mejoren su utilidad con respecto a la
asignación óptima de Pareto. Observemos que M es un conjunto convexo,
ya que es la suma de dos conjuntos convexos.
Sea w = (wx , wy ) = (x∗A + x∗B , yA ∗ + y ∗ ). Como, por hipótesis, [(x∗ , y ∗ ),
B A A
∗ ∗
(xB , yB )] es un óptimo de Pareto, entonces w ∈ / M porque no existe una re-
distribución de [(x∗A , yA∗ ), (x∗ , y ∗ )] que mejore la utilidad de ambos consumi-
B B
dores. Luego por el teorema de separación de Minkowski (teorema 10), existe
∗ + y ∗ ),
(px , py ) 6= 0 tal que px x + py y ≥ px wx + py wy = px (x∗A + x∗B ) + py (yA B
para todo (x, y) ∈ M . Por lo tanto,
∗
px (x − (x∗A + x∗B )) + py (y − (yA ∗
+ yB )) ≥ 0
para todo (x, y) ∈ M .
Queremos ver que (px , py ) es un vector de precios de equilibrio:
i) Veamos primero que (px , py ) es no negativo: sea e1 ≡ (1, 0). Ya que las
funciones de utilidad son monótonas crecientes estrictamente, entonces
debe darse que (w + e1 ) ∈ M . Así, px (1 + wx − (x∗A + x∗B )) + py (wy −
∗ +y ∗ )) ≥ 0; es decir, p ≥ 0. Tomando e ≡ (0, 1) podemos mostrar
(yA B x 2
que también py ≥ 0.
ii) Veamos que a estos precios, el consumidor A maximiza su utilidad
en (x∗A , yA
∗ ), y el consumidor B maximiza su utilidad en (x∗ , y ∗ ).
B B
Es suficiente ver que si ui (xi , yi ) > ui (x∗i , yi∗ ), para i = A, B, entonces
px xi +py yi > px x∗i +py yi∗ . Veamos primero que si ui (xi , yi ) > ui (x∗i , yi∗ ),
para i = A, B, entonces px xi + py yi ≥ px x∗i + py yi∗ (es decir, con
desigualdad no estricta): si ui (xi , yi ) > ui (x∗i , yi∗ ), entonces sean
(x′i , yi′ ) = θ(xi , yi ); (x′j , yj′ ) = (x∗j , yj∗ ) + (1 − θ)(xi , yi )
donde θ es un número suficientemente pequeño. Ya que las funciones de
utilidad de los consumidores son monótonas crecientes estrictamente y
continuas, entonces [(x′i , yi′ ), (x′j , yj′ )] domina en el sentido de Pareto a
[(x∗i , yi∗ ), (x∗j , yj∗ )]. Por lo tanto, (x′i + x′j , yi′ + yj′ ) ∈ M . Así, tendremos
que px ((1 − θ)xi + x∗j + θxi ) + py ((1 − θ)yi + yj∗ + θyi ) ≥ px (x∗i + x∗j ) +
py (yi∗ + yj∗ ), es decir, px xi + py yi ≥ px x∗i + py yi∗ .
2.10. Contexto económico 185
iii) Debemos ver ahora que si ui (xi , yi ) > ui (x∗i , yi∗ ), entonces px xi +py yi >
px x∗i +py yi∗ . Ya vimos que px xi +py yi ≥ px x∗i +py yi∗ y debemos eliminar
la posibilidad de la igualdad: supongamos que px xi +py yi = px x∗i +py yi∗
para poder obtener una contradicción. Entonces
θpx xi + θpy yi < px x∗i + py yi∗
para todo θ ∈ (0, 1). Ya que las funciones de utilidad son continuas,
entonces existe θ′ ∈ (0, 1) tal que ui (θ′ xi , θ′ yi ) > ui (x∗i , yi∗ ); y así,
θ′ px xi + θ′ py yi ≥ px x∗i + py yi∗ , lo cual implica que θ′ px xi + θ′ py yi <
θ′ px xi + θ′ py yi , y esto es una contradicción.
Ejemplo 52.
Para la economía de intercambio puro entre los agentes A y B, donde
uA (xA , yA ) = ln xA + 2 ln yA , wA = (3, 4)
uB (xB , yB ) = 2 ln xB + ln yB , wB = (4, 3)
la curva de contrato es
28xA
yA = donde 0 ≤ xA ≤ 7
7 + 3xA
Si tomamos una asignación Pareto-óptima fija cualquiera
28xA 28xA
(xA , ), (7 − xA , 7 − ) donde 0 < xA ≤ 7
7 + 3xA 7 + 3xA
podemos hacer de este un equilibrio competitivo [32] encontrando un par
28xA
de precios (px , py ) tal que (xA , ) maximice las utilidades de A y B
7 + 3xA
sujetas a las respectivas restricciones presupuestales
28xA
px x + py y = px xA + py ( ) para A
7 + 3xA
y
28xA
px x + py y = px (7 − xA ) + py (7 − ) para B
7 + 3xA
32
Observe que hacemos xA 6= 0 (¿por qué?).
186 Capítulo 2. Optimización estática
que, obviamente, se van a satisfacer en el óptimo de Pareto escogido (aquí
es donde se efectúa la anunciada redistribución de la riqueza entre los con-
sumidores A y B). Escribiendo la relación de optimalidad “tasa marginal de
sustitución = relación de precios”, llegamos a que
28xA
yA px 7 + 3xA px
= que es equivalente a =
2xA py 2xA py
o, lo que es igual,
px 14
=
py 7 + 3xA
que es la relación de precios de equilibrio que ilustra el segundo teorema del
bienestar.
[Link]. Equilibrio competitivo y negociación: el concepto de
núcleo de una economía
Uno de los elementos menos creíbles del modelo paretiano es que sólo si los
precios que rigen en el mercado son los de equilibrio, tendremos a los agentes
satisfaciendo sus objetivos de manera óptima y, por tanto, alcanzando el
óptimo (en el sentido paretiano). Sobre cómo alcanzar este equilibrio si los
precios originales son diferentes fue una de las más celebradas (y criticadas)
de las ideas de Walras. El proceso de tâtonnement (tanteo) fue creado por
el propio Walras en sus Éléments de 1874, tratando de mostrar cómo era
que se llegaba a la situación de equilibrio sólo por movimientos de la oferta
y demanda al ritmo de movimientos de los precios (§125):
Si la demanda es superior a la oferta, el precio de dicha mercancía en términos
del numerario subirá; si es la oferta la que supera a la demanda, bajará. ¿Qué
debemos hacer para probar que la solución teórica y la solución del mercado
son idénticas? Simplemente comprobar que el alza y la baja [[de los precios]]
son una forma de resolución por tâtonnement del sistema de igualdades de
las ofertas y las demandas.
Esta es, en esencia, la conocida ley de la oferta y la demanda. Pero no es
claro que todos los demás parámetros (gustos, tecnología, etc.) se puedan
suponer constantes, mientras el sistema de precios hace su tránsito hacia el
equilibrio. Por ello, y con justa razón, el proceso de tâtonnement no es un
argumento poderoso para creer en economías competitivas convergiendo al
equilibrio 33 .
33
Sobre el mecanismo del tâtonnement discutiremos nuevamente en el “contexto econó-
mico” del capítulo 3.
2.10. Contexto económico 187
Otra vertiente de este problema provino del mismo Edgeworth (1881). Fue
él quien introdujo la noción de curva de contrato que tiene más importancia
que la de una simple curva conformada por óptimos de Pareto. Un sub-
conjunto de esta curva, después llamada el núcleo (core) de la economía
(Shubik, 1959), comenzó a ser estudiada por Edgeworth para economías
de intercambio con dos mercancías y dos tipos de agentes,34 en donde es-
tos podían negociar y recontratar. Aunque de manera un tanto confusa, allí
mismo mostró un resultado extraordinariamente sorprendente e iluminador:
Bajo competencia perfecta, típicamente el núcleo se “contrae” hacia el equi-
librio competitivo, a medida que el número de agentes (no de tipos) crece
indefinidamente.
Este resultado y otros similares abrieron un caudal de pensamiento sobre
los problemas de formación de precios para “economías grandes” a través
de transacciones, completamente distinto a aquella de la igualación de ofer-
ta y demanda. Planteaba que cierto tipo de negociación con posibilidades
de recontratación permitía la emergencia de los precios y, por tanto, de
los mercados. No necesitaban asumir, a priori, la existencia de ellos: estos
surgían de forma endógena del modelo. Sobre esta otra aproximación a los
problemas del equilibrio general que nace a partir de la teoría de la “curva
de contrato” de Edgeworth (1881), discutiremos un poco más en el próximo
capítulo 3.
[Link]. Dificultades con el modelo paretiano
En la caracterización de sus óptimos, el modelo paretiano está profunda-
mente enraizado en el uso de tasas marginales de sustitución estrictamente
positivas. Por lo tanto, podría creerse que tendríamos problemas con los
teoremas del bienestar cuando las funciones de utilidad o de producción no
sean diferenciables, o se anulen cuando el agente no tiene cantidad alguna de
esa mercancía. Sin embargo, veremos que esto no es necesariamente cierto.
Ilustramos esto parcialmente en el siguiente ejemplo.
Ejemplo 53. (Dificultades con el modelo paretiano)
En la economía de intercambio puro
uA (xA , yA ) = 3xA + 2 ln yA wA = (2, 1)
uB (xB , yB ) = Mín{xB , yB } wA = (0, 1)
tenemos que:
34
Muchos agentes, pero sólo de dos tipos, digamos, trabajadores y empresarios.
188 Capítulo 2. Optimización estática
a) Las funciones de demanda respectivas de los agentes A y B son
4 py 2 px
xA = + , yA =
3 px 3 py
py
xB = yB =
px + py
Obviamente, en el cálculo de estas últimas no podíamos utilizar las téc-
nicas de optimización de Lagrange, ni tampoco relaciones de tasas mar-
ginales de sustitución. En su lugar, tuvimos que recurrir al siguiente
argumento: si xA > yA en el óptimo, entonces, dejando fijo yA , podemos
reducir un poco xA de tal forma que aún estemos en la misma curva de
nivel de A que pasa por (xA , yA ), y esto necesariamente conduciría a un
aumento en el nivel de utilidad de B pues xB = 2 − xA . El caso xA < yA
es similar.
b) Así, de la condición de equilibrio xA + xB = 2, tendremos que
4 py py
+ + =2
3 px px + py
y, de aquí, los precios de equilibrio emergen:
√
p∗y 10 − 2
∗
=
px 3
y también las asignaciones de equilibrio x∗A = yA ∗ = 1.72, x∗ = y ∗ =
B B
0.279. Note que, en equilibrio, la mercancía x es más costosa que la mer-
cancía y; y que, como debería esperarse, ambos agentes salieron beneficia-
dos del intercambio pues uA (1.72, 0.279) > uA (2, 1) y uB (1.72, 0.279) >
uB (0, 1).
c) La curva de contrato de este intercambio es yA = xA .
d) El primer teorema de la economía del bienestar lo ilustramos notando que
∗ = 1.72 = x∗ está en la curva de contrato.
el equilibrio competitivo yA A
e) A su vez, el segundo teorema del bienestar lo ilustramos haciendo, para
el agente A,
∂uA
∂xA px
A
=
∂u py
∂yA
2.10. Contexto económico 189
en un punto cualquiera (xA , yA ) de la curva de contrato, es decir, donde
xA = yA para 0 < xA < 2. Por tanto, llegamos a que la relación de
precios de equilibrio estará dada por
p∗x 3xA
∗
=
py 2
Por ejemplo, la asignación paretiana equitativa (1, 1) tendría a p∗x /p∗y =
3/2 como precios de equilibrio. N
Hacia finales de la década de 1940, las deficiencias analíticas del modelo
paretiano abrieron un compás de posibilidades para entender, con toda pre-
cisión, cuáles podrían ser las condiciones mínimas bajo las cuales existía un
equilibrio competitivo, y en qué casos se podrían también tener los dos teo-
remas del bienestar económico. Esta síntesis sería alcanzada por Koopmans
(1951) –volumen I (Álgebra lineal y cálculo en varias variables)– en el caso li-
neal, Mckenzie (1954) en un caso aparentemente específico (aunque aplicable
generalmente) del comercio internacional, Arrow & Debreu (1954) y, fun-
damentalmente, Debreu (1959) que, en su momento, fue la más compacta,
coherente y sistemática presentación de las posibilidades y limitaciones del
modelo de equilibrio general competitivo de la economía neoclásica. Sobre
el modelo Arrow-Debreu discutiremos en el contexto económico del capítulo
3.
2.10.4. Teoría de juegos clásica
En su ahora clásico Recherches sur les Principes Mathémathiques de la Théo-
rie des Richesses de 1838, Cournot construyó una teoría de las firmas oli-
gopolísticas que incluía la competencia perfecta y el monopolio como casos
extremos. Al estudiar, en particular, el problema del duopolio, Cournot mos-
traba que la producción óptima de una firma dependía de la producción de
la otra, y que, al hacerlo, el administrador de cada firma asumía que la
producción de la otra permanecería fija si él cambiaba la producción de su
firma. Críticos desde las más diversas vertientes atacaron esta hipótesis: la
metodología utilizada por Cournot en su análisis no tenía, en ese entonces,
la suficiente claridad conceptual.
El primer paso en el sentido de entender cómo formalizar los problemas
de interacciones entre diferentes agentes provino de John von Neumann en
su primera gran contribución a la teoría de juegos. En su artículo de 1928
sobre el tema, desarrolló el teorema minimax para juegos de suma cero (don-
de lo que obtiene un jugador, lo pierde el otro), en los que los jugadores se
190 Capítulo 2. Optimización estática
mueven secuencialmente en el tiempo sin que necesariamente sepan cuáles
fueron los movimientos previos de los otros jugadores. Esta independencia
de movimientos hubiera sido difícil de modelar, sin la noción de estrategia
que von Neumann definiera, para cada jugador, como un plan completo que
especifica sus movimientos como consecuencia de la información alcanzada
hasta allí. Así, un jugador puede escoger su estrategia antes de que el jue-
go comience, si conocemos las consecuencias de los otros jugadores. Esta
noción de estrategia es lo que nos permite aceptar hoy la hipótesis bási-
ca de Cournot de que los productores en oligopolio toman sus decisiones
independientemente.
Pero, más allá, von Neumann afirmaba que cualquier juego podía modelarse,
matemáticamente, con la siguiente estructura: un conjunto de jugadores; un
conjunto de estrategias para cada jugador; y una función real de pagos para
cada jugador dependiendo de las estrategias escogidas por los otros jugadores.
Esta es la que llamó la forma normal del juego.
Además de esto, von Neumann agregó dos restricciones a su estructura de
juego que limitaron severamente cualquier posibilidad de hacer su teoría
la base para el estudio de interacciones generales en las ciencias sociales y
económicas: asumió que los pagos eran transferibles entre los jugadores y
que todos los juegos eran de suma cero (lo que ganaba un jugador, lo perdía
otro), pues estas hipótesis se adaptaban bien al tipo de solución minimax que
había propuesto –volumen I (Álgebra lineal y cálculo en varias variables)–.
A pesar de esto, en la segunda edición (1947) de Theory of Games and Eco-
nomic Behavior, von Neumann y Oskar Morgenstern publicaron una de las
máximas contribuciones a la teoría de juegos. Reconociendo la necesidad de
estrategias aleatorias para poder probar la existencia de soluciones minimax
en juegos de suma cero, von Neumann (1928) utilizó la tradicional hipótesis
(desde, por lo menos, el siglo XVIII de los Bernoulli) de la toma de decisiones
maximizando el valor esperado de los pagos. Y fue la derivación axiomáti-
ca del comportamiento de los agentes que se comportan como si hicieran
máxima la utilidad esperada, lo que permitiría extender sus resultados en
juegos de suma cero a otro tipo de estructuras.
A la luz de los trabajos de von Neuman y Morgenstern, el Premio Nobel de
Economía de 1994, John Nash (también en Princeton), inclusive antes de la
década de 1950 vio, casi inmediatamente, que toda la estructura de la teoría
de juegos permitía una nueva dimensión: la de suma no-cero. En una breve
nota enviada en 1944 a los Proceedings de la Academia Nacional de Ciencias
de los Estados Unidos, y que fuera publicada en 1950, Nash daba la defi-
2.10. Contexto económico 191
nición general de equilibrio para un juego en forma normal y probaba, con
un argumento de punto fijo (como von Neumann) que para cualquier juego
con finitos jugadores y estrategias, siempre debía existir al menos un equi-
librio en estrategias aleatorias. Posteriormente, en 1951 (y como resultado
de su tesis doctoral), Nash dio una descripción más completa de su idea de
equilibrio, e inclusive incluyó una versión del famoso juego conocido como
el dilema del prisionero 35 . Pero, por encima de todo, fue allí que Nash mos-
tró que la teoría de juegos era una estructura analítica unificada que daba
camino a toda clase de estudios sobre conflicto, negociación y cooperación.
Ahora entendemos que el comportamiento estratégico de dos o más agentes
podría surgir cuando los pagos que ellos obtienen y, más aún, la decisión de
cada uno, depende de lo que esperan que sean las decisiones de los demás.
Después de von Neumann y Morgenstern (e inspirados en su trabajo) la
teoría de juegos modela esta situación por medio del concepto de juego en
forma estratégica (o forma normal).
Un juego en forma estratégica está conformado básicamente por tres ele-
mentos: a) Los jugadores (agentes); b) Las estrategias disponibles; y, final-
mente, c) El pago que cada jugador recibe por cada posible combinación
de estrategias. Identificar a los jugadores y las estrategias disponibles para
cada jugador (también llamadas estrategias puras ) es el paso clave en la
construcción del modelo. Para seleccionar la estructura de pagos (o función
de utilidad) se deben examinar cada una de las posibles combinaciones de
estrategias disponibles para los jugadores, y determinar lo que recibe cada
jugador en cada caso, asignándole cierto valor. Esta valoración numérica
se refiere (dentro de la tradición von Neumann-Morgenstern-Savage) a la
representación numérica de un ordenamiento previo de las preferencias con
respecto a las posibles combinaciones de estrategias en el juego.
Con base en las nociones de jugadores, espacios de estrategias y funciones
de pago, podemos entonces definir formalmente lo que es un juego en forma
estratégica:
Definición 7. [Juego finito en forma estratégica –Borel (1921), von
Neumann (1928)–]
i) Un juego finito en forma estratégica (o normal) es una 3n-tupla
Γ = (N, (Ci )i∈N , (ui )i∈N )
donde:
35
Este juego surgió en una clase ordinaria de Tucker en la Universidad de Stanford en
1947 (Tucker, 1980).
192 Capítulo 2. Optimización estática
a) N = {1, . . . , n} es el conjunto de jugadores;
b) Ci es el conjunto finito de estrategias puras para el jugador i ∈ N
(de allí la condición de finitud del juego).
c) ui : Πni=1 Ci → R es la función de pagos (utilidad) para el ju-
gador i ∈ N que asigna un pago (número real) a cada combi-
nación de estrategias (c1 , . . . , cn ), donde el producto cartesiano
Πni=1 Ci = C1 × C2 × ... × Cn es el conjunto de estrategias con-
juntas.36
ii) Un juego finito en forma estratégica Γ = (N, (Ci )i∈N , (ui )i∈N ) es un
juego con información simétrica,37 o completa,38 si Γ es conocimiento
común; es decir, todos los jugadores conocen Γ, cada uno sabe que los
demás conocen Γ, cada uno sabe que los demás saben que ella conoce
Γ, etc.
La representación más típica de un juego es aquella que comprende sólo dos
jugadores que escogen entre un número pequeño de estrategias diferentes
descritas mediante una bimatriz. En la bimatriz, las celdas contienen los
pagos de cada jugador para las posibles combinaciones de estrategias.
Ejemplo 54. (El dilema del prisionero)
Uno de los juegos más importantes de la teoría de juegos clásica es El dilema
del prisionero. El juego consiste, en su versión estándar, en lo siguiente: Dos
sospechosos de un delito son detenidos y ubicados en celdas diferentes de tal
manera que no puedan comunicarse. La pena para el delito son cinco años
de prisión. La única forma en que las autoridades pueden condenar a los
sospechosos es haciendo que al menos uno de ellos confiese. La descripción
del juego es la siguiente: si ambos sospechosos confiesan, la sentencia será
de cuatro años de cárcel para cada uno. Si ninguno de los dos confiesa, la
sentencia será de tan sólo un año en la cárcel para cada uno, dada la falta
de pruebas para realizar una condena. Y si uno confiesa y el otro no, el
que confiesa será puesto en libertad por colaborar con la justicia, mientras
el otro será sentenciado a los cinco años de prisión. El juego en su forma
estratégica es como aparece en la tabla 2.1.
36
Observemos cómo la función de utilidad captura la noción de “interacción estratégica”;
es decir, el pago que un agente recibe al realizar su propia acción depende también de las
acciones de los demás.
37
Una interpretación estándar subyacente a la definición de un juego finito en forma
estratégica con información completa, es la de que el grupo de jugadores elija sus estrate-
gias simultáneamente, o secuencialmente, pero sin que ninguno de los jugadores sepa qué
estrategia eligieron los adversarios, en el momento de hacer sus escogencias.
38
Término acuñado por Duncan Luce y Howard Raiffa (1957).
2.10. Contexto económico 193
Todo juego en bimatriz es, a menos que allí mismo se especifique algo dis-
tinto, un juego con información completa pero imperfecta. La imperfección
en la información proviene de la hipótesis implícita de que los agentes to-
man sus decisiones, o bien simultáneamente, o sin que ninguno conozca la
decisión del otro, hasta tanto ambas decisiones hayan sido tomadas. La com-
pletitud en la información proviene de la hipótesis de conocimiento común
del juego por parte de los jugadores.
Sospechoso 2
C NC
C -4,-4 0,-5
Sospechoso 1
NC -5,0 -1,-1
C ≡ confesar; N C ≡ no confesar
Tabla 2.1. Juego de El dilema del prisionero.
Según la teoría de Nash, una forma con la que podemos resolver este tipo
de juegos está fundamentada en el siguiente principio:
La combinación de estrategias que los jugadores predeciblemente escogerán
es aquélla en la cual ningún jugador podría mejorar su pago escogiendo uni-
lateralmente una estrategia diferente, si supone que los otros siguen eligiendo
la estrategia previamente escogida.
Este es el principio del concepto-solución que se conoce como equilibrio de
Nash de un juego no cooperativo, y que podemos presentar más formalmente
como sigue:
Definición 8. [Equilibrio de Nash (Nash, 1950)]
Sea Γ = (N, (Ci )i∈N , (ui )i∈N ) un juego finito en forma estratégica, donde N
es el conjunto de jugadores, Ci es el conjunto de estrategias puras de cada
jugador y ui (·) su función de pagos. Una combinación de estrategias puras
c∗ = (c∗i )i∈N es un equilibrio de Nash en estrategias puras para el juego Γ
si, y sólo si,
ui (c∗i , c∗−i ) ≥ ui (ci , c∗−i )
para todo ci ∈ Ci y para todo i ∈ N .
Ejemplo 55.
Resolviendo el dilema del prisionero (tabla 2.1) por equilibrios de Nash,
encontramos que si el sospechoso 1 cree que el sospechoso 2 va a confesar
(C), la mejor decisión que él puede tomar es también confesar (C), con lo
que se quedaría con un pago de −4. Si a su vez, el sospechoso 2 cree que
194 Capítulo 2. Optimización estática
el sospechoso 1 va a elegir su estrategia confesar, lo mejor que puede hacer
es confesar y recibir un pago de −4. De manera que el par de estrategias
(confesar, confesar) es un equilibrio de Nash en estrategias puras del juego
y entrega a los jugadores un pago de −4 a cada uno.
Es importante destacar aquí que en este juego es imposible alcanzar, a través
de tales principios de solución, la asignación cooperativa resultante de la
combinación de estrategias –no confesar (N C), no confesar (N C)–, ya que
los jugadores no tienen incentivos para mantenerse en esta elección. Cada
uno de ellos hace lo mejor que puede independientemente de lo que el otro
jugador haga. Haría falta, en este caso, algún mecanismo externo que hiciera
a los jugadores jugar cooperativamente, haciendo de esta elección lo mejor
para ellos. La moraleja es importante: el concepto de equilibrio de Nash
muestra que una sociedad podría, sólo a través de incentivos individuales
(es decir, de manera inteligente pero egoísta), llegar a estados que no son
óptimos socialmente 39 .
Ejemplo 56. (Juego de Coordinación)
Consideremos el juego cuyos pagos vienen dados por:
Jugador 2
D I
D 10,10 0,0
Jugador 1
I 0,0 1,1
D ≡ derecha; I ≡ izquierda
Tabla 2.2. Juego de Coordinación.
El juego (tabla 2.2) tiene dos equilibrios de Nash en estrategias puras: (D, D)
e (I, I). Si el jugador 1 cree que el jugador 2 escogerá su estrategia D, su
mejor-respuesta a esta elección es la estrategia D. De igual forma, si el
jugador 2 cree que el jugador 1 escogerá su estrategia D, la mejor respuesta
a esta elección es su estrategia D. Por lo tanto, (D, D) es un equilibrio de
Nash del juego que deja a cada uno de los jugadores con un pago de 10.
Ahora: si el jugador 1 cree que el jugador 2 elegirá la estrategia I, su mejor-
respuesta es la estrategia I, y si el jugador 2 cree que el jugador 1 escogerá
la estrategia I, su mejor-respuesta es también escoger I. Entonces (I, I) es
39
Este es un ejemplo de cómo las interacciones directas pueden llevar a situaciones
subóptimas en el sentido de Pareto, que no es lo que ocurre cuando los agentes, sin
interactuar unos con otros, sólo responden a señales de precios, como vimos en la sección
anterior (primer teorema de la economía del bienestar).
2.10. Contexto económico 195
otro equilibrio de Nash del juego que deja a cada uno de los jugadores con
un pago de 1. Obsérvese que para los dos jugadores es mejor jugar el primer
equilibrio porque los deja con un pago más alto.
Ejemplo 57. (Tirar la moneda)
Ya sabíamos que en el juego tirar la moneda (matching pennies), dos agentes
lanzan cada uno una moneda; si en ambas monedas aparece cara o sello, el
jugador 1 gana la moneda del otro; si difieren, es el jugador 2 el que la gana.
Los pagos se ilustran en la bimatriz de la tabla 2.3.
Para intentar solucionar este juego, tomemos, por ejemplo, el par de es-
trategias (C, C); dado que el jugador 2 cree que el jugador 1 escogerá su
estrategia C, lo mejor que ella puede hacer es escoger su estrategia S, lo que
muestra que (C, C) no puede ser un equilibrio de Nash. De forma similar,
el par de estrategias (C, S) tampoco puede ser un equilibrio de Nash ya
que si el jugador 1 espera que 2 juegue S, lo mejor que éste puede hacer es
desviarse y jugar S. Por un argumento similar, se puede mostrar que en las
demás combinaciones de estrategias puras también existen incentivos para
desviarse unilateralmente por parte de algún jugador. Esto indica que no
existe un equilibrio de Nash en estrategias puras para este juego.
Jugador 2
C S
C 1,-1 -1,1
Jugador 1
S -1,1 1,-1
C ≡ cara; S ≡ sello
Tabla 2.3. Juego de Tirar la moneda.
Sin embargo, como nos lo enseñaron von Neumann y Morgenstern, sí existe
un equilibrio de otro tipo, conocido como “equilibrio en estrategias mixtas”,
donde cada jugador adopta una estrategia asignándole cierta probabilidad
a cada una de las estrategias puras de los demás jugadores; es decir, cada
jugador asume ciertas probabilidades sobre las estrategias puras que los otros
jugadores escogerán.
Definición 9. (Estrategia mixta)
i) En un juego finito en forma estratégica Γ = (N, (Ci )i∈N , (ui )i∈N ), una
estrategia mixta del jugador i es una distribución de probabilidad sobre
el conjunto de estrategias puras Ci . Al conjunto de todas las estrategias
mixtas del jugador i lo denotamos por ∆i . Para σi ∈ ∆i y ci ∈ Ci , σi (ci )
196 Capítulo 2. Optimización estática
es la probabilidad que la distribución σi le asigna a la estrategia ci . El
soporte de una estrategia mixta σi es el conjunto de estrategias puras
a las cuales σi le asigna una probabilidad estrictamente positiva.
ii) Una estrategia mixta del juego Γ es una combinación de distribuciones
σ = (σ1 , σ2 , . . . , σn )
donde σi ∈ ∆i para todo i; es decir,
n
Y
σ∈ ∆i
i=1
De acuerdo con la definición anterior, es claro que el conjunto de las estra-
tegias mixtas contiene al de las estrategias puras. En este caso, cada σi le
asigna probabilidad 1 a cierta estrategia pura y probabilidad 0 a las demás
estrategias.
Ejemplo 58. (Estrategias mixtas de tirar la moneda)
En el juego de tirar la moneda (tabla 2.4), una estrategia mixta para el
jugador 1 se puede describir como la asignación de una probabilidad (p)
a su estrategia C, y de una probabilidad (1 − p) a su estrategia S. Esta
estrategia mixta para el jugador 1 se acostumbra escribir
p [C] + (1 − p) [S]
Notemos que si p es igual a 1 se tiene la estrategia pura en la que se juega C
con certeza. De forma similar, para el jugador 2 una estrategia mixta puede
describirse (como se muestra en la figura tabla 2.4) como la asignación de
probabilidades (q) y (1 − q) para las estrategias C y S respectivamente. Se
acostumbra escribir esta estrategia como
q[C] + (1 − q)[S]
Jugador 2
(q) (1-q)
C S
(p) C 1,-1 -1,1
Jugador 1
(1-p) S -1,1 1,-1
Tabla 2.4. Juego de Tirar la moneda, de nuevo.
2.10. Contexto económico 197
Definición 10. (Utilidad esperada)
Sea Γ = (N, (Ci )i∈N , (ui )i∈N ) un juego finito en forma estratégica. Dado un
perfil de distribuciones
n
Y
σ = (σ1 , ..., σn ) ∈ ∆i
i=1
la utilidad esperada del jugador i asociada a este perfil corresponde a la
siguiente expresión:
X n
Y
ui (σ) ≡ σj (cj )ui (c)
c∈C j=1
De esta forma, la utilidad esperada de un jugador tiene la misma naturale-
za que un valor esperado (matemático); es decir, corresponde a una suma
ponderada de todas las utilidades que puede alcanzar el jugador, donde
la ponderación de cada una de estas es la probabilidad de ocurrencia del
resultado que genera tales pagos.
Ejemplo 59. (Utilidades esperadas de tirar la moneda)
Consideremos el juego de Tirar la moneda, tal como se establece en la figura
2.2. En este juego, las utilidades esperadas de los jugadores 1 y 2 para cada
una de sus estrategias son:
UE1 (C) = 2q − 1, UE1 (S) = 1 − 2q, UE2 (C) = 1 − 2p, UE2 (S) = 2p − 1.
Con esto, las utilidades esperadas por participar en el juego son:
UE1 = 2p(2q − 1) − 2q + 1 UE2 = 2q(1 − 2p) + 2p − 1
Definición 11. (Equilibrio de Nash mixto)
En un juego finito en forma estratégica Γ = (N, (Ci )i∈N , (ui )i∈N ), el perfil
Q
de estrategias mixtas σ ∗ = (σi∗ )i∈N ∈ ni=1 ∆i es un equilibrio de Nash si,
para cada i ∈ N , la estrategia mixta σi∗ del jugador i es una mejor-respuesta
a las estrategias mixtas de los demás jugadores. Esto es, σ ∗ es un equilibrio
de Nash en estrategias mixtas para el juego Γ si, y sólo si,
ui (σi∗ , σ−i
∗ ∗
) ≥ ui (σi , σ−i ) ∀σi ∈ ∆i . ∀i ∈ N
donde
∗
(σi , σ−i ) = (σ1∗ , σ2∗ , . . . , σi−1
∗ ∗
, σi , σi+1 , . . . , σn∗ )
198 Capítulo 2. Optimización estática
Como hemos visto, una estrategia mixta es una distribución de probabilidad
sobre las estrategias puras de un jugador. De esta forma, un equilibrio de
Nash en estrategias mixtas corresponde a una situación en la que al menos
uno de los jugadores no se ve beneficiado por “desviarse unilateralmente” a
jugar una estrategia pura u otra estrategia mixta.
Cuando un jugador sigue una estrategia mixta en un equilibrio de Nash,
debe ser indiferente entre las estrategias puras a las cuales les asigna proba-
bilidad positiva: si no lo fuera, entonces aquella estrategia pura que obtiene
mayor utilidad esperada dominaría a la estrategia mixta. El siguiente teo-
rema ilustra esta idea y nos permite, efectivamente, calcular equilibrios de
Nash mixtos.
Teorema 26.
Si un jugador utiliza una estrategia mixta no degenerada (es decir, que asig-
na una probabilidad positiva a más de una estrategia pura) en un equilibrio
de Nash mixto, entonces es indiferente entre todas las estrategias puras a
las cuales les ha asignado probabilidad positiva. La afirmación recíproca no
es cierta.
Demostración.
Ver Maschler et al (2013).
Ejemplo 60. (El juego de coordinación, otra vez)
Consideremos, nuevamente, el juego de coordinación del ejemplo 56 que otra
vez presentamos en la tabla 2.5, y encontremos su equilibrio de Nash mixto.
(q) (1-q)
D I
(p) D 10,10 0,0
(1-p) I 0,0 1,1
D≡ derecha, I≡ izquierda
Tabla 2.5. El Juego de coordinación, de nuevo.
Solución.
Para comenzar, encontremos las utilidades esperadas de cada uno de los
jugadores para cada una de sus estrategias. Si el jugador 1 cree que el
jugador 2 va a jugar su estrategia pura Derecha (D) con probabilidad q
e Izquierda (I) con probabilidad 1 − q, sus pagos esperados por jugar sus
2.10. Contexto económico 199
estrategias Derecha e Izquierda son, respectivamente,
UE1 (D) = 10q + 0(1 − q) = 10q
UE1 (I) = 0q + 1(1 − q) = 1 − q
De forma análoga, si el jugador 2 cree que el jugador 1 va a jugar su es-
trategia Derecha con una probabilidad p, y su estrategia Izquierda con una
probabilidad 1 − p, sus pagos esperados por jugar las estrategias Derecha e
Izquierda, respectivamente, son:
UE2 (D) = 10p + 0(1 − p) = 10p
UE2 (I) = 0p + 1(1 − p) = 1 − p
Como se establece en el teorema 26, cada jugador escogerá la probabilidad
con la que juega cada una de sus estrategias puras de tal forma que su
oponente sea indiferente al momento de elegir entre estas; es decir, la utilidad
esperada de cada una de sus estrategias puras debe ser igual para cada
jugador. Así, tenemos que
jugador 1 jugador 2
10q = 1 − q 10p = 1 − p
∗
q = 1/11 p∗ = 1/11
De esta forma, la solución del juego indica que cada uno de los jugadores es-
cogerá su estrategia Derecha con probabilidad 1/11 y su estrategia Izquierda
con probabilidad 10/11. El equilibrio de Nash en estrategias mixtas es
σ ∗ = (σ1∗ , σ2∗ ) = [(1/11, 10/11) , (1/11, 10/11)]
el cual ofrece a los jugadores pagos esperados, en equilibrio, de (0.9, 0.9), que
es inferior al pago en los equilibrios de Nash en estrategias puras (10,10) y
(1,1). Nótese, sin embargo, que una vez han sido elegidas las probabilidades
con las que cada uno de los jugadores elige su posible acción, cada uno de
ellos es indiferente entre jugar su estrategia mixta, y jugar una estrategia
pura; esto es, los valores esperados de sus utilidades son siempre 0.9.
Estos resultados tienen un sentido profundo: los dos equilibrios puros los
percibimos en la vida cotidiana de la calle cuando notamos que “todos ma-
nejan por la derecha” y “todos manejan por la izquierda” son equilibrios
que vemos, entre otros lugares, en la Europa continental y en Gran Breta-
ña, respectivamente. Son acuerdos tácitamente encontrados, promedios de
200 Capítulo 2. Optimización estática
comportamiento, es decir, convenciones alcanzadas a través del tiempo. aún
así el equilibrio “a veces por la derecha, y a veces por la izquierda” no tiene
un referente claro en la realidad, y esto se destacará cuando veamos, en el
“contexto económico” del capítulo 3, que las sociedades van excluyéndolo
“evolutivamente” como posibilidad de acuerdo, a medida que transcurre el
tiempo.
Ejemplo 61. (Tirar la moneda, otra vez)
En el ejemplo 59 habíamos visto que las utilidades esperadas de los jugadores
en el juego de tirar la moneda vienen dadas por las siguientes expresiones:
UE1 (C) = 2q − 1, UE1 (S) = 1 − 2q
UE2 (C) = 1 − 2p, UE2 (S) = 2p − 1
De acuerdo al teorema 26, se tiene que UE1 (C) = UE1 (S) y que UE2 (C) =
UE2 (S) y, por tanto p = 1/2 y q = 1/2. Así, el equilibrio de Nash mixto
de este juego es [(1/2, 1/2) , (1/2, 1/2)], y los pagos esperados, en equilibrio,
son de cero para cada jugador.
Este resultado permite entender un poco mejor el significado del concepto
de equilibrio de Nash: [(1/2, 1/2) , (1/2, 1/2)] podría interpretarse no como
que esta estrategia vaya a ser realmente jugada, sino como una amenaza de
jugar, con igual probabilidad, cualquiera de las dos estrategias: No sólo jugar
efectivamente una estrategia, sino “amenazar” con jugarla, es el comporta-
miento que da mejores pagos dadas las amenazas del otro jugador 40 . N
El siguiente es uno de los resultados centrales de la teoría de juegos clásica.
De hecho, las técnicas utilizadas por Nash en este teorema inspiraron a K.
Arrow y G. Debreu para alcanzar la correspondiente demostración de la
existencia de un equilibrio competitivo bajo condiciones muy generales.
Teorema 27. [Teorema de existencia de equilibrios de Nash (Nash,
1950)]
Todo juego finito en forma estratégica tiene al menos un equilibrio de Nash
(en estrategias puras o mixtas).
Demostración.
Sea Γ = (N, (Ci )i∈N , (ui )i∈N ) un juego finito en forma estratégica, y sea
Q
∆ = ni=1 ∆i . Entonces probemos los siguientes puntos:
40
Un arquero de fútbol, al momento de ser pateado un penalti, sabe muy bien lo que
debe hacer: para él, la mejor estrategia es amenazar con jugar, con igual probabilidad, a
un lado o al otro.
2.10. Contexto económico 201
1. ∆ es convexo: Sean σ = (σi ), σ ′ = (σi′ ) ∈ ∆; es claro que para λ ∈
[0, 1], se tiene que λσ + (1 − λ)σ ′ = (λσi + (1 − λ)σi′ ). Aquí podemos
♯Ci
asumir que σi = pcj , donde pcj es la probabilidad asociada a la
j=1
P♯Ci
estrategia pura cj con j=1 pcj = 1, y pcj ≥ 0; de manera similar,
♯Ci
para σi′ = p′cj . Entonces tendremos que:
j=1
a) λσi + (1 − λ)σi′ = (λpcj + (1 − λ)p′cj )♯C
j=1
i
b) λpcj + (1 − λ)p′cj ≥ 0 y
P♯Ci P♯Ci P♯Ci
c) j=1 (λpcj + (1 − λ)p′cj ) = λ j=1 pcj + (1 − λ) ′
j=1 pcj =1
y esto prueba la convexidad del conjunto ∆.
2. El conjunto ∆ es compacto ya que ∆i es compacto (simplex unitario)
para todo i ∈ N .
3. Ahora: sea γi : ∆ → ∆i , definida, para σ ∈ ∆, por
γi (σ) = {σi′ ∈ ∆i | ui (σi′ , σ−i ) ≥ ui (σi , σ−i ) para todo σi ∈ ∆i }
y sea γ : ∆ → ∆ definida por γ(σ) = (γ1 (σ), γ2 (σ), . . . , γn (σ)). Si
probamos que γi es semicontinua superiormente y que para todo σ ∈
∆, γi (σ) es no vacío y convexo, entonces γ tiene un punto fijo (teorema
de punto fijo de Kakutani (teorema 17)); es decir, existe σ ∗ ∈ ∆ tal
que σ ∗ ∈ γ(σ ∗ ); esto es, σi∗ ∈ γi (σ ∗ ), y así,
ui (σi∗ , σ−i
∗ ∗
) ≥ ui (σi , σ−i ) para todo σi ∈ ∆i ;
es decir, σ ∗ es un equilibrio de Nash.
a) Probar que γi (σ) es no vacío, es decir, que el problema
Máxσi ∈∆i ui (σi , σ−i ) para σ−i fijo
tiene solución, es inmediato por el teorema de Weierstrass.
b) Demostremos que γi (σ) es convexo. Si tenemos σi′ , σi′′ ∈ γi (σ), en-
tonces
ui (σi′ , σ−i
′
) ≥ ui (σi , σ−i ) para todo σi ∈ ∆i
ui (σi′′ , σ−i
′
) ≥ ui (σi , σ−i ) para todo σi ∈ ∆i
Así, para λ ∈ [0, 1] se tiene que ui (λσi′ +(1−λ)σi′′ , σ−i ) ≥ ui (σi , σ−i ),
para todo σi ∈ ∆i , debido a la cuasiconcavidad de la función de
utilidad esperada ui .
202 Capítulo 2. Optimización estática
c) Probemos, finalmente, que el gráfico de γ
graf (γ) = {(σ, σ ′ ) | σ ′ ∈ γ(σ)}
es cerrado. Para i = 1, 2, · · · , n, sea (σn , σn′ ) ∈ graf (γ) y (σn , σn′ ) →
(σ, σ ′ ), donde σ, σ ′ ∈ ∆, y debemos probar que (σ, σ ′ ) ∈ graf (γ).
Pero esto es inmediato, ya que si σn,i ′ → σ ′ , entonces, de
i
′
ui (σn,i , σn,−i ) ≥ ui (σn ) , σi ∈ ∆i
tendremos que ui (σi′ , σ−i ) ≥ ui (σ) cuando n → ∞, y, por tanto,
σi′ ∈ γi (σ).
Observemos que este teorema garantiza, para juegos con un número fini-
to de jugadores y estrategias, la existencia de, al menos, una combinación
de estrategias tal que ninguno de ellos tenga incentivos unilaterales para
cambiar su propia estrategia. Es decir, de que cada conflicto tiene, en prin-
cipio, una “solución”, aunque esta pueda implicar comportamientos más de
amenaza que de acción efectiva. Esta visión de las estrategias mixtas como
amenazas se ve, por ejemplo, en el caso del lanzamiento de penalties en el
fútbol: cuando se ubica en el centro del arco, el arquero amenza al pateador
con lanzarse a la izquierda con probabilidad 1/2, y también a la derecha
con probabilidad 1/2. Similarmente, el pateador amenzará con lanzar a la
derecha y a la izquierda con la misma probabilidad 1/2, y, por ello, tratará
de evitar que el arquero reconozca hacia cuál de los dos lados efectuará el
lanzamiento. Este tipo de argumento, obviamente, puede trasladarse a todos
los juegos finitos que estudiamos.
De otro lado, el lector también podría preguntarse aquí por qué si el teore-
ma de Nash que acabamos de presentar es aplicable para cualquier conjunto
finito de jugadores, los ejemplos y aplicaciones presentados únicamente han
involucrado a dos jugadores. Von Neumann y Morgenstern reconocían que
para tratar con juegos de más de dos jugadores debería recurrirse a una
metodología diferente a la utilizada en juegos de dos jugadores ya que, en
aquellos casos, algunos jugadores podrían formar alianzas que los beneficia-
ran frente a terceros jugadores. Esta es la teoría de juegos coalicionales (o
cooperativos) que, paralelo a la teoría de juegos no cooperativos, ha tenido
un desarrollo propio muy fructífero donde se ha mostrado, inclusive, que
sus conexiones con la teoría no cooperativa son completamente naturales
cuando de juegos con “muchos” agentes se trata 41 .
41
Para el estudiante interesado en un buen tratamiento de la teoría de juegos coalicio-
nales, recomendamos Maschler et al, 2013.
2.10. Contexto económico 203
A pesar de su aspecto prometedor en los primeros años de 1950, el impacto
de la teoría del equilibrio de Nash se dispersó muy lentamente. Al principio,
casi toda la atención se centró en el análisis de los juegos coalicionales que
tanto habían apoyado von Neumann y Morgenstern desde su particular y
estrecha perspectiva de las interacciones. La literatura de las décadas de
1950 y 1960 así lo atestigua. Posteriormente, al rescatar la importancia del
trabajo de Nash, se fue entendiendo que la mirada tradicional neoclásica
de la economía (desde la teoría de precios y mercados competitivos) tenía
serias limitaciones. Por ejemplo, problemas de interacción económica donde
los individuos tienen diferente información, no caen con facilidad dentro
de los argumentos típicos de precios; la organización interna de una firma
tampoco está claramente abarcada en el esquema de precios y competencia
perfecta; el problema del surgimiento del dinero como instrumento financiero
y de intercambio ha estado por fuera de las aproximaciones clásicas de los
modelos de equilibrio general.
Inclusive en las épocas de los grandes debates acerca del socialismo, pudo
verse cómo los modelos basados en precios podían ser inútiles para probar
los defectos y virtudes de una economía centralizada. También la creación y
operación de las instituciones, que son un factor esencial en el funcionamien-
to de los mercados económicos, cae, regularmente, por fuera de los esquemas
de la teoría de precios, etc. La teoría de juegos (y, en general, la teoría de
interacciones) muestra un camino más allá de esta mirada. Hoy, la visión de
la teoría económica, a la luz de dichos avances, comienza a cambiar.
Ejercicios complementarios
(Observación: Los ejercicios señalados con uno (*) o dos asteriscos (**)
tienen, a juicio de los autores, un nivel de dificultad un tanto o muy superior,
con respecto a los ejercicios corrientes que aparecen sin asterisco.)
1. En la sección de optimización no lineal del presente capítulo se han
estudiado problemas de optimización de dos variables y una sola res-
tricción. A continuación, se pide generalizar los resultados presentados:
a) Escriba las condiciones de primer orden para el problema de Kühn-
Tucker:
Maximizar f (x, y)
sujeta a g1 (x, y) ≥ 0
g2 (x, y) ≥ 0
x, y ≥ 0
204 Capítulo 2. Optimización estática
b) Escriba los correspondientes resultados de Lagrange y Kühn-Tucker
para el problema anterior.
c) Similar al literal b), cuando hay 3 restricciones.
d) Similar al literal b), cuando las funciones dependen de 3 variables
x, y, z.
e) Generalice a m(> 3) restricciones y n(> 3) variables.
2. Halle los máximos y mínimos de la función definida sobre el conjunto
de restricción S en cada uno de los siguientes casos:
a) f (x, y) = x3 + y 3 − 9xy + 27; S = [0, 4] × [0, 4]
b) f (x, y) = x2 + 2y 3 − x; S = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}
c) f (x, y) = 3 + x3 − x2 − y 2 ; S = {(x, y) ∈ R2 | x2 + y 2 ≤ 1, x ≥ 0}
3. Resuelva analíticamente (utilizando los teoremas apropiados y encon-
trando las soluciones explícitamente) e ilustre gráficamente los siguien-
tes problemas:
a)
Maximizar 2x2 + 2xy − 2y 2
sujeta a 3x + 4y ≤ 6
4y 2 − x ≤ 6
x, y ≥ 0
b)
Minimizar 4xy−3x2 + y
sujeta a x≤4
y≤5
x, y ≥ 0
c)
Maximizar xα y β
sujeta a ax + by ≤ M
x ≤ m1
y ≥ m2
x≥0
(Aquí, α, β, a, b, M, m1 , m2 son todos positivos).
2.10. Contexto económico 205
4. Determine el punto sobre el plano x + 2y + 3z = 13 más cercano al
punto (1, 1, 1).
5. Halle tres números reales cuya suma sea 9, y la suma de sus cuadrados
sea lo más pequeña posible.
6. En el problema
Maximizar − 8x2 − 10y 2 +12xy − 50x + 80y
sujeta a x+y ≤1
8x + y 2 ≤ 2
2
x, y ≥ 0
a) Resuelva geométricamente.
b) ¿Por qué el método de Lagrange no funciona aquí?
c) Determine los valores óptimos de x y y utilizando el método de
Kühn-Tucker.
7. ¿Para qué valores de α, β, γ, el problema
Maximizar αx2 +βxy
sujeta a x2 + y 2 ≤ γ
x, y ≥ 0
tiene solución? En tal caso, ¿cuál es la solución? ¿Cuándo es única?
8. Un grupo de 3 personas es propietario de un lote cuadrado, y planean
construir sus casas en él. Buscando privacidad, tratarán de que la
distancia entre los centros de las casas sea lo más grande posible.
¿Dónde deberían construir sus casas?
9. Un vendedor debe comenzar su ruta de viaje en una ciudad, visitar
otras 3 ciudades, y regresar a la ciudad de la que partió de tal forma
que la distancia total recorrida se minimice. ¿Puede usted hacerle, a
este respecto, alguna recomendación al vendedor?
10. Calcule el máximo producto posible de tres números positivos x, y, z,
si x + y + z 2 = 16.
11. Encuentre (si existe) el punto de la región de los (x, y, z) con x ≥ 0,
y ≥ 0, z ≥ 0; x2 − xy + y 2 − z 2 ≤ 1, x2 + y 2 + z 2 = 1 más cercano al
origen (0, 0, 0).
206 Capítulo 2. Optimización estática
12. Halle los valores máximo y mínimo de f (x, y, z) = x − 2y + 7z sobre
la esfera x2 + y 2 + z 2 ≤ 30, si x > 0, y > 0.
13. Pareto en su Manuel de 1906 (§ 3, cap. II) afirma que:
Se sabe, por ejemplo, que los alveolos de las abejas se terminan en pi-
rámide, y que con el mínimo de superficie, es decir con el más pequeño
gasto de cera, hacen el máximum de volumen, es decir que pueden con-
tener la más grande cantidad de miel. Nadie supone, sin embargo, que
es así porque las abejas han resuelto por el empleo de un silogismo y
de las matemáticas un problema de máximum.
Discuta matemáticamente la primera afirmación, y reflexione sobre la
segunda.
14. Una empresa tiene n productos que vende en el mercado a precios
p1 , . . . , pn . Para la producción de esos productos utiliza m insumos
diferentes, de los cuales tiene un inventario Ai de cada uno; para pro-
ducir una unidad del producto j requiere de aij unidades del insumo
i. El objetivo de la empresa es maximizar sus ingresos por venta.
a) Plantee el problema de la empresa en términos del método simplex.
b) Suponga que n = 4 y m = 6 y que
p1 = 2, p2 = 4, p3 = 1, p4 = 8;
A1 = 150, A2 = 170, A3 = 70, A4 = 95;
A5 = 200, A6 = 90
y que la matriz de coeficientes de producción es
1 10 2 14
3 6 7 3
1 1 1 1
2 4 2 3
5 7 1 2
1 3 3 9
Encuentre los niveles óptimos de producción de cada producto.
c) Determine cuánto se demanda de cada insumo, y para cuáles insu-
mos existen sobrantes en el inventario.
2.10. Contexto económico 207
d) Determine cuál insumo tendría mayores efectos sobre el nivel de
ventas si se cambiara su nivel de inventarios.
15. Una empresa tiene a su disposición dos tecnologías para producir 2
bienes. La tecnología 1 requiere 10 unidades del insumo 1, y 6 del
insumo 2 para producir conjuntamente 15 y 20 unidades de los pro-
ductos 1 y 2, respectivamente. De otro lado, la tecnología 2 requiere 5
unidades del insumo 1, y 9 del insumo 2 para producir conjuntamente
12 y 8 unidades de los productos 1 y 2, respectivamente. Si los precios
de los productos 1 y 2 son 10 y 7 respectivamente; y de los insumos 1
y 2 son 1 y 3, respectivamente, determine los niveles de utilización de
las diferentes actividades, de tal forma que la empresa maximice sus
beneficios.
16. Dé dos ejemplos económicos reales de tecnologías con rendimientos
crecientes a escala.
17. ¿Cuáles son las condiciones de primer orden de Kühn-Tucker para el
problema de distribución de recursos
Maximizar f (x) + g(y) + h(z)
sujeta a x + y + z ≤ b,
x, y ≥ 0
z≥0
donde b > 0, f (·), g(·), h(·) son funciones cóncavas estrictas y diferen-
ciables con continuidad en R2+ ?
18. [Dixit, 1990] Cierta suma de dinero C está disponible para invertir en
dos proyectos de inversión. Si x1 , x2 > 0 son las cantidades invertidas
en los proyectos 1 y 2, respectivamente, el rendimiento esperado de
este portafolio de proyectos es
1 1
[α1 x1 − β1 x21 ] + [α2 x2 − β2 x22 ]
2 2
para ciertos α1 , β1 , α2 , β2 > 0. El inversionista busca maximizar este
último valor. Utilizando el método Kühn-Tucker, pruebe que:
α1 α2
a) Si C > + , una parte de C no se invierte.
β1 β2
208 Capítulo 2. Optimización estática
b) Si
α1 α2 1 1
α1 , α2 > + −C +
β1 β2 β1 β2
entonces todo proyecto recibirá alguna inversión.
c) Interprete estos resultados.
19. [Un consumidor racionado] Para p1 , p2 , M, k > 0, 0 < β < 1, resuelva
el problema del consumidor
Maximizar ln x + β ln y
sujeta a p1 x + p2 y ≤ M
x≤k
x, y ≥ 0
20. Para p1 , p2 , M, α > 0, 0 < β < 1, resuelva el problema del consumidor
Maximizar xα + β ln y
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0
21. Compare los resultados de los ejercicios 19 y 20.
22. Para p1 , p2 , M, 0 < γ < 1, 0 < β < 1, resuelva el problema de un
consumidor con función de utilidad tipo CRRA
x1−γ − 1 y 1−γ − 1
Maximizar +β
1−γ 1−γ
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0
23. Para p1 , p2 , M, γ > 0, 0 < β < 1, resuelva el problema de un consumi-
dor con función de utilidad tipo CARA
1 −γx β −γy
Maximizar − e − e
γ γ
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0
2.10. Contexto económico 209
24. Para α, β, γ > 0, px , py , pz , M > 0, resuelva el problema del consumi-
dor
Maximizar xα y β z γ
sujeta a px x + py y + pz z = M
x, y, z > 0
25. Resuelva el problema de un consumidor con función de utilidad sepa-
rable y cuadrática; es decir,
Maximizar u(x) + β u(y)
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0
donde u(·) es una función cuadrática del tipo u(z) = z − z 2 ; y además
p1 , p2 , M > 0, 0 < β < 1.
26. [Precios sombra] En ocasiones, y para evocar cierta conexión con los
precios del mercado, a los multiplicadores de Lagrange de un proble-
ma de optimización (de consumidores y productores) se les denomina
precios sombra. Note que, por el teorema de la envolvente expuesto
en este capítulo, el parámetro λ coincide con el valor marginal de los
recursos. Para ilustrar el papel que pueden jugar los precios sombra en
problemas de distribución eficiente de recursos escasos, consideremos
el siguiente ejemplo de Dixit (1990).
Supongamos que una economía tiene 300 unidades de mano de obra,
y 450 unidades de tierra, para producir trigo y carne. Cada unidad de
trigo requiere de 2 unidades de mano de obra y de una de tierra; cada
unidad de carne requiere de 1 unidad de mano de obra y 2 de tierra.
Por lo tanto, si x, y son el número de unidades de trigo y carne que
puede producir la economía, debemos tener que
2x + y ≤ 300 ; x + 2y ≤ 450
a) Dibuje el conjunto de planes (x, y) posibles para esta economía.
b) ¿Será que la solución tendrá que ser x = 50, y = 200 (empleo total
de los recursos)? ¿Por qué?
210 Capítulo 2. Optimización estática
Suponga ahora que la sociedad tiene un objetivo (o “función de bie-
nestar social”) definido por:
W (x, y) = α ln x + β ln y
donde α, β > 0, α + β = 1, son constantes conocidas y que trata de
maximizar esta función.
c) Escriba el problema de optimización de esta sociedad.
d) Escriba el correspondiente lagrangiano.
e) Escriba las CPO de Kühn-Tucker para este problema.
f) Pruebe que, en un óptimo, no es posible mantener ambos factores
subutilizados.
g) Pruebe que si β ≥ 8/9 entonces x = 450α, y = 225β es una
solución.
h) Pruebe que si β ≤ 2/3 entonces x = 150α, y = 300β es una
solución.
i) Pruebe que si 32 < β < 8/9, se obtiene la solución de utilización
total de factores: x = 50, y = 200.
j) ¿Cuáles son las soluciones óptimas?
k) Confirme que cada precio sombra (multiplicador de Lagrange) en
este problema es el efecto sobre el bienestar social de tener una
unidad adicional de ese factor.
l) Muestre que si un factor no está totalmente utilizado en un óp-
timo, entonces su precio sombra es cero.
m) Confirme que un precio sombra positivo significa que un incre-
mento marginal en disponibilidad del recurso afectará positiva-
mente la producción.
27. (*) [Un problema del análisis de actividades (Koopmans, 1951)] En el
volumen I (Álgebra lineal y cálculo en varias variables), discutíamos el
modelo de Koopmans de la existencia de un equilibrio competitivo y
sus características de bienestar. El presente ejercicio plantea un pro-
blema concreto y simple del “análisis de actividades” que Koopmans
generalizó en su modelo pionero de 1951.
Supongamos que existen n actividades, A1 , A2 , · · · , An a las que cierta
firma puede recurrir, utilizando la oferta disponible de m recursos
2.10. Contexto económico 211
(insumos), R1 , R2 , · · · , Rm . Supongamos que bi es la oferta disponible
del recurso Ri ; que aij es la cantidad del recurso Ri utilizado en la
actividad Aj en cada unidad producida; y que cj es el valor neto de
una unidad producida bajo la actividad Aj .
El objetivo de la empresa es escoger adecuadamente los niveles de uti-
lización de las diferentes actividades de tal manera que se maximice
el valor de la producción sujeto a los recursos dados. Es decir, la em-
presa necesita encontrar las intensidades xj ≥ 0 a que debe operar las
respectivas actividades Aj , de tal forma que maximice el valor total
P
de la producción nj=1 cj xj sujeto a la condición de que las cantida-
des de recursos utilizados en esta operación no puede sobrepasar la
P
oferta, es decir, nj=1 aij xj ≤ bi para i = 1, 2, ..., m. El ejercicio aquí
consiste en que el lector construya y resuelva un ejemplo concreto de
análisis de actividades con m = 3 y n = 2., e interprete el resultado
adecuadamente.
28. (**) [Prueba de existencia de equilibrios en el modelo de von Neumann
(1932)] Utilizando el teorema minimax, podemos probar el teorema
de existencia de solución única del modelo de von Neumann que estu-
diamos en el volumen I (Álgebra lineal y cálculo en varias variables), y
que reproducimos a continuación. El ejercicio consiste en que el lector
siga cuidadosamente la prueba del teorema.
Consideremos una economía donde hay n bienes G1 , G2 , ..., Gn que
pueden producirse mediante m procesos P1 , P2 , ..., Pm . En cada pro-
ceso Pi (i = 1, 2, ..., m) se utilizan cantidades conocidas aij (expresa-
das en unidades convenientes) y se producen las cantidades conocidas
bij , de los respectivos bienes Gj (j = 1, 2, ..., n). El proceso, entonces,
puede simbolizarse de la siguiente forma:
n
X n
X
Pi = aij Gj → bij Gj
j=1 j=1
Estos procesos Pi (i = 1, 2, ..., m) serán utilizados con ciertas intensi-
dades xi (i = 1, 2, ..., m), lo que significa que, para la producción total,
las cantidades de la ecuación (5) deben multiplicarse por xi . Aquí,
xi = 0 significa que el proceso Pi no será utilizado.
Luego se pregunta por aquellos estados en donde la economía se ex-
pande sin cambio de estructura; es decir, donde las proporciones de
212 Capítulo 2. Optimización estática
x1 x2 xm−1
las intensidades , , ..., igualan un factor común α:
x2 x3 xm
x1 x2 xm−1
= = ... = =α
x2 x3 xm
A este, von Neumann lo llama el coeficiente de expansión de la econo-
mía. Las incógnitas del modelo son, entonces,
i) Las intensidades x1 , ..., xm de los procesos P1 , ..., Pm ;
ii) El coeficiente de expansión (o tasa de crecimiento), α, de la eco-
nomía;
iii) Los precios y1 , ..., yn de los bienes G1 , ..., Gn ;
iv) El factor de interés β, donde asume que
y1 y2 yn−1
β= = = ... =
y2 y3 yn
Las ecuaciones económicas son:
αAT X ≤ B T X (1)
x1
donde A = [aij ]m×n , B = [bij ]m×n y X = [x1 , ..., xm ]T y α = =
x2
x2 xm−1
= ... = .
x3 xm
βAY ≥ BY (2)
donde Y = [y1 , ..., yn ]T .
x1 xm−1
Si tenemos en cuenta la condición = ... = = α y la condición
x2 xm
y1 yn−1
= ... = = β, entonces (1) y (2) conforman un sistema de m+n
y2 yn
desigualdades con m+n incógnitas. Pero como estas no son ecuaciones
sino desigualdades, el hecho de que el número de ellas iguale el número
de incógnitas, no constituye ninguna garantía de que el sistema pueda
resolverse.
Teorema 28. (Minimax ⇒ von Neumann)
Si aij + bij > 0 el modelo de von Neumann tiene una única solución
α = β.
2.10. Contexto económico 213
Demostración.
Consideremos la función
m,n , m,n
T yBy T X X
u(y, y ) = = bij yi yj aij yi yj (3)
yAy T i,j=1 i,j=1
Observemos que la condición aij + bij > 0 garantiza que esta función
está bien definida: Si el denominador es cero, el numerador es positivo,
y entonces podríamos redefinir la función u(·, ·) mediante la función
recíproca.
Utilizando (1) y (2) se tiene que
Máxy MínyT u(y, y T ) = α, MínyT Máxy u(y, y T ) = β
y, por el teorema minimax, α = β.42
29. (*) Para α, β > 0, suponga que un productor tiene una tecnología
Leontief definida por
f (x, y) = Mín{αx, βy}
Encuentre la función de costos y las demandas de factores en este caso.
Note que esta función no es derivable, por lo cual, aparentemente, no
podría utilizar los métodos presentados en el presente capítulo.
30. ¿Podría
ln(1 + p)
Π(p, w1 , w2 ) =
w1 w 2
ser una función de beneficio que proviene del comportamiento racional
estándar?
31. ¿Podría
1 2
C(w1 , w2 , y0 ) = (a1 w1 + a2 w2 + b(w1 ) 3 (w2 ) 3 ) y0
ser una función de costos que proviene del comportamiento racional
estándar? En caso afirmativo especifique cuáles pueden ser las condi-
ciones sobre los valores de a1 , a2 , b.
42
Sin embargo, paradójicamente, von Neumann recurrió, con la misma forma funcional
u(y, y T ), al teorema de punto fijo de Brouwer para probar este teorema, y no al teorema
del minimax del que él mismo ya tenía una prueba desde 1928.
214 Capítulo 2. Optimización estática
32. ¿Podrían
px py
x(px , py , M ) = +1 ; y(px , py , M ) = +1
py px
ser funciones de demanda para un consumidor racional estándar?
33. (*) [Demostración del teorema 19 (función de beneficio)] Supongamos
que Π(p, w1 , w2 ) resuelve el problema del productor.
a) Si f (0, 0) ≥ 0, entonces el máximo del problema del productor debe
satisfacer Π(p, w1 , w2 ) ≥ Π(p, 0, 0) ≥ 0, ya que el productor puede
elegir no producir.
b) Sean x′ , y ′ los valores de x, y que resuelven el problema al precio
p′ , y sean x′′ , y ′′ los que lo hacen al precio p′′ . Entonces, por la
definición de Π(p, w1 , w2 ), tenemos que
p′′ f (x′′ , y ′′ ) − w1 x′′ − w2 y ′′ ≥ p′′ f (x′ , y ′ ) − w1 x′ − w2 y ′
Supongamos que p′′ ≥ p′ ; entonces tenemos que
Π(p′′ , w1 , w2 ) = p′′ f (x′′ , y ′′ ) − w1 x′′ − w2 y ′′
≥ p′′ f (x′ , y ′ ) − w1 x′ − w2 y ′
≥ p′ f (x′ , y ′ ) − w1 x′ − w2 y ′
= Π(p′ , w1 , w2 )
De manera similar en los otros casos.
c) Sean x′ , y ′ los valores de x, y que resuelven el problema de optimi-
zación a los precios p′ , w1′ , w2′ , y sea t > 0; entonces
Π(tp′ , tw1′ , tw2′ ) = tp′ f (x′ , y ′ ) − tw1′ x′ − tw2′ y ′
= t p′ f (x′ , y ′ ) − w1′ x′ − w2′ y ′
= tΠ(p′ , w1′ , w2′ )
d) Se deja como ejercicio para el lector.
34. (*) [Demostración del teorema 20 (función de costos)] Supongamos
que C(w1 , w2 , y0 ) resuelve el problema de optimización del productor.
2.10. Contexto económico 215
a) Sean x′ , y ′ son los valores de x, y que resuelven el problema al precio
w1′ ; y x′′ , y ′′ los que lo hacen al precio w1′′ ; entonces, para w2 fijo,
w1′ x′ + w2 y ′ ≤ w1′ x′′ + w2 y ′′
w1′′ x′′ + w2 y ′′ ≤ w1′′ x′ + w2 y ′
Supongamos que w1′′ ≥ w1′ . Entonces
C(w1′ , w2 , y0 ) = w1′ x′ + w2 y ′ ≤ w1′ x′′ + w2 y ′′ ≤ w1′′ x′′ + w2 y ′′
≤ w1′′ x′ + w2 y ′ = C(w1′′ , w2 , y0 )
Y de forma similar para w2 .
b) Si x′ , y ′ son los valores de x, y que resuelven el problema a los
precios w1′ , w2′ y t > 0, entonces
C(tw1′ , tw2′ , y0 ) = tw1′ x′ + tw2 y ′ = t w1′ x′ + w2 y ′
= tC(w1′ , w2′ , y0 )
c) Queda como ejercicio para el lector.
35. (*) [Demostración del teorema 21 (funciones de demanda)] Suponga-
mos que x(p1 , p2 , M ) y y(p1 , p2 , M ) resuelven el problema del consu-
midor.
a) Queda como ejercicio para el lector.
b) Dado que la restricción p1 x + p2 y ≤ M , es igual a la restricción
tp1 x + tp2 y ≤ tM para t > 0, el problema del consumidor se man-
tiene inalterado, si multiplicamos (p1 , p2 , M ) por t, de forma que
x(tp1 , tp2 , tM ) = x(p1 , p2 , M ), y(tp1 , tp2 , tM ) = y(p1 , p2 , M ).
c) (*) Queda como ejercicio para el lector.
d) Sea S = R3++ , T = R2+ , f : S × T → R y ϕ : S → T tal que a cada
(p1 , p2 , M ) se le asigna el conjunto {(x, y) ∈ R2+ | p1 x + p2 y ≤ M }
y f (·, (x, y)) = U (x, y). Vemos que tanto f (·) como ϕ(·) son con-
tinuas, y así, por el teorema 15 (teorema del máximo), las corres-
pondencias x(p1 , p2 , M ) y y(p1 , p2 , M ) son semicontinuas superior-
mente. Es claro, que si estas correspondencias de demanda tienen
un único elemento para cada (p1 , p2 , M ), es decir, son funciones de
demanda, entonces son continuas.
216 Capítulo 2. Optimización estática
36. (*) [Demostración del teorema 22 (función de utilidad indirecta)] Su-
pongamos que
v(p1 , p2 , M ) = U (x(p1 , p2 , M ), y(p1 , p2 , M ))
resuelve el problema de optimización del consumidor.
a) Esta propiedad se sigue del hecho de que U (·, ·) es creciente, y
de que x(p1 , p2 , M ), y(p1 , p2 , M ) son no crecientes en p1 , p2 y no
decrecientes en M .
b) Se tiene por la homogeneidad de grado 0 de x(p1 , p2 , M ) y y(p1 , p2 , M ).
c) Se deja como ejercicio para el lector.
d) Se sigue inmediatamente a partir de la continuidad de las funcio-
nes U (·, ·), x(p1 , p2 , M ) y y(p1 , p2 , M ).
37. Considere la siguiente economía de intercambio puro de dos mercan-
cías y dos consumidores, A y B, cuyas funciones de utilidad son:
1 1
uA (xA , yA ) = (xA ) 3 (yA ) 2
1 1
uB (xB , yB ) = (xB ) 2 (yB ) 2
a) Encuentre el equilibrio si wA = (1/3, 2/3) y wB = (2/3, 1/3).
b) Corrobore los dos teoremas del bienestar económico.
38. Suponga que existen únicamente dos mercancías en una economía de
intercambio puro y que la función de exceso de demanda de la mer-
cancía x es:
100px + 200py
zx (px , py ) = − 100
2px
a) Encuentre la función de exceso de demanda de la mercancía y,
zy (px , py ).
b) Calcule los precios de equilibrio.
39. Suponga que existen únicamente tres mercancías en una economía y
que las funciones de exceso de demanda de las mercancías x y h son:
−3py + 2ph
zy (px , py , ph ) = −1
px
4py − 2ph
zh (px , py , ph ) = −2
px
2.10. Contexto económico 217
a) Muestre que estas funciones son homogéneas de grado cero en
p x , py , ph .
b) ¿Puede utilizarse la ley de Walras para calcular la función de exceso
de demanda de la mercancía x, zx (px , py , ph )?
c) Calcule los precios relativos de equilibrio, suponiendo que el precio
de la mercancía x es el numerario.
40. Considere la siguiente economía compuesta por dos mercancías y tres
consumidores, A y B, cuyas funciones de utilidad y dotaciones iniciales
son:
uA (xA , yA ) = (xA )2 (yA )2 wA = (1, 2)
1 1
uB (xB , yB ) = (xB ) (yB )
2 3 wB = (3, 4)
a) Encuentre las funciones de demanda individual y las funciones de
demanda agregada.
b) Verifique la ley de Walras.
c) Suponga que el vector de precios de equilibrio pertenece al simplex
unitario, y encuentre este vector.
d) Corrobore los dos teoremas del bienestar económico.
41. (*) Como dijimos antes, la tradición paretiana nunca se preocupó por
el problema de la existencia del equilibrio competitivo, a pesar de
que este concepto fue el centro de atención con respecto a sus pro-
piedades e implicaciones. Aún así, enseguida mostraremos una de las
pruebas típicas de existencia en el caso de economías de intercam-
bio puro, y le pedimos al lector seguirla con cuidado. Esta prueba ya
tiene los elementos (teorema de punto fijo de Brouwer, formas fun-
cionales convenientes, etc.) que serían esenciales en la prueba general
de existencia del modelo Arrow-Debreu que veremos en el capítulo 3.
Cabe, en cualquier caso, advertir que estos elementos provinieron, pa-
radójicamente, de la prueba de existencia de equilibrios de John Nash
[1928-2015] que fuera publicada por el mismo Nash en 1950. Es decir,
la teoría de existencia de equilibrios competitivos le debe mucho a la
teoría de existencia de los equilibrios de la teoría de juegos.
Teorema 29. (Existencia de equilibrios competitivos)
Sean
U i : R2+ → R
(xi , yi ) → U i (xi , yi )
218 Capítulo 2. Optimización estática
para i = A, B, funciones de utilidad continuas, monótonas crecien-
tes estrictamente y cuasicóncavas estrictas y (wxA , wyA ) y (wxB , wyB )
las dotaciones iniciales de los consumidores A y B, respectivamen-
te. Además, supongamos que si pj = 0, entonces zj (px , py ) > 0 para
j = x, y. Entonces existe algún par de precios positivos (p∗x , p∗y ) ta-
les que zx (p∗x , p∗y ) = 0 y zy (p∗x , p∗y ) = 0; es decir, existe un equilibrio
competitivo para la economía descrita por estas funciones de utilidad
y dotaciones iniciales.
En efecto: el teorema 21 asegura que las funciones de demanda de los
agentes son continuas, de tal forma que también las funciones de exceso
de demanda son continuas. Sea ∆ = {(px , py ) ∈ [0, 1]2 | px + py = 1}
y sea la función g : ∆ → ∆ definida por:
px + Máx{0, zx (px , py )}
gx (px , py ) =
1 + Máx{0, zx (px , py )} + Máx{0, zy (px , py )}
py + Máx{0, zy (px , py )}
gy (px , py ) =
1 + Máx{0, zx (px , py )} + Máx{0, zy (px , py )}
Vemos que (gx , gy ) ∈ P , ya que:
px + Máx{0, zx (px , py )}
gx (px , py ) + gy (px , py ) =
1 + Máx{0, zx (px , py )} + Máx{0, zy (px , py )}
py + Máx{0, zy (px , py )}
+
1 + Máx{0, zx (px , py )} + Máx{0, zy (px , py )}
px + py + Máx{0, zx (px , py )} + Máx{0, zy (px , py )}
= =1
1 + Máx{0, zx (px , py )} + Máx{0, zy (px , py )}
Como ∆ es un conjunto no-vacío, convexo y compacto, y g(·) es una
función continua, por el teorema del punto fijo de Brouwer (teorema
16), existe al menos un punto fijo de g(·), (p∗x , p∗y ) ∈ ∆. Veamos que
(p∗x , p∗y ) es un equilibrio competitivo. Tenemos que el punto satisface
p∗x + Máx{0, zx (p∗x , p∗y )}
p∗x =
1 + Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )}
p∗y + Máx{0, zy (p∗x , p∗y )}
p∗y = .
1 + Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )}
2.10. Contexto económico 219
de lo cual,
p∗x Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )} = Máx{0, zx (p∗x , p∗y )}
p∗y Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )} = Máx{0, zy (p∗x , p∗y )}.
Multipliquemos ambas ecuaciones por zx (p∗x , p∗y ) y zy (p∗x , p∗y ) respecti-
vamente, obtenemos entonces
p∗x zx (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )} =
= zx (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )}.
p∗y zy (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )} =
=zy (p∗x , p∗y ) Máx{0, zy (p∗x , p∗y )}.
Sumando ambas igualdades obtenemos
p∗x zx (p∗x , p∗y ) + p∗y zy (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )}
= zx (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )} + zy (p∗x , p∗y ) Máx{0, zy (p∗x , p∗y )},
que por la ley de Walras es equivalente a
zx (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )} + zy (p∗x , p∗y ) Máx{0, zy (p∗x , p∗y )} = 0.
Si zx (p∗x , p∗y ) > 0 o zy (p∗x , p∗y ) > 0 se tiene que
zx (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )} + zy (p∗x , p∗y ) Máx{0, zy (p∗x , p∗y )} > 0;
por lo tanto, debe ser zx (p∗x , p∗y ) ≤ 0 o zy (p∗x , p∗y ) ≤ 0. Ahora, si
zi (p∗x , p∗y ) < 0 para algún i = x, y, tendríamos que pj > 0. Pero enton-
ces,
p∗x zx (p∗x , p∗y ) + p∗y zy (p∗x , p∗y ) < 0
contradiciendo la ley de Walras. Así, debe ser zx (p∗x , p∗y ) = 0 y zy (p∗x , p∗y ) =
0.
220 Capítulo 2. Optimización estática
42. (*) [Equivalencia entre equilibrios competitivos y puntos fijos]. Ya sa-
bemos (teorema 29) que el teorema de punto fijo de Brouwer garantiza
la existencia de un equilibrio competitivo. Pero lo que podría sorpren-
dernos ahora es que la afirmación recíproca también es cierta. Veamos
esto:
Consideremos la siguiente versión del teorema de existencia de equili-
brios competitivos, y que, aquí, llamaremos EEW :
Teorema 30. [EEW (Nikaido, 1968)]
Pn
Sea ∆n = {p = (pj ) ∈ Rn+ | j=1 pj = 1} (simplex unitario en
Rn ), y sea Γ un subconjunto compacto y convexo de Rn+ . Supongamos,
además, que ϕ : ∆n → P (Γ) es una correspondencia semicontinua
superiormente (correspondencia de exceso de demanda) que envía cada
punto de ∆n en un subconjunto convexo no vacío de Γ, y que, también
p · x ≥ 0 para todo x ∈ ϕ(p) (Ley Walras). Entonces existe p∗ ∈ ∆n
tal que
ϕ(p∗ ) ≥ 0
Usawa (1962) ha probado que también es cierto el teorema recíproco:
Teorema 31. (Walras ⇒ Brouwer)
El teorema EEW implica el teorema de punto fijo de Brouwer.
En efecto: sea f : ∆n → ∆n una función que satisface las hipótesis del
teorema de Brouwer (teorema 16). Para p ∈ △n definamos χ : ∆n →
∆n mediante la fórmula
f (p) · p
χ(p) = p − f (p)
kpk2
Dadas las hipótesis sobre f (·), esta función χ(·) satisface las condi-
ciones del teorema EEW, como el lector puede fácilmente comprobar.
En particular, note que la ley de Walras se satisface inmediatamente,
dado que p · χ(p) = 0 para todo p ∈ ∆n . Por lo tanto, existe p∗ ∈ △n
tal que χ(p∗ ) ≥ 0, que es
f (p∗ ) · p∗ ∗
p ≥ f (p∗ )
kp∗ k2
Pero, de hecho, por la ley de Walras, tenemos que
f (p∗ ) · p∗ ∗
p = f (p∗ )
kp∗ k2
2.10. Contexto económico 221
Y si en esta igualdad vectorial sumamos sus componentes, y recorda-
mos que p∗ y f (p∗ ) están en ∆n , entonces llegamos a que
f (p∗ ) · p∗
=1
kp∗ k2
por lo que, entonces, f (p∗ ) = p∗ , y esto demuestra el teorema de
Brouwer.
43. Calcule todos los equilibrios de Nash (puros y mixtos) de los siguientes
juegos en forma estratégica:
C D C D
a) A 1,1 2,0 b) A 3,2 1,7
B 0,2 4,4 B 1,1 4,1
44. (**)[Teorema de Frobenius (Parte II)] Existen varios resultados com-
plementarios al teorema de Frobenius (teorema 18). Son los siguientes:
a) Pruebe que si A ≥ B ≥ 0 entonces λ(A) ≥ λ(B). Aquí, A ≥ B
significa que si A = [aij ] y B = [bij ] entonces aij ≥ bij .
b) Pruebe que ρIn −A tiene inversa no negativa si, y sólo si, ρ > λ(A).
En particular, una matriz insumo-producto In − A tendrá inversa
no negativa si, y sólo si, el máximo autovalor de A es menor que 1.
Esta condición es, entonces, equivalente a las condiciones Hawkins-
Simon –volumen I (Álgebra lineal y cálculo en varias variables)–.
c) Pruebe, finalmente, que λ(A) = λ(AT ).
45. (**) Nótese la validez de los siguientes esquemas:
teorema de ⇒ teorema de ⇒ teorema de von Neumann
Minkowski minimax (crecimiento)
teorema de ⇔ teorema de ⇒ teorema de
Brouwer Kakutani minimax
¿Podría el lector ampliar este esquema utilizando los resultados del
presente capítulo? ¿Qué posibles conexiones entre resultados sugeriría
este esquema?
222 Capítulo 2. Optimización estática
46. (*) Complete los detalles presentados en la sección [Link] (Compor-
tamiento del productor racional (II): maximización del beneficio) con
respecto a la existencia de solución al problema central de maximiza-
ción de beneficios. [Sugerencia: observe abajo la gráfica de la función
π(x, y) = x1/2 y 1/3 − x − y que se toma a manera de ejemplo.]
x
π(x, y)
y
Figura 2.46. Gráfica de la función π(x, y) = x1/2 y 1/3 − x − y.
Parte IV
Elementos de sistemas
dinámicos
223
Capítulo 3
Sistemas dinámicos
3.1. Introducción
La gran importancia de las ecuaciones diferenciales (es decir, de las ecuacio-
nes que involucran derivadas) en el análisis matemático, se debe principal-
mente al hecho de que la investigación de muchos problemas concretos en
la física, en la tecnología, en la biología, y, en general, en las ciencias, pue-
den entenderse mediante la solución de tales ecuaciones. Numerosos cálculos
implicados en la construcción de maquinaria eléctrica, cómputos de trayec-
torias de proyectiles, estudios de la estabilidad de aeronaves en vuelo, pro-
cesos de una reacción química, diseño de artefactos electrónicos, evolución
de poblaciones, etc., se asimilan a la solución de ecuaciones diferenciales.
Esta teoría comenzó a desarrollarse a finales del siglo XVII, casi simultá-
neamente con la aparición del cálculo diferencial e integral de Newton y
Leibniz. Por ejemplo, del estudio de las ecuaciones diferenciales del mo-
vimiento de los cuerpos celestes, Newton dedujo las leyes del movimiento
planetario previamente descubiertas por Kepler de forma empírica. Pero, a
pesar de que herramientas como el cálculo de antiderivadas ofrecían cierta
ayuda directa, pronto se reconoció que el problema de encontrar soluciones
a estas ecuaciones con derivadas no era fácil. En particular, se encontró que
las manipulaciones y simplificaciones algebraicas apenas si servían en casos
muy especiales. Por esta razón, pioneros del siglo XVII como Fermat, New-
ton y Leibniz tuvieron que centrarse en casos concretos, y dejaron al siglo
posterior el desarrollo de técnicas y teorías más generales.
225
226 Capítulo 3. Sistemas dinámicos
A comienzos del siglo XVIII, Jacob Bernoulli escribía ecuaciones diferenciales
basadas en los principios newtonianos para estudiar el movimiento plane-
tario. También su hermano, Johann Bernoulli, modelaba fenómenos físicos
utilizando ecuaciones diferenciales y las resolvía. A su vez, Jacopo Riccati
en 1752 (Riccati, 1761) estudiaba un tipo de ecuación muy particular que
hoy lleva su nombre. Y así, a principios de ese siglo, aunque se había logrado
reunir una cierta cantidad de técnicas de solución de clases específicas de
ecuaciones, todavía no se tenía una teoría general.
Consolidar, generalizar y crear métodos nuevos y más poderosos para atacar
los problemas planteados en la solución de ecuaciones diferenciales fue el
trabajo de Leonhard Euler. Y una de las claves de su éxito fue el que Euler
entendió el papel que podría jugar el concepto de función. Utilizando sus
conocimientos sobre estas, desarrolló diversos procedimientos generales para
la solución de muchas clases de ecuaciones diferenciales. Su trabajo también
incluyó el uso de métodos numéricos para hallar soluciones aproximadas a
casi todo tipo de ecuaciones. Fue, en definitiva, el maestro constructor de
la futura teoría de las ecuaciones diferenciales.
Posteriormente vendrían otros matemáticos a refinar y extender las ideas
de Euler. En 1738, Daniel Bernoulli utilizaba los métodos de Euler para
estudiar oscilaciones mecánicas. También D’Alembert estudiaba y resolvía
ecuaciones diferenciales parciales a lo largo de la línea de Euler. Pero además,
Lagrange, Laplace y Fourier (entre muchos) reconocieron que, en esta área,
Euler era el maestro de todos.
A comienzos del siglo XIX, Gauss y Cauchy, basados en teoría y conceptos
de funciones con variable compleja, utilizaban las ecuaciones diferenciales
como palanca de entendimiento de la teoría de las órbitas planetarias, de la
teoría de la gravitación, y de la propagación de ondas sobre una superficie
líquida. También fue Cauchy quien, como consecuencia de los fundamentos
lógicos del cálculo diferencial, daría bases matemáticas sólidas a la teoría de
las ecuaciones diferenciales. Sobre los fundamentos aportados por Gauss y
Cauchy, discurrieron los trabajos de muchos matemáticos del siglo XIX.
Precisamente hacia mediados del siglo XIX aparecerían los problemas de
sistemas de ecuaciones diferenciales. El matemático alemán Carl G. Jaco-
bi [1804-1851] convirtió la teoría de determinantes y transformaciones li-
neales en una herramienta poderosa para resolver estos sistemas. También
A. Cayley, J.J. Sylvester y J. W. Gibbs, pioneros en el desarrollo de lo
que hoy llamamos álgebra lineal, propusieron (desde una perspectiva simi-
lar a la de Jacobi) diversos métodos lineales para la solución de problemas
3.2. Sistemas continuos en una dimensión 227
concretos en termodinámica, electromagnetismo, mecánica y astronomía,
que involucraban ecuaciones diferenciales.
Para finales del siglo XIX, se encontraron abundantes aplicaciones y desarro-
llos adaptados a estas, que requerían de avances teóricos más profundos. En-
tre otros, en 1876, el matemático alemán Rudolf Lipschitz (1876) estableció
algunos teoremas de existencia para soluciones de ecuaciones diferenciales
(capítulo 4), que le darían un aire de solidez teórica a esta importante área
del análisis matemático. De esta época data, precisamente, el origen de la
teoría de los sistemas dinámicos atribuida a Henri Poincaré (1892), y que
George Birkhoff (1927), en la primera mitad del siglo XX, establecería como
área específica de la teoría de las ecuaciones diferenciales.
Hoy en día, la teoría de las ecuaciones diferenciales y la teoría de los sistemas
dinámicos están en plena expansión y evolución.
3.2. Sistemas continuos en una dimensión
Debido a la novedad, variedad de herramientas, conceptos, y métodos, no
hay duda de que es precisamente la obra de Poincaré el punto de origen de
la teoría de los sistemas dinámicos. Desde el comienzo, Poincaré concibió
la teoría cualitativa y la estabilidad de las ecuaciones diferenciales con un
ojo puesto en la mecánica celestial y, en particular, en la estabilidad del
sistema solar (entendida como la estabilidad de trayectorias planetarias).
En su trabajo, Poincaré articuló temas centrales que ahora son de nuestro
interés aquí: la teoría cualitativa de las ecuaciones diferenciales (diagramas
de fase); y el estudio de la estabilidad global o local de las soluciones a través
de la noción de equilibrio.
Comenzamos entonces nuestro capítulo, definiendo los sistemas dinámicos
(continuos) más elementales posibles: los sistemas en una dimensión.
Definición 1. (Sistema dinámico continuo en una dimensión)
Un sistema dinámico continuo en una dimensión es una ecuación diferencial
de la forma
ẋ(t) = f (x(t), t) (C1D)
donde t es la variable tiempo; x(t) : I → A es una trayectoria; ẋ(t) ≡ dx/dt;
f : A × I → R es una función diferenciable con continuidad; el conjunto
A ⊆ R es abierto, no-vacío; y I es un intervalo abierto de la forma (a, +∞),
donde a ∈ R ∪ {−∞}, o de la forma (−∞, a) donde a ∈ R ∪ {∞}.
228 Capítulo 3. Sistemas dinámicos
Definición 2. (¿Qué es resolver este sistema dinámico?)
Resolver un sistema dinámico continuo ẋ(t) = f (x(t), t) es encontrar todas
las posibles trayectorias x(t) que satisfagan esta ecuación. A cada una de
tales trayectorias x(t) se le conoce como una solución al sistema dinámico.
Ejemplo 1. (Sistema dinámico lineal fundamental)
El sistema
ẋ(t) = c x(t) (es decir, f (x, t) = c x, con c constante para todo t)
lo podemos resolver fácilmente mediante antiderivación1 , encontrando que
todas las soluciones x(t) tienen la forma
x(t) = kect para alguna constante k ∈ R
De hecho, observemos que k = x(0). A esta, por razones evidentes, se le
llama la condición inicial del sistema dinámico. De manera que todas las
soluciones al sistema dinámico lineal, tienen la forma (figura 3.1)
x(t) = x(0) ect t ∈ (−∞, ∞)
Claramente,
lı́m x(t) = 0 si c < 0 ; x(t) = x(0) si c=0
t→∞
lı́m x(t) = +∞ si c > 0 y x(0) > 0
t→∞
lı́m x(t) = −∞ si c > 0 y x(0) < 0
t→∞
x(t) x(t)
x(0) • x(0) •
t t
caso c > 0 caso c < 0
Figura 3.1. Soluciones al sistema ẋ(t) = cx(t) para x(0) > 0.
1
Volumen I (Álgebra lineal y cálculo en varias variables).
3.2. Sistemas continuos en una dimensión 229
Ejemplo 2. (Un sistema dinámico no-lineal)
El sistema
ẋ(t) = x(t)2 (es decir, f (x, t) = x2 para todo t)
también es fácil de resolver mediante la antiderivación.
x(t) x(t)
x(0) • t = −k
t t
t = −k • x(0)
caso k > 0 caso k < 0
Figura 3.2. Soluciones al sistema ẋ(t) = x(t)2 .
dx dx R dx R
Puesto que, aquí, = x2 entonces, si x 6= 0, 2 = dt, y así, = dt,
dt x x2
y, por lo tanto, −x−1 = t + k para algún k ∈ R. Luego, todas las soluciones
x(t) (figura 3.2) tienen la forma
1
x(t) = − para algún k ∈ R; ó x(t) = 0 para todo t
t+k
donde la condición inicial, para las soluciones del primer tipo, es x(0) =
−1/k si k 6= 0. En cualquier caso, notemos que lı́mt→∞ x(t) = 0.
Ejemplo 3.
Es fácil observar, mediante una aplicación directa de antiderivación, que el
sistema
ẋ(t) = t (es decir, f (x, t) = t para todo x)
tiene como soluciones
t2
x(t) = +k para alguna constante k ∈ R
2
donde la condición inicial es x(0) = k. Notemos que siempre se tiene que
lı́mt→∞ x(t) = +∞ (figura 3.3).
230 Capítulo 3. Sistemas dinámicos
x(t)
x(0)
•
t
Figura 3.3. Solución al sistema dinámico ẋ(t) = t.
Ahora: al estudiar un sistema dinámico, podrían aparecer ciertas soluciones
muy particulares que ayudan a entender este movimiento. A estas, la física
siempre las ha llamado “equilibrios”, y la teoría de las ecuaciones diferen-
ciales y, en particular, la de los sistemas dinámicos, también ha adoptado
este nombre.
Definición 3. (Punto de equilibrio)
Un punto x∗ ∈ A es un punto de equilibrio (o estacionario)2 del sistema
dinámico continuo ẋ(t) = f (x(t), t) si, y sólo si, f (x∗ , t) = 0 para todo t.
Es decir, x(t) = x∗ para todo t ∈ I es una solución que, al satisfacer ẋ(t) = 0
para todo t, el sistema dinámico, una vez alcanzado el punto x∗ , permanecerá
allí por siempre.
Ejemplo 4.
a) Para el sistema dinámico ẋ(t) = c x(t), el único punto de equilibrio, si
c 6= 0, es x∗ = 0.
b) Para el sistema dinámico ẋ(t) = x(t)2 , el único punto de equilibrio es
también x∗ = 0.
c) Para el sistema dinámico ẋ(t) = cx(t) + b, el único punto de equilibrio,
con c 6= 0, es x∗ = −b/c .
d) El sistema dinámico ẋ(t) = x(t)2 + 1 no tiene equilibrios. De hecho,
mediante antiderivación es fácil mostrar que la solución general es de la
forma x(t) = tan(t + k) para k ∈ R.
e) Para el sistema dinámico ẋ(t) = x(t)2 − 1, los equilibrios son x∗ = 1,
x∗ = −1 (múltiples equilibrios). Mediante antiderivación se puede mos-
trar que, además de x∗ = 1 y x∗ = −1, todas las soluciones están dadas
2
También llamado punto fijo.
3.2. Sistemas continuos en una dimensión 231
por las funciones
1 + e2t+k
x(t) =
1 − e2t+k
para algún k ∈ R. Note que
lı́m x(t) = −1, lı́m x(t) = 1 N
t→∞ t→−∞
El siguiente teorema afirma que, en general, todo sistema dinámico en una
dimensión (bajo las condiciones de la definición 1) tiene solución única,
aunque sólo sea “local”, es decir, en un intervalo alrededor de un “tiempo”
t0 ∈ I:
Teorema 1. [Existencia y unicidad local de soluciones (Lipschitz,
1876)]
Si x0 ∈ A y t0 ∈ I, entonces existe una única solución x(t) al sistema
dinámico ẋ(t) = f (x, t), definida en un intervalo abierto alrededor de t0
donde x(t0 ) = x0 .
Demostración.
Ver teorema 13 (teorema de Picard), capítulo 4 (introducción a la optimi-
zación dinámica).
Ejemplo 5.
Por ejemplo, la solución local de ẋ(t) = x(t)2 para t = 0 con x0 = 1 es
1
x(t) = − . Esta solución no es global, es decir, no está definida en todo
t−1
(−∞, ∞), pero sí en (−1, 1) que es un intervalo abierto alrededor de t = 0.
3.2.1. Diagramas de fase
Por definición, resolver un sistema dinámico ẋ(t) = f (x(t), t) es encontrar
sus soluciones x(t). El primer método para lograr esto es el analítico: encon-
trar soluciones explícitas al sistema como hemos hecho en todos los ejemplos
hasta ahora propuestos. La dificultad es que esto no siempre es posible, pues
depende de qué tan simple sea la función f (x(t), t). El segundo método es
el cualitativo: trazar descripciones de las soluciones sin tener expresiones
explícitas de estas. Este método se conoce como el de diagramas de fase del
sistema dinámico. Desafortunadamente, sólo es posible aplicarlo convenien-
temente cuando el sistema es “autónomo”.
Definición 4. (Sistema dinámico autónomo)
Un sistema dinámico ẋ(t) = f (x(t), t) es autónomo si, y sólo si, f (x(t), t) =
f (x(t)) para todo t ∈ I.
232 Capítulo 3. Sistemas dinámicos
Es decir, f (·, ·) no depende explícitamente de t; en otro caso, lo llamaremos
no-autónomo. Notemos que los sistemas dinámicos de los ejemplos 1 y 2
son autónomos, mientras que el del ejemplo 3 es no-autónomo. Ahora: para
describir gráficamente el sistema autónomo ẋ(t) = f (x(t)) mediante un
diagrama de fase, simplemente dibujamos la función f (·) en un diagrama x
vs f (x) (= ẋ). Así, valores positivos de f (·) corresponden a valores positivos
de ẋ, y esto significa que x(·) es una función creciente.
Para indicarlo en la gráfica, dibujamos flechas en el sentido de t creciente. De
la misma forma, valores negativos de f (·) corresponden a valores negativos
de ẋ y, por tanto, x(·) es una función decreciente de t; y para indicarlo,
dibujamos flechas en el sentido de t decreciente. Claramente, los puntos de
equilibrio serán las intersecciones de f (·) con el eje X, es decir, cuando
f = 0. Así, encontramos que las flechas señalan la dirección en que x(t)
se mueve en el tiempo, y esto nos da una solución cualitativa del sistema
dinámico.
Ejemplo 6.
Al tratar de construir el diagrama de fase del sistema dinámico del ejemplo 1,
ẋ(t) = cx(t), c 6= 0, distinguimos dos casos: (a) c > 0, (b) c < 0. Notamos
entonces (bajo la condición k 6= 0) que si c > 0 tendremos x(t) → ∞ cuando
t → ∞ (caso a)); y que si c < 0, entonces x(t) → 0 cuando t → ∞ (caso b))
(figura 3.4). Recordemos que, en este ejemplo, las soluciones explícitas son
de la forma x(t) = kect para k ∈ R.
ẋ ẋ
• •
x x
caso c > 0 caso c < 0
Figura 3.4. Diagramas de fase del sistema dinámico ẋ(t) = cx(t), con c 6= 0.
Pero también podemos describir un sistema dinámico con un diagrama de
fase unidimensional que es, sin duda, más sencillo. La técnica consiste aquí
en que si x = x∗ es un equilibrio del sistema dinámico autónomo ẋ(t) = f (x),
entonces se estudian los signos de f (x) cuando x es un poco mayor que x∗ , y
3.2. Sistemas continuos en una dimensión 233
cuando es un poco menor que x∗ . Si el signo es positivo, entonces ẋ > 0, es
decir, x crece, y las flechas irán hacia la derecha; y si es negativo, entonces
ẋ < 0, es decir, x decrece, y las flechas irán hacia la izquierda. Por ejemplo,
en lugar de las gráficas bidimensionales de la figura 3.4, podríamos dibujar,
respectivamente, los diagramas unidimensionales de la figura 3.5, que son
equivalentes y más simples.
•
0
•
0
Figura 3.5. Diagramas de fase unidimensionales para ẋ(t) = cx(t), c 6= 0.
Ejemplo 7.
Para construir los diagramas de fase del sistema dinámico definido por
ẋ(t) = x(t)2 −1, primero escribamos el sistema así: ẋ = x2 −1 = (x−1)(x+1).
Por lo tanto, los puntos de equilibrio son x∗ = 1 y x∗ = −1. El diagrama
de fase correspondiente es el de la figura 3.6: si x > 1 entonces x2 − 1 > 0
y las flechas se dirigen hacia la derecha; si −1 < x < 1 entonces x2 − 1 < 0
y las flechas se dirigen a la izquierda; y si x < 1 entonces x2 − 1 > 0 y las
flechas se dirigen hacia la derecha.
ẋ
• • • •
−1 1 x x∗ = −1 x∗ = 1
Figura 3.6. Diagramas de fase del sistema ẋ(t) = x(t)2 − 1.
3.2.2. Estabilidad
Uno de los principales objetivos de los sistemas dinámicos es estudiar el
comportamiento de sus soluciones cerca de un punto de equilibrio. Esto
constituye la llamada teoría de la estabilidad. Quizás no sobre resaltar aquí
234 Capítulo 3. Sistemas dinámicos
que la importancia del concepto de estabilidad para sistemas dinámicos
radica en el hecho de que en los cálculos implicados en la construcción
de una máquina eléctrica, o en el estudio del vuelo de aeronaves, o de un
proceso químico, etc., la dinámica sea o no estable determina en gran parte
el éxito o fracaso del proceso analizado. La definición básica de estabilidad
para sistemas dinámicos es la siguiente:
Definición 5. (Estabilidad)
i) Diremos que el punto de equilibrio x∗ del sistema dinámico ẋ(t) =
f (x(t), t) es estable si dado ǫ > 0 existen δ > 0 y t0 > 0 tales que
|x(t0 ) − x∗ | < δ implica |x(t) − x∗ | < ǫ para todo t > t0 . En otro caso,
diremos que x∗ es inestable (o no estable) (figura 3.7).
ii) Diremos que el punto de equilibrio x∗ del sistema dinámico ẋ(t) =
f (x(t), t) es asintóticamente estable (o atractor) si es estable, y si
lı́mt→∞ x(t) = x∗ (figura 3.7).
Es decir, un equilibrio es estable si cuando una solución comienza cerca de
este equilibrio, permanecerá siempre cerca de él. Y, de la misma forma, este
equilibrio es asintóticamente estable si cuando una solución comienza cerca
de este, entonces convergerá allí.3 Determinar la estabilidad de un equili-
brio mediante esta definición puede ser complicado. Por ejemplo, puede ser
que no sea posible encontrar las soluciones explícitamente. En el caso de los
sistemas de una dimensión no es, sin embargo, muy complicado establecer-
lo utilizando los diagramas de fase; el siguiente teorema confirma nuestra
intuición dentro del gráfico cualitativo de los sistemas autónomos.
Teorema 2. (Criterio de estabilidad para sistemas autónomos)
Sea x∗ un punto de equilibrio del sistema dinámico autónomo ẋ(t) = f (x(t)).
Entonces (figura 3.7):
i) Si f ′ (x∗ ) < 0, entonces x∗ es asintóticamente estable.
ii) Si f ′ (x∗ ) > 0, entonces x∗ es inestable.
iii) Si f ′ (x∗ ) = 0, el criterio no permite decidir.
3
Existe también la noción de estabilidad asintótica global, significando esto que la
condición de estabilidad asintótica lı́mt→∞ x(t) = x∗ se cumple, independientemente de
la condición inicial x(t0 ). A la condición ii) de arriba, se le acostumbra entonces llamar
estabilidad asintótica local.
3.2. Sistemas continuos en una dimensión 235
ẋ
• • • • •
x1 x2 x3 x4 x5 x
Figura 3.7. Ejemplos de puntos de equilibrio estables e inestables. Los puntos de
equilibrio x1 y x5 son asintóticamente estables y se tiene f ′ (x1 ) = 0 y f ′ (x5 ) < 0. Los
puntos de equilibrio x2 , x3 , x4 son inestables con f ′ (x2 ) = f ′ (x4 ) = 0 y f ′ (x3 ) > 0.
Demostración.
i) La idea intuitiva es que si f ′ (x∗ ) < 0, entonces f (·) es positiva para
x < x∗ pero suficientemente cercana a x∗ , y negativa para x > x∗ pero
suficientemente cercana a x∗ ; luego, un poco a la izquierda de x∗ , x
crece; y un poco a la derecha de x∗ , decrece. Esto es suficiente para
garantizar que x∗ es asintóticamente estable.
ii) Garantizar que si f ′ (x∗ ) > 0, entonces x∗ es inestable, es similar a lo
que hicimos en i).
iii) Que si f ′ (x∗ ) = 0 el criterio no permite decidir, lo vemos en los casos
f (x) = x2 y f (x) = x3 en x∗ = 0.
Ejemplo 8.
a) En el ejemplo 6, tenemos que f (x) = c x; luego f ′ (x) = c y así:
i) Si c < 0, entonces x∗ = 0 es asintóticamente estable.
ii) Si c > 0, entonces x∗ = 0 es inestable (figura 3.4).
b) En el ejemplo 4, tenemos que f (x) = x2 − 1; luego f ′ (x) = 2x y el
comportamiento de los equilibrios, x∗ = 1, x∗ = −1, es:
i) Como f ′ (−1) = 2(−1) < 0, entonces x∗ = −1 es asintóticamente
estable.
ii) Como f ′ (1) = 2(1) > 0, entonces x∗ = 1 es inestable (figura 3.6).
236 Capítulo 3. Sistemas dinámicos
Ejemplo 9.
Determinemos los puntos de equilibrio de ẋ(t) = x(x − 1)(2 − 3x), y apli-
quemos el teorema 2 para establecer su estabilidad (figura 3.8). En primer
lugar, tenemos que los puntos de equilibrio son x∗ = 0, x∗ = 1 y x∗ = 23 .
Además,
f ′ (x) = (x − 1)(2 − 3x) + x(2 − 3x) − 3x(x − 1)
ẋ
• • • • • •
0 2/3 1 x 0 1
2/3
Figura 3.8. Diagramas de fase del sistema ẋ(t) = x(x − 1)(2 − 3x)
a) Como f ′ (0) = −2 < 0, entonces x∗ = 0 es asintóticamente estable.
2 2 2
b) Como f ′ 3 = 3 > 0, entonces x∗ = 3 es inestable.
c) Como f ′ (1) = −1 < 0, entonces x∗ = 1 es asintóticamente estable.
Los diagramas de fase de la figura 3.8 corroboran a), b) y c).
Ejemplo 10. (Desintegración radiactiva)
La ley de la desintegración radiactiva del elemento químico radio afirma
que la tasa de desintegración es proporcional a la cantidad inicial de radio
presente. Para averiguar la cantidad de radio presente en cualquier tiempo
t posterior, notamos primero que si R(t) es la cantidad de radio no desinte-
grado en el tiempo t, entonces −Ṙ es la tasa de desintegración, y como esta
es proporcional a R, entonces la ecuación de desintegración es
−Ṙ = cR donde c > 0 es una constante conocida.
y ya sabemos que la solución a este sistema dinámico en una dimensión es
R(t) = R(0) e−ct
donde R(0) es la cantidad presente de la sustancia química al comienzo del
proceso.
3.2. Sistemas continuos en una dimensión 237
Nota 1.
Esta ley de la desintegración no sólo la satisfacen los fenómenos radiactivos.
Por ejemplo, se encuentra la misma ley en el estudio del enfriamiento, donde
la tasa de decrecimiento del calor de un objeto físico es proporcional a la
diferencia entre la temperatura del cuerpo y la temperatura del medio que
lo rodea.
Ejemplo 11. [Datación por carbono radiactivo (Libby, 1955)]
Si un hueso fósil tiene el 30 % de la cantidad original de carbono 14 (6 C 14 ),
¿cuál es su antigüedad?
En la atmósfera, la proporción del carbono radiactivo 6 C 14 y el carbón
común es constante, lo cual se cumple también para los organismos vivos.
Cuando un organismo muere, cesa la absorción de 6 C 14 al respirar y al
alimentarse. Por tanto, la edad de un fósil puede estimarse comparando la
proporción de carbono presente en el fósil con el de la atmósfera. Esta es
la idea de Datación por carbono radiactivo de W. Libby (Premio Nobel de
Química en 1910).
La vida media del carbono 14 es de 5,730 años4 y el modelo que rige la
cantidad de carbono 14 en un fósil es ẏ(t) = cy(t) para todo tiempo t.
Sabemos que la solución a esta ecuación es y(t) = y(0) ect , donde y(0) > 0
es la cantidad original de 6 C 14 . Puesto que, por definición de vida media,
1
y(0)e(5,730)c = y(0)
2
entonces c = − 0.000121. Finalmente, el tiempo después del cual el 30 % de
la cantidad original de 6 C 14 sigue presente, se calcula así:
30
y(0)e(−0.000121)t = y(0)
100
y, de allí, t = 9, 950 años, que es la antigüedad del hueso, según este modelo.
Ejemplo 12. (Ley de Torricelli)
Los experimentos de Evangelista Torricelli [1608-1647] (un discípulo de Ga-
lileo) indican que el agua sale por el orificio inferior de un tanque cilíndrico
(como el de la figura 3.9) con una velocidad
A√
ḣ = −26.56 h (*)
B
4
La vida media es el tiempo después del cual la sustancia radiactiva 6 C 14 ha disminuido
a la mitad su valor original.
238 Capítulo 3. Sistemas dinámicos
donde h(t) es al altura del agua arriba de orificio en el tiempo t, B es el
área de la base circular del tanque, y A es el área del orificio. El coeficiente
√
que aparece en la ecuación es igual a 0.6 2g, donde 0.6 es un “factor de
contracción” debido a que el flujo tiene una sección transversal menor que
el orificio y g = 980 cm/s2 es la aceleración de la gravedad en la superficie
terrestre. Para calcular la altura del agua h(t) en cualquier momento t, no-
temos que este sistema dinámico tiene como único equilibrio h∗ = 0 (tanque
vacío) y, mediante antiderivación, se encuentra que su solución es
A
h(t) = h(0) − 13.28 t
B
donde h(0) es la altura inicial del nivel del agua. ¿Será h∗ = 0 asintóticamen-
te estable? Es decir, ¿Si el tanque está vacío y lo llenamos con un poco de
agua, se vaciará de nuevo eventualmente? Bastaría que el lector se conven-
ciera de su respuesta observando el diagrama de la figura 3.9. Pero podemos
también aplicar el teorema 2 y, derivando el lado derecho de la ecuación
(∗) con respecto a h y evaluando en valores positivos cercanos a h∗ = 0,
obtendremos siempre valores negativos, mostrando que este equilibrio es, en
efecto, asintóticamente estable.
h(t)
salida del agua
Figura 3.9. Ley de Torricelli.
Ejercicios 1
1. Tomando los sistemas dinámicos de los ejemplos 6 y 7, compare el
comportamiento de sus soluciones explícitas que aparecen en un grá-
fico t vs. x(t), con el el correspondiente diagrama de fase unidimen-
sional del sistema dinámico; es decir, justifique la descripción de cada
diagrama, en términos del otro.
2. Compruebe, mediante antidiferenciación, que todas las soluciones del
sistema dinámico
ẋ(t) = cx(t) + b, c 6= 0
3.2. Sistemas continuos en una dimensión 239
tienen la forma x(t) = kect − (b/c).
3. a) Compruebe, mediante antidiferenciación, que todas las soluciones
del sistema dinámico
ẋ(t) = c(t)x(t) + b(t)
tienen la forma
R Z R
c(t)dt − c(t)dt
x(t) = e k+ b(t)e dt , k∈R
b) Con la fórmula anterior, calcule las soluciones generales del sistema
dinámico
2
ẋ(t) = − x(t) + 5t2
t
c) Calcule también las soluciones del sistema dinámico
2
ẋ(t) = x(t) − t
t
4. Para los sistemas dinámicos b) y c) del ejercicio anterior, encuentre, si
existe, la solución que satisfaga x(1) = 5. ¿Es esta una solución global
o local?
5. Dibuje los diagramas de fase unidimensionales de los siguientes siste-
mas dinámicos autónomos:
a) ẋ = µ x (1 − x) con µ > 0 (ecuación logística)
b) ẋ = axβ + bx 0 < b < 1, a 6= 0, β > 0
c) ẋ = ax3 ; a 6= 0 d) ẋ = ln(x − 1)
2
e) ẋ = 2 + sen x f) ẋ = x 3
6. Estudie el comportamiento de estabilidad de los equilibrios (si existen)
de los sistemas dinámicos autónomos del ejercicio anterior.
7. Resuelva explícitamente mediante antidiferenciación, encuentre los equi-
librios y analice la estabilidad con su correspondiente diagrama de fase,
en cada uno de los siguientes casos:
240 Capítulo 3. Sistemas dinámicos
√
a) ẋ + (t + 1)x3 = 0 b) ẋ = − 1 − x
c) ẋ = x2 sen t d) ẋ = e2t cos x
1 x x
e) ẋ = 3x 2 − f) ẋ =
2 t
8. Suponga que la población de la Tierra cambia a una rapidez propor-
cional a la población actual, y asuma que en cierto instante t = 0 de
la historia, la población era de 600 millones; y que 300 años después
la población era de 2,800 millones. Encuentre la población de la Tie-
rra para el año 2020. Si se supone que la Tierra puede sostenerse a sí
misma con 2.5 × 1010 habitantes, ¿cuándo alcanzaría este límite?
3.3. Sistemas continuos en dos dimensiones
En esta sección ampliamos la discusión a los sistemas dinámicos continuos
planares; es decir, en dos dimensiones. Y aunque las técnicas de análisis
varían, los conceptos centrales se mantienen. Veamos esto.
Definición 6. (Sistema dinámico continuo en dos dimensiones)
Un sistema dinámico continuo en dos dimensiones es un par de ecuaciones
diferenciales de la forma
ẋ(t) = f (x(t), y(t), t)
(C2D)
ẏ(t) = g(x(t), y(t), t)
dx dy
donde t es la variable tiempo, ẋ(t) = , ẏ(t) = , f : A × I −→ R,
dt dt
g : A × I −→ R son funciones diferenciables con continuidad, A ⊆ R2
abierto no vacío, e I un intervalo abierto de la forma (a, +∞) con a ∈
R ∪ {−∞}, o de la forma (−∞, a) con a ∈ R ∪ {∞}.
Definición 7. (¿Qué es resolver este sistema dinámico?)
Resolver el sistema dinámico en dos
dimensiones (C2D) es encontrar todas
las trayectorias posibles x(t), y(t) que satisfagan, simultáneamente, las
dos
ecuaciones diferenciales. A cada una de estas trayectorias x(t), y(t) se le
conoce como una solución del sistema dinámico.
Ejemplo 13. (Sistema dinámico lineal fundamental)
El sistema lineal, para a11 , a12 , a21 , a22 ∈ R,
ẋ = a11 x + a12 y
ẏ = a21 x + a22 y
3.3. Sistemas continuos en dos dimensiones 241
(es decir, f (x, y) = a11 x + a12 y, g(x, y) = a21 x + a22 y son funciones lineales)
será estudiado en detalle más adelante. Por ahora, sin embargo, y a guisa
de ejemplo, el lector podría mostrar que las trayectorias
x(t) = αe−2t + βe−4t