0% encontró este documento útil (0 votos)

308 vistas585 páginas

Optimización y Sistemas Dinámicos Económicos

Este documento presenta un resumen de los conceptos matemáticos clave relacionados con la optimización y los sistemas dinámicos, con notas históricas y aplicaciones económicas. Se explican temas como funciones cóncavas y convexas, optimización estática mediante métodos como Lagrange y Kuhn-Tucker, sistemas dinámicos continuos y discretos, y se introducen conceptos de optimización dinámica incluyendo cálculo de variaciones y control óptimo. Finalmente, se discute si la economía requiere de un

Cargado por

Santiago Hernández

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

308 vistas585 páginas

Optimización y Sistemas Dinámicos Económicos

Cargado por

Santiago Hernández

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Elementos de matemáticas para ciencias

económicas
con notas históricas y contextos económicos

Optimización y sistemas dinámicos

Sergio Monsalve
y
Ömer Özak

Volumen II

Universidad Nacional de Colombia

Facultad de Ciencias Económicas
Escuela de Economía
BOGOTÁ, D.C.
2017
Índice general

Presentación IX

III. Elementos de optimización 1

1. Funciones cóncavas, convexas, cuasicóncavas y cuasiconve-

xas 3
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Funciones cóncavas y convexas . . . . . . . . . . . . . . . 5
1.3. Propiedades de las funciones cóncavas . . . . . . . . . . . 10
1.4. Funciones cuasicóncavas y cuasiconvexas . . . . . . . . . . 22
1.5. Propiedades de las funciones cuasicóncavas . . . . . . . . . 24
1.6. Contexto económico . . . . . . . . . . . . . . . . . . . . . 34
1.6.1. Concavidad-convexidad y marginalidad decreciente 34
1.6.2. Concavidad-convexidad y rendimientos a escala . . . 36
1.6.3. Concavidad-convexidad en la teoría del consumo . . 43
1.6.4. Breve nota sobre no-convexidades . . . . . . . . . . 50

2. Optimización estática 59
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.2. Planteamiento del problema . . . . . . . . . . . . . . . . . 60
2.3. El teorema de Weierstrass . . . . . . . . . . . . . . . . . . 62
2.4. El método de los multiplicadores de Lagrange . . . . . . . 64
2.5. El método (de) Kühn-Tucker . . . . . . . . . . . . . . . . 77

iii
iv Índice general

2.5.1. El algoritmo (de) Kühn-Tucker . . . . . . . . . . . 79

2.5.2. El teorema de la envolvente . . . . . . . . . . . . . . 93
2.6. Optimización lineal: el método simplex . . . . . . . . . . . 97
2.6.1. El problema y su solución gráfica . . . . . . . . . . . 98
2.6.2. El algoritmo simplex . . . . . . . . . . . . . . . . . 104
2.6.3. El teorema de dualidad . . . . . . . . . . . . . . . . 113
2.7. Teoremas de separación de Minkowski . . . . . . . . . . . 121
2.7.1. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . 125
2.8. El teorema del máximo . . . . . . . . . . . . . . . . . . . . 129
2.9. Teoremas de punto fijo . . . . . . . . . . . . . . . . . . . . 134
2.9.1. Aplicaciones de los teoremas de punto fijo . . . . . . 138
2.10. Contexto económico . . . . . . . . . . . . . . . . . . . . . 140
2.10.1. Comportamiento racional sin interacciones . . . . . 142
2.10.2. Funciones del productor y del consumidor . . . . . . 156
2.10.3. Tradición paretiana del modelo competitivo . . . . . 163
2.10.4. Teoría de juegos clásica . . . . . . . . . . . . . . . . 189

IV. Elementos de sistemas dinámicos 223

3. Sistemas dinámicos 225

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 225
3.2. Sistemas continuos en una dimensión . . . . . . . . . . . . 227
3.2.1. Diagramas de fase . . . . . . . . . . . . . . . . . . . 231
3.2.2. Estabilidad . . . . . . . . . . . . . . . . . . . . . . . 233
3.3. Sistemas continuos en dos dimensiones . . . . . . . . . . . 240
3.3.1. Diagramas de fase . . . . . . . . . . . . . . . . . . . 243
3.3.2. Estabilidad . . . . . . . . . . . . . . . . . . . . . . . 248
3.3.3. Sistemas lineales . . . . . . . . . . . . . . . . . . . . 249
3.3.4. Sistemas no-homogéneos . . . . . . . . . . . . . . . . 265
3.3.5. Sistemas no-lineales . . . . . . . . . . . . . . . . . . 268
3.3.6. El método de Lyapunov . . . . . . . . . . . . . . . 272
3.4. Sistemas discretos en una dimensión . . . . . . . . . . . . 279
3.4.1. Diagramas de fase para sistemas autónomos . . . . . 286
3.4.2. Estabilidad en sistemas autónomos . . . . . . . . . . 289
3.5. Sistemas discretos en dos dimensiones . . . . . . . . . . . 294
3.5.1. Estabilidad y diagramas de fase . . . . . . . . . . . 296
3.5.2. Sistemas lineales . . . . . . . . . . . . . . . . . . . . 297
3.5.3. Sistemas no-homogéneos . . . . . . . . . . . . . . . . 303
3.5.4. Sistemas no-lineales . . . . . . . . . . . . . . . . . . 306
Índice general v

3.5.5. El método de Lyapunov . . . . . . . . . . . . . . . . 309

3.6. Ciclos límite, puntos periódicos, bifurcaciones y caos . . . 314
3.6.1. Ciclos límites y K-ciclos . . . . . . . . . . . . . . . . 315
3.6.2. Bifurcación y caos . . . . . . . . . . . . . . . . . . . 318
3.7. Contexto económico . . . . . . . . . . . . . . . . . . . . . 325
3.7.1. El modelo IS-LM . . . . . . . . . . . . . . . . . . . . 326
3.7.2. El modelo Arrow-Debreu . . . . . . . . . . . . . . . 337
3.7.3. La teoría de interacciones . . . . . . . . . . . . . . . 359
3.7.4. Nota sobre la “mano invisible” de Adam Smith . . . 372

4. Introducción a la optimización dinámica 385

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 385
4.2. Espacios métricos . . . . . . . . . . . . . . . . . . . . . . . 386
4.2.1. Nociones topológicas fundamentales . . . . . . . . . 389
4.2.2. Espacios métricos completos . . . . . . . . . . . . . 398
4.2.3. Espacios métricos compactos . . . . . . . . . . . . . 407
4.3. Espacios de Banach . . . . . . . . . . . . . . . . . . . . . . 414
4.4. Espacios de Hilbert . . . . . . . . . . . . . . . . . . . . . . 420
4.5. Teoría de ecuaciones diferenciales . . . . . . . . . . . . . . 425
4.6. El cálculo de variaciones clásico . . . . . . . . . . . . . . . 428
4.6.1. El problema fundamental . . . . . . . . . . . . . . . 430
4.6.2. Existencia de soluciones . . . . . . . . . . . . . . . . 432
4.6.3. Ecuaciones de Euler . . . . . . . . . . . . . . . . . . 433
4.7. Control óptimo (caso continuo) . . . . . . . . . . . . . . . 441
4.7.1. Solución por el principio del máximo . . . . . . . . . 442
4.7.2. Solución por programación dinámica . . . . . . . . . 459
4.8. Control óptimo (caso discreto) . . . . . . . . . . . . . . . 466
4.8.1. Solución por el principio del máximo . . . . . . . . . 466
4.8.2. Solución por programación dinámica . . . . . . . . . 473
4.8.3. Programación dinámica estocástica . . . . . . . . . . 478
4.9. Contexto económico . . . . . . . . . . . . . . . . . . . . . 484
4.9.1. Los productores en el modelo de Ramsey . . . . . . 485
4.9.2. Los consumidores en el modelo de Ramsey . . . . . 487
4.9.3. El concepto de equilibrio competitivo . . . . . . . . 490
4.9.4. El problema de un planiﬁcador central . . . . . . . . 492
4.9.5. Los dos teoremas del bienestar económico . . . . . . 497
4.9.6. Estabilidad del equilibrio . . . . . . . . . . . . . . . 498
vi Índice general

5. ¿Necesita la economía de unas matemáticas propias? 509

5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 509
5.2. Los pioneros: Cournot, Jevons, Marshall y Edgeworth . . 510
5.3. León Walras . . . . . . . . . . . . . . . . . . . . . . . . . . 513
5.4. Inﬂuencias poswalrasianas . . . . . . . . . . . . . . . . . . 515
5.5. La Guerra Fría . . . . . . . . . . . . . . . . . . . . . . . . 519
5.6. Kenneth Arrow y Gerard Debreu . . . . . . . . . . . . . . 522
5.7. Las matemáticas del “buen economista” . . . . . . . . . . 522
5.8. Problemas sin matemáticas apropiadas . . . . . . . . . . . 523
5.9. Posibles alternativas . . . . . . . . . . . . . . . . . . . . . 525
5.10. A manera de conclusión . . . . . . . . . . . . . . . . . . . 527

Respuestas y sugerencias a algunos problemas 529

Bibliografía 545

Índice alfabético 567

Dedicado a la memoria del profesor de matemáticas Jesús Hernando Pérez
Presentación

Los dos volúmenes que comprenden la colección Elementos de matemáti-

cas para ciencias económicas, con notas históricas y contextos económicos
(volumen I: Álgebra lineal y cálculo en varias variables; volumen II: Op-
timización y sistemas dinámicos) que ahora se presentan a la comunidad
académica y profesional, son una versión revisada, en algunas partes am-
pliada y, en otras, reducida, de la anterior colección Matemáticas básicas
para economistas, que fuera publicada en el año 2010 bajo el sello de la Uni-
versidad Nacional de Colombia–Sede Bogotá y con el auspicio de la Facultad
de Ciencias Económicas.
Este trabajo es, entonces, una síntesis de algunas de las herramientas ma-
temáticas a las que todo estudiante actual de ciencias económicas y, en
particular, de economía, debería acceder en sus primeras etapas de forma-
ción. Hacerlo de esta manera, le facilitará un acercamiento, no sólo a los
más importantes temas y problemas económicos, sino a una comprensión
más profunda desde el punto de vista cientíﬁco. Es por ello que, a manera
de introducción, al ﬁnal de cada uno de los capítulos del libro, se ha escrito
una sección de “contexto económico”, en donde se busca integrar los resul-
tados matemáticos que se vienen estudiando, con importantes vertientes de
la teoría económica.
Cabe advertir, sin embargo, que al emprender el estudio de este volumen
sobre optimización y sistemas dinámicos, se está asumiendo que, además del
curso básico en cálculo diferencial ordinario, el estudiante ya ha aprobado
satisfactoriamente un curso de álgebra lineal y cálculo diferencial en varias
variables, y también, ojalá, alguno de microeconomía y otro de macroeco-
nomía. El presente texto está, por consiguiente, dirigido a un tercer curso

ix
x Presentación

de matemáticas para ciencias económicas. En la práctica, para alcanzar el

objetivo, el estudiante debe comprometerse, entonces, no sólo en la lectura
juiciosa del material sino, y de manera importante, en la realización de una
buena cantidad de los ejercicios propuestos. Buscando ayudar con esto, al
final se ha adicionado un pequeño solucionario a algunos de los ejercicios
planteados, con la esperanza de que el lector intentará resolverlos y conten-
drá la tentación de consultarlo, hasta tanto no haya hecho un buen esfuerzo
en este sentido.
Para terminar, agradecemos a la Facultad de Ciencias Económicas y, en
especial, a los profesores Edgar Bejarano, José Guillermo García, Germán
Guerrero y Gustavo Junca, quienes dieron su apoyo y prestaron gestión pa-
ra que este esfuerzo pudiera consolidarse. A la profesora Angélica Chappe,
quien colaboró en el último capítulo de libro; al profesor Leonardo Duarte
quien nos dio su concepto de una versión preliminar; al economista Die-
go Ávila, quien nos ayudó con el ensamblaje de los dos volúmenes de esta
edición; a los matemáticos Alexander Muñoz y Daniel Restrepo, y a las
economistas Lina Castillo y Leidy Gómez, quienes revisaron la versión fi-
nal; también a dos referees anónimos, quienes con sus valiosas sugerencias
ayudaron a mejorar el texto, les extendemos nuestro agradecimiento. Adi-
cionalmente, en este tiempo tuvimos el excelente apoyo del Centro Editorial
de la Facultad, de su director, profesor Álvaro Zerda; de su coordinadora,
señora Nadeyda Suárez; y, en general, de todo el equipo de trabajo.
Al final, igualmente quisiéramos reconocer y agradecer aquí a todos aquellos
que, de una u otra forma, respaldaron y colaboraron en aquel proyecto de
2010.

Sergio Monsalve
Escuela de Economía
Universidad Nacional de Colombia
Bogotá D.C.

Ömer Özak
Department of Economics
Southern Methodist University
Dallas, TX
USA
noviembre de 2016
Parte III

Elementos de optimización

1
Capítulo 1

Funciones cóncavas, convexas, cuasicóncavas y cuasiconvexas

1.1. Introducción
Ya conocemos la importancia de la segunda derivada de una función de
una sola variable. Así como el signo de la primera derivada determina si la
función es creciente o decreciente, el signo de la segunda derivada determina
el lado hacia el cual se curvará la gráfica de la función. Por ejemplo, si
la función es creciente y la segunda derivada es positiva dentro de cierto
intervalo, entonces la primera derivada crece y la función tendrá una forma
como la de la figura 1.1a. De otro lado, si la función es creciente y la segunda
derivada es negativa en un intervalo, entonces la primera derivada decrece,
y la función tendrá una forma como la de la figura 1.1b. A una función como
la de la figura 1.1a se le llama función convexa; a una como la de la figura
1.1b, función cóncava.
Quizás fueron los griegos, más de dos mil años atrás, quienes comenzaron a
estudiar estas curvas que aparecían inicialmente en las formas cónicas (que
son cortes de conos con planos en distintos ángulos). Hasta donde se sabe, se
presentaban también a menudo en los intentos por resolver los famosos pro-
blemas de la geometría euclidiana: la trisección del ángulo, es decir, dividir
un ángulo dado en tres partes iguales, sólo con regla y compás; la cuadratura
del círculo, es decir, construir un cuadrado de área igual a la de un círculo
dado, sólo con regla y compás; entre otros. Una vez obtenidas las curvas,
los griegos continuaron estudiándolas, en parte por estar interesados en las

3
4 Capítulo 1. Funciones cóncavas y cuasicóncavas

formas geométricas en general, y en parte por haber descubierto la posi-

bilidad de utilizarlas para intentar “controlar” la naturaleza. Por ejemplo,
Apolonio [262-190 a.C.] utilizaba espejos cóncavos para hacer arder objetos
colocados en su foco, pues un espejo parabólico tiene la particularidad de
que concentra la luz y el calor en ese punto. También dice la tradición que
Arquímedes [287-212 a.C.] construyó un gigantesco paraboloide que utiliza-
ba para concentrar los rayos solares sobre los barcos romanos que asediaban
su ciudad (Siracusa) y así poder incendiarlos. Actualmente, la posibilidad
de concentrar la luz se aprovecha, por ejemplo, en la construcción de teles-
copios reﬂectores (inventados por Newton). Y como el comportamiento de
las ondas de radio es similar al de los rayos luminosos, también se utilizan
reﬂectores parabólicos para concentrar ondas de radio emitidas por fuentes
débiles y convertirlas en un haz intenso.
y y

β
β

α α

x x
a) b)
Figura 1.1. En el panel a) tenemos una función con segunda derivada positiva en un
intervalo; como se observa, β > α; por tanto, la pendiente crece. En el panel b) aparece
una función con segunda derivada negativa en un intervalo; allí, β < α, por lo que la
pendiente decrece.

En el Renacimiento, fue Galileo Galilei (1632) quien primero comprendió

los principios fundamentales que regulan el fenómeno del movimiento curvi-
líneo. Galileo se proponía entender, en particular, el comportamiento de los
proyectiles. Y aunque el cañón, que se usaba desde el siglo XIV, había tenido
muchos perfeccionamientos, la teoría del movimiento de los proyectiles era
deﬁciente, ya que matemáticos y físicos intentaban aplicarle las equivocadas
leyes del movimiento basadas en la física de Aristóteles. Gracias a Galileo
(y también a Newton) hoy sabemos que la trayectoria de una piedra arroja-
da desde un borde de cierta altura corresponde a un movimiento parabólico
descrito funcionalmente por

gt2
s(t) = − + v0 t + s0
2
1.2. Funciones cóncavas y convexas 5

donde t es la variable tiempo; s(t) es la altura de la piedra en el tiempo t;

g ≡ 9.8 m/s2 es la aceleración constante de los cuerpos que caen; v0 es la
velocidad inicial con que fue lanzada la piedra; y s0 es la altura desde la que
se hizo el lanzamiento (ﬁgura 1.2). Como veremos, esta curva s(·) es una
función cóncava.
Un siglo después, ya en el plano puramente analítico, podría decirse que la
primera investigación detallada de curvas de orden superior (incluyendo allí
curvas cóncavas y convexas) fue el libro de Leonhard Euler (1748) titulado
Introductio in Analysis Inﬁnitorum. En el primer volumen de este libro,
Euler muestra la geometría analítica de estas curvas en un lenguaje muy
cercano al que aparece en los textos contemporáneos. En particular, esta fue
la primera vez que se estudiaron ecuaciones cartesianas para las tres cónicas
(elipse, parábola e hipérbola) cuya geometría tanto había preocupado a los
antiguos griegos clásicos y alejandrinos. Y es desde este trabajo de Euler que
se apuntala todo el estudio moderno de las funciones cóncavas y convexas.
De las importantes nociones de concavidad y convexidad (y sus generaliza-
ciones) discutiremos entonces en este capítulo.

s(t)
s0

t
Figura 1.2. Tiro parabólico.

1.2. Funciones cóncavas y convexas

A menos que se especiﬁque lo contrario, asumiremos, en adelante, que C es
un conjunto convexo1 , no-vacío de Rn .
Definición 1. (Función cóncava)
Diremos que una función f : C → R es cóncava si, y sólo si, para todo x,
y ∈ C, λ ∈ [0, 1], se cumple que
f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y) (1.1)
1 n
Recordemos que C ⊆ R es un conjunto convexo si, y sólo si, para todo x, y ∈ C y
λ ∈ [0, 1], se tiene que también λx + (1 − λ)y ∈ C.
6 Capítulo 1. Funciones cóncavas y cuasicóncavas

Diremos, además, que f (·) es estrictamente cóncava si la desigualdad (1.1)

es estricta para x 6= y, λ ∈ (0, 1).

Así, geométricamente, una función de dos variables es cóncava si el segmento

de recta que une dos puntos cualesquiera está por debajo del arco de la curva
que los une (ﬁgura 1.3a).

Definición 2. (Función convexa)

Diremos que una función f : C → R es convexa si, y sólo si, para todo
x, y ∈ C, λ ∈ [0, 1], se cumple que

f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y) (1.2)

Diremos que es estrictamente convexa si la desigualdad (1.2) es estricta

para x 6= y, λ ∈ (0, 1).

La interpretación geométrica para dos variables es que el segmento de recta

está por encima del arco de la curva que une a x y y (ﬁgura 1.3b).
y y
y)
λ)
λf
−
(x
(1
)+
+
λx
f(
(1

y)
f(
−

λ)
λ)

−
f(

(1
y)

+ f(
) λx
(x +
λf (1
−
λ)
y)

x y x x y x
(a) (b)
Figura 1.3. Panel a): Típica función cóncava. Panel b): Típica función convexa.

Nota 1.
a) Dadas las deﬁniciones anteriores, es claro que una función f (·) es convexa
(estricta) si, y sólo si, −f (·) es cóncava (estricta).

b) Observemos que la concavidad es una noción de conjunto; es decir, una

función puede ser convexa en cierta región de su dominio y cóncava en
otra (ﬁgura 1.4a).

c) A partir de la deﬁnición, también es claro que toda función estrictamente

cóncava es cóncava, y que toda función estrictamente convexa es convexa.
1.2. Funciones cóncavas y convexas 7

Ejemplo 1.
√
Probemos, mediante la deﬁnición 1, que f (x) = x es estrictamente cóncava
en [0, ∞) (ﬁgura 1.4b).
Solución.
Sean x, y ≥ 0, x 6= y y λ ∈ (0, 1). Entonces debemos mostrar que

f (λx + (1 − λ)y) > λf (x) + (1 − λ)f (y)

o, lo que es equivalente,
q √ √
λx + (1 − λ)y > λ x + (1 − λ) y

Si elevamos ambos lados de esta desigualdad al cuadrado, tenemos que

√ √
λx + (1 − λ)y > λ2 x + (1 − λ)2 y + 2λ(1 − λ) x y

de la cual, reordenando términos, obtenemos que

√ √
λ(1 − λ)x + λ(1 − λ)y > 2λ(1 − λ) x y
√ √ √ √ 2
o, lo que es igual, x + y > 2 x y, o, x − y > 0, lo cual se cum-
√
ple siempre, ya que hemos asumido x 6= y. Por lo tanto, f (x) = x es
estrictamente cóncava en [0, ∞). N [2]
y f (x)

a b
x x
Figura 1.4. Panel a): Función convexa en [0, a] y cóncava en [a, b].
√
Panel b): f (x) = x, x ≥ 0 es estrictamente cóncava.

Ejemplo 2.
√
Probemos que f (x1 , x2 ) = x1 x2 es cóncava en R2+ , donde R2+ = {(x, y) ∈
R2 | x ≥ 0, y ≥ 0}. ¿Será estrictamente cóncava? (ﬁgura 1.5a).
2
Recordemos que aquí, y en el volumen I (Álgebra lineal y cálculo en varias variables)
el símbolo N significa que el ejemplo que se está analizando, ha finalizado.
8 Capítulo 1. Funciones cóncavas y cuasicóncavas

Solución.
Tomemos x = (x1 , x2 ), y = (y1 , y2 ) ∈ R2+ , y λ ∈ [0, 1]. Entonces debemos
probar que
f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y)
o, lo que es equivalente, que

f (λx1 + (1 − λ)y1 , λx2 + (1 − λ)y2 ) ≥ λf (x1 , x2 ) + (1 − λ)f (y1 , y2 )

Y esto es
q √ √
(λx1 + (1 − λ)y1 )(λx2 + (1 − λ)y2 ) ≥ λ x1 x2 + (1 − λ) y1 y2

Si elevamos ambos lados de la desigualdad al cuadrado, obtenemos

√ √
(λx1 +(1−λ)y1 )(λx2 +(1−λ)y2 ) ≥ λ2 x1 x2 +(1−λ)2 y1 y2 +2λ(1−λ) x1 x2 y1 y2

y, realizando los productos de la desigualdad, llegamos a:

λ2 x1 x2 + λ(1 − λ)x1 y2 + λ(1 − λ)y1 x2 + (1 − λ)2 y1 y2 ≥

√ √
λ2 x1 x2 + (1 − λ)2 y1 y2 + 2λ(1 − λ) x1 x2 y1 y2
de lo cual obtenemos que
√ √
λ(1 − λ)x1 y2 + λ(1 − λ)y1 x2 ≥ 2λ(1 − λ) x1 x2 y1 y2

Si λ = 0 o λ = 1, esta desigualdad es cierta. Y si λ 6= 0, 1 entonces se tiene

que
√ √
x1 y2 + y1 x2 ≥ 2 x1 x2 y1 y2
o
√ √
( x1 y2 − y1 x2 )2 ≥ 0

y esta desigualdad se cumple siempre. Por lo tanto, tenemos que f (x) =

√
f (x1 , x2 ) = x1 x2 es cóncava en R2+ . Sin embargo, observe que esta función
no es estrictamente cóncava pues la parte izquierda de la última desigualdad
podría ser cero, escogiendo adecuadamente x = (x1 , x2 ) y y = (y1 , y2 ). Por
ejemplo, esto sucede si tomamos (x1 , x2 ) = t(y1 , y2 ), para cualquier t > 0.
√
La idea intuitiva aquí de por qué f (x1 , x2 ) = x1 x2 es cóncava pero no
estrictamente cóncava es que la superﬁcie está conformada “cóncavamente”
por rectas (o rayos) que parten del origen (0, 0) (ﬁgura 1.5a).3
3
Imagine el lector cómo se forma una superficie cóncava uniendo sólo varillas rectas.
1.2. Funciones cóncavas y convexas 9

f (x, y) f (x, y)

y
y

x x
a) b)
√
Figura 1.5. En el panel a), la función f (x, y) = xy, x ≥ 0, y ≥ 0.
En el panel b), la función f (x, y) = x2 + y 2 .

Ejemplo 3.
Probemos que f (x1 , x2 ) = (x1 )2 + (x2 )2 es estrictamente convexa en R2
(ﬁgura 1.5b).

Solución.
Tomemos x = (x1 , x2 ) 6= (y1 , y2 ) = y ∈ R2 , y λ ∈ (0, 1). Entonces debemos
probar que
h i h i
(λx1 +(1−λ)y1 )2 +(λx2 +(1−λ)y2 )2 < λ (x1 )2 + (x2 )2 +(1−λ) (y1 )2 + (y2 )2

lo cual, calculando los cuadrados, es

λ2 (x1 )2 + (1 − λ)2 (y1 )2 + 2λ(1 − λ)x1 y1 + λ2 (x2 )2 + (1 − λ)2 (y2 )2 +

2λ(1 − λ)x2 y2 < λ(x1 )2 + λ(x2 )2 + (1 − λ)(y1 )2 + (1 − λ)(y2 )2

o, simpliﬁcando, esto es equivalente a

λ2 (x1 )2 + (y1 )2 − 2λ(y1 )2 + λ2 (y1 )2 + 2λx1 y1 − 2λ2 x1 y1 + λ2 (x2 )2 +

(y2 )2 − 2λ(y2 )2 + λ2 (y2 )2 + 2λx2 y2 − 2λ2 x2 y2 < λ(x1 )2 + λ(x2 )2 +
(y1 )2 − λ(y1 )2 + (y2 )2 − λ(y2 )2

y de nuevo simpliﬁcando, arribamos a que

λ2 (x1 )2 − λ(y1 )2 + λ2 (y1 )2 + 2λx1 y1 − 2λ2 x1 y1 + λ2 (x2 )2 − λ(y2 )2 +

λ2 (y2 )2 + 2λx2 y2 − 2λ2 x2 y2 < λ(x1 )2 + λ(x2 )2
10 Capítulo 1. Funciones cóncavas y cuasicóncavas

Agrupando términos, obtenemos

2λ(1 − λ)x1 y1 + 2λ(1 − λ)x2 y2 < λ(1 − λ)(x1 )2 + λ(1 − λ)(x2 )2 +
λ(1 − λ)(y1 )2 + λ(1 − λ)(y2 )2
que es equivalente a
λ(1 − λ)(x1 − y1 )2 + λ(1 − λ)(x2 − y2 )2 > 0
y que, claramente, se cumple, pues λ ∈ (0, 1) y x1 6= y1 o x2 6= y2 .

Ejercicios 1
1. Pruebe que si una función de una sola variable f (·) es cóncava (es-
tricta) en C (conjunto convexo y no-vacío en Rn ), entonces también
h(x, y) = f (x) + βf (y) es cóncava (estricta) en C × C, para β > 0.
2. Pruebe, utilizando la respectiva deﬁnición, que:
a) f (x, y) = Mín{x, y} es cóncava para x > 0, y > 0. ¿Será estricta-
mente cóncava?
b) f (x, y) = Máx{x, y} es convexa para x > 0, y > 0. ¿Será estricta-
mente convexa?
c) ¿Será cierto que si una función f : R+ → R+ es convexa, y f −1 (·)
existe, entonces f −1 (·) es cóncava? [Sugerencia: un gráﬁco de f (·)
y f −1 (·) ayudaría].

1.3. Propiedades de las funciones cóncavas

Recordemos que hemos asumido que, en adelante, C ⊆ Rn es un conjunto
convexo no-vacío. Dado esto, los siguientes teoremas nos presentan las pro-
piedades básicas de las funciones cóncavas. El primero de estos nos muestra
que la deﬁnición aparentemente algebraica de función cóncava tiene una
muy fuerte implicación topológica:
Teorema 1. (Concavidad ⇒ continuidad)
Si f (·) es cóncava en C, entonces es continua en el interior 4 de C. Es decir,
no existen funciones cóncavas discontinuas en C.
◦
4
Recordemos que el interior de un conjunto C ⊆ Rn es el subconjunto C ⊆ C confor-
mado por los puntos x ∈ C para los cuales existe un r > 0 tal que la bola abierta de radio
r y centro en x, Br (x), está contenida en C; esto es, Br (x) ⊆ C –ver volumen I (Álgebra
lineal y cálculo en varias variables)–.
1.3. Propiedades de las funciones cóncavas 11

Demostración.
(Ver el ejercicio complementario 24 al final del presente capítulo).
Teorema 2. (Característica de las funciones cóncavas)
Si f : C → R es cóncava, el conjunto de nivel superior a α definido por
Sα = {x ∈ C | f (x) ≥ α}, es convexo para todo α ∈ R (figura 1.6a) 5 . La
afirmación recíproca no siempre es cierta (ver ejemplo 7, adelante).
Demostración.
Si x, y ∈ Sα , entonces f (x) ≥ α, f (y) ≥ α. Como f (·) es cóncava, entonces
para todo λ ∈ [0, 1],
f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y)
≥ λα + (1 − λ)α = α
Luego, λx + (1 − λ)y ∈ Sα , y así Sα es un conjunto convexo.

y f (x) D
B

Sα C

x y x x
a) b)
Figura 1.6. En el panel a) se muestra el conjunto de nivel superior Sα , el cual es un
conjunto convexo (teorema 2). En el panel b) se presenta la condición de concavidad
“ pendiente de CD ≤ pendiente de AB ” (teorema 3).

Teorema 3. (Condición de primer orden)

Sea f : C → R continua en C y diferenciable con continuidad 6 en el interior
de C; entonces, f (·) es cóncava en C si, y sólo si, para todo x, y en el interior
de C:
f (x) − f (y) ≤ ∇f (y) · (x − y) (1.3)
En particular, en el caso de funciones cóncavas de una sola variable, tene-
mos que
f (x) − f (y) ≤ f ′ (y)(x − y) (ﬁgura 1.6b) (1.4)
5
Aquí, si Sα = ∅ entonces el resultado es cierto por “vacuidad”.
6
Es decir, con primeras derivadas parciales continuas en C.
12 Capítulo 1. Funciones cóncavas y cuasicóncavas

Además, en el caso general de n variables, f (·) es estrictamente cóncava si,

y sólo si, f (x) − f (y) < ∇f (y) · (x − y) para todo x, y en el interior de C,
con x 6= y.

Demostración.
Probaremos inicialmente el caso para una sola variable:

a) Supongamos que f (·) es cóncava en C. Entonces, para λ ∈ (0, 1] y x 6= y,

f (λ(x − y) + y) = f (λx + (1 − λ)y)

≥ λf (x) + (1 − λ)f (y)
= λ(f (x) − f (y)) + f (y)

lo cual implica que

f (λ(x − y) + y) − f (y)
(x − y) ≥ f (x) − f (y)
λ(x − y)

Dado que f (·) es diferenciable, tenemos que si λ → 0+ ,

f ′ (y)(x − y) ≥ f (x) − f (y)

b) Si x, y están en el interior de C, para λ ∈ [0, 1],

f (x) ≤ f (λx + (1 − λ)y) + f ′ (λx + (1 − λ)y)(1 − λ)(x − y)

f (y) ≤ f (λx + (1 − λ)y) + f ′ (λx + (1 − λ)y)(λ)(y − x)

Multiplicando la primera desigualdad por λ y la segunda por (1 − λ), y

sumando, se obtiene que

λf (x) + (1 − λ)f (y) ≤ f (λx + (1 − λ)y)

y así, f (·) es cóncava en C.

La demostración para el caso general es ya casi inmediata, pues basta tomar
la función F (λ) ≡ f (y + λ(x − y)) con ǫ < λ < 1 + ǫ para ǫ > 0 pequeño,
y calcular F ′ (λ) para luego aplicar el caso de una sola variable. En efecto,
utilizando el resultado anterior en esta función tendríamos que

F (1) − F (0) ≤ ∇F (0)(1 − 0)

1.3. Propiedades de las funciones cóncavas 13

que es equivalente a

f (x) − f (y) ≤ ∇f (y) · (x − y)

que era lo que queríamos probar. Es claro que el caso de concavidad estricta
es similar.
Sin embargo, esta condición de primer orden para la noción de concavidad,
aunque fundamental, no es la más utilizada en las aplicaciones. En su lugar,
era de esperarse, aparecen las condiciones de segundo orden, pues estas son
las que caracterizan la forma como se “curva” la función. Veamos esto.

Teorema 4. (Condición de segundo orden)

a) Si f (·) es dos veces diferenciable con continuidad en el interior de C y
continua en C, entonces f (·) es cóncava en C si, y sólo si, para todo x
en el interior de C, la matriz hessiana
" #n
∂2f
Hf (x) = (x) (1.5)
∂xi ∂xj i,j=1

es semidefinida negativa; es decir, si, y sólo si, XHf (x)X T ≤ 0 para

todo X ∈ Rn .

b) En particular, en el caso de funciones de dos variables, tendremos que

f (x, y) es cóncava en C si, y sólo si, la matriz hessiana

" #
A B
Hf (x) =
B C

satisface A ≤ 0 y AC − B 2 ≥ 0 en todo punto (x, y) del interior de C,

2 ∂2f 2
donde A = ∂∂xf2 (x, y), B = ∂x∂y (x, y), C = ∂∂yf2 (x, y).

c) Y en el caso de funciones de una sola variable (n=1), esta condición es,

simplemente, f ′′ (x) ≤ 0 para todo x en el interior de C (es decir, las
pendientes de las rectas tangentes a f (·) van decreciendo (ﬁgura 1.7).

Demostración.
Primero demostraremos c), y luego a); el literal b) queda como ejercicio
para el lector. Veamos la demostración de c):
14 Capítulo 1. Funciones cóncavas y cuasicóncavas

i) Supongamos que f (·) es cóncava en C. Por el teorema 3, tenemos que

para todo x en el interior de C y h suﬁcientemente pequeño,

f (x) − f (x + h) ≤ f ′ (x + h)(−h) y f (x + h) − f (x) ≤ f ′ (x)(h)

Luego,
f ′ (x + h) − f ′ (x) f ′ (x + h)h − f ′ (x)h
f ′′ (x) = lı́m = lı́m
h→0 h h→0 h2

f (x + h) − f (x) − f (x + h) + f (x) 0
≤ lı́m 2
= lı́m 2 = 0
h→0 h h→0 h

x
Figura 1.7. Rectas tangentes con pendientes decrecientes.

ii) Por otro lado, si f ′′ (x) ≤ 0 para todo x entonces, tomando x, y ∈ C

ﬁjos pero arbitrarios en el interior de C, por el teorema de Taylor, existe
c ∈ (x, y) tal que

f ′′ (c)
f (x) − f (y) = f ′ (x)(x − y) + (x − y)2
2!
Pero, por nuestro supuesto, f ′′ (c) ≤ 0, y así,

f (x) − f (y) ≤ f ′ (x)(x − y)

Aplicando el teorema 3, obtenemos el resultado buscado.

Veamos ahora la demostración de a):

◦
i) Sea a ∈ C (interior de C). Entonces, para h = (hi ) ﬁjo, tendremos que
◦
a + λh ∈ C si |λ| es suﬁcientemente pequeño (digamos |λ| < ǫ para
1.3. Propiedades de las funciones cóncavas 15

◦
ǫ > 0 pequeño). Si f (·) es cóncava en C entonces F (λ) ≡ f (a + λh)
también es cóncava en (−ǫ, ǫ); así, por la parte c) de este teorema, se
P ∂ 2 f
tendrá que F ′′ (0) = hi hj ≤ 0, que es exactamente lo que
∂xj ∂xi x=a
queríamos demostrar.
◦
ii) Sean a, b ∈ C, y h ≡ b − a. Como a, b son puntos interiores de X,
◦
existe un ǫ > 0 tal que a + λh ∈ C para −ǫ < λ < 1 + ǫ. Luego, de
nuevo por la parte c) de este teorema, se tiene que F (λ) ≡ f (a + λh) es
P ∂2f
cóncava en (−ǫ, 1 + ǫ) ya que F ′′ (λ) = hi hj ≤ 0. Pero como
∂xj ∂xi
λ = (1 − λ)0 + λ1, a + λh = (1 − λ)a + λb, F (0) = f (a), y F (1) = f (b),
la desigualdad (1 − λ)F (0) + λF (1) ≤ F ((1 − λ)(0) + λ(1) se convierte
en (1 − λ)f (a) + λf (b) ≤ f ((1 − λ)a + λb) que es cierta para todo
◦
λ ∈ [0, 1], a, b ∈ C.

El siguiente teorema está en la misma dirección del teorema 4. Sin embargo,

es muy importante especiﬁcarlo porque hará la advertencia de que, en el
caso de la concavidad estricta, ya la equivalencia de resultados no se da, y
en su lugar únicamente tenemos una implicación. Los contraejemplos para
mostrar que esto es así, son abundantes.
Teorema 5. (Característica diferencial)
a) Si f (·) es dos veces diferenciable con continuidad en el interior de C y
continua en C, entonces f (·) es estrictamente cóncava si, para todo
x en el interior de C, la matriz hessiana Hf (x) es definida negativa.
El recíproco no es cierto siempre.
b) En particular, en el caso de dos variables, tendremos que f (·) es estric-
tamente cóncava si la matriz hessiana
" #
A B
Hf (x, y) =
B C

∂2f ∂2f ∂2f ∂2f

donde A = , B = = , C = , satisface A < 0 y
∂x2 ∂x∂y ∂y∂x ∂y 2
AC−B 2 > 0 para todo x en el interior de C (observe que, en tal situación,
también C < 0).
c) En el caso de funciones de una sola variable, f (·) es cóncava estricta si,
y sólo si, f ′′ (x) < 0 para todo x en el interior de C.
16 Capítulo 1. Funciones cóncavas y cuasicóncavas

Demostración.
La prueba de esta propiedad es similar a la del teorema 4, utilizando la
condición para concavidad estricta del teorema 3. Sin embargo, es necesario
mostrar un caso en el que el recíproco no sea cierto, como asegura el teorema.
Para ello basta considerar el ejemplo típico de función cóncava estricta para
la cual A = B = C = 0 : f (x, y) = −x4 − y 4 en (0, 0).

Nota 2. (Propiedades de las funciones convexas)

Las propiedades fundamentales de las funciones convexas se obtienen uti-
lizando el hecho de que f (·) es convexa si, y sólo si, −f (·) es cóncava y,
utilizando los resultados de los teoremas anteriores. Un buen ejercicio para
el lector sería escribirlas explícitamente.

Ejemplo 4.
Es fácil mostrar (ﬁgura 1.8) que:

i) f (x) = ln(x) es estrictamente cóncava para x > 0.

ii) Si α > 0, g(x) = 1/xα es estrictamente convexa para x > 0.

Y aplicando directamente el teorema 5c), obtenemos, en cada caso, que:

1 α(1 + α)
I) f ′′ (x) = − < 0 si x > 0. II) g ′′ (x) = > 0 si x > 0.
x2 x2+α

f (x) g(x)

f (x) = ln x 1
g(x) = , α>0
xα

x x

a) b)

Figura 1.8. f (x) = ln x y g(x) = 1/xα .

Ejemplo 5.
Mostremos (ﬁgura 1.9) que la función f (x) = xα con x > 0 y α ≥ 0 es:

i) Cóncava si, y sólo si, 0 ≤ α ≤ 1.

ii) Estrictamente cóncava si 0 < α < 1.

1.3. Propiedades de las funciones cóncavas 17

iii) Convexa si, y sólo si, α ≥ 1.

y
α=4 α=2 α=1

α = 0.5
α = 0.3
1

1 x
Figura 1.9. f (x) = xα con diferentes valores de α.

Solución.
La segunda derivada de la función viene dada por
f ′′ (x) = α(α − 1)xα−2

i) f (·) es cóncava si, y sólo si, f ′′ (x) ≤ 0; así que debemos tener
α(α − 1)xα−2 ≤ 0, lo cual se cumple si, y sólo si, α ≥ 0 y α − 1 ≤ 0;
esto es, cuando 0 ≤ α ≤ 1.
ii) Para la concavidad estricta necesitamos que la desigualdad en I) se
cumpla estrictamente. Por un argumento similar al anterior, tenemos
que la función es cóncava estricta si 0 < α < 1.
iii) Para que la función sea convexa necesitamos que f ′′ (x) ≥ 0, lo cual se
cumple si, y sólo si, α ≥ 0 y α − 1 ≥ 0; esto es, cuando α ≥ 1.

Ejemplo 6.
Mostremos que la función f (x, y) = xα y β , con x > 0, y > 0; α, β > 0, es:
i) Cóncava si, y sólo si, α + β ≤ 1.
ii) Estrictamente cóncava si, y sólo si, α + β < 1.
iii) Además, mostremos que, en ningún caso, la función es convexa.
Solución.
Tenemos que
∂f ∂f
= αxα−1 y β , = βxα y β−1
∂x ∂y
18 Capítulo 1. Funciones cóncavas y cuasicóncavas

y la matriz hessiana está deﬁnida por

" #
A B
Hf (x) =
B C

donde
∂2f ∂2f
A= = α(α − 1)xα−2 y β , B= = αβxα−1 y β−1
∂x2 ∂x∂y

∂2f
C= = β(β − 1)xα y β−2
∂y 2
i) Así, Hf (x, y) es semideﬁnida negativa si, y sólo si,

a) Cumple que

∂2f ∂2f
A= ≤ 0, y C = ≤0
∂x2 ∂y 2
es decir, si α ≤ 1 y β ≤ 1.
b) Y también debe cumplir que
!2
∂2f ∂2f ∂2f
− ≥0
∂x2 ∂y 2 ∂x∂y

es decir,
h ih i h i2
α(α − 1)xα−2 y β β(β − 1)xα y β−2 − αβxα−1 y β−1 ≥0

o, lo que es lo mismo,

αβ(α − 1)(β − 1)x2α−2 y 2β−2 ≥ α2 β 2 x2α−2 y 2β−2

o,
(α − 1)(β − 1) ≥ αβ
de lo cual obtenemos, −α − β + 1 ≥ 0 que es equivalente a

α+β ≤1

ii) Por lo anterior, las condiciones de concavidad estricta A < 0 y AC −

B 2 > 0 se satisfacen si, y sólo si, α < 1 y α + β < 1; es decir, si, y sólo
si, α + β < 1 (puesto que hemos supuesto α > 0 y β > 0).
1.3. Propiedades de las funciones cóncavas 19

iii) Para que la función sea convexa debe ser A ≥ 0, lo cual se cumple si, y
sólo si, α ≥ 1. Además, debe ser AC −B 2 ≥ 0, lo cual, hemos mostrado,
se satisface si, y sólo si, α + β ≤ 1. Pero estas dos desigualdades no se
pueden satisfacer simultáneamente, dado que α, β > 0. Por lo tanto,
la función nunca es convexa.
Ejemplo 7.
De acuerdo con el ejemplo anterior, la función f (x, y) = x2 y 2 no es cóncava
en R2++ = {(x, y) ∈ R2 | x > 0, y > 0} puesto que su suma de exponentes
(2+2=4) es mayor que 1 (ﬁgura 1.10b)). Sin embargo, para todo escalar
α ∈ R+ , el conjunto de nivel superior a α,
( )
n o α1/2
Sα = (x, y) ∈ R2++ | f (x, y) ≥ α = (x, y) ∈ R2++ |y≥
x
es todavía un conjunto convexo7 . Esto demuestra que el recíproco del teo-
rema 2 es, en general, falso.
f (x, y) f (x, y)

y y

a) x b) x
√
Figura 1.10. En el panel a), la función f (x, y) = xy.
En el panel b), la función f (x, y) = x2 y 2 para x > 0, y > 0.

Solución.
Para ver esto, supongamos que (x1 , y1 ), (x2 , y2 ) ∈ Sα ; es decir, asumamos
α1/2 α1/2
que y1 ≥ y y2 ≥ ; entonces
x1 x2
α1/2 α1/2
λy1 + (1 − λ)y2 ≥ λ + (1 − λ)
x1 x
2
λ 1 − λ
= α1/2 +
x1 x2
1/2
= α (λg(x1 ) + (1 − λ)g(x2 ))
7
En esta definición hemos asumido α ≥ 0. Si α < 0, Sα = ∅ que, por vacuidad, también
es convexo.
20 Capítulo 1. Funciones cóncavas y cuasicóncavas

donde g(x) = 1/x. Pero sabemos (ejemplo 4), que g(x) es estrictamente
convexa para x > 0; así que

α1/2 (λg(x1 ) + (1 − λ)g(x2 )) ≥ α1/2 g(λx1 + (1 − λ)x2 )

1/2 1
=α
λx1 + (1 − λ)x2
lo que es equivalente a λ(x1 , y1 ) + (1 − λ)(x2 , y2 ) ∈ Sα , que es el resultado
buscado.
Dada la deﬁnición de función cóncava, podemos derivar sus propiedades
algebraicas:

Teorema 6. (Álgebra de funciones cóncavas)

a) Si a ∈ R, y f (·) es cóncava, entonces f (·) + a es cóncava.

b) Si a ∈ R+ y f (·) es cóncava, entonces a f (·) es cóncava.

c) Si f (·), g(·) son funciones cóncavas, entonces (f + g)(·) es cóncava.

d) Si f (·), g(·) son funciones cóncavas, entonces (f · g)(·) ni (f /g)(·) son

necesariamente cóncavas.

e) Si f : C → R es cóncava estricta y F : R → R es estrictamente monótona

creciente y estrictamente cóncava, entonces (F ◦f )(·) es también cóncava
estricta.
Demostración.

a) Sea f (·) cóncava, y deﬁnamos g(·) = f (·) + a; entonces

g(λx + (1 − λ)y) = f (λx + (1 − λ)y) + a

≥ λf (x) + (1 − λ)f (y) + a
= λ(f (x) + a) + (1 − λ)(f (y) + a)
= λg(x) + (1 − λ)g(y)

b) Sea a ∈ R+ y f (·) cóncava, y deﬁnamos g(·) = a f (·); entonces

g(λx + (1 − λ)y) = a f (λx + (1 − λ)y)

≥ a [λf (x) + (1 − λ)f (y)]
= λ(a f (x)) + (1 − λ)(a f (y))
= λg(x) + (1 − λ)g(y)
1.3. Propiedades de las funciones cóncavas 21

c) Sean f (·), g(·) funciones cóncavas; entonces

(f + g)(λx + (1 − λ)y) = f (λx + (1 − λ)y) + g(λx + (1 − λ)y)
≥ λf (x) + (1 − λ)f (y) + λg(x) + (1 − λ)g(y)
= λ(f + g)(x) + (1 − λ)(f + g)(y)

d) Si f (x) = x y g(x) = x1/2 , vemos que ambas son cóncavas, pero

(f · g)(x) = x3/2 no lo es. Por otro lado, si f (x) = x1/2 y g(x) = x,
entonces (f /g)(x) = x−1/2 es convexa.
e) Sean F (·) estrictamente creciente y estrictamente cóncava, y f (·) estric-
tamente cóncava; entonces
(F ◦ f )(λx + (1 − λ)y) = F [f (λx + (1 − λ)y)]
> F [λf (x) + (1 − λ)f (y)]
> λF [f (x)] + (1 − λ)F [f (y)]

El siguiente teorema es uno de los más utilizados en las aplicaciones, ya que

aﬁrma que si usted ya está seguro de que la función que va a maximizar es
cóncava, entonces basta derivarla (si esto es posible) y hacerla igual a cero.
Allí aparecerán entonces los puntos de máxima (si existen).
Teorema 7. (Es fácil optimizar funciones cóncavas)
Si f : C → R es cóncava y diferenciable con continuidad en el interior de C,
todo punto crítico (esto es, todo x∗ en el interior de C tal que ∇f (x∗ ) = 0)
es un máximo global (o absoluto) (ﬁgura 1.11).
y

x∗ x
∗
Figura 1.11. Todo punto crítico x de una función cóncava es un máximo global.

Demostración.
Por el teorema 3, tenemos que si y ∈ C, y 6= x∗ ,
f (y) − f (x∗ ) ≤ ∇f (x∗ )(y − x∗ ) = 0
22 Capítulo 1. Funciones cóncavas y cuasicóncavas

Puesto que ∇f (x∗ ) = 0 (x∗ es un punto crítico), entonces

f (y) ≤ f (x∗ ) para todo y ∈ C

Por lo tanto, x∗ es un máximo global.

Ejercicios 2
1. Utilizando las condiciones de segundo orden, determine las regiones
de sus dominios donde las siguientes funciones son cóncavas (estricta-
mente) o convexas (estrictamente):

a) f (x) = x3 b) f (x) = e2x /x, x 6= 0

c) f (x, y) = 3 ln(x + y), d) f (x, y) = x2 + y 2 − 1

x+y >1
√ √
e) f (x, y) = 4 x + 2 y f) f (x, y) = x(y + 4)
x > 0, y > 0 x > 0, y > 0
√
g) f (x, y) = x − y 2 h) f (x, y) = ln x − ey
x > 0, y > 0 x > 1, y > 0

2. Como ilustración del teorema 1, muestre que

(
x2 si x ∈ (0, 1]
f (x) =
1 si x = 0

es convexa en [0, 1], continua en (0, 1], pero discontinua en [0, 1].

1.4. Funciones cuasicóncavas y cuasiconvexas

Una pregunta básica, que trataremos de responder en esta sección, es para
qué tipo de funciones es cierto el recíproco del teorema 2; es decir, que Sα
sea convexo para todo α ∈ R. La respuesta la encontramos en las funciones
cuasicóncavas, introducidas por John von Neumann en 1928.
Definición 3. [Función cuasicóncava –von Neumann (1928)–]
Diremos que una función f : C → R (donde, recordemos, C es un subconjunto
convexo no-vacío de Rn ) es cuasicóncava si, y sólo si, para todo x, y ∈ C,
λ ∈ [0, 1], se cumple que
f (λx + (1 − λ)y) ≥ Mín{f (x), f (y)} (1.6)
1.4. Funciones cuasicóncavas y cuasiconvexas 23

Además, diremos que f (·) es cuasicóncava estricta si, y sólo si, para todo
x, y ∈ C, x 6= y, λ ∈ (0, 1), se cumple
f (λx + (1 − λ)y) > Mín{f (x), f (y)} (1.7)
Definición 4. [Función cuasiconvexa –von Neumann (1928)–]
Diremos que una función f : C → R es cuasiconvexa (estricta) en C si, y
sólo si, −f (·) es cuasicóncava (estricta) en C.
Una inmediata relación entre las funciones cóncavas y cuasicóncavas la en-
contramos en el siguiente teorema:
Teorema 8. (Concavidad ⇒ cuasiconcavidad)
Toda función cóncava (estricta) es cuasicóncava (estricta); y toda función
convexa (estricta) es cuasiconvexa (estricta).
Demostración.
Sea f : C → R una función cóncava; entonces para todo x, y ∈ C, λ ∈ [0, 1],
f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y)
≥ λ Mín{f (x), f (y)} + (1 − λ) Mín{f (x), f (y)}
= Mín{f (x), f (y)}
De manera similar, tenemos que toda función convexa es cuasiconvexa. Las
demostraciones bajo la condición estricta son también similares.
Nota 3.
Que la condición de cuasiconcavidad es realmente un debilitamiento de las
condiciones de concavidad, se ve en el hecho de que no toda función cuasi-
cóncava es cóncava (ﬁgura 1.12). De manera similar, no toda función cuasi-
convexa es convexa.

f (y)

f (x) = Mín{f (x), f (y)}

x y

Figura 1.12. Una función cuasicóncava no cóncava.

24 Capítulo 1. Funciones cóncavas y cuasicóncavas

Ejercicios 3
1. Determine si las siguientes funciones son cuasicóncavas (estrictas) o
cuasiconvexas (estrictas) en el dominio indicado:

a) f (x, y) = x2 + y 2 − 1, con x, y > 0

b) f (x, y) = Mín{x, y}, con x, y > 0
c) f (x, y) = α ln x + β ln y, con α, β > 0, x > 1, y > 1

1.5. Propiedades de las funciones cuasicóncavas

Quizás la primera propiedad de las funciones cuasicóncavas que debe men-
cionarse es que, a diferencia de las funciones cóncavas, no toda función
cuasicóncava es continua, como se puede ver en la ﬁgura 1.13. Sin embargo,
sí existe una relación entre monotonicidad y cuasiconcavidad para funciones
con dominio real, que la expresamos formalmente en el teorema 9.

x
Figura 1.13. Una función cuasicóncava no continua.

Teorema 9. (Monotonicidad ⇒ cuasiconcavidad)

Si C ⊆ R, entonces toda función monótona8 (estricta) es cuasicóncava (es-
tricta). Sin embargo, no toda función cuasicóncava es monótona.

Demostración.
Supongamos (sin pérdida de generalidad) que f (·) es monótona crecien-
te. Entonces, para x, y ∈ C, si x ≥ y, Mín{f (x), f (y)} = f (y); y como
λx + (1 − λ)y ≥ y, entonces por la monotonicidad de f (·), se tiene que
f (λx + (1 − λ)y) ≥ f (y), que es lo que se quería probar. La demostración
para el caso estricto es similar. Se deja como ejercicio al lector, mostrar una
función cuasicóncava que no sea monótona.
8
Es decir, creciente o decreciente.
1.5. Propiedades de las funciones cuasicóncavas 25

La principal característica de las funciones cuasicóncavas se tiene en el si-

guiente resultado:
Teorema 10. (Caracterización topológica)
Una función f : C → R es cuasicóncava si, y sólo si, para todo α ∈ R, el
conjunto de nivel
Sα = {x ∈ C | f (x) ≥ α}
es un conjunto convexo.
Demostración.
a) Supongamos que f (·) es cuasicóncava y probemos que Sα es convexo.
Para esto, sean x, y ∈ Sα ; entonces f (x) ≥ α, f (y) ≥ α. Y así,

f (λx + (1 − λ)y) ≥ Mín{f (x), f (y)} ≥ Mín{α, α} = α

Luego, λx + (1 − λ)y ∈ Sα .

b) Ahora supongamos que, para todo α, Sα es convexo, y probemos que

f (·) es cuasicóncava. Para ello, deﬁnamos

α = Mín{f (x), f (y)} con x, y ∈ C ﬁjos

Entonces f (x) ≥ α y f (y) ≥ α. Y, por la convexidad de Sα , tenemos que

λx + (1 − λ)y ∈ Sα , y así,

f (λx + (1 − λ)y) ≥ α = Mín{f (x), f (y)}

que es la deﬁnición de cuasiconcavidad.

Ejemplo 8. (Una clase especial de funciones cuasicóncavas)
Todas las funciones (Cobb-Douglas9 ) f (x, y) = xγ y β , con β, γ > 0 son
cuasicóncavas estrictas en R2++ (ﬁgura 1.14), porque para todo α ≥ 0, el
conjunto de nivel superior a α,

Sα = {(x, y) ∈ R2++ | f (x, y) ≥ α} = {(x, y) ∈ R2++ | xγ y β ≥ α}

( )
α1/β
= (x, y) ∈ R2++ | y ≥ γ/β
x

es un conjunto convexo (la prueba de esto es similar a la del ejemplo 7).

En particular, observemos que si γ + β > 1, entonces f (·) es cuasicóncava
estricta, pero no es cóncava.
9
Estas funciones toman su nombre de C. Cobb y P. Douglas (1928).
26 Capítulo 1. Funciones cóncavas y cuasicóncavas

Ejemplo 9. (Una función cuasicóncava y convexa)

Existen funciones cuasicóncavas que inclusive son convexas (y no son linea-
les): Si f (x) = x2 , x ≥ 0, entonces para α ≥ 0,
√
Sα = {x ∈ R+ | x2 ≥ α} = {x ∈ R+ | x ≥ α}

es un intervalo y, por lo tanto, es un conjunto convexo.

xγ y β = 2.4

xγ y β = 1.6

xγ y β = 1

Figura 1.14. Sα para la función f (x, y) = xγ y β ; γ, β > 0; x, y > 0.

Teorema 11. (Álgebra de funciones cuasicóncavas)

Si f (·), g(·) son dos funciones cuasicóncavas, entonces se cumple que:

a) La función h(·) = f (·) + a, a ∈ R, es cuasicóncava.

b) La función h(·) = a f (·) es cuasicóncava, si a ≥ 0.

c) La función h(·) = f (·) + g(·) no es necesariamente cuasicóncava.

d) Ni la función h(·) = f (·) g(·), ni h(·) = f (·)/g(·) son necesariamente

cuasicóncavas.

e) Si F (·) es estrictamente creciente, entonces la función compuesta

(F ◦ f )(·) también es cuasicóncava. Si además f (·) es cuasicóncava es-
tricta, entonces la función compuesta (F ◦ f )(·) es cuasicóncava estricta.

Demostración.

a) Si f (λx + (1 − λ)y) ≥ Mín{f (x), f (y)}, entonces

f (λx + (1 − λ)y) + a ≥ Mín{f (x), f (y)} + a

1.5. Propiedades de las funciones cuasicóncavas 27

b) Si f (λx + (1 − λ)y) ≥ Mín{f (x), f (y)}, entonces

af (λx + (1 − λ)y) ≥ a Mín{f (x), f (y)} = Mín{af (x), af (y)}

c) La esencia de la diﬁcultad aquí radica en que la función Mín{x, y} no es

lineal. Por ejemplo, para x ≥ 0, sean f (x) = x2 y g(x) = −x. Entonces
(f + g)(x) = x2 − x no es cuasicóncava, pues si x = 0, y = 1 y λ = 12 ,

1
(f + g)(λx + (1 − λ)y) = − < Mín {(f + g)(0), (f + g)(1)} = 0
4
Sin embargo, f (·) y g(·) sí lo son, pues f (x) = x2 (x ≥ 0) es cuasicóncava
estricta (ejemplo 9 y ﬁgura 1.15a), y g(x) = −x es lineal y, por tanto,
cuasicóncava.
y
y

λx
+
(1
−
λ)
y
x
x
a) b)

Figura 1.15. En el panel a) una función cuasicóncava y convexa y = x2 , x > 0. En el

panel b) se muestra que las combinaciones convexas λx + (1 − λ)y, λ ∈ (0, 1) siempre
obtienen un mayor valor cuando la función es cuasicóncava estricta.

d) Si f (x) = x, entonces f 2 (x) = x2 (ﬁgura 1.15a) no es cuasicóncava en R.

De otro lado, si f (x) = x3 y g(x) = x, entonces f (x)/g(x) = x2 , x 6= 0,
que no es cuasicóncava.

e) Si f (λx + (1 − λ)y) ≥ Mín{f (x), f (y)} y F (z) ≥ F (w) si z ≥ w, entonces

F (f (λx + (1 − λ)y)) ≥ F (Mín{f (x), f (y)}) = Mín{F (f (x)), F (f (y))}.

Nota 4. (Una propiedad importante)

La deﬁnición de cuasiconcavidad estricta implica, en particular, que si f (x) =
f (y) = α con x 6= y, entonces f (λx + (1 − λ)y) > α para todo λ ∈ (0, 1). Es
decir, las combinaciones convexas λx + (1 − λ)y, λ ∈ (0, 1), tienen siempre
mayor valor que los puntos x, y, cuando estos dos estén en la misma curva
de nivel (ﬁgura 1.15b). N
28 Capítulo 1. Funciones cóncavas y cuasicóncavas

Hasta aquí hemos especiﬁcado la cuasiconcavidad sin hacer referencia a la

diferenciabilidad de las funciones; sin embargo, si la función f (·) es diferen-
ciable (una o dos veces), podemos caracterizar la cuasiconcavidad mediante
los teoremas siguientes:
Teorema 12. (Condición de primer orden)
Sea f : C → R diferenciable en el interior de C. Entonces f (·) es cuasicón-
cava (estricta) en C si, y sólo si, f (x) ≥ f (y) implica

∇f (y)(x − y) ≥ 0 (∇f (y)(x − y) > 0)

Demostración.
(Presentamos aquí la demostración para funciones de una variable; el caso
de más variables es similar, pues basta utilizar el típico recurso de deﬁnir
F (λ) ≡ f (y + λ(x − y)) con ǫ < λ < 1 + ǫ y ǫ > 0 pequeño, para luego
aplicar la condición demostrada en el caso de una sola variable).
a) Supongamos que f (·) es cuasicóncava y que f (x) ≥ f (y). Entonces

f (λx + (1 − λ)y) ≥ f (y)

lo cual, para x 6= y, es igual a

f (λx + (1 − λ)y) − f (y)
(x − y) ≥ 0
(1 − λ)(x − y)
Dado que f (·) es diferenciable, tenemos que
f (λx + (1 − λ)y) − f (y)
lı́m (x − y) = f ′ (y)(x − y) ≥ 0
λ→1− (1 − λ)(x − y)

b) Supongamos que f (x) ≥ f (y) implica f ′ (y)(x − y) ≥ 0 y probemos que

f (·) es cuasicóncava. Sean x, y en el interior de C tales que
f (x) ≥ f (y) y deﬁnamos la función φ : [0, 1] → R como φ(λ) =
f (λx+(1−λ)y) = f (λ(x−y)+y), la cual también es continua y diferencia-
ble. Para demostrar que f (·) es cuasicóncava, debe ser que φ(λ) ≥ φ(0)
para todo λ ∈ (0, 1). Supongamos, por el contrario, que φ(λ) < φ(0)
para algún λ ∈ (0, 1). Entonces podemos encontrar λ0 ∈ (0, 1) tal que
φ(λ0 ) < φ(0) y φ′ (λ0 ) < 0. Por la regla de la cadena

φ′ (λ0 ) = f ′ (λ0 (x − y) + y)(x − y) < 0

Y como hemos supuesto que

φ(0) = f (y) ≥ f (λ0 (x − y) + y) = φ(λ0 )

1.5. Propiedades de las funciones cuasicóncavas 29

entonces, por hipótesis,

f ′ (λ0 (x − y) + y)λ0 (x − y) ≥ 0

lo cual es una contradicción.

La demostración para las funciones cuasicóncavas estrictas es similar.
Así como las funciones cóncavas están determinadas por ciertas condiciones
sobre la matriz hessiana (teorema 4), también podría esperarse que las fun-
ciones cuasicóncavas tuvieran una característica similar. En efecto, es así,
y la correspondiente matriz se conoce como matriz hessiana orlada. ¿Cómo
surge? Sabemos, por el teorema de la función implícita –volumen I (Álge-
bra lineal y cálculo en varias variables)–, que si y(x) deﬁne localmente una
función a partir de la curva de nivel f (x, y) = α, entonces se tendrá que, en
esa vecindad,
dy ∂f /∂x
=−
dx ∂f /∂y
Y si a esta curva y(x) nos es posible calcularle la segunda derivada, obten-
dremos que

d2 y d ∂f /∂x
2
=−
dx dx ∂f /∂y

" # " #
∂f ∂ 2 f ∂ 2 f dy ∂f ∂ 2 f ∂ 2 f dy
+ − +
∂y ∂x2 ∂y∂x dx ∂x ∂x∂y ∂y 2 dx
=− 2
∂f
∂y

2 2
∂f ∂2f ∂f ∂f ∂ 2 f ∂f ∂2f
− 2 +
∂y ∂x2 ∂x ∂y ∂y∂x ∂x ∂y 2
=−
∂f 3
∂y

∂f ∂f
0

∂x ∂y
1 ∂f ∂2f ∂ 2 f

= 3
∂f ∂x
∂x2 ∂x∂y
∂y ∂f ∂2f ∂2f

∂y ∂y∂x ∂y 2
30 Capítulo 1. Funciones cóncavas y cuasicóncavas

∂f ∂f
Parece claro que condiciones sobre el determinante y sobre , , de-
∂x ∂y
terminarán qué tipo de concavidad-convexidad tendrán las curvas de nivel
f (x, y) = α y, de allí, la concavidad-convexidad del conjunto

Sα = {(x, y) ∈ C | f (x, y) ≥ α}

que es el criterio que determina la cuasiconcavidad-cuasiconvexidad de f (·).

Es precisamente a este determinante al que llamaremos (en el caso 2 × 2) el
hessiano orlado (de orden 2) correspondiente a f (·, ·).
Definición 5. (Matriz hessiana orlada)
Dada f : C → R, deﬁnimos, para r ≤ n, la matriz hessiana orlada de orden
r (correspondiente a f (·)) como la matriz
 ∂f ∂f ∂f 
0 ∂x1 ∂x2 ··· ∂xr
 
 ∂f ∂2f ∂2f ∂2f 
 ∂x1 ∂x21 ∂x1 ∂x2 ··· ∂x1 ∂xr 
 
 ∂f ∂2f ∂2f ∂2f 

 ···
Dr =  ∂x2 ∂x2 ∂x1 ∂x22 ∂x2 ∂xr 
 
 . .. .. .. .. 
 .. . . . . 
 
 
∂f ∂2f ∂2f ∂2f
∂xr ∂xr ∂x1 ∂xr ∂x2 ··· ∂x2r

Observe que una función de n variables tiene n matrices hessianas orladas

D1 , D2 , . . . , Dn .
Teorema 13. (Caracterización de segundo orden)
Supongamos que f (·) es dos veces diferenciable con continuidad en C ⊆ Rn .
Entonces:
a) Si las matrices hessianas orladas satisfacen (−1)r | Dr |> 0 para todo x
en C, y todo r = 1, 2, . . . , n entonces f (·) es cuasicóncava estricta en
C.
b) En el caso de dos variables, tendremos que f (·, ·) es cuasicóncava si la
matriz hessiana orlada
 
0 a c
 
a A B 
c B C

∂f ∂f ∂2f ∂2f ∂2f

donde a = ,c= ,A= , B = , C = , satisface
∂x ∂y ∂x2 ∂x∂y ∂y 2
1.5. Propiedades de las funciones cuasicóncavas 31

i) a > 0 y c > 0; ó, a < 0 y c < 0.

ii) a2 C − 2acB + c2 A ≤ 0
Demostración.
Presentamos sólo la parte b) de la prueba; para la parte a), remitiremos al
lector al artículo clásico de Arrow & Enthoven (1961). Asumamos, entonces,
I) y II), y probemos que f (·) es cuasicóncava. Supongamos que a y b son
ambas positivas (el caso ambas negativas es similar). Por el teorema de la
función implícita –volumen I (Álgebra lineal y cálculo en varias variables)–
de f (x, y) = α con α constante, podemos escribir x = h(y) para cierta
función dos veces diferenciable h(·). Como de la condición II) se tiene que
B ≥ 0, entonces h(·) es convexa.
Sean (x0 , y0 ), (x1 , y1 ) dos puntos sobre la curva de nivel f (x, y) = α; enton-
ces x0 = h(y0 ) y x1 = h(y1 ). Tomemos (x2 , y2 ) = (1 − λ)(x0 , y0 ) + λ(x1 , y1 )
con λ ∈ [0, 1]. En tal caso
h(y2 ) ≤ (1 − λ)h(y0 ) + λh(y1 ) = (1 − λ)x0 + λx1 = x2
Luego
α = f (h(y2 ), y2 ) ≤ f (x2 , y2 )
Por lo tanto, f (x0 , y0 ) = f (x1 , y1 ) implica
f ((1 − λ)(x0 , y0 ) + λ(x1 , y1 )) = f (x2 , y2 ) ≥ f (h(y2 ), y2 ) = α
= f (x0 , y0 )
que es la condición de cuasiconcavidad para este caso.

Ahora supongamos que f (x1 , y1 ) > f (x0 , y0 ), y sea λ̄ el máximo λ tal que
f ((1 − λ)(x0 , y0 ) + λ(x1 , y1 )) = f (x0 , y0 )
(¿Por qué existe este λ̄?) y sea (x2 , y2 ) = (1 − λ̄)(x0 , y0 ) + λ̄(x1 , y1 ). Como
0 ≤ λ ≤ λ̄, entonces podemos escribir
(1 − λ)(x0 , y0 ) + λ(x1 , y1 ) = (1 − t)(x0 , y0 ) + t(x2 , y2 )
donde t = λ/λ̄. Y como f (x2 , y2 ) = f (x0 , y0 ), entonces tendremos que
f ((1 − λ)(x0 , y0 ) + λ(x1 , y1 )) = f ((1 − t)(x0 , y0 ) + t(x2 , y2 )) ≥ f (x0 , y0 )
Y aplicando continuidad y la deﬁnición de λ̄, se tendrá que
f ((1 − λ)(x0 , y0 ) + λ(x1 , y1 )) > f (x0 , y0 )
Esto muestra que f (·, ·) es cuasicóncava.
32 Capítulo 1. Funciones cóncavas y cuasicóncavas

Ejemplo 10.
Probemos mediante el criterio del hessiano orlado del teorema anterior, que
la función f (x, y) = xα y β , α, β > 0, es cuasicóncava en R2++ .

Solución.
Aquí, a = αxα−1 y β , c = βxα y β−1 , A = α(α − 1)xα−2 y β , B = αβxα−1 y β−1 ,
C = β(β − 1)xα y β−2 .

a) En primer lugar, es claro que a > 0 y c > 0.

b) Además, se tiene que

2
a2 C − 2acB + c2 A = αxα−1 y β β(β − 1)xα y β−2 −

2 αxα−1 y β βxα y β−1 αβxα−1 y β−1 +
2
+ βxα y β−1 α(α − 1)xα−2 y β
= α2 β(β − 1)x3α−2 y 3β−2 − 2α2 β 2 x3α−2 y 3β−2
+ α(α − 1)β 2 x3α−2 y 3β−2
= −αβ(α + β)x3α−2 y 3β−2 < 0.

Por lo tanto, se tiene la cuasiconcavidad de f (·, ·).

Ejemplo 11.
Podemos probar que f (x, y) = yex (ﬁgura 1.16) es cuasicóncava en R2+
utilizando el criterio del hessiano orlado.

f (x, y)

x
Figura 1.16. La función f (x, y) = yex .
1.6. Contexto económico 33

En efecto: aquí a = yex , c = ex , A = yex , B = ex , C = 0, y vemos que, en

primer lugar, a > 0 y c > 0. Además,

a2 C − 2acB + c2 A = 0 (yex )2 − 2 (yex ) (ex ) (ex ) + (ex )2 (yex )

= −2ye3x + ye3x = −ye3x < 0

de tal forma que f (·, ·) es cuasicóncava.

Ejercicios 4
1. Utilizando el teorema del presente capítulo que considere más conve-
niente, determine cuáles de las siguientes funciones son cuasicóncavas
(estrictas) y cuasiconvexas (estrictas) en el dominio especiﬁcado:
√ √
a) f (x, y) = x+ y, con x, y > 0
b) f (x, y) = x2 + y, con x, y > 0
c) f (x, y) = (x + y)3 , con x, y > 0
d) f (x, y) = (xα + y α )1/α , con x, y > 0 y α > 0
e) f (x, y) = Máx{3x, 4y}, con x, y > 0
2 2
1 1
f) f (x, y) = x − 2 + y− 2 , con x, y > 0

g) f (x, y) = (ln x)α + (ln y)β , con α, β > 0, x > 1, y > 1

h) f (x, y) = x(y + 4), con x, y > 0
i) f (x, y) = 100x − 10x2 + 10xy, con x, y > 0
j) f (x, y) = 200y − 15y 2 + 10xy, con x, y > 0

2. ¿Será que la propiedad b) del teorema 11 es sólo cierta para a ≥ 0? Si

es así, escriba un ejemplo en el que no sea cierto para a < 0. Si no es
así, entonces pruebe el resultado.

3. Construya una tabla con todas las funciones estudiadas en este capí-
tulo y analícelas bajo los criterios de concavidad (estricta), cuasicon-
cavidad (estricta), convexidad (estricta) y cuasiconvexidad (estricta).
34 Capítulo 1. Funciones cóncavas y cuasicóncavas

1.6. Contexto económico

1.6.1. Concavidad-convexidad y marginalidad decreciente
De discusiones en el volumen I (Álgebra lineal y cálculo en varias variables)
ha quedado claro que la teoría económica convencional está construida, en
gran parte, sobre la base de tasas marginales decrecientes que, como vere-
mos, están íntimamente ligadas a la noción de concavidad (funciones cónca-
vas): funciones de utilidad cóncavas, funciones de producción cóncavas, etc.
En cada uno de estos casos, la justiﬁcación es diferente.
Una función de utilidad cóncava estricta (y que también se acostumbra a
asumir creciente) indica que mayor es el consumo del agente cuando mayor
satisfacción obtiene, aunque este nivel de satisfacción es cada vez “menos
intenso”. El concepto de utilidad marginal decreciente fue utilizado quizá
por primera vez por Nicholas Bernoulli (1713) y Daniel Bernoulli (1738)
para resolver la paradoja de San Petersburgo sobre utilidades esperadas. En
sus inicios, Jeremy Bentham (1789) recurrió a esta noción, pues permitía
conectar los conceptos de “deseo” de las mercancías con la demanda efecti-
va. Posteriormente, todos los economistas marginalistas (Jevons, Marshall,
Walras y Pareto, entre otros) utilizaron una y otra vez esta fundamental no-
ción sobre el comportamiento individual al tomar una decisión de consumo.
Por su parte, una función de producción cóncava estricta (y también crecien-
te) indica que, cuanto mayor sea el número de insumos utilizados, mayor
será el nivel de producción, aunque el rendimiento de la “máquina” (por
desgaste y otras limitaciones) es cada vez menor. Esta idea, conocida co-
mo la ley de los rendimientos marginales decrecientes o de la productividad
marginal decreciente (para evitar confusiones con la idea de rendimientos
decrecientes a escala), fue pensada originalmente para aplicaciones a la eco-
nomía de factores agrícolas, por A.R.J. Turgot en sus Observations de 1767,
y por Thomas Robert Malthus en su Essay on the Principle of Population
de 1798. Posteriormente fue aplicada, más generalmente, a otros factores de
producción, por Johann Heinrich von Thünen (1826), y otros. Pero la cima
del concepto se encuentra en el trabajo de John Bates Clark (1889, 1891,
1899) y en el de Philip H. Wicksteed (1894).
La relación entre concavidad y marginalidad decreciente de la utilidad o de
la productividad se puede escribir formalmente. Asumamos que podemos
representar la utilidad o la producción por medio de una función dos veces
diferenciable con continuidad F : C → R con C ⊆ R2 un conjunto convexo,
abierto y no-vacío. Note que con la hipótesis de convexidad de C asumimos
1.6. Contexto económico 35

que los bienes son perfectamente divisibles, de tal forma que tenga sentido
hablar de cambios inﬁnitesimales en el consumo o en la producción de los
mismos. Así, podemos representar la utilidad o la productividad marginal
del bien xi (i = 1, 2) como la derivada parcial ∂F/∂xi . Claramente, un signo
positivo de esta derivada conﬁrmaría que el aumento de la cantidad de xi
aumenta el nivel de utilidad o de producción. Por otro lado, la hipótesis
de utilidad o de productividad marginal decreciente del bien xi se escribe
∂ 2 F/∂x2i < 0, y la de la utilidad o la productividad marginal no-creciente
del bien xi se escribe ∂ 2 F/∂x2i ≤ 0.

Teorema 14. (Concavidad estricta ⇒ marginalidad decreciente)

Sea F : C → R una función de utilidad o de producción, dos veces diferen-
ciable con continuidad, donde C ⊆ R2 es abierto, convexo y no-vacío.

a) Si la función de utilidad o de producción es cóncava estricta, entonces

tiene utilidades o productividades marginales decrecientes.

b) Si C ⊆ R, la función de utilidad o de producción es cóncava estricta si,

y sólo si, tiene utilidad o productividad marginal decreciente.

Este teorema es una implicación directa del teorema 5, y nos permite re-
lacionar utilidades o productividades marginales decrecientes y concavidad.
Sin embargo, como se puede inducir fácilmente, no siempre la existencia
de utilidades o productividades marginales decrecientes implica la conca-
vidad de la función de utilidad o de producción. Por ejemplo, la función
F (x, y) = x2/3 y 2/3 tiene marginalidades decrecientes, aunque no es cónca-
va. Aún así, por una aplicación directa del teorema 13, se tiene el siguiente
resultado:

Teorema 15. (Marginalidad decreciente y cuasiconcavidad)

Sea F : C → R una función de utilidad (o de producción) monótona creciente
en cada uno de sus argumentos, y dos veces diferenciable con continuidad,
donde C ⊆ R2 es abierto, convexo y no-vacío. Si la función tiene utilidades
(o productividades) marginales decrecientes y ∂ 2 F/∂x∂y ≥ 0, entonces la
función de utilidad (o de producción) es cuasicóncava estricta.

Sin embargo, es fácil ver que no toda función cuasicóncava tiene marginali-
dades decrecientes. Por ejemplo, la función F (x, y) = x2 y 3 es cuasicóncava,
pero no tiene marginalidades decrecientes.
36 Capítulo 1. Funciones cóncavas y cuasicóncavas

1.6.2. Concavidad-convexidad y rendimientos a escala

El concepto de rendimientos a escala para funciones de producción, aunque
apareció aquí y allá en la historia del pensamiento económico, sólo fue deﬁni-
do con precisión por Alfred Marshall (1890) en el contexto de las economías
de escala al explicar por qué estas cambiaban por razones tecnológicas o de
precios. Sin embargo, el concepto también sería estudiado posteriormente
por Knut Wicksell (1900, 1901a, 1901b), Philip H. Wicksteed (1894), Piero
Sraﬀa (1926) y John Hicks (1932, 1936), entre otros.

Aunque una función de producción particular puede exhibir sólo uno de

los tres tipos específicos de rendimientos a escala, es común (desde las Lec-
tures on Political Economy (1901a) de Wicksell) encontrar descripciones
que muestran funciones de producción que tienen diferentes rendimientos
a escala para diferentes niveles de producción: cuando una firma produce
pequeñas cantidades puede mostrar rendimientos crecientes a escala debi-
do, típicamente, a que un aumento en su tamaño podría hacer un uso más
eficiente de los recursos a través de la especialización; pero si produce gran-
des cantidades enfrentaría rendimientos decrecientes ya que un aumento en
el tamaño de la empresa haría, probablemente, el trabajo más complicado
(figura 1.17).

Figura 1.17. Función de producción según Wicksell (1901a).

Pero la justiﬁcación económica para los diferentes rendimientos a escala

no resulta ser algo simple. En un nivel muy elemental, se justiﬁcan los
rendimientos crecientes a escala apelando a algún argumento de división
del trabajo como aﬁrmaba Adam Smith (1776): si agregamos más mano de
obra y más máquinas en un proceso productivo, cada trabajador y cada
máquina podría especializarse en un subpropósito particular del proceso,
haciéndolo con mayor precisión en un menor tiempo. En general, es corriente
1.6. Contexto económico 37

encontrar el argumento de que los rendimientos crecientes a escala capturan

de una u otra forma, la idea de progreso tecnológico. Esto lo encontramos
explícitamente en el trabajo de Allyn Young (1928) y Nicholas Kaldor (1966)
y, en general, en toda la teoría del crecimiento endógeno moderna. Se hace
claro que los rendimientos a escala no son sólo un problema de escala: son
acerca de cambios de técnicas y de las razones de su emergencia (Arthur,
1989).
Ahora presentamos una perspectiva no-marginalista desde donde también
se han estudiado los rendimientos a escala, y que se centra en el problema
del tipo de escala.

Definición 6. (Conjunto de producción)

Definimos un plan de producción como un vector y = (y1 , . . . , yn ) ∈ Rn , tal
que cada yi identifica cuánto del i-ésimo bien se ha utilizado en ese plan.
Si yi < 0, el bien se ha empleado como insumo en el plan de producción; si
yi > 0, el bien es un producto final del plan; y si yi = 0 el bien no se ha
utilizado en el plan. Al conjunto Y ⊆ Rn de todos los planes de producción
disponibles lo llamamos conjunto de producción.

Para utilizar estos conjuntos en la elaboración de una teoría de la producción

es necesario dotarlos de ciertas propiedades matemáticas. A lo largo de esta
sección supondremos que los conjuntos de producción Y son subconjuntos
no-vacíos de Rn tales que si y ∈ Y y z ≤ y, entonces z ∈ Y 10 ; es decir, que
dadas ciertas cantidades de insumos, siempre es posible producir menos que
lo que se produciría con aquellas cantidades.
Ahora: dado un plan de producción y en un conjunto de producción Y ,
cambiar la escala de operación es multiplicar y por un número no negativo
λ. Aumentar la escala es permitir a λ ser mayor que 1; y disminuirla es
permitir a λ ser menor que 1.
Definición 7. (Rendimientos a escala)
Dado un conjunto de producción Y , diremos que:

a) Y tiene rendimientos crecientes a escala si se tiene que cuando y ∈ Y ,

entonces λy ∈ Y para todo λ ≥ 1 (ﬁgura 1.18a).

b) Y tiene rendimientos decrecientes a escala si se tiene que cuando y ∈ Y ,

entonces λy ∈ Y para todo 0 ≤ λ ≤ 1 (ﬁgura 1.18b).
10
Que z ≤ y significa que la componente i del vector z es estrictamente menor que la
componente i del vector y, para todo i = 1, 2, ...n. En la literatura moderna, a un conjunto
con esta característica se le denomina “comprehensivo”.
38 Capítulo 1. Funciones cóncavas y cuasicóncavas

c) Y tiene rendimientos constantes a escala si se tiene que cuando y ∈ Y ,

entonces λy ∈ Y para todo λ ≥ 0 (ﬁgura 1.18c). Así, Y tiene rendi-
mientos constantes a escala si, y sólo si, tiene rendimientos crecientes y
decrecientes a escala.

producto producto producto

Y Y
Y

insumo insumo insumo

a) b) c)
Figura 1.18. En el panel a): un conjunto de producción con rendimientos crecientes a
escala. En el panel b): un conjunto de producción con rendimientos decrecientes a escala.
En el panel c): un conjunto con rendimientos constantes a escala.

Los siguientes teoremas establecen la conexión directa entre el concepto de

cambio de escala y el de convexidad del conjunto de producción Y .

Teorema 16.
Si Y es convexo y 0 ∈ Y (posibilidad de no acción), entonces Y tiene
rendimientos decrecientes a escala.

Demostración.
Supongamos que Y es convexo y 0 ∈ Y . Para y ∈ Y y λ ∈ [0, 1] se tiene,
por la convexidad de Y , que λy + (1 − λ)0 ∈ Y ; es decir, λy ∈ Y para todo
λ ∈ [0, 1].

Teorema 17.
Y es un cono11 con vértice en 0 si, y sólo si, Y tiene rendimientos constantes
a escala.

Demostración.
Si Y es un cono con vértice en 0, es decir, si Y satisface que para todo
y ∈ Y , λ ≥ 0, se tiene que λy ∈ Y , entonces Y tiene rendimientos constantes
a escala. Asimismo, si Y tiene rendimientos constantes a escala, para todo
y ∈ Y y λ ≥ 0 se tiene λy ∈ Y . En particular, 0(y) = 0 ∈ Y y, por lo tanto,
Y es un cono con vértice en 0.
11
Un conjunto Y ⊆ Rn y 0 ∈ Y es un cono (con vértice en 0) si para cada y ∈ Y y
λ ≥ 0 se tiene que λy ∈ Y .
1.6. Contexto económico 39

Como vimos en la sección anterior, es usual estudiar la teoría de la produc-

ción haciendo uso de funciones de producción. A continuación relacionamos
los conceptos de conjunto de producción y de función de producción. Pa-
ra ello supondremos, en adelante, que el conjunto de producción Y es un
subconjunto no-vacío y cerrado de Rn y que, además, tiene una propiedad
especial.

Definición 8. (Función de producción)

Consideremos aquellos específicos conjuntos de producción Y ⊆ Rn donde
n−1 son insumos y sólo se fabrica un producto. Entonces podemos describir
cada plan de producción en Y como un vector de la forma (y, −z) con −z
escrito de la forma (−z1 , −z2 , . . . , −zn−1 ) donde y, zi ≥ 0 para todo i, de
forma que distingamos el producto y de los insumos z. Con esto, podemos
definir la función de producción f (z) asociada a este conjunto de producción
Y que denota la máxima producción posible para cada nivel de insumos
z = (z1 , . . . , zn ) si esta existe; es decir, para cada z definimos

f (z) = Máx{ y | (y, −z) ∈ Y }

cuando este máximo exista (¿En qué casos podría no existir?).

y
f (z)

z
Figura 1.19. Función de producción cóncava asociada a un conjunto de producción
convexo.

Así, la función de producción está determinada por la frontera superior del

conjunto de producción cuando esta exista (ﬁgura 1.19). Además, es claro
que bajo nuestras hipótesis, la función de producción puede ser discontinua
y no diferenciable. Sin embargo, si el conjunto de producción es convexo,
podemos asegurar al menos, la continuidad de la función de producción,
cuando esta exista. Entonces, Para evitar discusiones no pertinentes aquí,
asumiremos en adelante, que los conjuntos de producción del tipo mencio-
nado antes, tienen efectivamente, asociada una función de producción.
40 Capítulo 1. Funciones cóncavas y cuasicóncavas

Teorema 18.
La función de producción asociada al conjunto de producción Y es cónca-
va, si, y sólo si, Y es convexo (ﬁgura 1.19). Por tanto, todo conjunto de
producción convexo tiene asociada una función de producción continua.

Demostración.
Supongamos que Y es convexo; entonces para todo λ ∈ (0, 1), y (y, −z),
(y ′ , −z ′ ) ∈ Y , tenemos que λ(y, −z) + (1 − λ)(y ′ , −z ′ ) ∈ Y . En particu-
lar, esto es válido para (y, −z), (y ′ , −z ′ ) en la frontera superior del conjun-
to de producción, es decir con y = f (z) y y ′ = f (z ′ ). Pero en ese caso,
f (λz + (1 − λ)z ′ ) ≥ λf (z) + (1 − λ)f (z ′ ) por deﬁnición de función de produc-
ción. Como esta última desigualdad también se cumple (trivialmente) para
λ = 1 y λ = 0, la función de producción es cóncava.
Por otro lado, supongamos que la función de producción es cóncava y sean
(y, −z), (y ′ , −z ′ ) ∈ Y , λ ∈ (0, 1). Por deﬁnición de concavidad y de la
función de producción, sabemos que

f (λz + (1 − λ)z ′ ) ≥ λf (z) + (1 − λ)f (z ′ ) ≥ λy + (1 − λ)y ′ ≥ 0;

por lo tanto, λ(y, −z) + (1 − λ)(y ′ , −z ′ ) ∈ Y ; es decir, Y es convexo.

Así, de los teoremas 16 y 18, obtenemos, inmediatamente, el siguiente re-
sultado:

Corolario 1.
Si la función de producción f (·) asociada al conjunto de producción Y es
cóncava y satisface f (0) = 0, entonces Y tiene rendimientos decrecientes a
escala.

Después de estudiar el concepto de escala en conjuntos de producción, nos

corresponde analizar este mismo concepto para funciones de producción,
y relacionarlo con la noción de concavidad de estas. Comencemos por las
deﬁniciones básicas:

Definición 9. [Rendimientos a escala (II)]

Sea f : D → R, donde D ⊆ R ó D ⊆ R2 , una función tal que si x ∈ D se
tiene que λx ∈ D para todo λ ≥ 0. Entonces diremos que f (·):

a) Tiene rendimientos decrecientes a escala si, y sólo si, para todo λ ≥ 1,

f (λx) ≤ λf (x)
1.6. Contexto económico 41

b) Tiene rendimientos constantes a escala si, y sólo si, para todo λ ≥ 0,

f (λx) = λf (x)

c) Tiene rendimientos crecientes a escala si, y sólo si, para todo λ ≥ 1,

f (λx) ≥ λf (x)

De la deﬁnición 9 es inmediato el siguiente resultado:

Teorema 19.
Sea f : D → R, donde D ⊆ R o D ⊆ R2 , una función de producción
tal que si x ∈ D se tiene que λx ∈ D para todo λ ≥ 0; entonces, f (·)
tiene rendimientos constantes a escala si, y sólo si, f (·) tiene rendimientos
crecientes y decrecientes a escala.
Ejemplo 12.
Veamos un par de ejemplos de funciones de producción y sus rendimientos
a escala:
a) La función de producción f (x) = ln(x+1) para x ≥ 0, tiene rendimientos
decrecientes a escala pues ln(λx + 1) ≤ λ ln(x + 1) para cualquier λ ≥ 1.
En efecto: la anterior desigualdad es equivalente a (x + 1)λ ≥ λx + 1, que
es una consecuencia directa del teorema binomial de Newton estudiado
en el curso de cálculo diferencial.

b) La función de producción f (x) = ex para x ≥ 2 tiene rendimientos

crecientes a escala pues eλx ≥ λ(ex ) conduce, cuando λ 6= 1, a que
1 1
x ≥ ln(λ) λ−1 , y esto es cierto ya que 2 ≥ ln(λ λ−1 ) para todo λ > 1. La
1
diﬁcultad, aquí, radica en que si 0 ≤ x < 2 entonces x ≥ ln λ λ−1 puede
no tenerse para algunos λ’s. N

Y ahora relacionamos los rendimientos a escala en los conjuntos de produc-

ción con los rendimientos a escala en las funciones de producción mediante
el siguiente importante teorema:
Teorema 20.
Sea Y ⊆ Rn un conjunto de producción de una tecnología que produce un
n−1
único bien y (ye), utilizando insumos z ∈ R+ ; y sean, además,
n−1
Z = {z ∈ R+ | (y, −z) ∈ Y }

y f : Z → R la función de producción asociada a Y . Entonces:

42 Capítulo 1. Funciones cóncavas y cuasicóncavas

a) f (·) tiene rendimientos crecientes a escala si, y sólo si, Y tiene rendi-
mientos crecientes a escala.

b) f (·) tiene rendimientos constantes a escala si, y sólo si, Y tiene rendi-
mientos constantes a escala.

c) f (·) tiene rendimientos decrecientes a escala si, y sólo si, Y tiene rendi-
mientos decrecientes a escala.

Demostración.
Claramente, Y = {(y, −z) ∈ Rn | y ≤ f (z)}. Luego:

a) Supongamos que f (·) tiene rendimientos crecientes a escala, y que

(y, −z) ∈ Y ; probemos, entonces, que también λ(y, −z) ∈ Y para λ ≥ 1.
En efecto, como (y, −z) ∈ Y , entonces y ≤ f (z) y, por tanto, λy ≤ λf (z)
para todo λ ≥ 0. Pero como λf (z) ≤ f (λz) para todo λ ≥ 1 por hipó-
tesis, entonces λy ≤ f (λz) y esto signiﬁca que λ(y, −z) ∈ Y para todo
λ ≥ 1. Por otro lado, si suponemos que Y tiene rendimientos crecientes
a escala, entonces λ(f (z), −z) ∈ Y para todo λ ≥ 1. Pero por deﬁnición
de función de producción, f (λz) ≥ λf (z).

b) Supongamos que f (·) tiene rendimientos constantes a escala y, además,

sea (y, −z) ∈ Y ; entonces probemos que también λ(y, −z) ∈ Y para
todo λ ≥ 0. En efecto, como (y, −z) ∈ Y , entonces y ≤ f (z) y, por tanto,
λy ≤ λf (z) para todo λ ≥ 0. Pero como λf (z) = f (λz) para todo λ ≥ 1
por hipótesis, entonces λy ≤ f (λz) y esto signiﬁca que λ(y, −z) ∈ Y
para λ ≥ 1. Si 0 ≤ λ ≤ 1, entonces λ1 f (λz) = f ( λ1 λz) = f (z), por lo
tanto, λf (z) = f (λz) y, así, λy ≤ f (λz) para todo 0 ≤ λ ≤ 1. Por
esto, λ(y, −z) ∈ Y para todo λ ≥ 0. Por otro lado, si suponemos que
Y tiene rendimientos constantes a escala, entonces para todo λ ≥ 0 si
(f (z), −z) ∈ Y , tendremos λ(f (z), −z) ∈ Y ; es decir, λf (z) ≤ f (λz);
luego, λ1 f (λz) ≤ f ( λ1 λz); es decir, λf (z) ≥ f (λz); de lo cual, λf (z) =
f (λz) para todo λ ≥ 1.

c) Supongamos que f (·) tiene rendimientos decrecientes a escala, y sea

(y, −z) ∈ Y . Probemos que λ(y, −z) ∈ Y para todo 0 ≤ λ ≤ 1. Por
deﬁnición, λy ≤ λf (z); y, por hipótesis, tenemos que f ( λ1 λz) ≤ λ1 f (λz);
por lo tanto, λy ≤ λf (z) ≤ f (λz) para todo 0 ≤ λ ≤ 1. Por otro lado, si
Y tiene rendimientos decrecientes a escala, entonces λ1 f (λz) ≤ f ( λ1 λz)
para todo λ ≥ 1, por lo cual, f (λz) ≤ λf (z) para todo λ ≥ 1.

Y el siguiente es uno de los resultados centrales de esta sección.

1.6. Contexto económico 43

Teorema 21. (Concavidad ⇒ rendimientos decrecientes a escala)

Sea f : D → R una función de producción y f (0) = 0. Si f (·) es cóncava
entonces f (·) tiene rendimientos decrecientes a escala.

Demostración.
Es consecuencia directa del corolario 1 y del teorema 20.

Nota 5. (Mitos en la teoría básica de la producción)

Aunque la concavidad de la función de producción (con f (0) = 0) implica
rendimientos decrecientes a escala, la relación entre las nociones de ren-
dimientos a escala y concavidad-convexidad no es inmediata. Invitamos al
lector a dar ejemplos que ilustren las siguientes aﬁrmaciones:

a) Los rendimientos decrecientes a escala de una función de producción, no

implican su concavidad. [Sugerencia: f (x) = e−x para x ≥ 0]

b) La convexidad de la función de producción no implica un tipo particular

de rendimientos a escala. [Sugerencia: f (x) = ex para x ≥ 0]

c) Los rendimientos crecientes a escala de una función de producción no im-

plican su convexidad. [Sugerencia: una función Cobb-Douglas con suma
de exponentes mayor que 1 podría servir (ejemplo 6)]

1.6.3. Concavidad-convexidad en la teoría del consumo

En la década de 1930, los economistas consideraban que la teoría de la
utilidad mostraba señales de esterilidad, pero su resurgimiento vino de la
mano de Hicks & Allen (1934) con su teoría ordinal de la satisfacción. A
su vez, una de las principales preocupaciones de las décadas de 1940 y de
1950 se centraba alrededor de los problemas fundacionales que conlleva la
teoría de la elección bajo una función de utilidad; en particular, sobre qué
comportamientos básicos de un consumidor dan origen a que sus elecciones
se realicen de tal forma que pareciera que estuvieran regidos por una función
de utilidad. Las respuestas a esta pregunta provinieron de varios frentes.
Quizá el primero en discernir sobre esto fue un matemático del grupo Bour-
baki (1939): Samuel Eilenberg, en 1941. Pero fueron von Neumann y Mor-
genstern (1944), basándose en el trabajo de Eilenberg, quienes darían las
primeras condiciones sobre preferencias de un consumidor, para que este
eligiera bajo una función de utilidad. A este trabajo le siguieron clariﬁca-
ciones y simpliﬁcaciones que darían forma a lo que hoy conocemos como
los fundamentos de la teoría del consumidor y, en general, de la elección.
44 Capítulo 1. Funciones cóncavas y cuasicóncavas

Entre ellos, aparecen Arrow (1951a; 1951b), Herstein & Milnor (1953), De-
breu (1954) y, de forma importante e inﬂuyente, Savage (1954), quien en
The Foundations of Statistics señalaría con claridad los axiomas que pro-
ducen distribuciones de probabilidad subjetivas y, así, funciones de utilidad
esperada.

[Link]. Sobre la existencia de una función de utilidad

a) En primer lugar, asumimos que todo consumidor selecciona sus planes
(o canastas) de consumo dentro del espacio cartesiano de mercancías de-
ﬁnido por el conjunto Rn+ = {x ∈ Rn | x ≥ 0} donde n es el número
de mercancías disponibles en el mercado. Notamos a este conjunto, lla-
mado conjunto de consumo del consumidor, mediante X, y asumiremos
entonces que este es un subconjunto no-vacío, cerrado y convexo de Rn+ .

b) En segundo lugar, asumimos también que este consumidor tiene un cri-

terio de selección entre los diversos planes de consumo en X, que está
estructurado de la siguiente forma:

Dados dos planes de consumo x1 , x2 ∈ X, estos son siempre comparables

mediante cierta relación deﬁnida sobre X, la cual notamos 4, tal que

x1 4 x2 ó x2 4 x1 (*)

La primera relación se lee como x1 es a lo más tan deseado como x2 ; y

la segunda se lee x2 es a lo más tan deseado como x1 .

Para que opere como una relación de preferencia, además de asumir

que es una relación completa (es decir, que cualesquiera dos planes de
consumo sean comparables a la manera de (*)); también asumimos que
4 es reﬂexiva (es decir, x1 4 x1 para todo x1 ∈ X) y que es transitiva (es
decir, si x1 4 x2 y x2 4 x3 , entonces x1 4 x3 para todo x1 , x2 , x3 ∈ X).
Todos estos supuestos hacen de 4 un preorden completo sobre X.

Además, si sucede que x1 4 x2 y x2 4 x1 , entonces diremos que los

planes x1 y x2 son indiferentes, y escribimos x1 ∼ x2 . Y si se da el
caso que x1 4 x2 pero no que x2 4 x1 , entonces diremos que x2 es
(estrictamente) preferido a x1 , y lo notaremos por x1 ≺ x2 , o bien x2 ≻
x1 . Puede observarse que la relación deﬁnida sobre X por ∼ (llamada
relación de indiferencia) es reﬂexiva, transitiva y, además, simétrica (es
decir, x1 ∼ x2 implica x2 ∼ x1 para todo x1 , x2 ∈ X); por tanto, es
una relación de equivalencia sobre X que genera clases disyuntas de
1.6. Contexto económico 45

equivalencia: para un x1 ∈ X ﬁjo, su clase de equivalencia, que en este

contexto llamaremos una clase de indiferencia (Edgeworth, 1881), es el
conjunto
[x1 ] = {x ∈ X | x ∼ x1 }
Así, un plan de consumo x ∈ X cualquiera, pertenece a su clase de
indiferencia, y a ninguna otra. En otras palabras, se ha “particionado”
el conjunto de consumo X en clases disjuntas de indiferencia, como se
muestra en la ﬁgura 1.20.

bien 2

x1 [x1 ] =
• clase de
indiferencia
de la
canasta x1

bien 1
Figura 1.20. Clases de indiferencia sobre R2+ .

c) Ahora que hemos partido el conjunto de consumo en clases disjuntas de

indiferencia a través de la relación ordinal 4 sobre los planes de consu-
mo, la pregunta es: ¿será posible asociar, con cada clase de indiferencia,
un número, de tal forma que si las canastas en una clase son todas pre-
feridas a las canastas en otra clase, el número asociado a la primera será
mayor que el número asociado a la segunda? En otras palabras, dado
un preorden completo sobre el conjunto de consumo X, ¿existirá una
función creciente u : X → R tal que u(x1 ) ≤ u(x2 ) si, y sólo si, x1 4 x2 ;
y u(x1 ) = u(x2 ) si, y sólo si, x1 ∼ x2 ? La existencia de una función
cardinal de utilidad para la relación ordinal dada, no puede asegurarse
siempre. Es importante una hipótesis adicional que, además, garantice
que la función de utilidad sea “analíticamente dúctil”, es decir, que sea
continua.
Para aﬁnar nuestra discusión establezcamos entonces lo que entendere-
mos por función de utilidad:
Definición 10. (Función de utilidad)
Una función de utilidad (continua) sobre el conjunto de consumo X
preordenado por 4 es una función continua u : X → R tal que
46 Capítulo 1. Funciones cóncavas y cuasicóncavas

a) x1 4 x2 si, y sólo si, u(x1 ) ≤ u(x2 ).

b) x1 ∼ x2 si, y sólo si, u(x1 ) = u(x2 ).

Con esta deﬁnición tenemos el siguiente teorema:

Teorema 22. [Existencia de la función de utilidad (Eilenberg,
1941)]
Si para todo x1 ∈ X, los conjuntos
{x ∈ X | x 4 x1 } ; {x ∈ X | x < x1 } (*)
son cerrados en Rn+ , entonces existe una función de utilidad sobre el
conjunto X preordenado por 4.

Demostración.
Ver Debreu (1959).
Nota 6. (Orden lexicográfico)
Un ejemplo de preorden completo que no puede representarse mediante
una función de utilidad es el orden lexicográfico12 en R2+ . Este es, por
definición, (a, b) ≺ (a′ , b′ ) si (i) a < a′ ó (ii) a = a′ y b < b′ . Veamos
esto más claramente: supongamos que u(·) es una función de utilidad que
representa las preferencias lexicográficas. Entonces, para cada x1 , x2 ∈
R+ con x1 > x2 , se tiene que
u(x1 , 2) > u(x1 , 1) > u(x2 , 2) > u(x2 , 1)
Además, para cada x ∈ R+ podemos encontrar un racional r(x) tal que
u(x, 2) > r(x) > u(x, 1)13 . Así, se tiene que si x1 > x2 entonces
r(x1 ) > u(x1 , 1) > u(x2 , 2) > r(x2 )
y, por lo tanto, la función r(x) así definida de los reales a los racionales
se ha construido de tal manera que es uno-a-uno (pues es estrictamente
creciente). Pero esto es una contradicción, ya que la cardinalidad de los
números reales R es mayor que la de los números racionales Q [14] . Un
ejercicio para el lector es probar que los conjuntos (*) en el teorema 22,
no son cerrados en R2+ .
12
Es decir, el orden del diccionario.
13
Esta es una aplicación de la propiedad de densidad de los números racionales Q. Es
decir, que dados cualquier par de números reales x, y con x < y existe un número racional
z tal que x < z < y.
14
Este es un resultado de la teoría básica de conjuntos. Afirma que el conjunto de los
números racionales Q puede colocarse en una lista, es decir, es contable. Pero que esto no
es posible con los números reales. Por ello el cardinal de R es mayor que el cardinal de Q.
1.6. Contexto económico 47

[Link]. Sobre la convexidad de las preferencias

Por razones de índole más matemática que económica, se asumen ciertas
características de convexidad sobre las preferencias. Quizás algunas de ellas
estén asociadas a la tendencia humana a “mezclar” en el consumo: al fin y al
cabo, difícilmente podemos consumir únicamente de un producto. Veamos,
entonces, cuáles son esas propiedades.
Definición 11. (Convexidad de las preferencias)
Sean x1 , x2 ∈ X con x1 6= x2 , para λ ∈ (0, 1),
a) Si x2 < x1 , entonces λx2 +(1−λ)x1 < x1 (convexidad débil de 4) (figura
1.21a)).
b) Si x2 ≻ x1 , entonces λx2 + (1 − λ)x1 ≻ x1 (convexidad de 4) (figura
1.21b)).
c) Si x2 ∼ x1 , entonces λx2 + (1 − λ)x1 ≻ x1 (convexidad estricta de 4)
(figura 1.21c)).
Teorema 23.
Si para todo x1 ∈ X los conjuntos
{x ∈ X | x 4 x1 }, ; {x ∈ X | x < x1 }
son cerrados, entonces para la relación de preferencia 4 se cumple que:
convexidad estricta =⇒ convexidad =⇒ convexidad débil
Demostración.
Ver Debreu (1959).

bien 2 bien 2 bien 2

x2
x2
x2

x1
x1 x1
bien 1 bien 1 bien 1
a) b) c)

Figura 1.21. En el panel a) unas preferencias 4 con convexidad débil. En el panel b) unas
preferencias 4 convexas. En el panel c) unas preferencias 4 con convexidad estricta.
48 Capítulo 1. Funciones cóncavas y cuasicóncavas

Y, ﬁnalmente, conectamos los conceptos de convexidad de las preferencias

con una noción ya familiar para nosotros: la de cuasiconcavidad de la función
de utilidad.

Teorema 24. (Convexidad de preferencias y cuasiconcavidad)

Sea u(·) una función de utilidad para 4 (cuya existencia esté garantizada
por las condiciones del teorema 22); entonces:

a) 4 es convexa débil si, y sólo si, u(·) es cuasicóncava.

b) 4 es convexa estricta si, y sólo si, u(·) es cuasicóncava estricta.

Demostración.

a) Supongamos que 4 es convexa débil; entonces x < y implica λx+(1−λ)y

< y. Como u(·) es función de utilidad, de estas dos relaciones se tiene
que u(x) ≥ u(y) implica u(λx + (1 − λ)y) ≥ u(y) = Mín{u(x), u(y)}.
Por tanto, u(·) es cuasicóncava. Por otro lado, si suponemos que u(·)
es cuasicóncava, entonces u(λx + (1 − λ)y) ≥ Mín{u(x), u(y)}. Y, así,
u(y) ≤ u(x) implica u(λx + (1 − λ)y) ≥ u(y) y como u(·) es función de
utilidad, esto equivale a que y 4 x implica λx + (1 − λ)y < y.

b) Es similar a a).

Notemos el signiﬁcado económico de la hipótesis de cuasiconcavidad estricta.

Ya habíamos observado que toda función cuasicóncava estricta u(x) tiene la
propiedad de que si u(x) = α y u(y) = α, donde x, y ∈ R2 , y α > 0, entonces
u(λx + (1 − λ)y) > α, λ ∈ (0, 1); es decir, cualquier combinación estricta
de los planes de consumo x, y es siempre mejor (en términos del nivel de
utilidad) que cualquiera de los dos planes x, y. Esto podría llevarnos a pensar
en que un consumidor con una función de utilidad cuasicóncava es aquel que
no se especializa en ningún tipo de producto: siempre preﬁere combinar. De
hecho, un carro de supermercado cargado con múltiples productos describe
tal comportamiento de consumo.

[Link]. Breve nota sobre la función de utilidad esperada

Ya hemos visto cómo se modela la elección de los consumidores y producto-
res cuando estos tienen plena certidumbre sobre los efectos de las acciones
que toman. Vamos ahora a analizar cómo un agente racional puede tomar
decisiones bajo riesgo. Para entender el tipo de problemas al que nos en-
frentamos, supongamos que se nos ofrece la oportunidad de participar en el
1.6. Contexto económico 49

siguiente juego de azar: se lanza una moneda (que suponemos no está car-
gada) hasta que salga una cara, y si esto ocurre en el n-ésimo lanzamiento,
se nos promete un pago de 2n−1 monedas. ¿Cuánto estaríamos dispuestos
a pagar para participar en tal juego? Sabemos que el “valor actuarial” del
juego es igual al valor esperado de los pagos del mismo; es decir,
∞ n
X ∞ n
1 1X 1
· 2n−1 = · 2n =
i=1
2 2 i=1 2

1
(1/2) · 2 + (1/4)22 + (1/8)23 + · · · = ∞
2

Por lo tanto, si valoramos el juego por su valor actuarial, deberíamos estar

dispuestos a pagar cualquier cantidad ﬁnita de dinero para tener el derecho
a jugar. Sin embargo, un poco de introspección nos deja ver que, en general,
nadie estará dispuesto a pagar más allá de cierta cantidad ﬁnita determina-
da. Esta es precisamente, la ya mencionada Paradoja de San Petersburgo,
debido a que contravenía lo que en esa época se creía era una forma correcta
de valorar una acción riesgosa. Así, la Paradoja de San Petersburgo mos-
traba que el valor actuarial no era siempre una guía del comportamiento de
los agentes en situaciones de riesgo.
Una propuesta para solucionar esta paradoja fue presentada por Daniel
Bernoulli (1738) y Gabriel Cramer (1750). Ellos proponían que los agentes
podrían valorar este tipo de situaciones utilizando lo que Bernoulli denomi-
nó expectativas morales, que puede interpretarse como la utilidad esperada
(u(x)) del dinero (x) para el agente, y que en el caso de este juego es la
expectativa
∞ n
X 1
E(u) = u(2n−1 ) = (1/2)u(1) + (1/2)u(2)+
i=1
2

(1/4)u(22 ) + (1/8)u(23 ) + ...

Tal como lo hizo Bernoulli, si se supone que u(x) = α ln x para cierto α > 0,
entonces E(u) < ∞, pues, por el criterio de la razón para series inﬁnitas
–ver volumen I (Álgebra lineal y cálculo en varias variables)–, se tiene que
n+1
1
n ln 2
2 1 n 1
lı́m = lı́m = <1
n→∞ 1 n n→∞ 2 n−1 2
(n − 1) ln 2
2
50 Capítulo 1. Funciones cóncavas y cuasicóncavas

Más aún: se puede mostrar (¿podría hacerlo el lector?), que si la utili-

dad marginal es decreciente, entonces en este juego siempre se tiene que
E(u) < ∞, quedando así “resuelta” la paradoja.
La teoría de Cramer y Bernoulli ha sido incorporada como una de las prin-
cipales formas de modelar la elección de agentes bajo incertidumbre, y se
conoce como la teoría de la utilidad esperada (con probabilidades objetivas),
que fuera axiomatizada por primera vez por von Neumann and Oskar Mor-
genstern (1944) –y, posteriormente, por el mismo Savage (1954)–. No obs-
tante, experiementos pioneros tales como los de Allais (1952), Raiﬀa (1968)
y Slovic & Tversky (1974) mostraron que los agentes no se comportan co-
mo si maximizaran una función de utilidad esperada tipo von Neumann &
Morgenstern, y por ello desde hace ya varias décadas se vienen desarrollan-
do modelos experimentales (por ejemplo, en economía del comportamiento
(behavioral economics) que buscan sustento teórico al comportamiento hu-
mano en complejos procesos de elección –ver, por ejemplo, Machina (1983);
Hey & Orme (1994), Kahneman & Tversky (eds.) (2000), Kahneman et al
(2011)–).

1.6.4. Breve nota sobre no-convexidades

La teoría económica neoclásica, como quizás el lector lo haya percibido, se
basa principalmente en la hipótesis de rendimientos a escala decrecientes o
constantes. Pero claramente, los rendimientos crecientes a escala sí existen
en las economías reales. De hecho, existe un volumen apreciable de literatu-
ra sobre estos mecanismos que data, por lo menos, de los tiempos de Alfred
Marshall (1890). La teoría del comercio internacional, la economía del desa-
rrollo, la economía regional, la economía de alta tecnología, entre otros, son
casos en los que estas teorías se aplican con relativo éxito. A estos mecanis-
mos se les conoce con distintos nombres: rendimientos crecientes, causalidad
acumulativa, círculos virtuosos, no convexidades, efectos de trifurcación, etc.
Los orígenes varían: costos ﬁjos muy altos, efectos de aprendizaje, efectos
de coordinación, efectos de expectativas, efectos de red, entre otros.
Un ejemplo notable de rendimientos crecientes son los productos con al-
ta tecnología implicada, donde los costos de investigación y diseño son muy
altos, donde los procesos de producción pueden mejorarse a través de apren-
dizaje y donde pertenecer a una red de estándares tecnológicos es fundamen-
tal. Sin duda, las economías de alta tecnología son economías en las que los
mecanismos de rendimientos crecientes surgen muy naturalmente, pero no
los de rendimientos decrecientes.
Ejercicios complementarios 51

Sin embargo, la diﬁcultad consiste en que la teoría económica moderna tie-

ne un desarrollo sesgado hacia las técnicas que se adaptan bien con los
rendimientos decrecientes. Normalmente, los modelos que implican no con-
vexidades obligan tratamientos formales mucho más sutiles, complicados y
hechos a la medida de la situación a la mano. No existe aún una “caja de
herramientas” para estos modelos, aunque la teoría de juegos (clásica y no
clásica), junto con las técnicas de dinámica cualitativa y teoría de la pro-
babilidad, han comenzado a abrir el espacio. Este es parte del reto para los
años que vienen. Al ﬁnal, lo que debe entenderse es que el fenómeno de los
rendimientos crecientes a escala no es una “anomalía” de la teoría económica
estándar, sino un complemento (Arthur, 1994; 2009).

Ejercicios complementarios
(Observación: Los ejercicios señalados con uno (*) o dos asteriscos (**)
tienen, a juicio de los autores, un nivel de diﬁcultad un tanto o muy superior,
con respecto a los ejercicios corrientes que aparecen sin asterisco.
1. Indique una función cuasicóncava que no sea monótona (creciente o
decreciente).
2. Pruebe que toda función convexa y cóncava es un hiperplano que no
necesariamente pasa por el origen.
3. ¿Será que toda función cuasiconvexa y cuasicóncava es entonces un
hiperplano que no necesariamente pasa por el origen?
4. Pruebe que si f (·) y g(·) son convexas (cóncavas) en C, entonces
también Máx{f (·), g(·)} es convexa (cóncava) en C. ¿Qué pasa con
Mín{f (·), g(·)}?
5. Analice cuáles de las siguientes funciones son cóncavas (estrictas), con-
vexas (estrictas), cuasicóncavas (estrictas), cuasiconvexas (estrictas):
a) f (x, y) = xα + βy α ; α > 0; 0 < β < 1; x, y > 0
b) f (x, y) = x + ln y; x, y > 1
c) f (x, y) = 3xy − y 3 + 1
d) f (x, y) = 3x2 + y 2 − 1
6. Si (
x2 si x < 0
f (x) =
ln(x + 1) si x ≥ 0
52 Capítulo 1. Funciones cóncavas y cuasicóncavas

¿Será f (·) cóncava (estricta)? ¿convexa (estricta)? ¿cuasicóncava (es-

tricta)? ¿cuasiconvexa (estricta)?

7. Pruebe que (
2 si x 6= 0
f (x) =
0 si x = 0
es cuasiconvexa. ¿Será estrictamente cuasiconvexa? ¿Será convexa?

8. Se conoce la función CES

1
f (x, y) = A [αxρ + βy ρ ] ρ

(donde x, y ≥ 0, α, β ≥ 0, −∞ < ρ ≤ 1, ρ 6= 0, A > 0) como

función de utilidad y de producción. ¿Bajo qué condiciones es cóncava
(estricta), convexa (estricta), cuasicóncava (estricta) o cuasiconvexa
(estricta) esta función?

9. La función CRRA
 1−γ
x
 −1
si γ 6= 1
f (x) = 1−γ

ln x si γ = 1

con x > 0, γ > 0, al igual que la función CARA

e−αx
f (x) = −
α
con x > 0, α > 0, también son estudiadas como funciones de utilidad.
¿Bajo qué condiciones son estas funciones cóncavas (estrictas), conve-
xas (estrictas), cuasicóncavas (estrictas) y cuasiconvexas (estrictas)?

10. Utilizando el teorema 7, encuentre el valor máximo de la función

P (x, y) = −x2 − y 2 + 22x + 18y − 102, para x > 0, y > 0.

11. ¿Será cierta, falsa o incierta la siguiente aﬁrmación?: “Puesto que la

suma de dos funciones cóncavas es una función cóncava, entonces la
fusión de dos empresas con rendimientos decrecientes a escala debe
resultar en otra, también con rendimientos decrecientes a escala”. Ex-
plique.

12. (*) El teorema 11e) asegura, en particular, que si f (·) es cóncava y F (·)
estrictamente creciente, entonces (F ◦ f )(·) es cuasicóncava. Muestre
Ejercicios complementarios 53

que si f (·) es cóncava y F (·) es monótona cualquiera, entonces (F ◦f )(·)

es cuasicóncava. [Sin embargo, Kenneth J. Arrow & Alain C. Entho-
ven (1961) construyen un ejemplo en el que la aﬁrmación recíproca de
1
este teorema no es cierta: h(x, y) = (x − 1) + (1 − x)2 + 4(x + y) 2 es
cuasicóncava, pero no es la transformación monótona de ninguna fun-
ción cóncava (mostrar esto último podría ser un reto aún para el lector
aventajado y por ello recomendamos consultar la cita bibliográﬁca)].

13. a) ¿Será que un punto crítico de una función cuasicóncava es un má-

ximo global?
b) ¿Será que un máximo local de una función cuasicóncava es un má-
ximo global? [Sugerencia: Tome f (x) = [[x]] ]15 ¿Y si la función es
cuasicóncava estricta?

14. En R2 construya conjuntos de producción:

a) Convexos.
b) No convexos.
c) Con rendimientos decrecientes a escala.
d) Con rendimientos constantes a escala.
e) Con rendimientos crecientes a escala.

15. Existen ciertas funciones de producción para las cuales podemos ca-
racterizar fácilmente el tipo de rendimientos a escala que presentan;
estas se conocen como funciones homogéneas . Recordemos que una
función f : D → R es homogénea (de grado α) si, y sólo si, existe un
α ∈ R+ tal que
f (tx) = tα f (x)

donde, para todo t > 0 y x ∈ D, se tiene que tx ∈ D. Algunos ejemplos

de funciones homogéneas son:
√
a) Si f (x) = x, x ≥ 0, entonces
√ √√ 1
f (tx) = tx = t x = t 2 f (x)

para todo t > 0. Así, f (·) es homogénea de grado 1/2.

15
[[x]] es la parte entera de x.
54 Capítulo 1. Funciones cóncavas y cuasicóncavas

b) Otro ejemplo es la función lineal f (x, y) = x + y, x, y ∈ R; aquí,

f (tx, ty) = tx + ty = t(x + y) = tf (x, y)

para todo t > 0. Así, f (·, ·) es homogénea de grado 1.

c) Ahora consideremos la función f (x, y) = xy, x, y ∈ R; aquí,

f (tx, ty) = (tx)(ty) = t2 xy = t2 f (x, y)

para todo t > 0. Así, f (·, ·) es homogénea de grado 2.

x
d) Finalmente, consideremos la función f (x, y) = , x, y ∈ R, y 6= 0;
y
aquí,
tx x
f (tx, ty) = = = f (x, y)
ty y
para todo t > 0 y, así, f (·, ·) es homogénea de grado 0.
e) Quizás no sobre advertir que no todas las funciones son homogé-
neas. Tomemos, por ejemplo, la función ln x. ¿Podría el lector dar
otro ejemplo?

Asuma f : D → R+ con D ⊆ R+ ó D ⊆ R2+ no-vacíos, y pruebe que:

a) Si f (·) es homogénea de grado α con 0 < α < 1, entonces f (·) tiene

rendimientos decrecientes a escala.
b) Si f (·) es homogénea de grado α = 1, entonces f (·) tiene rendi-
mientos constantes a escala.
c) Si f (·) es homogénea de grado α > 1, entonces f (·) tiene rendi-
mientos crecientes a escala.

16. Para las siguientes funciones, determine si son homogéneas y, en caso

de que lo sean, su grado de homogeneidad:

a) f (x) = ln x b) f (x) = (x + 3)2

c) f (x, y) = x/y d) f (x, y) = (x + y)2

x2 f) f (x, y) = ex+y
e) f (x, y) = + xy
5
17. Para las siguientes funciones, si es posible, determine el tipo de rendi-
mientos a escala que presentan; si lo considera necesario, en cada caso
restrinja el dominio donde se presenta el tipo de rendimiento:
Ejercicios complementarios 55

1
a) f (x) = ln(x + 1) b) f (x) = x n con n ∈ N.

c) f (x) = x2 d) f (x, y) = x + y

e) f (x, y) = xy f) f (x) = 1 − e−x

18. ¿Será que si una función de producción es convexa y f (0) = 0, entonces

tiene rendimientos crecientes a escala?

19. ¿Será que los rendimientos marginales decrecientes implican o son im-
plicados por los rendimientos a escala decrecientes?

20. (*) Muestre que si C ⊆ Rn+ es un cono convexo y f : C → R es

homogénea de grado 1 y cuasicóncava, entonces f (·) es, de hecho,
cóncava.

21. a) Una “explicación” intuitiva sobre por qué la suma de dos funciones
cuasicóncavas no necesariamente es cuasicóncava se encuentra en
la teoría del consumidor. Si dos consumidores prefieren (cada uno
independientemente) la combinación a la especialización cuando
estos dos consumidores hacen sus compras como un único agen-
te, podría ser que se especializaran en algún tipo de producto. El
ejemplo de la pareja donde a la muchacha le gusta sólo el pollo y
el queso en su pizza, pero al muchacho sólo le gusta el pollo y los
champiñones, los obligaría, en caso de cenar juntos, a escoger la
pizza sólo con pollo, muestra bien lo que queremos explicar. Aún
así, cabe mencionar que en ningún caso afirmamos que la función
agregada de utilidad sea siempre la suma de las funciones de utili-
dad de cada uno de los agentes. Sólo que este ejemplo justifica el
resultado cuando esto sí pueda tenerse. ¿Podría el lector dar otro
ejemplo que ilustre el punto anterior?
b) En 1982, los ganadores del Premio Nobel de economía, Gerard De-
breu (ganador en 1983) y Tjalling Koopmans (ganador en 1975),
presentaron el siguiente resultado. Si f = f1 + f2 es cuasicóncava
en C, donde f1 y f2 son dos funciones no constantes, entonces algu-
na de las dos funciones es cóncava estricta en C. ¿Cómo podemos
aplicar esto al problema de agregación de la teoría del consumidor?
La generalización a n funciones f1 , f2 , . . . , fn , todas ellas no cons-
tantes, es que si f = f1 +f2 +· · ·+fn es cuasicóncava, entonces a lo
más una de ellas no es cóncava estricta. ¿Podríamos decir, a partir
de esto, algo acerca de los mecanismos de consumo en general?
56 Capítulo 1. Funciones cóncavas y cuasicóncavas

22. Considere las siguientes hipótesis sobre una familia de conjuntos de

producción {Yj }nj=1 y del conjunto de producción agregado de la eco-
P
nomía, Y = nj=1 Yj :

i) Yj es cerrado
ii) Y es cerrado
iii) 0 ∈ Yj , 0 ∈ Y (posibilidad de no acción)
iv) Y ∩ (R+ ) = 0 (imposibilidad de producción gratuita)
v) Y ∩ (−Y ) = {0} (irreversibilidad)
vi) Yj + Yj ⊆ Yj (aditividad)
vii) Yj es convexo.
viii) −Rn+ ⊆ Y (libre disponibilidad de insumos)

a) Interprete económicamente cada una de las anteriores aﬁrmaciones.

b) (∗) Pruebe que si se cumple la condición de convexidad para Y ,
este es cerrado, y se satisface la condición de libre disponibilidad
(VIII) arriba), entonces Y − Rn+ ⊆ Y (Debreu, 1959). Interprete el
signiﬁcado económico de este resultado.

23. Pruebe que, para x1 ∈ R2+ ﬁjo, los conjuntos

{x ∈ R2+ | x 4 x1 } ; {x ∈ R2+ | x < x1 }

para el orden lexicográﬁco, no son cerrados en R2+ .

24. (**) [Demostración del teorema 1]. Este ejercicio, para el lector aven-
tajado, consiste en seguir cuidadosamente la demostración del teo-
rema 1: Sea x ∈ C cualquiera, y {xk }∞ k=0 tal que xk → x cuan-
do k → ∞. Además, sea ǫ > 0 y K tal que para todo k ≥ K,
||xk − x|| < ǫ (sabemos que tal K existe, ya que xk → x), y sea
también A = {y ∈ C | |y − x| = ǫ}. Entonces, para todo k ≥ K existen
yk ∈ A y λk ∈ [0, 1] tales que xk = λk x + (1 − λk )yk ; y dado que
xk → x y |yk − x| = ǫ, entonces λk → 1. Por la concavidad de f (·),

f (xk ) = f (λk x + (1 − λk )yk ) ≥ λk f (x) + (1 − λk )f (yk )

Ejercicios complementarios 57

y así
[ 16 ]
lı́m ı́nf f (xk ) ≥ f (x) (*)
k→∞

De manera similar, podemos elegir zk ∈ A y λk ∈ [0, 1] tales que

x = λk xk + (1 − λk )zk . Por un argumento similar, tenemos que

f (x) = f (λk xk + (1 − λk )zk ) ≥ λk f (xk ) + (1 − λk )f (zk )

de tal forma que

f (x) ≥ lı́m sup f (xk ) (**)
k→∞

De las dos desigualdades (*) y (**) se tiene que

lı́m ı́nf f (xk ) ≥ f (x) ≥ lı́m sup f (xk )

k→∞ k→∞

y sabiendo que

lı́m sup f (xk ) ≥ lı́m ı́nf f (xk )

k→∞ k→∞

se tiene, entonces, que

f (x) = lı́m sup f (xk ) = lı́m ı́nf f (xk )

k→∞ k→∞

y, por lo tanto, lı́mk→∞ f (xk ) = f (x) y, así, f (·) es continua en x.

16
Dada una sucesión de números reales {an }, supongamos que existe un número A tal
que: i) Para cada ǫ > 0 existe un entero N > 0 tal que n > N implica an < A + ǫ.
ii) Dados ǫ > 0 y m > 0 existe un entero n > m tal que an > A − ǫ. Entonces A se
llama el límite superior de {an }, lı́m supn→∞ an . El límite inferior de {an } se define como
lı́mı́nf n→∞ an = − lı́m supn→∞ −an .
Capítulo 2

Optimización estática

2.1. Introducción
En todas sus ramas, el análisis matemático proveyó a la física y a la tecno-
logía con potentes métodos para la solución de problemas de muchas clases.
Ya hemos visto surgir los dos primeros en cursos previos: encontrar la tasa
de cambio de una magnitud cuando sabemos cómo depende esta magnitud
del tiempo (derivada); y encontrar el área de ﬁguras curvilíneas y el volumen
de sólidos (la integral). Además de esto, el análisis matemático ha mostrado
métodos para encontrar el máximo y el mínimo de valores de una magnitud
bajo condiciones dadas. Con estas reglas, por ejemplo, es posible determinar
la forma de una cisterna cilíndrica que, para un volumen dado, tendrá la
superﬁcie más pequeña y, por tanto, requerirá de la mínima cantidad de
material para construirla: la cisterna debe igualar su altura al diámetro de
la base. Estos métodos también nos permiten determinar la forma de la
curva a lo largo de la cual un cuerpo debe rodar para caer, en el mínimo
tiempo posible, de un punto a otro (esta curva se llama la cicloide), y esto
lo estudiaremos más adelante.
Pero el análisis matemático no sólo nos entrega métodos para resolver pro-
blemas particulares. También nos da reglas generales para la formulación
matemática de “leyes” cuantitativas de las ciencias. Las leyes generales de
la mecánica no podrían formularse matemáticamente sin recurso a concep-
tos del análisis matemático, y sin tal formulación no seríamos capaces de

59
60 Capítulo 2. Optimización estática

resolver los problemas de la mecánica. En la misma forma, las leyes de la

conducción del calor, la propagación de la luz a través de distintos medios
físicos, las reacciones químicas, las leyes del electromagnetismo, y muchas
otras, simplemente no podrían tener una formulación matemática sin los
conceptos del análisis. Y es sólo como resultado de esta formulación, que
podemos aplicar estas leyes a una gran variedad de casos concretos.
La motivación para calcular máximos y mínimos es profunda, pues nume-
rosos fenómenos naturales muestran lo que se conoce como un principio de
mínima acción. Es corriente encontrar que la naturaleza, al llevar a cabo
una acción, utilice la mínima cantidad de energía necesaria para su ejecu-
ción. Por ejemplo, es común observar que la trayectoria de una partícula o
de una onda en movimiento se completa siguiendo la trayectoria más corta
o en el menor tiempo posible. O ambos.
Un famoso ejemplo de esta economía del comportamiento físico lo descubrió
Herón de Alejandría en el siglo I d.C. Él encontraba que la igualdad de los
ángulos de incidencia y reﬂexión formados por un rayo de luz que alcanza
a un espejo plano se debe a que sigue la trayectoria más corta posible. Mil
seiscientos años más tarde, Fermat mostraría que también un principio del
mínimo regía el proceso de refracción de la luz. Y otros ejemplos importantes
han surgido en mecánica, electrodinámica, relatividad y física cuántica.
La búsqueda de propiedades de máximo y mínimo ha jugado un papel im-
portante en el desarrollo de la ciencia moderna, e incluso se ha creído que,
para las leyes físicas, los principios del mínimo y del máximo son su acceso
natural, y hasta en ocasiones en la historia se ha buscado a través de ellos
el principio uniﬁcador de todas las ciencias.

2.2. Planteamiento del problema

Una típica (y muy común en la práctica) caracterización de problemas de
optimización es encontrar valores extremos de una función f (x, y) restrin-
gida a un subconjunto bien especiﬁcado de R2+ :

Maximizar f (x, y)
sujeta a g(x, y) ≥ 0 (KT)
x, y ≥ 0

donde f, g : R2+ → R son funciones diferenciables. Aquí a f (·, ·) se le conoce

como función objetivo, y a g(·, ·) como función restricción.
2.2 Planteamiento del problema 61

z = f (x, y)

y
g(x, y) ≥ 0

x
Figura 2.1. El problema de optimización.

A este problema lo llamaremos, en adelante, problema (KT) (ﬁgura 2.1),

por razones que entenderemos enseguida.
Ejemplo 1.
En el problema
Maximizar xy
sujeta a 3x + 4y ≤ 5
x, y ≥ 0

tenemos que f (x, y) = xy, y g(x, y) = 5 − 3x − 4y.

Ejemplo 2.
En el problema

Maximizar x+y
sujeta a x + y2 ≤ 1
2

x, y ≥ 0

tenemos que f (x, y) = x + y, y g(x, y) = 1 − x2 − y 2 . N

De manera semejante, los problemas de minimización de una función, sujeta
a una restricción funcionalmente bien especiﬁcada, también están conside-
rados de esta forma, puesto que el problema

Minimizar f (x, y)
sujeta a g(x, y) ≥ 0
x, y ≥ 0
62 Capítulo 2. Optimización estática

es equivalente al problema

Maximizar − f (x, y)
sujeta a g(x, y) ≥ 0
x, y ≥ 0

Ejercicios 1
1. En los siguientes ejercicios, identiﬁque f (x, y) y g(x, y) en la formula-
ción (KT):

a) b)
Minimizar (x−1)2 + y 2 Minimizar x2 − y 2
sujeta a y ≥ x2 + 1 sujeta a 3x + 4y ≥ 12
x, y ≥ 0 x, y ≥ 0

c) d)
Minimizar 3x+7y
Maximizar yex
3 3 3
sujeta a x +y ≥ (100) sujeta a 2x + 8y ≤ 50
x, y ≥ 0 x, y ≥ 0

e) f) 1 1
Minimizar 5x+2y Minimizar 3x 3 +5y 3
sujeta a 7x + 9y ≥ 15 sujeta a x+y ≥2
x, y ≥ 0 x, y ≥ 0

2.3. El teorema de Weierstrass

En el curso de cálculo diferencial 1 , se establece que si f : [a, b] → R es una
función continua, entonces esta alcanza un valor máximo y un valor mínimo,
ambos globales (ﬁgura 2.2). Este teorema, fundamental en la teoría de la
optimización de funciones de una sola variable, se puede generalizar así:

Teorema 1. (Teorema de Weierstrass)

Si f : S → R, con S ⊆ R2 compacto (es decir, cerrado y acotado), es
continua, entonces alcanza un valor máximo y uno mínimo, ambos globales.
1
Ver, por ejemplo, Monsalve (ed.), 2010, vol. II.
2.3. El teorema de Weierstrass 63

Demostración.
Sea R = f (S) ⊆ R; como S es compacto (es decir, cerrado y acotado),
entonces R también es compacto 2 y, así, existen a, A ∈ R tales que a =
Mín R y A = Máx R; luego, a = f (x0 , y0 ) y A = f (x1 , y1 ) para ciertos
puntos (x0 , y0 ), (x1 , y1 ) ∈ S.

f (x)
b
máximo

b
mínimo

x
a b
Figura 2.2. Máximo y mínimo global de una función continua sobre un conjunto
compacto.

Este es quizás el resultado básico de la teoría de la optimización matemática

y aquí lo utilizaremos ampliamente. En particular, si S = {(x, y) ∈ R2+
| g(x, y) ≥ 0} es compacto, y la función objetivo f (x, y) es continua, entonces
el problema (KT) siempre tendrá solución. Esto lo utilizaremos de manera
recurrente en el transcurso del presente capítulo.
Ahora: puesto que ya conocemos condiciones para la existencia de soluciones
al problema (KT), sería muy conveniente, en este punto, preguntarnos por
su unicidad. El siguiente teorema da condiciones suﬁcientes para esto:
Teorema 2. (Un teorema de unicidad)
Si el conjunto S = {(x, y) ∈ R2+ | g(x, y) ≥ 0} es convexo, y f (x, y) es
estrictamente cuasicóncava, entonces toda solución de (KT) es única.
Demostración.
Supongamos que (x0 , y0 ) y (x1 , y1 ) son dos soluciones distintas al problema
(KT), y que, por lo tanto, f (x0 , y0 ) = f (x1 , y1 ). Entonces, para cualquier
λ ∈ (0, 1), se tendrá que f (λx0 +(1−λ)x1 , λy0 +(1−λ)y1 ) > f (x1 , y1 ), dado
que f (·) es cuasicóncava estricta. Además, como S es convexo, claramente
se tiene la condición (λx0 + (1 − λ)x1 , λy0 + (1 − λ)y1 ) ∈ S. Por lo tanto,
(x1 , y1 ) no puede ser solución al problema (KT) y, por ende, sólo puede
existir una única solución.
2
Ver volumen I (Álgebra lineal y cálculo en varias variables), teorema 4, capítulo 9.
64 Capítulo 2. Optimización estática

Ejercicios 2
1. En los siguientes ejercicios determine si se cumplen las condiciones
para existencia de la solución al problema dado. Si existe, ¿permite el
teorema 2 garantizar que esta solución es única?

a) Maximizar (x−1)2 + y 2 b) Minimizar x2 + y 2

sujeta a y ≥ x2 + 1 sujeta a 3x + 4y ≤ 12
x, y ≥ 0 x, y ≥ 0

c) Minimizar 3x+7y d)
1 Maximizar yex
sujeta a x2 + y 2 3
≥1 sujeta a 2x + 8y ≤ 50
x, y ≥ 0 x, y ≥ 0

e) Maximizar 5x+2y f) Maximizar

1
3x 2 +5y 2
1

sujeta a 7x + 9y ≤ 15 sujeta a x+y =2

x, y ≥ 0 x, y ≥ 0

[Sugerencia: dibuje el problema, y observe que el hecho de que el conjunto

de restricción no sea compacto no implica, automáticamente, que la solución
no exista.]

2.4. El método de los multiplicadores de Lagrange

El método de los multiplicadores de Lagrange es la técnica tradicional para
resolver explícitamente problemas de optimización restringida cuando las
funciones objetivo y de restricción son diferenciables con continuidad en
R2++ . Este método se centra en la solución especíﬁca del problema

Maximizar f (x,y)
sujeta a g(x, y) = 0 (L)
x, y > 0

donde la restricción es de igualdad estricta. En adelante, a este problema lo

denotaremos por (L).
2.4. El método de los multiplicadores de Lagrange 65

Con el objeto de entender cuál es la idea básica del método de los multi-
plicadores de Lagrange (Lagrange, 1788), tratemos de resolver el problema
siguiente:

Maximizar xy
sujeta a 3x + 4y = 5
x, y > 0

En estos problemas de optimización restringida, a menudo las curvas de nivel

son de una gran ayuda visual para identificar la ubicación de las soluciones
en el plano. Recordemos que en el primer cuadrante del plano, las curvas de
nivel (isocuantas) de la función f (x, y) = xy, son hipérbolas hacia el origen:
para α > 0, xy = α equivale a y = α/x como se ve en la figura 2.3a).
Y la restricción del problema es que se deben satisfacer las condiciones
3x + 4y = 5, con x, y > 0 [figura 2.3b)]. Es decir, debemos buscar sobre
el segmento de recta de la figura 2.3b), el punto (x∗ , y ∗ ) (ambos mayores
que cero) que haga f (x, y) lo más grande posible. Si superponemos la figura
2.3a) con la figura 2.3b) y observamos la dirección de crecimiento de las
curvas de nivel, encontramos la figura 2.4.

y y

α=1
1 1
α = 0.5

α = 0.1

0 0
x x
0 1 0 1
a) b)
Figura 2.3. Panel a): Curvas de nivel xy = α para distintos α’s. Panel b): Restricción
3x + 4y = 5, x, y > 0.

Gráﬁcamente, un punto como (x∗ , y ∗ ) en la ﬁgura 2.4 resuelve nuestro pro-

blema. ¿Cómo hallarlo? Lagrange encontró que, precisamente en (x∗ , y ∗ ),
los vectores gradientes ∇f (x∗ , y ∗ ) y ∇g(x∗ , y ∗ ) ¡son paralelos! y que esto
sólo ocurre allí, como se ve en la ﬁgura 2.4 cuando comparamos el compor-
tamiento de los gradientes ∇f y ∇g en los puntos (x∗ , y ∗ ) y, por ejemplo,
66 Capítulo 2. Optimización estática

(x̄, ȳ). Así, existe un escalar λ tal que

∇f (x∗ , y ∗ ) = λ∇g(x∗ , y ∗ ) (2.1)

Y en honor del descubridor de esta importante condición, al número λ se le

llama multiplicador de Lagrange.3

y ∇g

ȳ ∇f

∇f = λ∇g

y∗

x∗ x̄ x
Figura 2.4. Curvas de nivel y recta de restricción.

Definición 1. (Condiciones de primer orden (CPO) de Lagrange)

Si f (·) y g(·) son funciones diferenciables con continuidad en R2++ , y λ ∈ R,
deﬁnimos las condiciones de primer orden del problema de Lagrange (L) de
la siguiente forma:
∇f (x, y) = λ∇g(x, y)
g(x, y) = 0

o, equivalentemente,

∂f ∂g ∂f ∂g
=λ , =λ , g(x, y) = 0 (CPO)
∂x ∂x ∂y ∂y

Y ahora nos preguntamos cuándo funciona bien el método de Lagrange;

es decir, cuándo las soluciones al problema de optimización que tenemos a
mano, realmente están entre las soluciones encontradas por el método. La
respuesta la encontramos en el siguiente teorema:
3
El término “multiplicador de Lagrange” fue acuñado por Gillie A. Larew (1919).
2.4. El método de los multiplicadores de Lagrange 67

Teorema 3. [Multiplicadores de Lagrange (Lagrange, 1788)]

Supongamos que f : R2++ → R y g : R2++ → R tienen derivadas parciales
continuas. Si (x∗ , y ∗ ) ∈ R2++ resuelve el problema

Maximizar f (x, y)
sujeta a g(x, y) = 0 (L)
x, y > 0

entonces existe un número λ 6= 0 tal que

∇f (x∗ ,y∗ ) = λ∇g (x∗ ,y∗ )

siempre y cuando

∇g (x∗ ,y∗ ) 6= 0

Demostración.
Por el teorema de la función implícita –volumen I (Álgebra lineal y cálculo
en varias variables)– se tiene, de g(x, y) = 0, que alrededor de (x∗ , y ∗ ) existe
una única función diferenciable y(x) tal que g(x, y(x)) = 0 y que, además,

dy ∂g/∂x
=−
dx ∂g/∂y

en esa vecindad. Ahora: de la condición que surge de maximizar f (x, y(x))

en (x∗ , y ∗ ), obtenemos que, en (x∗ , y ∗ ),
∂f ∂f
df = dx + dy = 0
∂x ∂y
Luego, en (x∗ , y ∗ ),
−1 −1
∂f ∂g ∂f ∂g
=
∂x ∂x ∂y ∂y
−1
∂f ∂g
Llamemos λ ≡ . Así, en (x∗ , y ∗ ),
∂y ∂y
(x∗ ,y ∗ )

−1
∂f ∂f ∂g ∂g ∂g
= =λ (2.2)
∂x ∂y ∂y ∂x ∂x
y, de manera similar,
−1
∂f ∂f ∂g ∂g ∂g
= =λ (2.3)
∂y ∂x ∂x ∂y ∂y
68 Capítulo 2. Optimización estática

De (2.2) y (2.3) se obtiene que

∂f ∂f ∂g ∂g
, =λ ,
∂x ∂y ∂x ∂y

o, lo que es igual,

∇f (x∗ ,y∗ ) = λ∇g (x∗ ,y∗ )

Nota 1. (Definición de lagrangiano 4 )

Existe una forma equivalente de resolver el problema (L). Deﬁnamos su
lagrangiano, L(·), como la función L : R++ × R++ × R → R deﬁnida por
L(x, y, λ) = f (x, y) − λ g(x, y). Entonces el problema de optimizar L(x, y, λ)
nos conduce al problema (L). En efecto: las condiciones de primer orden
para optimizar L(·) son

∂L ∂f ∂g ∂L ∂f ∂g ∂L
= −λ = 0, = −λ = 0, = −g(x, y) = 0
∂x ∂x ∂x ∂y ∂y ∂y ∂λ

y esto es,

∂f ∂g ∂f ∂g
=λ , =λ , g(x, y) = 0
∂x ∂x ∂y ∂y

o, de forma más simple,

∇f (·) = λ∇g(·); g(·) = 0

que son, exactamente, las condiciones de solución del problema (L).

Ejemplo 3.
Resolvamos el problema

Maximizar xy
sujeta a 3x + 4y = 5
x, y > 0

utilizando las condiciones de primer orden de Lagrange (ﬁgura 2.5).

4
Aunque la idea fundamental es de Lagrange (1788), el término “lagrangiano” fue
acuñado, al parecer, por Samuel Zahl (1964).
2.4. El método de los multiplicadores de Lagrange 69

Solución.
Aquí, f (x, y) = xy, g(x, y) = 3x + 4y − 5. Ambas funciones tienen derivadas
parciales continuas; luego, por el teorema 3, si (x∗ , y ∗ ) resuelve este problema
de optimización, entonces existe un escalar λ 6= 0 tal que

∇f (x∗ , y ∗ ) = (y ∗ , x∗ ) = λ(3, 4) = λ∇g(x∗ , y ∗ )

o, equivalentemente, un λ 6= 0 tal que

x∗ = 4λ, y ∗ = 3λ

5
Pero como 3x∗ + 4y ∗ = 5, entonces 3(4λ) + 4(3λ) = 5. Y así, λ = 24 . Por
consiguiente,
5 5
x∗ = , y∗ =
6 8
y

Solución

5
y∗ = 8

x∗ = 5 x
6
Figura 2.5. Solución gráfica del ejemplo 3.

Vemos que ∇g(x∗ , y ∗ ) = (3, 4) 6= (0, 0); por lo tanto, el punto (x∗ , y ∗ ) satis-
face todas las condiciones del teorema 3. Dado que este punto es la única
solución a las CPO, debería
ser la solución al problema.

En efecto: puesto
que el conjunto S = (x, y) ∈ R2+ | 3x + 4y = 5 es compacto y la función
objetivo f (x, y) = xy es continua, por el teorema de Weierstrass existe so-
lución al problema. Además, como en los extremos del conjunto restricción,
( 35 , 0), (0, 45 ), la función no tiene su máximo (pues su valor allí es 0, y va-
riando un poco x y y podemos obtener más que 0), el valor máximo de la
función es f (x∗ , y ∗ ) = x∗ y ∗ = 56 58 = 25
48
[5] .

5
¿El lector podría explicar por qué en la solución (x∗ , y ∗ ) se tiene y ∗ < x∗ ?
70 Capítulo 2. Optimización estática

Ejemplo 4.
También podemos utilizar la técnica de Lagrange para resolver el problema
de optimización

Maximizar x+y
sujeta a x + y2 = 1
2

x, y > 0

Solución.
Aquí, f (x, y) = x + y, g(x, y) = x2 + y 2 − 1, y dado que ambas funciones
tienen derivadas parciales continuas, buscamos un número λ 6= 0 tal que

∇f (x, y) = λ ∇g(x, y)

Es decir,
(1, 1) = λ(2x, 2y)
o,
2λx = 1, 2λy = 1
Es claro que λ 6= 0; y puesto que x2 + y 2 = 1, entonces
2 2
1 1
+ =1
2λ 2λ
Por lo tanto, λ2 = 21 y tendremos que λ = ± √12 . Como debe ser x > 0,
y > 0, entonces la solución a las CPO es
√
∗ ∗ 2
x = y =
2
y
√ya √que esta es la única solución a las CPO y satisface ∇g(x∗ , y ∗ ) =
2, 2 6= (0, 0), debería ser la solución al problema, tal como se ilus-
tra en la ﬁgura 2.6. En efecto: puesto que el conjunto
n o
S = (x, y) ∈ R2+ | x2 + y 2 = 1

es compacto y f (x, y) = x+y es continua en S, por el teorema de Weierstrass

existe solución al problema; además, dado que en los extremos del conjunto,
(0, 1) y (1, 0), la función objetivo f (x, y) no toma su valor máximo sobre S,
√ √ √
entonces el valor máximo es el previsto: f (x∗ , y ∗ ) = x∗ +y ∗ = 22 + 22 = 2
[6] .

6
¿El lector podría explicar por qué x∗ = y ∗ ? Es decir, ¿cuáles de las características del
problema hacen que las soluciones sean iguales?
2.4. El método de los multiplicadores de Lagrange 71
y

solución

√
2 b
y∗ = 2

x∗ =
√
2
2 x

Figura 2.6. Solución gráfica del ejemplo 4.

Ejemplo 5. (Un problema geométrico)

Para encontrar, entre todos los rectángulos inscritos en un círculo de radio
r, el que tiene mayor área, podemos representar el área de un rectángulo
como el producto (2x)(2y) de sus lados, donde x, y son números positivos
que satisfacen la ecuación x2 + y 2 = r2 (ﬁgura 2.7a)). Este problema se
puede solucionar convirtiéndolo en el problema representado en la ﬁgura
2.7b). El problema es, entonces,
Maximizar xy
sujeta a x2 + y 2 = r2
x, y > 0
y
Solución

r √
y y∗ = 2r b
2

√
x∗ = 2r x
2

a) b)
Figura 2.7. En el panel a): rectángulos inscritos en un círculo de radio r. En el panel b):
transformación y solución gráfica del ejemplo 5.

Aquí, f (x, y) = xy, g(x, y) = x2 + y 2 − r2 , y dado que ambas funciones

tienen derivadas parciales continuas, queremos encontrar un λ 6= 0 tal que
∇f (x, y) = λ∇g(x, y)
72 Capítulo 2. Optimización estática

Es decir,
∇f (x, y) = (y, x) = λ(2x, 2y) = λ∇g(x, y)
Así, y = 2xλ y x = 2yλ, por lo que x∗ = y ∗ . Reemplazando esto en la
restricción g(x, y) = 0, tenemos que

(x∗ )2 + (y ∗ )2 = 2(x∗ )2 = r2

y, por consiguiente,
r
x∗ = y ∗ = √
2
√ √
Como ∇g(x∗ , y ∗ ) = ( 2r, 2r) 6= (0, 0) y esta es la única solución a las
CPO, debe entonces ser (después de aplicar el teorema de Weierstrass y
estudiar los valores de la función objetivo en los dos extremos de la restric-
ción) la solución al
√ problema. Así, el problema original se resuelve con un
cuadrado de lado 2 r, que, por consiguiente, tendrá área 2r2 .

Ejemplo 6. (Otro problema geométrico)

Queremos encontrar el diseño de un tanque cilíndrico que contenga V litros
de agua, pero que utilice la menor cantidad de material en su construcción.

Solución.
La cantidad de material que se utiliza es igual a la suma de las áreas de la
base y de la pared del tanque; esto es, πr2 + 2πrh, donde r es el radio del
cilindro y h su altura. El volumen del tanque es πr2 h. Así, el problema es

Minimizar πr2 +2πrh

sujeta a πr2 h = V
r>0
h>0

Aquí, f (r, h) = −(πr2 +2πrh), g(r, h) = πr2 h−V ; por lo tanto, se satisfacen
las condiciones del teorema de Lagrange, de manera que las soluciones (que
existen por el teorema de Weierstrass, y no pueden ser soluciones con r = 0
o h = 0) deben estar entre las soluciones de las condiciones de primer orden,
las cuales son
−(2πr + 2πh, 2πr) = λ(2πrh, πr2 )
Esto es equivalente a

−2πr − 2πh = λ2πrh, −2πr = λπr2

2.4. El método de los multiplicadores de Lagrange 73

lo que implica que λ = − 2r 6= 0; y así, r∗ = h∗ ; de esto, reemplazando en la

restricción, obtenemos s
3 V
r∗ = h∗ =
π
Como√ se satisface ∇g(x∗ , y ∗ ) 6= (0, 0), la cantidad óptima de material a usar
3
es 3 πV 2 .
Ejemplo 7. [La ley de la refracción de la luz (Ley de Snell, 1621)]
Un punto móvil debe pasar de A a B (ﬁgura 2.8). En la trayectoria AM se
mueve con velocidad v1 , y en la M B con velocidad v2 . ¿Dónde deberíamos
colocar el punto M sobre la línea horizontal DD′ para que la trayectoria de
A hasta B pueda recorrerse lo más rápido posible?
A

a α
α

M D′
D
β b
β
B

c
Figura 2.8. Ley de la refracción de la luz.

Solución.
Sean α, β los ángulos desconocidos señalados en la ﬁgura 2.8; a y b las
longitudes conocidas de las perpendiculares de los puntos A y B a la línea
horizontal DD′ , respectivamente; y c la distancia horizontal conocida entre
tales puntos. El tiempo requerido para recorrer el camino de A a B está
dado por la función
a b π
t(α, β) = + 0 < α, β <
v1 cos α v2 cos β 2
Se requiere entonces encontrar el mínimo de la función t (α, β) sujeta a la
relación entre los ángulos

a tan α + b tan β = c
74 Capítulo 2. Optimización estática

Aquí, la función objetivo t(α, β) es continua, el conjunto restricción es com-

pacto y, por tanto, el problema cumple las condiciones del teorema de
Weierstrass para que tenga solución. Además, ninguna solución está en los
extremos de la restricción, como fácilmente puede comprobar el lector. Así,
dado que se cumplen las condiciones del teorema de Lagrange, la solución
debe satisfacer las condiciones de primer orden

a sen α b sen β a b
− − ,− =λ ,
v1 cos2 α v2 cos2 β cos2 α cos2 β
Y esto, con un poco de álgebra, implica que
sen α v1
=
sen β v2
que es, precisamente, la ley de refracción de la luz. Según esto, un rayo de
luz se refractará en su paso de un medio a otro de tal forma que el tiempo
que transcurre de un punto en un medio, a otro punto en el otro medio, ¡es
mínimo!
Ejemplo 8.
Resolvamos para α, β > 0, p1 , p2 > 0 ﬁjos,
Maximizar xα y β
sujeta a p1 x + p2 y = M
x, y > 0

Solución.
Las condiciones de primer orden (CPO) de este problema son:

αxα−1 y β , βxα y β−1 = λ(−p1 , −p2 )

donde λ 6= 0. De allí obtenemos que

αy p1
=
βx p2
De esta igualdad despejemos y:
p1 β
y= x
p2 α
y reemplacemos en la restricción, de forma que (ﬁgura 2.9)
αM
x∗ =
(α + β)p1
2.4. El método de los multiplicadores de Lagrange 75

y, por tanto,
βM
y∗ =
(α + β)p2
Como se cumple ∇g(x∗ , y ∗ ) = (−p1 , −p2 ) 6= (0, 0), y (x∗ , y ∗ ) es la única
solución de las CPO, ella esla solución al problema. Podemos

aﬁrmar esto,
2
dado que el conjunto S = (x, y) ∈ R+ | p1 x + p2 y = M es compacto, la
función objetivo f (x, y) = xα y β es continua y no es máxima en los bordes
del conjunto de restricción (teorema de Weierstrass). El máximo aquí viene
dado entonces por
α β
∗ ∗ αM βM αα β β M α+β
f (x , y ) = = .
(α + β)p1 (α + β)p2 (α + β)α+β pα1 pβ2

Vemos que este resultado generaliza el ejemplo 3.

solución

βM
y∗ = (α+β)p2
b

x∗ = αM x
(α+β)p1

Figura 2.9. Solución gráfica del ejemplo 8.

Ejemplo 9.
Resolvamos el problema
Maximizar xy
sujeta a x + xy + y 3 = 1
x, y > 0

Solución.
En este caso, f (x, y) = xy, g(x, y) = x + xy + y 3 − 1. Vemos que la función
objetivo es continua y que el conjunto {(x, y) ∈ R2+ | x + xy + y 3 = 1}
es compacto, de tal forma que, por el teorema de Weierstrass, el problema
76 Capítulo 2. Optimización estática

tiene solución. Dado que el óptimo no puede estar en los bordes del con-
junto restricción, y como, además, las derivadas parciales son continuas, la
solución debe estar entre las condiciones de primer orden, las cuales vienen
dadas por:
(y, x) = λ(1 + y, x + 3y 2 )
de lo cual se obtiene
y 1+y
=
x x + 3y 2
o, lo que es equivalente,
3y 3 = x
Reemplazando en la restricción obtenemos 3y 4 + 4y 3 = 1, lo que implica que

y ∗ = 0.56 y así, x∗ = 0.53

Dado que ∇g(x∗ , y ∗ ) 6= (0, 0), hemos encontrado el punto óptimo.

Ejercicios 3
1. Encuentre el valor máximo de f (x, y) = xy sobre la elipse

x2 y 2
+ =1
8 2
asumiendo x > 0, y > 0. [Sugerencia: Una gráﬁca ayudaría].

2. Utilizando el método gráﬁco, decida si el problema de maximizar

f (x, y) = x3 + y 3 sobre la recta x + y = 1 tiene solución (asuma
x > 0, y > 0).

3. Resuelva analíticamente los siguientes problemas de optimización:

a) Minimizar x+y b) Maximizar xy

sujeta a xy = 7 sujeta a x+y =7
x, y > 0 x, y > 0

c) √ √ d) Maximizar 3x + 8y
Maximizar x+ y
1 1
sujeta a 9x + 2y = 5 sujeta a x2 + y 2 = 1
x, y > 0 x, y > 0
2.5. Optimización con restricciones de desigualdad 77

e) Maximizar x(y + 4) f) Minimizar 3x − 2y

2
sujeta a x +y =7 sujeta a 2xy = 4
x, y > 0 x, y > 0

4. Calcule los puntos sobre la curva x2 y = 2 más próximos al origen.

5. Encuentre el máximo volumen que puede contener un tanque cilíndrico
con tapas, si se tiene una cantidad A de material para construirlo.
6. Entre los rectángulos con perímetro ﬁjo, demuestre que el cuadrado
es el de mayor área.
7. a) Entre todos los triángulos inscritos en un círculo dado, demuestre
que el triángulo equilátero es el de mayor área.
b) ¿Cuál es el rectángulo de mayor área inscrito en un círculo?
c) ¿Cuál es el polígono regular de mayor área inscrito en un círculo?

2.5. El método (de) Kühn-Tucker

Otra caracterización fundamental de problemas de optimización es buscar
valores extremos de una función f (x, y) cuando existen restricciones de de-
sigualdad bien determinadas funcionalmente dentro del dominio de elección.
Un problema que aparece muy comúnmente (y que ya habíamos especiﬁcado
al principio de este capítulo con las letras KT) es, en su forma más simple,
el siguiente:

Maximizar f (x, y)
sujeta a g(x, y) ≥ 0 (KT)
x, y ≥ 0

En lo que sigue mostraremos la aproximación de Harold Kühn [1925-2014]

y Albert Tucker [1905-1995] a este tipo de problemas, partiendo de las téc-
nicas de programación lineal desarrolladas previamente por George Dantzig
y Jack Laderman en 1947 (ver Dorfman et al, 1958). En Kühn & Tucker
(1951, 1956) se advierte la posibilidad y necesidad de una generalización
del método lineal, buscando resolver, particularmente, problemas de utiliza-
ción eﬁciente de recursos cuando las funciones objetivo, y las restricciones,
no eran necesariamente lineales. Veamos entonces algunos ejemplos hacia
los cuales está expresamente dirigida la técnica desarrollada por estos dos
matemáticos.
78 Capítulo 2. Optimización estática

Ejemplo 10. (Soluciones de esquina)

Consideremos el siguiente problema,

Minimizar x+y
sujeta a x + y2 ≥ 1
2

x, y ≥ 0

Claramente, este problema es uno del tipo (KT) si establecemos las igual-
dades f (x, y) = −(x + y) y g(x, y) = x2 + y 2 − 1. Es decir, el problema puede
escribirse como

Maximizar − (x + y)
sujeta a x + y2 − 1 ≥ 0
2

x, y ≥ 0

Aquí podemos encontrar las soluciones gráﬁcamente: estas son (1, 0) y (0, 1)
(ﬁgura 2.10). Y obsérvese que en ambos casos la restricción x2 + y 2 ≥ 1
se satisface con igualdad, pero que la solución no es interior a R2+ , como
se estudiaba en el método de los multiplicadores de Lagrange. Estas solu-
ciones se conocen como soluciones de esquina o borde (por obvias razones),
y el método (de) Kühn-Tucker es útil para hallarlas analíticamente, como
veremos más adelante.
y

{(x, y) ∈ R2+ | x2 + y 2 ≥ 1}

solución
solución

x
Figura 2.10. Solución gráfica del ejemplo 10.

Ejemplo 11. (Soluciones interiores a la restricción)

Consideremos el problema
2
1 2 1
Minimizar x− + y−
2 2
sujeta a x+y ≤5
x, y ≥ 0
2.5. Optimización con restricciones de desigualdad 79

que claramente se resuelve para x∗ = y ∗ = 12 , como se ve en la ﬁgura 2.11.

Observe que la solución ni siquiera satisface la restricción con igualdad,
2 2
1 1
ya que x∗ + y ∗ < 5. En este ejemplo, f (x, y) = x− 2 + y− 2 y
g(x, y) = 5 − x − y. N
y

solución
x
Figura 2.11. Solución gráfica del ejemplo 11.
Y aunque, como hemos visto, estos problemas son trivialmente resueltos,
existen abundantes situaciones en las que no es fácil resolver el problema
geométricamente y necesitaremos una herramienta más soﬁsticada: ese es,
precisamente, el algoritmo (o método) de optimización (de) Kühn-Tucker.

2.5.1. El algoritmo (de) Kühn-Tucker

Consideremos nuevamente la función lagrangiana

L : R+ × R+ × R → R

deﬁnida por L(x, y, λ) = f (x, y) − λg(x, y). Ya sabemos que (bajo ciertas
condiciones) las soluciones al problema del lagrangiano

Maximizar f (x, y)
sujeta a g(x, y) = 0 (L)
x, y > 0

están dentro de las soluciones a las condiciones de primer orden

∂f ∂g ∂f ∂g
−λ =0 ; −λ =0
∂x ∂x ∂y ∂y
g(x, y) = 0
x, y > 0
80 Capítulo 2. Optimización estática

La diﬁcultad ahora es que Kühn-Tucker

Maximizar f (x, y)
sujeta a g(x, y) ≥ 0 (KT)
x, y ≥ 0
podría implicar soluciones de esquina, o también interiores, a la restricción
g(x, y) = 0. Si la solución a (KT) es de esquina, digamos (0, y ∗ , λ∗ ) con
y ∗ > 0, λ∗ ∈ R, entonces, siguiendo lo hecho para el problema lagrangiano,
debemos tener que (0, y ∗ ) resuelve para cierto λ∗ ∈ R,
Maximizar L(x, y, λ)
sujeta a x, y ≥ 0
Así, L(0 + ∆x, y ∗ , λ∗ ) ≤ L(0, y ∗ , λ∗ ) para todo ∆x > 0 (¿por qué sólo para
∆x > 0 y no para ∆x < 0?). Ahora: por el teorema de Taylor aprendido en
el curso de cálculo diferencial (ver Monsalve (ed.) (2010), vol. II),

∗ ∗ ∂L ∗ ∗ ∂ 2 L (∆x)2
L(0 + ∆x, y , λ ) = L(0, y , λ ) + ∆x +
∂x (0,y∗ ) ∂x2 (ζ ∗) 2
x ,y

donde 0 < ζx < ∆x. Y como L(0 + ∆x, y ∗ , λ∗ ) ≤ L(0, y ∗ , λ∗ ) entonces

∂L ∂ 2 L (∆x)2
∆x + ≤0
∂x (0,y∗ ,λ∗ ) ∂x2 (ζ ∗ ,λ∗ ) 2
x ,y

que al dividirlo por ∆x y tomando el límite cuando ∆x → 0+ , es

∂L
≤0
∂x (0,y∗ ,λ∗ )

∂f ∂g
o, lo que es igual, a − λ∗ ≤ 0.
∂x (0,y∗ ) ∂x (0,y∗ )
Así, mientras la primera derivada del lagrangiano con respecto a x se anu-
la si x∗ > 0, en la esquina (x∗ = 0) esta primera derivada es menor que
o igual a cero (ﬁgura 2.12). En otra forma, el producto de x∗ y la de-
rivada del lagrangiano ! en (x∗ , y ∗ , λ∗ ) (con respecto a x) siempre es cero:

∂L
x∗ = 0. De esta manera tendremos que
∂x (x∗ ,y∗ ,λ∗ )
!
∂f ∂g ∂f ∂g
− λ∗ ≤ 0 y x∗ − λ∗ =0
∂x (x∗ ,y∗ ) ∂x (x∗ ,y∗ )
∂x (x∗ ,y∗ ) ∂x (x∗ ,y∗ )
2.5. Optimización con restricciones de desigualdad 81
y

solución
solución

x
Figura 2.12. En el problema (KT) las soluciones de esquina tienen pendiente negativa.

Es claro que el papel de x es simétrico al de y; así que por un razonamiento

similar tendremos que
!
∂f ∂g ∂f ∂g
− λ∗ ≤ 0 y y∗ − λ∗ =0
∂y (x∗ ,y∗ ) ∂y (x∗ ,y∗ )
∂y (x∗ ,y∗ ) ∂y (x∗ ,y∗ )

Finalmente, para (x∗ , y ∗ ) ﬁjos, maximizar L(x∗ , y ∗ , λ) requiere λ∗ ≤ 0 (dado

que g(x∗ , y ∗ ) ≥ 0).

Este es, en forma heurística, el origen de las condiciones de primer orden

del problema de Kühn-Tucker (KT), que ahora presentamos.

Definición 2. (Condiciones de primer orden (CPO) (de) Kühn-

Tucker)
Si f (·), g(·) son funciones diferenciables con continuidad en R2+ y λ ≤ 0,
deﬁnimos las condiciones de primer orden (CPO) del problema de Kühn-
Tucker (KT) de la siguiente forma:

∂f ∂g ∂f ∂g
i) −λ ≤ 0; −λ ≤ 0; g(x, y) ≥ 0
∂x ∂x ∂y ∂y

∂f ∂g ∂f ∂g
ii) x −λ = 0; y −λ = 0; λg(x, y) = 0 (CPO)
∂x ∂x ∂y ∂y

Nota 2. (Kühn-Tucker generaliza Lagrange)

Observe que si x > 0, y > 0, e igualamos g(·, ·) a 0, las CPO son equivalentes
a:
∂f ∂g ∂f ∂g
=λ ; =λ ; g(·, ·) = 0
∂x ∂x ∂y ∂y

y estas no son más que las condiciones de primer orden del método de
Lagrange.
82 Capítulo 2. Optimización estática

Ahora nos preguntamos: ¿cuáles son las condiciones que garantizan que
dentro de las soluciones a las condiciones de primer orden (CPO) siempre
están las soluciones a nuestro problema de optimización? La respuesta la
encontramos en el siguiente teorema:
Teorema 4. (KT=⇒CPO)
Sean f (·, ·) y g(·, ·) cuasicóncavas y diferenciables con continuidad en R2+ .
Si (x∗ , y ∗ ) resuelve el problema
Maximizar f (x, y)
sujeta a g(x, y) ≥ 0
x, y ≥ 0
entonces existe un λ ≤ 0 tal que (x∗ , y ∗ ) satisface las condiciones de primer
orden (CPO) siempre que se tenga alguna (y basta una) de las siguientes
condiciones:
i) La función g(·, ·) es convexa en R2+ .
ii) La función g(·, ·) es cóncava en R2+ y existe un (x̄, ȳ) ∈ R2+ tal que
g(x̄, ȳ) > 0.
Demostración.
Ver Arrow, Hurwicz & Uzawa (1958).
Ejemplo 12.
Tomemos el problema
Maximizar x+y
sujeta a x + y2 ≤ 1
2

x, y ≥ 0
y apliquemos el método de Kühn-Tucker.
Solución.
En este caso, f (x, y) = x + y, g(x, y) = 1 − x2 − y 2 . Puesto que estas
funciones son cuasicóncavas (como puede fácilmente veriﬁcarlo el lector) y
g(x, y) = 1−x2 −y 2 es cóncava en R2+ , además de que para (x̄, ȳ) = (0.5, 0.5)
se tiene g(x̄, ȳ) = 0.5 > 0, entonces, por el teorema 4, cualquier solución
del problema de optimización (si existe) está entre las soluciones de las
condiciones de primer orden:
i) 1 + λ(2x) ≤ 0; 1 + λ(2y) ≤ 0; 1 − x2 − y 2 ≥ 0
ii) x(1 + λ(2x)) = 0; y(1 + λ(2y)) = 0; λ(1 − x2 − y 2 ) = 0
Estudiamos cuatro casos:
2.5. Optimización con restricciones de desigualdad 83

1. Si x > 0, y > 0, entonces, de ii),

1 1
λ=− 6= 0; λ=− 6= 0
2x 2y

lo que implica x = y. Del hecho √

de que λ 6=
√
0, y de ii), tenemos que
x2 + y 2 = 1; y así, x∗ = y ∗ = 22 , λ∗ = − 22 .
1
2. Si x > 0, y = 0, entonces de ii), λ = − 6= 0 y así, x2 = 1 ó x = 1.
2x
Sin embargo, no se satisface i), pues 1 + λ(2 · 0) = 1 0.

3. Si x = 0, y > 0, entonces, de forma similar a lo analizado en el caso

anterior, obtenemos que no se satisface i), pues 1 + λ(2 · 0) = 1 0.

4. Si x = 0, y = 0, entonces de ii), debe ser λ = 0, y no se satisface i).

Por lo tanto, x = 0, y = 0 no es solución a las condiciones de primer
orden.

Dado que f (x, y) = x+y es continua, y el conjunto restricción es compacto,

por el teorema√ de Weierstrass f (·) alcanza un máximo. Vemos que, en 1.,
∗ ∗
f (x , y ) = 2; en 2., f (x , y ) = 1; y en 3., f (x∗ , y ∗ ) = 1. Por lo tanto,
∗ ∗

entre 1., 2., y 3. se llega a que el valor máximo de f (x, y) = x + y sujeta a

las restricciones g(x, y) = 1 − x2 + y 2 ≥ 0, x ≥ 0, y ≥ 0, se obtiene cuando
√ √
∗ ∗ 2 ∗ 2
x =y = , λ =−
2 2
√
y el valor máximo es 2.

Ejemplo 13. (Soluciones interiores, de nuevo)

Consideremos nuevamente el problema del ejemplo 11:
2
1 2 1
Minimizar x− + y−
2 2
sujeta a x+y ≤5
x, y ≥ 0

y resolvámoslo ahora por el método Kühn-Tucker.

Solución. 2 2
En este caso, f (x, y) = − x − 12 − y − 12 (para reducir el “problema de
minimizar” a uno de “maximizar”) y g(x, y) = 5 − x − y (recuérdese que la
84 Capítulo 2. Optimización estática

restricción debe aparecer en la forma g(x, y) ≥ 0). En este caso, la función

objetivo es cóncava y, por lo tanto, cuasicóncava. Además, la restricción es
lineal; es decir, convexa y cuasicóncava. Por el teorema 4, las condiciones
de primer orden (CPO) son necesarias para la solución de nuestro problema
que, por el teorema de Weierstrass, tiene solución (puesto que el conjunto
de restricción es compacto, y la función objetivo es continua). Las CPO son:

1 1
−2 x − −λ(−1) ≤ 0; −2 y − −λ(−1) ≤ 0; 5−x−y ≥ 0
2 2
(i)
x (1 − 2x + λ) = 0; y (1 − 2y + λ) = 0; λ(5 − x − y) = 0 (ii)
Estudiamos cuatro casos:

1. Si x > 0, y > 0, entonces, de (ii), λ = 2x − 1; y λ = 2y − 1; lo que

implica que x = y. Debemos considerar dos casos: λ = 0 y λ 6= 0.

a) Si λ = 0, tenemos que x∗ = y ∗ = 12 , λ∗ = 0.
b) Si λ 6= 0, de (ii), tenemos que x + y = 5; y así, x∗ = y ∗ = 52 , λ∗ = 4.
Esta solución no cumple la condición λ∗ ≤ 0 y, por lo tanto, no
puede considerarse.

2. Si x > 0, y = 0, entonces de (ii), λ = 2x−1 6= 0. Nuevamente, debemos

considerar dos casos: λ = 0 y λ 6= 0.

a) Si λ = 0, entonces x = 21 . Luego, x∗ = 21 , y ∗ = 0, λ∗ = 0. Pero

esta solución
no puede aceptarse ya que no satisface la condición
1
(i) −2 y − 2 − λ(−1) ≤ 0.
b) Si λ 6= 0, de ii), x = 5. Luego, x∗ = 5, y ∗ = 0, λ∗ = 9. Esta solución
tampoco puede aceptarse, ya que λ∗ > 0.

3. Si x = 0, y > 0, entonces, de forma similar a lo hecho en el segundo

caso, obtenemos que este tercer caso no proporciona soluciones.

4. Si x = 0, y = 0, entonces λ∗ = 0, pero esta solución no satisface (i).

2 2
De lo anterior, obtenemos que el valor mínimo de x − 12 − y − 12 sujeta
a las restricciones g(x, y) = 5 − x − y ≥ 0, x ≥ 0, y ≥ 0 se obtiene (ﬁgura
2.11) en
x∗ = 12 , y ∗ = 21 , λ∗ = 0
Aquí, λ∗ = 0 se debe a que la solución es interior a la restricción (not
binding) como entenderemos mejor más adelante.
2.5. Optimización con restricciones de desigualdad 85

Nota 3. (¿Falla el método Kühn-Tucker?)

A la luz del método Kühn-Tucker (teorema 4), ¿el lector podría decir por
qué en el ejemplo clásico presentado por Arrow y Enthoven (1961),

Maximizar xy
sujeta a (1 − x − y)3 ≥ 0
x≥0
y≥0

se tiene como solución x = y = 1/2, pero no existe ningún λ que satisfaga

las CPO en ese punto? N

Continuando con nuestra presentación del método Kühn-Tucker, ahora nos

podríamos preguntar: ¿cuándo es cierto el recíproco del teorema 4? Es de-
cir, si (x∗ , y ∗ ) es una solución de las (CPO), será entonces que también es
una solución al problema de optimización (KT)? Una respuesta está en el
próximo teorema, pero antes mostremos, precisamente, un ejemplo en el que
las CPO, por sí mismas, no son suﬁcientes para resolver el problema KT.
El caso clásico, también presentado por Arrow y Enthoven en 1961, es:

Maximizar (x−1)3
sujeta a 2 − x ≥ 0
x≥0

cuyas soluciones de CPO arrojan x = 1, λ = 0, siendo la verdadera solución

x = 2. Veamos entonces qué condiciones sobre f (·, ·) y g(·, ·) se requieren
para que CPO ⇒ KT.

Teorema 5. (CPO =⇒ KT)

Sean f (·, ·) y g(·, ·) cuasicóncavas y diferenciables con continuidad en R2+ . Si
(x∗ , y ∗ , λ∗ ) satisface las (CPO) y se cumple alguna (y sólo una es suﬁciente)
de las siguientes condiciones:

∂f ∂f
a) <0 ó < 0;
∂x (x∗ ,y∗ ) ∂y (x∗ ,y∗ )

∂f
b) >0 y g(x, y) ≥ 0 para algún x > 0, y ≥ 0; o bien
∂x (x∗ ,y∗ )

∂f
>0 y g(x, y) ≥ 0 para algún x ≥ 0, y > 0;
∂y (x∗ ,y∗ )
86 Capítulo 2. Optimización estática

c) ∇f |(x∗ ,y∗ ) 6= 0 y f (x, y) es dos veces diferenciable en una vecindad de

(x∗ , y ∗ );

d) f (x, y) es cóncava;
entonces (x∗ , y ∗ ) es solución al problema de optimización (KT).
Demostración.
Ver Arrow & Enthoven (1961).
Ejemplo 14.
Resolvamos el problema

Maximizar 2x+3y
sujeta a x+y ≤1
x, y ≥ 0

Solución.
En este ejemplo, f (x, y) = 2x + 3y y g(x, y) = 1 − x − y. Dado que en
este caso se cumplen las condiciones de los teoremas 4 y 5 (ya que tanto la
restricción como la función objetivo son lineales), las condiciones de primer
orden nos entregan exactamente las soluciones. Estas son:

i) 2 + λ ≤ 0; 3 + λ ≤ 0; 1−x−y ≥0
ii) x(2 + λ) = 0; y(3 + λ) = 0; λ(1 − x − y) = 0

Analizamos cuatro casos:

1. Si x > 0, y > 0, entonces de ii), λ∗ = −3 y λ∗ = −2, lo cual es
imposible.

2. Si x > 0, y = 0, entonces de ii), λ∗ = −2 y x∗ = 1. Pero, de i), se tiene

que λ = −2 no satisface 3 + λ ≤ 0.

3. Si x = 0, y > 0, entonces de ii), λ∗ = −3 y y ∗ = 1 y estas satisfacen

todas las condiciones; por lo tanto, x∗ = 0, y ∗ = 1, λ∗ = −3 es una
solución al problema.

4. Si x = 0, y = 0, entonces, de ii), λ∗ = 0, pero esta no satisface i).

Vemos que el máximo se obtiene en

x∗ = 0, y ∗ = 1, λ∗ = −3

y es igual a 3 (ﬁgura 2.13a).

2.5. Optimización con restricciones de desigualdad 87
y y

1 • ȳ
•
solución solución

0
x ȳ x
0 1
a) b)
Figura 2.13. En el panel a), la solución gráfica del ejemplo 14.
En el panel b), la solución gráfica del ejemplo 15.

Ejemplo 15.
Resolvamos, para ȳ > 0 dado, el problema

Minimizar 4x2 + 2y 2
sujeta a x + y ≤ ȳ
x, y ≥ 0

Solución.
En este problema, f (x, y) = −4x2 − 2y 2 y g(x, y) = x + y − ȳ. Vemos que
la función objetivo es cóncava y, por lo tanto, cuasicóncava; y la función
restricción es lineal y, así, convexa y cuasicóncava (ﬁgura 2.13b). Es claro
que el problema satisface las condiciones de los teoremas 4 y 5 y, por lo tanto,
las soluciones del problema son, a su vez, las soluciones a las condiciones de
primer orden, las cuales son:

(i) −8x − λ ≤ 0; −4y − λ ≤ 0; x + y − ȳ = 0

(ii) x (−8x − λ) = 0; y (−4y − λ) = 0; λ(x + y − ȳ) = 0

Analizamos tres casos (ya que el caso x = y = 0 no podemos considerarlo,

puesto que x + y = ȳ > 0):
1. Si x > 0, y > 0, entonces, de (ii), λ = −8x 6= 0 y λ = −4y 6= 0; lo que
implica y = 2x y, de nuevo por (ii),
ȳ 2ȳ 8ȳ
x∗ = , y∗ = , λ∗ = −
3 3 3
lo cual satisface todas las condiciones; es decir, es una solución al
problema.
88 Capítulo 2. Optimización estática

2. Si x > 0, y = 0, entonces, de (ii), λ = −8x 6= 0 y de la restricción,

x = ȳ, y = 0, λ = −8ȳ. Sin embargo, esto no satisface la condición
−4y − λ ≤ 0, y por lo tanto, no es solución.

3. Si x = 0, y > 0, entonces, de (ii), λ = −4y 6= 0 y de la restricción,

x = 0 y y = ȳ, λ = −4ȳ; lo cual no satisface la condición −8x − λ ≤ 0,
y por lo tanto, no es solución.
Por el análisis anterior, tenemos que la única solución es

x∗ = ȳ/3, y ∗ = 2ȳ/3, λ∗ = −8ȳ/3

Ejemplo 16.
Resolvamos el problema

Minimizar 2x+3y
sujeta a x+y ≥1
x, y ≥ 0

Solución.
En este problema, f (x, y) = −2x − 3y y g(x, y) = x + y − 1. Notemos
que estas funciones cumplen las condiciones del teorema 5, aunque no las
del teorema 4 (¿por qué?); por lo tanto, las soluciones de las CPO son las
soluciones al problema de maximización. Las condiciones de primer orden
son:

i) −2 − λ ≤ 0; −3 − λ ≤ 0; x+y−1≥0
ii) x(−2 − λ) = 0; y(−3 − λ) = 0; λ(x + y − 1) = 0

y y

1 1
solución

0 • 0 •
x x
0 1 solución 0 1
a) b)

Figura 2.14. En el panel a) la solución gráfica del ejemplo 16.

En el panel b) la solución gráfica del ejemplo 17.
2.5. Optimización con restricciones de desigualdad 89

Analizamos cuatro casos:

1. Si x > 0, y > 0, entonces, de ii), λ = −2 y λ = −3, lo cual es imposible.

2. Si x > 0, y = 0, entonces, de ii), λ = −2 y de la restricción x∗ = 1.

Por lo tanto, x∗ = 1, y ∗ = 0, λ∗ = −2.

3. Si x = 0, y > 0, entonces, de ii), λ = −3 y de la restricción y ∗ = 1.

Por lo tanto, x∗ = 0, y ∗ = 1, λ∗ = −3, lo cual no cumple i).

4. Si x = 0, y = 0, entonces no se cumple i).

Por tanto, el mínimo del problema se obtiene en

x∗ = 1, y ∗ = 0, λ∗ = −2

y es igual a 2 (ﬁgura 2.14a).

Ejemplo 17.
Resolvamos para w1 , w2 > 0:

Minimizar w1 x + w2 y
sujeta a x − y2 ≥ 1
x, y ≥ 0

Solución.
En este ejemplo, f (x, y) = −(w1 x + w2 y), g(x, y) = x − y 2 − 1. La función
objetivo es lineal y, así, cóncava; además, la restricción es una función cón-
cava, y para (x̄, ȳ) = (2, 0.5) se tiene que g(x̄, ȳ) = 0.75 > 0. Entonces,
ambas funciones cumplen las condiciones de los teoremas 1 y 5 y, por lo
tanto, existe un máximo y las soluciones a las CPO son, precisamente, las
soluciones del problema. Las condiciones de primer orden son, en este caso:

i) −w1 − λ ≤ 0; −w2 + 2λy ≤ 0; x − y2 − 1 ≥ 0

ii) x(−w1 − λ) = 0; y(2λy − w2 ) = 0; λ(x − y 2 − 1) = 0

Analizamos cuatro casos:

w2
1. Si x > 0, y > 0 entonces, de ii), λ = −w1 6= 0 y λ = 6= 0, lo que
2y
w2
implica y = − , y esta no satisface y ∗ ≥ 0.
2w1
2. Si x > 0, y = 0, entonces, de ii), λ = −w1 6= 0, y nuevamente de ii),
x∗ = 1, y ∗ = 0, λ∗ = −w1 .
90 Capítulo 2. Optimización estática

w2
3. Si x = 0, y > 0, entonces, de ii), λ = 6= 0, y así, de ii), y 2 = −1, lo
2y
cual no tiene solución en R.
4. Si x = 0, y = 0, entonces, de ii), λ = 0, pero esta no satisface i).
El óptimo se encuentra en x∗ = 1, y ∗ = 0, λ∗ = −w1 y es w1 (figura 2.14b).
Ejemplo 18.
Resolvamos el problema
Minimizar 3x + 2y
sujeta a xy ≥ 5
x, y ≥ 0
Solución.
En este problema, f (x, y) = −3x − 2y y g(x, y) = xy − 5, y estas no cum-
plen las condiciones del teorema 4, ya que la restricción no es cóncava ni
convexa, aunque, como se puede verificar fácilmente, ambas funciones son
cuasicóncavas. Por lo tanto, si alguna solución de las CPO satisface alguna
de las condiciones adicionales del teorema 5, será solución al problema. Las
condiciones de primer orden son
i) −3 − λy ≤ 0; −2 − λx ≤ 0; xy − 5 ≥ 0
ii) x(−3 − λy) = 0; y(−2 − λx) = 0; λ(xy − 5) = 0
Aquí sólo hay un caso de estudio: x > 0, y > 0. De ii), λ = − x2 6= 0 y
λ = − y3 6= 0; lo que implica x = 23 y. Entonces, de ii),
q q
x∗ = 10
3 , y∗ = 15
2
q
∂f 15
Como ∂x (x∗ ,y ∗ ) = 2 > 0, y para (x̄, ȳ) = (5, 5) se tiene que g(x̄, ȳ) =
20 > 0, entonces (x∗ , y ∗ ) es solución al problema (figura 2.15).
y

solución
•

x
Figura 2.15. Solución gráfica del ejemplo 18.
2.5. Optimización con restricciones de desigualdad 91

Ejemplo 19.
Resolvamos el problema:
Minimizar 7 − y + x2
sujeta a x+y ≤5
x, y ≥ 0
Solución.
En este problema, vamos a maximizar la función f (x, y) = −(7 − y + x2 ) con
restricción g(x, y) = 5 − x − y. Dado que la función objetivo es continua y
el conjunto de restricción es compacto, por el teorema 1 la función objetivo
alcanza un máximo global.

y•
solución

x
Figura 2.16. Solución gráfica del ejemplo 19.

Además, el problema satisface las condiciones de los teoremas 4 y 5; por lo

tanto, las soluciones de las CPO son las soluciones al problema de optimi-
zación. Estas condiciones de primer orden son:
i) −2x + λ ≤ 0; 1 + λ ≤ 0; 5−x−y ≥0
ii) x(−2x + λ) = 0; y(1 + λ) = 0; λ(5 − x − y) = 0
Analizamos cuatro casos:
1. Si x > 0, y > 0 entonces, de ii), λ = 2x 6= 0 y λ = −1, y esto implica
que x = − 12 , lo cual no satisface las condiciones.
2. Si x > 0, y = 0 entonces, de ii), λ = 2x 6= 0; y así, x = 5, y = 0,
λ = 10, lo cual no satisface λ ≤ 0, y, por lo tanto, no es solución.
3. Si x = 0, y > 0 entonces, de ii), λ = −1, y así, x = 0, y = 5, lo
cual satisface todas las condiciones, y, por consiguiente, es solución a
nuestro problema.
92 Capítulo 2. Optimización estática

4. Si x = 0, y = 0 entonces, de ii), λ = 0, lo cual no satisface 1 + λ ≤ 0,

así que no es solución.
Del análisis concluimos que
x∗ = 0, y∗ = 5
es la solución óptima al problema, y el mínimo de la función objetivo es
igual a 2 (ﬁgura 2.16).
Ejemplo 20.
Resolvamos el problema
Maximizar x(y + 4)
2
sujeta a x +y ≤8
x, y ≥ 0
Solución.
En este problema, f (x, y) = x(y + 4) y g(x, y) = 8 − x2 − y. Vemos que la
función objetivo es continua y el conjunto de restricción es compacto; por lo
tanto, por el teorema de Weierstrass, existe un máximo global. Además, se
cumplen las condiciones del teorema 4 (ambas funciones son cuasicóncavas
y la restricción es convexa), de tal forma que entre las condiciones de primer
orden está la solución al problema. Las CPO son
i) y + 4 + 2λx ≤ 0; x + λ ≤ 0; 8 − x2 − y ≥ 0
ii) x(y + 4 + 2λx) = 0; y(x + λ) = 0; λ(8 − x2 − y) = 0
Analizamos cuatro casos:
1. Si x > 0, y > 0 entonces, de ii), λ = − y+4
2x 6= 0 y λ = −x 6= 0, lo que
implica x2 = y+4
2 , y de ii), x2 = 8 − y. Así, x∗ = 2, y ∗ = 4, λ∗ = −2.

2. Si x > 0, y = 0 entonces, de ii), λ = − y+4

2x 6= 0, y nuevamente de la
√
condición ii), x∗ = 2 2, y ∗ = 0, λ∗ = − √12 , que no satisfacen i).

3. Si x = 0, y > 0 entonces, de ii), λ = −x = 0, y así de i), y ≤ −4, lo

que no satisface la condición y ≥ 0.
4. Si x = 0, y = 0 entonces, de ii), λ∗ = 0; pero esto no satisface la
condición i) y + 4 + 2λx ≤ 0.
Vemos que 1. es la única solución a las CPO y, por tanto, el óptimo está en
x∗ = 2, y ∗ = 4, λ∗ = −2
y el valor máximo es 16 (ﬁgura 2.17).
2.5. Optimización con restricciones de desigualdad 93
y

solución
•

Figura 2.17. Solución gráfica del ejemplo 20.

2.5.2. El teorema de la envolvente

Hasta ahora parecería que los multiplicadores de Lagrange (λ) son sólo pa-
rámetros convenientes de ajuste para la solución del problema tipo Lagrange

Maximizar f (x,y)
sujeta a g(x, y) = 0 (L)
x, y > 0

Sin embargo, esto no es del todo cierto. Los valores de λ nos dan infor-
mación muy valiosa sobre el óptimo al cual están asociados: miden cierta
sensibilidad del valor óptimo de la función objetivo f (x, y) con respecto a
ciertas variaciones de la función g(x, y). Para verlo, escribamos primero (y
de nuevo) las condiciones de primer orden para un óptimo (x∗ , y ∗ , λ∗ ) (con
x∗ , y ∗ > 0) del problema (L):

∂f ∂g
− λ∗ =0
∂x (x∗ ,y∗ ) ∂x (x∗ ,y∗ )

∂f ∂g
− λ∗ =0 (*)
∂y (x∗ ,y∗ ) ∂y (x∗ ,y∗ )
g(x, y) = 0

Ahora: si, en vez, nuestro problema de Lagrange fuera:

Maximizar f (x,y)
sujeta a g(x, y) = a a 6= 0 (L’)
x, y > 0
94 Capítulo 2. Optimización estática

una pregunta legítima es: ¿cómo varía la nueva solución con respecto a la so-
lución original (x∗ , y ∗ )? Para responder esto, supongamos que x∗ (a), y ∗ (a)
son las nuevas soluciones. Entonces, sea

L(x(a), y(a), λ) ≡ f (x(a), y(a)) − λ [g(x(a), y(a)) − a] (**)

la función lagrangiana evaluada en funciones diferenciables de la forma

x(a), y(a) , donde x(0) = x∗ y y(0) = y ∗ . Derivando con respecto a a,
obtenemos
∂L ∂f ∂x ∂f ∂y ∂g ∂x ∂g ∂y
= + −λ −λ +λ
∂a ∂x ∂a ∂y ∂a ∂x ∂a ∂y ∂a

Evaluando en (x∗ , y ∗ ), obtenemos que

!
∂L ∂f ∂g ∂x
= −λ +
∂a (x∗ ,y∗ )
∂x (x∗ ,y∗ ) ∂x (x∗ ,y∗ ) ∂a
!
∂f ∂g ∂y
−λ + λ
∂y (x∗ ,y∗ ) ∂y (x∗ ,y∗ ) ∂a
Pero, de (*), los dos primeros términos del lado derecho de la última igualdad
se anulan, y esto arroja el resultado:

∂L
=λ
∂a (x∗ ,y∗ )

Y de la deﬁnición de L(·) en (**), y del hecho de que x∗ (a), y ∗ (a) es la
solución al problema (L’), es claro que

∂L ∂f
=
∂a (x∗ (a),y∗ (a)) ∂a (x∗ (a),y∗ (a))

Por lo tanto,
∂f
=λ
∂a (x∗ (a),y∗ (a))
Así, el multiplicador λ es la tasa de cambio del valor máximo de la función
objetivo, con respecto a un cambio en el parámetro a de la restricción. Esta
ecuación de sensibilidad del problema del lagrangiano es una versión del que
se conoce también como teorema de la envolvente (ver teorema 6).

La importancia de la ecuación de sensibilidad se ve claramente en el caso

en que λ = 0. Es el caso del ejemplo 13, donde la solución al problema es
2.5. Optimización con restricciones de desigualdad 95

x∗ = y ∗ = 1/2 y λ∗ = 0. Aquí, esta nulidad del multiplicador λ signiﬁca que

pequeñas variaciones de la función g(x, y) = 5 − x − y no arrojará ningún
cambio en el valor del óptimo f ( 21 , 12 ) = 0. Así, a mayor valor absoluto de λ,
mayor será el cambio de la valoración en el óptimo al cual λ está asociado.

Nota 4.
Quizás no sobre aclarar que en el problema de Kühn-Tucker, la ecuación de
sensibilidad es exactamente igual y la prueba es similar. N

Pero aunque al anterior resultado se le puede considerar un “teorema de la

envolvente”, a continuación presentamos su versión más conocida y general,
e invitamos al lector a probarlo (no es difícil) e interpretarlo adecuadamente
(ﬁgura 2.18).
Sean f (x, y, a) y g(x, y, a) funciones diferenciables con continuidad sobre
R3 , donde (x, y) ∈ R2 , a ∈ R, y consideremos el problema de máximo de
Kühn-Tucker

Maximizar f (x, y, a)
sujeta a g(x, y, a) ≥ 0
x, y ≥ 0

Deﬁnamos la función de valor máximo como F (a) = f (x(a), y(a), a) donde

el punto (x(a), y(a)) resuelve el problema de optimización para un valor de
a particular. Y entonces tenemos el resultado:

L(x(a), y(a), λ)

a
Figura 2.18. El teorema de la envolvente.

Teorema 6. (Teorema de la envolvente)

∂F (a) ∂L(x, y, λ)
=
∂a ∂a (x(a),y(a))
96 Capítulo 2. Optimización estática

donde L(x(a), y(a), λ) es la función lagrangiana

L(x(a), y(a), λ) ≡ f (x(a), y(a), a) − λ [g(x(a), y(a), a)] (***)

Una aplicación típica del teorema de la envolvente es la siguiente: puesto

que para a, b, α, Q > 0 cantidades conocidas, el problema de optimización

Minimizar ax + by
sujeta a xy = Qα
x, y > 0

tiene como solución

1/2 1/2
aQα bQα
x∗ = , y∗ =
b a

entonces, si deﬁnimos C(a, b, Q) = ax∗ + by ∗ , se tendrá que C(a, b, Q) =

2(ab)1/2 Qα/2 , y así, por el teorema de la envolvente (teorema 6), llegaremos
a que
∂C α
= α(ab)1/2 Q 2 −1
∂Q
Es decir, la importancia del teorema de la envolvente consiste en que permite
realizar operaciones de derivación directamente sobre las soluciones a los
problemas de optimización, sin tener que regresar a este, de nuevo, ante
cualquier cambio en los parámetros ﬁjos.

Ejercicios 4
1. Resuelva analíticamente (utilizando los teoremas apropiados y encon-
trando las soluciones explícitamente) e ilustre gráﬁcamente los siguien-
tes problemas:

a) Minimizar (x − 1)2 + (y − 2)2 b) Maximizar x2 y 2

sujeta a y ≥ x2 + 1 sujeta a 3x + 4y ≤ 12
x, y ≥ 0 x, y ≥ 0

c) Maximizar yex d) Minimizar 5x + 2y

sujeta a 2x + 8y ≤ 50 sujeta a 7x + 9y ≥ 15
x, y ≥ 0 x, y ≥ 0
2.6. Optimización lineal: el método simplex 97

1 1 1
e) Minimizar 3x 3 + 5y 3 f) Maximizar 3 ln x + y 2
sujeta a x+y =2 sujeta a 2x + 7y ≤ 90
x, y ≥ 0 x, y ≥ 0

2. De todos los óptimos calculados en este capítulo 2, ¿cuál es (o cuáles

son) más sensibles a cambios en la respectiva restricción? [Sugerencia:
aplicar el teorema de la envolvente].

2.6. Optimización lineal: el método simplex

La optimización lineal (también conocida como programación lineal)7 con-
siste en optimizar una función lineal, restringida por funciones lineales. Se
aﬁrma que nació durante la Segunda Guerra Mundial, y que, después de
esta, crecería rápidamente debido a los esfuerzos conjuntos de matemáticos
y estadísticos por resolver problemas concretos del ejército norteamericano.
No obstante, el primer resultado general conocido sobre programación lineal
apareció en la Unión Soviética con la tesis de maestría de William Karush de
1939, aunque el Premio Nobel de Economía (1975) Leonid V. Kantorovich
[1912-1986], también en 1939, había ya propuesto modelos de programación
lineal para estudios de planeación de producción y un algoritmo de solución.
Pero los trabajos de Karush y Kantorovich fueron ignorados en la Unión So-
viética de entonces, y así permanecieron hasta la creación en 1947 (Dantzig,
1949) del muy útil método simplex de George B. Dantzig [1914-2005], que
fuera inspirado en el análisis insumo-producto de Wassily Leontief (1936)
–ver volumen I (Álgebra lineal y cálculo en varias variables)–.
Dantzig, a quien se le considera el “padre de la programación lineal” junto
con John von Neumann y el mismo Kantorovich, trabajó durante y después
de la Segunda Guerra Mundial en la Fuerza Aérea de los Estados Unidos.
Su objetivo era crear modelos matemáticos prácticos de planeación y pro-
gramación de asuntos de asignación en las tropas (de allí el término militar
“programación” que se le da a esta área de la optimización matemática).
De hecho, el origen mismo del método simplex para resolver problemas de
optimización lineal surgió en la conformación de una dieta apropiada para
estas tropas. Era un problema de 77 variables que requirió 120 días-hombre
para resolverlo manualmente, utilizando calculadoras de escritorio: hace un
7
Término acuñado por Tjalling Koopmans en conversación con Dantzig en 1947 (Dan-
tzig, 1949).
98 Capítulo 2. Optimización estática

poco más de 50 años no había los suﬁcientes desarrollos para resolver este
problema en segundos, como lo hacemos hoy.

En la década de 1960, con el advenimiento de hardware, software y algo-

ritmos, muchos problemas de programación lineal pudieron ser resueltos
mediante el método simplex en los primeros computadores conocidos en ese
entonces. Durante cierto tiempo, Dantzig y sus colegas estudiaron numero-
sas situaciones tomadas de la experiencia de la Segunda Guerra Mundial,
y mostraron que muchas de ellas podían (con cierta aproximación) conver-
tirse al formato que hoy conocemos de la programación lineal. Dantzig y
su grupo (particularmente, Jack Laderman) continuaron probando su mé-
todo simplex, y encontraban que, a pesar de las dudas iniciales, funcionaba
realmente bien.

Así, acompañándose del desarrollo de los computadores, Dantzig comenzó

a soñar con un “laboratorio de optimización de sistemas”. Problemas de
planeación urbana, sistemas de transporte, diseño de mecanismos óptimos
en ecología, biología, medicina, economía, etc., comenzaron a tener, por
primera vez en la historia de las matemáticas, una posibilidad de tratamiento
analítico uniﬁcado. Desde la década de 1960, el método simplex ha venido
siendo explorado exhaustivamente por numerosos investigadores, y estos
cambios han transformado notablemente el que es, quizás, el más socorrido
método en la teoría de la optimización matemática.

2.6.1. El problema y su solución gráfica

El problema central de la optimización lineal es escoger valores no-negativos

de ciertas variables que maximicen o minimicen una función lineal (dada)
sujeta a un conjunto (dado) de restricciones lineales. Es decir, el problema
canónico de programación lineal (PL) es resolver

Maximizar c1 x1 + c2 x2 + · · · + cn xn
sujeta a a11 x1 + a12 x2 + · · · + a1n xn ≤ b1 (PL)
a21 x1 + a22 x2 + · · · + a2n xn ≤ b2
.. .. .. .. .. ..
. . . . . .
am1 x1 + am2 x2 + · · · + amn xn ≤ bm

donde x1 ≥ 0, x2 ≥ 0, . . . , xn ≥ 0; y c1 , ..., cn ; a11 , ..., amn ; b1 , b2 , ..., bm son

2.6. Optimización lineal: el método simplex 99

constantes. En forma matricial, esto se puede escribir así:

Maximizar cT x
sujeta a Ax ≤ b
x≥0

donde c = (ci )ni=1 , x = (xi )ni=1 , b = (bi )m

i=1 , A = (aij )i=1,...,m . Aquí la
j=1,...,n
condición x ≥ 0 signiﬁca que xi ≥ 0 para todo i = 1, . . . , n. De la misma
manera para Ax ≤ b. Si x ∈ Rn satisface la restricción Ax ≤ b, se dice que
x es factible.
Claramente este es un caso particular del problema de optimización de
Kühn-Tucker, en el que las funciones objetivo y las restricciones son, todas,
lineales. Sin embargo, aquí estudiaremos un algoritmo de solución (método
simplex), diferente del método de Kühn-Tucker, que se adapta mejor a este
tipo particular de problemas.8

Ejemplo 21. (El problema de la dieta)

El problema de la dieta –originado en Stigler (1945) y desarrollado por
Dantzig y Laderman, en 1947 (ver Dorfman et al, 1958)– es un clásico en
la literatura de la optimización lineal, porque fue el primer problema eco-
nómico resuelto mediante este método. Al igual que muchos otros modelos
matemáticos, este comenzó siendo sólo un ejemplo y un campo de prue-
bas del método de optimización lineal, pero terminó teniendo inesperadas e
importantes aplicaciones prácticas.
El hecho central del modelo es que una dieta adecuada debería satisfacer
ciertas especiﬁcaciones (calorías, vitaminas, etc.) y que esta calidad de la
dieta se mide sumando las calidades de estas componentes. Un ejemplo
simple es este: Supongamos que sólo tenemos tres elementos nutricionales:
1 (calorías), 2 (vitaminas), 3 (proteínas), con estándares mínimos diarios
de 700, 400 y 300 unidades, respectivamente. Asumamos que hay dos clases
de alimentos x1 , x2 , y que hay una cantidad constante de cada elemento
nutricional en cada unidad de cualquiera de los alimentos. Esta hipótesis
hace que el problema se pueda analizar con el instrumento de la optimización
lineal, pues, en deﬁnitiva, la información se puede resumir en una tabla
(matriz) como la de abajo, donde aij (i = 1, 2, 3; j = 1, 2) es el número de
unidades del elemento nutricional i que está contenido en el alimento j. Allí
8
Debe advertirse, sin embargo, que la historia del pensamiento matemático es al revés:
Kühn y Tucker se inspiraron en la programación lineal de Dantzig para desarrollar su
método dirigido a problemas de optimización no-lineal.
100 Capítulo 2. Optimización estática

asumimos que a11 = 1, a21 = 2, a31 = 1, y que a12 = 3, a22 = 1, a32 = 1

(de aquí, podemos decir que el alimento 2 tiene tres veces más calorías que
el alimento 1, la mitad de las vitaminas y la misma cantidad de proteínas).
Alimentos Estándares
x1 x2 mínimos

1 (calorías) a11 a12 b1 = 700

2 (vitaminas) a21 a22 b2 = 400

3 (proteínas) a31 a32 b3 = 200

Para completar el problema, sean p1 , p2 los precios (de mercado) por unidad
de los alimentos. Si x, y son las cantidades a consumir (en las unidades
adecuadas) de cada uno de los alimentos, entonces esta dieta cuesta
z = p1 x + p 2 y
Asumamos p1 = 2 y p2 = 12. La pregunta que buscamos contestar es: ¿cómo
conformamos una dieta que, cumpliendo con los estándares mínimos, resulte
lo menos costosa posible? Es decir, debemos resolver, para x, y:
Minimizar 2x+12y
sujeta a x + 3y ≥ 700
2x + y ≥ 400
x + y ≥ 200
x, y ≥ 0
Para atacar este problema podemos, primero, recurrir al método gráﬁco:
De la ﬁgura 2.19, y con un poco de álgebra elemental, obtenemos que la
solución es x∗ = 700 unidades del alimento 1, y ∗ = 0 unidades del alimento
2, y el costo de la dieta que satisface los estándares mínimos es 1400.
Pero también podemos encontrar la solución utilizando el método de Kühn-
Tucker. Sabemos que el problema tiene solución, y que esta se encuentra
entre las CPO, ya que se cumplen las condiciones del teorema 5. Las CPO
son:
i) −2 − λ1 − 2λ2 − λ3 ≤ 0 ; −12 − 3λ1 − λ2 − λ3 ≤ 0 ; x + 3y ≥ 700

2x + y ≥ 400 ; x + y ≥ 200
2.6. Optimización lineal: el método simplex 101

ii) x(−2 − λ1 − 2λ2 − λ3 ) = 0 ; y(−12 − 3λ1 − λ2 − λ3 ) = 0

λ1 (x+ 3y −700) = 0 ; λ2 (2x+y −400) = 0 ; λ3 (x+y −200) = 0

Dado que x y y no pueden ser cero simultáneamente, debemos analizar

únicamente tres casos:

1. Si x > 0, y > 0 entonces, de II), λ1 + 2λ2 + λ3 = −2 y 3λ1 + λ2 + λ3 =

−12. Esto nos conduce a tres situaciones:

a) Si λ1 = 0 entonces λ2 = 10 y λ3 = −22, y nuevamente por II),

x∗ = 200, y ∗ = 0, lo cual no satisface y > 0 ni λ2 ≤ 0.
b) Si λ2 = 0 entonces λ1 = −5 y λ3 = 3, que no satisface λ3 ≤ 0.
c) Si λ3 = 0 entonces λ1 = − 22 6
5 y λ2 = 5 , lo cual no satisface λ2 ≤ 0.

2. Si x > 0, y = 0 entonces, de II), λ1 + 2λ2 + λ3 = −2. Y aquí tenemos,

nuevamente, tres casos:

a) Si λ1 = λ2 = 0, entonces λ3 = −2 y de II), x∗ = 200, que no

satisface I).
b) Si λ1 = λ3 = 0, entonces λ2 = −1, y de II), x∗ = 200, y esto no
satisface I).
c) Si λ2 = λ3 = 0, entonces λ1 = −2 y, de II), x∗ = 700, y ∗ = 0. (esta,
sabemos, es la solución. ¿Puede decir el lector por qué?)

3. Si x = 0, y > 0, entonces de II), 3λ1 + λ2 + λ3 = −12. Tenemos, de

nuevo, tres casos:

a) Si λ1 = λ2 = 0, entonces λ3 = −12 y de II), y ∗ = 200, que no

satisface I).
b) Si λ1 = λ3 = 0, entonces λ2 = −12, lo que no satisface I).
c) Si λ2 = λ3 = 0, entonces λ1 = −4, que no satisface I).

Por lo tanto, la solución es x∗ = 700, y ∗ = 0, y el costo de la dieta es 1400,

tal y como lo habíamos calculado (más simplemente) utilizando la ﬁgura
2.19.
102 Capítulo 2. Optimización estática
y

800

600

400

200
solución
0 •
x
0 200 400 600 800
Figura 2.19. Solución gráfica del problema de la dieta.

Ejemplo 22. [El problema del transporte (Dantzig, 1949)]

Otro de los problemas clásicos de programación lineal es el problema del
transporte que consiste en lo siguiente: una compañía necesita enviar cierto
producto desde m lugares a n destinos. Supongamos que ai unidades del
producto están disponibles en el origen i-ésimo, con i = 1, . . . , m; y se
requieren bj unidades en el destino j, j = 1, . . . , n. Además, supongamos
que la cantidad total disponible en los distintos orígenes iguala la cantidad
total requerida en los distintos destinos; es decir,
m
X n
X
ai = bj
i=1 j=1

Si el costo de enviar una unidad de producto desde el origen i hasta el

destino j es cij , ¿cuántas unidades del producto deberían ser despachadas
entre cada par origen-destino, de tal manera que se minimice el costo total
de transporte? Deﬁniendo xij como el número de unidades del producto que
se despachan desde el origen i al destino j, podemos formular este problema
así:
m X
X n
Minimizar cij xij
i=1 j=1
Xn
sujeta a xij = ai
j=1
Xm
xij = bj
i=1
xij ≥ 0
2.6. Optimización lineal: el método simplex 103

donde i = 1, . . . , n; j = 1, . . . , m. Ahora: para simpliﬁcar, supongamos que

m = n = 2 y que las unidades disponibles en los orígenes 1 y 2 son a1 = 5 y
a2 = 2 respectivamente, mientras que las unidades requeridas en los destinos
1 y 2 son b1 = 4 y b2 = 3. Por último, supongamos que los costos de
transporte vienen determinados por la siguiente tabla:
Destino 1 Destino 2
Origen 1 10 20
Origen 2 20 40

Todo esto nos lleva a que nuestro problema es:

Minimizar 10x11 + 20x12 + 20x21 + 40x22

sujeta a x11 + x12 = 5
x21 + x22 = 2
x11 + x21 = 4
x12 + x22 = 3
xij ≥ 0

Aquí, infortunadamente, no podemos solucionar gráﬁcamente, pues el pro-

blema tiene más de dos variables. Pero dado que existen cuatro incógnitas
y cuatro restricciones, la solución al problema debe estar entre las solu-
ciones al sistema de ecuaciones lineales; por lo tanto, podemos utilizar el
método gaussiano de solución –volumen I (Álgebra lineal y cálculo en varias
variables)– para encontrar (si es posible) la solución a nuestro problema.
Tratemos primero de solucionar el sistema, para lo cual restamos la terce-
ra restricción de la primera y la cuarta de la segunda, de tal forma que
obtenemos
x12 − x21 = 1
−x12 + x21 = −1
x11 + x21 = 4
x12 + x22 = 3

Vemos que la primera y la segunda igualdad son linealmente dependientes;

por lo tanto, el sistema tiene la siguiente forma:
x11 = 4 − x21
x12 = 1 + x21
x22 = 2 − x21
104 Capítulo 2. Optimización estática

Para que la solución del sistema sea factible, es decir, que cumpla todas las
restricciones del problema, debe ser 0 ≤ x21 ≤ 2. Por otro lado, los costos de
transporte tienen el orden c11 < c12 = c21 < c22 , de tal forma que lo menos
económico es enviar desde el origen 2 al destino 2, y lo más económico es
enviar del origen 1 al destino 1. Por lo tanto, el plan óptimo debe enviar lo
menos posible del origen 2 al destino 2, y esto se logra tomando x21 = 2. De
esta forma, x11 = 2, x12 = 3, x22 = 0. Vemos que este plan es factible y su
costo es 120, que, a su vez, es el mínimo costo de envío de productos entre
los orígenes y destinos.

2.6.2. El algoritmo simplex

Aunque el método gráﬁco puede ser útil en problemas en dos dimensiones, no
lo es para problemas de orden superior. También vemos que el método Kühn-
Tucker es demasiado engorroso en estos casos especíﬁcos. Por tal razón,
debemos recurrir a otros métodos de solución. Una forma alternativa de
atacar el problema es el ya comentado método simplex desarrollado por
Dantzig. Para aplicar este método, lo primero que se hace es convertir las
desigualdades de las restricciones del problema (PL) en ecuaciones. Para
ello, se utilizan ciertas variables s = (s1 , . . . , sm ) ≥ 0, llamadas variables de
holgura, donde cada si se utiliza para asegurar que la i-ésima restricción se
cumpla estrictamente. Así, nuestro problema (PL) se convierte en
Maximizar c1 x1 + c2 x2 + · · · + cn xn
sujeta a a11 x1 + a12 x2 + · · · + a1n xn + s1 = b1
a21 x1 + a22 x2 + · · · + a2n xn + s2 = b2
.. .. .. .. .. ..
. . . . . .
am1 x1 + am2 x2 + · · · + amn xn + sm = bm
x1 ≥ 0, x2 ≥ 0, . . . , xn ≥ 0
s1 ≥ 0, s2 ≥ 0, . . . , sm ≥ 0
o, en forma matricial,
Maximizar cT x
sujeta a Ax + Is = b
x≥0
s≥0
donde I = Im es la matriz identidad de tamaño m × m, y donde, sin pérdida
de generalidad, suponemos b ≥ 0.
2.6. Optimización lineal: el método simplex 105

Ejemplo 23.
a) El problema de programación lineal
Maximizar 3x+2y
sujeta a x + 2y ≤ 5
3x + 4y ≤ 8
2x + y ≤ 4
x, y ≥ 0
se puede escribir, introduciendo las variables de holgura s1 , s2 , s3 , de esta
forma:
Maximizar 3x+2y
sujeta a x + 2y + s1 = 5
3x + 4y + s2 = 8
2x + y + s3 = 4
x, y ≥ 0
s1 ≥ 0, s2 ≥ 0, s3 ≥ 0

b) De forma similar, el problema

Maximizar 3x + 7y+10z
sujeta a 4x + y + 2z ≤ 3
7x + 3y + z ≤ 4
x + 5y + 4z ≤ 6
x, y ≥ 0
z≥0
lo podemos escribir como:
Maximizar 3x + 7y + 10z
sujeta a 4x + y + 2z + s1 = 3
7x + 3y + z + s2 = 4
x + 5y + 4z + s3 = 6
x, y ≥ 0
z≥0
s1 ≥ 0, s2 ≥ 0, s3 ≥ 0
introduciendo las variables de holgura s1 , s2 , s3 .
106 Capítulo 2. Optimización estática

Definición 3. (Variables básicas y no-básicas)

Supongamos un sistema (PL) con restricciones de m ecuaciones lineales
con n variables, x1 , . . . , xn , donde n > m, y que, arbitrariamente, podemos
elegir n − m variables xm+1 , xm+2 , . . . , xn , de tal forma que las restantes
m variables x1 , . . . , xm se puedan expresar en términos de ellas. Entonces
a x1 , . . . , xm las llamaremos variables básicas y a xm+1 , xm+2 , . . . , xn las
llamaremos variables no-básicas.
Ejemplo 24.
a) En el problema
Maximizar 3x+2y
sujeta a x + 2y + s1 = 5
3x + 4y + s2 = 8
2x + y + s3 = 4
x, y ≥ 0
s1 ≥ 0, s2 ≥ 0, s3 ≥ 0
tres variables básicas en el sistema de restricciones son las variables de
holgura s1 , s2 , s3 , ya que podemos expresarlas como
s1 = 5 − x − 2y
s2 = 8 − 3x − 4y
s3 = 4 − 2x − y

b) De manera similar, en el problema

Maximizar 3x + 7y + 10z
sujeta a 4x + y + 2z + s1 = 3
7x + 3y + z + s2 = 4
x + 5y + 4z + s3 = 6
x, y ≥ 0
z≥0
s1 ≥ 0, s2 ≥ 0, s3 ≥ 0
también tres variables básicas en el sistema de restricciones son las va-
riables de holgura s1 , s2 , s3 , ya que podemos expresarlas como
s1 = 3 − 4x − y − 2z
s2 = 4 − 7x − 3y − z
s3 = 6 − x − 5y − 4z N
2.6. Optimización lineal: el método simplex 107

Ahora que hemos convertido el problema (PL) en un problema con restric-

ciones de igualdad, podemos reescribirlo como un sistema de ecuaciones de
la siguiente forma:
a11 x1 + a12 x2 + · · · + a1n xn + s1 = b1
a21 x1 + a22 x2 + · · · + a2n xn + s2 = b2
.. .. .. .. ..
. . . . .
am1 x1 + am2 x2 + · · · + amn xn + sm = bm
c1 x1 + c2 x2 + · · · + cn xn + 0s1 + · · · + 0sm = f
o, en conveniente forma matricial,
Ax + Is = b
c x + 0T s = f
T

donde f representa el valor de la función objetivo. Si pensamos en el vector

de variables como (x, s) podemos representar este sistema por medio de la
tabla (o matriz) simplex siguiente. A los elementos de la última ﬁla de esta
matriz que son diferentes de f , se les conoce como indicadores.
 
a11 a12 ··· a1n 1 0 ··· 0 b1
 

 a21 a22 ··· a2n 0 1 ··· 0 b2 
 
 .. .. .. .. .. .. .. .. .. 
 . . . . . . . . . 
 
 
am1 am2 · · · amn 0 0 · · · 1 bm 
 
c1 c2 ··· cn 0 0 ··· 0 f
o  
A I b
 
c 0 f

Ejemplo 25.
a) El problema
Maximizar 3x+2y
sujeta a x + 2y + s1 = 5
3x + 4y + s2 = 8
2x + y + s3 = 4
x, y ≥ 0
s1 ≥ 0, s2 ≥ 0, s3 ≥ 0
108 Capítulo 2. Optimización estática

lo representamos, entonces, por la matriz simplex

 
1 2 1 0 0 5
 
 3 4 0 1 0 8 
 
 
 2 1 0 0 1 4 
 
3 2 0 0 0 f

b) Asimismo, el problema

Maximizar 3x + 7y + 10z
sujeta a 4x + y + 2z + s1 = 3
7x + 3y + z + s2 = 4
x + 5y + 4z + s3 = 6
x, y ≥ 0
z≥0
s1 ≥ 0, s2 ≥ 0, s3 ≥ 0

lo representamos por la matriz simplex

 
4 1 2 1 0 0 3
 
 7 3 1 0 1 0 4 
 
 
 1 5 4 0 0 1 6 
 
3 7 10 0 0 0 f

Hagamos ahora una aproximación al método simplex. En primer lugar, es

claro que si en el problema (PL) se tiene que los indicadores ci son menores o
P
iguales a cero, entonces, para maximizar i ci xi , debe tomarse x = 0 como
solución óptima. Pero si algún cj es positivo, entonces se debe asignar a la
variable xj el máximo valor “posible”, es decir, el valor de xj debe permitir
una asignación factible a las restantes variables. Para esto observemos que
en la restricción

ai1 x1 + · · · + aij xj + · · · + ain xn + si = bi

donde aij > 0 el valor máximo que puede tomar xj es bi /aij , tomando las
demás variables como cero; pero puede suceder que al reemplazar este valor
2.6. Optimización lineal: el método simplex 109

en otra restricción donde akj > 0, se tenga que asignar valores no permitidos
a las demás variables. Por ejemplo en

4x + y + s1 = 8
2x + s2 = 1

si tomamos el valor de x como 8/4 = 2, entonces s2 = −3, y esto no es

posible. Por lo tanto se debe tomar aquella ecuación donde el factor bi /aij
sea mínimo y aij > 0, dado que esto permitirá una asignación factible en
las demás ecuaciones si este es el valor óptimo para la variable xj .
Después de encontrar la ecuación que permite una asignación factible en
las variables del problema, podemos pasar a resolver esta ecuación para xj ,
encontrando que
1
xj = [bi − si − ai1 x1 − ai2 x2 − · · · − aij−1 xj−1 − aij+1 xj+1 − · · · − ain xn ]
aij
y luego reemplazar esta expresión en las otras ecuaciones, obteniendo el
nuevo sistema
a1j bi a1j
a11 x1 + a12 x2 + · · · + a1n xn + s1 − si = b1 −
aij aij
a2j bi a2j
a21 x1 + a22 x2 + · · · + a2n xn + s2 − si = b2 −
aij aij
.. .. .. ..
. . . .
1 bi
ai1 x1 + ai2 x2 + · · · + ain xn + si =
aij aij
.. .. .. ..
. . . .
amj bi amj
am1 x1 + am2 x2 + · · · + amn xn + sm − si = bm −
aij aij
donde
aik
aij = 1; ahj = 0, h 6= i; aik = , k 6= j
aij
aik ahj
ahk = ahk − , h 6= j , k 6= j
aij
y, por tanto, el nuevo f está dado por
n
! !
X ai1 cj ai2 cj
ci xi = c1 − x1 + c2 − x2 + · · · +
i
aij aij
110 Capítulo 2. Optimización estática
!
ain cj cj cj
+ cn − xn + bi − si
aij aij aij
donde podemos repetir el proceso anterior hasta que los indicadores sean
menores o iguales a cero.9
Según lo anterior, el método simplex consiste en utilizar operaciones elemen-
tales entre ﬁlas hasta hacer que todos los indicadores sean números negativos
o ceros, ya que entonces se habrá encontrado el máximo f . Para hacer de
este proceso uno algorítmico, Dantzig sugería seguir los siguientes pasos:

Algoritmo 1. [Método simplex (Dantzig, 1949)]

Paso 1. En la tabla simplex elija entre las n − 1 primeras columnas, la

columna j que tenga el mayor indicador positivo. Si hay más de
una columna con el mismo valor, elija cualquiera de estas.

Paso 2. Para los elementos aij > 0 de la columna j elegida anteriormente,

deﬁna el elemento pivote de la columna j como
( )
bi
a∗ij = arg mı́n
aij >0 aij

es decir, el pivote es el elemento positivo de la columna j de la

bi
matriz A que hace que sea mínimo.
aij
Paso 3. Una vez elegido el pivote a∗ij , realice operaciones elementales sobre
las ﬁlas de la tabla simplex utilizando siempre transformaciones de
la ﬁla i, hasta que el elemento pivote sea igual a 1, y el resto de
elementos de la columna j (incluido el indicador de esa columna)
sean cero.

Paso 4. Veriﬁque que todos los indicadores sean no-positivos. En caso dado,
deténgase; de lo contrario, regrese al paso 1.

Si todos los indicadores son no-positivos, se habrá alcanzado el máximo

valor de f . El valor de las variables no-básicas es cero, y el de las variables
básicas está dado por el valor de la última columna de la tabla simplex en
la ﬁla en donde se puede despejar la variable básica. El valor óptimo f está
dado en la última entrada de la tabla simplex.

9
En algunos casos no es posible llegar a este objetivo, significando la no-existencia de
una solución.
2.6. Optimización lineal: el método simplex 111

Ejemplo 26.

a) Para ilustrar el método, regresemos a la tabla simplex del ejemplo 25a):

 
1 2 1 0 0 5
 
 3 4 0 1 0 8 
 
 
 2 1 0 0 1 4 
 
3 2 0 0 0 f

Entre las primeras 5 columnas, la que tiene el mayor indicador es la

columna 1, así que el pivote estará en esa columna. Calculamos
b1 b2 8 b3
= 5; = ; =2
a11 a21 3 a31
y, por tanto, el pivote es a∗31 . Utilizando la tercera fila, realicemos ahora
las siguientes operaciones fila básicas: dividimos la fila 3 entre 2; restamos
la fila 3 de la fila 1; multiplicamos la fila 3 por 3 y restamos de la fila 2;
y, multiplicamos la fila 3 por 3 y luego restamos de la fila 4. Obtenemos,
entonces, la siguiente tabla simplex:
 
3
0 2 1 0 − 12 3
 
 0 5
0 1 − 32 2 
 2 
 
 1 1
0 0 1
2 
 2 2 
1
0 2 0 0 − 32 f −6

Como se tiene un indicador positivo, regresamos al paso 1. La columna

con el mayor indicador es la columna 2, y el pivote es el elemento a∗22 ,
ya que
b1 b2 4 b3
= 2, = , =4
a12 a22 5 a32
Realizando operaciones elementales con la segunda ﬁla, obtenemos la
tabla simplex
 
0 0 1 − 53 2
5
9
5
 
 0 1 0 2
− 35 4 
 5 5 
 
 1 0 0 − 51 4 8 
 5 5 
0 0 0 − 51 − 65 f− 32
5
112 Capítulo 2. Optimización estática

Como todos los indicadores son no-positivos, hemos encontrado el ópti-

mo, donde x∗ = 58 , y ∗ = 45 , s∗1 = 95 , s∗2 = s∗3 = 0 y el valor máximo es
32 ∗
5 . Pero, puesto que s1 6= 0, tendremos que la primera restricción en el
problema original se satisface estrictamente.
b) Por su parte, la tabla simplex del ejemplo 25b) es:
 
4 1 2 1 0 0 3
 
 7 3 1 0 1 0 4 
 
 
 1 5 4 0 0 1 6 
 
3 7 10 0 0 0 f
La columna con el mayor indicador positivo es la 3, y como
b1 3 b2 b3 3
= , = 4, =
a13 2 a23 a33 2
tenemos dos elementos que pueden ser el pivote. Tomemos el elemento
a∗13 . Realizando operaciones básicas entre ﬁlas, tenemos la siguiente tabla
simplex:
 
1 1 3
2 2 1 2 0 0 2
 
 5 5
0 − 12 1 0 5 
 2 2 
 
 −7 3 0 −2 0 1 0 
 
−17 2 0 −5 0 0 f − 15
Ahora el mayor indicador positivo está en la columna 2, y el pivote es
a∗32 , ya que:
b1 b2 b3
= 3, = 1, =0
a12 a22 a32
Utilizando de nuevo operaciones elementales entre ﬁlas obtenemos la
siguiente tabla simplex:
 
19 5 3
6 0 1 6 0 0 2
 
 65
0 0 7
1 − 65 5 
 6 6 2 
 
 − 73 1 0 − 23 0 1
0 
 3 
− 373 0 0 − 11
3 0 − 32 f − 15
Como todos los indicadores son no-positivos, tenemos que en el óptimo
3
x∗ = 0, y ∗ = 0, z∗ =
2
2.6. Optimización lineal: el método simplex 113

Además, la segunda restricción del problema original se satisface estric-

tamente, y el valor óptimo de la función es 15.

2.6.3. El teorema de dualidad

Ya vimos cómo resolver un problema de máximo utilizando el método sim-
plex. Ahora queremos dar respuesta a dos interrogantes: primero, cómo re-
solver un problema de mínimo utilizando el mismo método; segundo, cómo
cambia la solución óptima ante cambios (pequeños) en las restricciones. Para
ello, relacionamos el problema canónico (PL)
Maximizar cT x (PL)
sujeta a Ax ≤ b
x≥0
(que, de ahora en adelante, llamaremos problema primal) con el siguiente
problema dual (PD)
Minimizar bT y (PD)
T
sujeta a A y≥c
y≥0
donde y ∈ Rm
+ , c y b son iguales a los del problema primal.

Ejemplo 27.
a) El problema dual del ejemplo 23a) es
Minimizar 5x′ + 8y ′ + 4z ′
sujeta a x′ + 3y ′ + 2z ′ ≥ 3
2x′ + 4y ′ + z ′ ≥ 2
x′ ≥ 0
y′ ≥ 0
z′ ≥ 0

b) El problema dual del ejemplo 23b) es

Minimizar 3x′ + 4y ′ +6z ′
sujeta a 4x′ + 7y ′ + z ′ ≥ 3
2x′ + y ′ + 4z ′ ≥ 10
x′ , y ′ , z ′ ≥ 0 N
114 Capítulo 2. Optimización estática

El siguiente teorema muestra que el valor óptimo del problema dual es mayor
que o igual al valor óptimo del problema primal.
Teorema 7.
Si x ∈ Rn es factible en el problema primal y y ∈ Rm es factible en el
problema dual, entonces bT y ≥ cT x.
Demostración.
Multiplicando en el problema primal las restricciones por y y multiplicando
en el problema dual las restricciones por x, se obtiene y T Ax ≤ y T b, xT AT y ≥
xT c. Escribiendo de nuevo, tenemos bT y ≥ y T Ax ≥ cT x.
Y el próximo teorema da indicios de que existe una relación importante
entre los problemas primal y dual:
Teorema 8.
Supongamos que x∗ y y ∗ son factibles en el problema primal y dual respec-
tivamente, y que cT x∗ = bT y ∗ . Entonces x∗ resuelve el problema primal y
y ∗ resuelve el problema dual.
Demostración.
Como cT x∗ = bT y ∗ ≥ cT x para todo x factible, entonces x∗ resuelve el
problema primal. Así mismo, como bT y ≥ cT x∗ = bT y ∗ , y ∗ resuelve el
problema dual.
Y así, arribamos a uno de los teoremas más profundos de la optimización
estática: el teorema de dualidad, que muestra que el problema primal y el
problema dual están íntimamente relacionados.
Teorema 9. (Teorema de dualidad)
Si el problema primal tiene solución óptima ﬁnita, entonces el problema
dual también tiene solución óptima ﬁnita, y los valores de ambas funciones
objetivo son iguales. Si el primal no tiene óptimo acotado, entonces el dual
no tiene solución factible.
Demostración.
Ver teorema 13 adelante.

Así, utilizando el problema primal, todo problema de mínimo puede con-

vertirse en uno de máximo, el cual puede resolverse por el método simplex
anteriormente estudiado. Una vez obtenida la solución del problema de má-
ximo, por el teorema 13, el valor óptimo de la función objetivo en el problema
de mínimo es igual, y los valores óptimos de las variables en el problema de
mínimo son iguales al negativo de los indicadores de las variables de holgura
del problema de optimización.
2.6. Optimización lineal: el método simplex 115

Nota 5.
El teorema de dualidad (teorema 9), que es realmente sorprendente y muy
importante, fue primero señalado (aunque no probado) por von Neumann
en notas privadas que aparecieron antes de 1947.
Ejemplo 28.
Para destacar la fuerte relación primal-dual, consideremos el problema

Minimizar 60x + 20y + 3z + 20w

sujeta a 3x + 6y − z + 2w ≥ 4
−4x + 2y + z + 5w ≥ 2
w, x, y, z ≥ 0

Un análisis directo nos llevaría a un problema en el espacio euclidiano de

cuatro dimensiones. Pero es posible escribir este problema así:
 
60
20
 
Minimizar [x, y, z, w]  
3
20

 
3 −4 " #T
 6 2 4
 
sujeta a [x, y, z, w]  ≥
−1 1  2
2 5
x, y, z, w ≥ 0

Por tanto, el problema primal es:

" #
x
Maximizar [4, 2] 1
x2

   
3 −4 " # 60
 6 
2  x1  
 20
sujeta a   ≤ 
−1 1  x2 3
2 5 20
x1 ≥ 0, x2 ≥ 0

Y este problema primal sí puede dibujarse en un plano bidimensional como

en la ﬁgura 2.20. Allí vemos que la solución óptima ocurre en x∗1 = 30/13,
116 Capítulo 2. Optimización estática

x∗2 = 40/13, y así z ∗ = x∗ = 0. De esta manera, el problema original se

reduce a:
" #
20
Minimizar [y, w]
20
" #
6 2
sujeta a [y, w] ≥ [4, 2]
2 5
y ≥ 0, w≥0

cuya solución es y ∗ = 8/13, w∗ = 2/13. Por lo tanto, el problema original

tiene como solución al vector (0, 8/13, 0, 2/13):

 
60 " #
20 30/13
 
(0, 8/13, 0, 2/13)   = (4, 2) = 200/13
3 40/13
20

Solución (30/13, 40/13)

x1
Figura 2.20. Problema pivotal.

Ejemplo 29. (Problema de la dieta, de nuevo)

Volvamos al problema de la dieta:

Minimizar 2x+12y
sujeta a x + 3y ≥ 700
2x + y ≥ 400
x + y ≥ 200
x, y ≥ 0
2.6. Optimización lineal: el método simplex 117

El primal de este problema es

Maximizar 700x′ + 400y ′ + 200z ′

sujeta a x′ + 2y ′ + z ′ ≤ 2
3x′ + y ′ + z ′ ≤ 12
x′ ≥ 0, y ′ ≥ 0, z ′ ≥ 0

cuya tabla simplex es

 

1 2 1 1 0 2 
 
 3 1 1 0 1 12 
 
700 400 200 0 0 f

El mayor indicador no negativo está en la columna 1 y el elemento pivote

es a∗11 , con lo cual obtenemos la siguiente tabla simplex:
 

1 2 1 1 0 2 
 
 0 −5 −2 −3 1 6 
 
0 −1000 −500 −700 0 f − 1400

Como todos los indicadores son no-positivos, este es el óptimo del problema
primal cuyo valor óptimo es 1400 (tal como habíamos calculado gráﬁcamen-
te). Además, los negativos de los indicadores de las variables de holgura son
700 y 0, de forma que en el problema original tendremos que x∗ = 700 y
y ∗ = 0, como habíamos mostrado anteriormente.

Ejemplo 30. (El problema del transporte, de nuevo)

Tomemos, una vez más, el problema del transporte

Minimizar 10x11 + 20x12 + 20x21 + 40x22

sujeta a x11 + x12 = 5
x21 + x22 = 2
x11 + x21 = 4
x12 + x22 = 3
xij ≥ 0
118 Capítulo 2. Optimización estática

que es el dual del problema

Maximizar 5x′11 + 2x′12 + 4x′21 + 3x′22
sujeta a x′11 + x′21 = 10
x′11 + x′22 = 20
x′12 + x′21 = 20
x′12 + x′22 = 40
xij ≥ 0
Como en este problema las restricciones son ecuaciones, no es necesario
incluir variables de holgura; sin embargo, para poder reinterpretar el resul-
tado, es necesario plantear el problema como uno de desigualdades, con lo
cual la tabla simplex es
 
1 0 1 0 1 0 0 0 10
 
1 0 0 1 0 1 0 0 20
 
 
0 1 1 0 0 0 1 0 20
 
 
0 1 0 1 0 0 0 1 40
 
5 2 4 3 0 0 0 0 f
Realizando las operaciones usuales, obtenemos como resultado
 
1 0 1 0 1 0 0 0 10
 
0 0 −1 1 −1 1 0 0 10 
 
 
0 1 1 0 0 0 1 0 20 
 
 
0 0 0 0 1 −1 −1 1 10 
 
0 0 0 0 −2 −3 −2 0 f − 120
de donde, reinterpretando, obtenemos x∗11 = 2, x∗12 = 3, x∗21 = 2, x∗22 = 0,
y valor óptimo de la función es 120, como habíamos encontrado anterior-
mente, en el ejemplo 22. N
Finalmente, ¿cómo cambian los valores de las soluciones de un problema de
programación lineal cuando hay pequeños cambios en los parámetros de las
restricciones? Para resolverlo, supongamos que x∗ es la solución al problema
primal
Maximizar cT x
sujeta a Ax ≤ b
x≥0
2.6. Optimización lineal: el método simplex 119

que x∗ + ∆x es solución al problema primal

Maximizar cT x
sujeta a Ax ≤ b + ∆b
x≥0

y que y ∗ es la solución al problema dual de cada uno de los problemas

primales. Entonces, por el teorema 9,

cT x∗ = bT y ∗ , y cT (x∗ + ∆x) = (b + ∆b)T y ∗

y, por lo tanto, cT ∆x = ∆bT y ∗ . Pero cT ∆x no es más que el cambio en

el valor óptimo de la función objetivo del problema original al cambiar un
poco el valor de las restricciones. Por lo tanto, podemos interpretar (al igual
que en el caso de los multiplicadores de Lagrange) el valor de yi∗ como el
cambio en el valor de la función objetivo ante cambios (pequeños) en el valor
de bi [10] . Un ejercicio para el lector es probar que los conjuntos (*) en el
teorema 22, no son cerrados en R2+ .

Ejercicios 5
1. Encuentre los valores óptimos de los siguientes problemas lineales:

i) Utilizando el método gráﬁco.

ii) Utilizando el método de Kühn-Tucker.
iii) Utilizando el método simplex.
iv) Resolviendo el problema dual.

a) b)
Minimizar 5x−7y Maximizar 15x + 2y
sujeta a 3x + y ≥ 10 sujeta a 3x − y ≤ 10
x + 3y ≥ 4 x − 3y ≥ 4
x, y ≥ 0 x, y ≥ 0

10
Para el lector interesado en profundizar sobre la técnica de la programación lineal, se
recomienda Mora (2004).
120 Capítulo 2. Optimización estática

c) Maximizar 2x + 5y d)
Minimizar 12x+42y
sujeta a x≤4 sujeta a x + 2y ≥ 3
y≤3 x + 4y ≥ 4
x + 2y ≤ 8 3x + y ≥ 3
x, y ≥ 0 x, y ≥ 0

2. Pruebe que la solución del problema

Maximizar 5x + 2y + z
sujeta a x + 3y − z ≤ 6
y+z ≤4
3x + y ≤ 7
x, y ≥ 0
es x = 73 , y = 0, z = 4, y el valor del problema es 47
3 . Además, muestre
que la solución del problema dual está en x1 = 0, y1 = 1, z1 = 35 .
3. Pruebe que la solución del problema
Minimizar 3x − 2y + 5z
sujeta a − y + 2z ≥ 1
x+z ≥1
2x − 3y + 7z ≥ 5
x, y ≥ 0
es x = 0, y = 23 , z = 1, y el valor del problema es 11
3 . Además, muestre
que la solución del problema dual es x1 = 0, y1 = 31 , z1 = 23 .
4. Una empresa tiene tres depósitos, los cuales tienen 10, 000, 5, 000 y
16, 000 unidades de sus productos. El próximo mes deben enviarse
2, 000, 1, 000, 3, 000, 4, 500, 500, 600 y 950 unidades a siete distintos
almacenes. Encuentre el plan de envío de menor costo, si el costo
unitario de envío de cada depósito a cada uno de los almacenes viene
dado por la siguiente tabla:

Destino 1 D2 D3 D4 D5 D6 D7
Origen 1 10 8 16 3 10 25 18
Origen 2 19 25 18 7 12 18 19
Origen 3 20 17 20 5 14 16 17
2.7. Teoremas de separación de Minkowski 121

2.7. Teoremas de separación de Minkowski

Ahora es claro que los métodos de optimización están basados en: i) la es-
tructura topológica del conjunto sobre el que se optimiza, y ii) la estructura
analítica (lineal, continua, etc.) de la función objetivo. En esta sección pro-
fundizamos en una característica topológica del conjunto de restricción, que
ya había sido estudiada: la convexidad. Aquí destacaremos algo que se vis-
lumbraba con los problemas de programación lineal: que ciertas propiedades
geométricas de los conjuntos convexos están íntimamente conectados con la
forma como se resuelve problemas de optimización sobre ellos. Recordemos,
en primer lugar, que en el cálculo diferencial de una variable, cuando se re-
quería optimizar (maximizar o minimizar) una función cóncava estricta (o
convexa estricta) diferenciable, se recurría a encontrar los puntos donde la
recta tangente era paralela al eje de abscisas (ﬁgura 2.21). Allí notábamos
que esta recta tangente descomponía el plano en dos semiplanos, uno de
los cuales contenía totalmente a la gráﬁca de la función. En dos variables
sucedía lo mismo con el plano tangente, y, por supuesto, en varias variables
con el hiperplano tangente.

Figura 2.21. Recta tangente que separa. Figura 2.22. Optimización y separación.

En segundo lugar, recordemos que cuando intentábamos resolver problemas

típicos de optimización en dos variables, mediante el método de Lagrange o
de Kühn-Tucker, en general nos encontrábamos con que, en el punto donde
se resolvía el problema, las dos gráficas (la de restricción y la de objetivo)
solamente se intersectaban allí, y lo hacían de tal forma que se podía trazar
por allí una tangente que “separaba” a las dos gráficas (figura 2.22).
El siguiente es uno de los teoremas más profundos (y, por ello mismo, más
simple) de la teoría de optimización, que involucra, precisamente, la noción
de convexidad. Los teoremas de existencia de hiperplanos separadores esta-
blecen, básicamente, que un conjunto convexo y un punto que no está en
122 Capítulo 2. Optimización estática

este, pueden separarse mediante un hiperplano (ﬁgura 2.23); es decir, con

el conjunto convexo de un lado y el punto del otro lado. Veamos en qué
consisten estos dos teoremas centrales de la teoría de la optimización que,
como notaremos, son consecuencia del teorema de Wierstrass.

Teorema 10. [Existencia de hiperplanos separadores (Minkowski,

1910)]
Sea C un conjunto convexo y cerrado en Rn , y sea p ∈ Rn . Entonces se tiene
uno (y sólo uno) de los siguientes casos (ﬁgura 2.23):
a) p ∈ C.

b) Existe un hiperplano H de Rn que contiene a p y tal que C está totalmente

contenido en uno de los semiplanos abiertos determinados por H. En tal
caso, se dice que H es un hiperplano separador.
Demostración.
Supongamos que p ∈
/ C, y consideremos la función sobre el conjunto cerrado
C dada por
f (x) = ||x − p||
Como se puede probar fácilmente, esta función es continua y, utilizando
convenientemente el teorema de Weierstrass (teorema 1), tiene un mínimo
sobre C.

•
p
C

Figura 2.23. Un hiperplano separando un conjunto convexo y un punto.

Sea q un punto de C tal que

||q − p|| ≤ ||x − p||

para todo x ∈ C, y sea n = q − p. Como p ∈ / C, entonces n 6= 0. Veamos

que el hiperplano que pasa por p y es perpendicular a n satisfará nuestros
2.7. Teoremas de separación de Minkowski 123

requerimientos; es decir, que

H = {x ∈ Rn | (x − p) · n = 0}

es el hiperplano buscado, y para ello vamos a probar que C está contenido

en el semiespacio deﬁnido por la condición (x − p) · n > 0.
Sea ahora q ′ 6= q un punto cualquiera de C. Entonces, para todo t, con
0 < t ≤ 1, se tiene que

||q − p|| ≤ ||(q − p) + t(q ′ − q)||

y elevando esta desigualdad al cuadrado se tiene que

(q − p)2 ≤ (q − p)2 + 2t(q − p)(q ′ − q) + t2 (q ′ − q)2

Cancelando y dividiendo entre t, se obtiene que

0 ≤ 2(q − p)(q ′ − q) + t(q ′ − q)2

y haciendo t → 0 se obtiene que

0 ≤ (q − p)(q ′ − q) = n(q ′ − p) + n(p − q) = n(q ′ − p) − n · n

Pero como n · n > 0, entonces

n(q ′ − p) > 0

que era lo que queríamos probar.

Y aún podemos enunciar un resultado más general:

Teorema 11. [Otro teorema de Minkowski (1910)]

Si C ⊆ Rn es un conjunto convexo y p está en la frontera de C, [11] entonces
existe un hiperplano soporte de C en p; es decir, existe un hiperplano H
tal que p ∈ H, y C está contenido en uno de los dos semiespacios cerrados
determinados por H (ﬁgura 2.24).
11
La frontera de un conjunto S, ∂S, está definida como el conjunto de puntos que
pertenecen a la adherencia de S y a la adherencia del complemento de S, es decir, ∂S =
S ∩ S C . Recordemos también que la adherencia de S, S̄, es el conjunto de límites de
sucesiones de puntos de S –volumen I (Álgebra lineal y cálculo en varias variables)–.
124 Capítulo 2. Optimización estática

p• C

Figura 2.24. H es el hiperplano soporte de C en p.

Demostración.
Sea C la clausura de C. Es fácil mostrar que C también es convexo, y p
está en la frontera de C. Si es posible probar el teorema para C, entonces
claramente estaremos probándolo para C. Por lo tanto, podemos asumir que
C es cerrado. Ahora: para cada entero k > 2, encontremos un punto pk ∈ /C
que esté a una distancia menor que k1 de p. Por el teorema 10 inmediatamente
anterior, podemos encontrar un punto qk sobre C cuya distancia a pk sea
mínima. Hagamos ahora nk = qk −pk , y sea n′k el vector unitario (||nk || = 1)
en la dirección de nk . La sucesión de vectores n′k tiene un punto límite sobre
la esfera de radio 1, digamos n′ , ya que la esfera es un conjunto compacto
(cerrado y acotado). Nuevamente, por el teorema 10, para todo x ∈ C y
todo k,
x · n k > pk · n k

Y así, dividiendo a ambos lados por la norma de nk , se obtiene que para

todo k,
x · n′k > pk · n′k

Como n′ es un punto límite de la sucesión {n′k }, y p es un punto límite de

la sucesión {pk }, se sigue, por continuidad de la función producto interior,
que
x · n′ ≥ p · n′

y esto prueba el teorema.

Ejemplo 31.
Tomando, una vez más, el ejemplo 5, supongamos que para x ≥ 0, y ≥ 0,
deﬁnimos
f (x, y) = xy, g(x, y) = x2 + y 2

a) En primer lugar, recordemos que al resolver el problema de

2.7. Teoremas de separación de Minkowski 125

optimización

Maximizar f (x, y)
sujeta a g(x, y) ≤ r2
x, y ≥ 0

mediante el método √ de Kühn-Tucker,

√ encontrábamos que la solución
era (x∗ , y ∗ ) = (r/ 2, r/ 2). ¿Podría el lector ilustrar esto con una
gráﬁca apropiada?

b) En segundo lugar, al buscar una recta de la forma A(x − x∗ )+

B(y − y ∗ ) = 0 que pasa por el punto (x∗ , y ∗ ) y que lo separe del
conjunto convexo

{(x, y) ∈ R2+ | f (x, y) ≥ f (x∗ , y ∗ )} = {(x, y) ∈ R2+ | xy ≥ r2 /2}

encontramos que, como (A, B) es un vector normal a la recta, entonces

podemos hacer

∂f ∗ ∗ r ∂f ∗ ∗ r
A= (x , y ) = √ y B= (x , y ) = √
∂x 2 ∂y 2

lo
√ que nos lleva a que la ecuación de la recta (hiperplano) es x + y =
2r.

Nota 6.
El ejercicio anterior plantea el interrogante sobre el caso en el que la fron-
tera del conjunto convexo no fuera suave en el punto que queremos separar:
¿Cómo calcularíamos los respectivos gradientes? (figura 2.25). En estos ca-
sos, el cálculo diferencial no nos puede ayudar a resolver el problema de
optimización, y es allí donde los coeficientes que acompañan a las variables
de la ecuación cartesiana del hiperplano (es decir, los coeficientes del vector
normal), vienen a jugar el papel de las respectivas derivadas parciales.

2.7.1. Aplicaciones
En principio, y a diferencia de los métodos algorítmicos de optimización
(Lagrange, Kühn-Tucker, simplex), el teorema de Minkowski está más en
la tradición del teorema de Weierstrass, en el sentido de que es un teorema
de optimización de ﬁna descripción teórica que no estaría diseñado para
aplicaciones algorítmicas concretas inmediatas. Sin embargo, es corriente
126 Capítulo 2. Optimización estática

p•
C

Figura 2.25. Conjunto convexo no-suave.

utilizarlo como poderosa herramienta para demostrar teoremas clásicos de

optimización que, ellos sí, tienen un desarrollo algorítmico especíﬁco. Aquí
ilustraremos lo anterior, probando el teorema del minimax de von Neumann
–volumen I (Álgebra lineal y cálculo en varias variables)–, y el teorema de
dualidad (teorema 9 del presente capítulo) para la programación lineal, que
estudiamos previamente.

Teorema 12. (Minkowski ⇒ minimax)

Para cualquier matriz Amxn , existen distribuciones de probabilidad p∗ ∈ ∆n
y q ∗ ∈ ∆m tales que, en ellas, se da la igualdad

Máxp Mínq qApT = Mínp Máxq qApT

donde ∆n , ∆m son los simplexes de dimensión n y m, respectivamente 12 .

Demostración.
a) Primero, notemos que para cualquier p ∈ ∆n y q ∈ ∆m , se tiene que

Mínq qApT ≤ qApT ≤ Máxp qApT

y, por lo tanto,

Máxp Mínq qApT ≤ Mínq Máxp qApT

b) Restaría entonces demostrar que

Mínq Máxp qApT ≤ Máxp Mínq qApT

para ciertos p∗ ∈ ∆n y q ∗ ∈ ∆m . Para ello, sea

H = {x ∈ ∆m | x = ApT para algún p ∈ ∆n y ApT ≥ v1 e}

12
Recordemos que el simplexde dimensión n (y,
Pnsimilarmente,
el de dimensión m), es
el conjunto definido por ∆n = x = (xi ) ∈ Rn
+ | i=1
xi = 1 .
2.7. Teoremas de separación de Minkowski 127

donde v1 = Máxp Mínq qApT y e = (1, ..., 1) ∈ Rn . Observe que H es convexo

y no vacío, y, por el teorema de separación de Minkowski (teorema 11), existe
q ∗ ∈ ∆m tal que q ∗ ApT ≤ v1 para todo p ∈ ∆n . Y como Mínq Máxp qApT ≤
Máxp q ∗ ApT , tendremos que
Mínq Máxp qApT ≤ v1 = Máxp Mínq qApT
que era lo que queríamos mostrar.

Teorema 13. (Minkowski ⇒ teorema de dualidad)

Si el problema primal tiene solución óptima finita, entonces el problema dual
también tiene solución óptima finita, y los valores de ambas funciones obje-
tivo son iguales. Si el primal no tiene óptimo acotado, entonces el problema
dual no tiene solución factible.
Demostración.
Primero demostremos la segunda proposición del teorema. Para ello, su-
pongamos que el problema dual no tiene solución óptima finita; entonces
bT y ∗ < −M para todo M > 0; pero, en tal caso, si x∗ es factible en el
problema primal tendríamos que cT x∗ < −M para todo M > 0, lo cual
claramente es imposible.
Ahora supongamos que el problema dual tiene solución óptima finita de
valor z 0 . Definamos el conjunto
C = {(r, w) ∈ Rn+1 | r = tz 0 − bT y, w = tb − AT y, y ≥ 0, t ≥ 0}
Como puede fácilmente verificar el lector, el conjunto C es un cono convexo
cerrado. Veamos que p = (1, 0) ∈ / C. Si w = t0 b − AT y 0 = 0 con t0 > 0
y 0
y y 0 ≥ 0, entonces y = 0 es factible en el problema dual y, por lo tanto,
t
r 0 − bT y ≤ 0; es decir, r ≤ 0. Por otro lado, si w = −AT y 0 = 0
= z
t0
con y 0 ≥ 0 y bT y 0 = −1, y si y es una solución factible del problema dual,
entonces y + αy 0 es factible para todo α ≥ 0 y, además, podemos obtener
valores arbitrariamente pequeños de la función objetivo, lo cual contradice
nuestra hipótesis de que la solución factible del problema dual es finita. Por
lo tanto, no puede existir tal y 0 , y así, p ∈
/ C.
Dado que C es un cono convexo y cerrado, y que p = (0, 1) ∈ / C, por el
teorema de separación de Minkowski (teorema 10), existe un hiperplano que
separa p de C. Así, existe un vector no nulo (s, x) ∈ Rn+1 y una constante
d tal que
s < d = ı́nf {sr + xw}
(r,w)∈C
128 Capítulo 2. Optimización estática

Como C es un cono, debe ser d ≥ 0; además, puesto que (0, 0) ∈ C, tenemos

que d ≤ 0. De esto concluimos que d = 0 y s < 0. Asumamos que s = −1;
entonces, por la desigualdad anterior, −r + xw ≥ 0 para todo (r, w) ∈ C
que, de la deﬁnición de C, implica

(b − Ax)y T − tz 0 + tcT x ≥ 0

para todo y ≥ 0 y t > 0. En particular, si t = 0, Ax ≤ b, es decir, x

es factible en el primal. Si y = 0 y t = 1, entonces cT x ≥ z 0 que, por el
teorema 7, implica cT x = z 0 ; y, a su vez, por el teorema 8, asegura que x es
un óptimo del problema primal. La demostración recíproca es similar y se
deja al lector como ejercicio.

Ejercicios 6
1. Halle, ilustrando con un dibujo adecuado, hiperplanos de soporte para
los siguientes conjuntos convexos C y correspondientes puntos p en el
plano:

a) C = {(x, y) ∈ R2 | x ≥ 0, y ≥ x2 }, p = (1, 1)
b) C = {(x, y) ∈ R2+ | y ≤ ln x, x ≥ 1}, p = (2, ln 2)
c) C = {(x, y) ∈ R2 | y ≥ ex + 1}, p = (0, 2)

2. ¿Será que, en el teorema 11, el hiperplano de soporte es único? Ilustre

con un par ejemplos.

3. [Teorema de J. Farkas (1902)] Pruebe, utilizando el teorema 11 de

separación de Minkowski, que si A una matriz n × n dada y b ∈ Rm ,
entonces una y sólo una de las siguientes alternativas es cierta:

a) El sistema Ax = b tiene una solución x ≥ 0 (todas la componentes

mayores o iguales a cero).
b) El sistema de desigualdades y T A ≥ 0 tiene una solución y ∈ Rn
que satisface y · b < 0.
c) ¿Geométricamente, cómo puede interpretarse esto desde la pers-
pectiva de las soluciones de un sistema de ecuaciones lineales? [Su-
gerencia: el teorema de Minkowski se maniﬁesta claramente en la
solución de un problema de optimización de una función lineal con
restricciones lineales de desigualdad].
2.8. El teorema del máximo 129

2.8. El teorema del máximo

Nuestros métodos hasta ahora están destinados a la optimización de funcio-
nes; es decir, de relaciones donde a cada número se le asigna otro número
(y sólo uno). Desde 1939, el grupo francés Bourbaki desarrolló el concepto
de correspondencia; es decir, relaciones en las que a cada número se le asig-
na ya no sólo otro número, sino una colección de números. Las situaciones
reales donde esto puede suceder son múltiples, y el objetivo de esta sección
es describir algunos resultados sobre optimización en este tipo de estructura.
Entre ellos, quizás el resultado más importante es el teorema del máximo, y
para comprenderlo nos preparamos ahora.
Definición 4. [Correspondencia (Bourbaki, 1939)]
Si S, T ⊆ Rn , no vacíos, entonces una correspondencia ϕ de S en T es una
función
ϕ : S → P(T )
donde P(T ) es el conjunto de partes de T (es decir, todos los posibles sub-
conjuntos de T ), y tal que, para todo s ∈ S, ϕ(s) 6= ∅. 13
Así, una correspondencia ϕ de S en T , le asigna a cada s ∈ S un conjunto
no-vacío ϕ(s) ∈ P(T ) (ﬁgura 2.26).

conjunto
T ϕ(s)

•
s S
Figura 2.26. Correspondencia ϕ(s).

Las nociones de continuidad en funciones de variables reales se trasladan a

correspondencias de la siguiente manera:
13
En ocasiones, sin embargo, y si la notación no permite confusión, escribiremos sim-
plemente ϕ : S → T.
130 Capítulo 2. Optimización estática

Definición 5. [Continuidad en correspondencias (Berge, 1959)]

i) Una correspondencia ϕ : S → P(T ) es semicontinua superiormente en

un punto s ∈ S si cuando sn → s y tn → t con tn ∈ ϕ(sn ), entonces
t ∈ ϕ(s).

ii) Una correspondencia ϕ : S → P(T ) es semicontinua inferiormente en

un punto s ∈ S si sn → s y t ∈ ϕ(s) implica que existe una sucesión
{tn } con tn ∈ ϕ(sn ) tal que tn → t.

iii) Una correspondencia ϕ : S → P(T ) es continua si es semicontinua

superiormente e inferiormente.
Nota 7.
El lector puede observar que si para cada s ∈ S se tiene que ϕ(s) es un
solo elemento de T (es decir, ϕ es una función de S en T ), el concepto de
semicontinuidad superior es equivalente a la continuidad de la función ϕ.
Ejemplo 32.
Sea S = T = [0, 5], y deﬁnamos
(
2 si x 6= 2.5
ϕ(s) =
[1, 3] si x = 2.5

Esta correspondencia (ﬁgura 2.27) es semicontinua superiormente, dado que

para toda sucesión {sn } con sn ∈ [0, 5] tal que sn → s sólo existe una única
sucesión {tn } tal que tn ∈ ϕ(sn ) y tn → t : la sucesión {tn } = {2}, la cual
converge a t = 2, y, claramente, t ∈ ϕ(s). Sin embargo, la correspondencia no
es semicontinua inferiormente, ya que podemos tomar sn → 2.5 y 3 ∈ ϕ(2.5),
pero no existe una sucesión {tn } que satisfaga tn → 3 tal que tn ∈ ϕ(sn ).

ϕ(s)
4
3
2
1

2.5 5 s
Figura 2.27. Correspondencia semicontinua superiormente
2.8. El teorema del máximo 131

Teorema 14. (Caracterización de la semicontinuidad superior)

La correspondencia ϕ : S → T es semicontinua superiormente sobre S si, y
sólo si, su gráﬁco

graf ϕ = {(s, t) ∈ S × T | t ∈ ϕ(s)}

es cerrado en S × T .14

Demostración.

a) Sean s ∈ S, sn → s, tn → t con tn ∈ ϕ(sn ); entonces (sn , tn ) → (s, t). Y,

como graf ϕ es cerrado, entonces (s, t) ∈ graf ϕ. Luego t ∈ ϕ(s) y, así, φ
es semicontinua superiormente.

b) Sean s ∈ S, sn → s, tn → t con tn ∈ ϕ(sn ). Entonces, como ϕ es

semicontinua superiormente, se tendrá que t ∈ ϕ(s) y, por lo tanto,
(s, t) ∈ graf ϕ; es decir, graf ϕ es cerrado.

conjunto
T ϕ(s)

•
s S
Figura 2.28. Una correspondencia ϕ(s) con graf ϕ cerrado.

Ejemplo 33.
Sean S = [0, 10] y T = [0, 100], y deﬁnamos

ϕ(s) = [s2 , s2 + 1]

Veamos que esta correspondencia es semicontinua superiormente mostrando

que graf ϕ es cerrado.
14
Recordemos que S × T es el producto cartesiano de S y T .
132 Capítulo 2. Optimización estática

Solución.
Sea {(sn , tn )} una sucesión en graf ϕ tal que (sn , tn ) → (s, t). Mostremos
que (s, t) ∈ graf ϕ. En efecto,
lı́m s2 ≤ lı́m tn ≤ lı́m s2n + 1
n→∞ n n→∞ n→∞

es decir, s2 ≤ t ≤ s2 + 1. Así que t ∈ ϕ(s) y, por lo tanto, (s, t) ∈ ϕ. Luego,

graf ϕ es cerrado y, por el teorema 14, es semicontinua superiormente. N
Ahora: dado s ∈ S, uno puede estar interesado en caracterizar los elemen-
tos ϕ(s) ⊆ T que maximizan cierta función continua f : S × T → R; y
también puede preguntarse por el comportamiento de la correspondencia de
valores máximos, µ(s), de f (·) sobre ϕ(s). Una respuesta a estas dos pre-
guntas está dada por el siguiente resultado muy importante en el análisis
de correspondencias:
Teorema 15. [Teorema del máximo (Berge, 1959)]
Sean S, T ⊆ Rn conjuntos no vacíos; si f : S × T → R es una función
continua y ϕ : S → P(T ) es una correspondencia continua en S y tal ϕ(s)
es compacto para todo s ∈ S, entonces:
a) f ∗ : S → R, definida por f ∗ (s) = Máx{f (s, t) | t ∈ ϕ(s)} es continua
en S.
b) µ : S → P(T ), s → µ(s) = arg Máx{f (s, t) | t ∈ ϕ(s)} es semiconti-
nua superiormente.
Demostración.
a) Sea {sn } ⊆ S tal que sn → s ∈ S, y probemos que f ∗ (sn ) → f ∗ (s).
i) Puesto que f (·, ·) es continua, entonces para todo t ∈ ϕ(s) fijo, se
tiene que f (sn , t) → f (s, t).
ii) Como ϕ : S → P(T ) es semicontinua inferiormente, entonces para
cada t ∈ ϕ(s) fijo, existe una sucesión tn ∈ ϕ(Sn ) tal que tn → t.
Ahora: dada la definición de f ∗ (·), existen sucesiones {ǫn } y {δn },
ambas tendiendo a 0, tales que
f (s, t) ≤ f ∗ (s) ≤ f (s, tn ) + ǫn
f (sn , t) ≤ f ∗ (sn ) ≤ f (sn , tn ) + δn
Por tanto,
f (sn , t) − f (s, tn ) − ǫn ≤ f ∗ (sn ) − f ∗ (s) ≤ f (sn , tn ) − f (s, t) + δn
El resultado se obtiene de i) y ii) cuando hacemos n → ∞.
2.8. El teorema del máximo 133

b) Notemos, en primer lugar, que

µ(s) = {t ∈ ϕ(s) | f (s, t) = f ∗ (s)}

Sea sn → s con {sn } ⊆ S, s ∈ T , y µ̄n → µ̄, con µ̄n ∈ µ(sn ), y probemos

que µ̄ ∈ µ(s). En efecto, como µ̄n ∈ ϕ(sn ) y f (sn , µ̄n ) = f ∗ (sn ), entonces,
puesto que f ∗ (·) es continua, se tendrá que f (sn , µ̄n ) → f ∗ (s); y como
también f (·, ·) es continua, entonces f (sn , µ̄n ) → f (s, µ̄). Por lo tanto,
f (s, µ̄) = f ∗ (s) y de aquí µ̄ ∈ µ(s), pues µ̄ ∈ ϕ(s) debido a que ϕ(·) es
semicontinua superiormente.
Ejemplo 34.
Corroboremos el teorema del máximo en el caso en que S, T = R, ϕ(s) =
[−2, 2] para todo s ∈ R, y f (s, t) = st:
a) f ∗ : R → R, deﬁnida por

f ∗ (s) = Máx{ st | t ∈ [−2, 2]} = 2|s|

es continua en R.

b) µ : R → R, deﬁnida por


2
 si s>0
µ(s) = arg Máx{ st | t ∈ [−2, 2]} = [−2, 2] si s=0


−2 si s<0

es semicontinua superiormente.

Ejercicios 7
1. En cada uno de los siguientes casos, determine si la correspondencia
es semicontinua superior, semicontinua inferior o continua:

a) φ : [0, 1] → [0, 1] b) φ : [−1, 1] → [0, 1]

s → [0, s] s → (0, s2 ]

c) φ : [−2, 0] → [−2, 4] d) φ : [−2, −1] → [0; −1]

s → {s, s2 } 1
s → 0,
s

e) φ : [0, 1] → [0, 1] deﬁnida por

134 Capítulo 2. Optimización estática
 h i
[s, 1] si s ∈ 1 3
2, 4
φ(s) =
0 en otro caso

[Sugerencia: un dibujo ayudaría en cada caso].

2. Adicione condiciones suﬁcientes (si son necesarias) para que la siguien-

te aﬁrmación sea teorema: “Si f es una función continua en el punto
s, y ϕ es semicontinua superiormente (semicontinua inferiormente) en
el punto f (s) entonces ψ = ϕ ◦ f es semicontinua superiormente (se-
micontinua inferiormente)”.

3. Falso o verdadero: “Si ψ : S → T es semicontinua superiormente y C ⊆

S es compacto, entonces ψ(C) = {t ∈ T | t ∈ ψ(c) para algún c ∈ C}
es compacto en T ”.

4. Deﬁna si es posible aplicar el teorema del máximo en los siguientes

casos y, en caso de que sea así, llévelo a cabo y concluya.

a) φ : [0, 1] → [0, 1] deﬁnida por φ(s) = [0, s], y f (s, t) = s2 t.

b) φ : [0, 1] → [0, 1] deﬁnida por
 h i
[s, 1] si s ∈ 1 3
2, 4
φ(s) =
0 en otro caso
1
y donde f (s, t) = .
1+s+t

2.9. Teoremas de punto fijo

Los teoremas de punto fijo son herramientas que están profundamente enrai-
zadas en la naturaleza topológica y algebraica de Rn . Establecen, de hecho,
interrelaciones entre las nociones de convexidad y continuidad, y ayudan
a reducir, en cierta medida, los comportamientos no-lineales a descripcio-
nes lineales del problema en estudio. En lo que sigue, haremos una primera
aproximación al concepto de punto fijo y a su naturaleza topológica, puesto
que ya hemos reunido un acervo suficiente de conocimientos para entender
a plenitud uno de sus principales resultados.

Teorema 16. [Teorema de punto fijo de Brouwer (1912)]

Supongamos que S es un subconjunto no-vacío, compacto y convexo en Rn .
2.9. Teoremas de punto fijo 135

Si ϕ : S → S es una función continua, entonces ϕ(·) tiene al menos un

punto ﬁjo; es decir, existe x∗ es tal que ϕ(x∗ ) = x∗ (ﬁgura 2.29).
Demostración.
La prueba original (Brouwer, 1912) de este teorema requiere conceptos y
nociones que están más allá de los objetivos de este texto [ver, por ejem-
plo, H. Nikaido (1968)]. Sin embargo, asumiendo este teorema, enseguida
demostraremos, mediante otras técnicas, un resultado que lo generaliza.

y y=x
1

b
y = f (x)

x∗ 1 x

Figura 2.29. Teorema de punto fijo de Brouwer.

Ejemplo 35. (Ejemplos de puntos fijos)

a) Sea f : [0, 1] → [0, 1] definida por f (x) = x2 . Entonces los puntos fijos
se hallan resolviendo la ecuación x2 = x que nos lleva a dos puntos fijos:
x∗ = 0, x∗ = 1.

b) Sea ∆2 = {(x1 , x2 ) ∈ R2+ | x1 + x2 = 1} el simplex unitario en R2 (que

es un conjunto no vacío, compacto y convexo) y deﬁnamos f : ∆2 → ∆2
mediante
4x1 3x2
f (x1 , x2 ) = ,
x1 + 3 x1 + 3
que es una función continua. Los puntos ﬁjos aparecen al resolver la
igualdad
4x1 3x2
, = (x1 , x2 )
x1 + 3 x1 + 3
la que nos lleva a

4x1 3x2
= x1 , = x2
x1 + 3 x1 + 3

o a (x1 )2 = x1 , x1 x2 = 0. Y así, los puntos ﬁjos son todos los puntos de

la forma (0, x2 ) para x2 ∈ [0, 1], y el punto aislado (1, 0).
136 Capítulo 2. Optimización estática

El siguiente teorema clásico de puntos ﬁjos es el teorema de Kakutani, que

ahora se aplica a correspondencias en lugar de aplicarse a funciones. Como
se verá adelante, este teorema es, de hecho, equivalente al teorema de punto
ﬁjo de Brouwer.

Teorema 17. [Teorema de punto fijo de Kakutani (1941)]

Sea ϕ : S → P(S), con S un subconjunto no-vacío, compacto y convexo de
Rn . Si ϕ es una correspondencia semicontinua superiormente tal que para
todo s ∈ S, ϕ(s) es convexo (y no-vacío), entonces ϕ(·) tiene al menos un
punto fijo, es decir, existe s∗ ∈ S tal que s∗ ∈ ϕ(s∗ ) (ﬁgura 2.30).

S
s∗ ∈ ϕ(s∗ )

•∗
s S

Figura 2.30. Teorema del punto fijo de Kakutani.

Demostración.
Como S es compacto, dado ǫ > 0 podemos construir una colección de mǫ
bolas abiertas de radio ǫ, Bǫ (aǫi ), con aǫi ∈ S, y tales que
m
[ǫ
S⊆ Bǫ (aǫi )
i=1

Con esto, deﬁnimos la función ϕǫ : S → S mediante la fórmula

mǫ
X
ϕǫ (x) = wiǫ (x) bǫi
i=1

donde bǫi ∈ ϕ(aǫi ) es ﬁjo, y wiǫ (x) está dado por la fórmula

Máx{ǫ− k x − aǫi k, 0}
wiǫ (x) = Pmǫ ǫ
j=1 Máx{ǫ− k x − aj k, 0}

Esta función satisface las condiciones del teorema de punto ﬁjo de Brouwer
(teorema 16) y, por lo tanto, existe un xǫ ∈ S tal que ϕǫ (xǫ ) = xǫ . Ahora:
2.9. Teoremas de punto fijo 137

como S es compacto, podemos asumir que el conjunto de puntos ﬁjos {xǫ }

tiene una subsucesión convergente {xǫn } –volumen I (Álgebra lineal y cálculo
en varias variables)–. Sea x ∈ S su límite cuando n → ∞, y probemos que
x ∈ ϕ(x) mostrando que la distancia entre x y el conjunto ϕ(x) es igual a 0.
Para hacerlo, definamos el conjunto ϑδ = ϕ(x) − Bδ (0) que es un conjunto
abierto que contiene al conjunto ϕ(x), y probemos que x ∈ ϑ2δ para todo δ >
0, pues esto, inmediatamente, nos conduce al objetivo requerido. En efecto:
como ϕ(·) es semicontinua superiormente, entonces podemos encontrar una
bola abierta Bǫ (x) tal que ϕ(Bǫ (x)) ⊆ ϑδ . Por lo tanto, para n grande se
tendrá que si wiǫn (xǫn ) > 0,
ǫ ǫ
kaǫi n − xk ≤k aǫi n − xǫn k + k xǫn − x k< + =ǫ
2 2
Así, aǫi n ∈ Bǫ (x) si wiǫn (xǫn ) > 0, y esto implica que bǫi n ∈ ϕ(Bǫ (x)) ⊆ ϑδ .
Además, como X ǫ
xǫn = wi n (x) bǫi n
y ϑδ es convexo, se tendrá que xǫn ∈ ϑδ . Haciendo n tender a infinito
tendremos que
x ∈ ϑ2δ
para todo δ, y esto finaliza la prueba.
Con la demostración del teorema 17, notamos que el teorema de Brouwer
implica el teorema de Kakutani; y es claro que el teorema de Brouwer es un
caso especial del teorema de Kakutani. Por lo tanto, podemos afirmar que:

Corolario 2.
Los teoremas de punto ﬁjo de Brouwer y Kakutani son equivalentes.

Ejemplo 36. (Más ejemplos de puntos fijos)

a) Sea ϕ : [0, 1] → P([0, 1]) definida por ϕ(x) = [0, x2 ]. Esta corresponden-
cia satisface las condiciones del teorema de punto fijo de Kakutani (¿por
qué es ϕ semicontinua superiormente?). Por lo tanto, existe x∗ ∈ [0, 1]
tal que x∗ ∈ ϕ(x∗ ) = [0, (x∗ )2 ]. En efecto, x∗ = 0 y x∗ = 1 satisfacen
esta condición.
x
b) Sea ϕ : [0, 1] → P([0, 1]) definida por ϕ(x) = [0, e 2−1 ]. Esta corres-
pondencia también satisface las condiciones del teorema de Kakuta-
ni (¿por qué?). Para hallar los puntos fijos, recurrimos a la condición
x∗
x∗ ∈ ϕ(x∗ ) = [0, e 2−1 ], y arribamos a que x∗ = 0.
138 Capítulo 2. Optimización estática

c) Sea ϕ : [0, 1] → P([0, 1]) deﬁnida por ϕ(x) = [0, 2x2 − 32 x3 − 12 x4 + 10

1
].
También esta correspondencia satisface las condiciones del teorema de
Kakutani, y los puntos ﬁjos están determinados mediante la condición
" #
2 (x∗ )4 1
x ∈ 0, 2(x ) − (x∗ )3 −
∗ ∗ 2
+
3 2 10

es decir, todos los puntos x∗ de la unión de intervalos [0, 0.13]∪[0.56, 0.91].

2.9.1. Aplicaciones de los teoremas de punto fijo

Son numerosas las aplicaciones de los teoremas de punto fijo. Aquí sólo pre-
sentamos dos, para mostrar la potencia de estas herramientas: el teorema
del minimax y el teorema de Perron-Frobenius. En ellas únicamente seña-
laremos pautas de demostración, dejando al lector el trabajo de completar
los detalles.
a) Aunque el teorema minimax fue demostrado anteriormente utilizando el
teorema de separación de Minkowski (teorema 12), no debería sorprender
que sea posible probarlo utilizando el teorema de punto fijo de Kakutani:
Defina K(p, q) = qApT para A = [aij ]m×n , p en el simplex unitario
∆n de Rn , y q en el simplex unitario ∆m de Rm ; y luego defina las
correspondencias

ϕ(q) = arg Máxq K(p, q), ψ(p) = arg Máxp K(p, q)

Deﬁna la correspondencia

f (p, q) = ϕ(q) × ψ(p)

y establezca que su dominio y su rango es ∆n × ∆m .

Pruebe que esta correspondencia satisface las hipótesis del teorema de

punto ﬁjo de Kakutani.

Por tanto, existen p∗ y q ∗ tales que (p∗ , q ∗ ) ∈ ϕ(q ∗ ) × ψ(p∗ ). Es decir,

p∗ ∈ ϕ(q ∗ ), q ∗ ∈ ψ(p∗ )

Así, K(p, q ∗ ) alcanza un máximo en p∗ , y K(p∗ , q) alcanza un mínimo

en q ∗ . Por consiguiente, (p∗ , q ∗ ) es un punto que satisface

Máxp Mínq qApT = Mínq Máxp qApT

2.9. Teoremas de punto fijo 139

b) También es posible demostrar el teorema de Frobenius (1903) –o, más

precisamente, de Perron-Frobenius (Perron, 1907)–:
Teorema 18. [Teorema de Perron (1907)-Frobenius (1903)]
Sea A una matriz cuadrada n×n no negativa (no nula). Entonces, la matriz
A tiene algún valor propio no negativo (y no todos cero). Y, con el máxi-
mo valor propio, está asociado un vector propio cuyas componentes son no
negativas (y no todas cero).
Estas son las pautas para su demostración (Nikaido, 1968):
Sea L(A) = {µ ∈ R | Ax ≥ µx para algún x ≥ 0} y pruebe que
L(A) 6= ∅ y es acotado superiormente.
Sea λ(A) = sup L(A). Pruebe que λ(A) ≥ 0 y λ(A) ∈ L(A). Así, existe
algún x ≥ 0 tal que Ax ≥ λ(A)x.
Sea Ω = {x ∈ ∆n | Ax ≥ λ(A)x} donde ∆n es el simplex unitario en
Rn , y establezcamos la función

f :Ω→Ω

deﬁnida por
1
f (x) = Pn (In + A)x
1+ i,j=1 aij xj

donde A = [aij ], x = (xj ). ¿Por qué está bien deﬁnida esta función?
[Sugerencia: pruebe que Af (x) ≥ λ(A)f (x)].
Pruebe que Ω es compacto y convexo en Rn .
Pruebe que f (·) es continua.
Aplique el teorema de punto ﬁjo de Brouwer para garantizar la exis-
tencia de un x∗ ∈ Ω tal que f (x∗ ) = x∗ ; es decir
1
Pn ∗ (In + A)x∗ = x∗
1+ i,j=1 aij xj

Pruebe que  
n
X
 aij x∗j  x∗ = Ax∗
i,j=1
y que
n
X
λ(A) = aij x∗j
i,j=1
140 Capítulo 2. Optimización estática

Ejemplo 37." #
5 4
a) La matriz tiene como valores propios λ1 = 1, λ2 = 6. Así, λ(A) =
1 2
6, y un vector propio asociado a este valor propio es (4, 1).
 
1 2 0
 
b) La matriz 2 2 2 tiene como valores propios λ1 = −1, λ2 = 2, λ3 = 5.
0 2 3
Así λ(A) = 5, y un correspondiente vector propio es (1, 2, 2).
" #
0 1
c) La matriz tiene como valores propios λ1 = λ2 = 0. Así, λ(A) = 0,
0 0
y un correspondiente vector propio es (1, 0).

Ejercicios 8
1. ¿Podemos aplicar el teorema de punto ﬁjo de Kakutani en alguno de los
casos del ejercicio 1, Ejercicios 7? Explique.

2.10. Contexto económico

A mediados del siglo XIX los economistas compartían, en general, una mis-
ma perspectiva sobre la teoría del valor y la distribución. El valor de un saco
de maíz, por ejemplo, se creía que estaba determinado por los costos impli-
cados en producir ese bushel; y el producto de una economía se distribuía
entre los diferentes grupos sociales de acuerdo con los costos implicados por
estos grupos en producir ese producto. Esta era, vagamente, la teoría clási-
ca desarrollada por Adam Smith, David Ricardo, Thomas Robert Malthus,
John Stuart Mill y Karl Marx.
Pero algunos percibían diﬁcultades con esta aproximación. Una de estas
era que los precios en el mercado no necesariamente reﬂejaban el valor, ya
que las personas, a menudo, estaban dispuestas a pagar más de lo que un
objeto valía. Las teorías clásicas que asociaban el valor como una propiedad
inherente de un objeto, gradualmente abrieron camino a una perspectiva en
la cual el valor estaba asociado con la relación entre el objeto y la persona
que tiene el objeto.
Varios economistas entre las décadas de 1870 y 1880 (William S. Jevons
y Francis Edgeworth en Inglaterra, León Walras en Suiza e Irving Fisher
2.10. Contexto económico 141

en Estados Unidos) comenzaron a basar el valor en la relación entre costos

de producción y elementos subjetivos en la demanda (función de utilidad).
Enmarcado dentro de la revolución marginalista (von Thünen, 1826) el in-
dividualismo metodológico (Menger, 1871) en economía, a tal desarrollo se le
denominó economía neo-clásica, término acuñado, al parecer, por Thorstein
Veblen en su The Preconceptions of Economic Science de 1910.

En este escenario, la economía neoclásica se acostumbraba describir así:

Toda economía se compone de individuos de dos tipos: consumidores y pro-

ductores.

a) Los consumidores tratan de maximizar su satisfacción (utilidad) de con-

sumir bienes y servicios, y lo hacen aumentando las compras de cada bien
hasta que lo que ganan por una unidad adicional de algún bien sea equi-
parada con lo que tendría que entregar por obtenerla. De forma similar,
los individuos ofrecen mano de obra a las ﬁrmas que quieren emplearlos
de tal modo que equiparan las ganancias de ofrecer una unidad marginal
de sus servicios (e.d. el salario que recibirían) con la “desutilidad” de la
mano de obra misma (posibilidades de ocio). Así, los individuos eligen
de acuerdo con la noción de marginalidad, y esto produce una teoría de
demanda de bienes y oferta de mano de obra.

b) En forma similar, los productores intentan producir las unidades de un

bien de tal forma que el costo de producir una unidad marginal sea
equiparado al rendimiento que genera, y así se maximizan sus beneﬁcios.
Las ﬁrmas también contratan empleados de tal modo que el costo de
un contrato adicional sea equiparado con el valor del producto que ese
empleado adicional produciría.

A teorías basadas en estas hipótesis (aquí descritas verbalmente) se les lla-

ma, como era de esperarse, teorías neoclásicas. Así, en deﬁnitiva, para la
economía neoclásica, el sistema económico es un campo de mecánica racio-
nal: los agentes son los átomos; la función objetivo es la función de energía;
y el objetivo es la optimización de la energía mediante algún principio de
“mínima acción” o similar. Atomicidad, funciones objetivo y, sobre todo,
optimización, son las características centrales de la teoría neoclásica. Así,
ligada a una ciencia exitosa, como la Física, la economía neoclásica ha bus-
cado hacer de la Economía una ciencia también. Que lo haya logrado es un
tema aún de debate.
142 Capítulo 2. Optimización estática

2.10.1. Comportamiento racional sin interacciones

La división metodológica neoclásica de una economía entre productores y
consumidores condujo, inicialmente, a un análisis detallado de cada uno de
estos sectores separadamente, y, en particular, de cada ﬁrma o consumidor
aisladamente; es decir, no existe interacción, ni entre procesos productivos,
ni entre consumidores, ni entre productores y consumidores: los agentes
de estos sectores económicos operan paramétricamente a través de señales
del mercado tales como los precios, y no existe ninguna interacción entre
ellos que afecte sus decisiones económicas. A este esquema de operación
económica se le conoce como “competencia perfecta”. Veamos esto con cierto
detalle.

[Link]. Minimización de costos

Ya sabíamos –volumen I (Álgebra lineal y cálculo en varias variables)– que
una de las formas de modelar el comportamiento de los productores bajo
competencia perfecta es por medio del problema de mínimos costos:

Minimizar w1 x + w2 y
sujeta a f (x, y) ≥ y0
x, y ≥ 0

donde w1 , w2 > 0 son los precios de los insumos x y y respectivamente (que

son dados por el mercado); y0 > 0 fijo es la producción mínima requerida en
el período económico; y f (x, y) es una función de producción (o tecnología)
que relaciona las cantidades de los insumos x y y con una cantidad de
producción definida por la función f : R2+ → R (figura 2.31).
Para asegurar la existencia de una solución a este tipo de problema de
producción, sólo necesitaríamos que el conjunto

S = {(x, y) ∈ R2+ | f (x, y) ≥ y0 }

fuera compacto (teorema 1), ya que la función objetivo es lineal y, por tanto,
continua. Pero el conjunto S no es compacto, y por eso recurrimos a un
“truco”: primero, definimos un conjunto S ′ ⊆ S, que sí sea compacto y que
mantenga la esencia del problema económico: sea (x′ , y ′ ) ∈ R2+ cualquiera,
pero fijo; el costo mínimo buscado w1 x∗ + w2 y ∗ debe ser entonces menor o
igual a w1 x′ + w2 y ′ . Si restringimos la atención al conjunto compacto (figura
2.31)

S ′ = {(x, y) ∈ R2+ | f (x, y) ≥ y0 , w1 x + w2 y ≤ w1 x′ + w2 y ′ }

2.10. Contexto económico 143

notamos que podemos utilizarlo como conjunto compacto para que el pro-
blema del productor, ahora sí, tenga solución. Si la función de producción
es cuasicóncava estricta, entonces, podemos utilizar el teorema 2 de este
capítulo para asegurar que la solución (x∗ , y ∗ ) al problema del productor es
única.
y
costo mín. = w1 x∗ + w2 y ∗

y∗ •

f (x, y) = y0

x∗ x

Figura 2.31. Solución gráfica al problema del productor que minimiza costos.

De otro lado, notemos que si f (·, ·) es diferenciable con continuidad en R2+ , el

problema cumple con las condiciones del teorema 5, así que las soluciones de
las condiciones de primer orden de Kühn-Tucker son también las soluciones
del problema del productor. Estas condiciones de primer orden son:

∂f ∂f
(i) −w1 − λ ≤0 ; −w2 − λ ≤0 ; f (x, y) ≥ y0
∂x ∂y

∂f ∂f
(ii) x −w1 − λ = 0 ; y −w2 − λ = 0 ; λ (f (x, y) − y0 ) = 0
∂x ∂y

Además, por el teorema de la envolvente (teorema 6), tenemos que, en es-

te contexto, −λ mide el cambio en los costos óptimos cuando se varía la
producción mínima requerida.

Ejemplo 38. (Mínimos costos con tecnología Cobb-Douglas)

Resolvamos el problema de minimización de costos
Minimizar w1 x + w2 y
sujeta a xα y β ≥ y0
x, y ≥ 0
donde w1 , w2 , α, β > 0; y0 > 0 ﬁjo (ﬁgura 2.32).
144 Capítulo 2. Optimización estática
y

y∗ •

xα y β = y0

x∗ x

Figura 2.32. Mínimos costos con tecnología Cobb-Douglas.

Solución.
Las condiciones de primer orden del problema del productor son:

i) −w1 − λαxα−1 y β ≤ 0; −w2 − λβxα y β−1 ≤ 0; xα y β ≥ y0

ii) x −w1 − λαxα−1 y β = 0; y −w2 − λβxα y β−1 = 0

λ xα y β − y0 = 0

Analizamos sólo el caso x > 0, y > 0 (¿por qué?): Si x > 0, y > 0, entonces,
w1 w2 w2 β
de (ii), λ = − α−1 β = − α β−1 6= 0, lo que implica y = x y
αx y βx y w1 α
entonces, nuevamente de ii),

β
1
α w2 α+β
x= y0α+β
β w1

Por consiguiente, las demandas de factores y el costo marginal son

β
1
∗ α w2 α+β
x = y0α+β
β w1
α
1
∗ β w1 α+β
y = y0α+β
α w2
β
1
∗ w1 α w2 α+β
−λ = y0α+β
αy0 β w1
2.10. Contexto económico 145

Así, el productor produce exactamente y0 , y el costo mínimo de producir al

menos esa cantidad es
 
β α
1
α w2 α+β β w1 α+β
C(w1 , w2 , y0 ) = w1 + w2  y α+β
0
β w1 α w2

A C(w1 , w2 , y0 ) se le conoce como la función de costos de la tecnología

Cobb-Douglas. Notemos que el problema del productor tiene solución, inde-
pendientemente del tipo de rendimientos a escala que presente la función de
producción.

Ejemplo 39. (Mínimos costos con tecnología lineal)

En el problema de mínimos costos

Minimizar w1 x+w2 y
sujeta a αx + βy ≥ y0
x, y ≥ 0

donde w1 , w2 , α, β > 0; y0 > 0 ﬁjo, las condiciones de primer orden del

problema del productor son

i) −w1 − λα ≤ 0; −w2 − λβ ≤ 0; αx + βy ≥ y0
ii) x (−w1 − λα) = 0; y (−w2 − λβ) = 0; λ (αx + βy − y0 ) = 0

y y

y0
β •

•
y0 x x
α
a) b)

Figura 2.33. Solución gráfica del problema del productor con tecnología lineal. En el
w1 w1
panel a): α
β
> w2
. En el panel b): α
β
< w2
.
146 Capítulo 2. Optimización estática

Analizamos tres casos:

a) Si x > 0, y > 0, entonces, de ii), λ = −w1 /α 6= 0 y λ = −w2 /β 6= 0, lo
cual sólo se cumple si α/β = w1 /w2 (caso muy particular). Si se tiene esta
última igualdad, entonces λ∗ < 0, y de (ii) debe tenerse αx∗ + βy ∗ = y0 .
Por lo tanto, cualquier combinación de x, y que satisfaga la restricción
también satisface todas las condiciones.

b) Si x > 0, y = 0, entonces, de ii), λ = −w1 /α 6= 0 y x∗ = y0 /α. Para que

se cumpla la condición i) debe tenerse que w1 /w2 ≤ α/β, y en este caso,
x∗ = y0 /α, y ∗ = 0, λ∗ = −w1 /α (ﬁgura 2.33).

c) Si x = 0, y > 0, entonces de ii), λ = −w2 /β 6= 0 y y ∗ = y0 /β. Para

que se cumpla la condición (i), debe tenerse que: α/β ≤ w1 /w2 , en cuyo
caso, x∗ = 0, y ∗ = y0 /β, λ∗ = −w2 /β (ﬁgura 2.33).

Así, la producción óptima es y0 , y la función de costos de la tecnología lineal

es:  w
 2 α w1

 y0 si ≤

 β β w2
C(w1 , w2 , y0 ) =

 w1 α w1


 y0 si ≥
α β w2
Las demandas óptimas son las correspondencias
 α w1



0 si <

 β w2






∗ y0 α w1
x (w1 , w2 , y0 ) = 0, si =

 α β w2







 y0 α w1
 si >
α β w2

 y0 α w1

 si <

 β β w2






y ∗ (w1 , w2 , y0 ) = y0 α w1


 0, si =

 β β w2

 α w1

 0 si >
β w2
2.10. Contexto económico 147

y el costo marginal es:

 w2 α w1

 si ≤

 β β w2

−λ∗ =

 w1 α w1


 si >
α β w2

Ejemplo 40. (Mínimos costos con tecnología CES)

En el problema de mínimos costos

Minimizar w1 x+w2 y
1
sujeta a [αxρ + βy ρ ] ρ ≥ y0
x, y ≥ 0

donde w1 , w2 , α, β > 0; y0 > 0 ﬁjo, ρ ≤ 1, ρ 6= 0, las condiciones de primer

orden del problema del productor son:
1−ρ
(i) −w1 − λα [αxρ + βy ρ ] ρ xρ−1 ≤ 0
1−ρ
−w2 − λβ [αxρ + βy ρ ] ρ y ρ−1 ≤ 0
1
[αxρ + βy ρ ] ρ ≥ y0

1−ρ
(ii) x −w1 − λα [αxρ + βy ρ ] ρ xρ−1 = 0

1−ρ
y −w2 − λβ [αxρ + βy ρ ] ρ y ρ−1 = 0
1
λ [αxρ + βy ρ ] ρ − y0 = 0

Analizamos tres casos:

1. Si x > 0, y > 0, entonces de (ii),
w1 w2
λ=− 1−ρ =− 1−ρ 6= 0
α [αxρ + βy ρ ] ρ xρ−1 β [αxρ + βy ρ ] ρ y ρ−1
de lo cual resulta que
1
w2 α ρ−1
y= x
w1 β
148 Capítulo 2. Optimización estática

y utilizando nuevamente (ii), obtenemos que

" ρ #− 1 " ρ #− 1
ρ ρ
∗ w2 α ρ−1
∗ w1 β ρ−1
x = α+β y0 , y = α +β y0
w1 β w2 α
lo cual es equivalente a
1 ρ ρ − 1
1 1 1 ρ
∗ − ρ−1 ρ−1 − ρ−1 ρ−1 − ρ−1 ρ−1
x =α w1 α w1 +β w2 y0
1 ρ ρ − 1
1 1 1 ρ
∗ − ρ−1 ρ−1 − ρ−1 ρ−1 − ρ−1 ρ−1
y =β w2 α w1 +β w2 y0

y cuyo costo es
 ! 1 ! 1  ρ−1
ρ
w1ρ ρ−1
w2ρ ρ−1
C(w1 , w2 , y0 ) =  +  y0
α β

w1 y0
2. Si x > 0, y = 0, entonces de (ii), λ = − 1 . Así,1 6= 0 y x =
α αρ ρ
y0 w1
x∗ = 1 , y ∗ = 0, λ∗ = − 1 , que cumple todas las condiciones, y
αρ αρ
w 1 y0
cuyo costo es C(w1 , w2 , y0 ) = 1 (ﬁgura 2.34).
αρ
w2 y0
3. Si x = 0, y > 0, entonces de (ii), λ = − 1 6= 0 y y = 1 . Así, x∗ = 0,
βρ βρ
y 0 w 2
y ∗ = 1 , λ∗ = − 1 , que cumple todas las condiciones, y cuyo costo
βρ βρ
w 2 y0
es C(w1 , w2 , y0 ) = 1 (ﬁgura 2.34).
βρ
La función de costos de la tecnología CES es:
" # ρ−1

 ρ 1 ρ 1 ρ
 w ρ−1 w ρ−1


 α
1
+ β2 y0 si ρ < 0








 1
ρ 1 w1 α ρ
C(w1 , w2 , y0 ) = w1 ρ
y si ≤ ρ>0
 α
 0

 w2 β





 1

 ρ 1
 w1 α ρ
 w 2 ρ y0
 si ≥ ρ>0
β w2 β
2.10. Contexto económico 149
y y y

y0 y0
β 1/ρ • β 1/ρ •

• •
y0 x x y0 x
α1/ρ α1/ρ
a) b) c)
Figura 2.34. Solución gráfica del problema del productor con tecnología CES, caso ρ > 0.
α
ρ1 w1 α
ρ1 w1 α
ρ1 w1
En el panel a): β
> w2
. En el panel b): β
< w2
. En el panel c): β
= w2
.

y las demandas son las siguientes correspondencias:

 − 1
ρ ρ

 1
− ρ−1
1 1
− ρ−1 1
− ρ−1 ρ

 α w1ρ−1 α w1ρ−1 + β w2ρ−1 y0 , ρ < 0



 1

y0 w1 α ρ
x∗ (w1 , w2 , y0 ) = si ≤ ρ>0


1
w2 β

 αρ 1



 w1 α ρ
 0 si ≥ ρ>0
w2 β
 ρ ρ − 1
1

 1
− ρ−1 1
− ρ−1 1
− ρ−1 ρ


 β w2ρ−1 α w1ρ−1 + β w2ρ−1 y0 , ρ<0



 1
w1 α ρ
y ∗ (w1 , w2 , y0 ) = 0 si ≤ ρ>0

 w2 β

 1

 y0 w1 α ρ

 si ≥ ρ>0
 1
βρ w2 β

[Link]. Maximización de beneficios

Otro mecanismo muy utilizado para modelar el comportamiento del produc-
tor racional es el supuesto de que maximiza beneﬁcios, es decir, se asume
que el productor resuelve el problema
Maximizar p ȳ − w1 x − w2 y
sujeta a ȳ = f (x, y)
x, y ≥ 0
150 Capítulo 2. Optimización estática

donde ȳ > 0 es el total de la producción, p > 0 es el precio de venta del

bien, w1 , w2 > 0 son los precios de los insumos utilizados en la producción
y f : R2+ −→ R+ (con f (0, 0)) es la función de producción (o tecnología).
Notemos que este problema es equivalente al problema
Maximizar pf (x, y) − w1 x − w2 y
sujeta a x, y ≥ 0
Siguiendo los teoremas 4 y 5, notamos que para que las condiciones KT
sean equivalentes a las condiciones CPO se requerirá que la función de pro-
ducción f (·, ·) satisfaga ser dos veces diferenciable con continuidad y cón-
cava en R2+ . Sin embargo, por sí mismas, estas condiciones no garantizan
siempre la existencia de solución. Para hacerlo, primero debemos asegu-
rar que ∇f (x, y) >> 0 en R++ (es decir, la función de producción f (·, ·)
tiene productividades marginales estrictamente crecientes en R++ ) y des-
pués debemos recurrir al teorema de Weierstrass aplicándolo a la función
π = pf (x) − w1 x − w2 y. Al aplicar este último teorema sobre el conjunto
compacto en R2++ conformado por la curva de todos los y ∗ ∈ R2++ tales que
f (y∗) = (1/p)(w1 , w2 ) · y ∗ (es decir, con beneficio cero) y (si fuera necesario)
los ejes coordenados x e y, podemos, entonces, asegurar que habrá solución
al problema en el interior de ese conjunto. Obviamente, aquí, asumimos que
esta curva de beneficio cero es distinta de (0, 0) y para garantizar esto y,
además, que la solución sea única, usualmente se requiere pedir que f (·, ·)
sea cóncava estricta, pues con ello se hace de la función π(·, ·) también una
función cóncava estricta.
Al final de cuentas, si la función de producción es cóncava estricta y tiene
productividades marginales crecientes, entonces la solución (interior al plano
R2+ ) es única y satisface las CPO del problema:

∂f ∂f
p − w1 = 0, p − w2 = 0
∂x ∂y
Es usual analizar este problema gráficamente utilizando una figura que re-
lacione el nivel de producción ẑ y uno de los insumos x ó y. Para ello, por
ejemplo, suponemos fijo el nivel de insumo y en y = ŷ, y dibujamos la función
de producción f (x, ŷ) en el plano (x, z̄), donde z̄ = f (x, ŷ) (figura 2.35a).
Asímismo, se pueden dibujar las diferentes combinaciones de producción z̄
e insumo x, dado ŷ, que obtienen el mismo nivel Π de beneficios. A estas
combinaciones las denominamos curvas de isobeneficios, y están dadas por
la ecuación
Π w1 w2
ȳ = + x+ ŷ
p p p
2.10. Contexto económico 151

como se muestra en la ﬁgura 2.35b). Vemos que la curva de isobeneﬁcio más

alta se alcanza en el punto donde esta es tangente a la función de producción;
es decir, donde
w1 ∂f
=
p ∂x
que es la tradicional condición de igualdad entre ingreso marginal (valor del
producto marginal) y el costo marginal para funciones de producción de un
insumo variable (x) y otro ﬁjo (y = ŷ) –ver ﬁgura 2.35c)–.
Π3 f (x, ŷ)
f (x, ŷ)

Π2

Π1 •

x x x

a) b) c)

Figura 2.35. Solución gráfica del problema del productor que maximiza beneficios. En el
panel a) la función de producción dado el valor ŷ del insumo y. En el panel b) las curvas
isobeneficio. En el panel c) el punto óptimo, donde el ingreso marginal es igual al costo
marginal.

Ejemplo 41. (Máximos beneficios con tecnología tipo Cobb-Douglas)

El problema de hacer máximos los beneﬁcios, en este caso, se puede plantear

así: dados α, β, p, w1 , w2 > 0, α + β < 1,

Maximizar pf (x, y) − w1 x − w2 y
sujeta a f (x, y) = xα y β
x, y ≥ 0

Solución.
Las condiciones de primer orden para maximizar los beneﬁcios con tecnolo-
gía Cobb-Douglas son

pαxα−1 y β = w1 , pβxα y β−1 = w2

de lo cual obtenemos que

w1 β
y= x
w2 α
152 Capítulo 2. Optimización estática

Reemplazando en las condiciones de primer orden, encontramos las funcio-

nes de demanda de factores:
1−β β
1
− α+β−1 w1 α+β−1 w2 α+β−1
x∗ (p, w1 , w2 ) = p
α β
α 1−α
1
− α+β−1 w1 α+β−1 w2 α+β−1
y ∗ (p, w1 , w2 ) = p
α β
con función de oferta
α β
∗ ∗
α+β
− α+β−1 w1 α+β−1 w2 α+β−1
f (x (p, w1 , w2 ), y (p, w1 , w2 )) = p
α β
y función de beneﬁcio
α β
1
− α+β−1 w1 α+β−1 w2 α+β−1
Π(p, w1 , w2 ) = (1 − α − β) p
α β
¿Por qué debemos asumir en este problema que α + β < 1? Así, los rendi-
mientos de la tecnología Cobb-Douglas no pueden ser constantes o crecientes
a escala.
Ejemplo 42. (Máximos beneficios con tecnología tipo lineal)
Dados α, β, p, w1 , w2 > 0,
Maximizar pf (x, y) − w1 x − w2 y
sujeta a αx + βy = f (x, y)
x, y ≥ 0
Solución.
El problema de optimización del productor es equivalente a
Maximizar p(αx + βy) − w1 x − w2 y
sujeta a x, y ≥ 0
cuya función objetivo es creciente en x si p α > w1 , y en y si p β > w2 . Así,
las correspondencias de demanda de factores son


∞
 si p α > w1
x(p, w1 , w2 ) = [0, ∞) si p α = w1


0 si p α < w1


∞
 si p β > w2
y(p, w1 , w2 ) = [0, ∞) si p β = w2


0 si p β < w2
2.10. Contexto económico 153

la correspondencia de oferta es


∞
 si p α > w1 , ó , p β > w2
f (x(p, w1 , w2 ), y(p, w1 , w2 )) = [0, ∞] si p α = w1 , y , p β = w2


0 si p α < w1 , y , p β < w2

y la correspondencia de beneﬁcios es


∞
 si p α > w1 , ó , p β > w2
Π(p, w1 , w2 ) = 0, ó, ∞ si p α = w1 , y , p β = w2


0 si p α < w1 , y , p β < w2

Estas correspondencias de demanda, de oferta y de beneﬁcio muestran un

comportamiento que proviene de que la función de producción y, por tanto,
también la función de beneficio π(x, y) = pf (x, y) − w1 x − w2 y, son homo-
géneas de grado 1: π(tx, ty) = p(f (tx, ty)) − w1 (tx) − w2 (ty) = t(f (x, y) −
w1 x − w2 y) = tπ(x, y) para todo t > 0. ¿Por qué? Porque no puede existir
(x∗, y∗) ∈ R2+ que maximice π(x, y), ya que, en ese caso, para todo t > 1 se
tendrá π(tx∗ , ty ∗ ) = tπ(x∗ , y ∗ ) > π(x∗ , y ∗ ) y no se estaría maximizando el
beneficio en (x∗ , y ∗ ).
Por lo tanto, es común para la teoría neoclásica definir ad hoc la “función” de
beneficios mediante la relación de insumos dada por la ecuación π(x, y) = 0,
en vez de la correspondencia de beneficios descrita arriba. Esta hipótesis,
era de esperarse, tiene numerosas discusiones y debates sobre los cuales no
entraremos aquí –ver Monsalve (2016)–.

Ejemplo 43. (Máximos beneficios con tecnología tipo CES)

Dados α, β, ρ, p, w1 , w2 > 0,

Maximizar pf (x, y) − w1 x−w2 y

1
sujeta a (αxρ + βy ρ ) ρ = f (x, y)
x, y ≥ 0

Solución.
Aquí el argumento es similar al presentado en elejemplo anterior, debido a
que la función de producción CES es homogénea de grado 1, y, por tanto,
también lo es π(x, y) = pf (x, y) − w1 x − w2y (es decir, π(tx, ty) = tπ(x, y)
para todo t > 0).
154 Capítulo 2. Optimización estática

[Link]. Maximización de la utilidad

Como advertimos antes en esta misma sección, al modelar el comporta-

miento del consumidor nos basamos en la idea de que este busca su máxima
utilidad restringido a su asignación presupuestal, asumiendo que el resto de
la economía opera paramétricamente con respecto a él (o ella), y que sólo
recibe señales de precios como mensajeros de información de las activida-
des de los otros agentes. Desde esta visión, nuestro consumidor enfrenta el
problema

Maximizar u(x, y)
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0

donde p1 > 0 es el precio por unidad del bien x; p2 > 0 es el precio por
unidad del bien y, y ambos precios están dados; M > 0 es su presupuesto; y
u(x, y) es la función de utilidad que relaciona el consumo de x y y con el nivel
de satisfacción del individuo (ﬁgura 2.36). Para asegurar la existencia de una
solución al problema, por el teorema 1 basta que la función de utilidad sea
continua, ya que el conjunto S = {(x, y) ∈ R2+ | p1 x + p2 y ≤ M } es
compacto. Si, además, la función de utilidad es cuasicóncava estricta, por
el teorema 2 podemos asegurar que dicha solución es única, puesto que el
conjunto S es convexo.

• Solución

x
Figura 2.36. El problema del consumidor racional.

Si la función de utilidad es, además, diferenciable con continuidad en R2+ ,

entonces se cumplen las condiciones del teorema 5 y, así, la solución al
problema estará entre las condiciones de primer orden
2.10. Contexto económico 155

∂u ∂u
i) + λp1 ≤ 0; + λp2 ≤ 0; p1 x + p2 y ≤ M
∂x ∂y

∂u ∂u
ii) x + λp1 = 0; y + λp2 = 0; λ (M − p1 x − p2 y) = 0
∂x ∂y

Por el teorema de la envolvente (previo al teorema 6), tenemos que, en

este contexto, λ mide el cambio en la utilidad (óptima) cuando se varía el
presupuesto M ; esto es, λ es la utilidad marginal del presupuesto.

Ejemplo 44. (Máxima utilidad tipo Cobb-Douglas)

El problema, en este caso, es
Maximizar xα y β
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0
donde los parámetros p1 , p2 , M, α, β son todos positivos.
Solución.
Las condiciones de primer orden del problema del consumidor son
(i) αxα−1 y β + λp1 ≤ 0; βxα y β−1 + λp2 ≤ 0; p1 x + p2 y ≤ M

(ii) x αxα−1 y β + λp1 = 0; y βxα y β−1 + λp2 = 0
λ (M − p1 x − p2 y) = 0
Analizamos únicamente el caso x > 0, y > 0 (¿por qué?). De esta manera,
de (ii),
αxα−1 y β βxα y β−1
λ=− 6= 0 y λ=− 6= 0
p1 p2
y así,
p1 β
y= x
p2 α
y nuevamente de (ii), obtenemos las funciones de demanda del consumidor
αM βM
x∗ (p1 , p2 , M ) = , y ∗ (p1 , p2 , M ) =
p1 (α + β) p2 (α + β)
y nivel óptimo de utilidad
α β
∗ ∗ αM βM
u(x (p1 , p2 , M ), y (p1 , p2 , M )) =
p1 (α + β) p2 (α + β)
156 Capítulo 2. Optimización estática

2.10.2. Funciones del productor y del consumidor

Las diversas funciones estudiadas en el literal anterior poseen ciertas ca-
racterísticas estructurales que nos permiten distinguir claramente cuándo
una función cualquiera proviene (o no) del comportamiento racional de un
productor o de un consumidor. Veamos esto en cada uno de los casos que
hemos estudiado.

[Link]. Características de la función beneficio de un productor

racional
La función de beneficio asigna el máximo nivel de beneficio de la firma para
cada nivel de precio del producto y los precios de los insumos (figura 2.37).
El primer estudio de la función de beneficio fue el trabajo pionero de Harold
Hotelling (1932).
Teorema 19. [Función de beneficio (Hotelling, 1932)]
Si la función Π : R3++ → R, Π(p, w1 , w2 ), resuelve el problema de optimiza-
ción del productor

Maximizar pf (x, y) − w1 x − w2 y
sujeta a x, y ≥ 0

donde p, w1 , w2 > 0, y f (·, ·) es una función de producción continua (arbi-

traria), entonces Π(·, ·, ·) (ver ﬁgura 2.37) satisface las condiciones de abajo.

Π(p∗ , w1 , w2 )

w1
Figura 2.37. Típica función de beneficio para un nivel de precios p∗ dado.

a) Π(p, w1 , w2 ) ≥ 0 para todo p, w1 , w2 , es decir, las ﬁrmas nunca eligen

trabajar con beneﬁcios negativos.
2.10. Contexto económico 157

b) Π(p, w1 , w2 ) es no decreciente en p y no creciente en w1 y w2 , es decir,

que aumentos en el precio del bien vendido nunca perjudica los beneficios
de la firma, y que aumentos en los precios de los insumos nunca mejoran
los beneficios óptimos.
c) Π(·, ·, ·) es homogénea de grado 1 en (p, w1 , w2 ), es decir, que si multi-
plicamos por t > 0 todos los precios relevantes para la firma, entonces el
beneficio óptimo se aumentará en la misma proporción t.
d) Π(p, w1 , w2 ) es convexa en (p, w1 , w2 ).

Demostración.
Ejercicio complementario 33 al final de este capítulo.
Ejemplo 45.
Verifiquemos que la función de beneficio de la tecnología Cobb-Douglas
α β
1
− α+β−1 w1 α+β−1 w2 α+β−1
Π(p, w1 , w2 ) = (1 − α − β) p
α β
cumple con las propiedades del teorema anterior:

a) Aquí,
α β
∂Π(p, w1 , w2 ) 1 w1 α+β−1 w2 α+β−1
= p− α+β−1 −1 >0
∂p α β
α
−1 β
∂Π(p, w1 , w2 ) 1 w1 α+β−1 w2 α+β−1
= −p− α+β−1 <0
∂w1 α β
α β
−1
∂Π(p, w1 , w2 ) − 1 w1 α+β−1 w2 α+β−1
= −p α+β−1 <0
∂w2 α β

b) Además, para t > 0,

α β
1
− α+β−1 tw1 α+β−1 tw2 α+β−1
Π(tp,tw1 , tw2 ) = (1 − α − β) (tp)
α β
α β
1
− α+β−1 w1 α+β−1 w2 α+β−1
= t (1 − α − β) p
α β
= t Π(p, w1 , w2 )

c) Por último, es inmediato ver que la función es convexa, utilizando el

teorema 4 del capítulo 1.
158 Capítulo 2. Optimización estática

[Link]. Características de la función de costos

La función de costos (ﬁgura 2.38) y su análisis se debe al famoso texto
Foundations of Economic Analysis de Paul A. Samuelson (1947); y también
a los trabajos de Ronald Shephard (1953). Veamos cuáles características la
distinguen.
Teorema 20. [Función de costos (Samuelson, 1947)]
Si la función C : R3++ → R, C(w1 , w2 , y0 ), resuelve el problema de optimi-
zación del productor

Minimizar w1 x + w 2 y
sujeta a f (x, y) ≥ y0
x, y ≥ 0

donde f (·, ·) es una función de producción, entonces satisface (ver ﬁgura

2.38):
a) C(w1 , w2 , y0 ) es no decreciente en w1 , w2 , y0 .

b) C(w1 , w2 , y0 ) es homogénea de grado 1 en (w1 , w2 ), para y0 ﬁjo.

c) C(w1 , w2 , y0 ) es cóncava en (w1 , w2 ), para y0 ﬁjo.

Demostración.
Ver ejercicio complementario 34.

C(w1 , w2 , y0 )

Figura 2.38. Función de costos para nivel de producción y0 dado.

2.10. Contexto económico 159

Ejemplo 46.
Veriﬁquemos que la función de costos de la tecnología lineal (ejemplo 39)
w α w1
 2

 y0 si <

 β β w2
C(w1 , w2 , y0 ) =

 w1 α w1


 y0 si ≥
α β w2
satisface las propiedades del teorema 20 anterior:

a) Si w1′ > w1 , entonces

 w

 w2 α w′  2 α w1
 y0
 si ≤ 1 
 y0 si ≤

 β β w2 
 β β w2
C(w1′ , w2 , y0 ) = ≥

 
 w1 α w1

 w′ α w′ 

 y0 si ≥
 1 y0
 si ≥ 1 α β w2
α β w2
= C(w1 , w2 , y0 )
Y de forma similar si w2′ > w2 .

b) Además, para t > 0,

 tw α w1  w α w1
 2  2

 y0 si ≤ 
t y0 si ≤

 β β w2 
 β β w2
C(tw1 , tw2 , y0 ) = =

 
 w1 α w1

 tw α w1 
 si
 1 y0 si ≥ t y0 ≥
α β w2 α β w2

= t C(w1 , w2 , y0 )

c) Sean (w1 , w2 ), (w1′ , w2′ ) ∈ R2++ y λ ∈ [0, 1]. Si se tiene que

w1 α w1′ α
≤ ; ′ ≤
w2 β w2 β
entonces
λw1 + (1 − λ)w1′
C(λw1 + (1 − λ)w1′ ,λw2 + (1 − λ)w2′ , y0 ) = y0
α
w1 w′
= λ y0 + (1 − λ) 1 y0
α α
= λC(w1 , w2 , y0 ) + (1 − λ)C(w1′ , w2′ , y0 )
160 Capítulo 2. Optimización estática

El caso con las desigualdades anteriores al revés es similar. Si

w1 α w′
≤ ≤ 1′
w2 β w2

entonces se tiene que

λw1 + (1 − λ)w1′ α λw1 + (1 − λ)w1′ α
′ ≤ , ó ′ ≥
λw2 + (1 − λ)w2 β λw2 + (1 − λ)w2 β

El primer caso implica que

λw1 + (1 − λ)w1′
C(λw1 + (1 − λ)w1′ ,λw2 + (1 − λ)w2′ , y0 ) = y0
α
w1 w′ w1 w′
= λ y0 + (1 − λ) 1 y0 ≥ λ y0 + (1 − λ) 2 y0
α α α β
′ ′
= λC(w1 , w2 , y0 ) + (1 − λ)C(w1 , w2 , y0 )

El otro caso es similar.

[Link]. Características de la función de demanda

Aquí observaremos las características que describen una función de demanda
cuando esta proviene del comportamiento racional de un consumidor (ﬁgura
2.39).

Teorema 21. (Función de demanda)

Si las funciones (x, y) : R3++ → R2+ , (x(p1 , p2 , M ), y(p1 , p2 , M )), resuelven
el problema de optimización del consumidor

Maximizar U (x, y)
sujeta a p1 x + p 2 y ≤ M
x, y ≥ 0

donde U (·, ·) es una función de utilidad continua, cuasicóncava estricta y

creciente en x y y, entonces (ver ﬁgura 2.39):

a) x(p1 , p2 , M ), y(p1 , p2 , M ) son no crecientes en p1 y p2 , respectivamente;

y no decrecientes en M .

b) x(p1 , p2 , M ), y(p1 , p2 , M ) son homogéneas de grado 0 en (p1 , p2 , M ).

c) x(p1 , p2 , M ), y(p1 , p2 , M ) son cóncavas en M .

2.10. Contexto económico 161

d) x(p1 , p2 , M ), y(p1 , p2 , M ) son continuas.

Demostración.
Ver ejercicio complementario 35.

x(p1 , p2 , M )

p1
Figura 2.39. Función de demanda para presupuesto M dado.

Ejemplo 47. (Demandas de consumidor tipo Cobb-Douglas)

Las funciones de demanda de un consumidor con función de utilidad Cobb-
Douglas son
αM βM
x∗ (p1 , p2 , M ) = y ∗ (p1 , p2 , M ) =
p1 (α + β) p2 (α + β)
Veamos que estas satisfacen las condiciones del teorema anterior.
a) Calculando las derivadas parciales con respecto a p1 , p2 y M tenemos
que:
∂x∗ (p1 , p2 , M ) αM ∂y ∗ (p1 , p2 , M )
=− 2 <0 =0
∂p1 p1 (α + β) ∂p1

∂y ∗ (p1 , p2 , M ) βM ∂x∗ (p1 , p2 , M )

=− 2 <0 =0
∂p2 p2 (α + β) ∂p2

∂x∗ (p1 , p2 , M ) α ∂y ∗ (p1 , p2 , M ) β

= >0 = >0
∂M p1 (α + β) ∂M p2 (α + β)
162 Capítulo 2. Optimización estática

b) αλM
x∗ (λp1 , λp2 , λM ) = = x∗ (p1 , p2 , M )
λp1 (α + β)

βλM
y ∗ (λp1 , λp2 , λM ) = = y ∗ (p1 , p2 , M )
λp2 (α + β)
c) Ambas funciones son lineales en M y, por tanto, cóncavas.
d) Es claro que son continuas en (p1 , p2 , M ) ∈ R3++ .

[Link]. Características de la función de utilidad indirecta

A diferencia de la función de utilidad, la función de utilidad indirecta (Roy,
1947) es muy conveniente en la implementación econométrica, ya que esta
dependerá de parámetros susceptibles de ser medidos a través de datos. Por
esta sola razón merece tener un estudio particular.
Teorema 22. (Función de utilidad indirecta)
Si la función v : R3++ → R2+ , v(p1 , p2 , M ) = u(x(p1 , p2 , M ), y(p1 , p2 , M )) es
evaluada en las soluciones al problema de optimización del consumidor
Maximizar u(x, y)
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0
donde U (·, ·) es una función de utilidad continua, cuasicóncava estricta y
creciente en x y y, entonces satisface:
i) v(p1 , p2 , M ) es no creciente en p1 y en p2 ; y no decreciente en M .
ii) v(p1 , p2 , M ) es homogénea de grado 0 en (p1 , p2 , M ).
iii) v(p1 , p2 , M ) es cuasiconvexa en (p1 , p2 ).
iv) v(p1 , p2 , M ) es continua.
Demostración.
Ver ejercicio complementario 36.
Ejemplo 48.
Veriﬁquemos que la función de utilidad indirecta de la función de utilidad
Cobb-Douglas
α β
αM βM
v(p1 , p2 , M ) =
p1 (α + β) p2 (α + β)
satisface las condiciones del teorema anterior:
2.10. Contexto económico 163

i) Al derivar con respecto a p1 y p2 obtenemos:

α β
∂v(p1 , p2 , M ) α αM βM
=− <0
∂p1 p1 p1 (α + β) p2 (α + β)
α β
∂v(p1 , p2 , M ) β αM βM
=− <0
∂p2 p2 p1 (α + β) p2 (α + β)

ii) Además,
α β
αλM βλM
v(λp1 , λp2 , λM ) = = v(p1 , p2 , M )
λp1 (α + β) λp2 (α + β)

iii) La función de utilidad indirecta es una función cuasiconvexa en (p1 , p2 )

aplicando la deﬁnición 4 del capítulo 1.

iv) Esta función es, claramente, continua en R3++ .

2.10.3. Tradición paretiana del modelo competitivo

Después del trabajo pionero de Walras –Éléments d’Économie Politique Pu-
re (1874-77)– sobre el equilibrio general económico bajo competencia per-
fecta, y antes del modelo neowalrasiano Arrow-Debreu –Arrow & Debreu
(1954); Debreu (1959)– que estudiaremos en el próximo capítulo, la teoría
se bifurcó en dos grandes “escuelas”:

i) La primera, conocida como la “tradición alemana”, se enfocó, funda-

mentalmente, en el problema matemático de la existencia del equilibrio
general competitivo. Esta línea, inspirada por el modelo Walras-Cassel
aparecido en el texto de Gustave Cassel de 1918 Theoretische Sozia-
lökomie , continuó con los trabajos de Abraham Wald (1936), Karl
Schlesinger (1933), y el mismo von Neumann (1932) –ver volumen I
(Álgebra lineal y cálculo en varias variables)–. De hecho, la primera
prueba que se conoce sobre la existencia de un equilibrio competiti-
vo, la obtuvo precisamente Wald (1936, 1951), aunque también von
Neumann había alcanzado a mostrar la existencia de equilibrio en su
modelo de crecimiento de 1932.

ii) La segunda, conocida como la “tradición paretiana”, tuvo su inspira-

ción en el Manuel d’Économie Politique (1906) de Pareto, quien fuera
alumno y sucesor de Walras en la Escuela de Laussane (Suiza). Este,
164 Capítulo 2. Optimización estática

aunque reconocía la teoría pura formal (es decir, los Éléments) de Wal-
ras como su principal fuente de inspiración, una y otra vez aseguraba
que el resto del trabajo de su maestro era fútil metafísica. Este tipo
de aﬁrmación de Pareto haría que se sesgara el estudio de Walras sólo
a la teoría pura, dejando de lado sus trabajos en economía política
aplicada y social, que para el francés eran parte integral de su obra.

Posteriormente, John Hicks profundizaría en este concepto cuando

aﬁrmaba que si de estudiar el problema del equilibrio general plantea-
do por Walras se trataba, era mejor ir a Pareto o a Wicksell que al
propio Walras. De hecho, en el prólogo de Value and Capital de 1939,
Hicks aseguraba que su propósito general era “examinar la teoría de
Pareto y aplicar después esta teoría del valor perfeccionada a aquellos
problemas del capital que estaban fuera del alcance de Wicksell a causa
de la imperfección de los instrumentos de que disponía”.

Pareto y Hicks fueron, sin duda, los pioneros de una corriente muy
inﬂuyente en el pensamiento económico del siglo XX: el estudio del
concepto de equilibrio general competitivo y su profunda relación con
el problema del bienestar económico. Sin embargo, en su propósito, no
sólo limitaron el pensamiento original walrasiano, sino que aplicaron
y discutieron sobre objetos de los que no tenían la seguridad de que
existieran, pues, por cualquiera que sea la razón, los problemas de
existencia del equilibrio general competitivo nunca estuvieron en su
agenda de investigación.

Pareto (Manuel, § 38), al igual que Walras, se contentaba con el argu-

mento falaz de que si el número de ecuaciones es igual al número de
incógnitas entonces la existencia de solución estaba garantizada. Por
su parte, Hicks, implícitamente, argumentaba que la solución debería
existir basándose en el signiﬁcado económico de las ecuaciones 15 .
Esta visión paretiana-hicksiana del trabajo original de Walras sería
fortalecida por la saga Bowley (1924), Hicks & Allen (1934), Lerner
(1932), Kaldor (1939), Scitovsky (1940), y los clásicos À la Recherche
15
Si el lector piensa que garantizar la existencia de un objeto que cumple cierta caracte-
rística, es un ejercicio importante pero sin consecuencia alguna, lo invitamos a considerar
el siguiente muy sencillo ejemplo: “Supongamos que existe un único número natural que
es el más grande de todos los números naturales. Entonces ese número es el 1, puesto
que si otro número natural x > 1 fuera el más grande, entonces, como x2 > x, ya x no
sería el más grande”. Esta es una simple muestra de a qué conclusiones podemos llegar si
comenzamos el argumento lógico con una hipótesis que es falsa.
2.10. Contexto económico 165

d´une Discipline Économique de Allais (1943), Foundations of Welfare

Economics de Lange (1942), y el Foundations of Economic Analysis
de Samuelson (1947) .

Una de las ventajas del sistema paretiano es que es pedagógicamente con-

veniente y su intuición gráﬁca es muy simple a través de tres herramientas
fundamentales: primero, las curvas de nivel (introducidas por Edgeworth
en su Mathematical Psychics de 1881); segundo, las cajas de Edgeworth
(confusamente vislumbradas por el mismo Edgeworth en su obra magna de
1881, pero introducidas en propiedad por Pareto en el Manuel de 1906); y
tercero, las fronteras de posibilidades de producción –introducidas por Ler-
ner (1932)–. Y aunque con ellas se ilustran claramente las condiciones del
equilibrio general, desafortunadamente, el gran costo de esta aproximación
es que, en general, se apoya en fuertes hipótesis de diferenciabilidad de las
distintas funciones empleadas.

[Link]. El modelo paretiano

Desde la perspectiva actual, el sistema paretiano podría describirse así:

a) Un conjunto de mercancías; es decir, “cosas valiosas e intercambiables”

(Walras, 1874, §41).

b) Un mercado de esas mercancías; es decir, “el lugar donde se cambian las

mercancías” (Walras, 1874, § 41).
c) Todos los agentes (consumidores y productores) responden a precios to-
mados paramétricamente, es decir, a precios dados por el mercado, justi-
ficándose esto sobre la base de que no era posible ningún comportamiento
manipulador dentro de una economía suficientemente grande. Al respec-
to, Walras (1874) afirmaba que (§ 41):

(...) Los mercados mejor organizados desde el punto de vista de la com-

petencia son aquellos en que las ventas y las compras se hacen mediante
subasta, a través de agentes tales como los agentes de cambio, corredores
de comercio o voceadores que las centralizan, de tal forma que ningún
cambio tiene lugar sin que las condiciones sean anunciadas y conocidas
y sin que los vendedores tengan la oportunidad de rebajar sus precios
y los compradores de aumentarlos. Así funcionan las bolsas de valores
públicos, las bolsas de comercio, los mercados de grano, de pescado, etc.
Al lado de estos mercados existen otros donde la competencia, aunque no
tan bien organizada, funciona todavía de una manera bastante adecuada
y satisfactoria: tales son los mercados de frutas y legumbres, de volatería.
Las calles de una ciudad donde se encuentran almacenes y panaderías,
166 Capítulo 2. Optimización estática

carnicerías, tiendas de ultramarinos, sastrerías, zapaterías, constituyen

mercados con una organización un poco más defectuosa desde el pun-
to de vista de la competencia pero, sin embargo, esta está presente de
forma suﬁciente. (...) Supondremos siempre un mercado perfectamente
organizado16 desde el punto de vista de la competencia, de igual forma
que en la mecánica pura se supone que las máquinas se encuentran libres
de rozamientos.

Y, por su parte, Pareto (1906) decía (§ 46, cap. III):

Si observamos la realidad, vemos que el tipo (I) [de individuo] 17 se en-
cuentra donde hay competencia entre los que se conforman. Las personas
con las cuales contratan pueden no estar en competencia y no seguir en
consecuencia el tipo (I). El tipo (I) es tanto más neto cuando la com-
petencia es más extensa y perfecta. Es precisamente porque cada día
en la Bolsa de París hay muchas personas que compran y venden ren-
ta francesa, que sería locura pretender modificar las condiciones de ese
mercado comprando o vendiendo algunos francos de renta. Evidentemen-
te, si todos los que venden (o compran) se pusieran de acuerdo, podrían
efectivamente modificar esas condiciones en provecho suyo; pero no se
conocen unos a otros, y cada uno actúa por su cuenta. En medio de esta
confusión, y de esta competencia, cada individuo no tiene otra cosa que
hacer, sino ocuparse de sus propios negocios y buscar cómo satisfacer sus
propios gustos, según las diferentes condiciones que pueden presentarse
en el mercado. Todos los vendedores (o los compradores) de renta, mo-
difican el precio, pero lo modifican sin previo designio, y no es el fin sino
el efecto de su intervención.

d) En este modelo también se asume que los consumidores poseen dotacio-

nes de factores y desean consumir bienes producidos por las ﬁrmas, que
son las que organizan la producción, demandando factores de los con-
sumidores y ofreciendo bienes producidos. El resto consiste en que los
consumidores escojan la vía de maximizar la utilidad, y los productores
la vía de maximizar el beneﬁcio (siendo esta última una de las princi-
pales “contribuciones” de Pareto al sistema walrasiano). El equilibrio se
alcanza cuando se consigue un conjunto de precios que haga que en los
mercados de productos y de factores, la oferta y la demanda se igualen.

e) Las ilustraciones gráﬁcas del sistema paretiano inevitablemente requie-

ren reducirlo a una economía compuesta por dos consumidores, dos
16
Quizás de aquí proviene el término “competencia perfecta”.
17
Para Pareto, un individuo tipo (I) es aquel que únicamente busca satisfacer sus gustos.
En su lugar, un individuo tipo (II) es el que busca modificar las condiciones del mercado
para “sacar ventaja, o para otro fin cualquiera”.
2.10. Contexto económico 167

productores, y dos factores (2 × 2 × 2). Es básicamente allí donde se

desarrolla todo el modelo. En estas gráficas se ilustra la situación en que
los dos consumidores buscan obtener satisfacción máxima por consumir
lo que producen las dos firmas, sabiendo que están restringidos a un pre-
supuesto determinado por el valor de los bienes de capital que poseen
y del trabajo que puedan ofrecer. Así, el capital y el trabajo requerido
para la producción está en manos de los dos consumidores. Las empre-
sas, siguiendo a Walras, son mecanismos para organizar la producción
tomando los insumos de los consumidores y ofreciéndoles bienes finales.
El equilibrio se alcanza cuando se encuentran unos precios que tienen la
característica de hacer que las firmas produzcan exactamente lo que los
consumidores necesitan.

Se acostumbra utilizar la siguiente notación:

a) Los consumidores son A y B.

b) Los factores son k y l, normalmente asociados con capital (k) y trabajo

(l) 18 .

c) Los productores (ﬁrmas) son x y y. Aquí se acostumbra a asumir que cada

ﬁrma produce únicamente un bien mediante una función de producción
x = f x (kx , lx ) : R2+ → R+ y y = f y (ky , ly ) : R2+ → R+ .

d) uA (xA , yA ) : R2+ → R es la función de utilidad del agente A que depende

del consumo de bienes (xA , yA ); y su dotación inicial de factores (es decir,
las cantidades de factores (unidades de capital y horas de trabajo) que
el consumidor A coloca a disposición del mercado en el período bajo
estudio) es wA = (k A , lA ).

e) De manera análoga, el consumidor B tiene su función de utilidad uB (xB , yB ) :

R2+ → R, y su dotación inicial wB = (k B , lB ).

Ahora:

i) La primera condición del sistema paretiano es la optimización por

parte de los consumidores:
18
Sobre los factores de producción, tanto Walras como Pareto tienen otras divisiones
metodológicas y de razonamiento económico. La presentada aquí es la más comúnmente
utilizada en la versión paretiana actual, aunque la discusión sobre la conveniencia de
asumir la existencia de una unidad básica de capital es un problema aún en discusión.
168 Capítulo 2. Optimización estática

a) Dados los precios px (del producto x), py (del producto y), r (del
factor k) y s (del factor l), el consumidor A se enfrenta al problema

Maximizar uA (xA , yA )
sujeta a px xA + py yA ≤ rk A + slA
xA , yA ≥ 0

y, puesto que el modelo paretiano asume diferenciabilidad con con-

tinuidad, monotonicidad estricta y concavidad estricta de la fun-
ción uA (·, ·), entonces podemos aplicar las condiciones de Lagran-
ge,19 que son, en este caso:

∂uA ∂uA
= λA px ; = λA py ; px xA + py yA = rk A + slA
∂xA ∂yA

donde λA es el multiplicador de Lagrange para el agente A. Observe

que, inmediatamente, se obtiene la conocida condición

∂uA
∂xA px
A
= (1)
∂u py
∂yA

que aﬁrma que la tasa marginal de sustitución entre xA y yA es

igual a la razón de precios de los bienes px /py (ﬁgura 2.40).
yA

∗
yA •
∗)
uA (xA , yA ) = uA (x∗A , yA

x∗A xA

Figura 2.40. El problema del consumidor paretiano.

19
Tradicionalmente, se afirma que Edgeworth (1877), en su New and Old Methods of
Ethics, fue el primero en utilizar el método de los multiplicadores de Lagrange en la teoría
económica. Walras y Pareto, aunque bien dispuestos hacia las matemáticas y advertidos
por colegas de su existencia, omitieron siempre su utilización, debido, quizá, a su limitado
conocimiento del cálculo diferencial.
2.10. Contexto económico 169

b) Para el consumidor B, el problema es similar: este se enfrenta al

problema

Maximizar uB (xB , yB )
sujeta a px xB + py yB ≤ rk B + slB
xB , yB ≥ 0

y con las mismas condiciones sobre uB (xB , yB ) de monotonicidad y

concavidad estricta, las condiciones de Lagrange, son, en este caso:
∂uB ∂uB
= λB px ; = λB py ; px xB + py yB = rk B + slB
∂xB ∂yB
donde λB es el multiplicador de Lagrange para el agente B. Y
se obtiene la respectiva condición de sustitución entre bienes en
equilibrio:
∂uB
∂xB px
B
= (2)
∂u py
∂yB
c) Así, de (1) y (2),

∂uA ∂uB

∂xA (x∗ ,y∗ ) px ∂xB (x∗ ,y∗ )
A A
= = B B ; (3)
∂uA
py ∂uB

∂yA (x∗A ,yA
∗) ∂yB (x∗ ,y∗ )
B B

es decir, en equilibrio, las tasas marginales de sustitución entre los

dos bienes serán iguales para ambos agentes.

Advirtamos, de paso, que las demandas de los consumidores, x∗i y yi∗

para i = A, B, son independientes de una multiplicación por escalar
de los precios, porque si estos cambian de (px , py , r, s) a (tpx , tpy , tr, ts)
para t > 0, la recta presupuestal no se modiﬁca para ningún consumi-
dor y, por ende, las demandas de los consumidores no cambian. Es por
esto que, en equilibrio, podemos escoger algún precio diferente de cero
(llamado “numerario”20 ), y representar los otros precios en términos
de este. Así, es natural encontrar que, en equilibrio, las demandas se
escriban en términos de precios relativos.
20
Término acuñado por Auguste Walras, padre de León Walras.
170 Capítulo 2. Optimización estática

ii) La tercera condición de este tipo de economía es la optimización por

parte de los productores:

i) Cada ﬁrma intenta maximizar sus beneﬁcios sujeta a restricciones

tecnológicas y de precios (ﬁgura 2.41):
Para la ﬁrma que produce x:

Maximizar px x − rkx − slx

sujeta a x = f x (kx , lx )
kx , lx ≥ 0

y para la ﬁrma que produce y:

Maximizar py y − rky − sly

sujeta a y = f y (ky , ly )
ky , ly ≥ 0

Nuevamente, el modelo paretiano asume diferenciabilidad con

continuidad, monotononicidad estricta y concavidad estricta de
las funciones de producción f x (·.·) y f y (·.·), lo que, a su vez, im-
plica rendimientos decrecientes a escala en ambas ﬁrmas. Así, las
condiciones necesarias de optimalidad para los productos x y y
son respectivamente,
∂f x ∂f x
r = px ; s = px (4)
∂kx ∂lx
∂f y ∂f y
r = py ; s = py (5)
∂ky ∂ly
de donde se obtiene la conocida condición
∂f x ∂f y
∂kx r ∂ky
x = = (6)
∂f s ∂f y
∂lx ∂ly

que asegura que, en equilibrio, las tasas de las productividades

marginales de los factores son iguales a la tasa de sus respectivos
precios 21 .
21
Recordemos que al cociente del lado izquierdo de (6) se le llama tasa marginal de
sustitución técnica.
2.10. Contexto económico 171

recta
rkx + slx = rkx∗ + slx∗

lx∗ •
curva
f x (kx , lx ) = f x (kx∗ , lx∗ )

kx∗ kx
Figura 2.41. El problema del productor paretiano.

iii) Así, encontrar un equilibrio competitivo consistirá en hallar unos pre-

cios de mercado px , py , r y s tales que las condiciones

x∗A + x∗B = f x (kx∗ , lx∗ )

∗ ∗
yA + yB = f y (ky∗ , ly∗ )
kx∗ + ky∗ = k A + k B (7)
lx∗ + ly∗ = lA + lB

se satisfagan; es decir, que se tengan las conocidas condiciones walrasianas de

“oferta=demanda”. Claramente, estos precios px , py , r y s y asignaciones kx∗ ,
lx∗ , ky∗ , ly∗ , x∗A , yA
∗ , x∗ , y ∗ , se calculan utilizando las ecuaciones de optimalidad
B B
(1), (2), (3), (4), (5) , (6) y (7) de arriba.
El problema general del equilibrio se escinde, en consecuencia, en otros tres
que consisten: 1° En determinar el equilibrio en lo que concierne a los gustos;
2° En determinar el equilibrio en lo que concierne a los obstáculos o en lo
que concierne a los productores; 3° En encontrar un punto común a esos dos
equilibrios, que formará un punto de equilibrio general. (Pareto, 1906, § 90,
cap. III).

[Link]. La caja de Edgeworth: típica herramienta paretiana22

Como aﬁrmábamos antes, Pareto fue quien primero utilizó efectivamente el
instrumento gráﬁco conocido como la caja de Edgeworth para mostrar la
relación que existe entre los equilibrios competitivos (o walrasianos) y las
asignaciones óptimas. Sin embargo, este formidable instrumento tiene hoy
dos versiones: una, para describir la interrelación entre los dos consumidores
y, otra, para describir la interrelación entre los dos productores.
22
También conocida como la caja de Edgeworth-Bowley.
172 Capítulo 2. Optimización estática

a) En el caso de los dos consumidores, las dimensiones de la caja están

determinadas por las cantidades totales de las dos mercancías que ellos
ofrecen en la economía: el lado de la caja mide f x (kx , lx ), y la altura
mide f y (ky , ly ) donde kx + ky = k A + k B y lx + ly = lA + lB . El con-
sumidor A mide sus consumos desde la esquina inferior izquierda de la
caja, y el consumidor B mide sus consumos desde la esquina superior
derecha. Así, un punto de la caja de Edgeworth nos da completa infor-
mación sobre la cantidad de cada una de las mercancías que demanda
cada consumidor: la cantidad del bien x que demanda el consumidor A
se mide desde la esquina inferior-izquierda hacia la derecha, y la canti-
dad del bien y se mide desde la esquina inferior-izquierda hacia arriba.
La cantidad del bien x que demanda el consumidor B se mide desde la
esquina superior-derecha hacia la izquierda, y la cantidad del bien y se
mide desde esa misma esquina pero hacia abajo. Así, todo punto dentro
de la caja identiﬁca ambas demandas por parte de los consumidores.

consumidor B

curva de contrato

consumidor A
Figura 2.42. Caja de Edgeworth para el consumidor paretiano.

En la ﬁgura 2.42, las intersecciones tangenciales de las curvas de nivel

de las funciones de utilidad de A y B dan origen a una curva muy im-
portante, que en adelante llamaremos “curva de contrato” (Edgeworth,
1881) de la economía. Y su importancia radica en que estos puntos de
la curva son precisamente aquellos pares (xA , yA ),(xB , yB ) que satisfacen
la condición (3) de optimalidad para los consumidores A y B, respecti-
vamente23 .

b) En el caso de la interrelación entre los dos productores, la caja de Edge-

worth tendrá medidas k A + k B (lado) y lA + lB (altura). En la ﬁgura 2.43
23
Aunque a veces es más conveniente dibujar la curva de contrato en un plano uA versus
uB al transformar las demandas óptimas en sus respectivas utilidades. Esta es la conocida
como “frontera Pareto”.
2.10. Contexto económico 173

productor y

frontera de
posibilidades
de producción

productor x

Figura 2.43. Caja de Edgeworth para el productor paretiano.

aparece una curva conformada por todas las intersecciones tangenciales

de las curvas de nivel de las funciones de producción. A esta curva se
le llama “frontera de posibilidades de producción (FPP)” (Lerner, 1932).
También en este caso, esta curva está conformada por todos los pares
(kx , lx ) y (ky , ly ) que satisfacen la ecuación (6) de optimalidad en la pro-
ducción 24 .

[Link]. La ley de Walras

Notemos que en el modelo paretiano se tiene que

(px xA + py yA ) + (px xB + py yB ) = (rlA + sk A ) + (rlB + sk B )

y, por lo tanto,

(px , py ) · (xA + xB , yA + yB ) = (r, s) · (lA + lB , k A + k B )

A esta igualdad, que Oskar Lange (1942) denominó ley de Walras, el propio
fundador de la Escuela de Laussane le dio mucha importancia (Walras,
1874, § 206) pues la colocaba como una de las condiciones de equilibrio.
Nótese que esta “restricción presupuestal” aﬁrma que, en el agregado, la
valoración de la demanda iguala a la valoración de la oferta en término
de los precios vigentes. Y, quizás la observación más importante: de ella
se deduce que si los mercados de todas, menos una, las mercancías están
en equilibrio, entonces también lo estará el otro mercado. Esta anotación
aparentemente inocua, tendría implicaciones profundas en teoría monetaria
24
Aunque es más típico verla dibujada en un plano x versus y al transformar esos
insumos óptimos en sus respectivas producciones finales.
174 Capítulo 2. Optimización estática

pues algunos creyeron que haría las veces de vínculo con la entonces naciente
teoría keynesiana del dinero (Patinkin, 1956).

[Link]. Economías paretianas de intercambio puro

Un caso particular muy importante del modelo paretiano son las economías
de intercambio puro. Estas son economías en las que no existe sector pro-
ductivo alguno (por lo tanto, la mano de obra no juega ningún papel), y
de lo que se trata es de que cada consumidor intercambie las mercancías
que son de su propiedad, con los otros consumidores, dadas sus preferencias
sobre ellas, y sus respectivos presupuestos. La razón por la cual este tipo
de economía es fundamental en el modelo paretiano, es que allí se pueden
ilustrar magníﬁcamente los principales resultados asociados con el modelo
general, mediante cajas de Edgeworth-Pareto.
Ejemplo 49. (Una economía de intercambio puro)
Consideremos una economía de intercambio puro (es decir, sin sector pro-
ductivo) conformada por dos mercancías x y y, y dos consumidores A y B
donde las preferencias están representadas por las funciones de utilidad
uA (xA , yA ) = xA yA , uB (xB , yB ) = xB yB
y las dotaciones de los consumidores son
wA = (1, 2), wB = (2, 2)
Aquí, el problema del consumidor A sería entonces
Maximizar uA (xA , yA ) = xA yA
sujeto a px xA + py yA = px + 2py
xA , yA ≥ 0
De las condiciones de primer orden se obtiene que
yA px
=
xA py
px xA + py yA = px + 2py
Resolviendo estas dos ecuaciones se obtienen las funciones de demanda del
consumidor A:
1 py
xA (px , py ) = +
2 px
px
yA (px , py ) = 1 +
2py
2.10. Contexto económico 175

El problema del consumidor B es similar, y se obtienen sus funciones de

demanda:
py
xB (px , py ) = 1 +
px
px
yB (px , py ) = 1 +
py

Las funciones de exceso de demanda serán, entonces,

2py 3
zx (px , py ) ≡ xA (px , py ) + xB (px , py ) − (wxA + wxB ) = −
px 2
3p x
zy (px , py ) ≡ yA (px , py ) + yB (px , py ) − (wyA + wyB ) = −2
2py

Observemos que las funciones de demanda y de exceso de demanda dependen

únicamente de los precios relativos: si los precios se multiplicaran por un
escalar positivo t, las demandas no se modiﬁcarían.
Las últimas dos ecuaciones satisfacen la correspondiente ley de Walras; es
decir, para cualquier par de precios positivos px , py , se tiene que

3 3
px zx (px , py ) + py zy (px , py ) = 2py − px + px − 2py = 0
2 2
Por tanto, es suﬁciente igualar a cero una de las funciones de exceso de
demanda para determinar los precios relativos de equilibrio. Por ejemplo,

3px
zy (px , py ) = −2=0
2py

Esta implica que la relación de precios de equilibrio es:

p∗x 4
∗
=
py 3

Reemplazando estos precios en las funciones de demanda que encontramos

más arriba, xi (px , py ), yi (px , py ) para i = A, B, llegamos a que el único
equilibrio competitivo de esta economía competitiva ﬁgura 2.44) es, tomando
como numerario p∗y = 1), el siguiente:

4 5 5 7 7
p∗x = , p∗y = 1, x∗A = , ∗
yA = , x∗B = , ∗
yB =
3 4 3 4 3
176 Capítulo 2. Optimización estática
yA
B
4

5/3 b

A 5/4 3 xA
Figura 2.44. Equilibrio competitivo para el ejemplo 49.

Nota 8.
En general, el modelo paretiano de intercambio puro permite las siguientes
observaciones:

1. Únicamente si el mercado coloca los precios de equilibrio (o un múl-

tiplo escalar de ellos), podrán los dos consumidores tener satisfechas
sus demandas de bienes. Cualquier otro precio los obligaría a tomar
decisiones subóptimas.

2. Los precios de equilibrio son una consecuencia de la riqueza y los gustos

de los agentes. Más precisamente, de las dotaciones iniciales y de las
utilidades marginales de los agentes.

3. En general, las mercancías más escasas tienen precios de equilibrio

más altos.

4. En general, en un equilibrio competitivo el “más rico” toma ventaja

de su posición con respecto al menos favorecido.

(...) la sociedad no es homogénea, y los que no cierren voluntariamente

los ojos, deben reconocer que los hombres diﬁeren mucho los unos de
los otros desde el punto de vista físico, moral e intelectual.
A estas desigualdades propias del ser humano corresponden las de-
sigualdades económicas y sociales, que se observan en todos los pue-
blos, desde los tiempos más antiguos hasta los tiempos más modernos,
y sobre todos los puntos del globo, de tal suerte que estando siempre
presente ese carácter, se puede deﬁnir a la sociedad humana como una
colectividad jerárquica. (Pareto, 1906, §2, cap. VII).
2.10. Contexto económico 177

[Link]. Óptimos de Pareto

Desde su primer libro sobre economía (L’économie Politique et la Justice)

publicado en 1860, hasta su muerte en 1910, la preocupación fundamental
de Walras fue el problema de la justicia social. De hecho, su división entre
“economía pura” (positiva) (Walras, 1898) y “economía social” (normativa)
(Walras, 1896a) muestra bien esto, y, cabe notarlo, el propósito central de
sus Éléments de 1874-77 fue más el de mostrar la posibilidad de formular un
sistema económico racionalmente consistente que cumpliera las demandas
de justicia social.

En Théorie de la Proprieté de 1896, Walras deﬁnió la justicia en el inter-

cambio de bienes, en términos de dos condiciones: primero, la total libertad
de cada individuo para buscar su propia ventaja en el mercado; y segundo,
la completa eliminación de cualquier oportunidad para que un individuo se
beneﬁcie en el intercambio a expensas de su contraparte o de cualquier otro.
Sin duda, bajo esta mirada, el sistema de equilibrio general walrasiano es
profundamente moralista.

De hecho, Walras no estaba convencido de que la competencia perfecta

en un mercado fuera la mejor manera de generar la máxima suma de la
satisfacción total para la sociedad, sino que era un sistema diseñado para
eliminar beneficio alguno del intercambio y de la producción. Por ello, en
equilibrio, nadie se hace más rico ni más pobre; allí, la única forma en que un
individuo se hace más rico es mediante la formación de capital a través del
ahorro, y la única forma en que se hace más pobre es consumiendo más allá
de sus ingresos: el sólo intercambio bajo competencia perfecta nunca tiene
efectos de distribución. Y esto no era por condenar la natural búsqueda de
beneficio en las actividades económicas, sino para realizar la función moral
de no dar algo por nada. Precisamente a este problema se refería Walras
cuando, en lo que se ha dado en llamar el Teorema de la máxima satisfacción
social, afirmaba que

El intercambio de dos mercancías en un mercado regido por la libre com-

petencia es una operación por medio de la cual todos los poseedores, tanto
de una como de dos mercancías, pueden lograr la mayor satisfacción posible
de sus necesidades, con la condición de entregar la mercancía que venden
y recibir la mercancía que compran en una proporción común e idéntica25 .
(1874, §99)

25
Esta proporción es la tasa marginal de sustitución.
178 Capítulo 2. Optimización estática

La historia del pensamiento económico no reconoce totalmente este aspecto

social del pensamiento walrasiano, y tampoco ve en este teorema el zumo de
una condición de optimalidad social inherente al equilibrio competitivo. En
su lugar, y con la confirmación gráfica de las cajas de Edgeworth, han esta-
blecido este mismo concepto alrededor de la siguiente definición de Pareto
(1906):

Diremos que los miembros de una colectividad gozan, en cierta posición,

del máximum de ophélimité26 , cuando es imposible encontrar un medio de
alejarse muy poco de esta posición, de tal suerte que la ophélimité de que
goza cada uno de los individuos de esta colectividad, aumenta o disminuye.
Es decir que cualquier pequeño desplazamiento a partir de esta posición
tiene necesariamente por efecto aumentar la ophélimité de que gozan ciertos
individuos, y disminuir aquella dela cual gozan otros; de ser agradable a unos
y desagradable a otros. (§ 33, cap. VI)

Esto se escribe, ahora, así:

Definición 6. (Óptimo de Pareto)

Una asignación factible [(xA , yA ), (xB , yB )] de una economía competitiva
es un óptimo de Pareto si, y sólo si, no existe otra asignación factible
′ ), (x′ , y ′ )] tal que ui (x′ , y ′ ) ≥ ui (x , y ) para i = A, B, pero también
[(x′A , yA B B i i i i
se tiene uj (x′j , yj′ ) > uj (xj , yj ) para j = A o j = B.

Es decir, un óptimo de Pareto es una asignación factible en la que ningún

agente puede mejorar sin que el otro agente pierda. Y una típica caracteri-
zación marginalista de estos óptimos se encuentra en el siguiente teorema,
que, también hoy, escribimos así:

Teorema 23. [Caracterización de los óptimos de Pareto –Walras

(1874), Edgeworth (1881), Pareto (1906)–]
Supongamos que las funciones de utilidad

uA : R2+ → R , uB : R2+ → R

son cuasicóncavas estrictas, estrictamente crecientes en cada uno de sus ar-

gumentos, y doblemente diferenciables con continuidad. Entonces, una asig-
∗ ), (x∗ , y ∗ )] en la caja de Edgeworth es óptima de Pareto
nación [(x∗A , yA A A
(interior) si, y sólo si, las tasas marginales de sustitución coinciden allí; es
26
“Ophélimité” es el término de Pareto para lo que hoy llamamos “utilidad”.
2.10. Contexto económico 179

decir, en este punto se tiene que

∂uA ∂uB
∂xA ∂xB
A
=
∂u ∂uB
∂yA ∂yB
Demostración.
Al resolver en la caja de Edgeworth-Pareto (es decir, con xA +xB = x∗A +x∗B
y yA + y B = y A∗ + y ∗ ) el problema que caracteriza a los óptimos de Pareto
B

Maximizar uA (xA , yA )
sujeta a uB (xB , yB ) = U
xA ≥ 0, xB ≥ 0

donde U es un nivel de utilidad ﬁjo para el agente B,27 obtenemos que su

lagrangiano es

L = uA (xA , yA ) − λ (uB (xB , yB ) − U )

Y las condiciones de primer orden nos conducen a condiciones suﬁcientes y

necesarias para el óptimo:28

∂uA ∂uB ∂uA ∂uB

=λ , =λ
∂xA ∂xA ∂yA ∂yB
El paso hacia la conclusión del teorema es inmediato.
Es conveniente destacar que las asignaciones paretianas, aunque óptimas en
un sentido muy particular, no son necesariamente “justas” o equitativas, y
esto lo veremos muy claramente en el siguiente ejemplo, en donde, típica-
mente, existen inﬁnitas de ellas, unas que favorecen a un agente, y otras
que favorecen al otro. Aquí se resalta nítidamente que eﬁciencia y equidad
tienen dos direcciones normativas no necesariamente compatibles.

Ejemplo 50.
Consideremos la economía de intercambio puro de dos consumidores A y B,
con funciones de utilidad

uA (xA , yA ) = xA yA , uB (xB , yB ) = xB yB
27
¿Por qué es esto equivalente a la definición 6 de óptimo de Pareto?
28
¿Qué teoremas de este capítulo aplicamos para hacer tal afirmación?
180 Capítulo 2. Optimización estática

y dotaciones iniciales agregadas (3, 4). Escribiendo la correspondiente con-

dición de eﬁciencia paretiana, obtenemos que

∂uA ∂uB
∂xA yA ∂xB yB
A
= = B
=
∂u xA ∂u xB
∂yA ∂yB

4−yA
o, lo que es equivalente, yA = xyBB xA = 3−x A
xA Y, de aquí, arribamos
a la curva de óptimos de Pareto para esta economía (ﬁgura 2.45):

4xA
yA = 0 ≤ xA ≤ 3 N
3

yA
B
4

4xA
yA =
3

A 3 xA

Figura 2.45. Curva (recta) de contrato para el ejemplo 50.

Cabe advertirse que, además de Walras, también Edgeworth (1881) se ade-

lantó a Pareto en la noción de optimalidad que lleva su nombre:

Se requiere encontrar un punto (xy) tal que, en cualquier dirección en la que

demos un paso inﬁnitamente pequeño, P y Π no aumenten a la vez, sino
que cuando uno aumente, el otro disminuya. Puede demostrarse desde una
diversidad de puntos de vista que el lugar geométrico del punto deseado es

dP dΠ dP dΠ
− =0
dx dy dy dx

cuyo lugar geométrico aquí proponemos denominar curva de contrato 29 .

29
Pareto (1906), en su lugar, la llamó “línea de los cambios” (§ 97, cap. III).
2.10. Contexto económico 181

aún así, difícilmente el término “óptimo de Pareto” podría tener una po-
sibilidad de hacer justicia con Walras y Edgeworth quienes, sin ninguna
duda, lo antecedieron. Por esto, en ocasiones seguiremos llamando “ópti-
mo de Pareto” al tradicional “óptimo de Pareto”, así como algunas veces
hemos llamado “caja de Pareto-Edgeworth” a la conocida como “caja de
Edgeworth”.

[Link]. Los dos teoremas del bienestar

Existen dos relaciones muy importantes entre la optimalidad paretiana y
el equilibrio competitivo. La primera formaliza, parcialmente, una creencia
largamente sostenida desde, por lo menos, el siglo XVIII de Adam Smith,
que aﬁrmaba que la competencia perfecta “conducía” a un estado “óptimo”
de la economía. El problema aquí era que se creía que tal “óptimo” debería
contener criterios de justa distribución de la riqueza y del ingreso y, esa
no es una característica de los equilibrios competitivos. Por lo tanto, esta
conexión entre equilibrio competitivo y óptimo se aplazó hasta la aparición
de la noción de óptimo de Pareto. Esta, que fue claramente visualizada por
el mismo Walras, y explicitada por Pareto utilizando la caja de Edgeworth,
asegura que, bajo las hipótesis del modelo paretiano, el mecanismo de pre-
cios asigna los bienes eﬁcientemente (en el sentido de Pareto). Veamos este
resultado en notación actual.
Teorema 24. [Primer teorema de la economía del bienestar –Walras
(1874), Edgeworth (1881), Pareto (1906)–]
Sean
ui : R2+ → R
(xi , yi ) → ui (xi , yi )
para i = A, B, funciones de utilidad estrictamente crecientes. Si
x∗ ≡ [(x∗A , yA
∗
), (x∗B , yB
∗
)], p∗ ≡ (p∗x , p∗y )
es un equilibrio competitivo, entonces x∗ ≡ [(x∗A , yA
∗ ), (x∗ , y ∗ )] es una asig-
B B
nación óptima de Pareto.
Demostración.
Supongamos que el equilibrio competitivo no es óptimo de Pareto y ob-
tengamos una contradicción. Sea [(x∗A , yA
∗ ), (x∗ , y ∗ ), (p∗ , p∗ )] un equilibrio
B B x y
competitivo y supongamos que existe una asignación [(xA , yA ), (xB , yB )] en
la caja de Pareto-Edgeworth tal que
uA (xA , yA ) > uA (x∗A , yA
∗
) y uB (xB , yB ) ≥ uB (x∗B , yB
∗
)
182 Capítulo 2. Optimización estática

Entonces, dado que [(x∗A , yA

∗ ), (x∗ , y ∗ )], (p∗ , p∗ )) es un equilibrio competiti-
B B x y
vo, satisface que

p∗x xA + p∗y yA > p∗x wxA + p∗y wyA , p∗x xB + p∗y yB > p∗x wxB + p∗y wyB

Sumando estas dos desigualdades se obtiene

p∗x (xA + xB ) + p∗y (yA + yB ) > p∗x (wxA + wxB ) + p∗y (wyA + wyB )

Y como [(xA , yA ), (xB , yB )] está en la caja de Pareto-Edgeworth, entonces

p∗x (wxA + wxB ) + p∗y (wyA + wyB ) > p∗x (wxA + wxB ) + p∗y (wyA + wyB )

lo cual es una contradicción.

Ejemplo 51.
Consideremos la economía de intercambio puro del ejemplo 50, donde dos
consumidores, A y B, tienen funciones de utilidad

uA (xA , yA ) = xA yA , uB (xB , yB ) = xB yB

y dotaciones iniciales agregadas (3, 4). Allí encontramos que la curva de

óptimos de Pareto para esta economía es:
4xA
yA = 0 ≤ xA ≤ 3
3
Para ilustrar el primer teorema de la economía del bienestar, basta darnos
cuenta de que la asignación de equilibrio competitivo (xA , yA ) = ( 45 , 53 ) está
en la curva de contrato. N

El teorema anterior nos muestra la calidad normativa que tiene un equi-

librio competitivo: no es, necesariamente, una asignación ni equitativa ni
“justa”, pero satisface cierto criterio de eﬁciencia. Pero este equilibrio no
tendría la importancia que se le ha dado, si no fuera porque también aparece
conectado con los problemas de la descentralización. El problema de asignar
recursos óptimamente mediante el vehículo de los precios, ha estado en el
corazón de los estudios sobre la descentralización de una economía. La sola
hipótesis de que si los consumidores y los productores resuelven sus pro-
blemas independientemente, sin saber nada uno del otro, sino a través del
mecanismo de información que son los precios, asegura una implementación
efectiva del óptimo previamente establecido por las autoridades económicas,
era y continúa siendo, uno de los más importantes problemas que enfrenta
la economía política. Un resultado así permitía entrever la posibilidad de
2.10. Contexto económico 183

descentralizar las decisiones de los agentes de una economía centralizada a

través de los precios.
El segundo teorema de la economía del bienestar que aﬁrma que, bajo cierta
redistribución de los recursos, podemos hacer, de un óptimo de Pareto, un
equilibrio competitivo, no parece haber sido detectado por Walras, ni por
Edgeworth. Quizás Pareto (1906) lo vislumbró, pero lo que sí es cierto es
que nunca lo estableció con claridad:

Para los fenómenos del tipo (I) 30 , cuando el equilibrio tiene lugar en un
punto donde son tangentes las curvas de indiferencia de los contratantes, los
miembros de la colectividad considerada gozan del máximo de ophélimité.
(§ 34, cap. VI).

De hecho, al parecer las primeras veces que se tiene registro explícito de este
teorema es en los textos clásicos de Lange (1942) y Allais (1943).
Teorema 25. [Segundo teorema de la economía del bienestar –
Pareto(1906), Lange (1942), Allais (1943)–]
Sean
ui : R2+ → R
(xi , yi ) → ui (xi , yi )

para i = A, B, funciones de utilidad continuas, estrictamente crecientes y

cuasicóncavas. Sea [(x∗A , yA
∗ ), (x∗ , y ∗ )] una asignación óptima de Pareto en
B B
la que cada agente tiene una cantidad positiva de cada mercancía. Entonces
existen unos precios px y py no-negativos tales que [(x∗A , yA∗ ), (x∗ , y ∗ ), (p , p )]
B B x y
es un equilibrio competitivo para las dotaciones iniciales wxA = x∗A , wyA = yA ∗,

wxB = x∗B , wyB = yB

∗ .31

Demostración.
Debemos encontrar un vector de precios no-negativos (px , py ) que soporte
la asignación óptima de Pareto como un equilibrio competitivo. Sean
n o
∗
MA = (xA , yA ) ∈ R2+ | uA (xA , yA ) > uA (x∗A , yA )
n o
MB = (xB , yB ) ∈ R2+ | uB (xB , yB ) > uB (x∗B , yB
∗
)
30
Es decir, en condiciones de competencia perfecta.
31
Pareto, al parecer no muy claro del resultado que tenía a la mano, afirmó sobre esto:
Para los fenómenos (I) si existe un punto donde el sendero recorrido por los individuos
que contratan es tangente a las curvas de indiferencia de esos individuos, ese es un punto
de equilibrio. (Manuel, § 112, cap. III).
184 Capítulo 2. Optimización estática

es decir, MA es el conjunto de planes de consumo que el consumidor A preﬁe-

∗ ), y M es el conjunto de planes de consumo que el consumidor
re a (x∗A , yA B
B preﬁere a (x∗B , yB ∗ ). Ya que las funciones de utilidad son estrictamente

cuasicóncavas, entonces MA y MB son conjuntos convexos.

Definamos ahora M ≡ MA + MB ; es decir, M es el conjunto de todas
las combinaciones agregadas que pueden ser distribuidas entre los dos con-
sumidores de tal forma que ambos mejoren su utilidad con respecto a la
asignación óptima de Pareto. Observemos que M es un conjunto convexo,
ya que es la suma de dos conjuntos convexos.
Sea w = (wx , wy ) = (x∗A + x∗B , yA ∗ + y ∗ ). Como, por hipótesis, [(x∗ , y ∗ ),
B A A
∗ ∗
(xB , yB )] es un óptimo de Pareto, entonces w ∈ / M porque no existe una re-
distribución de [(x∗A , yA∗ ), (x∗ , y ∗ )] que mejore la utilidad de ambos consumi-
B B
dores. Luego por el teorema de separación de Minkowski (teorema 10), existe
∗ + y ∗ ),
(px , py ) 6= 0 tal que px x + py y ≥ px wx + py wy = px (x∗A + x∗B ) + py (yA B
para todo (x, y) ∈ M . Por lo tanto,
∗
px (x − (x∗A + x∗B )) + py (y − (yA ∗
+ yB )) ≥ 0
para todo (x, y) ∈ M .
Queremos ver que (px , py ) es un vector de precios de equilibrio:
i) Veamos primero que (px , py ) es no negativo: sea e1 ≡ (1, 0). Ya que las
funciones de utilidad son monótonas crecientes estrictamente, entonces
debe darse que (w + e1 ) ∈ M . Así, px (1 + wx − (x∗A + x∗B )) + py (wy −
∗ +y ∗ )) ≥ 0; es decir, p ≥ 0. Tomando e ≡ (0, 1) podemos mostrar
(yA B x 2
que también py ≥ 0.
ii) Veamos que a estos precios, el consumidor A maximiza su utilidad
en (x∗A , yA
∗ ), y el consumidor B maximiza su utilidad en (x∗ , y ∗ ).
B B
Es suficiente ver que si ui (xi , yi ) > ui (x∗i , yi∗ ), para i = A, B, entonces
px xi +py yi > px x∗i +py yi∗ . Veamos primero que si ui (xi , yi ) > ui (x∗i , yi∗ ),
para i = A, B, entonces px xi + py yi ≥ px x∗i + py yi∗ (es decir, con
desigualdad no estricta): si ui (xi , yi ) > ui (x∗i , yi∗ ), entonces sean
(x′i , yi′ ) = θ(xi , yi ); (x′j , yj′ ) = (x∗j , yj∗ ) + (1 − θ)(xi , yi )
donde θ es un número suficientemente pequeño. Ya que las funciones de
utilidad de los consumidores son monótonas crecientes estrictamente y
continuas, entonces [(x′i , yi′ ), (x′j , yj′ )] domina en el sentido de Pareto a
[(x∗i , yi∗ ), (x∗j , yj∗ )]. Por lo tanto, (x′i + x′j , yi′ + yj′ ) ∈ M . Así, tendremos
que px ((1 − θ)xi + x∗j + θxi ) + py ((1 − θ)yi + yj∗ + θyi ) ≥ px (x∗i + x∗j ) +
py (yi∗ + yj∗ ), es decir, px xi + py yi ≥ px x∗i + py yi∗ .
2.10. Contexto económico 185

iii) Debemos ver ahora que si ui (xi , yi ) > ui (x∗i , yi∗ ), entonces px xi +py yi >
px x∗i +py yi∗ . Ya vimos que px xi +py yi ≥ px x∗i +py yi∗ y debemos eliminar
la posibilidad de la igualdad: supongamos que px xi +py yi = px x∗i +py yi∗
para poder obtener una contradicción. Entonces

θpx xi + θpy yi < px x∗i + py yi∗

para todo θ ∈ (0, 1). Ya que las funciones de utilidad son continuas,
entonces existe θ′ ∈ (0, 1) tal que ui (θ′ xi , θ′ yi ) > ui (x∗i , yi∗ ); y así,
θ′ px xi + θ′ py yi ≥ px x∗i + py yi∗ , lo cual implica que θ′ px xi + θ′ py yi <
θ′ px xi + θ′ py yi , y esto es una contradicción.

Ejemplo 52.
Para la economía de intercambio puro entre los agentes A y B, donde

uA (xA , yA ) = ln xA + 2 ln yA , wA = (3, 4)

uB (xB , yB ) = 2 ln xB + ln yB , wB = (4, 3)

la curva de contrato es
28xA
yA = donde 0 ≤ xA ≤ 7
7 + 3xA

Si tomamos una asignación Pareto-óptima ﬁja cualquiera

28xA 28xA
(xA , ), (7 − xA , 7 − ) donde 0 < xA ≤ 7
7 + 3xA 7 + 3xA

podemos hacer de este un equilibrio competitivo [32] encontrando un par

28xA
de precios (px , py ) tal que (xA , ) maximice las utilidades de A y B
7 + 3xA
sujetas a las respectivas restricciones presupuestales

28xA
px x + py y = px xA + py ( ) para A
7 + 3xA
y
28xA
px x + py y = px (7 − xA ) + py (7 − ) para B
7 + 3xA
32
Observe que hacemos xA 6= 0 (¿por qué?).
186 Capítulo 2. Optimización estática

que, obviamente, se van a satisfacer en el óptimo de Pareto escogido (aquí

es donde se efectúa la anunciada redistribución de la riqueza entre los con-
sumidores A y B). Escribiendo la relación de optimalidad “tasa marginal de
sustitución = relación de precios”, llegamos a que
28xA
yA px 7 + 3xA px
= que es equivalente a =
2xA py 2xA py
o, lo que es igual,
px 14
=
py 7 + 3xA
que es la relación de precios de equilibrio que ilustra el segundo teorema del
bienestar.

[Link]. Equilibrio competitivo y negociación: el concepto de

núcleo de una economía
Uno de los elementos menos creíbles del modelo paretiano es que sólo si los
precios que rigen en el mercado son los de equilibrio, tendremos a los agentes
satisfaciendo sus objetivos de manera óptima y, por tanto, alcanzando el
óptimo (en el sentido paretiano). Sobre cómo alcanzar este equilibrio si los
precios originales son diferentes fue una de las más celebradas (y criticadas)
de las ideas de Walras. El proceso de tâtonnement (tanteo) fue creado por
el propio Walras en sus Éléments de 1874, tratando de mostrar cómo era
que se llegaba a la situación de equilibrio sólo por movimientos de la oferta
y demanda al ritmo de movimientos de los precios (§125):

Si la demanda es superior a la oferta, el precio de dicha mercancía en términos

del numerario subirá; si es la oferta la que supera a la demanda, bajará. ¿Qué
debemos hacer para probar que la solución teórica y la solución del mercado
son idénticas? Simplemente comprobar que el alza y la baja [[de los precios]]
son una forma de resolución por tâtonnement del sistema de igualdades de
las ofertas y las demandas.

Esta es, en esencia, la conocida ley de la oferta y la demanda. Pero no es

claro que todos los demás parámetros (gustos, tecnología, etc.) se puedan
suponer constantes, mientras el sistema de precios hace su tránsito hacia el
equilibrio. Por ello, y con justa razón, el proceso de tâtonnement no es un
argumento poderoso para creer en economías competitivas convergiendo al
equilibrio 33 .
33
Sobre el mecanismo del tâtonnement discutiremos nuevamente en el “contexto econó-
mico” del capítulo 3.
2.10. Contexto económico 187

Otra vertiente de este problema provino del mismo Edgeworth (1881). Fue
él quien introdujo la noción de curva de contrato que tiene más importancia
que la de una simple curva conformada por óptimos de Pareto. Un sub-
conjunto de esta curva, después llamada el núcleo (core) de la economía
(Shubik, 1959), comenzó a ser estudiada por Edgeworth para economías
de intercambio con dos mercancías y dos tipos de agentes,34 en donde es-
tos podían negociar y recontratar. Aunque de manera un tanto confusa, allí
mismo mostró un resultado extraordinariamente sorprendente e iluminador:
Bajo competencia perfecta, típicamente el núcleo se “contrae” hacia el equi-
librio competitivo, a medida que el número de agentes (no de tipos) crece
indeﬁnidamente.
Este resultado y otros similares abrieron un caudal de pensamiento sobre
los problemas de formación de precios para “economías grandes” a través
de transacciones, completamente distinto a aquella de la igualación de ofer-
ta y demanda. Planteaba que cierto tipo de negociación con posibilidades
de recontratación permitía la emergencia de los precios y, por tanto, de
los mercados. No necesitaban asumir, a priori, la existencia de ellos: estos
surgían de forma endógena del modelo. Sobre esta otra aproximación a los
problemas del equilibrio general que nace a partir de la teoría de la “curva
de contrato” de Edgeworth (1881), discutiremos un poco más en el próximo
capítulo 3.

[Link]. Dificultades con el modelo paretiano

En la caracterización de sus óptimos, el modelo paretiano está profunda-
mente enraizado en el uso de tasas marginales de sustitución estrictamente
positivas. Por lo tanto, podría creerse que tendríamos problemas con los
teoremas del bienestar cuando las funciones de utilidad o de producción no
sean diferenciables, o se anulen cuando el agente no tiene cantidad alguna de
esa mercancía. Sin embargo, veremos que esto no es necesariamente cierto.
Ilustramos esto parcialmente en el siguiente ejemplo.
Ejemplo 53. (Dificultades con el modelo paretiano)
En la economía de intercambio puro

uA (xA , yA ) = 3xA + 2 ln yA wA = (2, 1)

uB (xB , yB ) = Mín{xB , yB } wA = (0, 1)

tenemos que:
34
Muchos agentes, pero sólo de dos tipos, digamos, trabajadores y empresarios.
188 Capítulo 2. Optimización estática

a) Las funciones de demanda respectivas de los agentes A y B son

4 py 2 px
xA = + , yA =
3 px 3 py
py
xB = yB =
px + py
Obviamente, en el cálculo de estas últimas no podíamos utilizar las téc-
nicas de optimización de Lagrange, ni tampoco relaciones de tasas mar-
ginales de sustitución. En su lugar, tuvimos que recurrir al siguiente
argumento: si xA > yA en el óptimo, entonces, dejando ﬁjo yA , podemos
reducir un poco xA de tal forma que aún estemos en la misma curva de
nivel de A que pasa por (xA , yA ), y esto necesariamente conduciría a un
aumento en el nivel de utilidad de B pues xB = 2 − xA . El caso xA < yA
es similar.

b) Así, de la condición de equilibrio xA + xB = 2, tendremos que

4 py py
+ + =2
3 px px + py

y, de aquí, los precios de equilibrio emergen:

√
p∗y 10 − 2
∗
=
px 3

y también las asignaciones de equilibrio x∗A = yA ∗ = 1.72, x∗ = y ∗ =

B B
0.279. Note que, en equilibrio, la mercancía x es más costosa que la mer-
cancía y; y que, como debería esperarse, ambos agentes salieron beneﬁcia-
dos del intercambio pues uA (1.72, 0.279) > uA (2, 1) y uB (1.72, 0.279) >
uB (0, 1).

c) La curva de contrato de este intercambio es yA = xA .

d) El primer teorema de la economía del bienestar lo ilustramos notando que

∗ = 1.72 = x∗ está en la curva de contrato.
el equilibrio competitivo yA A

e) A su vez, el segundo teorema del bienestar lo ilustramos haciendo, para

el agente A,
∂uA
∂xA px
A
=
∂u py
∂yA
2.10. Contexto económico 189

en un punto cualquiera (xA , yA ) de la curva de contrato, es decir, donde

xA = yA para 0 < xA < 2. Por tanto, llegamos a que la relación de
precios de equilibrio estará dada por
p∗x 3xA
∗
=
py 2
Por ejemplo, la asignación paretiana equitativa (1, 1) tendría a p∗x /p∗y =
3/2 como precios de equilibrio. N

Hacia ﬁnales de la década de 1940, las deﬁciencias analíticas del modelo

paretiano abrieron un compás de posibilidades para entender, con toda pre-
cisión, cuáles podrían ser las condiciones mínimas bajo las cuales existía un
equilibrio competitivo, y en qué casos se podrían también tener los dos teo-
remas del bienestar económico. Esta síntesis sería alcanzada por Koopmans
(1951) –volumen I (Álgebra lineal y cálculo en varias variables)– en el caso li-
neal, Mckenzie (1954) en un caso aparentemente especíﬁco (aunque aplicable
generalmente) del comercio internacional, Arrow & Debreu (1954) y, fun-
damentalmente, Debreu (1959) que, en su momento, fue la más compacta,
coherente y sistemática presentación de las posibilidades y limitaciones del
modelo de equilibrio general competitivo de la economía neoclásica. Sobre
el modelo Arrow-Debreu discutiremos en el contexto económico del capítulo
3.

2.10.4. Teoría de juegos clásica

En su ahora clásico Recherches sur les Principes Mathémathiques de la Théo-
rie des Richesses de 1838, Cournot construyó una teoría de las firmas oli-
gopolísticas que incluía la competencia perfecta y el monopolio como casos
extremos. Al estudiar, en particular, el problema del duopolio, Cournot mos-
traba que la producción óptima de una firma dependía de la producción de
la otra, y que, al hacerlo, el administrador de cada firma asumía que la
producción de la otra permanecería fija si él cambiaba la producción de su
firma. Críticos desde las más diversas vertientes atacaron esta hipótesis: la
metodología utilizada por Cournot en su análisis no tenía, en ese entonces,
la suficiente claridad conceptual.
El primer paso en el sentido de entender cómo formalizar los problemas
de interacciones entre diferentes agentes provino de John von Neumann en
su primera gran contribución a la teoría de juegos. En su artículo de 1928
sobre el tema, desarrolló el teorema minimax para juegos de suma cero (don-
de lo que obtiene un jugador, lo pierde el otro), en los que los jugadores se
190 Capítulo 2. Optimización estática

mueven secuencialmente en el tiempo sin que necesariamente sepan cuáles

fueron los movimientos previos de los otros jugadores. Esta independencia
de movimientos hubiera sido difícil de modelar, sin la noción de estrategia
que von Neumann definiera, para cada jugador, como un plan completo que
especifica sus movimientos como consecuencia de la información alcanzada
hasta allí. Así, un jugador puede escoger su estrategia antes de que el jue-
go comience, si conocemos las consecuencias de los otros jugadores. Esta
noción de estrategia es lo que nos permite aceptar hoy la hipótesis bási-
ca de Cournot de que los productores en oligopolio toman sus decisiones
independientemente.
Pero, más allá, von Neumann afirmaba que cualquier juego podía modelarse,
matemáticamente, con la siguiente estructura: un conjunto de jugadores; un
conjunto de estrategias para cada jugador; y una función real de pagos para
cada jugador dependiendo de las estrategias escogidas por los otros jugadores.
Esta es la que llamó la forma normal del juego.
Además de esto, von Neumann agregó dos restricciones a su estructura de
juego que limitaron severamente cualquier posibilidad de hacer su teoría
la base para el estudio de interacciones generales en las ciencias sociales y
económicas: asumió que los pagos eran transferibles entre los jugadores y
que todos los juegos eran de suma cero (lo que ganaba un jugador, lo perdía
otro), pues estas hipótesis se adaptaban bien al tipo de solución minimax que
había propuesto –volumen I (Álgebra lineal y cálculo en varias variables)–.
A pesar de esto, en la segunda edición (1947) de Theory of Games and Eco-
nomic Behavior, von Neumann y Oskar Morgenstern publicaron una de las
máximas contribuciones a la teoría de juegos. Reconociendo la necesidad de
estrategias aleatorias para poder probar la existencia de soluciones minimax
en juegos de suma cero, von Neumann (1928) utilizó la tradicional hipótesis
(desde, por lo menos, el siglo XVIII de los Bernoulli) de la toma de decisiones
maximizando el valor esperado de los pagos. Y fue la derivación axiomáti-
ca del comportamiento de los agentes que se comportan como si hicieran
máxima la utilidad esperada, lo que permitiría extender sus resultados en
juegos de suma cero a otro tipo de estructuras.
A la luz de los trabajos de von Neuman y Morgenstern, el Premio Nobel de
Economía de 1994, John Nash (también en Princeton), inclusive antes de la
década de 1950 vio, casi inmediatamente, que toda la estructura de la teoría
de juegos permitía una nueva dimensión: la de suma no-cero. En una breve
nota enviada en 1944 a los Proceedings de la Academia Nacional de Ciencias
de los Estados Unidos, y que fuera publicada en 1950, Nash daba la defi-
2.10. Contexto económico 191

nición general de equilibrio para un juego en forma normal y probaba, con

un argumento de punto fijo (como von Neumann) que para cualquier juego
con finitos jugadores y estrategias, siempre debía existir al menos un equi-
librio en estrategias aleatorias. Posteriormente, en 1951 (y como resultado
de su tesis doctoral), Nash dio una descripción más completa de su idea de
equilibrio, e inclusive incluyó una versión del famoso juego conocido como
el dilema del prisionero 35 . Pero, por encima de todo, fue allí que Nash mos-
tró que la teoría de juegos era una estructura analítica unificada que daba
camino a toda clase de estudios sobre conflicto, negociación y cooperación.
Ahora entendemos que el comportamiento estratégico de dos o más agentes
podría surgir cuando los pagos que ellos obtienen y, más aún, la decisión de
cada uno, depende de lo que esperan que sean las decisiones de los demás.
Después de von Neumann y Morgenstern (e inspirados en su trabajo) la
teoría de juegos modela esta situación por medio del concepto de juego en
forma estratégica (o forma normal).
Un juego en forma estratégica está conformado básicamente por tres ele-
mentos: a) Los jugadores (agentes); b) Las estrategias disponibles; y, final-
mente, c) El pago que cada jugador recibe por cada posible combinación
de estrategias. Identificar a los jugadores y las estrategias disponibles para
cada jugador (también llamadas estrategias puras ) es el paso clave en la
construcción del modelo. Para seleccionar la estructura de pagos (o función
de utilidad) se deben examinar cada una de las posibles combinaciones de
estrategias disponibles para los jugadores, y determinar lo que recibe cada
jugador en cada caso, asignándole cierto valor. Esta valoración numérica
se refiere (dentro de la tradición von Neumann-Morgenstern-Savage) a la
representación numérica de un ordenamiento previo de las preferencias con
respecto a las posibles combinaciones de estrategias en el juego.
Con base en las nociones de jugadores, espacios de estrategias y funciones
de pago, podemos entonces definir formalmente lo que es un juego en forma
estratégica:
Definición 7. [Juego finito en forma estratégica –Borel (1921), von
Neumann (1928)–]
i) Un juego finito en forma estratégica (o normal) es una 3n-tupla
Γ = (N, (Ci )i∈N , (ui )i∈N )
donde:
35
Este juego surgió en una clase ordinaria de Tucker en la Universidad de Stanford en
1947 (Tucker, 1980).
192 Capítulo 2. Optimización estática

a) N = {1, . . . , n} es el conjunto de jugadores;

b) Ci es el conjunto finito de estrategias puras para el jugador i ∈ N
(de allí la condición de finitud del juego).
c) ui : Πni=1 Ci → R es la función de pagos (utilidad) para el ju-
gador i ∈ N que asigna un pago (número real) a cada combi-
nación de estrategias (c1 , . . . , cn ), donde el producto cartesiano
Πni=1 Ci = C1 × C2 × ... × Cn es el conjunto de estrategias con-
juntas.36
ii) Un juego finito en forma estratégica Γ = (N, (Ci )i∈N , (ui )i∈N ) es un
juego con información simétrica,37 o completa,38 si Γ es conocimiento
común; es decir, todos los jugadores conocen Γ, cada uno sabe que los
demás conocen Γ, cada uno sabe que los demás saben que ella conoce
Γ, etc.
La representación más típica de un juego es aquella que comprende sólo dos
jugadores que escogen entre un número pequeño de estrategias diferentes
descritas mediante una bimatriz. En la bimatriz, las celdas contienen los
pagos de cada jugador para las posibles combinaciones de estrategias.
Ejemplo 54. (El dilema del prisionero)
Uno de los juegos más importantes de la teoría de juegos clásica es El dilema
del prisionero. El juego consiste, en su versión estándar, en lo siguiente: Dos
sospechosos de un delito son detenidos y ubicados en celdas diferentes de tal
manera que no puedan comunicarse. La pena para el delito son cinco años
de prisión. La única forma en que las autoridades pueden condenar a los
sospechosos es haciendo que al menos uno de ellos confiese. La descripción
del juego es la siguiente: si ambos sospechosos confiesan, la sentencia será
de cuatro años de cárcel para cada uno. Si ninguno de los dos confiesa, la
sentencia será de tan sólo un año en la cárcel para cada uno, dada la falta
de pruebas para realizar una condena. Y si uno confiesa y el otro no, el
que confiesa será puesto en libertad por colaborar con la justicia, mientras
el otro será sentenciado a los cinco años de prisión. El juego en su forma
estratégica es como aparece en la tabla 2.1.
36
Observemos cómo la función de utilidad captura la noción de “interacción estratégica”;
es decir, el pago que un agente recibe al realizar su propia acción depende también de las
acciones de los demás.
37
Una interpretación estándar subyacente a la definición de un juego finito en forma
estratégica con información completa, es la de que el grupo de jugadores elija sus estrate-
gias simultáneamente, o secuencialmente, pero sin que ninguno de los jugadores sepa qué
estrategia eligieron los adversarios, en el momento de hacer sus escogencias.
38
Término acuñado por Duncan Luce y Howard Raiffa (1957).
2.10. Contexto económico 193

Todo juego en bimatriz es, a menos que allí mismo se especiﬁque algo dis-
tinto, un juego con información completa pero imperfecta. La imperfección
en la información proviene de la hipótesis implícita de que los agentes to-
man sus decisiones, o bien simultáneamente, o sin que ninguno conozca la
decisión del otro, hasta tanto ambas decisiones hayan sido tomadas. La com-
pletitud en la información proviene de la hipótesis de conocimiento común
del juego por parte de los jugadores.

Sospechoso 2
C NC
C -4,-4 0,-5
Sospechoso 1
NC -5,0 -1,-1

C ≡ confesar; N C ≡ no confesar

Tabla 2.1. Juego de El dilema del prisionero.

Según la teoría de Nash, una forma con la que podemos resolver este tipo
de juegos está fundamentada en el siguiente principio:
La combinación de estrategias que los jugadores predeciblemente escogerán
es aquélla en la cual ningún jugador podría mejorar su pago escogiendo uni-
lateralmente una estrategia diferente, si supone que los otros siguen eligiendo
la estrategia previamente escogida.

Este es el principio del concepto-solución que se conoce como equilibrio de

Nash de un juego no cooperativo, y que podemos presentar más formalmente
como sigue:

Definición 8. [Equilibrio de Nash (Nash, 1950)]

Sea Γ = (N, (Ci )i∈N , (ui )i∈N ) un juego ﬁnito en forma estratégica, donde N
es el conjunto de jugadores, Ci es el conjunto de estrategias puras de cada
jugador y ui (·) su función de pagos. Una combinación de estrategias puras
c∗ = (c∗i )i∈N es un equilibrio de Nash en estrategias puras para el juego Γ
si, y sólo si,
ui (c∗i , c∗−i ) ≥ ui (ci , c∗−i )
para todo ci ∈ Ci y para todo i ∈ N .

Ejemplo 55.
Resolviendo el dilema del prisionero (tabla 2.1) por equilibrios de Nash,
encontramos que si el sospechoso 1 cree que el sospechoso 2 va a confesar
(C), la mejor decisión que él puede tomar es también confesar (C), con lo
que se quedaría con un pago de −4. Si a su vez, el sospechoso 2 cree que
194 Capítulo 2. Optimización estática

el sospechoso 1 va a elegir su estrategia confesar, lo mejor que puede hacer

es confesar y recibir un pago de −4. De manera que el par de estrategias
(confesar, confesar) es un equilibrio de Nash en estrategias puras del juego
y entrega a los jugadores un pago de −4 a cada uno.
Es importante destacar aquí que en este juego es imposible alcanzar, a través
de tales principios de solución, la asignación cooperativa resultante de la
combinación de estrategias –no confesar (N C), no confesar (N C)–, ya que
los jugadores no tienen incentivos para mantenerse en esta elección. Cada
uno de ellos hace lo mejor que puede independientemente de lo que el otro
jugador haga. Haría falta, en este caso, algún mecanismo externo que hiciera
a los jugadores jugar cooperativamente, haciendo de esta elección lo mejor
para ellos. La moraleja es importante: el concepto de equilibrio de Nash
muestra que una sociedad podría, sólo a través de incentivos individuales
(es decir, de manera inteligente pero egoísta), llegar a estados que no son
óptimos socialmente 39 .

Ejemplo 56. (Juego de Coordinación)

Consideremos el juego cuyos pagos vienen dados por:

Jugador 2
D I
D 10,10 0,0
Jugador 1
I 0,0 1,1
D ≡ derecha; I ≡ izquierda

Tabla 2.2. Juego de Coordinación.

El juego (tabla 2.2) tiene dos equilibrios de Nash en estrategias puras: (D, D)
e (I, I). Si el jugador 1 cree que el jugador 2 escogerá su estrategia D, su
mejor-respuesta a esta elección es la estrategia D. De igual forma, si el
jugador 2 cree que el jugador 1 escogerá su estrategia D, la mejor respuesta
a esta elección es su estrategia D. Por lo tanto, (D, D) es un equilibrio de
Nash del juego que deja a cada uno de los jugadores con un pago de 10.
Ahora: si el jugador 1 cree que el jugador 2 elegirá la estrategia I, su mejor-
respuesta es la estrategia I, y si el jugador 2 cree que el jugador 1 escogerá
la estrategia I, su mejor-respuesta es también escoger I. Entonces (I, I) es
39
Este es un ejemplo de cómo las interacciones directas pueden llevar a situaciones
subóptimas en el sentido de Pareto, que no es lo que ocurre cuando los agentes, sin
interactuar unos con otros, sólo responden a señales de precios, como vimos en la sección
anterior (primer teorema de la economía del bienestar).
2.10. Contexto económico 195

otro equilibrio de Nash del juego que deja a cada uno de los jugadores con
un pago de 1. Obsérvese que para los dos jugadores es mejor jugar el primer
equilibrio porque los deja con un pago más alto.
Ejemplo 57. (Tirar la moneda)
Ya sabíamos que en el juego tirar la moneda (matching pennies), dos agentes
lanzan cada uno una moneda; si en ambas monedas aparece cara o sello, el
jugador 1 gana la moneda del otro; si diﬁeren, es el jugador 2 el que la gana.
Los pagos se ilustran en la bimatriz de la tabla 2.3.
Para intentar solucionar este juego, tomemos, por ejemplo, el par de es-
trategias (C, C); dado que el jugador 2 cree que el jugador 1 escogerá su
estrategia C, lo mejor que ella puede hacer es escoger su estrategia S, lo que
muestra que (C, C) no puede ser un equilibrio de Nash. De forma similar,
el par de estrategias (C, S) tampoco puede ser un equilibrio de Nash ya
que si el jugador 1 espera que 2 juegue S, lo mejor que éste puede hacer es
desviarse y jugar S. Por un argumento similar, se puede mostrar que en las
demás combinaciones de estrategias puras también existen incentivos para
desviarse unilateralmente por parte de algún jugador. Esto indica que no
existe un equilibrio de Nash en estrategias puras para este juego.

Jugador 2
C S
C 1,-1 -1,1
Jugador 1
S -1,1 1,-1
C ≡ cara; S ≡ sello

Tabla 2.3. Juego de Tirar la moneda.

Sin embargo, como nos lo enseñaron von Neumann y Morgenstern, sí existe

un equilibrio de otro tipo, conocido como “equilibrio en estrategias mixtas”,
donde cada jugador adopta una estrategia asignándole cierta probabilidad
a cada una de las estrategias puras de los demás jugadores; es decir, cada
jugador asume ciertas probabilidades sobre las estrategias puras que los otros
jugadores escogerán.
Definición 9. (Estrategia mixta)
i) En un juego ﬁnito en forma estratégica Γ = (N, (Ci )i∈N , (ui )i∈N ), una
estrategia mixta del jugador i es una distribución de probabilidad sobre
el conjunto de estrategias puras Ci . Al conjunto de todas las estrategias
mixtas del jugador i lo denotamos por ∆i . Para σi ∈ ∆i y ci ∈ Ci , σi (ci )
196 Capítulo 2. Optimización estática

es la probabilidad que la distribución σi le asigna a la estrategia ci . El

soporte de una estrategia mixta σi es el conjunto de estrategias puras
a las cuales σi le asigna una probabilidad estrictamente positiva.

ii) Una estrategia mixta del juego Γ es una combinación de distribuciones

σ = (σ1 , σ2 , . . . , σn )

donde σi ∈ ∆i para todo i; es decir,

n
Y
σ∈ ∆i
i=1

De acuerdo con la deﬁnición anterior, es claro que el conjunto de las estra-

tegias mixtas contiene al de las estrategias puras. En este caso, cada σi le
asigna probabilidad 1 a cierta estrategia pura y probabilidad 0 a las demás
estrategias.

Ejemplo 58. (Estrategias mixtas de tirar la moneda)

En el juego de tirar la moneda (tabla 2.4), una estrategia mixta para el
jugador 1 se puede describir como la asignación de una probabilidad (p)
a su estrategia C, y de una probabilidad (1 − p) a su estrategia S. Esta
estrategia mixta para el jugador 1 se acostumbra escribir

p [C] + (1 − p) [S]

Notemos que si p es igual a 1 se tiene la estrategia pura en la que se juega C

con certeza. De forma similar, para el jugador 2 una estrategia mixta puede
describirse (como se muestra en la ﬁgura tabla 2.4) como la asignación de
probabilidades (q) y (1 − q) para las estrategias C y S respectivamente. Se
acostumbra escribir esta estrategia como

q[C] + (1 − q)[S]

Jugador 2
(q) (1-q)
C S
(p) C 1,-1 -1,1
Jugador 1
(1-p) S -1,1 1,-1
Tabla 2.4. Juego de Tirar la moneda, de nuevo.
2.10. Contexto económico 197

Definición 10. (Utilidad esperada)

Sea Γ = (N, (Ci )i∈N , (ui )i∈N ) un juego ﬁnito en forma estratégica. Dado un
perﬁl de distribuciones
n
Y
σ = (σ1 , ..., σn ) ∈ ∆i
i=1

la utilidad esperada del jugador i asociada a este perﬁl corresponde a la

siguiente expresión:
 
X n
Y
ui (σ) ≡  σj (cj )ui (c)
c∈C j=1

De esta forma, la utilidad esperada de un jugador tiene la misma naturale-

za que un valor esperado (matemático); es decir, corresponde a una suma
ponderada de todas las utilidades que puede alcanzar el jugador, donde
la ponderación de cada una de estas es la probabilidad de ocurrencia del
resultado que genera tales pagos.

Ejemplo 59. (Utilidades esperadas de tirar la moneda)

Consideremos el juego de Tirar la moneda, tal como se establece en la ﬁgura
2.2. En este juego, las utilidades esperadas de los jugadores 1 y 2 para cada
una de sus estrategias son:

UE1 (C) = 2q − 1, UE1 (S) = 1 − 2q, UE2 (C) = 1 − 2p, UE2 (S) = 2p − 1.

Con esto, las utilidades esperadas por participar en el juego son:

UE1 = 2p(2q − 1) − 2q + 1 UE2 = 2q(1 − 2p) + 2p − 1

Definición 11. (Equilibrio de Nash mixto)

En un juego ﬁnito en forma estratégica Γ = (N, (Ci )i∈N , (ui )i∈N ), el perﬁl
Q
de estrategias mixtas σ ∗ = (σi∗ )i∈N ∈ ni=1 ∆i es un equilibrio de Nash si,
para cada i ∈ N , la estrategia mixta σi∗ del jugador i es una mejor-respuesta
a las estrategias mixtas de los demás jugadores. Esto es, σ ∗ es un equilibrio
de Nash en estrategias mixtas para el juego Γ si, y sólo si,

ui (σi∗ , σ−i
∗ ∗
) ≥ ui (σi , σ−i ) ∀σi ∈ ∆i . ∀i ∈ N

donde
∗
(σi , σ−i ) = (σ1∗ , σ2∗ , . . . , σi−1
∗ ∗
, σi , σi+1 , . . . , σn∗ )
198 Capítulo 2. Optimización estática

Como hemos visto, una estrategia mixta es una distribución de probabilidad

sobre las estrategias puras de un jugador. De esta forma, un equilibrio de
Nash en estrategias mixtas corresponde a una situación en la que al menos
uno de los jugadores no se ve beneﬁciado por “desviarse unilateralmente” a
jugar una estrategia pura u otra estrategia mixta.

Cuando un jugador sigue una estrategia mixta en un equilibrio de Nash,

debe ser indiferente entre las estrategias puras a las cuales les asigna proba-
bilidad positiva: si no lo fuera, entonces aquella estrategia pura que obtiene
mayor utilidad esperada dominaría a la estrategia mixta. El siguiente teo-
rema ilustra esta idea y nos permite, efectivamente, calcular equilibrios de
Nash mixtos.

Teorema 26.
Si un jugador utiliza una estrategia mixta no degenerada (es decir, que asig-
na una probabilidad positiva a más de una estrategia pura) en un equilibrio
de Nash mixto, entonces es indiferente entre todas las estrategias puras a
las cuales les ha asignado probabilidad positiva. La aﬁrmación recíproca no
es cierta.

Demostración.
Ver Maschler et al (2013).

Ejemplo 60. (El juego de coordinación, otra vez)

Consideremos, nuevamente, el juego de coordinación del ejemplo 56 que otra
vez presentamos en la tabla 2.5, y encontremos su equilibrio de Nash mixto.

(q) (1-q)
D I
(p) D 10,10 0,0
(1-p) I 0,0 1,1
D≡ derecha, I≡ izquierda

Tabla 2.5. El Juego de coordinación, de nuevo.

Solución.
Para comenzar, encontremos las utilidades esperadas de cada uno de los
jugadores para cada una de sus estrategias. Si el jugador 1 cree que el
jugador 2 va a jugar su estrategia pura Derecha (D) con probabilidad q
e Izquierda (I) con probabilidad 1 − q, sus pagos esperados por jugar sus
2.10. Contexto económico 199

estrategias Derecha e Izquierda son, respectivamente,

UE1 (D) = 10q + 0(1 − q) = 10q

UE1 (I) = 0q + 1(1 − q) = 1 − q

De forma análoga, si el jugador 2 cree que el jugador 1 va a jugar su es-

trategia Derecha con una probabilidad p, y su estrategia Izquierda con una
probabilidad 1 − p, sus pagos esperados por jugar las estrategias Derecha e
Izquierda, respectivamente, son:

UE2 (D) = 10p + 0(1 − p) = 10p

UE2 (I) = 0p + 1(1 − p) = 1 − p

Como se establece en el teorema 26, cada jugador escogerá la probabilidad

con la que juega cada una de sus estrategias puras de tal forma que su
oponente sea indiferente al momento de elegir entre estas; es decir, la utilidad
esperada de cada una de sus estrategias puras debe ser igual para cada
jugador. Así, tenemos que

jugador 1 jugador 2
10q = 1 − q 10p = 1 − p
∗
q = 1/11 p∗ = 1/11

De esta forma, la solución del juego indica que cada uno de los jugadores es-
cogerá su estrategia Derecha con probabilidad 1/11 y su estrategia Izquierda
con probabilidad 10/11. El equilibrio de Nash en estrategias mixtas es

σ ∗ = (σ1∗ , σ2∗ ) = [(1/11, 10/11) , (1/11, 10/11)]

el cual ofrece a los jugadores pagos esperados, en equilibrio, de (0.9, 0.9), que
es inferior al pago en los equilibrios de Nash en estrategias puras (10,10) y
(1,1). Nótese, sin embargo, que una vez han sido elegidas las probabilidades
con las que cada uno de los jugadores elige su posible acción, cada uno de
ellos es indiferente entre jugar su estrategia mixta, y jugar una estrategia
pura; esto es, los valores esperados de sus utilidades son siempre 0.9.
Estos resultados tienen un sentido profundo: los dos equilibrios puros los
percibimos en la vida cotidiana de la calle cuando notamos que “todos ma-
nejan por la derecha” y “todos manejan por la izquierda” son equilibrios
que vemos, entre otros lugares, en la Europa continental y en Gran Breta-
ña, respectivamente. Son acuerdos tácitamente encontrados, promedios de
200 Capítulo 2. Optimización estática

comportamiento, es decir, convenciones alcanzadas a través del tiempo. aún

así el equilibrio “a veces por la derecha, y a veces por la izquierda” no tiene
un referente claro en la realidad, y esto se destacará cuando veamos, en el
“contexto económico” del capítulo 3, que las sociedades van excluyéndolo
“evolutivamente” como posibilidad de acuerdo, a medida que transcurre el
tiempo.

Ejemplo 61. (Tirar la moneda, otra vez)

En el ejemplo 59 habíamos visto que las utilidades esperadas de los jugadores
en el juego de tirar la moneda vienen dadas por las siguientes expresiones:

UE1 (C) = 2q − 1, UE1 (S) = 1 − 2q

UE2 (C) = 1 − 2p, UE2 (S) = 2p − 1

De acuerdo al teorema 26, se tiene que UE1 (C) = UE1 (S) y que UE2 (C) =
UE2 (S) y, por tanto p = 1/2 y q = 1/2. Así, el equilibrio de Nash mixto
de este juego es [(1/2, 1/2) , (1/2, 1/2)], y los pagos esperados, en equilibrio,
son de cero para cada jugador.
Este resultado permite entender un poco mejor el signiﬁcado del concepto
de equilibrio de Nash: [(1/2, 1/2) , (1/2, 1/2)] podría interpretarse no como
que esta estrategia vaya a ser realmente jugada, sino como una amenaza de
jugar, con igual probabilidad, cualquiera de las dos estrategias: No sólo jugar
efectivamente una estrategia, sino “amenazar” con jugarla, es el comporta-
miento que da mejores pagos dadas las amenazas del otro jugador 40 . N

El siguiente es uno de los resultados centrales de la teoría de juegos clásica.

De hecho, las técnicas utilizadas por Nash en este teorema inspiraron a K.
Arrow y G. Debreu para alcanzar la correspondiente demostración de la
existencia de un equilibrio competitivo bajo condiciones muy generales.

Teorema 27. [Teorema de existencia de equilibrios de Nash (Nash,

1950)]
Todo juego ﬁnito en forma estratégica tiene al menos un equilibrio de Nash
(en estrategias puras o mixtas).

Demostración.
Sea Γ = (N, (Ci )i∈N , (ui )i∈N ) un juego ﬁnito en forma estratégica, y sea
Q
∆ = ni=1 ∆i . Entonces probemos los siguientes puntos:
40
Un arquero de fútbol, al momento de ser pateado un penalti, sabe muy bien lo que
debe hacer: para él, la mejor estrategia es amenazar con jugar, con igual probabilidad, a
un lado o al otro.
2.10. Contexto económico 201

1. ∆ es convexo: Sean σ = (σi ), σ ′ = (σi′ ) ∈ ∆; es claro que para λ ∈

[0, 1], se tiene que λσ + (1 − λ)σ ′ = (λσi + (1 − λ)σi′ ). Aquí podemos
♯Ci
asumir que σi = pcj , donde pcj es la probabilidad asociada a la
j=1
P♯Ci
estrategia pura cj con j=1 pcj = 1, y pcj ≥ 0; de manera similar,
♯Ci
para σi′ = p′cj . Entonces tendremos que:
j=1

a) λσi + (1 − λ)σi′ = (λpcj + (1 − λ)p′cj )♯C

j=1
i

b) λpcj + (1 − λ)p′cj ≥ 0 y
P♯Ci P♯Ci P♯Ci
c) j=1 (λpcj + (1 − λ)p′cj ) = λ j=1 pcj + (1 − λ) ′
j=1 pcj =1
y esto prueba la convexidad del conjunto ∆.
2. El conjunto ∆ es compacto ya que ∆i es compacto (simplex unitario)
para todo i ∈ N .
3. Ahora: sea γi : ∆ → ∆i , definida, para σ ∈ ∆, por
γi (σ) = {σi′ ∈ ∆i | ui (σi′ , σ−i ) ≥ ui (σi , σ−i ) para todo σi ∈ ∆i }
y sea γ : ∆ → ∆ definida por γ(σ) = (γ1 (σ), γ2 (σ), . . . , γn (σ)). Si
probamos que γi es semicontinua superiormente y que para todo σ ∈
∆, γi (σ) es no vacío y convexo, entonces γ tiene un punto fijo (teorema
de punto fijo de Kakutani (teorema 17)); es decir, existe σ ∗ ∈ ∆ tal
que σ ∗ ∈ γ(σ ∗ ); esto es, σi∗ ∈ γi (σ ∗ ), y así,
ui (σi∗ , σ−i
∗ ∗
) ≥ ui (σi , σ−i ) para todo σi ∈ ∆i ;
es decir, σ ∗ es un equilibrio de Nash.
a) Probar que γi (σ) es no vacío, es decir, que el problema
Máxσi ∈∆i ui (σi , σ−i ) para σ−i fijo
tiene solución, es inmediato por el teorema de Weierstrass.
b) Demostremos que γi (σ) es convexo. Si tenemos σi′ , σi′′ ∈ γi (σ), en-
tonces
ui (σi′ , σ−i
′
) ≥ ui (σi , σ−i ) para todo σi ∈ ∆i
ui (σi′′ , σ−i
′
) ≥ ui (σi , σ−i ) para todo σi ∈ ∆i
Así, para λ ∈ [0, 1] se tiene que ui (λσi′ +(1−λ)σi′′ , σ−i ) ≥ ui (σi , σ−i ),
para todo σi ∈ ∆i , debido a la cuasiconcavidad de la función de
utilidad esperada ui .
202 Capítulo 2. Optimización estática

c) Probemos, ﬁnalmente, que el gráﬁco de γ

graf (γ) = {(σ, σ ′ ) | σ ′ ∈ γ(σ)}
es cerrado. Para i = 1, 2, · · · , n, sea (σn , σn′ ) ∈ graf (γ) y (σn , σn′ ) →
(σ, σ ′ ), donde σ, σ ′ ∈ ∆, y debemos probar que (σ, σ ′ ) ∈ graf (γ).
Pero esto es inmediato, ya que si σn,i ′ → σ ′ , entonces, de
i

′
ui (σn,i , σn,−i ) ≥ ui (σn ) , σi ∈ ∆i
tendremos que ui (σi′ , σ−i ) ≥ ui (σ) cuando n → ∞, y, por tanto,
σi′ ∈ γi (σ).

Observemos que este teorema garantiza, para juegos con un número fini-
to de jugadores y estrategias, la existencia de, al menos, una combinación
de estrategias tal que ninguno de ellos tenga incentivos unilaterales para
cambiar su propia estrategia. Es decir, de que cada conflicto tiene, en prin-
cipio, una “solución”, aunque esta pueda implicar comportamientos más de
amenaza que de acción efectiva. Esta visión de las estrategias mixtas como
amenazas se ve, por ejemplo, en el caso del lanzamiento de penalties en el
fútbol: cuando se ubica en el centro del arco, el arquero amenza al pateador
con lanzarse a la izquierda con probabilidad 1/2, y también a la derecha
con probabilidad 1/2. Similarmente, el pateador amenzará con lanzar a la
derecha y a la izquierda con la misma probabilidad 1/2, y, por ello, tratará
de evitar que el arquero reconozca hacia cuál de los dos lados efectuará el
lanzamiento. Este tipo de argumento, obviamente, puede trasladarse a todos
los juegos finitos que estudiamos.
De otro lado, el lector también podría preguntarse aquí por qué si el teore-
ma de Nash que acabamos de presentar es aplicable para cualquier conjunto
finito de jugadores, los ejemplos y aplicaciones presentados únicamente han
involucrado a dos jugadores. Von Neumann y Morgenstern reconocían que
para tratar con juegos de más de dos jugadores debería recurrirse a una
metodología diferente a la utilizada en juegos de dos jugadores ya que, en
aquellos casos, algunos jugadores podrían formar alianzas que los beneficia-
ran frente a terceros jugadores. Esta es la teoría de juegos coalicionales (o
cooperativos) que, paralelo a la teoría de juegos no cooperativos, ha tenido
un desarrollo propio muy fructífero donde se ha mostrado, inclusive, que
sus conexiones con la teoría no cooperativa son completamente naturales
cuando de juegos con “muchos” agentes se trata 41 .
41
Para el estudiante interesado en un buen tratamiento de la teoría de juegos coalicio-
nales, recomendamos Maschler et al, 2013.
2.10. Contexto económico 203

A pesar de su aspecto prometedor en los primeros años de 1950, el impacto

de la teoría del equilibrio de Nash se dispersó muy lentamente. Al principio,
casi toda la atención se centró en el análisis de los juegos coalicionales que
tanto habían apoyado von Neumann y Morgenstern desde su particular y
estrecha perspectiva de las interacciones. La literatura de las décadas de
1950 y 1960 así lo atestigua. Posteriormente, al rescatar la importancia del
trabajo de Nash, se fue entendiendo que la mirada tradicional neoclásica
de la economía (desde la teoría de precios y mercados competitivos) tenía
serias limitaciones. Por ejemplo, problemas de interacción económica donde
los individuos tienen diferente información, no caen con facilidad dentro
de los argumentos típicos de precios; la organización interna de una ﬁrma
tampoco está claramente abarcada en el esquema de precios y competencia
perfecta; el problema del surgimiento del dinero como instrumento ﬁnanciero
y de intercambio ha estado por fuera de las aproximaciones clásicas de los
modelos de equilibrio general.
Inclusive en las épocas de los grandes debates acerca del socialismo, pudo
verse cómo los modelos basados en precios podían ser inútiles para probar
los defectos y virtudes de una economía centralizada. También la creación y
operación de las instituciones, que son un factor esencial en el funcionamien-
to de los mercados económicos, cae, regularmente, por fuera de los esquemas
de la teoría de precios, etc. La teoría de juegos (y, en general, la teoría de
interacciones) muestra un camino más allá de esta mirada. Hoy, la visión de
la teoría económica, a la luz de dichos avances, comienza a cambiar.

Maximizar f (x, y)
sujeta a g1 (x, y) ≥ 0
g2 (x, y) ≥ 0
x, y ≥ 0
204 Capítulo 2. Optimización estática

b) Escriba los correspondientes resultados de Lagrange y Kühn-Tucker

para el problema anterior.
c) Similar al literal b), cuando hay 3 restricciones.
d) Similar al literal b), cuando las funciones dependen de 3 variables
x, y, z.
e) Generalice a m(> 3) restricciones y n(> 3) variables.

2. Halle los máximos y mínimos de la función deﬁnida sobre el conjunto

de restricción S en cada uno de los siguientes casos:

a) f (x, y) = x3 + y 3 − 9xy + 27; S = [0, 4] × [0, 4]

b) f (x, y) = x2 + 2y 3 − x; S = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}
c) f (x, y) = 3 + x3 − x2 − y 2 ; S = {(x, y) ∈ R2 | x2 + y 2 ≤ 1, x ≥ 0}

3. Resuelva analíticamente (utilizando los teoremas apropiados y encon-

trando las soluciones explícitamente) e ilustre gráﬁcamente los siguien-
tes problemas:

a)
Maximizar 2x2 + 2xy − 2y 2
sujeta a 3x + 4y ≤ 6
4y 2 − x ≤ 6
x, y ≥ 0

b)
Minimizar 4xy−3x2 + y
sujeta a x≤4
y≤5
x, y ≥ 0

c)
Maximizar xα y β
sujeta a ax + by ≤ M
x ≤ m1
y ≥ m2
x≥0

(Aquí, α, β, a, b, M, m1 , m2 son todos positivos).

2.10. Contexto económico 205

4. Determine el punto sobre el plano x + 2y + 3z = 13 más cercano al

punto (1, 1, 1).

5. Halle tres números reales cuya suma sea 9, y la suma de sus cuadrados
sea lo más pequeña posible.

6. En el problema

Maximizar − 8x2 − 10y 2 +12xy − 50x + 80y

sujeta a x+y ≤1
8x + y 2 ≤ 2
2

x, y ≥ 0

a) Resuelva geométricamente.
b) ¿Por qué el método de Lagrange no funciona aquí?
c) Determine los valores óptimos de x y y utilizando el método de
Kühn-Tucker.

7. ¿Para qué valores de α, β, γ, el problema

Maximizar αx2 +βxy

sujeta a x2 + y 2 ≤ γ
x, y ≥ 0

tiene solución? En tal caso, ¿cuál es la solución? ¿Cuándo es única?

8. Un grupo de 3 personas es propietario de un lote cuadrado, y planean

construir sus casas en él. Buscando privacidad, tratarán de que la
distancia entre los centros de las casas sea lo más grande posible.
¿Dónde deberían construir sus casas?

9. Un vendedor debe comenzar su ruta de viaje en una ciudad, visitar

otras 3 ciudades, y regresar a la ciudad de la que partió de tal forma
que la distancia total recorrida se minimice. ¿Puede usted hacerle, a
este respecto, alguna recomendación al vendedor?

10. Calcule el máximo producto posible de tres números positivos x, y, z,

si x + y + z 2 = 16.

11. Encuentre (si existe) el punto de la región de los (x, y, z) con x ≥ 0,

y ≥ 0, z ≥ 0; x2 − xy + y 2 − z 2 ≤ 1, x2 + y 2 + z 2 = 1 más cercano al
origen (0, 0, 0).
206 Capítulo 2. Optimización estática

12. Halle los valores máximo y mínimo de f (x, y, z) = x − 2y + 7z sobre

la esfera x2 + y 2 + z 2 ≤ 30, si x > 0, y > 0.
13. Pareto en su Manuel de 1906 (§ 3, cap. II) aﬁrma que:

Se sabe, por ejemplo, que los alveolos de las abejas se terminan en pi-
rámide, y que con el mínimo de superﬁcie, es decir con el más pequeño
gasto de cera, hacen el máximum de volumen, es decir que pueden con-
tener la más grande cantidad de miel. Nadie supone, sin embargo, que
es así porque las abejas han resuelto por el empleo de un silogismo y
de las matemáticas un problema de máximum.

Discuta matemáticamente la primera aﬁrmación, y reﬂexione sobre la

segunda.

14. Una empresa tiene n productos que vende en el mercado a precios

p1 , . . . , pn . Para la producción de esos productos utiliza m insumos
diferentes, de los cuales tiene un inventario Ai de cada uno; para pro-
ducir una unidad del producto j requiere de aij unidades del insumo
i. El objetivo de la empresa es maximizar sus ingresos por venta.

a) Plantee el problema de la empresa en términos del método simplex.

b) Suponga que n = 4 y m = 6 y que

p1 = 2, p2 = 4, p3 = 1, p4 = 8;
A1 = 150, A2 = 170, A3 = 70, A4 = 95;
A5 = 200, A6 = 90

y que la matriz de coeﬁcientes de producción es

 
1 10 2 14
 
 3 6 7 3 
 
 
 1 1 1 1 
 
 
 2 4 2 3 
 
 
 5 7 1 2 
 
1 3 3 9

Encuentre los niveles óptimos de producción de cada producto.

c) Determine cuánto se demanda de cada insumo, y para cuáles insu-
mos existen sobrantes en el inventario.
2.10. Contexto económico 207

d) Determine cuál insumo tendría mayores efectos sobre el nivel de

ventas si se cambiara su nivel de inventarios.

15. Una empresa tiene a su disposición dos tecnologías para producir 2

bienes. La tecnología 1 requiere 10 unidades del insumo 1, y 6 del
insumo 2 para producir conjuntamente 15 y 20 unidades de los pro-
ductos 1 y 2, respectivamente. De otro lado, la tecnología 2 requiere 5
unidades del insumo 1, y 9 del insumo 2 para producir conjuntamente
12 y 8 unidades de los productos 1 y 2, respectivamente. Si los precios
de los productos 1 y 2 son 10 y 7 respectivamente; y de los insumos 1
y 2 son 1 y 3, respectivamente, determine los niveles de utilización de
las diferentes actividades, de tal forma que la empresa maximice sus
beneﬁcios.

16. Dé dos ejemplos económicos reales de tecnologías con rendimientos

crecientes a escala.

17. ¿Cuáles son las condiciones de primer orden de Kühn-Tucker para el

problema de distribución de recursos

Maximizar f (x) + g(y) + h(z)

sujeta a x + y + z ≤ b,
x, y ≥ 0
z≥0

donde b > 0, f (·), g(·), h(·) son funciones cóncavas estrictas y diferen-
ciables con continuidad en R2+ ?

18. [Dixit, 1990] Cierta suma de dinero C está disponible para invertir en
dos proyectos de inversión. Si x1 , x2 > 0 son las cantidades invertidas
en los proyectos 1 y 2, respectivamente, el rendimiento esperado de
este portafolio de proyectos es

1 1
[α1 x1 − β1 x21 ] + [α2 x2 − β2 x22 ]
2 2

para ciertos α1 , β1 , α2 , β2 > 0. El inversionista busca maximizar este

último valor. Utilizando el método Kühn-Tucker, pruebe que:
α1 α2
a) Si C > + , una parte de C no se invierte.
β1 β2
208 Capítulo 2. Optimización estática

b) Si

α1 α2 1 1
α1 , α2 > + −C +
β1 β2 β1 β2
entonces todo proyecto recibirá alguna inversión.
c) Interprete estos resultados.

19. [Un consumidor racionado] Para p1 , p2 , M, k > 0, 0 < β < 1, resuelva

el problema del consumidor

Maximizar ln x + β ln y
sujeta a p1 x + p2 y ≤ M
x≤k
x, y ≥ 0

20. Para p1 , p2 , M, α > 0, 0 < β < 1, resuelva el problema del consumidor

Maximizar xα + β ln y
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0

21. Compare los resultados de los ejercicios 19 y 20.

22. Para p1 , p2 , M, 0 < γ < 1, 0 < β < 1, resuelva el problema de un

consumidor con función de utilidad tipo CRRA

x1−γ − 1 y 1−γ − 1
Maximizar +β
1−γ 1−γ
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0

23. Para p1 , p2 , M, γ > 0, 0 < β < 1, resuelva el problema de un consumi-

dor con función de utilidad tipo CARA

1 −γx β −γy
Maximizar − e − e
γ γ
sujeta a p1 x + p2 y ≤ M
x, y ≥ 0
2.10. Contexto económico 209

24. Para α, β, γ > 0, px , py , pz , M > 0, resuelva el problema del consumi-

dor

Maximizar xα y β z γ
sujeta a px x + py y + pz z = M
x, y, z > 0

25. Resuelva el problema de un consumidor con función de utilidad sepa-

rable y cuadrática; es decir,

Maximizar u(x) + β u(y)

sujeta a p1 x + p2 y ≤ M
x, y ≥ 0

donde u(·) es una función cuadrática del tipo u(z) = z − z 2 ; y además

p1 , p2 , M > 0, 0 < β < 1.

26. [Precios sombra] En ocasiones, y para evocar cierta conexión con los
precios del mercado, a los multiplicadores de Lagrange de un proble-
ma de optimización (de consumidores y productores) se les denomina
precios sombra. Note que, por el teorema de la envolvente expuesto
en este capítulo, el parámetro λ coincide con el valor marginal de los
recursos. Para ilustrar el papel que pueden jugar los precios sombra en
problemas de distribución eﬁciente de recursos escasos, consideremos
el siguiente ejemplo de Dixit (1990).

Supongamos que una economía tiene 300 unidades de mano de obra,

y 450 unidades de tierra, para producir trigo y carne. Cada unidad de
trigo requiere de 2 unidades de mano de obra y de una de tierra; cada
unidad de carne requiere de 1 unidad de mano de obra y 2 de tierra.
Por lo tanto, si x, y son el número de unidades de trigo y carne que
puede producir la economía, debemos tener que

2x + y ≤ 300 ; x + 2y ≤ 450

a) Dibuje el conjunto de planes (x, y) posibles para esta economía.

b) ¿Será que la solución tendrá que ser x = 50, y = 200 (empleo total
de los recursos)? ¿Por qué?
210 Capítulo 2. Optimización estática

Suponga ahora que la sociedad tiene un objetivo (o “función de bie-

nestar social”) deﬁnido por:

W (x, y) = α ln x + β ln y

donde α, β > 0, α + β = 1, son constantes conocidas y que trata de

maximizar esta función.

c) Escriba el problema de optimización de esta sociedad.

d) Escriba el correspondiente lagrangiano.
e) Escriba las CPO de Kühn-Tucker para este problema.
f) Pruebe que, en un óptimo, no es posible mantener ambos factores
subutilizados.
g) Pruebe que si β ≥ 8/9 entonces x = 450α, y = 225β es una
solución.
h) Pruebe que si β ≤ 2/3 entonces x = 150α, y = 300β es una
solución.
i) Pruebe que si 32 < β < 8/9, se obtiene la solución de utilización
total de factores: x = 50, y = 200.
j) ¿Cuáles son las soluciones óptimas?
k) Confirme que cada precio sombra (multiplicador de Lagrange) en
este problema es el efecto sobre el bienestar social de tener una
unidad adicional de ese factor.
l) Muestre que si un factor no está totalmente utilizado en un óp-
timo, entonces su precio sombra es cero.
m) Confirme que un precio sombra positivo significa que un incre-
mento marginal en disponibilidad del recurso afectará positiva-
mente la producción.

27. (*) [Un problema del análisis de actividades (Koopmans, 1951)] En el

volumen I (Álgebra lineal y cálculo en varias variables), discutíamos el
modelo de Koopmans de la existencia de un equilibrio competitivo y
sus características de bienestar. El presente ejercicio plantea un pro-
blema concreto y simple del “análisis de actividades” que Koopmans
generalizó en su modelo pionero de 1951.

Supongamos que existen n actividades, A1 , A2 , · · · , An a las que cierta

ﬁrma puede recurrir, utilizando la oferta disponible de m recursos
2.10. Contexto económico 211

(insumos), R1 , R2 , · · · , Rm . Supongamos que bi es la oferta disponible

del recurso Ri ; que aij es la cantidad del recurso Ri utilizado en la
actividad Aj en cada unidad producida; y que cj es el valor neto de
una unidad producida bajo la actividad Aj .

El objetivo de la empresa es escoger adecuadamente los niveles de uti-

lización de las diferentes actividades de tal manera que se maximice
el valor de la producción sujeto a los recursos dados. Es decir, la em-
presa necesita encontrar las intensidades xj ≥ 0 a que debe operar las
respectivas actividades Aj , de tal forma que maximice el valor total
P
de la producción nj=1 cj xj sujeto a la condición de que las cantida-
des de recursos utilizados en esta operación no puede sobrepasar la
P
oferta, es decir, nj=1 aij xj ≤ bi para i = 1, 2, ..., m. El ejercicio aquí
consiste en que el lector construya y resuelva un ejemplo concreto de
análisis de actividades con m = 3 y n = 2., e interprete el resultado
adecuadamente.

28. (**) [Prueba de existencia de equilibrios en el modelo de von Neumann

(1932)] Utilizando el teorema minimax, podemos probar el teorema
de existencia de solución única del modelo de von Neumann que estu-
diamos en el volumen I (Álgebra lineal y cálculo en varias variables), y
que reproducimos a continuación. El ejercicio consiste en que el lector
siga cuidadosamente la prueba del teorema.
Consideremos una economía donde hay n bienes G1 , G2 , ..., Gn que
pueden producirse mediante m procesos P1 , P2 , ..., Pm . En cada pro-
ceso Pi (i = 1, 2, ..., m) se utilizan cantidades conocidas aij (expresa-
das en unidades convenientes) y se producen las cantidades conocidas
bij , de los respectivos bienes Gj (j = 1, 2, ..., n). El proceso, entonces,
puede simbolizarse de la siguiente forma:
n
X n
X
Pi = aij Gj → bij Gj
j=1 j=1

Estos procesos Pi (i = 1, 2, ..., m) serán utilizados con ciertas intensi-

dades xi (i = 1, 2, ..., m), lo que signiﬁca que, para la producción total,
las cantidades de la ecuación (5) deben multiplicarse por xi . Aquí,
xi = 0 signiﬁca que el proceso Pi no será utilizado.
Luego se pregunta por aquellos estados en donde la economía se ex-
pande sin cambio de estructura; es decir, donde las proporciones de
212 Capítulo 2. Optimización estática

x1 x2 xm−1
las intensidades , , ..., igualan un factor común α:
x2 x3 xm
x1 x2 xm−1
= = ... = =α
x2 x3 xm

A este, von Neumann lo llama el coeﬁciente de expansión de la econo-

mía. Las incógnitas del modelo son, entonces,

i) Las intensidades x1 , ..., xm de los procesos P1 , ..., Pm ;

ii) El coeﬁciente de expansión (o tasa de crecimiento), α, de la eco-
nomía;
iii) Los precios y1 , ..., yn de los bienes G1 , ..., Gn ;
iv) El factor de interés β, donde asume que
y1 y2 yn−1
β= = = ... =
y2 y3 yn

Las ecuaciones económicas son:

αAT X ≤ B T X (1)
x1
donde A = [aij ]m×n , B = [bij ]m×n y X = [x1 , ..., xm ]T y α = =
x2
x2 xm−1
= ... = .
x3 xm
βAY ≥ BY (2)

donde Y = [y1 , ..., yn ]T .

x1 xm−1
Si tenemos en cuenta la condición = ... = = α y la condición
x2 xm
y1 yn−1
= ... = = β, entonces (1) y (2) conforman un sistema de m+n
y2 yn
desigualdades con m+n incógnitas. Pero como estas no son ecuaciones
sino desigualdades, el hecho de que el número de ellas iguale el número
de incógnitas, no constituye ninguna garantía de que el sistema pueda
resolverse.

Teorema 28. (Minimax ⇒ von Neumann)

Si aij + bij > 0 el modelo de von Neumann tiene una única solución
α = β.
2.10. Contexto económico 213

Demostración.
Consideremos la función
m,n , m,n
T yBy T X X
u(y, y ) = = bij yi yj aij yi yj (3)
yAy T i,j=1 i,j=1

Observemos que la condición aij + bij > 0 garantiza que esta función
está bien deﬁnida: Si el denominador es cero, el numerador es positivo,
y entonces podríamos redeﬁnir la función u(·, ·) mediante la función
recíproca.

Utilizando (1) y (2) se tiene que

Máxy MínyT u(y, y T ) = α, MínyT Máxy u(y, y T ) = β

y, por el teorema minimax, α = β.42

29. (*) Para α, β > 0, suponga que un productor tiene una tecnología
Leontief deﬁnida por

f (x, y) = Mín{αx, βy}

Encuentre la función de costos y las demandas de factores en este caso.

Note que esta función no es derivable, por lo cual, aparentemente, no
podría utilizar los métodos presentados en el presente capítulo.

30. ¿Podría
ln(1 + p)
Π(p, w1 , w2 ) =
w1 w 2
ser una función de beneﬁcio que proviene del comportamiento racional
estándar?

31. ¿Podría
1 2
C(w1 , w2 , y0 ) = (a1 w1 + a2 w2 + b(w1 ) 3 (w2 ) 3 ) y0

ser una función de costos que proviene del comportamiento racional

estándar? En caso aﬁrmativo especiﬁque cuáles pueden ser las condi-
ciones sobre los valores de a1 , a2 , b.
42
Sin embargo, paradójicamente, von Neumann recurrió, con la misma forma funcional
u(y, y T ), al teorema de punto fijo de Brouwer para probar este teorema, y no al teorema
del minimax del que él mismo ya tenía una prueba desde 1928.
214 Capítulo 2. Optimización estática

32. ¿Podrían

px py
x(px , py , M ) = +1 ; y(px , py , M ) = +1
py px

ser funciones de demanda para un consumidor racional estándar?

33. (*) [Demostración del teorema 19 (función de beneﬁcio)] Supongamos

que Π(p, w1 , w2 ) resuelve el problema del productor.

a) Si f (0, 0) ≥ 0, entonces el máximo del problema del productor debe

satisfacer Π(p, w1 , w2 ) ≥ Π(p, 0, 0) ≥ 0, ya que el productor puede
elegir no producir.
b) Sean x′ , y ′ los valores de x, y que resuelven el problema al precio
p′ , y sean x′′ , y ′′ los que lo hacen al precio p′′ . Entonces, por la
deﬁnición de Π(p, w1 , w2 ), tenemos que

p′′ f (x′′ , y ′′ ) − w1 x′′ − w2 y ′′ ≥ p′′ f (x′ , y ′ ) − w1 x′ − w2 y ′

Supongamos que p′′ ≥ p′ ; entonces tenemos que

Π(p′′ , w1 , w2 ) = p′′ f (x′′ , y ′′ ) − w1 x′′ − w2 y ′′

≥ p′′ f (x′ , y ′ ) − w1 x′ − w2 y ′
≥ p′ f (x′ , y ′ ) − w1 x′ − w2 y ′
= Π(p′ , w1 , w2 )

De manera similar en los otros casos.

c) Sean x′ , y ′ los valores de x, y que resuelven el problema de optimi-
zación a los precios p′ , w1′ , w2′ , y sea t > 0; entonces

Π(tp′ , tw1′ , tw2′ ) = tp′ f (x′ , y ′ ) − tw1′ x′ − tw2′ y ′

= t p′ f (x′ , y ′ ) − w1′ x′ − w2′ y ′
= tΠ(p′ , w1′ , w2′ )

d) Se deja como ejercicio para el lector.

34. (*) [Demostración del teorema 20 (función de costos)] Supongamos

que C(w1 , w2 , y0 ) resuelve el problema de optimización del productor.
2.10. Contexto económico 215

a) Sean x′ , y ′ son los valores de x, y que resuelven el problema al precio

w1′ ; y x′′ , y ′′ los que lo hacen al precio w1′′ ; entonces, para w2 ﬁjo,

w1′ x′ + w2 y ′ ≤ w1′ x′′ + w2 y ′′

w1′′ x′′ + w2 y ′′ ≤ w1′′ x′ + w2 y ′

Supongamos que w1′′ ≥ w1′ . Entonces

C(w1′ , w2 , y0 ) = w1′ x′ + w2 y ′ ≤ w1′ x′′ + w2 y ′′ ≤ w1′′ x′′ + w2 y ′′

≤ w1′′ x′ + w2 y ′ = C(w1′′ , w2 , y0 )

Y de forma similar para w2 .

b) Si x′ , y ′ son los valores de x, y que resuelven el problema a los
precios w1′ , w2′ y t > 0, entonces

C(tw1′ , tw2′ , y0 ) = tw1′ x′ + tw2 y ′ = t w1′ x′ + w2 y ′
= tC(w1′ , w2′ , y0 )

c) Queda como ejercicio para el lector.

35. (*) [Demostración del teorema 21 (funciones de demanda)] Suponga-

mos que x(p1 , p2 , M ) y y(p1 , p2 , M ) resuelven el problema del consu-
midor.

a) Queda como ejercicio para el lector.

b) Dado que la restricción p1 x + p2 y ≤ M , es igual a la restricción
tp1 x + tp2 y ≤ tM para t > 0, el problema del consumidor se man-
tiene inalterado, si multiplicamos (p1 , p2 , M ) por t, de forma que
x(tp1 , tp2 , tM ) = x(p1 , p2 , M ), y(tp1 , tp2 , tM ) = y(p1 , p2 , M ).
c) (*) Queda como ejercicio para el lector.
d) Sea S = R3++ , T = R2+ , f : S × T → R y ϕ : S → T tal que a cada
(p1 , p2 , M ) se le asigna el conjunto {(x, y) ∈ R2+ | p1 x + p2 y ≤ M }
y f (·, (x, y)) = U (x, y). Vemos que tanto f (·) como ϕ(·) son con-
tinuas, y así, por el teorema 15 (teorema del máximo), las corres-
pondencias x(p1 , p2 , M ) y y(p1 , p2 , M ) son semicontinuas superior-
mente. Es claro, que si estas correspondencias de demanda tienen
un único elemento para cada (p1 , p2 , M ), es decir, son funciones de
demanda, entonces son continuas.
216 Capítulo 2. Optimización estática

36. (*) [Demostración del teorema 22 (función de utilidad indirecta)] Su-

pongamos que

v(p1 , p2 , M ) = U (x(p1 , p2 , M ), y(p1 , p2 , M ))

resuelve el problema de optimización del consumidor.

a) Esta propiedad se sigue del hecho de que U (·, ·) es creciente, y

de que x(p1 , p2 , M ), y(p1 , p2 , M ) son no crecientes en p1 , p2 y no
decrecientes en M .
b) Se tiene por la homogeneidad de grado 0 de x(p1 , p2 , M ) y y(p1 , p2 , M ).
c) Se deja como ejercicio para el lector.
d) Se sigue inmediatamente a partir de la continuidad de las funcio-
nes U (·, ·), x(p1 , p2 , M ) y y(p1 , p2 , M ).

37. Considere la siguiente economía de intercambio puro de dos mercan-

cías y dos consumidores, A y B, cuyas funciones de utilidad son:
1 1
uA (xA , yA ) = (xA ) 3 (yA ) 2
1 1
uB (xB , yB ) = (xB ) 2 (yB ) 2

a) Encuentre el equilibrio si wA = (1/3, 2/3) y wB = (2/3, 1/3).

b) Corrobore los dos teoremas del bienestar económico.

38. Suponga que existen únicamente dos mercancías en una economía de

intercambio puro y que la función de exceso de demanda de la mer-
cancía x es:
100px + 200py
zx (px , py ) = − 100
2px
a) Encuentre la función de exceso de demanda de la mercancía y,
zy (px , py ).
b) Calcule los precios de equilibrio.

39. Suponga que existen únicamente tres mercancías en una economía y

que las funciones de exceso de demanda de las mercancías x y h son:
−3py + 2ph
zy (px , py , ph ) = −1
px
4py − 2ph
zh (px , py , ph ) = −2
px
2.10. Contexto económico 217

a) Muestre que estas funciones son homogéneas de grado cero en

p x , py , ph .
b) ¿Puede utilizarse la ley de Walras para calcular la función de exceso
de demanda de la mercancía x, zx (px , py , ph )?
c) Calcule los precios relativos de equilibrio, suponiendo que el precio
de la mercancía x es el numerario.

40. Considere la siguiente economía compuesta por dos mercancías y tres

consumidores, A y B, cuyas funciones de utilidad y dotaciones iniciales
son:

uA (xA , yA ) = (xA )2 (yA )2 wA = (1, 2)

1 1
uB (xB , yB ) = (xB ) (yB )
2 3 wB = (3, 4)

a) Encuentre las funciones de demanda individual y las funciones de

demanda agregada.
b) Veriﬁque la ley de Walras.
c) Suponga que el vector de precios de equilibrio pertenece al simplex
unitario, y encuentre este vector.
d) Corrobore los dos teoremas del bienestar económico.

41. (*) Como dijimos antes, la tradición paretiana nunca se preocupó por
el problema de la existencia del equilibrio competitivo, a pesar de
que este concepto fue el centro de atención con respecto a sus pro-
piedades e implicaciones. Aún así, enseguida mostraremos una de las
pruebas típicas de existencia en el caso de economías de intercam-
bio puro, y le pedimos al lector seguirla con cuidado. Esta prueba ya
tiene los elementos (teorema de punto ﬁjo de Brouwer, formas fun-
cionales convenientes, etc.) que serían esenciales en la prueba general
de existencia del modelo Arrow-Debreu que veremos en el capítulo 3.
Cabe, en cualquier caso, advertir que estos elementos provinieron, pa-
radójicamente, de la prueba de existencia de equilibrios de John Nash
[1928-2015] que fuera publicada por el mismo Nash en 1950. Es decir,
la teoría de existencia de equilibrios competitivos le debe mucho a la
teoría de existencia de los equilibrios de la teoría de juegos.
Teorema 29. (Existencia de equilibrios competitivos)
Sean
U i : R2+ → R
(xi , yi ) → U i (xi , yi )
218 Capítulo 2. Optimización estática

para i = A, B, funciones de utilidad continuas, monótonas crecien-

tes estrictamente y cuasicóncavas estrictas y (wxA , wyA ) y (wxB , wyB )
las dotaciones iniciales de los consumidores A y B, respectivamen-
te. Además, supongamos que si pj = 0, entonces zj (px , py ) > 0 para
j = x, y. Entonces existe algún par de precios positivos (p∗x , p∗y ) ta-
les que zx (p∗x , p∗y ) = 0 y zy (p∗x , p∗y ) = 0; es decir, existe un equilibrio
competitivo para la economía descrita por estas funciones de utilidad
y dotaciones iniciales.
En efecto: el teorema 21 asegura que las funciones de demanda de los
agentes son continuas, de tal forma que también las funciones de exceso
de demanda son continuas. Sea ∆ = {(px , py ) ∈ [0, 1]2 | px + py = 1}
y sea la función g : ∆ → ∆ deﬁnida por:
px + Máx{0, zx (px , py )}
gx (px , py ) =
1 + Máx{0, zx (px , py )} + Máx{0, zy (px , py )}

py + Máx{0, zy (px , py )}
gy (px , py ) =
1 + Máx{0, zx (px , py )} + Máx{0, zy (px , py )}
Vemos que (gx , gy ) ∈ P , ya que:
px + Máx{0, zx (px , py )}
gx (px , py ) + gy (px , py ) =
1 + Máx{0, zx (px , py )} + Máx{0, zy (px , py )}

py + Máx{0, zy (px , py )}
+
1 + Máx{0, zx (px , py )} + Máx{0, zy (px , py )}

px + py + Máx{0, zx (px , py )} + Máx{0, zy (px , py )}

= =1
1 + Máx{0, zx (px , py )} + Máx{0, zy (px , py )}
Como ∆ es un conjunto no-vacío, convexo y compacto, y g(·) es una
función continua, por el teorema del punto ﬁjo de Brouwer (teorema
16), existe al menos un punto ﬁjo de g(·), (p∗x , p∗y ) ∈ ∆. Veamos que
(p∗x , p∗y ) es un equilibrio competitivo. Tenemos que el punto satisface
p∗x + Máx{0, zx (p∗x , p∗y )}
p∗x =
1 + Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )}

p∗y + Máx{0, zy (p∗x , p∗y )}

p∗y = .
1 + Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )}
2.10. Contexto económico 219

de lo cual,

p∗x Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )} = Máx{0, zx (p∗x , p∗y )}

p∗y Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )} = Máx{0, zy (p∗x , p∗y )}.

Multipliquemos ambas ecuaciones por zx (p∗x , p∗y ) y zy (p∗x , p∗y ) respecti-

vamente, obtenemos entonces

p∗x zx (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )} =

= zx (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )}.

p∗y zy (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )} =

=zy (p∗x , p∗y ) Máx{0, zy (p∗x , p∗y )}.

Sumando ambas igualdades obtenemos

p∗x zx (p∗x , p∗y ) + p∗y zy (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )} + Máx{0, zy (p∗x , p∗y )}

= zx (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )} + zy (p∗x , p∗y ) Máx{0, zy (p∗x , p∗y )},

que por la ley de Walras es equivalente a

zx (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )} + zy (p∗x , p∗y ) Máx{0, zy (p∗x , p∗y )} = 0.

Si zx (p∗x , p∗y ) > 0 o zy (p∗x , p∗y ) > 0 se tiene que

zx (p∗x , p∗y ) Máx{0, zx (p∗x , p∗y )} + zy (p∗x , p∗y ) Máx{0, zy (p∗x , p∗y )} > 0;

por lo tanto, debe ser zx (p∗x , p∗y ) ≤ 0 o zy (p∗x , p∗y ) ≤ 0. Ahora, si

zi (p∗x , p∗y ) < 0 para algún i = x, y, tendríamos que pj > 0. Pero enton-
ces,
p∗x zx (p∗x , p∗y ) + p∗y zy (p∗x , p∗y ) < 0

contradiciendo la ley de Walras. Así, debe ser zx (p∗x , p∗y ) = 0 y zy (p∗x , p∗y ) =
0.
220 Capítulo 2. Optimización estática

42. (*) [Equivalencia entre equilibrios competitivos y puntos ﬁjos]. Ya sa-

bemos (teorema 29) que el teorema de punto ﬁjo de Brouwer garantiza
la existencia de un equilibrio competitivo. Pero lo que podría sorpren-
dernos ahora es que la aﬁrmación recíproca también es cierta. Veamos
esto:

Consideremos la siguiente versión del teorema de existencia de equili-

brios competitivos, y que, aquí, llamaremos EEW :
Teorema 30. [EEW (Nikaido, 1968)]
Pn
Sea ∆n = {p = (pj ) ∈ Rn+ | j=1 pj = 1} (simplex unitario en
Rn ), y sea Γ un subconjunto compacto y convexo de Rn+ . Supongamos,
además, que ϕ : ∆n → P (Γ) es una correspondencia semicontinua
superiormente (correspondencia de exceso de demanda) que envía cada
punto de ∆n en un subconjunto convexo no vacío de Γ, y que, también
p · x ≥ 0 para todo x ∈ ϕ(p) (Ley Walras). Entonces existe p∗ ∈ ∆n
tal que
ϕ(p∗ ) ≥ 0

Usawa (1962) ha probado que también es cierto el teorema recíproco:

Teorema 31. (Walras ⇒ Brouwer)
El teorema EEW implica el teorema de punto ﬁjo de Brouwer.

En efecto: sea f : ∆n → ∆n una función que satisface las hipótesis del

teorema de Brouwer (teorema 16). Para p ∈ △n deﬁnamos χ : ∆n →
∆n mediante la fórmula
f (p) · p
χ(p) = p − f (p)
kpk2
Dadas las hipótesis sobre f (·), esta función χ(·) satisface las condi-
ciones del teorema EEW, como el lector puede fácilmente comprobar.
En particular, note que la ley de Walras se satisface inmediatamente,
dado que p · χ(p) = 0 para todo p ∈ ∆n . Por lo tanto, existe p∗ ∈ △n
tal que χ(p∗ ) ≥ 0, que es
f (p∗ ) · p∗ ∗
p ≥ f (p∗ )
kp∗ k2
Pero, de hecho, por la ley de Walras, tenemos que
f (p∗ ) · p∗ ∗
p = f (p∗ )
kp∗ k2
2.10. Contexto económico 221

Y si en esta igualdad vectorial sumamos sus componentes, y recorda-

mos que p∗ y f (p∗ ) están en ∆n , entonces llegamos a que

f (p∗ ) · p∗
=1
kp∗ k2

por lo que, entonces, f (p∗ ) = p∗ , y esto demuestra el teorema de

Brouwer.

43. Calcule todos los equilibrios de Nash (puros y mixtos) de los siguientes
juegos en forma estratégica:

C D C D
a) A 1,1 2,0 b) A 3,2 1,7
B 0,2 4,4 B 1,1 4,1

44. (**)[Teorema de Frobenius (Parte II)] Existen varios resultados com-

plementarios al teorema de Frobenius (teorema 18). Son los siguientes:

a) Pruebe que si A ≥ B ≥ 0 entonces λ(A) ≥ λ(B). Aquí, A ≥ B

signiﬁca que si A = [aij ] y B = [bij ] entonces aij ≥ bij .
b) Pruebe que ρIn −A tiene inversa no negativa si, y sólo si, ρ > λ(A).
En particular, una matriz insumo-producto In − A tendrá inversa
no negativa si, y sólo si, el máximo autovalor de A es menor que 1.
Esta condición es, entonces, equivalente a las condiciones Hawkins-
Simon –volumen I (Álgebra lineal y cálculo en varias variables)–.
c) Pruebe, ﬁnalmente, que λ(A) = λ(AT ).

45. (**) Nótese la validez de los siguientes esquemas:

teorema de ⇒ teorema de ⇒ teorema de von Neumann

Minkowski minimax (crecimiento)

teorema de ⇔ teorema de ⇒ teorema de

Brouwer Kakutani minimax

¿Podría el lector ampliar este esquema utilizando los resultados del

presente capítulo? ¿Qué posibles conexiones entre resultados sugeriría
este esquema?
222 Capítulo 2. Optimización estática

46. (*) Complete los detalles presentados en la sección [Link] (Compor-

tamiento del productor racional (II): maximización del beneficio) con
respecto a la existencia de solución al problema central de maximiza-
ción de beneficios. [Sugerencia: observe abajo la gráfica de la función
π(x, y) = x1/2 y 1/3 − x − y que se toma a manera de ejemplo.]

x
π(x, y)

y
Figura 2.46. Gráfica de la función π(x, y) = x1/2 y 1/3 − x − y.
Parte IV

Elementos de sistemas
dinámicos

223
Capítulo 3

Sistemas dinámicos

3.1. Introducción
La gran importancia de las ecuaciones diferenciales (es decir, de las ecuacio-
nes que involucran derivadas) en el análisis matemático, se debe principal-
mente al hecho de que la investigación de muchos problemas concretos en
la física, en la tecnología, en la biología, y, en general, en las ciencias, pue-
den entenderse mediante la solución de tales ecuaciones. Numerosos cálculos
implicados en la construcción de maquinaria eléctrica, cómputos de trayec-
torias de proyectiles, estudios de la estabilidad de aeronaves en vuelo, pro-
cesos de una reacción química, diseño de artefactos electrónicos, evolución
de poblaciones, etc., se asimilan a la solución de ecuaciones diferenciales.
Esta teoría comenzó a desarrollarse a ﬁnales del siglo XVII, casi simultá-
neamente con la aparición del cálculo diferencial e integral de Newton y
Leibniz. Por ejemplo, del estudio de las ecuaciones diferenciales del mo-
vimiento de los cuerpos celestes, Newton dedujo las leyes del movimiento
planetario previamente descubiertas por Kepler de forma empírica. Pero, a
pesar de que herramientas como el cálculo de antiderivadas ofrecían cierta
ayuda directa, pronto se reconoció que el problema de encontrar soluciones
a estas ecuaciones con derivadas no era fácil. En particular, se encontró que
las manipulaciones y simpliﬁcaciones algebraicas apenas si servían en casos
muy especiales. Por esta razón, pioneros del siglo XVII como Fermat, New-
ton y Leibniz tuvieron que centrarse en casos concretos, y dejaron al siglo
posterior el desarrollo de técnicas y teorías más generales.

225
226 Capítulo 3. Sistemas dinámicos

A comienzos del siglo XVIII, Jacob Bernoulli escribía ecuaciones diferenciales

basadas en los principios newtonianos para estudiar el movimiento plane-
tario. También su hermano, Johann Bernoulli, modelaba fenómenos físicos
utilizando ecuaciones diferenciales y las resolvía. A su vez, Jacopo Riccati
en 1752 (Riccati, 1761) estudiaba un tipo de ecuación muy particular que
hoy lleva su nombre. Y así, a principios de ese siglo, aunque se había logrado
reunir una cierta cantidad de técnicas de solución de clases específicas de
ecuaciones, todavía no se tenía una teoría general.
Consolidar, generalizar y crear métodos nuevos y más poderosos para atacar
los problemas planteados en la solución de ecuaciones diferenciales fue el
trabajo de Leonhard Euler. Y una de las claves de su éxito fue el que Euler
entendió el papel que podría jugar el concepto de función. Utilizando sus
conocimientos sobre estas, desarrolló diversos procedimientos generales para
la solución de muchas clases de ecuaciones diferenciales. Su trabajo también
incluyó el uso de métodos numéricos para hallar soluciones aproximadas a
casi todo tipo de ecuaciones. Fue, en definitiva, el maestro constructor de
la futura teoría de las ecuaciones diferenciales.
Posteriormente vendrían otros matemáticos a refinar y extender las ideas
de Euler. En 1738, Daniel Bernoulli utilizaba los métodos de Euler para
estudiar oscilaciones mecánicas. También D’Alembert estudiaba y resolvía
ecuaciones diferenciales parciales a lo largo de la línea de Euler. Pero además,
Lagrange, Laplace y Fourier (entre muchos) reconocieron que, en esta área,
Euler era el maestro de todos.
A comienzos del siglo XIX, Gauss y Cauchy, basados en teoría y conceptos
de funciones con variable compleja, utilizaban las ecuaciones diferenciales
como palanca de entendimiento de la teoría de las órbitas planetarias, de la
teoría de la gravitación, y de la propagación de ondas sobre una superficie
líquida. También fue Cauchy quien, como consecuencia de los fundamentos
lógicos del cálculo diferencial, daría bases matemáticas sólidas a la teoría de
las ecuaciones diferenciales. Sobre los fundamentos aportados por Gauss y
Cauchy, discurrieron los trabajos de muchos matemáticos del siglo XIX.
Precisamente hacia mediados del siglo XIX aparecerían los problemas de
sistemas de ecuaciones diferenciales. El matemático alemán Carl G. Jaco-
bi [1804-1851] convirtió la teoría de determinantes y transformaciones li-
neales en una herramienta poderosa para resolver estos sistemas. También
A. Cayley, J.J. Sylvester y J. W. Gibbs, pioneros en el desarrollo de lo
que hoy llamamos álgebra lineal, propusieron (desde una perspectiva simi-
lar a la de Jacobi) diversos métodos lineales para la solución de problemas
3.2. Sistemas continuos en una dimensión 227

concretos en termodinámica, electromagnetismo, mecánica y astronomía,

que involucraban ecuaciones diferenciales.
Para finales del siglo XIX, se encontraron abundantes aplicaciones y desarro-
llos adaptados a estas, que requerían de avances teóricos más profundos. En-
tre otros, en 1876, el matemático alemán Rudolf Lipschitz (1876) estableció
algunos teoremas de existencia para soluciones de ecuaciones diferenciales
(capítulo 4), que le darían un aire de solidez teórica a esta importante área
del análisis matemático. De esta época data, precisamente, el origen de la
teoría de los sistemas dinámicos atribuida a Henri Poincaré (1892), y que
George Birkhoff (1927), en la primera mitad del siglo XX, establecería como
área específica de la teoría de las ecuaciones diferenciales.
Hoy en día, la teoría de las ecuaciones diferenciales y la teoría de los sistemas
dinámicos están en plena expansión y evolución.

3.2. Sistemas continuos en una dimensión

Debido a la novedad, variedad de herramientas, conceptos, y métodos, no
hay duda de que es precisamente la obra de Poincaré el punto de origen de
la teoría de los sistemas dinámicos. Desde el comienzo, Poincaré concibió
la teoría cualitativa y la estabilidad de las ecuaciones diferenciales con un
ojo puesto en la mecánica celestial y, en particular, en la estabilidad del
sistema solar (entendida como la estabilidad de trayectorias planetarias).
En su trabajo, Poincaré articuló temas centrales que ahora son de nuestro
interés aquí: la teoría cualitativa de las ecuaciones diferenciales (diagramas
de fase); y el estudio de la estabilidad global o local de las soluciones a través
de la noción de equilibrio.
Comenzamos entonces nuestro capítulo, deﬁniendo los sistemas dinámicos
(continuos) más elementales posibles: los sistemas en una dimensión.

Definición 1. (Sistema dinámico continuo en una dimensión)

Un sistema dinámico continuo en una dimensión es una ecuación diferencial
de la forma
ẋ(t) = f (x(t), t) (C1D)
donde t es la variable tiempo; x(t) : I → A es una trayectoria; ẋ(t) ≡ dx/dt;
f : A × I → R es una función diferenciable con continuidad; el conjunto
A ⊆ R es abierto, no-vacío; y I es un intervalo abierto de la forma (a, +∞),
donde a ∈ R ∪ {−∞}, o de la forma (−∞, a) donde a ∈ R ∪ {∞}.
228 Capítulo 3. Sistemas dinámicos

Definición 2. (¿Qué es resolver este sistema dinámico?)

Resolver un sistema dinámico continuo ẋ(t) = f (x(t), t) es encontrar todas
las posibles trayectorias x(t) que satisfagan esta ecuación. A cada una de
tales trayectorias x(t) se le conoce como una solución al sistema dinámico.

Ejemplo 1. (Sistema dinámico lineal fundamental)

El sistema

ẋ(t) = c x(t) (es decir, f (x, t) = c x, con c constante para todo t)

lo podemos resolver fácilmente mediante antiderivación1 , encontrando que

todas las soluciones x(t) tienen la forma

x(t) = kect para alguna constante k ∈ R

De hecho, observemos que k = x(0). A esta, por razones evidentes, se le

llama la condición inicial del sistema dinámico. De manera que todas las
soluciones al sistema dinámico lineal, tienen la forma (ﬁgura 3.1)

x(t) = x(0) ect t ∈ (−∞, ∞)

Claramente,

lı́m x(t) = 0 si c < 0 ; x(t) = x(0) si c=0

t→∞

lı́m x(t) = +∞ si c > 0 y x(0) > 0

t→∞

lı́m x(t) = −∞ si c > 0 y x(0) < 0

t→∞

x(t) x(t)

x(0) • x(0) •

t t
caso c > 0 caso c < 0
Figura 3.1. Soluciones al sistema ẋ(t) = cx(t) para x(0) > 0.

1
Volumen I (Álgebra lineal y cálculo en varias variables).
3.2. Sistemas continuos en una dimensión 229

Ejemplo 2. (Un sistema dinámico no-lineal)

El sistema
ẋ(t) = x(t)2 (es decir, f (x, t) = x2 para todo t)
también es fácil de resolver mediante la antiderivación.

x(t) x(t)
x(0) • t = −k

t t

t = −k • x(0)

caso k > 0 caso k < 0

Figura 3.2. Soluciones al sistema ẋ(t) = x(t)2 .

dx dx R dx R
Puesto que, aquí, = x2 entonces, si x 6= 0, 2 = dt, y así, = dt,
dt x x2
y, por lo tanto, −x−1 = t + k para algún k ∈ R. Luego, todas las soluciones
x(t) (ﬁgura 3.2) tienen la forma
1
x(t) = − para algún k ∈ R; ó x(t) = 0 para todo t
t+k
donde la condición inicial, para las soluciones del primer tipo, es x(0) =
−1/k si k 6= 0. En cualquier caso, notemos que lı́mt→∞ x(t) = 0.
Ejemplo 3.
Es fácil observar, mediante una aplicación directa de antiderivación, que el
sistema
ẋ(t) = t (es decir, f (x, t) = t para todo x)
tiene como soluciones
t2
x(t) = +k para alguna constante k ∈ R
2
donde la condición inicial es x(0) = k. Notemos que siempre se tiene que
lı́mt→∞ x(t) = +∞ (ﬁgura 3.3).
230 Capítulo 3. Sistemas dinámicos

x(t)

x(0)
•
t

Figura 3.3. Solución al sistema dinámico ẋ(t) = t.

Ahora: al estudiar un sistema dinámico, podrían aparecer ciertas soluciones

muy particulares que ayudan a entender este movimiento. A estas, la física
siempre las ha llamado “equilibrios”, y la teoría de las ecuaciones diferen-
ciales y, en particular, la de los sistemas dinámicos, también ha adoptado
este nombre.

Definición 3. (Punto de equilibrio)

Un punto x∗ ∈ A es un punto de equilibrio (o estacionario)2 del sistema
dinámico continuo ẋ(t) = f (x(t), t) si, y sólo si, f (x∗ , t) = 0 para todo t.

Es decir, x(t) = x∗ para todo t ∈ I es una solución que, al satisfacer ẋ(t) = 0

para todo t, el sistema dinámico, una vez alcanzado el punto x∗ , permanecerá
allí por siempre.

Ejemplo 4.
a) Para el sistema dinámico ẋ(t) = c x(t), el único punto de equilibrio, si
c 6= 0, es x∗ = 0.

b) Para el sistema dinámico ẋ(t) = x(t)2 , el único punto de equilibrio es

también x∗ = 0.

c) Para el sistema dinámico ẋ(t) = cx(t) + b, el único punto de equilibrio,

con c 6= 0, es x∗ = −b/c .

d) El sistema dinámico ẋ(t) = x(t)2 + 1 no tiene equilibrios. De hecho,

mediante antiderivación es fácil mostrar que la solución general es de la
forma x(t) = tan(t + k) para k ∈ R.

e) Para el sistema dinámico ẋ(t) = x(t)2 − 1, los equilibrios son x∗ = 1,

x∗ = −1 (múltiples equilibrios). Mediante antiderivación se puede mos-
trar que, además de x∗ = 1 y x∗ = −1, todas las soluciones están dadas
2
También llamado punto fijo.
3.2. Sistemas continuos en una dimensión 231

por las funciones

1 + e2t+k
x(t) =
1 − e2t+k
para algún k ∈ R. Note que
lı́m x(t) = −1, lı́m x(t) = 1 N
t→∞ t→−∞

El siguiente teorema aﬁrma que, en general, todo sistema dinámico en una

dimensión (bajo las condiciones de la definición 1) tiene solución única,
aunque sólo sea “local”, es decir, en un intervalo alrededor de un “tiempo”
t0 ∈ I:
Teorema 1. [Existencia y unicidad local de soluciones (Lipschitz,
1876)]
Si x0 ∈ A y t0 ∈ I, entonces existe una única solución x(t) al sistema
dinámico ẋ(t) = f (x, t), definida en un intervalo abierto alrededor de t0
donde x(t0 ) = x0 .
Demostración.
Ver teorema 13 (teorema de Picard), capítulo 4 (introducción a la optimi-
zación dinámica).
Ejemplo 5.
Por ejemplo, la solución local de ẋ(t) = x(t)2 para t = 0 con x0 = 1 es
1
x(t) = − . Esta solución no es global, es decir, no está definida en todo
t−1
(−∞, ∞), pero sí en (−1, 1) que es un intervalo abierto alrededor de t = 0.

3.2.1. Diagramas de fase

Por deﬁnición, resolver un sistema dinámico ẋ(t) = f (x(t), t) es encontrar
sus soluciones x(t). El primer método para lograr esto es el analítico: encon-
trar soluciones explícitas al sistema como hemos hecho en todos los ejemplos
hasta ahora propuestos. La diﬁcultad es que esto no siempre es posible, pues
depende de qué tan simple sea la función f (x(t), t). El segundo método es
el cualitativo: trazar descripciones de las soluciones sin tener expresiones
explícitas de estas. Este método se conoce como el de diagramas de fase del
sistema dinámico. Desafortunadamente, sólo es posible aplicarlo convenien-
temente cuando el sistema es “autónomo”.
Definición 4. (Sistema dinámico autónomo)
Un sistema dinámico ẋ(t) = f (x(t), t) es autónomo si, y sólo si, f (x(t), t) =
f (x(t)) para todo t ∈ I.
232 Capítulo 3. Sistemas dinámicos

Es decir, f (·, ·) no depende explícitamente de t; en otro caso, lo llamaremos

no-autónomo. Notemos que los sistemas dinámicos de los ejemplos 1 y 2
son autónomos, mientras que el del ejemplo 3 es no-autónomo. Ahora: para
describir gráficamente el sistema autónomo ẋ(t) = f (x(t)) mediante un
diagrama de fase, simplemente dibujamos la función f (·) en un diagrama x
vs f (x) (= ẋ). Así, valores positivos de f (·) corresponden a valores positivos
de ẋ, y esto significa que x(·) es una función creciente.
Para indicarlo en la gráfica, dibujamos flechas en el sentido de t creciente. De
la misma forma, valores negativos de f (·) corresponden a valores negativos
de ẋ y, por tanto, x(·) es una función decreciente de t; y para indicarlo,
dibujamos flechas en el sentido de t decreciente. Claramente, los puntos de
equilibrio serán las intersecciones de f (·) con el eje X, es decir, cuando
f = 0. Así, encontramos que las flechas señalan la dirección en que x(t)
se mueve en el tiempo, y esto nos da una solución cualitativa del sistema
dinámico.

Ejemplo 6.
Al tratar de construir el diagrama de fase del sistema dinámico del ejemplo 1,
ẋ(t) = cx(t), c 6= 0, distinguimos dos casos: (a) c > 0, (b) c < 0. Notamos
entonces (bajo la condición k 6= 0) que si c > 0 tendremos x(t) → ∞ cuando
t → ∞ (caso a)); y que si c < 0, entonces x(t) → 0 cuando t → ∞ (caso b))
(ﬁgura 3.4). Recordemos que, en este ejemplo, las soluciones explícitas son
de la forma x(t) = kect para k ∈ R.

ẋ ẋ

• •
x x

caso c > 0 caso c < 0

Figura 3.4. Diagramas de fase del sistema dinámico ẋ(t) = cx(t), con c 6= 0.

Pero también podemos describir un sistema dinámico con un diagrama de

fase unidimensional que es, sin duda, más sencillo. La técnica consiste aquí
en que si x = x∗ es un equilibrio del sistema dinámico autónomo ẋ(t) = f (x),
entonces se estudian los signos de f (x) cuando x es un poco mayor que x∗ , y
3.2. Sistemas continuos en una dimensión 233

cuando es un poco menor que x∗ . Si el signo es positivo, entonces ẋ > 0, es

decir, x crece, y las flechas irán hacia la derecha; y si es negativo, entonces
ẋ < 0, es decir, x decrece, y las flechas irán hacia la izquierda. Por ejemplo,
en lugar de las gráficas bidimensionales de la figura 3.4, podríamos dibujar,
respectivamente, los diagramas unidimensionales de la figura 3.5, que son
equivalentes y más simples.

•
0
•
0
Figura 3.5. Diagramas de fase unidimensionales para ẋ(t) = cx(t), c 6= 0.

Ejemplo 7.
Para construir los diagramas de fase del sistema dinámico definido por
ẋ(t) = x(t)2 −1, primero escribamos el sistema así: ẋ = x2 −1 = (x−1)(x+1).
Por lo tanto, los puntos de equilibrio son x∗ = 1 y x∗ = −1. El diagrama
de fase correspondiente es el de la figura 3.6: si x > 1 entonces x2 − 1 > 0
y las flechas se dirigen hacia la derecha; si −1 < x < 1 entonces x2 − 1 < 0
y las flechas se dirigen a la izquierda; y si x < 1 entonces x2 − 1 > 0 y las
flechas se dirigen hacia la derecha.
ẋ

• • • •
−1 1 x x∗ = −1 x∗ = 1

Figura 3.6. Diagramas de fase del sistema ẋ(t) = x(t)2 − 1.

3.2.2. Estabilidad
Uno de los principales objetivos de los sistemas dinámicos es estudiar el
comportamiento de sus soluciones cerca de un punto de equilibrio. Esto
constituye la llamada teoría de la estabilidad. Quizás no sobre resaltar aquí
234 Capítulo 3. Sistemas dinámicos

que la importancia del concepto de estabilidad para sistemas dinámicos

radica en el hecho de que en los cálculos implicados en la construcción
de una máquina eléctrica, o en el estudio del vuelo de aeronaves, o de un
proceso químico, etc., la dinámica sea o no estable determina en gran parte
el éxito o fracaso del proceso analizado. La deﬁnición básica de estabilidad
para sistemas dinámicos es la siguiente:

Definición 5. (Estabilidad)

i) Diremos que el punto de equilibrio x∗ del sistema dinámico ẋ(t) =

f (x(t), t) es estable si dado ǫ > 0 existen δ > 0 y t0 > 0 tales que
|x(t0 ) − x∗ | < δ implica |x(t) − x∗ | < ǫ para todo t > t0 . En otro caso,
diremos que x∗ es inestable (o no estable) (ﬁgura 3.7).

ii) Diremos que el punto de equilibrio x∗ del sistema dinámico ẋ(t) =

f (x(t), t) es asintóticamente estable (o atractor) si es estable, y si
lı́mt→∞ x(t) = x∗ (ﬁgura 3.7).

Es decir, un equilibrio es estable si cuando una solución comienza cerca de

este equilibrio, permanecerá siempre cerca de él. Y, de la misma forma, este
equilibrio es asintóticamente estable si cuando una solución comienza cerca
de este, entonces convergerá allí.3 Determinar la estabilidad de un equili-
brio mediante esta definición puede ser complicado. Por ejemplo, puede ser
que no sea posible encontrar las soluciones explícitamente. En el caso de los
sistemas de una dimensión no es, sin embargo, muy complicado establecer-
lo utilizando los diagramas de fase; el siguiente teorema confirma nuestra
intuición dentro del gráfico cualitativo de los sistemas autónomos.

Teorema 2. (Criterio de estabilidad para sistemas autónomos)

Sea x∗ un punto de equilibrio del sistema dinámico autónomo ẋ(t) = f (x(t)).
Entonces (ﬁgura 3.7):

i) Si f ′ (x∗ ) < 0, entonces x∗ es asintóticamente estable.

ii) Si f ′ (x∗ ) > 0, entonces x∗ es inestable.

iii) Si f ′ (x∗ ) = 0, el criterio no permite decidir.

3
Existe también la noción de estabilidad asintótica global, significando esto que la
condición de estabilidad asintótica lı́mt→∞ x(t) = x∗ se cumple, independientemente de
la condición inicial x(t0 ). A la condición ii) de arriba, se le acostumbra entonces llamar
estabilidad asintótica local.
3.2. Sistemas continuos en una dimensión 235

ẋ

• • • • •
x1 x2 x3 x4 x5 x

Figura 3.7. Ejemplos de puntos de equilibrio estables e inestables. Los puntos de

equilibrio x1 y x5 son asintóticamente estables y se tiene f ′ (x1 ) = 0 y f ′ (x5 ) < 0. Los
puntos de equilibrio x2 , x3 , x4 son inestables con f ′ (x2 ) = f ′ (x4 ) = 0 y f ′ (x3 ) > 0.

Demostración.

i) La idea intuitiva es que si f ′ (x∗ ) < 0, entonces f (·) es positiva para

x < x∗ pero suficientemente cercana a x∗ , y negativa para x > x∗ pero
suficientemente cercana a x∗ ; luego, un poco a la izquierda de x∗ , x
crece; y un poco a la derecha de x∗ , decrece. Esto es suficiente para
garantizar que x∗ es asintóticamente estable.

ii) Garantizar que si f ′ (x∗ ) > 0, entonces x∗ es inestable, es similar a lo

que hicimos en i).
iii) Que si f ′ (x∗ ) = 0 el criterio no permite decidir, lo vemos en los casos
f (x) = x2 y f (x) = x3 en x∗ = 0.

Ejemplo 8.

a) En el ejemplo 6, tenemos que f (x) = c x; luego f ′ (x) = c y así:

i) Si c < 0, entonces x∗ = 0 es asintóticamente estable.

ii) Si c > 0, entonces x∗ = 0 es inestable (ﬁgura 3.4).

b) En el ejemplo 4, tenemos que f (x) = x2 − 1; luego f ′ (x) = 2x y el

comportamiento de los equilibrios, x∗ = 1, x∗ = −1, es:

i) Como f ′ (−1) = 2(−1) < 0, entonces x∗ = −1 es asintóticamente

estable.
ii) Como f ′ (1) = 2(1) > 0, entonces x∗ = 1 es inestable (ﬁgura 3.6).
236 Capítulo 3. Sistemas dinámicos

Ejemplo 9.
Determinemos los puntos de equilibrio de ẋ(t) = x(x − 1)(2 − 3x), y apli-
quemos el teorema 2 para establecer su estabilidad (ﬁgura 3.8). En primer
lugar, tenemos que los puntos de equilibrio son x∗ = 0, x∗ = 1 y x∗ = 23 .
Además,
f ′ (x) = (x − 1)(2 − 3x) + x(2 − 3x) − 3x(x − 1)
ẋ

• • • • • •
0 2/3 1 x 0 1
2/3

Figura 3.8. Diagramas de fase del sistema ẋ(t) = x(x − 1)(2 − 3x)

a) Como f ′ (0) = −2 < 0, entonces x∗ = 0 es asintóticamente estable.

2 2 2
b) Como f ′ 3 = 3 > 0, entonces x∗ = 3 es inestable.

c) Como f ′ (1) = −1 < 0, entonces x∗ = 1 es asintóticamente estable.

Los diagramas de fase de la ﬁgura 3.8 corroboran a), b) y c).

Ejemplo 10. (Desintegración radiactiva)

La ley de la desintegración radiactiva del elemento químico radio aﬁrma
que la tasa de desintegración es proporcional a la cantidad inicial de radio
presente. Para averiguar la cantidad de radio presente en cualquier tiempo
t posterior, notamos primero que si R(t) es la cantidad de radio no desinte-
grado en el tiempo t, entonces −Ṙ es la tasa de desintegración, y como esta
es proporcional a R, entonces la ecuación de desintegración es

−Ṙ = cR donde c > 0 es una constante conocida.

y ya sabemos que la solución a este sistema dinámico en una dimensión es

R(t) = R(0) e−ct

donde R(0) es la cantidad presente de la sustancia química al comienzo del

proceso.
3.2. Sistemas continuos en una dimensión 237

Nota 1.
Esta ley de la desintegración no sólo la satisfacen los fenómenos radiactivos.
Por ejemplo, se encuentra la misma ley en el estudio del enfriamiento, donde
la tasa de decrecimiento del calor de un objeto físico es proporcional a la
diferencia entre la temperatura del cuerpo y la temperatura del medio que
lo rodea.

Ejemplo 11. [Datación por carbono radiactivo (Libby, 1955)]

Si un hueso fósil tiene el 30 % de la cantidad original de carbono 14 (6 C 14 ),
¿cuál es su antigüedad?

En la atmósfera, la proporción del carbono radiactivo 6 C 14 y el carbón

común es constante, lo cual se cumple también para los organismos vivos.
Cuando un organismo muere, cesa la absorción de 6 C 14 al respirar y al
alimentarse. Por tanto, la edad de un fósil puede estimarse comparando la
proporción de carbono presente en el fósil con el de la atmósfera. Esta es
la idea de Datación por carbono radiactivo de W. Libby (Premio Nobel de
Química en 1910).
La vida media del carbono 14 es de 5,730 años4 y el modelo que rige la
cantidad de carbono 14 en un fósil es ẏ(t) = cy(t) para todo tiempo t.
Sabemos que la solución a esta ecuación es y(t) = y(0) ect , donde y(0) > 0
es la cantidad original de 6 C 14 . Puesto que, por deﬁnición de vida media,
1
y(0)e(5,730)c = y(0)
2
entonces c = − 0.000121. Finalmente, el tiempo después del cual el 30 % de
la cantidad original de 6 C 14 sigue presente, se calcula así:
30
y(0)e(−0.000121)t = y(0)
100
y, de allí, t = 9, 950 años, que es la antigüedad del hueso, según este modelo.

Ejemplo 12. (Ley de Torricelli)

Los experimentos de Evangelista Torricelli [1608-1647] (un discípulo de Ga-
lileo) indican que el agua sale por el oriﬁcio inferior de un tanque cilíndrico
(como el de la ﬁgura 3.9) con una velocidad
A√
ḣ = −26.56 h (*)
B
4
La vida media es el tiempo después del cual la sustancia radiactiva 6 C 14 ha disminuido
a la mitad su valor original.
238 Capítulo 3. Sistemas dinámicos

donde h(t) es al altura del agua arriba de oriﬁcio en el tiempo t, B es el

área de la base circular del tanque, y A es el área del orificio. El coeficiente
√
que aparece en la ecuación es igual a 0.6 2g, donde 0.6 es un “factor de
contracción” debido a que el flujo tiene una sección transversal menor que
el orificio y g = 980 cm/s2 es la aceleración de la gravedad en la superficie
terrestre. Para calcular la altura del agua h(t) en cualquier momento t, no-
temos que este sistema dinámico tiene como único equilibrio h∗ = 0 (tanque
vacío) y, mediante antiderivación, se encuentra que su solución es

A
h(t) = h(0) − 13.28 t
B
donde h(0) es la altura inicial del nivel del agua. ¿Será h∗ = 0 asintóticamen-
te estable? Es decir, ¿Si el tanque está vacío y lo llenamos con un poco de
agua, se vaciará de nuevo eventualmente? Bastaría que el lector se conven-
ciera de su respuesta observando el diagrama de la ﬁgura 3.9. Pero podemos
también aplicar el teorema 2 y, derivando el lado derecho de la ecuación
(∗) con respecto a h y evaluando en valores positivos cercanos a h∗ = 0,
obtendremos siempre valores negativos, mostrando que este equilibrio es, en
efecto, asintóticamente estable.

h(t)

salida del agua

Figura 3.9. Ley de Torricelli.

Ejercicios 1
1. Tomando los sistemas dinámicos de los ejemplos 6 y 7, compare el
comportamiento de sus soluciones explícitas que aparecen en un grá-
ﬁco t vs. x(t), con el el correspondiente diagrama de fase unidimen-
sional del sistema dinámico; es decir, justiﬁque la descripción de cada
diagrama, en términos del otro.
2. Compruebe, mediante antidiferenciación, que todas las soluciones del
sistema dinámico
ẋ(t) = cx(t) + b, c 6= 0
3.2. Sistemas continuos en una dimensión 239

tienen la forma x(t) = kect − (b/c).

3. a) Compruebe, mediante antidiferenciación, que todas las soluciones

del sistema dinámico

ẋ(t) = c(t)x(t) + b(t)

tienen la forma
R Z R
c(t)dt − c(t)dt
x(t) = e k+ b(t)e dt , k∈R

b) Con la fórmula anterior, calcule las soluciones generales del sistema

dinámico
2
ẋ(t) = − x(t) + 5t2
t
c) Calcule también las soluciones del sistema dinámico
2
ẋ(t) = x(t) − t
t

4. Para los sistemas dinámicos b) y c) del ejercicio anterior, encuentre, si

existe, la solución que satisfaga x(1) = 5. ¿Es esta una solución global
o local?

5. Dibuje los diagramas de fase unidimensionales de los siguientes siste-

mas dinámicos autónomos:

a) ẋ = µ x (1 − x) con µ > 0 (ecuación logística)

b) ẋ = axβ + bx 0 < b < 1, a 6= 0, β > 0

c) ẋ = ax3 ; a 6= 0 d) ẋ = ln(x − 1)
2
e) ẋ = 2 + sen x f) ẋ = x 3

6. Estudie el comportamiento de estabilidad de los equilibrios (si existen)

de los sistemas dinámicos autónomos del ejercicio anterior.

7. Resuelva explícitamente mediante antidiferenciación, encuentre los equi-

librios y analice la estabilidad con su correspondiente diagrama de fase,
en cada uno de los siguientes casos:
240 Capítulo 3. Sistemas dinámicos

√
a) ẋ + (t + 1)x3 = 0 b) ẋ = − 1 − x

c) ẋ = x2 sen t d) ẋ = e2t cos x

1 x x
e) ẋ = 3x 2 − f) ẋ =
2 t
8. Suponga que la población de la Tierra cambia a una rapidez propor-
cional a la población actual, y asuma que en cierto instante t = 0 de
la historia, la población era de 600 millones; y que 300 años después
la población era de 2,800 millones. Encuentre la población de la Tie-
rra para el año 2020. Si se supone que la Tierra puede sostenerse a sí
misma con 2.5 × 1010 habitantes, ¿cuándo alcanzaría este límite?

3.3. Sistemas continuos en dos dimensiones

En esta sección ampliamos la discusión a los sistemas dinámicos continuos
planares; es decir, en dos dimensiones. Y aunque las técnicas de análisis
varían, los conceptos centrales se mantienen. Veamos esto.
Definición 6. (Sistema dinámico continuo en dos dimensiones)
Un sistema dinámico continuo en dos dimensiones es un par de ecuaciones
diferenciales de la forma
ẋ(t) = f (x(t), y(t), t)
(C2D)
ẏ(t) = g(x(t), y(t), t)
dx dy
donde t es la variable tiempo, ẋ(t) = , ẏ(t) = , f : A × I −→ R,
dt dt
g : A × I −→ R son funciones diferenciables con continuidad, A ⊆ R2
abierto no vacío, e I un intervalo abierto de la forma (a, +∞) con a ∈
R ∪ {−∞}, o de la forma (−∞, a) con a ∈ R ∪ {∞}.
Definición 7. (¿Qué es resolver este sistema dinámico?)
Resolver el sistema dinámico en dos
dimensiones (C2D) es encontrar todas
las trayectorias posibles x(t), y(t) que satisfagan, simultáneamente, las

dos
ecuaciones diferenciales. A cada una de estas trayectorias x(t), y(t) se le
conoce como una solución del sistema dinámico.
Ejemplo 13. (Sistema dinámico lineal fundamental)
El sistema lineal, para a11 , a12 , a21 , a22 ∈ R,
ẋ = a11 x + a12 y
ẏ = a21 x + a22 y
3.3. Sistemas continuos en dos dimensiones 241

(es decir, f (x, y) = a11 x + a12 y, g(x, y) = a21 x + a22 y son funciones lineales)
será estudiado en detalle más adelante. Por ahora, sin embargo, y a guisa
de ejemplo, el lector podría mostrar que las trayectorias