Tema 7
Tema 7
Universidad de Córdoba
Dpto. Informática y Análisis Numérico
[email protected]
Contenido
A. Formas cuadráticas 19
A.1. Definición de forma cuadrática . . . . . . . . . . . . . . . . . . . . . . . . . 19
A.2. Clasificación de formas cuadráticas reales . . . . . . . . . . . . . . . . . . . 20
Extremos de funciones de varias variables reales
7
SECCIÓN 7.1
En este tema estudiaremos técnicas para hallar los valores extremos de una función
de varias variables reales.
Para fijar ideas, sea u una variable que puede obtenerse a partir de las variables inde-
pendientes x1 , x2 , . . . , xn mediante la función u = f (x1 , . . . , xn ). En tal caso es frecuente
que interese saber qué valores de las variables independientes x1 , . . . , xn proporcionan el
valor óptimo de u; donde por “óptimo” suele entenderse el valor “máximo” o el “mı́nimo”,
según los casos. Ası́, por ejemplo, es evidente que interesa “maximizar” variables como
el rendimiento, el beneficio, la calidad, . . . y que interesa “minimizar” variables como el
tiempo requerido en la producción, el coste total, el porcentaje de fallos, . . . . Además
de estos ejemplos, que aparecen constantemente en la Industria y la Ingenierı́a Quı́mica,
se pueden plantear muchos otros problemas donde el objetivo sea “optimizar” cierta va-
riable fı́sico–quı́mica como la concentración, el volumen, la presión, la temperatura, . . . .
Otro ejemplo práctico, denominado el “método de mı́nimos cuadrados” (introducido por
Gauss) consiste en calcular los parámetros de cierta función teórica que mejor se ajustan
a los datos experimentales, en el sentido de que minimicen la suma de cuadrados de las
diferencias entre cada valor real y el correspondiente valor teórico (ajustado según el mo-
delo dado). De esta forma se calcula, por ejemplo, la recta de regresión y = mx + b que
mejor se ajusta a una nube de puntos {(xi , yi ), i = 1, . . . , n}.
Todos los problemas antes aludidos, una vez planteados matemáticamente (lo que
permite ignorar el significado “real” de cada variable), consisten en hallar los puntos
(a1 , a2 , . . . , an ) donde la función u = f (x1 , x2 , . . . , xn ) alcanza un mı́nimo (resp. máximo);
es decir, donde se cumple:
f (a1 , . . . , an ) ≤ f (x1 , . . . , xn ) (resp. f (a1 , . . . , an ) ≥ f (x1 , . . . , xn )).
1
Tema 7. Extremos de funciones de varias variables reales 2
para todo (x, y) en una región R se conoce como mı́nimo absoluto y máximo absoluto de
f , respectivamente, en la región R.
Como en el cálculo para funciones de una variable, distinguimos entre extremos abso-
lutos y extremos relativos.
Definición 7.2 Sea f una función definida en una región R que contiene en su interior
al punto (x0 , y0 ).
Figura 7.1: Extremos relativos para una función de dos variables reales
en R, además de hallar los extremos relativos en (0, 3) × (0, 2) \ {(2, 1)} (siguiendo los
pasos que veremos a continuación), deberemos evaluar la función f en la frontera de R y
en el punto (2, 1).
El objetivo de este tema es intentar localizar los extremos relativos de f , para lo cual,
investigamos los puntos en los que su gradiente es cero o no está definido. LLamamos a
tales puntos, puntos crı́ticos.
∂f
1. (a1 , a2 , . . . , an ) = 0 para todo i = 1, 2, . . . n.
∂xi
2. Algunas de las derivadas parciales (o todas) no existen.
Definición 7.4 Sea f definida en una región abierta R conteniendo el punto (x0 , y0 ).
Decimos que (x0 , y0 ) es un punto crı́tico de f si se verifica una de las afirmaciones si-
guientes:
1. fx (x0 , y0 ) = 0 y fy (x0 , y0 ) = 0.
2. fx (x0 , y0 ) ó fy (x0 , y0 ) no existen.
entonces toda derivada direccional en (x0 , y0 ) ha de ser cero. Eso implica que la función
tiene un plano tangente horizontal en el punto (x0 , y0 , z0 ). Salta a la vista que ese punto
es candidato a que haya en él un extremo. Además el plano tangente en este punto es
z = z0 (horizontal).
Figura 7.2: Extremos relativos para una función de dos variables reales: Plano z = z0
SECCIÓN 7.2
y negativos.
Si la función es sencilla mediante consideraciones geométricas podemos averiguar si
los puntos crı́ticos obtenidos son extremos o no. Para funciones más complicadas, los
argumentos algebraicos no son tan útiles, y dependemos de los medios más analı́ticos que
se introducen en el siguiente criterio de las derivadas parciales segundas. Este es el criterio
que en dos o más variables corresponde al criterio de la derivada segunda para funciones
de una variable.
SECCIÓN 7.3
Como es sabido, el estudio de extremos relativos para funciones de una variable (deri-
vables al menos dos veces) puede efectuarse sin dificultad a partir del desarrollo de Taylor
en torno a cada punto crı́tico. Lo cual motiva a usar el mismo método con funciones
de varias variables. En este caso, los términos de segundo orden constituyen una forma
cuadrática; lo que hará que nuestro problema se reduzca a clasificarla como definida posi-
tiva (originando entonces un mı́nimo relativo estricto), como definida negativa (tratándose
entonces de un máximo relativo estricto) o como indefinida (en los puntos de silla). Pero
antes de ver el criterio que nos da la condición suficiente, definamos lo que se entiende
por matriz hessiana de una función.
o
Definición 7.5 Dada f : D ⊂ Rn −→ R y ~a ∈D, se denomina matriz hessiana de f en
~a, a la matriz de las derivadas parciales de segundo orden
fx1 x1 (~a) fx1 x2 (~a) · · · fx1 xn (~a)
fx x (~a) fx x (~a) · · · fx x (~a)
2 1 2 2 2 n
Hf (~a) =
. .
.
fxn x1 (~a) fxn x2 (~a) · · · fxn xn (~a)
Teorema 7.2 Sea una función f con derivadas parciales primeras y segundas continuas
en una región abierta que contiene un punto (a, b) para el que fx (a, b) = 0 y fy (a, b) = 0.
Para determinar si en dicho punto hay un extremo relativo de f , definimos la cantidad
(es decir, el determinante de la denominada matriz hessiana de f en el punto)
fxx (a, b) fxy (a, b)
|Hf (a, b)| = fxx (a, b)fyy (a, b) − [fxy (a, b)]2 =
fyx (a, b) fyy (a, b)
1. Si |Hf (a, b)| > 0 y fxx (a, b) > 0, entonces hay un mı́nimo relativo estricto en (a, b).
2. Si |Hf (a, b)| > 0 y fxx (a, b) < 0, entonces hay un máximo relativo estricto en (a, b).
3. Si |Hf (a, b)| < 0, entonces hay un punto de silla en (a, b).
4. Si |Hf (a, b)| = 0, el criterio no nos da información.
∂ 2f
1
f (a + h, b + k) − f (a, b) = h2 2 (a + θh, b + θk)
2 ∂x
∂ 2f ∂ 2f
+2hk (a + θh, b + θk) + k 2 2 (a + θh, b + θk)
∂x∂y ∂y
Ahora bien como las derivadas parciales segundas son continuas en (a, b), el signo de
éstas en un entorno de dicho punto coincide con el signo de sus respectivas derivadas
parciales segundas en (a, b). Ası́, el signo de
f (a + h, b + k) − f (a, b)
de manera que aplicando el criterio de Sylvester (para el caso de una función de dos
variables reales) se tiene que:
1. Si |Hf (a, b)| > 0 y fxx (a, b) > 0, la forma cuadrática es definida positiva ⇒ f (a +
h, b + k) − f (a, b) > 0 para valores no nulos de h y k suficientemente pequeños, con
lo cual tenemos un mı́nimo relativo estricto en (a, b).
2. Si |Hf (a, b)| > 0 y fxx (a, b) < 0, la forma cuadrática es definida negativa ⇒ f (a +
h, b + k) − f (a, b) < 0 para valores no nulos de h y k suficientemente pequeños, con
lo que entonces hay un máximo relativo estricto en (a, b).
3. Si |Hf (a, b)| < 0, la forma cuadrática es indefinida, entonces arbitrariamente cerca
de (a, b, f (a, b)) sobre la superficie z = f (x, y) hay puntos por arriba y por abajo
de (a, b, f (a, b)). Por tanto la función f tiene un punto de silla en (a, b) y no es ni
máximo ni mı́nimo.
4. Si |Hf (a, b)| = 0, estamos en un caso dudoso, con lo que el criterio no nos da
información.
Este teorema se puede extender para funciones de tres variables reales. Hemos visto
cómo para funciones de dos variables, la existencia de extremo dependı́a de la conservación
del signo de la forma cuadrática binaria en h y k:
Para el caso de funciones de tres variables f (x, y, z) con derivadas segundas continuas y no
simultáneamente nulas en el punto (a, b, c), la existencia de extremo dependerá también
de la conservación del signo de la forma cuadrática ternaria en h, k y l:
Teorema 7.3 Si una función f (x, y, z) tiene derivadas segundas continuas y no simultánea-
mente nulas en el punto (a, b, c) de una región abierta R y en dicho punto es fx = fy =
fz = 0, para determinar si en dicho punto hay un extremo relativo de f , definimos las
cantidades:
fxx (a, b, c) fxy (a, b, c) fxz (a, b, c)
H3 (a, b, c) = fyx (a, b, c) fyy (a, b, c) fyz (a, b, c)
fzx (a, b, c) fzy (a, b, c) fzz (a, b, c)
Entonces:
4. Si H1 (a, b, c)H3 (a, b, c) < 0, la función tiene un punto de silla en (a, b, c).
Ejemplo: Hallar los extremos de la función f (x, y) = x3 − 3axy + y 3 según los valores de
a.
Como f es diferenciable, calculamos fx y fy :
fx (x, y) = 3x2 − 3ay fx (x, y) = 3x2 − 3ay = 0 ⇒ x2 − ay = 0
⇒
fy (x, y) = 3y 2 − 3ax fy (x, y) = 3y 2 − 3ax = 0 ⇒ y 2 − ax = 0
x(x3 − a3 ) = 0 ⇒ x = 0 ó x = a
Si a = 0, P1 = (0, 0).
0 0
H(0, 0) = = 0,
0 0
0 −3a
H(0, 0) = = −9a2 < 0 ,
−3a 0
de donde P2 = (0, 0) es un punto de silla.
b) En el punto P3 = (a, a), el hessiano viene dado por
6a −3a
H(a, a) = = 27a2 > 0 .
−3a 6a
Luego si a > 0, al ser fxx (a, a) = 6a > 0, en el punto P3 se alcanza un mı́nimo
relativo, mientras que si a < 0, como fxx (a, a) = 6a < 0, en el punto P3 se
alcanza un máximo relativo.
Nota: Aplicando el criterio de Sylvester para clasificar formas cuadráticas en Rn se puede
extender fácilmente la condición suficiente de extremos para funciones de n variables.
SECCIÓN 7.4
siendo 1 ≤ k < n.
Siempre que sea factible, interesa usar las ligaduras para despejar k variables ex-
presándolas en función de las n − k variables restantes. Haciendo estas sustituciones en la
función u, el problema se reduce a calcular los extremos (ya sin ligaduras) de una función
de n − k variables. Para poder hacer esto hay que asegurarse que se verifica el teorema de
la función implı́cita. En concreto, reordenado las variables si es preciso, podemos suponer
que las k últimas variables xn−k+1 , xn−k+2 , . . . , xn−1 , xn dependen de las n − k primeras,
que son ası́ las únicas variables independientes. Para hacer patente este hecho cambiamos
la notación de las variables escribiendo:
y1 = xn−k+1
y2 = xn−k+2
··· ······
yk = xn
que se resuelve según hemos visto en las preguntas anteriores del tema.
En la resolución práctica de este problema hay dos situaciones bien diferentes que se
nos pueden plantear:
yj = yj (x1 , x2 , . . . , xn−k ), j = 1, 2, . . . , k.
Pero muchas veces es complicado o imposible despejar k variables de las ligaduras, por
lo que resulta inviable el método descrito. Otras veces, aún pudiéndose eliminar dichas
variables, el problema de extremos da lugar a ecuaciones difı́ciles de resolver. O bien el
calculo efectuado con las funciones implı́citas, suele resultar bastante largo y engorroso.
Para solventar esta situación vemos a continuación un nuevo método introducido por
Lagrange (en un conocido trabajo suyo sobre Mecánica, realizado cuando contaba sólo 19
años de edad).
Comenzamos con un problema simple de optimización con ligaduras. Supóngase que
queremos hallar el rectángulo de área máxima que puede inscribirse en una elipse
x2 y 2
+ =1
9 16
Sea (x, y) = (x0 , y0 ) el vértice del rectángulo situado en el primer cuadrante. Entonces,
como el rectángulo tiene lados de longitudes 2x y 2y, su área viene dada por
Queremos hallar x e y tal que f (x, y) sea máxima. Nuestra elección de (x, y) se restringe
a puntos que pertenecen a la elipse
x2 y 2
+ = 1 ligadura
9 16
x2 y 2
Figura 7.4: Rectángulo de área máxima que puede inscribirse en la elipse + =1
9 16
Para ver cómo puede resolverse este problema mediante los multiplicadores de Lagran-
ge, consideremos la ecuación de ligadura como una curva de nivel fija de
x2 y 2
g(x, y) = + −1
9 16
y en esta familia las curvas de nivel que satisfacen la ligadura dada corresponden a hipérbo-
las que cortan a la elipse (ver figura 7.5). Además, para maximizar f (x, y), queremos hallar
la hipérbola que satisface la ligadura exactamente. La curva de nivel que hace esto es tan-
gente a la elipse, es decir, la solución (x0 , y0 ) debe ser el punto de la elipse, S, donde la
curva de nivel correspondiente sea tangente a S.
Para hallar la hipérbola apropiada, usamos el hecho de que dos curvas son tangentes
en un punto si y sólo si sus vectores gradientes son paralelos. Intuitivamente vemos que en
el punto (x, y) de S para que la hipérbola sea tangente a la elipse, el gradiente ∇f (x, y)
debe ser perpendicular a S, pero un vector normal a S en (x, y) es ∇g(x, y). Esto significa
que ∇f (x, y) debe ser un múltiplo de ∇g(x, y) en el punto de tangencia. En el contexto de
los problemas de optimización con ligaduras, denotamos este escalar por λ y escribimos
∇f (x, y) = λ∇g(x, y) . (7.2)
Teorema 7.4 Sean f y g funciones con derivadas parciales primeras continuas tales que
f tiene un extremo relativo en el punto (x0 , y0 ) de la curva de ligadura g(x, y) = 0. Si
∇g(x0 , y0 ) 6= ~0, entonces existe un número real λ tal que
∇f (x0 , y0 ) = λ∇g(x0 , y0 )
Demostración: Para empezar, representemos la curva suave dada por g(x, y) = 0 por la
función vectorial
~r(t) = x(t)~i + y(t)~j, ~r 0 (t) =
6 ~0 ,
Luego, ∇f (x0 , y0 ) es ortogonal a ~r 0 (t0 ). Además, sabemos por un tema anterior que
∇g(x0 , y0 ) también es ortogonal a ~r 0 (t0 ). En consecuencia los gradientes ∇f (x0 , y0 ) y
∇g(x0 , y0 ) son paralelos, y por tanto, debe existir un escalar λ tal que
∇f (x0 , y0 ) = λ∇g(x0 , y0 )
Ası́, el método de los multiplicadores de Lagrange para hallar los valores extremos de
una función f sujeta a una ligadura es:
Supongamos que f y g satisfacen las hipótesis del teorema de Lagrange y que f tiene,
sujeta a la ligadura g(x, y) = 0, un mı́nimo o un máximo. Para hallar el mı́nimo o máximo
de f , resolvemos simultáneamente las ecuaciones ∇f (x, y) = λ∇g(x, y) y g(x, y) = 0
resolviendo el sistema de ecuaciones:
fx (x, y) = λgx (x, y)
fy (x, y) = λgy (x, y)
g(x, y) =0
Otra manera de considerar estas ecuaciones es pensar en λ como una variable adicional
y formar la función auxiliar
En el teorema de Lagrange se dice que para hallar los puntos extremos de f restrin-
gida a g debemos examinar los puntos crı́ticos de F . Estos se encuentran resolviendo las
ecuaciones
∂F ∂f ∂g
= 0 =⇒ −λ =0
∂x ∂x ∂x
∂F ∂f ∂g
= 0 =⇒ −λ =0
∂y ∂y ∂y
∂F
= 0 =⇒ g(x, y) = 0
∂λ
que son las mismas que las ecuaciones dadas anteriormente. A la función F se le llama
función de Lagrange o lagrangiana.
Notemos que el teorema de Lagrange, nos da una condición necesaria para la existencia
de extremos de la función f , que no es una condición suficiente.
Nota: Si tanto la función f como la función g depende de tres variables, las gráficas
correspondientes se sitúan en el espacio tridimensional; pero el razonamiento seguido
anteriormente continúa siendo válido sin más que hablar de superficies de nivel para la
función f y g. En tal caso se deben usar dos parámetros para la superficie g(x, y, z) = 0
en la demostración anterior.
Por otra parte, el método de los multiplicadores de Lagrange se puede extender cuando
tenemos dos funciones de ligadura. Ası́, en los problemas de optimización con dos funciones
de ligadura g y h, introducimos un segundo multiplicador de Lagrange y resolvemos la
ecuación
∇f (x, y, z) = λ1 ∇g(x, y, z) + λ2 ∇h(x, y, z)
Consideremos el problema consistente en optimizar la función u = f (x, y, z), estando las
variables sujetas a las dos condiciones:
g(x, y, z) = 0, h(x, y, z) = 0.
en el punto crı́tico t0 ∈ I tal que ~r(t0 ) = (x(t0 ), y(t0 ), z(t0 )) = P . Podemos formar la
composición
f ◦ ~r : I ⊆ R −→ R
∇f (P ) · ~r 0 (t0 ) = 0,
∇f (P ) = λ1 ∇g(P ) + λ2 ∇h(P ) .
Concluimos entonces que una condición necesaria para que la función f (x, y, z) sujeta
a las restricciones g(x, y, z) = 0 y h(x, y, z) = 0 alcance un extremo en (x, y, z) (donde se
supone la independencia lineal de los vectores ∇g(x, y, z) y ∇h(x, y, z)), es que existan
constantes λ1 y λ2 ∈ R de modo que
siendo 1 ≤ k < n,
el teorema de los multiplicadores de Lagrange, nos dirá lo siguiente:
1
El que los vectores ∇g(P ) y ∇h(P ) sean linealmente independientes, equivale a decir que el rango de
la matriz jacobiana siguiente es dos:
gx gy gz
J (P ) =
hx hy hz
Este sistema se obtiene sin más que derivar la función F respecto de cada una de las
variables xi , i = 1, . . . n y λj , j = 1, . . . , k.
Nota: Decir que el rango de la matriz jacobiana Jg (de orden k × n) es k, es equivalente
a decir que tiene algún menor de orden k no nulo, y las k variables que aparecen en
este menor no nulo son las que pueden considerarse como función implı́cita de las n − k
variables restantes.
En la sección anterior, desarrollamos una condición suficiente, para extremos de fun-
ciones de varias variables, basada en la observación del término de segundo grado en la
serie de Taylor de f , estudiando al final el signo de una forma cuadrática. Sin embargo,
ahora no estamos interesados en todos los valores de f sino sólo en aquellos obtenidos
al restringir f a algún conjunto S que sea el conjunto de nivel de otra función g. La si-
tuación es complicada, primero porque los extremos restringidos de f no necesariamente
se presentan en los puntos crı́ticos de f y, segundo, porque sólo se permite a la variable
moverse en el conjunto S. No obstante se puede dar un criterio de la segunda derivada en
términos de lo que se llama el hessiano limitado. Sin embargo su desarrollo es un poco
tedioso y no merece la pena desarrollarlo aquı́.
La condición suficiente en el caso más sencillo, es decir, cuando tenemos la función
objetivo f (x, y), con una ecuación de ligadura, g(x, y) = 0, se reduce a estudiar el signo
de la forma cuadrática de la función de Lagrange F (x, y, λ), para el valor de λ calculado.
Supongamos que (x0 , y0 ) es un punto crı́tico de f , condicionado a que g(x0 , y0 ) = 0 y
además suponemos que y = y(x), a través de g(x, y) = 0. Si consideramos y = y(x),
entonces
h(x) = f (x, y(x))
1. Si h00 (x0 ) > 0, entonces en (x0 , y0 ) la función h, y por tanto f restringida a g, tiene
un mı́nimo relativo,
2. Si h00 (x0 ) < 0, entonces en (x0 , y0 ) la función h, y por tanto f restringida a g, tiene
un máximo relativo.
Se demuestra que
y en consecuencia,
sign d2 F (x0 , y0 , λ0 ) = sign h00 (x0 )
fijando los valores obtenidos para los multiplicadores de Lagrange y en el punto crı́tico,
restringida por las condiciones siguientes:
∂g1 ∂g1 ∂g1
∂x1 ∂x2
··· ∂xn dx1 0
∂g2 ∂g2 ∂g2
∂x1 ∂x2
··· ∂xn
dx2 0
Jg · H = . = (7.3)
.. .. .. ..
..
. . . .
∂gk ∂gk ∂gk dxn 0
∂x1 ∂x2
··· ∂xn
con H 6= ~0.
En estas condiciones, si para todos los vectores H que cumplan (7.3) se verifica que:
∂ 2F ∂ 2F ∂ 2F
k 2
d2 F x, y, = 2
(x, y)(dx) + 2 (x, y)dxdy + 2
(x, y)(dy)2
2 ∂x ∂y∂x ∂y
,
Fxx (x, y) Fxy (x, y) dx
= dx dy
Fxy (x, y) Fyy (x, y) dy
de donde
2 k 0 1 dx
d F x, y, = dx dy ,
2 1 0 dy
condicionado a que
dx dx
∇g =0⇒ 1 1 = 0 ⇒ dx + dy = 0 ⇒ dy = −dx .
dy dy
Por lo tanto
2 k k k 0 1 dx
= −2(dx)2 < 0,
dF , , = dx −dx
2 2 2 1 0 −dx
para todo dx 6= 0.
k k2
Luego la solución pedida es el cuadrado de lado siendo su área y su perı́metro
2 4
2k.
En esta sección veremos algunos hechos importantes que aparecen en el estudio de las
formas cuadráticas. El material que aquı́ se presenta se ha utilizado en el estudio de los
extremos de las funciones de varias variables en el tema 7.
f (~x) = AX = a1 x1 + a2 x2 + · · · + an xn .
q(~x) = X t AX
Ejemplos:
19
Tema 7. Extremos de funciones de varias variables reales 20
a b c x
q(x, y, z) = x y z b d e y
c e f z
SECCIÓN A.2
Ejemplos:
Con los ejemplos anteriores podemos darnos cuenta de que la propiedad de una forma
cuadrática de ser definida positiva o negativa se descubre inmediatamente cuando ésta
solamente posee los términos cuadráticos. Más en concreto, podemos decir que la forma
cuadrática q : Rn −→ R dada por
q(x1 , x2 , . . . xn ) = λ1 x21 + λ2 x22 + · · · + λn x2n
Ejemplos:
entonces q es:
Figura A.2: Forma cuadrática q(x, y) definida positiva, con λ1 > 0, λ2 > 0.
Figura A.3: Forma cuadrática q(x, y) definida negativa con λ1 < 0, λ2 < 0.
Como vemos, un método para clasificar una forma cuadrática es reducirla a cuadrados
perfectos o diagonalizarla. Un segundo método es aplicar el criterio de Sylvester. En
Este resultado nos viene a decir que, la forma cuadrática (o la matriz A) es definida
positiva, si y sólo si los determinantes de las submatrices angulares son positivos; es
definida negativa, si y sólo si los determinantes tienen signos alternados, comenzando con
∆1 = det A1 < 0; es indefinida cuando no se cumplen ninguno de los dos casos anteriores,
en los que:
Nota: Observemos que los apartados 3 y 4 del criterio de Sylvester son condiciones
suficientes para que la forma cuadrática sea indefinida, pero no necesarias.
El teorema anterior, en el caso de una forma cuadrática binaria (en R2 ), quedarı́a: