Máximos y Mínimos de Funciones de Varias Variables

Angel Carrillo Hoyo, Elena de Oteyza de Oteyza2, Carlos Hernández Garciadiego1, Emma Lam Osnaya2

1 Instituto de Matemáticas, UNAM; 2 Facultad de Ciencias, UNAM


Teoremas sobre Máximos y Mínimos en Varias Variables

Matrices

Para una n×n matriz A=(a11a1nan1ann) con entradas en C se define el polinomio característico como el determinante |AλI|, donde I=(1001) es la n×n matriz identidad y λ es una indeterminada, es decir. |AλI|=|(a11a1nan1ann)λ(1001)|=|a11λa1nan1annλ| Se puede probar que el polinomio característico de A es de grado n y con coeficiente principal (1)n. Así, |AλI|=(1)nλn+cn1λn1++c0. Comprobamos esta afirmación para dos casos particulares

Por el teorema de la factorización lineal tenemos (1.1)|AλI|=(1)n(λλ1)(λλn) donde λ1,,λn son las raíces, no necesariamente distintas, del polinomio característico.

Recordamos que si λ es un valor característico de una n×n matriz real, es decir, con entradas reales, A , entonces existe un vector h en Rn distinto del vector cero y tal que Ah=λh. Al dividir a h entre su norma h obtenemos un vector unitario u tal que Au=λu.

Teorema 1

El determinante de A es el producto de sus valores característicos.

Demostración:

Por (1.1) |AλI|=(1)n(λλ1)(λλn). Al tomar λ=0, obtenemos |A|=(1)n(λ1)(λn)=(1)2nλ1λn=λ1λn.
QED

Corolario 2

Para un escalar λ la matriz AλI es no invertible si y sólo si λ es un valor característico de A.

Demostración:

Sean λ1,,λn los valores característicos de A. Entonces |AλI|=(1)n(λλ1)(λλn). Por otra parte, AλI es no invertible |AλI|=0λ=λi para algún 1in.
QED

Para una m×n matriz A A=(a11a1nam1amn) se define su matriz traspuesta At como aquella n×m matriz que tiene por renglones a las columnas de A, es decir, At=(a11am1a1namn) Observaciones: Recordemos que propiedades generales de la traspuesta son:

El producto escalar x y de dos vectores x=(x1,..,xn) y y=(y1,...,yn) en Rn coincide con el producto de matrices (1.2)(x1xn)(y1yn)=x1y1++xnyn. En lo que sigue x podrá denotar un vector (x1,,xn), o bien la n×1 la matriz (x1xn). El contexto indicará qué está denotando.

Así, podemos escribir la igualdad (1.2) como (1.3)xty=xy. Sea A una n×n matriz real y h=(h1,,hn) un vector en Rn. Denotamos por Ah el producto de las matrices A y h. Si rk, con 1kn, es el krenglón de A, entonces Ah=A(h1hn)=(r1hrnh). Al considerar Ah como un vector en Rn podemos tomar su norma en este espacio y se cumple (1.4)Ah=(r1h,,rnh)|r1h|++|rnh|r1h++rnh(r1++rn)h, donde la primera desigualdad es la del triángulo y la segunda es la de Cauchy-Schwarz.

Definición 3

Para una n×n matriz real A con renglones rk, 1kn, definimos su norma como A=r1++rn. De acuerdo con (1.4), esta norma tiene la siguiente propiedad AhAh para todo hRn.

Teorema 4

Si A es una matriz real simétrica y x,yRn, entonces (1.5)Axy=xAy. Demostración:

Tenemos que At=A por ser A simétrica. De la igualdad (1.3) y las propiedades de la traspuesta, se sigue que xAy=xtAy=((Ay)tx)t=(ytAtx)t=(ytAx)t (por ser A simétrica)=(Ax)ty=Axy.
QED

Funciones cuadráticas

Para una n×n matriz real A con renglones rk=(ak1.,akn),1kn, y h=(h1,,hn)Rn tenemos htAh=(h1hn)(r1hrnh)(1.6)=(h1hn)(a11h1++a1nhnan1h1++annhn)=a11h12++a1nh1hn++an1h1hn++annhn2=i,j=1naijhihj=Ahh. Definición 5

Decimos que Q:RnR es una función cuadrática en Rn si Q(h)=i,j=1naijhihj para cada h=(h1,...,hn) en Rn y donde A=(aij) es una n×n matriz real. Esta función Q es llamada la función cuadrática asociada a A.

Según hemos visto en (1.6), si Q es la función cuadrática asociada a la matriz A, entonces Q(h)=htAh=Ahh. Para Q(h) usaremos alguna de estas dos expresiones, según consideremos más conveniente para el caso que nos ocupe.

Ejemplos

Observación:

  • Si Q:RnR es una función cuadrática entonces Q(αh)=α2Q(h) para cada αR y hRn.
  • Q(0)=0.
  • Toda función cuadrática en Rn es continua, pues es la suma de las n2 funciones definidas como qij:RnR(h1,,hn)aijhihj, con 1i,jn, y cada una de éstas es una función continua al ser el producto de una constante aij por dos funciones proyección: πi(h1,,hn)=hi y πj(h1,,hn)=hj.

Lema 6

Toda función cuadrática Q:RnR alcanza su valor mínimo β en la esfera unitaria S={hRn| h=1} de Rn y Q(h)βh2 para todo hRn. Si Q es la función cuadrática asociada a una n×n matriz real A, entonces la desigualdad anterior equivale a (1.7)Ahhβh2 para todo hRn.

Demostración:

Sea S={hRn| h=1}. El conjunto S es cerrado y acotado y Q es continua en Rn, entonces Q restringida a S alcanza su valor mínimo β.

Si hRn no es el vector cero, tenemos hhS y entonces Q(h)=Q(hhh)=h2Q(hh)h2β. Si h=0, entonces Q(h)=0=h2β. Por tanto, la desigualdad vale para todo hRn.

La desigualdad (1.7) se tiene porque Q(h)=Ahh si Q es la función cuadrática asociada, a A.

QED

Matriz positiva (negativa) definida y matriz indefinida

Definición 7

Una n×n matriz A simétrica y real es llamada positiva definida si su función cuadrática asociada satisface Q(h)=htAh=Ahh>0 para todo vector h0 en Rn.

Definición 8

Una n×n matriz A simétrica real es llamada:

Positiva semidefinida si Q(h)=htAh=Ahh0 para todo hRn.

Negativa definida si Q(h)=htAh=Ahh<0 para todo vector h0 en Rn.

Indefinida si la función cuadrática Q(h) toma al menos un valor positivo y otro negativo.

Lema 9

Si una n×n matriz A simétrica y real es indefinida y Q es la función cuadrática asociada a A, entonces existen vectores unitarios u1 y u2 en Rn tales que Q(u1)=Au1u1>0 y Q(u2)=Au2u2<0.

Demostración:

Como A es indefinida, existen vectores h1 y h2 en Rn tales que Q(h1)=Ah1h1>0 y Q(h2)=Ah2h2<0. Estos vectores son distintos del vector cero, pues Q(0)=0. Los vectores u1=1h1h1 y u2=1h2h2 son unitarios y Q(u1)=1h12Q(h1)>0 y Q(u2)=1h22Q(h2)<0.
QED

Observaciones:

  • Si A es positiva definida, entonces A es positiva semidefinida.
  • A es negativa definida si y sólo si A es positiva definida.

Teorema 10

Si A es una n×n matriz positiva definida, entonces su función cuadrática asociada Q:RnR restringida a S={hRn| h=1} alcanza un valor mínimo positivo β y se cumple que Q(h)βh2 para todo hRn.

Demostración:

Por el lema (6), sólo falta probar que β>0.

Tenemos β=Q(h0) para algún h0=1.

Como A es positiva definida, entonces β=Q(h0)>0, ya que Q(h)>0 para todo h0.

QED

Para dar una caracterización de las matrices positivas definidas vamos a dar una generalización de la desigualdad de Cauchy-Schwarz.

Teorema 11 Desigualdad generalizada de Cauchy-Schwarz

Si A es una n×n matriz positiva semidefinida y x,yRn, entonces se cumple (Axy)2(Axx)(Ayy).

Demostración:

Supongamos x=(x1,,xn), y=(y1,,yn) y A=(a11a1nan1ann) Si Axy=0, la desigualdad es obvia, ya que Axx0 y Ayy0 por ser A positiva semidefinida.

Supongamos que Axy0.

Para λR, tenemos A(xλy)(xλy)0 por ser A positiva semidefinida. Por el Teorema (4) y dado que el producto escalar conmuta, tenemos Ayx=yAx=Axy. Así, 0A(xλy)(xλy)=(AxλAy)(xλy)(1.8)=AxxλAyxλAxy+λ2Ayy=Axx2λAxy+λ2Ayy. Si Ayy0, hagamos λ=AxyAyy. Entonces 0Axx2AxyAyyAxy+(AxyAyy)2Ayy=Axx(Axy)2Ayy. Al despejar, obtenemos la desigualdad buscada (Axy)2(Axx)(Ayy). Por otra parte, no puede suceder que Ayy=0, por que si así fuera, entonces (1.8) se reduce a 0Axx2λAxy para cualquier λR y para λ=12Axx+1Axy llegamos al absurdo 0Axx212Axx+1AxyAxy=1.

QED

Corolario 12

Si A es una n×n matriz positiva semidefinida y hRn, entonces Ah2AAhh.

Demostración:

Si Ah=0, la desigualdad es obvia porque Ahh0 por ser A positiva semidefinida y A0.

Supongamos Ah0. En la desigualdad generalizada de Cauchy tomemos x=h y y=Ah. Entonces (1.9)(AhAh)2(Ahh)(A(Ah)Ah). Por la desigualdad de Cauchy-Schwarz en Rn y dado que A(Ah)AAh tenemos A(Ah)AhA(Ah)AhAAhAh=AAh2. Por otra parte, Ah2=AhAh. Al hacer las sustituciones en (1.9), obtenemos Ah4(Ahh)AAh2. Así, Ah2AAhh.

QED

Teorema 13

Sea A una n×n matriz real y simétrica y β el mínimo, en la esfera unitaria S de Rn, de su función cuadrática Q asociada. Entonces β es un valor característico de A.

Demostración:

Recordamos que S={hRn| h=1} y Q(h)=Ahh.

Como β+1n>β para cada entero n1 y β=minh=1Ahh, existe hn, con hn=1, tal que Ahnhnβ+1n. Probaremos primero que (AβI)hn0 cuando n. En vista de que 1=hn2=Ihnhn, donde I es la matriz identidad de tamaño n×n, tenemos Ahnhn<β(Ihnhn)+1n(1.10)(AβI)hnhn<1n. La matriz AβI es positiva semidefinida, pues es simétrica y (AβI)hh=Ahhβh2Ahhβh20. para todo hRn, ya que por lema (6) Ahhβh2.

Del corolario anterior y la desigualdad (1.10), se sigue que (AβI)hn2(AβI)(AβI)hnhn1n(AβI). Entonces 0(AβI)hn1n(AβI)12. Por el Teorema del sandwich, obtenemos (1.11)(AβI)hn0cuando n. Supongamos que β no es un valor característico de A. Entonces (AβI)hn0 para todo n1 y por el Corolario (2), la matriz AβI es invertible.

Para cada n1 tenemos que xn=1(AβI)hn(AβI)hn es un vector unitario. Como (AβI)1xn(AβI)1 entonces (AβI)1(AβI)1xn=1(AβI)hn(AβI)1(AβI)hn=hn(AβI)hn=1(AβI)hn. Así, (AβI)1(AβI)hn1 para todo n1. Al hacer tender n a , llegamos al absurdo 01, debido a ( 1.11). Por tanto, β es un valor característico de A.

QED

Teorema 14

Una n×n matriz A real y simétrica es positiva definida si y sólo si cada uno de sus valores característicos es positivo.

Demostración:

Supongamos que A es positiva definida y λ es un valor característico de A. Hay un vector x0 en Rn tal que Ax=λx y como A es positiva definida, entonces λx2=λxx=Axx>0. De donde, λ>0.

Recíprocamente, supongamos que todo valor característico de A es positivo.

De acuerdo con el teorema anterior β=minh=1Ahh es un valor característico de A y por nuestra hipótesis β>0.

Por el lema (6), Ahhβh2 para todo hRn. En particular, Ahh>0 para todo h0. Por tanto, A es positiva definida.

QED

Combinando los teoremas anterior y el teorema(1) obtenemos:

Corolario 15

El determinante de una matriz positiva definida es positivo.

Corolario 16

Si A es una n×n matriz positiva definida, entonces A es invertible y A1 es positiva definida.

Demostración:

La matriz A es invertible por tener determinante distinto de cero, de hecho positivo. Como (At)1=(A1)t y A es simétrica, entonces (A1)t=A1. Así, A1 es simétrica.

Sea yRn distinto de 0. Existe xRn, con x0, tal que Ax=y, ya que A es invertible. Debido a esto y a que (Ax)t=xtAt y At=A, tenemos ytA1y=(Ax)t(A1)tAx=xtAt(At)1Ax=xtAx>0. Por consiguiente, A1 es positiva definida.

QED

Corolario 17

Una n×n matriz A real y simétrica es negativa definida si y sólo si cada uno de sus valores característicos es negativo.

Demostración:

A es negativa definida  A es positiva definida.

Un número real λ es valor característico de Aλ es un valor característico de A.

Por estas dos equivalencias y el Teorema (14), tenemos:

Supongamos que A es negativa definida.

Si λ es un valor característico de A, entonces λ es un valor característico de A y por tanto, λ>0 por ser A positiva definida. Así, λ<0.

Recíprocamente, supongamos que todo valor característico de A es negativo. Entonces todo valor característico de A es positivo y A es positiva definida, o sea A es negativa definida.

QED

Corolario 18

Sea A una n×n matriz real, simétrica e invertible. La matriz A es indefinida si y sólo si A no es positiva definida ni negativa definida.

Demostración:

Supongamos que A no es positiva definida ni negativa definida.

Por el Teorema (14) y el corolario anterior, existen valores característicos λ1 y λ2 de A tales que λ10 y λ20. Hay dos vectores unitarios u1,u2 en Rn que satisfacen Au1=λ1u1 y Au2=λ2u2 Como A es invertible, por hipótesis, entonces |A|0. Y como |A| es el producto de sus valores característicos, entonces todo valor característico de A es distinto de 0. Así, λ1<0,λ2>0 y Au1u1=λ1u1u1=λ1<0 y Au2u2=λ2u2u2=λ2>0~ Es decir, A es indefinida.

Recíprocamente, si A es indefinida entonces no es positiva definida ni negativa definida, pues toma un valor positivo y otro negativo en vectores distintos de cero.

QED

Los siguientes tres resultados están tomados de [1, Teoremas 27 y 29, pp. 25,26].

Lema 19

Sea A=(a11a1nan1ann) una matriz positiva definida y b1,,bn,αR no necesariamente distintos entre sí. Definimos B=(a11a1nb1an1annbnb1bnα)yb=(b1bn). Entonces |B|=(αbtA1b)|A|.

Demostración:

Si x=(x1,...,xn)Rn, hagamos Ax=(y1yn) y A1b=c=(c1cn). Definamos la (n+1)×(n+1) matriz P=(10c101cn001). Entonces

1. bt(A1b)=b1c1++bncn.

2. Por la multiplicación de matrices y la definición de c, tenemos Ac=(a11c1++a1ncnan1c1++anncn) y Ac=AA1b=b=(b1bn), de donde, (1.12)ak1c1++akncn=bk para cada 1kn. 3. Pt=(100010c1cn1). Al desarrollar |P| respecto al último renglón, tenemos |P|=|(10c101cn001)|=1 y por tanto, |Pt|=1. Por otra parte, BP=(a11a1nb1an1annbnb1bnα)(10c101cn001)=(a11a1na11c1++a1ncn+b1an1annan1c1++anncn+bnb1bnb1c1++bncn+α)=(a11a1nb1+b1an1annbn+bnb1bnb1c1++bncn+α) (ver 1.12)=(a11a1n0an1ann0b1bnbtA1b+α) (ver el inciso 1) En resumen, BP=(a11a1n0an1ann0b1bnbtA1b+α). De donde, PtBP=(100010c1cn1)(a11a1n0an1ann0b1bnbtA1b+α)=(a11a1n0an1ann0c1a11++cnan1+b1c1a1n++cnann+bnαbtA1b)=(a11a1n0an1ann0b1+b1bn+bnαbtA1b) (ver 1.12)=(a11a1n0an1ann000αbtA1b). En resumen, PtBP=(a11a1n0an1ann000αbtA1b). Al desarrollar |PtBP| respecto al último renglón, obtenemos |PtBP|=(αbtA1b)|A|. Como |PtBP|=|Pt||B||P| y |P|=|Pt|=1 entonces |B|=(αbtA1b)|A|.

QED

Teorema 20

Sea A=(a11a1nan1ann) una n×n matriz positiva definida, b=(b1,...,bn)Rn y αR. Definimos B=(a11a1nb1an1annbnb1bnα). Entonces B es positiva definida si y sólo si |B|>0.

Demostración:

Como A es positiva definida, entonces es simétrica e invertible. Por el lema anterior, se tiene |B|=(αbtA1b)|A|. Probaremos que las siguientes afirmaciones son equivalentes

(i) |B|>0.

(ii) αbtA1b>0.

(iii) PtBP es positiva definida, donde P es como en el lema anterior.

(iv) B es positiva definida.

(i) implica (ii). |B|=(αbtA1b)|A|>0 implica αbtA1b >0, pues |A|>0, por ser A positiva definida.

(ii) implica (iii). Supongamos que αbtA1b>0 y sea (z1,,zn+1)Rn+1 distinto de 0.

Vimos en el lema anterior que PtBP=(a11a1n0an1ann000αbtA1b). De donde, (z1zn+1)PtBP(z1zn+1)=(z1zn+1)(a11a1n0an1ann000αbtA1b)(z1zn+1)=(z1zn)A(z1zn)+zn+12(αbtA1b)>0. Donde la desigualdad se debe a que ambos sumandos son mayores o iguales que cero y al menos uno de ellos es positivo, puesto que (z1,,zn)0, o bien, zn+10 y A es positiva definida y αbtA1b>0 por hipótesis.

Por tanto, PtBP es positiva definida.

(iii) implica (iv). Supongamos que PtBP es positiva definida y sea w=(w1,,wn+1)Rn+1 distinto del vector 0.

Como P es invertible existe z=(z1,,zn+1)0 tal que Pz=w.

Notamos que (ztPt)=(Pz)t=wt, por propiedades generales de la traspuesta. Entonces wtBw=(ztPt)B(Pz)=zt(PtBP)z>0 por ser PtBP positiva definida y z0. De donde, B es positiva definida.

iv) implica i) Es el Corolario (15).

QED

Teorema 21

Una matriz real simétrica A=(a11a1nan1ann) es positiva definida si y sólo si |Ak|=|(a11a1kak1akk)|>0 para cada 1kn.

Demostración:

Supongamos que A es positiva definida. Entonces |An|=|A|>0. Sean 1kn y (x1,,xk)Rk un vector no cero, entonces (x1,,xk,0,,0nk)Rn es un vector distinto de 0. De donde, (x1xk)Ak(x1xk)=(x1xk)(a11a1kak1akk)(x1xk)=(x1xk00)(a11a1nan1ann)(x1xk00)>0. O sea, Ak es positiva definida y por tanto, |Ak|>0.

Inversamente, supongamos que |Ak|>0 para cada 1kn.

Como |A1|=a11>0 entonces la matriz (a11) es positiva definida. Por el teorema (20) y dado que |A2|>0, por hipótesis, la matriz A2=(a11a12a12a22) es positiva definida. Aplicando sucesivamente este argumento para k=3,...,n concluimos que An=A es positiva definida.

QED

Corolario 22

Una matriz real simétrica A es negativa definida si y sólo si (1)k|Ak|>0 para cada 1kn.

Demostración:

A es negativa definida A es positiva definida. Por el teorema anterior, A es positiva definida |Ak|=(1)k|Ak|>0.
QED

Máximo y mínimo de una función real de varias variables

Definición 23

Sean f:URnR una función de clase C2. La matriz hessiana de f en x0U es la matriz simétrica H(f,x0)=(2fx122fx1x22fx1xn2fx2x12fx222fx2xn2fxnx12fxnx22fxn2). Es simétrica porque 2fxixj(x)=2fxjxi(x) para i,j=1,,n y xU por ser f de clase C2.

La función cuadrática asociada a H(f,x0) es llamada la función hessiana de f en x0 (algunos autores la llaman simplemente hessiano de f en x0). Esta función aplicada a h=(h1,...,hn)Rn la denotamos como Qf(x0,h), por lo que Qf(x0,h)=htH(f,x0)h=i,j=1nhihj2fxixj(x0). Cuando sea claro del contexto con qué función f estamos trabajando escribiremos Q(x0,h) en lugar de Qf(x0,h).

Teorema 24 Teorema de Taylor de orden 1[1, Teorema 8, p.123]

Supongamos que f:URnR es de clase C2, con U abierto y sea x0U, entonces, existe r>0 tal que h<r implica x0+hU y se cumple f(x0+h)=f(x0)+i=1nhifxi(x0)+12Q(x0,h)+R2(h,x0) para h<r y limh0|R2(h,x0)|h2=0, donde Q(x0,h) es la función hessiana de f en x0.

Demostración:

Por ser U abierto existe r>0 tal que Br(x0)U. Fijemos h, con h<r, definimos Kx0(h)={0si  h=01h2[f(x0+h)f(x0)i=1nhifxi(x0)]si  h0.   Entonces (1.14)f(x0+h)=f(x0)+i=1nhifxi(x0)+Kx0(h)h2 para todo hRn.

Fijemos hRn y para cada x<r, definimos (1.15)F(x)=f(x0+x)f(x0)i=1nxifxi(x0)Kx0(h)x2=f(x0+x)f(x0)i=1nxifxi(x0)Kx0(h)i=1nxi2. Entonces F es una función de clase C1 en la bola abierta Br(0) y por la igualdad (1.14) satisface que F(0)=0=F(h). Por el Teorema del valor medio para funciones reales de varias variables (1.16)F(h)F(0)=j=1nhjFxj(th)=0 para algún real 0t1 que depende de h.

Sea 1jn. Como fxj tiene derivadas parciales 2fxjxi(1in) continuas en Br(x0), por ser f de clase C2 en Br(x0), entonces cada fxj es derivable en Br(x0), por lo que para cada 1jn, la función Rj(x)=fxj(x0+x)fxj(x0)(fxj)(x0)x=fxj(x0+x)fxj(x0)i=1nxi2fxixj(x0) con x=(x1,,xn)Br(0) es tal que (1.17)limx0Rj(x)x0 y es claro que fxj(x0+x)fxj(x0)=i=1nxi2fxixj(x0)+Rj(x). Por la definición de F (1.15) y la igualdad anterior Fxj(x)=fxj(x0+x)fxj(x0)2Kx0(h)xj=i=1nxi2fxjxi(x0)2Kx0(h)xj+Rj(x). Por la igualdad (1.16): F(h)F(0)=j=1nhjFxj(th)=0, tenemos 0=j=1nhjFxj(th)=j=1ni=1nhjthi2fxjxi(x0)2Kx0(h)j=1nthj2+j=1nhjRj(th)=2t(12Q(x0,h)Kx0(h)h2)+j=1nhjRj(th). De donde, Kx0(h)h2=12Q(x0,h)+12tj=1nhjRj(th). Al sustituir esto en (1.14): f(x0+h)=f(x0)+i=1nhifxi(x0)+Kx0(h)h2, obtenemos f(x0+h)=f(x0)+i=1nhifxi(x0)+12Q(x0,h)+12tj=1nhjRj(th) para cada hRn. Hacemos |R2(h,x0)|=12t|j=1nhjRj(th)| y tenemos |R2(h,x0)|h212j=1n|hj|h|Rj(th)|th. Entonces limh0|R2(h,x0)|h2=0, ya que |hj|h1 y limh0|Rj(th)|th=0 para j=1,,n por (1.17).

QED

Criterio de máximos y mínimos para funciones de varias variables

Definición 25

Dada una función f:URnR de clase C1 y x0U, donde U es un abierto de Rn. Decimos que x0 es un punto estacionario si el gradiente de f en x0 vale cero, f(x0)=0.

Con ayuda de los lemas anteriores, podemos probar el siguiente resultado.

Teorema 26

Supongamos que f:URnR es de clase C2, con U abierto y x0U es un punto estacionario de f.

1.Si la matriz hessiana H(f,x0) de f en x0 es positiva definida, el punto x0 es un mínimo relativo de f.

2. Si la matriz hessiana H(f,x0) de f en x0 es negativa definida, el punto x0 es un máximo relativo de f.

3. Si la matriz hessiana de H(f,x0) de f en x0 es indefinida, entonces el punto x0 es un punto silla de f.

4. Si el determinante hessiano |H(f,x0)| de f en x0 es cero, no se tiene información.

Demostración:

Como f:URnR es de clase C2 y x0U es un punto estacionario, entonces por el teorema 24 existe r>0 tal que (1.18)f(x0+h)=f(x0)+12Q(x0,h)+R2(h,x0), si hr, donde Q(x0,h) es la función cuadrática asociada a H(f,x0), y |R2(h,x0)|h20 cuando h0. 1. Supongamos que H(f,x0) es positiva definida, entonces por el Teorema (10), existe β>0 tal que (1.19)12Q(x0,h)β2h2 para todo hRn. Como |R2(h,x0)|h20, entonces existe 0<δ<r tal que si 0<h<δ, tenemos que |R2(h,x0)|<β2h2 de donde, (1.20)β2h2<R2(h,x0)<β2h2. Por (1.19) y (1.20) tenemos 0=β2h2β2h2<12Q(x0,h)+R2(h,x0) y por (1.18) 0<12Q(x0,h)+R2(h,x0)=f(x0+h)f(x0). Por tanto, si 0<h<δ entonces f(x0)<f(x0+h), es decir, x0 es un mínimo relativo estricto.

(2) Si H(f,x0) es negativa definida, entonces H(f(x0))=H(f(x0)) es positiva definida, de donde x0 es un mínimo relativo estricto de f, entonces x0 es un máximo relativo estricto de f.

(3) Por último, supongamos que la matriz hessiana H(f,x0) de f en x0 es indefinida. Por el Lema (9), existen vectores unitarios u1 y u2 en R2 tales que Q(x0,u1)=H(f,x0)u1u1>0 y Q(x0,u2)=H(f,x0)u2u20. Debemos probar que en cada bola abierta Bε(x0) con centro en x0 hay un punto donde f vale más que f(x0) y otro donde vale menos

Por el teorema de Taylor, f(x0+h)=f(x0)+12Q(x0,h)+R2(h,x0) donde Q(x0,h) es la función cuadrática asociada a H(f,x0), y |R2(h,x0)|h20 cuando h0. Así, existe 0<δ<ε tal que 0<h<δ implica (1.21)|R2(h,x0)|<M2h2, con M=min(Q(x0,u1),Q(x0,u2)).

Si hi=δui, para i=1,2, entonces 0<hi<δ, de donde M2δ2<R2(hi,x0)<M2δ2 para i=1,2. En particular, 12Q(x0,u1)δ2<R2(δu1,x0)<12Q(x0,u1)δ2 y 12Q(x0,u2)δ2<R2(δu2,x0)<12Q(x0,u2)δ2. Por tanto, f(x0+δu1)f(x0)=12Q(x0,δu1)+R2(δu1,x0)>δ22Q(x0,u1)δ22Q(x0,u1)=0 y f(x0+δu2)f(x0)=12Q(x0,δu2)+R2(δu2,x0)<δ22Q(x0,u2)12Q(x0,u2)δ2=0. O sea, f(x0+δu1)>f(x0) yf(x0+δu2)f(x0). y x0+δu1,x0+δu2Bε(x0)

(4) La función f(x1,,xn)=x14++xn4 tiene un mínimo absoluto estricto en el origen y f tiene un máximo absoluto en el origen. En tanto que la función f(x1,,xn)=x13++xn3 tiene un punto silla en el origen. En los tres casos, el determinante hessiano de f en el origen es 0.

QED

Observación:

Si en el teorema anterior |H(f,x0)|0, es decir la matriz H(f,x0) es invertible, y no son aplicables los apartados (1) y (2) entonces x0 es un punto silla de f, pues por el Corolario (18), H(f,x0) es entonces indefinida y aplica el apartado (3).

Teorema 27 Criterio de la 2a derivada para funciones reales de n variables

Supongamos que f:URnR es de clase C2 y x0U, con U abierto, es un punto estacionario de f. Para cada 1kn definamos Hk(f,x0)=(2fx12(x0)2fx1x2(x0)2fx1xk(x0)2fxkx1(x0)2fxnx2(x0)2fxk2(x0)).

  1. Si |Hk(f,x0)|>0 para todo 1kn , entonces el punto x0 es un mínimo relativo estricto de f.
  2. Si (1)k|Hk(f,x0)|>0 para todo 1kn , entonces el punto x0 es un máximo relativo estricto de f.
  3. Si |H(f,x0)|0 y no son aplicables los apartados (1) y (2) anteriores, entonces el punto x0 es un punto silla de f.
  4. Si |H(f,x0)|=0, entonces no se tiene información.

Demostración:

Por el Teorema (21):

|Hk(f,x0)|>0 para todo 1kn si y sólo si la matriz hessiana H(f,x0) es positiva definida.

Por el Corolario (22):

(1)k|Hk(f,x0)|>0 para todo 1kn si y sólo si la matriz hessiana H(f,x0) es negativa definida.

Por tanto, los afirmaciones (1) y (2) se siguen del Teorema (26).

(3) Las hipótesis de los apartados (1) y (2) de este teorema equivalen a decir que H(f,x0) es positiva definida y negativa definida, respectivamente. Si (1) y (2) no son aplicables, entonces la matriz hessiana de H(f,x0) no es positiva definida ni negativa definida. Como |H(f,x0)|0, entonces H(f,x0) es indefinida, por el Corolario (18), y entonces x0 es un punto silla, por el Teorema (26).

(4) Ya se vio en el Teorema (26).

QED

Casos particulares

Teorema 28 Criterio de la 2a derivada para funciones reales de dos variables

Sean f:UR2R una función de clase C2, con U abierto, y (x0,y0)U un punto estacionario de f

  1. Si 2fx2(x0,y0)>0 y |H(f,(x0,y0))|=|2fx2(x0,y0)2fyx(x0,y0)2fyx(x0,y0)2fy2(x0,y0)|=2fx2(x0,y0)2fy2(x0,y0)(2fyx(x0,y0))2>0, entonces f tiene un mínimo local estricto en (x0,y0).
  2. Si 2fx2(x0,y0)<0 y |H(f,(x0,y0))|=2fx2(x0,y0)2fy2(x0,y0)(2fyx(x0,y0))2>0, entonces f tiene un máximo local estricto en (x0,y0).
  3. Si |H(f,(x0,y0))|<0, entonces (x0,y0) es un punto silla.
  4. Si |H(f,(x0,y0))|=0, entonces no se tiene información.

Demostración:

El teorema es consecuencia del Criterio de la 2a derivada para funciones reales de n variables, puesto que los apartados (1) y (2) son los de dicho criterio, con n=2.

Asimismo, el inciso (3) es el inciso (3) de ese criterio para n=2, ya que |H(f,(x0,y0))|<0 equivale a decir que |H(f,(x0,y0))|0 y que no son aplicables los apartados (1) y (2).

En efecto, si |H(f,(x0,y0))|<0, entonces no son aplicables los apartados (1) y (2) y |H(f,(x0,y0))|0.

Recíprocamente, si éstas dos últimas condiciones se satisfacen, entonces |H(f,(x0,y0))|<0 o bien |H(f,(x0,y0))|>0.

Esta segunda desigualdad implica que 2fx2(x0,y0)>0 y entonces aplicaría el apartado (1) o el (2), lo que contradice lo supuesto. Por tanto, |H(f,(x0,y0))|<0.

(4) La función f(x,y)=x4+y4 tiene un mínimo absoluto estricto en el origen y f tiene un máximo absoluto en el origen. En tanto que la función f(x,y)=x3+y3 tiene un punto silla en el origen. En los tres casos, el determinante hessiano de f en el origen es 0.

QED

Teorema 29 Criterio de la 2a derivada para funciones reales de tres variables

Sean f:UR3R una función de clase C2, con U abierto, y x0=(x0,y0,z0) un punto estacionario de f.

  1. Si 2fx2(x0)>0|H2(f,x0)|=|2fx2(x0)2fxy(x0)2fyx(x0)2fy2(x0)|>0|H3(f,x0)|=|2fx2(x0)2fxy(x0)2fxz(x0)2fyx(x0)2fy2(x0)2fyz(x0)2fzx(x0)2fzy(x0)2fz2(x0)|>0, entonces f tiene un mínimo local estricto en (x0,y0,z0).
  2. Si 2fx2(x0)0|H2(f,x0)|>0|H3(f,x0)|0, entonces f tiene un máximo local estricto en (x0,y0,z0).
  3. Si |H3(f,x0)|0, y no son aplicables los apartados (1) y (2) anteriores, entonces (x0,y0) es un punto silla
  4. Si |H3(f,x0)|=0, entonces no se tiene información.

Demostración:

Los incisos (1) y (2) son los del Criterio de la 2a derivada para funciones reales de n variables, con n=3.

El apartado (3) es el apartado (3) de ese criterio para n=3.

(4) La función f(x,y,z)=x4+y4+z4 tiene un mí nimo absoluto estricto en el origen y f tiene un máximo absoluto en el origen. En tanto que la función f(x,y,z)=x3+y3+z3 tiene un punto silla en el origen. En los tres casos, el determinante hessiano de f en el origen es 0.

QED

Al resolver problemas de máximos y mínimos de funciones de tres variables con una restricción, una estrategia es despejar una de las tres variables en términos de las otras dos, digamos, z=h(x,y) y entonces encontrar los valores extremos de la función F(x,y)=(x,y,h(x,y)). Si en (x0,y0) la función F tiene un valor extremo, es necesario verificar que se satisfacen las hipótesis del teorema siguiente para poder afirmar que (x0,y0,h(x0,y0)). es un valor extremo de f|S.

Teorema 30

Sean f:AR3R y g:BR3R dos funciones y S={(x,y,z)B| g(x,y,z)=c}. Supongamos que SA y que existe una función h:UR2R tal que (1){(x,y,h(x,y))|(x,y)U }=S. Si la función F(x,y)=(x,y,h(x,y)) tiene un valor extremo relativo (estricto) en (x0,y0)U, entonces f|S tiene el mismo tipo de valor extremo en (x0,y0,h(x0,y0)).

Demostración:

Supongamos que F tiene un máximo relativo estricto en (x0,y0)U. Es decir, existe δ>0 tal que Si xU 0(xx0)2+(yy0)2δ entonces F(x,y)F(x0,y0). y sólo se da la igualdad cuando (x,y)=(x0,y0)

Veremos que la función f restringida a S,f|S, tiene un máximo relativo estricto en (x0,y0,h(x0,y0)).

Sea (x,y,z)S tal que (x,y,z)(x0,y0,h(x0,y0)) entonces (x,y)(x0,y0), ya que z=h(x,y) para algún (x,y)U por (1) y si (x,y)=(x0,y0), entonces (x,y,z)=(x,y,h(x,y))=(x0,y0,h(x0,y0)).

Supongamos que (x,y,z)S y 0(xx0)2+(yy0)2+(zh(x0,y0))2δ, entonces (x,y,z)=(x,y,h(x,y)), con (x,y)U, y (x,y)(x0,y0). Por la desigualdad del triángulo, 0(xx0)2+(yy0)2δ, de donde, F(x,y)F(x0,y0). Así, f(x0,y0,h(x0,y0))=F(x,y)F(x0,y0)=(x0,y0,h(x0,y0)) y sólo se da la igualdad cuando (x,y)=(x0,y0)

y por lo tanto, f|S tiene un máximo relativo estricto en (x0,y0,h(x0,y0)).

QED

Referencias

[1] Magnus, Jan R. y Neudecker, Heinz. Matrix differential calculus with applications in statistics and econometrics. Wiley Series in Probability and Statistics. John Wiley & Sons, Ltd., Chichester, 1999. 450 pp.