Máximos y mínimos

Para una \(n\times n\) matriz \begin{equation*} A=\left( \begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & & \vdots \\ a_{n1} & \cdots & a_{nn} \end{array} \right) \end{equation*} con entradas en \(\mathbb{C}\) se define el polinomio característico como el determinante \begin{equation*} \left\vert A-\lambda I\right\vert , \end{equation*} donde \begin{equation*} I=\left( \begin{array}{ccc} 1 & \cdots & 0 \\ \vdots & & \vdots \\ 0 & \cdots & 1 \end{array} \right) \end{equation*} es la \(n\times n\) matriz identidad y \(\lambda\) es una indeterminada, es decir. \begin{eqnarray*} \left\vert A-\lambda I\right\vert &=&\left\vert \left( \begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & & \vdots \\ a_{n1} & \cdots & a_{nn} \end{array} \right) -\lambda \left( \begin{array}{ccc} 1 & \cdots & 0 \\ \vdots & & \vdots \\ 0 & \cdots & 1 \end{array} \right) \right\vert \\ &=&\left\vert \begin{array}{ccc} a_{11}-\lambda & \cdots & a_{1n} \\ \vdots & & \vdots \\ a_{n1} & \cdots & a_{nn}-\lambda \end{array} \right\vert \end{eqnarray*} Se puede probar que el polinomio característico de \(A\) es de grado \(n\) y con coeficiente principal \(\left( -1\right) ^{n}.\) Así, \begin{equation*} \left\vert A-\lambda I\right\vert =\left( -1\right) ^{n}\lambda ^{n}+c_{n-1}\lambda ^{n-1}+\cdots +c_{0}. \end{equation*} Comprobamos esta afirmación para dos casos particulares

\(n=2\) \begin{eqnarray*} \left\vert A-\lambda I\right\vert &=&\left\vert \begin{array}{cc} a_{11}-\lambda & a_{12} \\ a_{21} & a_{22}-\lambda \end{array} \right\vert =\lambda ^{2}-\left( a_{11}+a_{22}\right) \lambda -a_{12}a_{21}+a_{11}a_{22} \\ &=&\left( -1\right) ^{2}\lambda ^{2}-\left( a_{11}+a_{22}\right) \lambda -a_{12}a_{21}+a_{11}a_{22}. \end{eqnarray*}
\(n=3\) \begin{eqnarray*} \left\vert A-\lambda I\right\vert &=&\left\vert \begin{array}{ccc} a_{11}-\lambda & a_{12} & a_{13} \\ a_{21} & a_{22}-\lambda & a_{23} \\ a_{31} & a_{32} & a_{33}-\lambda \end{array} \right\vert \\ &=&-\lambda ^{3}+\left( a_{11}+a_{22}+a_{33}\right) \lambda ^{2} +\\ &&+\left( -a_{11}a_{22}+a_{12}a_{21}-a_{11}a_{33}+a_{13}a_{31}-a_{22}a_{33}+a_{23}a_{32}\right) \lambda + \\ &&+a_{11}a_{22}a_{33}-a_{11}a_{23}a_{32}-a_{12}a_{21}a_{33}+a_{12}a_{31}a_{23}+a_{21}a_{13}a_{32}-a_{13}a_{22}a_{31} \\ &=&\left( -1\right) ^{3}\lambda ^{3}+.... \end{eqnarray*}

Recordamos que si \(\lambda\) es un valor característico de una \(n\times n\) matriz real, es decir, con entradas reales, \(A\) , entonces existe un vector \(\overline{h}\) en \(\mathbb{R}^{n}\) distinto del vector cero y tal que \begin{equation*} A\overline{h}=\lambda \overline{h}. \end{equation*} Al dividir a \(\overline{h}\) entre su norma \(\left\Vert \overline{h} \right\Vert\) obtenemos un vector unitario \(\overline{u}\) tal que \begin{equation*} A\overline{u}=\lambda \overline{u}. \end{equation*}

Para un escalar \(\lambda\) la matriz \(A-\lambda I\) es no invertible si y sólo si \(\lambda\) es un valor característico de \( A.\)

Para una \(m\times n\) matriz \(A\) \begin{equation*} A=\left( \begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & & \vdots \\ a_{m1} & \cdots & a_{mn} \end{array} \right) \end{equation*} se define su matriz traspuesta \(A^{t}\) como aquella \(n\times m\) matriz que tiene por renglones a las columnas de \(A,\) es decir, \begin{equation*} A^{t}=\left( \begin{array}{ccc} a_{11} & \cdots & a_{m1} \\ \vdots & & \vdots \\ a_{1n} & \cdots & a_{mn} \end{array} \right) \end{equation*} Observaciones: Recordemos que propiedades generales de la traspuesta son:

\(\left( A^{t}\right) ^{t}=A.\)
\(\left( AB\right) ^{t}=B^{t}A^{t}\) si el producto \(AB\) está definido.
\(\left\vert A^{t}\right\vert =\left\vert A\right\vert\) si \(A\) es una matriz cuadrada.
\(A^{t}=A\) si y sólo si \(A\) es una matriz simétrica.
\(\left( A^{-1}\right) ^{t}=\left( A^{t}\right) ^{-1}\) cuando \(A\) es invertible.

Así, podemos escribir la igualdad (\ref{prodescymat}) como \begin{equation} \overline{x}^{t}\overline{y}=\overline{x}\cdot \overline{y}. \label{prodescalar}\tag{1.3} \end{equation} Sea \(A\) una \(n\times n\) matriz real y \(\overline{h}=\left( h_{1},\ldots ,h_{n}\right)\) un vector en \(\mathbb{R}^{n}.\) Denotamos por \(A\overline{h}\) el producto de las matrices \(A\) y \(\overline{h}.\) Si \(\overline{r}_{k}\), con \(1\leq k\leq n\), es el \(k-\)renglón de \(A\), entonces \begin{equation*} A\overline{h}=A\left( \begin{array}{c} h_{1} \\ \vdots \\ h_{n} \end{array} \right) =\left( \begin{array}{c} \overline{r}_{1}\cdot \overline{h} \\ \vdots \\ \overline{r}_{n}\cdot \overline{h} \end{array} \right) . \end{equation*} Al considerar \(A\overline{h}\) como un vector en \(\mathbb{R}^{n}\) podemos tomar su norma en este espacio y se cumple \begin{eqnarray} \left\Vert A\overline{h}\right\Vert &=&\left\Vert \left( \overline{r} _{1}\cdot \overline{h},\ldots ,\overline{r}_{n}\cdot \overline{h}\right) \right\Vert \label{desigA}\tag{1.4} \\ &\leq &\left\vert \overline{r}_{1}\cdot \overline{h}\right\vert +\cdots +\left\vert \overline{r}_{n}\cdot \overline{h}\right\vert \notag \\ &\leq &\left\Vert \overline{r}_{1}\right\Vert \left\Vert \overline{h} \right\Vert +\cdots +\left\Vert \overline{r}_{n}\right\Vert \left\Vert \overline{h}\right\Vert \notag \\ &\leq &\left( \left\Vert \overline{r}_{1}\right\Vert +\cdots +\left\Vert \overline{r}_{n}\right\Vert \right) \left\Vert \overline{h}\right\Vert , \notag \end{eqnarray} donde la primera desigualdad es la del triángulo y la segunda es la de Cauchy-Schwarz.

Para una \(n\times n\) matriz real \(A\) con renglones \(\overline{r}_{k}\), \( 1\leq k\leq n\), definimos su norma como \begin{equation*} \left\Vert A\right\Vert =\left\Vert \overline{r}_{1}\right\Vert +\cdots +\left\Vert \overline{r}_{n}\right\Vert . \end{equation*} De acuerdo con (\ref{desigA}), esta norma tiene la siguiente propiedad \begin{equation} \left\Vert A\overline{h}\right\Vert \leq \left\Vert A\right\Vert \left\Vert \overline{h}\right\Vert \text{ para todo }\overline{h}\in \mathbb{R}^{n}. \label{DesnormaA} \end{equation}

Si \(A\) es una matriz real simétrica y \(\overline{x}, \overline{y}\in \mathbb{R}^{n}\), entonces \begin{equation*} A\overline{x}\cdot \overline{y}=\overline{x}\cdot A\overline{y}. \tag{1.5} \end{equation*} Demostración:

Funciones cuadráticas

Para una \(n\times n\) matriz real \(A\) con renglones \(r_{k}=\left( a_{k1}.\cdots ,a_{kn}\right) ,1\leq k\leq n,\) y \(\overline{h} =\left( h_{1},\ldots ,h_{n}\right) \in \mathbb{R}^{n}\) tenemos \begin{eqnarray} \overline{h}^{t}A\overline{h} &=&\left( \begin{array}{ccc} h_{1} & \cdots & h_{n} \end{array} \right) \left( \begin{array}{c} \overline{r}_{1}\cdot \overline{h} \\ \vdots \\ \overline{r}_{n}\cdot \overline{h} \end{array} \right) \notag \\ &=&\left( \begin{array}{ccc} h_{1} & \cdots & h_{n} \end{array} \right) \left( \begin{array}{c} a_{11}h_{1}+\cdots +a_{1n}h_{n} \\ \vdots \\ a_{n1}h_{1}+\cdots +a_{nn}h_{n} \end{array} \right) \label{FormCuadA}\tag{1.6} \\ &=&a_{11}h_{1}^{2}+\cdots +a_{1n}h_{1}h_{n}+\cdots +a_{n1}h_{1}h_{n}+\cdots +a_{nn}h_{n}^{2} \notag \\ &=&\sum\limits_{i,j=1}^{n}a_{ij}h_{i}h_{j}=A\overline{h}\cdot \overline{h}. \notag \end{eqnarray} Definición 5

Decimos que \(Q:\mathbb{R}^{n}\longrightarrow \mathbb{R}\) es una función cuadrática en \(\mathbb{R}^{n}\) si \begin{equation*} Q\left( \overline{h}\right) =\sum\limits_{i,j=1}^{n}a_{ij}h_{i}h_{j} \end{equation*} para cada \(\overline{h}=\left( h_{1},...,h_{n}\right)\) en \(\mathbb{R}^{n}\) y donde \(A=\left( a_{ij}\right)\) es una \(n\times n\) matriz real. Esta función \(Q\) es llamada la función cuadrática asociada a \(A.\)

Según hemos visto en (\ref{FormCuadA}), si \(Q\) es la función cuadrática asociada a la matriz \(A\), entonces \begin{equation*} Q\left( \overline{h}\right) =\overline{h}^{t}A\overline{h}=A\overline{h} \cdot \overline{h}. \end{equation*} Para \(Q\left( \overline{h}\right)\) usaremos alguna de estas dos expresiones, según consideremos más conveniente para el caso que nos ocupe.

En \(\mathbb{R}^{2}\) la ecuación \(Q\left( \overline{h}\right) =k\) representa una cónica (posiblemente degenerada) con centro en el origen \begin{equation*} Ax^{2}+Bxy+Cy^{2}=k. \end{equation*}
En \(\mathbb{R}^{3}\) la ecuación \(Q\left( \overline{h}\right) =k\) representa una cuádrica (posiblemente degenerada) con centro en el origen \begin{equation*} Ax^{2}+Bxy+Cy^{2}+Dxz+Ey^{2}+Fyz+Gz^{2}=k. \end{equation*}

Observación:

Si \(Q:\mathbb{R}^{n}\longrightarrow \mathbb{R}\) es una función cuadrática entonces \(Q\left( \alpha \overline{h}\right) =\alpha ^{2}Q\left( \overline{h}\right)\) para cada \(\alpha \in \mathbb{R}\) y \( \overline{h}\in \mathbb{R}^{n}.\)
\(Q\left( \overline{0}\right) =0.\)
Toda función cuadrática en \(\mathbb{R}^{n}\) es continua, pues es la suma de las \(n^{2}\) funciones definidas como \begin{eqnarray*} q_{ij} &:&\mathbb{R}^{n}\longrightarrow \mathbb{R} \\ & &\left( h_{1},\ldots ,h_{n}\right) &\longmapsto &a_{ij}h_{i}h_{j}, \end{eqnarray*} con \(1\leq i,j\leq n,\) y cada una de éstas es una función continua al ser el producto de una constante \(a_{ij}\) por dos funciones proyección: \(\pi _{i}\left( h_{1},\ldots ,h_{n}\right) =h_{i}\) y \(\pi _{j}\left( h_{1},\ldots ,h_{n}\right) =h_{j}.\)

Lema 6

Toda función cuadrática \(Q:\mathbb{R} ^{n}\longrightarrow \mathbb{R}\) alcanza su valor mínimo \(\beta\) en la esfera unitaria \(S=\left\{ \left. \overline{h}\in \mathbb{R}^{n}\right\vert ~\left\Vert \overline{h}\right\Vert =1\right\}\) de \(\mathbb{R}^{n}\) y \begin{equation*} Q\left( \overline{h}\right) \geq \beta \left\Vert \overline{h}\right\Vert ^{2}\text{ para todo }\overline{h}\in \mathbb{R}^{n}. \end{equation*} Si \(Q\) es la función cuadrática asociada a una \(n\times n\) matriz real \(A\), entonces la desigualdad anterior equivale a \begin{equation} A\overline{h}\cdot \overline{h}\geq \beta \left\Vert \overline{h}\right\Vert ^{2}\text{ para todo }\overline{h}\in \mathbb{R}^{n}. \label{2alemma}\tag{1.7} \end{equation}

Demostración:

Sea \(S=\left\{ \left. \overline{h}\in \mathbb{R}^{n}\right\vert ~\left\Vert \overline{h}\right\Vert =1\right\} .\) El conjunto \(S\) es cerrado y acotado y \(Q\) es continua en \(\mathbb{R}^{n}\), entonces \(Q\) restringida a \(S\) alcanza su valor mínimo \(\beta .\)

Si \(\overline{h}\in \mathbb{R}^{n}\) no es el vector cero, tenemos \(\dfrac{ \overline{h}}{\left\Vert \overline{h}\right\Vert }\in S\) y entonces \begin{equation*} Q\left( \overline{h}\right) =Q\left( \dfrac{\overline{h}}{\left\Vert \overline{h}\right\Vert }\left\Vert \overline{h}\right\Vert \right) =\left\Vert \overline{h}\right\Vert ^{2}Q\left( \dfrac{\overline{h}}{ \left\Vert \overline{h}\right\Vert }\right) \geq \left\Vert \overline{h} \right\Vert ^{2}\beta . \end{equation*} Si \(\overline{h}=\overline{0},\) entonces \(Q\left( \overline{h}\right) =0=\left\Vert \overline{h}\right\Vert ^{2}\beta .\) Por tanto, la desigualdad vale para todo \(\overline{h}\in \mathbb{R}^{n}.\)

La desigualdad (\ref{2alemma}) se tiene porque \(Q\left( \overline{h}\right) =A\overline{h}\cdot \overline{h}\) si \(Q\) es la función cuadrática asociada, a \(A.\)

QED

Matriz positiva (negativa) definida y matriz indefinida

Definición 7

Una \(n\times n\) matriz \(A\) simétrica y real es llamada positiva definida si su función cuadrática asociada satisface \begin{equation*} Q(h)=\overline{h}^{t}A\overline{h}=A\overline{h}\cdot \overline{h}>0 \end{equation*} para todo vector \(\overline{h}\neq \overline{0}\) en \(\mathbb{R}^{n}.\)

Definición 8

Una \(n\times n\) matriz \(A\) simétrica real es llamada:

Positiva semidefinida si \begin{equation*} Q(h)=\overline{h}^{t}A\overline{h}=A\overline{h}\cdot \overline{h}\geq 0 \end{equation*} para todo \(\overline{h}\in \mathbb{R}^{n}.\)

Negativa definida si \begin{equation*} Q(h)=\overline{h}^{t}A\overline{h}=A\overline{h}\cdot \overline{h} < 0 \end{equation*} para todo vector \(\overline{h}\neq \overline{0}\) en \(\mathbb{R}^{n}.\)

Indefinida si la función cuadrática \(Q(h)\) toma al menos un valor positivo y otro negativo.

Lema 9

Si una \(n\times n\) matriz \(A\) simétrica y real es indefinida y \(Q\) es la función cuadrática asociada a \(A,\) entonces existen vectores unitarios \(\overline{u}_{1}\) y \(\overline{u}_{2}\) en \( \mathbb{R}^{n}\) tales que \begin{equation*} Q\left( \overline{u}_{1}\right) =A\overline{u}_{1}\cdot \overline{u}_{1}>0 \end{equation*} y \begin{equation*} Q\left( \overline{u}_{2}\right) =A\overline{u}_{2}\cdot \overline{u}_{2} < 0. \end{equation*}

Demostración:

Como \(A\) es indefinida, existen vectores \(\overline{h}_{1}\) y \(\overline{h} _{2}\) en \(\mathbb{R}^{n}\) tales que \begin{equation*} Q\left( \overline{h}_{1}\right) =A\overline{h}_{1}\cdot \overline{h}_{1}>0 \end{equation*} y \begin{equation*} Q\left( \overline{h}_{2}\right) =A\overline{h}_{2}\cdot \overline{h}_{2} < 0. \end{equation*} Estos vectores son distintos del vector cero, pues \(Q\left( \overline{0} \right) =0.\) Los vectores \(\overline{u}_{1}=\dfrac{1}{\left\Vert \overline{h} _{1}\right\Vert }\overline{h}_{1}\) y \(\overline{u}_{2}=\dfrac{1}{\left\Vert \overline{h}_{2}\right\Vert }\overline{h}_{2}\) son unitarios y \begin{equation*} Q\left( \overline{u}_{1}\right) =\frac{1}{\left\Vert \overline{h} _{1}\right\Vert ^{2}}Q\left( \overline{h}_{1}\right) > 0 \end{equation*} y \begin{equation*} Q\left( \overline{u}_{2}\right) =\frac{1}{\left\Vert \overline{h} _{2}\right\Vert ^{2}}Q\left( \overline{h}_{2}\right) < 0. \end{equation*}

QED

Observaciones:

Si \(A\) es positiva definida, entonces \(A\) es positiva semidefinida.
\(A\) es negativa definida si y sólo si \(-A\) es positiva definida.

Teorema 10

Si \(A\) es una \(n\times n\) matriz positiva definida, entonces su función cuadrática asociada \(Q:\mathbb{R} ^{n}\longrightarrow \mathbb{R}\) restringida a \(S=\left\{ \left. \overline{h} \in \mathbb{R} ^{n}\right\vert ~\left\Vert \overline{h}\right\Vert =1\right\}\) alcanza un valor mínimo positivo \(\beta\) y se cumple que \begin{equation*} Q\left( \overline{h}\right) \geq \beta \left\Vert \overline{h}\right\Vert ^{2}\text{ para todo }\overline{h}\in \mathbb{R}^{n}. \end{equation*}

Demostración:

Por el lema (6), sólo falta probar que \(\beta >0.\)

Tenemos \(\beta =Q\left( \overline{h}_{0}\right)\) para algún \(\left\Vert \overline{h}_{0}\right\Vert =1\).

Como \(A\) es positiva definida, entonces \(\beta =Q\left( \overline{h} _{0}\right) >0\), ya que \(Q\left( \overline{h}\right) >0\) para todo \( \overline{h}\neq \overline{0}\).

QED

Para dar una caracterización de las matrices positivas definidas vamos a dar una generalización de la desigualdad de Cauchy-Schwarz.

Teorema 11 Desigualdad generalizada de Cauchy-Schwarz

Si \(A\) es una \(n\times n\) matriz positiva semidefinida y \(\overline{x}, \overline{y}\in \mathbb{R}^{n},\) entonces se cumple \begin{equation*} \left( A\overline{x}\cdot \overline{y}\right) ^{2}\leq \left( A\overline{x} \cdot \overline{x}\right) \left( A\overline{y}\cdot \overline{y}\right) . \end{equation*}

Demostración:

Supongamos \(\overline{x}=\left( x_{1},\ldots ,x_{n}\right)\), \(\overline{y} =\left( y_{1},\ldots ,y_{n}\right)\) y \begin{equation*} A=\left( \begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & & \vdots \\ a_{n1} & \cdots & a_{nn} \end{array} \right) \end{equation*} Si \(A\overline{x}\cdot \overline{y}=0,\) la desigualdad es obvia, ya que \(A \overline{x}\cdot \overline{x}\geq 0\) y \(A\overline{y}\cdot \overline{y}\geq 0\) por ser \(A\) positiva semidefinida.

Supongamos que \(A\overline{x}\cdot \overline{y}\neq 0.\)

Para \(\lambda \in \mathbb{R}\), tenemos \(A(\overline{x}-\lambda \overline{y} )\cdot \left( \overline{x}-\lambda \overline{y}\right) \geq 0\) por ser \(A\) positiva semidefinida. Por el Teorema (4) y dado que el producto escalar conmuta, tenemos \begin{equation*} A\overline{y}\cdot \overline{x}=\overline{y}\cdot A\overline{x}=A\overline{x} \cdot \overline{y}. \end{equation*} Así, \begin{eqnarray} 0 &\leq &A\left( \overline{x}-\lambda \overline{y}\right) \cdot \left( \overline{x}-\lambda \overline{y}\right) =\left( A\overline{x}-\lambda A \overline{y}\right) \cdot \left( \overline{x}-\lambda \overline{y}\right) \notag \\ &=&A\overline{x}\cdot \overline{x}-\lambda A\overline{y}\cdot \overline{x} -\lambda A\overline{x}\cdot \overline{y}+\lambda ^{2}A\overline{y}\cdot \overline{y} \label{CuentasCauchy}\tag{1.8}\\ &=&A\overline{x}\cdot \overline{x}-2\lambda A\overline{x}\cdot \overline{y} +\lambda ^{2}A\overline{y}\cdot \overline{y}. \notag \end{eqnarray} Si \(A\overline{y}\cdot \overline{y}\neq 0\), hagamos \(\lambda =\dfrac{A \overline{x}\cdot \overline{y}}{A\overline{y}\cdot \overline{y}}.\) Entonces \begin{eqnarray*} 0 &\leq &A\overline{x}\cdot \overline{x}-2\frac{A\overline{x}\cdot \overline{ y}}{A\overline{y}\cdot \overline{y}}A\overline{x}\cdot \overline{y}+\left( \frac{A\overline{x}\cdot \overline{y}}{A\overline{y}\cdot \overline{y}} \right) ^{2}A\overline{y}\cdot \overline{y} \\ &=&A\overline{x}\cdot \overline{x}-\frac{\left( A\overline{x}\cdot \overline{ y}\right) ^{2}}{A\overline{y}\cdot \overline{y}}. \end{eqnarray*} Al despejar, obtenemos la desigualdad buscada \begin{equation*} \left( A\overline{x}\cdot \overline{y} \right) ^{2}\leq \left( A \overline{x}\cdot \overline{x}\right) \left( A\overline{y}\cdot \overline{y} \right) . \end{equation*} Por otra parte, no puede suceder que \(A\overline{y}\cdot \overline{y}=0,\) por que si así fuera, entonces (\ref{CuentasCauchy}) se reduce a \begin{equation*} 0\leq A\overline{x}\cdot \overline{x}-2\lambda A\overline{x}\cdot \overline{ y } \end{equation*} para cualquier \(\lambda \in \mathbb{R}\) y para \(\lambda =\dfrac{1}{2}\dfrac{ A \overline{x}\cdot \overline{x}+1}{A\overline{x}\cdot \overline{y}}\) llegamos al absurdo \begin{equation*} 0\leq A\overline{x}\cdot \overline{x}-2\dfrac{1}{2}\dfrac{A\overline{x}\cdot \overline{x}+1}{A\overline{x}\cdot \overline{y}}A\overline{x}\cdot \overline{ y}=-1. \end{equation*}

QED

Corolario 12

Si \(A\) es una \(n\times n\) matriz positiva semidefinida y \(\overline{h}\in \mathbb{R}^{n},\) entonces \begin{equation*} \left\Vert A\overline{h}\right\Vert ^{2}\leq \left\Vert A\right\Vert A \overline{h}\cdot \overline{h}. \end{equation*}

Demostración:

Si \(\left\Vert A\overline{h}\right\Vert =0,\) la desigualdad es obvia porque \( A\overline{h}\cdot \overline{h}\geq 0\) por ser \(A\) positiva semidefinida y \( \left\Vert A\right\Vert \geq 0.\)

Supongamos \(\left\Vert A\overline{h}\right\Vert \neq 0.\) En la desigualdad generalizada de Cauchy tomemos \(\overline{x}=\overline{h}\) y \(\overline{y}=A \overline{h}.\) Entonces \begin{equation} \left( A\overline{h}\cdot A\overline{h}\right) ^{2}\leq \left( A\overline{h} \cdot \overline{h}\right) \left( A\left( A\overline{h}\right) \cdot A \overline{h}\right) . \label{1adesCor}\tag{1.9} \end{equation} Por la desigualdad de Cauchy-Schwarz en \(\mathbb{R}^{n}\) y dado que \( \left\Vert A\left( A\overline{h}\right) \right\Vert \leq \left\Vert A\right\Vert \left\Vert A\overline{h}\right\Vert\) tenemos \begin{eqnarray*} A\left( A\overline{h}\right) \cdot A\overline{h} &\leq &\left\Vert A\left( A \overline{h}\right) \right\Vert \left\Vert A\overline{h}\right\Vert \\ &\leq &\left\Vert A\right\Vert \left\Vert A\overline{h}\right\Vert \left\Vert A\overline{h}\right\Vert \\ &=&\left\Vert A\right\Vert \left\Vert A\overline{h}\right\Vert ^{2}. \end{eqnarray*} Por otra parte, \(\left\Vert A\overline{h}\right\Vert ^{2}=A\overline{h}\cdot A\overline{h}.\) Al hacer las sustituciones en (\ref{1adesCor}), obtenemos \begin{equation*} \left\Vert A\overline{h}\right\Vert ^{4}\leq \left( A\overline{h}\cdot \overline{h}\right) \left\Vert A\right\Vert \left\Vert A\overline{h} \right\Vert ^{2}. \end{equation*} Así, \begin{equation*} \left\Vert A\overline{h}\right\Vert ^{2}\leq \left\Vert A\right\Vert A \overline{h}\cdot \overline{h}. \end{equation*}

QED

Teorema 13

Sea \(A\) una \(n\times n\) matriz real y simétrica y \(\beta\) el mínimo, en la esfera unitaria \(S\) de \(\mathbb{R}^{n}\), de su función cuadrática \(Q\) asociada. Entonces \(\beta\) es un valor característico de \(A.\)

Demostración:

Recordamos que \(S=\left\{ \left. \overline{h}\in \mathbb{R}^{n}\right\vert ~\left\Vert \overline{h}\right\Vert =1\right\}\) y \(Q\left( \overline{h} \right) =A\overline{h}\cdot \overline{h}\).

Como \(\beta +\dfrac{1}{n}>\beta\) para cada entero \(n\geq 1\) y \(\beta =\min\limits_{\left\Vert \overline{h}\right\Vert =1}A\overline{h}\cdot \overline{h},\) existe \(\overline{h}_{n},\) con \(\left\Vert \overline{h} _{n}\right\Vert =1\), tal que \begin{equation*} A\overline{h}_{n}\cdot \overline{h}_{n} \leq \beta +\dfrac{1}{n}. \end{equation*} Probaremos primero que \begin{equation*} \left\Vert \left( A-\beta I\right) \overline{h}_{n}\right\Vert \longrightarrow 0 \quad \quad \quad \text{ cuando }n\longrightarrow \infty . \end{equation*} En vista de que \(1=\left\Vert \overline{h}_{n}\right\Vert ^{2}=I\overline{h} _{n}\cdot \overline{h}_{n},\) donde \(I\) es la matriz identidad de tamaño \(n\times n\), tenemos \begin{eqnarray} A\overline{h}_{n}\cdot \overline{h}_{n} &<&\beta \left( I\overline{h} _{n}\cdot \overline{h}_{n}\right) +\dfrac{1}{n} \notag \\ \left( A-\beta I\right) \overline{h}_{n}\cdot \overline{h}_{n} &<&\dfrac{1}{ n }. \label{TerceraTheorem} \tag{1.10} \end{eqnarray} La matriz \(A-\beta I\) es positiva semidefinida, pues es simétrica y \begin{eqnarray*} \left( A-\beta I\right) \overline{h}\cdot \overline{h} &=&A\overline{h}\cdot \overline{h}-\beta \left\Vert \overline{h}\right\Vert ^{2} \\ A\overline{h}\cdot \overline{h}-\beta \left\Vert \overline{h}\right\Vert ^{2} &\geq &0. \end{eqnarray*} para todo \(\overline{h}\in \mathbb{R}^{n},\) ya que por lema (6) \(A \overline{h}\cdot \overline{h}\geq \beta \left\Vert \overline{h}\right\Vert^{2}.\)

Del corolario anterior y la desigualdad (\ref{TerceraTheorem}), se sigue que \begin{eqnarray*} \left\Vert \left( A-\beta I\right) \overline{h}_{n}\right\Vert ^{2} &\leq &\left\Vert \left( A-\beta I\right) \right\Vert \left( A-\beta I\right) \overline{h}_{n}\cdot \overline{h}_{n} \\ &\leq &\frac{1}{n}\left\Vert \left( A-\beta I\right) \right\Vert . \end{eqnarray*} Entonces \begin{equation*} 0\leq \left\Vert \left( A-\beta I\right) \overline{h}_{n}\right\Vert \leq \frac{1}{\sqrt{n}}\left\Vert \left( A-\beta I\right) \right\Vert ^{\frac{1}{ 2 }}. \end{equation*} Por el Teorema del sandwich, obtenemos \begin{equation} \left\Vert \left( A-\beta I\right) \overline{h}_{n}\right\Vert \longrightarrow 0 \quad \text{cuando }n\longrightarrow \infty . \label{tiende0}\tag{1.11} \end{equation} Supongamos que \(\beta\) no es un valor característico de \(A\). Entonces \( \left( A-\beta I\right) \overline{h}_{n}\neq \overline{0}\) para todo \(n\geq 1\) y por el Corolario (2), la matriz \(A-\beta I\) es invertible.

Para cada \(n\geq 1\) tenemos que \begin{equation*} \overline{x}_{n}=\dfrac{1}{\left\Vert \left( A-\beta I\right) \overline{h} _{n}\right\Vert }\left( A-\beta I\right) \overline{h}_{n} \end{equation*} es un vector unitario. Como \begin{equation*} \left\Vert \left( A-\beta I\right) ^{-1}\overline{x}_{n}\right\Vert \leq \left\Vert \left( A-\beta I\right) ^{-1}\right\Vert \end{equation*} entonces \begin{eqnarray*} \left\Vert \left( A-\beta I\right) ^{-1}\right\Vert &\geq &\left\Vert \left( A-\beta I\right) ^{-1}\overline{x}_{n}\right\Vert \\ &=&\left\Vert \frac{1}{\left\Vert \left( A-\beta I\right) \overline{h} _{n}\right\Vert }\left( A-\beta I\right) ^{-1}\left( A-\beta I\right) \overline{h}_{n}\right\Vert \\ &=&\frac{\left\Vert \overline{h}_{n}\right\Vert }{\left\Vert \left( A-\beta I\right) \overline{h}_{n}\right\Vert } \\ &=&\frac{1}{\left\Vert \left( A-\beta I\right) \overline{h}_{n}\right\Vert }. \end{eqnarray*} Así, \begin{equation*} \left\Vert \left( A-\beta I\right) ^{-1}\right\Vert \left\Vert \left( A-\beta I\right) \overline{h}_{n}\right\Vert \geq 1\text{ para todo }n\geq 1. \end{equation*} Al hacer tender \(n\) a \(\infty ,\) llegamos al absurdo \(0\geq 1,\) debido a ( \ref{tiende0}). Por tanto, \(\beta\) es un valor característico de \(A.\)

QED

Teorema 14

Una \(n\times n\) matriz \(A\) real y simétrica es positiva definida si y sólo si cada uno de sus valores característicos es positivo.

Demostración:

Supongamos que \(A\) es positiva definida y \(\lambda\) es un valor característico de \(A.\) Hay un vector \(\overline{x}\neq \overline{0}\) en \(\mathbb{R}^{n}\) tal que \(A \overline{x}=\lambda \overline{x}\) y como \(A\) es positiva definida, entonces \begin{equation*} \lambda \left\Vert \overline{x}\right\Vert ^{2}=\lambda \overline{x}\cdot \overline{x}=A\overline{x}\cdot \overline{x}>0. \end{equation*} De donde, \(\lambda >0.\)

Recíprocamente, supongamos que todo valor característico de \(A\) es positivo.

De acuerdo con el teorema anterior \begin{equation*} \beta =\min\limits_{\left\Vert \overline{h}\right\Vert =1}A\overline{h}\cdot \overline{h} \end{equation*} es un valor característico de \(A\) y por nuestra hipótesis \(\beta >0.\)

Por el lema (6), \begin{equation*} A\overline{h}\cdot \overline{h}\geq \beta \left\Vert \overline{h}\right\Vert ^{2}\text{ para todo }\overline{h}\in \mathbb{R}^{n}. \end{equation*} En particular, \(A\overline{h}\cdot \overline{h}>0\) para todo \(\overline{h} \neq \overline{0}.\) Por tanto, \(A\) es positiva definida.

QED

Combinando los teoremas anterior y el teorema(1) obtenemos:

Corolario 15

El determinante de una matriz positiva definida es positivo.

Corolario 16

Si \(A\) es una \(n\times n\) matriz positiva definida, entonces \(A\) es invertible y \(A^{-1}\) es positiva definida.

Demostración:

La matriz \(A\) es invertible por tener determinante distinto de cero, de hecho positivo. Como \(\left( A^{t}\right) ^{-1}=\left( A^{-1}\right) ^{t}\) y \(A\) es simétrica, entonces \begin{equation*} \left( A^{-1}\right) ^{t}=A^{-1}. \end{equation*} Así, \(A^{-1}\) es simétrica.

Sea \(\overline{y}\in \mathbb{R}^{n}\) distinto de \(\overline{0}.\) Existe \( \overline{x}\in \mathbb{R}^{n},\) con \(\overline{x}\neq \overline{0},\) tal que \(A\overline{x}=\overline{y},\) ya que \(A\) es invertible. Debido a esto y a que \(\left( A\overline{x}\right) ^{t}=\overline{x}^{t}A^{t}\) y \(A^{t}=A,\) tenemos \begin{eqnarray*} \overline{y}^{t}A^{-1}\overline{y} &=&\left( A\overline{x}\right) ^{t}\left( A^{-1}\right) ^{t}A\overline{x} \\ &=&\overline{x}^{t}A^{t}\left( A^{t}\right) ^{-1}A\overline{x} \\ &=&\overline{x}^{t}A\overline{x}>0. \end{eqnarray*} Por consiguiente, \(A^{-1}\) es positiva definida.

QED

Corolario 17

Una \(n\times n\) matriz \(A\) real y simétrica es negativa definida si y sólo si cada uno de sus valores característicos es negativo.

Demostración:

\(A\) es negativa definida \(~\Longleftrightarrow -A\) es positiva definida.

Un número real \(\lambda\) es valor característico de \( -A\Longleftrightarrow -\lambda\) es un valor característico de \(A.\)

Por estas dos equivalencias y el Teorema (14), tenemos:

Supongamos que \(A\) es negativa definida.

Si \(\lambda\) es un valor característico de \(A\), entonces \(-\lambda\) es un valor característico de \(-A\) y por tanto, \(-\lambda >0\) por ser \( -A\) positiva definida. Así, \(\lambda <0.\)

Recíprocamente, supongamos que todo valor característico de \(A\) es negativo. Entonces todo valor característico de \(-A\) es positivo y \(-A\) es positiva definida, o sea \(A\) es negativa definida.

QED

Corolario 18

Sea \(A\) una \(n\times n\) matriz real, simétrica e invertible. La matriz \(A\) es indefinida si y sólo si \(A\) no es positiva definida ni negativa definida.

Demostración:

Supongamos que \(A\) no es positiva definida ni negativa definida.

Por el Teorema (14) y el corolario anterior, existen valores característicos \(\lambda _{1}\) y \(\lambda _{2}\) de \(A\) tales que \(\lambda _{1}\leq 0\) y \(\lambda _{2}\geq 0.\) Hay dos vectores unitarios \(\overline{u}_{1},\overline{u}_{2}\) en \(\mathbb{R} ^{n}\) que satisfacen \[ A\overline{u}_{1}=\lambda _{1}\overline{u}_{1}\text{ y }A\overline{u}% _{2}=\lambda _{2}\overline{u}_{2} \] Como \(A\) es invertible, por hipótesis, entonces \(\left\vert A\right\vert \neq 0.\) Y como \(\left\vert A\right\vert\) es el producto de sus valores característicos, entonces todo valor característico de \(A\) es distinto de \(0.\) Así, \(\lambda _{1} < 0, \lambda _{2}>0\) y \[ A\overline{u}_{1}\cdot \overline{u}_{1}=\lambda _{1}\overline{u}_{1}\cdot \overline{u}_{1}=\lambda _{1} < 0 \] y \[ A\overline{u}_{2}\cdot \overline{u}_{2}=\lambda _{2}\overline{u}_{2}\cdot \overline{u}_{2}=\lambda _{2}>0\text{~} \] Es decir, \(A\) es indefinida.

Recíprocamente, si \(A\) es indefinida entonces no es positiva definida ni negativa definida, pues toma un valor positivo y otro negativo en vectores distintos de cero.

QED

Los siguientes tres resultados están tomados de [1, Teoremas 27 y 29, pp. 25,26].

Lema 19

Sea \begin{equation*} A=\left( \begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & & \vdots \\ a_{n1} & \cdots & a_{nn} \end{array} \right) \end{equation*} una matriz positiva definida y \(b_{1},\ldots ,b_{n},\alpha \in \mathbb{R}\) no necesariamente distintos entre sí. Definimos \begin{equation*} B=\left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & b_{1} \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & b_{n} \\ b_{1} & \cdots & b_{n} & \alpha \end{array} \right) \qquad \text{y}\qquad \overline{b}=\left( \begin{array}{c} b_{1} \\ \vdots \\ b_{n} \end{array} \right) . \end{equation*} Entonces \begin{equation*} \left\vert B\right\vert =\left( \alpha -\overline{b}^{t}A^{-1}\overline{b} \right) \left\vert A\right\vert . \end{equation*}

Demostración:

Si \(\overline{x}=\left( x_{1},...,x_{n}\right) \in \mathbb{R}^{n}\), hagamos \begin{equation*} A\overline{x}=\left( \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right)\qquad \text{ y } \qquad -A^{-1}\overline{b}=\overline{c}=\left( \begin{array}{c} c_{1} \\ \vdots \\ c_{n} \end{array} \right) . \end{equation*} Definamos la \(\left( n+1\right) \times \left( n+1\right)\) matriz \begin{equation*} P=\left( \begin{array}{cccc} 1 & \cdots & 0 & c_{1} \\ \vdots & & \vdots & \vdots \\ 0 & & 1 & c_{n} \\ 0 & \cdots & 0 & 1 \end{array} \right) . \end{equation*} Entonces

1. \(\overline{b}^{t}\left( -A^{-1}\overline{b}\right) =b_{1}c_{1}+\cdots +b_{n}c_{n}.\)

2. Por la multiplicación de matrices y la definición de \(\overline{c} ,\) tenemos \begin{equation*} A\overline{c}=\left( \begin{array}{c} a_{11}c_{1}+\cdots +a_{1n}c_{n} \\ \vdots \\ a_{n1}c_{1}+\cdots +a_{nn}c_{n} \end{array} \right) \qquad \text{ y}\qquad \text{ }A\overline{c}=-AA^{-1}\overline{b}=- \overline{b}=\left( \begin{array}{c} -b_{1} \\ \vdots \\ -b_{n} \end{array} \right) , \end{equation*} de donde, \begin{equation} a_{k1}c_{1}+\cdots +a_{kn}c_{n}=-b_{k} \quad \text{ para cada }1\leq k\leq n. \label{ac=b}\tag{1.12} \end{equation} 3. \begin{equation*} P^{t}=\left( \begin{array}{cccc} 1 & \cdots & 0 & 0 \\ \vdots & & \vdots & \vdots \\ 0 & & 1 & 0 \\ c_{1} & \cdots & c_{n} & 1 \end{array} \right) . \end{equation*} Al desarrollar \(\left\vert P\right\vert\) respecto al último renglón, tenemos \begin{equation*} \left\vert P\right\vert =\left\vert \left( \begin{array}{cccc} 1 & \cdots & 0 & c_{1} \\ \vdots & & \vdots & \vdots \\ 0 & & 1 & c_{n} \\ 0 & \cdots & 0 & 1 \end{array} \right) \right\vert =1 \end{equation*} y por tanto, \begin{equation*} \left\vert P^{t}\right\vert =1. \end{equation*} Por otra parte, \begin{eqnarray*} BP &=&\left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & b_{1} \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & b_{n} \\ b_{1} & \cdots & b_{n} & \alpha \end{array} \right) \left( \begin{array}{cccc} 1 & \cdots & 0 & c_{1} \\ \vdots & & \vdots & \vdots \\ 0 & & 1 & c_{n} \\ 0 & \cdots & 0 & 1 \end{array} \right) \\ && \\ &=&\left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & a_{11}c_{1}+\cdots +a_{1n}c_{n}+b_{1} \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & a_{n1}c_{1}+\cdots +a_{nn}c_{n}+b_{n} \\ b_{1} & \cdots & b_{n} & b_{1}c_{1}+\cdots +b_{n}c_{n}+\alpha \end{array} \right) \\ && \\ &=&\left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & -b_{1}+b_{1} \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & -b_{n}+b_{n} \\ b_{1} & \cdots & b_{n} & b_{1}c_{1}+\cdots +b_{n}c_{n}+\alpha \end{array} \right) \text{ (ver \ref{ac=b})} \\ && \\ &=&\left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & 0 \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & 0 \\ b_{1} & \cdots & b_{n} & -\overline{b}^{t}A^{-1}\overline{b}+\alpha \end{array} \right) \text{ (ver el inciso 1)} \end{eqnarray*} En resumen, \begin{equation*} BP=\left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & 0 \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & 0 \\ b_{1} & \cdots & b_{n} & -\overline{b}^{t}A^{-1}\overline{b}+\alpha \end{array} \right) . \end{equation*} De donde, \begin{eqnarray*} P^{t}BP &=&\left( \begin{array}{cccc} 1 & \cdots & 0 & 0 \\ \vdots & & \vdots & \vdots \\ 0 & & 1 & 0 \\ c_{1} & \cdots & c_{n} & 1 \end{array} \right) \left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & 0 \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & 0 \\ b_{1} & \cdots & b_{n} & -\overline{b}^{t}A^{-1}\overline{b}+\alpha \end{array} \right) \\ && \\ &=&\left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & 0 \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & 0 \\ c_{1}a_{11}+\cdots +c_{n}a_{n1}+b_{1} & \cdots & c_{1}a_{1n}+\cdots +c_{n}a_{nn}+b_{n} & \alpha -\overline{b}^{t}A^{-1}\overline{b} \end{array} \right) \\ && \\ &=&\left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & 0 \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & 0 \\ -b_{1}+b_{1} & \cdots & -b_{n}+b_{n} & \alpha -\overline{b}^{t}A^{-1} \overline{b} \end{array} \right) \text{ (ver \ref{ac=b})} \\ && \\ &=&\left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & 0 \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & 0 \\ 0 & \cdots & 0 & \alpha -\overline{b}^{t}A^{-1}\overline{b} \end{array} \right) . \end{eqnarray*} En resumen, \begin{equation*} P^{t}BP=\left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & 0 \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & 0 \\ 0 & \cdots & 0 & \alpha -\overline{b}^{t}A^{-1}\overline{b} \end{array} \right) . \end{equation*} Al desarrollar \(\left\vert P^{t}BP\right\vert\) respecto al último renglón, obtenemos \begin{equation*} \left\vert P^{t}BP\right\vert =\left( \alpha -\overline{b}^{t}A^{-1} \overline{b}\right) \left\vert A\right\vert . \end{equation*} Como \(\left\vert P^{t}BP\right\vert =\left\vert P^{t}\right\vert \left\vert B\right\vert \left\vert P\right\vert\) y \(\left\vert P\right\vert =\left\vert P^{t}\right\vert =1\) entonces \begin{equation*} \left\vert B\right\vert =\left( \alpha -\overline{b}^{t}A^{-1}\overline{b} \right) \left\vert A\right\vert . \end{equation*}

QED

Teorema 20

Sea \begin{equation*} A=\left( \begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & & \vdots \\ a_{n1} & \cdots & a_{nn} \end{array} \right) \end{equation*} una \(n\times n\) matriz positiva definida, \(\overline{b}=\left( b_{1,}...,b_{n}\right) \in \mathbb{R}^{n}\) y \(\alpha \in \mathbb{R}\). Definimos \begin{equation*} B=\left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & b_{1} \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & b_{n} \\ b_{1} & \cdots & b_{n} & \alpha \end{array} \right) . \end{equation*} Entonces \(B\) es positiva definida si y sólo si \(\left\vert B\right\vert >0.\)

Demostración:

Como \(A\) es positiva definida, entonces es simétrica e invertible. Por el lema anterior, se tiene \begin{equation*} \left\vert B\right\vert =\left( \alpha -\overline{b}^{t}A^{-1}\overline{b} \right) \left\vert A\right\vert . \end{equation*} Probaremos que las siguientes afirmaciones son equivalentes

(i) \(\left\vert B\right\vert >0.\)

(ii) \(\alpha -\overline{b}^{t}A^{-1}\overline{b}>0.\)

(iii) \(P^{t}BP\) es positiva definida, donde \(P\) es como en el lema anterior.

(iv) \(B\) es positiva definida.

(i) implica (ii). \(\left\vert B\right\vert =\left( \alpha -\overline{b} ^{t}A^{-1}\overline{b}\right) \left\vert A\right\vert >0\) implica \(\alpha - \overline{b}^{t}A^{-1}\overline{b}\) \(>0\), pues \(\left\vert A\right\vert >0\), por ser \(A\) positiva definida.

(ii) implica (iii). Supongamos que \(\alpha -\overline{b}^{t}A^{-1}\overline{ b }>0\) y sea \(\left( z_{1},\ldots ,z_{n+1}\right) \in \mathbb{R}^{n+1}\) distinto de \(\overline{0}.\)

Vimos en el lema anterior que \begin{equation*} P^{t}BP=\left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & 0 \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & 0 \\ 0 & \cdots & 0 & \alpha -\overline{b}^{t}A^{-1}\overline{b} \end{array} \right) . \end{equation*} De donde, \begin{eqnarray*} &&\left( \begin{array}{ccc} z_{1} & \cdots & z_{n+1} \end{array} \right) P^{t}BP\left( \begin{array}{c} z_{1} \\ \vdots \\ z_{n+1} \end{array} \right) \\ && \\ &=&\left( \begin{array}{ccc} z_{1} & \cdots & z_{n+1} \end{array} \right) \left( \begin{array}{cccc} a_{11} & \cdots & a_{1n} & 0 \\ \vdots & & \vdots & \vdots \\ a_{n1} & & a_{nn} & 0 \\ 0 & \cdots & 0 & \alpha -\overline{b}^{t}A^{-1}\overline{b} \end{array} \right) \left( \begin{array}{c} z_{1} \\ \vdots \\ z_{n+1} \end{array} \right) \\ && \\ &=&\left( \begin{array}{ccc} z_{1} & \cdots & z_{n} \end{array} \right) A\left( \begin{array}{c} z_{1} \\ \vdots \\ z_{n} \end{array} \right) +z_{n+1}^{2}\left( \alpha -\overline{b}^{t}A^{-1}\overline{b}\right) >0. \end{eqnarray*} Donde la desigualdad se debe a que ambos sumandos son mayores o iguales que cero y al menos uno de ellos es positivo, puesto que \(\left( z_{1},\ldots ,z_{n}\right) \neq \overline{0}\), o bien, \(z_{n+1}\neq 0\) y \(A\) es positiva definida y \(\alpha -\overline{b}^{t}A^{-1}\overline{b}>0\) por hipótesis.

Por tanto, \(P^{t}BP\) es positiva definida.

(iii) implica (iv). Supongamos que \(P^{t}BP\) es positiva definida y sea \( \overline{w}=\left( w_{1},\ldots ,w_{n+1}\right) \in \mathbb{R}^{n+1}\) distinto del vector \(\overline{0}.\)

Como \(P\) es invertible existe \(\overline{z}=\left( z_{1},\ldots ,z_{n+1}\right) \neq \overline{0}\) tal que \(P\overline{z}=\overline{w}.\)

Notamos que \(\left( \overline{z}^{t}P^{t}\right) =\left( P\overline{z} \right) ^{t}=\overline{w}^{t}\), por propiedades generales de la traspuesta. Entonces \begin{eqnarray*} \overline{w}^{t}B\overline{w} &=&\left( \overline{z}^{t}P^{t}\right) B\left( P\overline{z}\right) \\ && \\ &=&\overline{z}^{t}\left( P^{t}BP\right) \overline{z}>0 \end{eqnarray*} por ser \(P^{t}BP\) positiva definida y \(\overline{z}\neq 0.\) De donde, \(B\) es positiva definida.

iv) implica i) Es el Corolario (15).

QED

Teorema 21

Una matriz real simétrica \begin{equation*} A=\left( \begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & & \vdots \\ a_{n1} & \cdots & a_{nn} \end{array} \right) \end{equation*} es positiva definida si y sólo si \begin{equation*} \left\vert A_{k}\right\vert =\left\vert \left( \begin{array}{ccc} a_{11} & \cdots & a_{1k} \\ \vdots & & \vdots \\ a_{k1} & \cdots & a_{kk} \end{array} \right) \right\vert >0\text{ para cada }1\leq k\leq n. \end{equation*}

Demostración:

Supongamos que \(A\) es positiva definida. Entonces \(\left\vert A_{n}\right\vert =\left\vert A\right\vert >0.\) Sean \(1\leq k \leq n\) y \(\left( x_{1},\ldots ,x_{k}\right) \in \mathbb{R}^{k}\) un vector no cero, entonces \( \left( x_{1},\ldots ,x_{k},\overset{n-k}{\overbrace{0,\ldots ,0}}\right) \in \mathbb{R}^{n}\) es un vector distinto de \(\overline{0}.\) De donde, \begin{eqnarray*} && \\ \left( \begin{array}{ccc} x_{1} & \cdots & x_{k} \end{array} \right) A_{k}\left( \begin{array}{c} x_{1} \\ \vdots \\ x_{k} \end{array} \right) &=&\left( \begin{array}{ccc} x_{1} & \cdots & x_{k} \end{array} \right) \left( \begin{array}{ccc} a_{11} & \cdots & a_{1k} \\ \vdots & & \vdots \\ a_{k1} & \cdots & a_{kk} \end{array} \right) \left( \begin{array}{c} x_{1} \\ \vdots \\ x_{k} \end{array} \right) \\ &=&\left( \begin{array}{cccccc} x_{1} & \cdots & x_{k} & 0 & \cdots & 0 \end{array} \right) \left( \begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & & \vdots \\ a_{n1} & \cdots & a_{nn} \end{array} \right) \left( \begin{array}{c} x_{1} \\ \vdots \\ x_{k} \\ 0 \\ \vdots \\ 0 \end{array} \right) > 0. \end{eqnarray*} O sea, \(A_{k}\) es positiva definida y por tanto, \(\left\vert A_{k}\right\vert >0.\)

Inversamente, supongamos que \(\left\vert A_{k}\right\vert >0\) para cada \( 1\leq k\leq n.\)

Como \(\left\vert A_{1}\right\vert =a_{11}>0\) entonces la matriz \(\left( a_{11}\right)\) es positiva definida. Por el teorema (20) y dado que \(\left\vert A_{2}\right\vert >0\), por hipótesis, la matriz \begin{equation*} A_{2}=\left( \begin{array}{cc} a_{11} & a_{12} \\ a_{12} & a_{22} \end{array} \right) \end{equation*} es positiva definida. Aplicando sucesivamente este argumento para \(k=3,...,n\) concluimos que \(A_{n}=A\) es positiva definida.

QED

Corolario 22

Una matriz real simétrica \(A\) es negativa definida si y sólo si \(\left( -1\right) ^{k}\left\vert A_{k}\right\vert >0\) para cada \(1\leq k\leq n.\)

Demostración:

\(A\) es negativa definida \(\iff -A\) es positiva definida. Por el teorema anterior, \(-A\) es positiva definida \(\iff \left\vert -A_{k}\right\vert =\left( -1\right) ^{k}\left\vert A_{k}\right\vert >0.\)

QED

Máximo y mínimo de una función real de varias variables

Definición 23

Sean \(f:U\subset \mathbb{R}^{n}\longrightarrow \mathbb{R}\) una función de clase \(C^{2}\). La matriz hessiana de \(f\) en \(\overline{x}_{0}\in U\) es la matriz simétrica \begin{equation*} H\left( f,\overline{x}_{0}\right) =\left( \begin{array}{cccc} \dfrac{\partial ^{2}f}{\partial x_{1}^{2}} & \dfrac{\partial ^{2}f}{\partial x_{1}\partial x_{2}} & \cdots & \dfrac{\partial ^{2}f}{\partial x_{1}\partial x_{n}} \\ \dfrac{\partial ^{2}f}{\partial x_{2}\partial x_{1}} & \dfrac{\partial ^{2}f }{\partial x_{2}^{2}} & \cdots & \dfrac{\partial ^{2}f}{\partial x_{2}\partial x_{n}} \\ \vdots & \vdots & \cdots & \vdots \\ \dfrac{\partial ^{2}f}{\partial x_{n}\partial x_{1}} & \dfrac{\partial ^{2}f }{\partial x_{n}\partial x_{2}} & \cdots & \dfrac{\partial ^{2}f}{\partial x_{n}^{2}} \end{array} \right) . \end{equation*} Es simétrica porque \(\dfrac{\partial ^{2}f}{\partial x_{i}\partial x_{j}} \left( \overline{x}\right) =\dfrac{\partial ^{2}f}{\partial x_{j}\partial x_{i}}\left( \overline{x}\right)\) para \(i,j=1,\ldots ,n\) y \(\overline{x}\in U\) por ser \(f\) de clase \(C^{2}.\)

La función cuadrática asociada a \(H\left( f,\overline{x}_{0}\right)\) es llamada la función hessiana de \(f\) en \(\overline{x}_{0}\) (algunos autores la llaman simplemente hessiano de \(f\) en \(\overline{x}_{0})\). Esta función aplicada a \(\overline{h}=\left( h_{1},...,h_{n}\right) \in \mathbb{R}^{n}\) la denotamos como \(Q_{f}\left( \overline{x}_{0},\overline{h} \right) ,\) por lo que \begin{equation*} Q_{f}\left( \overline{x}_{0},\overline{h}\right) =\overline{h}^{t}H\left( f, \overline{x}_{0}\right) \overline{h}=\sum_{i,j=1}^{n}h_{i}h_{j} \dfrac{\partial ^{2}f}{\partial x_{i}\partial x_{j}}\left( \overline{x} _{0}\right) . \end{equation*} Cuando sea claro del contexto con qué función \(f\) estamos trabajando escribiremos \(Q\left( \overline{x}_{0},\overline{h}\right)\) en lugar de \( Q_{f}\left( \overline{x}_{0},\overline{h}\right) .\)

Teorema 24 Teorema de Taylor de orden 1[1, Teorema 8, p.123]

Supongamos que \(f:U\subset \mathbb{R}^{n}\longrightarrow \mathbb{R}\) es de clase \(C^{2},\) con \(U\) abierto y sea \(\overline{x}_{0}\in U\), entonces, existe \(r>0\) tal que \(\left\Vert \overline{h} \right\Vert < r\) implica \( \overline{x}_{0}+\overline{h}\in U\) y se cumple \begin{equation} f\left( \overline{x}_{0}+\overline{h}\right) =f\left( \overline{x} _{0}\right) +\sum_{i=1}^{n}h_{i}\dfrac{\partial f}{\partial x_{i}} \left( \overline{x}_{0}\right) +\frac{1}{2}Q\left( \overline{x}_{0}, \overline{h}\right) +R_{2}\left( \overline{h},\overline{x}_{0}\right) \label{Deff} \end{equation} para \(\left\Vert \overline{h}\right\Vert < r\) y \begin{equation*} \lim\limits_{\overline{h}\rightarrow \overline{0}}\dfrac{\left\vert R_{2}\left( \overline{h},\overline{x}_{0}\right) \right\vert }{\left\Vert \overline{h}\right\Vert ^{2}}=0, \end{equation*} donde \(Q\left( \overline{x}_{0},\overline{h}\right)\) es la función hessiana de \(f\) en \(\overline{x}_{0}.\)

Demostración:

Por ser \(U\) abierto existe \(r>0\) tal que \(B_{r}\left( \overline{x} _{0}\right) \subset U\). Fijemos \(\overline{h}\), con \(\left\Vert \overline{h} \right\Vert < r\), definimos \begin{equation*} K_{\overline{x}_{0}}\left( \overline{h}\right) =\left\{ \begin{array}{ll} 0 & \text{si }\ \overline{h}=\overline{0} \\ \dfrac{1}{\left\Vert \overline{h}\right\Vert ^{2}}\left[ f\left( \overline{ x }_{0}+\overline{h}\right) -f\left( \overline{x}_{0}\right) -\sum_{i=1}^{n}h_{i}\dfrac{\partial f}{\partial x_{i}}\left( \overline{x}_{0}\right) \right] & \text{si }\ \overline{h}\neq \overline{0}. \end{array} \ \ \right. \end{equation*} Entonces \begin{equation} f\left( \overline{x}_{0}+\overline{h}\right) =f\left( \overline{x} _{0}\right) +\sum_{i=1}^{n}h_{i}\dfrac{\partial f}{\partial x_{i}} \left( \overline{x}_{0}\right) +K_{\overline{x}_{0}}\left( \overline{h} \right) \left\Vert \overline{h}\right\Vert ^{2} \label{Defprueba}\tag{1.14} \end{equation} para todo \(\overline{h}\in \mathbb{R}^{n}.\)

Fijemos \(\overline{h}\in \mathbb{R}^{n}\) y para cada \(\left\Vert \overline{x} \right\Vert < r,\) definimos \begin{eqnarray} F\left( \overline{x}\right) &=&f\left( \overline{x}_{0}+\overline{x}\right) -f\left( \overline{x}_{0}\right) -\sum_{i=1}^{n}x_{i}\dfrac{\partial f}{\partial x_{i}}\left( \overline{x}_{0}\right) -K_{\overline{x}_{0}}\left( \overline{h}\right) \left\Vert \overline{x}\right\Vert ^{2} \label{DefF}\tag{1.15} \\ &=&f\left( \overline{x}_{0}+\overline{x}\right) -f\left( \overline{x} _{0}\right) -\sum_{i=1}^{n}x_{i}\dfrac{\partial f}{\partial x_{i}} \left( \overline{x}_{0}\right) -K_{\overline{x}_{0}}\left( \overline{h} \right) \sum_{i=1}^{n}x_{i}^{2}. \notag \end{eqnarray} Entonces \(F\) es una función de clase \(C^{1}\) en la bola abierta \( B_{r}\left( \overline{0}\right)\) y por la igualdad (\ref{Defprueba}) satisface que \begin{equation*} F\left( \overline{0}\right) =0=F\left( \overline{h}\right) . \end{equation*} Por el Teorema del valor medio para funciones reales de varias variables \begin{equation} F\left( \overline{h}\right) -F\left( \overline{0}\right) =\sum_{j=1}^{n}h_{j}\dfrac{\partial F}{\partial x_{j}}\left( t \overline{h}\right) =0 \label{VM}\tag{1.16} \end{equation} para algún real \(0 \leq t \leq 1\) que depende de \(\overline{h}.\)

Sea \(1\leq j\leq n.\) Como \(\dfrac{\partial f}{\partial x_{j}}\) tiene derivadas parciales \(\dfrac{\partial ^{2}f}{\partial x_{j}\partial x_{i}} \left( 1\leq i\leq n\right)\) continuas en \(B_{r}\left( \overline{x} _{0}\right)\), por ser \(f\) de clase \(C^{2}\) en \(B_{r}\left( \overline{x} _{0}\right) ,\) entonces cada \(\dfrac{\partial f}{\partial x_{j}}\) es derivable en \(B_{r}\left( \overline{x}_{0}\right)\), por lo que para cada \( 1\leq j\leq n\), la función \begin{eqnarray*} R_{j}\left( \overline{x}\right) &=&\dfrac{\partial f}{\partial x_{j}}\left( \overline{x}_{0}+\overline{x}\right) -\dfrac{\partial f}{\partial x_{j}} \left( \overline{x}_{0}\right) -\nabla \left( \dfrac{\partial f}{\partial x_{j}}\right) \left( \overline{x}_{0}\right) \cdot \overline{x} \\ &=&\dfrac{\partial f}{\partial x_{j}}\left( \overline{x}_{0}+\overline{x} \right) -\dfrac{\partial f}{\partial x_{j}}\left( \overline{x}_{0}\right) -\sum_{i=1}^{n}x_{i}\dfrac{\partial ^{2}f}{\partial x_{i}\partial x_{j}}\left( \overline{x}_{0}\right) \end{eqnarray*} con \(\overline{x}=\left( x_{1},\ldots ,x_{n}\right) \in B_{r}\left( \overline{0}\right)\) es tal que \begin{equation} \lim\limits_{\overline{x}\rightarrow \overline{0}}\frac{R_{j}\left( \overline{x}\right) }{\left\Vert \overline{x}\right\Vert }\longrightarrow 0 \label{cociente1}\tag{1.17} \end{equation} y es claro que \begin{equation*} \dfrac{\partial f}{\partial x_{j}}\left( \overline{x}_{0}+\overline{x} \right) -\dfrac{\partial f}{\partial x_{j}}\left( \overline{x}_{0}\right) =\sum_{i=1}^{n}x_{i}\dfrac{\partial ^{2}f}{\partial x_{i}\partial x_{j}}\left( \overline{x}_{0}\right) +R_{j}\left( \overline{x}\right) . \end{equation*} Por la definición de \(F\) (\ref{DefF}) y la igualdad anterior \begin{eqnarray*} \dfrac{\partial F}{\partial x_{j}}\left( \overline{x}\right) &=&\dfrac{ \partial f}{\partial x_{j}}\left( \overline{x}_{0}+\overline{x}\right) - \dfrac{\partial f}{\partial x_{j}}\left( \overline{x}_{0}\right) -2K_{ \overline{x}_{0}}\left( \overline{h}\right) x_{j} \\ &=&\sum_{i=1}^{n}x_{i}\dfrac{\partial ^{2}f}{\partial x_{j}\partial x_{i}}\left( \overline{x}_{0}\right) -2K_{\overline{x}_{0}}\left( \overline{ h }\right) x_{j}+R_{j}\left( \overline{x}\right) . \end{eqnarray*} Por la igualdad (\ref{VM}): \(F\left( \overline{h}\right) -F\left( \overline{ 0 }\right) =\sum_{j=1}^{n}h_{j}\dfrac{\partial F}{\partial x_{j}} \left( t\overline{h}\right) =0,\) tenemos \begin{eqnarray*} 0 &=&\sum_{j=1}^{n}h_{j}\dfrac{\partial F}{\partial x_{j}}\left( t \overline{h}\right) =\sum_{j=1}^{n}\sum_{i=1}^{n}h_{j}th_{i} \dfrac{\partial ^{2}f}{\partial x_{j}\partial x_{i}}\left( \overline{x} _{0}\right) -2K_{\overline{x}_{0}}\left( \overline{h}\right) \sum_{j=1}^{n}th_{j}^{2}+\sum_{j=1}^{n}h_{j}R_{j}\left( t \overline{h}\right) \\ &=&2t\left( \frac{1}{2}Q\left( \overline{x}_{0},\overline{h}\right) -K_{ \overline{x}_{0}}\left( \overline{h}\right) \left\Vert \overline{h} \right\Vert ^{2}\right) +\sum_{j=1}^{n}h_{j}R_{j}\left( t\overline{h} \right) . \end{eqnarray*} De donde, \begin{equation*} K_{\overline{x}_{0}}\left( \overline{h}\right) \left\Vert \overline{h} \right\Vert ^{2}=\frac{1}{2}Q\left( \overline{x}_{0},\overline{h}\right) + \frac{1}{2t}\sum_{j=1}^{n}h_{j}R_{j}\left( t\overline{h}\right) . \end{equation*} Al sustituir esto en (\ref{Defprueba}): \(f\left( \overline{x}_{0}+\overline{ h}\right) =f\left( \overline{x}_{0}\right) +\sum_{i=1}^{n}h_{i} \dfrac{\partial f}{\partial x_{i}}\left( \overline{x}_{0}\right) +K_{ \overline{x}_{0}}\left( \overline{h}\right) \left\Vert \overline{h} \right\Vert ^{2},\) obtenemos \begin{equation*} f\left( \overline{x}_{0}+\overline{h}\right) =f\left( \overline{x} _{0}\right) +\sum_{i=1}^{n}h_{i}\dfrac{\partial f}{\partial x_{i}} \left( \overline{x}_{0}\right) +\frac{1}{2}Q\left( \overline{x}_{0}, \overline{h}\right) +\frac{1}{2t}\sum_{j=1}^{n}h_{j}R_{j}\left( t \overline{h}\right) \end{equation*} para cada \(\overline{h}\in \mathbb{R}^{n}.\) Hacemos \begin{equation*} \left\vert R_{2}\left( \overline{h},\overline{x}_{0}\right) \right\vert = \frac{1}{2t}\left\vert \sum_{j=1}^{n}h_{j}R_{j}\left( t\overline{h} \right) \right\vert \end{equation*} y tenemos \begin{equation*} \dfrac{\left\vert R_{2}\left( \overline{h},\overline{x}_{0}\right) \right\vert }{\left\Vert \overline{h}\right\Vert ^{2}}\leq \frac{1}{2} \sum_{j=1}^{n}\frac{\left\vert h_{j}\right\vert }{\left\Vert \overline{h}\right\Vert }\frac{\left\vert R_{j}\left( t\overline{h}\right) \right\vert }{\left\Vert t\overline{h}\right\Vert }. \end{equation*} Entonces \begin{equation*} \lim\limits_{\overline{h}\rightarrow \overline{0}}\dfrac{\left\vert R_{2}\left( \overline{h},\overline{x}_{0}\right) \right\vert }{\left\Vert \overline{h}\right\Vert ^{2}}=0, \end{equation*} ya que \(\dfrac{\left\vert h_{j}\right\vert }{\left\Vert \overline{h} \right\Vert }\leq 1\) y \(\lim\limits_{\overline{h}\rightarrow \overline{0}} \dfrac{\left\vert R_{j}\left( t\overline{h}\right) \right\vert }{\left\Vert t \overline{h}\right\Vert }=0\) para \(j=1,\ldots ,n\) por (\ref{cociente1}).

QED

Criterio de máximos y mínimos para funciones de varias variables

Definición 25

Dada una función \(f:U\subset \mathbb{R}^{n}\longrightarrow \mathbb{R}\) de clase \(C^{1}\) y \(\overline{x}_{0}\in U,\) donde \(U\) es un abierto de \( \mathbb{R}^{n}.\) Decimos que \(\overline{x}_{0}\) es un punto estacionario si el gradiente de \(f\) en \(\overline{x}_{0}\) vale cero, \(\nabla f\left( \overline{x}_{0}\right) =\overline{0}.\)

Con ayuda de los lemas anteriores, podemos probar el siguiente resultado.

Teorema 26

Supongamos que \(f:U\subset \mathbb{R} ^{n}\longrightarrow \mathbb{R}\) es de clase \(C^{2}\), con \(U\) abierto y \(\overline{x}_{0}\in U\) es un punto estacionario de \(f\).

1.Si la matriz hessiana \(H\left( f,\overline{x}_{0}\right)\) de \(f\) en \( \overline{x}_{0}\) es positiva definida, el punto \(\overline{x}_{0}\) es un mínimo relativo de \(f.\)

2. Si la matriz hessiana \(H\left( f,\overline{x}_{0}\right)\) de \(f\) en \( \overline{x}_{0}\) es negativa definida, el punto \(\overline{x}_{0}\) es un máximo relativo de \(f.\)

3. Si la matriz hessiana de \(H\left( f,\overline{x}_{0}\right)\) de \(f\) en \(\overline{x}_{0}\) es indefinida, entonces el punto \(\overline{x}_{0}\) es un punto silla de \(f.\)

4. Si el determinante hessiano \(\left\vert H(f,\overline{x} _{0})\right\vert\) de \(f\) en \(\overline{x}_{0}\) es cero, no se tiene información.

Demostración:

Como \(f:U\subset \mathbb{R}^{n}\longrightarrow \mathbb{R}\) es de clase \( C^{2}\) y \(\overline{x}_{0}\in U\) es un punto estacionario, entonces por el teorema 24 existe \(r > 0\) tal que \begin{equation} f\left( \overline{x}_{0}+\overline{h}\right) =f\left( \overline{x} _{0}\right) +\frac{1}{2}Q\left( \overline{x}_{0},\overline{h}\right) +R_{2}\left( \overline{h},\overline{x}_{0}\right) , \label{crit2a}\tag{1.18} \end{equation} si \(\left\Vert \overline{h}\right\Vert \leq r\), donde \(Q\left( \overline{x}_{0},\overline{h}\right)\) es la función cuadrática asociada a \(H\left( f,\overline{x}_{0}\right) ,\) y \begin{equation*} \dfrac{\left\vert R_{2}\left( \overline{h},\overline{x}_{0}\right) \right\vert }{\left\Vert \overline{h}\right\Vert ^{2}}\longrightarrow 0 \quad \quad \quad\text{ cuando }\overline{h}\longrightarrow \overline{0}. \end{equation*} 1. Supongamos que \(H\left( f,\overline{x}_{0}\right)\) es positiva definida, entonces por el Teorema (10), existe \(\beta >0\) tal que \begin{equation} \dfrac{1}{2}Q\left( \overline{x}_{0},\overline{h}\right) \geq \dfrac{\beta }{ 2}\left\Vert \overline{h}\right\Vert ^{2}\quad \quad \quad\text{ para todo } \overline{h}\in \mathbb{R}^{n}. \label{positivo}\tag{1.19} \end{equation} Como \(\dfrac{\left\vert R_{2}\left( \overline{h},\overline{x}_{0}\right) \right\vert }{\left\Vert \overline{h}\right\Vert ^{2}}\longrightarrow 0,\) entonces existe \(0 < \delta < r\) tal que si \(0 < \left\Vert \overline{h}\right\Vert < \delta\), tenemos que \begin{equation*} \left\vert R_{2}\left( \overline{h},\overline{x}_{0}\right) \right\vert < \dfrac{\beta }{2}\left\Vert \overline{h}\right\Vert ^{2} \end{equation*} de donde, \begin{equation} -\dfrac{\beta }{2}\left\Vert \overline{h}\right\Vert ^{2} < R_{2}\left( \overline{h},\overline{x}_{0}\right) < \dfrac{\beta }{2}\left\Vert \overline{ h }\right\Vert ^{2}. \label{positivo1}\tag{1.20} \end{equation} Por (\ref{positivo}) y (\ref{positivo1}) tenemos \begin{equation*} 0=\dfrac{\beta }{2}\left\Vert \overline{h}\right\Vert ^{2}-\dfrac{\beta }{2} \left\Vert \overline{h}\right\Vert ^{2} < \dfrac{1}{2}Q\left( \overline{x} _{0}, \overline{h}\right) +R_{2}\left( \overline{h},\overline{x}_{0}\right) \end{equation*} y por (\ref{crit2a}) \begin{equation*} 0 < \dfrac{1}{2}Q\left( \overline{x}_{0},\overline{h}\right) +R_{2}\left( \overline{h},\overline{x}_{0}\right) =f\left( \overline{x}_{0}+\overline{h} \right) -f\left( \overline{x}_{0}\right) . \end{equation*} Por tanto, si \begin{equation*} 0 < \left\Vert \overline{h}\right\Vert < \delta \end{equation*} entonces \begin{equation*} f\left( \overline{x}_{0}\right) < f\left( \overline{x}_{0}+\overline{h} \right) , \end{equation*} es decir, \(\overline{x}_{0}\) es un mínimo relativo estricto.

(2) Si \(H\left( f,\overline{x}_{0}\right)\) es negativa definida, entonces \( -H\left( f\left( \overline{x}_{0}\right) \right) =H\left( -f\left( \overline{ x}_{0}\right) \right)\) es positiva definida, de donde \(\overline{x}_{0}\) es un mínimo relativo estricto de \(-f,\) entonces \(\overline{x}_{0}\) es un máximo relativo estricto de \(f.\)

(3) Por último, supongamos que la matriz hessiana \(H\left( f,\overline{x} _{0}\right)\) de \(f\) en \(\overline{x}_{0}\) es indefinida. Por el Lema (9), existen vectores unitarios \(\overline{u}_{1}\) y \( \overline{u}_{2}\) en \(\mathbb{R}^{2}\) tales que \begin{equation*} Q\left( \overline{x}_{0},\overline{u}_{1}\right) =H\left( f,\overline{x} _{0}\right) \overline{u}_{1}\cdot \overline{u}_{1}>0 \end{equation*} y \begin{equation*} Q\left( \overline{x}_{0},\overline{u}_{2}\right) =H\left( f,\overline{x} _{0}\right) \overline{u}_{2}\cdot \overline{u}_{2} \leq 0. \end{equation*} Debemos probar que en cada bola abierta \(B_{\varepsilon }\left( \overline{x} _{0}\right)\) con centro en \(\overline{x}_{0}\) hay un punto donde \(f\) vale más que \(f\left( \overline{x}_{0}\right)\) y otro donde vale menos

Por el teorema de Taylor, \begin{equation*} f\left( \overline{x}_{0}+\overline{h}\right) =f\left( \overline{x} _{0}\right) +\frac{1}{2}Q\left( \overline{x}_{0},\overline{h}\right) +R_{2}\left( \overline{h},\overline{x}_{0}\right) \end{equation*} donde \(Q\left( \overline{x}_{0},\overline{h}\right)\) es la función cuadrática asociada a \(H\left( f,\overline{x}_{0}\right) ,\) y \begin{equation} \dfrac{\left\vert R_{2}\left( \overline{h},\overline{x}_{0}\right) \right\vert }{\left\Vert \overline{h}\right\Vert ^{2}}\longrightarrow 0 \quad \quad \quad \text{ cuando }\overline{h}\longrightarrow \overline{0}. \label{limcoc} \end{equation} Así, existe \(0 < \delta < \varepsilon\) tal que \(0 < \left\Vert \overline{h} \right\Vert < \delta\) implica \begin{equation*} \left\vert R_{2}\left( \overline{h},\overline{x}_{0}\right) \right\vert < \dfrac{M}{2}\left\Vert \overline{h}\right\Vert ^{2}, \tag{1.21} \end{equation*} con \(M=\min \left( Q\left( \overline{x}_{0},\overline{u}_{1}\right) ,-Q\left( \overline{x}_{0},\overline{u}_{2}\right) \right) .\)

Si \(\overline{h_{i}}=\delta \overline{u}_{i},\) para \(i=1,2,\) entonces \begin{equation*} 0 < \left\Vert \overline{h_{i}}\right\Vert < \delta , \end{equation*} de donde \begin{equation*} -\dfrac{M}{2}\delta ^{2} < R_{2}\left( \overline{h}_{i},\overline{x} _{0}\right) < \dfrac{M}{2}\delta ^{2} \quad \quad \text{ para }i=1,2. \end{equation*} En particular, \begin{equation*} -\dfrac{1}{2}Q\left( \overline{x}_{0},\overline{u}_{1}\right) \delta ^{2} < R_{2}\left( \delta \overline{u}_{1},\overline{x}_{0}\right) < \dfrac{1}{ 2 }Q\left( \overline{x}_{0},\overline{u}_{1}\right) \delta ^{2} \end{equation*} y \begin{equation*} \dfrac{1}{2}Q\left( \overline{x}_{0},\overline{u}_{2}\right) \delta ^{2} < R_{2}\left( \delta \overline{u}_{2},\overline{x}_{0}\right) < -\dfrac{1}{ 2}Q\left( \overline{x}_{0},\overline{u}_{2}\right) \delta ^{2}. \end{equation*} Por tanto, \begin{eqnarray*} f\left( \overline{x}_{0}+\delta \overline{u}_{1}\right) -f\left( \overline{x} _{0}\right) &=&\dfrac{1}{2}Q\left( \overline{x}_{0},\delta \overline{u} _{1}\right) +R_{2}\left( \delta \overline{u}_{1},\overline{x}_{0}\right) \\ &>&\dfrac{\delta ^{2}}{2}Q\left( \overline{x}_{0},\overline{u}_{1}\right) - \dfrac{\delta ^{2}}{2}Q\left( \overline{x}_{0},\overline{u}_{1}\right) =0 \end{eqnarray*} y \begin{eqnarray*} f\left( \overline{x}_{0}+\delta \overline{u}_{2}\right) -f\left( \overline{x} _{0}\right) &=&\dfrac{1}{2}Q\left( \overline{x}_{0},\delta \overline{u} _{2}\right) +R_{2}\left( \delta \overline{u}_{2},\overline{x}_{0}\right) \\ &<&\dfrac{\delta ^{2}}{2}Q\left( \overline{x}_{0},\overline{u}_{2}\right) - \dfrac{1}{2}Q\left( \overline{x}_{0},\overline{u}_{2}\right) \delta ^{2}=0. \end{eqnarray*} O sea, \begin{equation*} f\left( \overline{x}_{0}+\delta \overline{u}_{1}\right) >f\left( \overline{x} _{0}\right) \qquad \text{ y}\qquad f\left( \overline{x}_{0}+\delta \overline{ u}_{2}\right) \leq f\left( \overline{x}_{0}\right) . \end{equation*} y \(\overline{x}_{0}+\delta \overline{u}_{1},\overline{x}_{0}+\delta \overline{u}_{2}\in B_{\varepsilon }\left( \overline{x}_{0}\right)\)

(4) La función \(f\left( x_{1},\ldots ,x_{n}\right) =x_{1}^{4}+\cdots +x_{n}^{4}\) tiene un mínimo absoluto estricto en el origen y \(-f\) tiene un máximo absoluto en el origen. En tanto que la función \(f\left( x_{1},\ldots ,x_{n}\right) =x_{1}^{3}+\cdots +x_{n}^{3}\) tiene un punto silla en el origen. En los tres casos, el determinante hessiano de \(f\) en el origen es \(0.\)

QED

Observación:

Si en el teorema anterior \(\left\vert H\left( f, \overline{x}_{0}\right) \right\vert \neq 0,\) es decir la matriz \(H\left( f, \overline{x}_{0}\right)\) es invertible, y no son aplicables los apartados (1) y (2) entonces \(\overline{x}_{0}\) es un punto silla de \(f,\) pues por el Corolario (18), \(H\left( f,\overline{x}_{0}\right)\) es entonces indefinida y aplica el apartado (3).

Teorema 27 Criterio de la 2a derivada para funciones reales de \(n\) variables

Supongamos que \(f:U\subset \mathbb{R}^{n}\longrightarrow \mathbb{ R }\) es de clase \(C^{2}\) y \(\overline{x}_{0}\in U\), con \(U\) abierto, es un punto estacionario de \(f\). Para cada \(1\leq k\leq n\) definamos \begin{equation*} H_{k}\left( f,\overline{x}_{0}\right) =\left( \begin{array}{cccc} \dfrac{\partial ^{2}f}{\partial x_{1}^{2}}\left( \overline{x}_{0}\right) & \dfrac{\partial ^{2}f}{\partial x_{1}\partial x_{2}}\left( \overline{x} _{0}\right) & \cdots & \dfrac{\partial ^{2}f}{\partial x_{1}\partial x_{k}} \left( \overline{x}_{0}\right) \\ \vdots & \vdots & \cdots & \vdots \\ \dfrac{\partial ^{2}f}{\partial x_{k}\partial x_{1}}\left( \overline{x} _{0}\right) & \dfrac{\partial ^{2}f}{\partial x_{n}\partial x_{2}}\left( \overline{x}_{0}\right) & \cdots & \dfrac{\partial ^{2}f}{\partial x_{k}^{2}} \left( \overline{x}_{0}\right) \end{array} \right) . \end{equation*}

Si \(\left\vert H_{k}\left( f,\overline{x}_{0}\right) \right\vert >0\) para todo \(1\leq k\leq n\) , entonces el punto \(\overline{x}_{0}\) es un mínimo relativo estricto de \(f.\)
Si \(\left( -1\right) ^{k}\left\vert H_{k}\left( f,\overline{x} _{0}\right) \right\vert >0\) para todo \(1\leq k\leq n\) , entonces el punto \( \overline{x}_{0}\) es un máximo relativo estricto de \(f.\)
Si \(\left\vert H\left( f,\overline{x}_{0}\right) \right\vert \neq 0\) y no son aplicables los apartados (1) y (2) anteriores, entonces el punto \( \overline{x}_{0}\) es un punto silla de \(f.\)
Si \(\left\vert H\left( f,\overline{x}_{0}\right) \right\vert =0,\) entonces no se tiene información.

Demostración:

Por el Teorema (21):

\(\left\vert H_{k}\left( f,\overline{x}_{0}\right) \right\vert >0\) para todo \( 1\leq k\leq n\) si y sólo si la matriz hessiana \(H\left( f, \overline{x} _{0}\right)\) es positiva definida.

Por el Corolario (22):

\(\left( -1\right) ^{k}\left\vert H_{k}\left( f,\overline{x}_{0}\right) \right\vert >0\) para todo \(1\leq k\leq n\) si y sólo si la matriz hessiana \(H\left( f,\overline{x}_{0}\right)\) es negativa definida.

Por tanto, los afirmaciones (1) y (2) se siguen del Teorema (26).

(3) Las hipótesis de los apartados (1) y (2) de este teorema equivalen a decir que \(H\left( f,\overline{x}_{0}\right)\) es positiva definida y negativa definida, respectivamente. Si (1) y (2) no son aplicables, entonces la matriz hessiana de \(H\left( f,\overline{x}_{0}\right)\) no es positiva definida ni negativa definida. Como \(\left\vert H\left( f,\overline{x} _{0}\right) \right\vert \neq 0,\) entonces \(H\left( f,\overline{x}_{0}\right) \) es indefinida, por el Corolario (18), y entonces \(\overline{x} _{0}\) es un punto silla, por el Teorema (26).

(4) Ya se vio en el Teorema (26).

QED

Casos particulares

Teorema 28 Criterio de la 2a derivada para funciones reales de dos variables

Sean \(f:U\subset \mathbb{R}^{2}\longrightarrow \mathbb{R}\) una función de clase \(C^{2},\) con \(U\) abierto, y \(\left( x_{0},y_{0}\right) \in U\) un punto estacionario de \(f\)

Si \begin{equation*} \dfrac{\partial ^{2}f}{\partial x^{2}}\left( x_{0},y_{0}\right) >0 \end{equation*} y \begin{eqnarray*} \left\vert H\left( f,\left( x_{0},y_{0}\right) \right) \right\vert &=&\left\vert \begin{array}{ccc} \dfrac{\partial ^{2}f}{\partial x^{2}}\left( x_{0},y_{0}\right) & & \dfrac{ \partial ^{2}f}{\partial y\partial x}\left( x_{0},y_{0}\right) \\ & & \\ \dfrac{\partial ^{2}f}{\partial y\partial x}\left( x_{0},y_{0}\right) & & \dfrac{\partial ^{2}f}{\partial y^{2}}\left( x_{0},y_{0}\right) \end{array} \right\vert \\ && \\ &=&\dfrac{\partial ^{2}f}{\partial x^{2}}\left( x_{0},y_{0}\right) \dfrac{ \partial ^{2}f}{\partial y^{2}}\left( x_{0},y_{0}\right) -\left( \dfrac{ \partial ^{2}f}{\partial y\partial x}\left( x_{0},y_{0}\right) \right) ^{2}>0, \end{eqnarray*} entonces \(f\) tiene un mínimo local estricto en \(\left( x_{0},y_{0}\right) .\)
Si \begin{equation*} \dfrac{\partial ^{2}f}{\partial x^{2}}\left( x_{0},y_{0}\right) < 0 \end{equation*} y \begin{equation*} \left\vert H\left( f,\left( x_{0},y_{0}\right) \right) \right\vert =\dfrac{ \partial ^{2}f}{\partial x^{2}}\left( x_{0},y_{0}\right) \dfrac{\partial ^{2}f}{\partial y^{2}}\left( x_{0},y_{0}\right) -\left( \dfrac{\partial ^{2}f }{\partial y\partial x}\left( x_{0},y_{0}\right) \right) ^{2}>0, \end{equation*} entonces \(f\) tiene un máximo local estricto en \(\left( x_{0},y_{0}\right) .\)
Si \(\left\vert H\left( f,\left( x_{0},y_{0}\right) \right) \right\vert < 0,\) entonces \(\left( x_{0},y_{0}\right)\) es un punto silla.
Si \(\left\vert H\left( f,\left( x_{0},y_{0}\right) \right) \right\vert =0,\) entonces no se tiene información.

Demostración:

El teorema es consecuencia del Criterio de la 2a derivada para funciones reales de \(n\) variables, puesto que los apartados (1) y (2) son los de dicho criterio, con \(n=2.\)

Asimismo, el inciso (3) es el inciso (3) de ese criterio para \(n=2,\) ya que \( \left\vert H\left( f,\left( x_{0},y_{0}\right) \right) \right\vert < 0\) equivale a decir que \(\left\vert H\left( f,\left( x_{0},y_{0}\right) \right) \right\vert \neq 0\) y que no son aplicables los apartados (1) y (2).

En efecto, si \(\left\vert H\left( f,\left( x_{0},y_{0}\right) \right) \right\vert < 0,\) entonces no son aplicables los apartados (1) y (2) y \(\left\vert H\left( f,\left( x_{0},y_{0}\right) \right) \right\vert \neq 0.\)

Recíprocamente, si éstas dos últimas condiciones se satisfacen, entonces \(\left\vert H\left( f,\left( x_{0},y_{0}\right) \right) \right\vert < 0\) o bien \(\left\vert H\left( f,\left( x_{0},y_{0}\right) \right) \right\vert >0.\)

Esta segunda desigualdad implica que \(\dfrac{\partial ^{2}f }{\partial x^{2}}\left( x_{0},y_{0}\right) >0\) y entonces aplicaría el apartado (1) o el (2), lo que contradice lo supuesto. Por tanto, \( \left\vert H\left( f,\left( x_{0},y_{0}\right) \right) \right\vert < 0.\)

(4) La función \(f\left( x,y\right) =x^{4}+y^{4}\) tiene un mínimo absoluto estricto en el origen y \(-f\) tiene un máximo absoluto en el origen. En tanto que la función \(f\left( x,y\right) =x^{3}+y^{3}\) tiene un punto silla en el origen. En los tres casos, el determinante hessiano de \( f\) en el origen es \(0.\)

QED

Teorema 29 Criterio de la 2a derivada para funciones reales de tres variables

Sean \(f:U\subset \mathbb{R}^{3}\longrightarrow \mathbb{R}\) una función de clase \(C^{2},\) con \(U\) abierto, y \(\overline{x}_{0}=\left( x_{0},y_{0},z_{0}\right)\) un punto estacionario de \(f.\)

Si \begin{eqnarray*} \dfrac{\partial ^{2}f}{\partial x^{2}}\left( \overline{x}_{0}\right) &>&0 \\ \left\vert H_{2}\left( f,\overline{x}_{0}\right) \right\vert &=&\left\vert \begin{array}{ccc} \dfrac{\partial ^{2}f}{\partial x^{2}}\left( \overline{x}_{0}\right) & & \dfrac{\partial ^{2}f}{\partial x\partial y}\left( \overline{x}_{0}\right) \\ & & \\ \dfrac{\partial ^{2}f}{\partial y\partial x}\left( \overline{x}_{0}\right) & & \dfrac{\partial ^{2}f}{\partial y^{2}}\left( \overline{x}_{0}\right) \end{array} \right\vert >0 \\ && \\ && \\ \left\vert H_{3}\left( f,\overline{x}_{0}\right) \right\vert &=&\left\vert \begin{array}{ccccc} \dfrac{\partial ^{2}f}{\partial x^{2}}\left( \overline{x}_{0}\right) & & \dfrac{\partial ^{2}f}{\partial x\partial y}\left( \overline{x}_{0}\right) & & \dfrac{\partial ^{2}f}{\partial x\partial z}\left( \overline{x}_{0}\right) \\ & & & & \\ \dfrac{\partial ^{2}f}{\partial y\partial x}\left( \overline{x}_{0}\right) & & \dfrac{\partial ^{2}f}{\partial y^{2}}\left( \overline{x}_{0}\right) & & \dfrac{\partial ^{2}f}{\partial y\partial z}\left( \overline{x}_{0}\right) \\ & & & & \\ \dfrac{\partial ^{2}f}{\partial z\partial x}\left( \overline{x}_{0}\right) & & \dfrac{\partial ^{2}f}{\partial z\partial y}\left( \overline{x}_{0}\right) & & \dfrac{\partial ^{2}f}{\partial z^{2}}\left( \overline{x}_{0}\right) \end{array} \right\vert >0, \end{eqnarray*} entonces \(f\) tiene un mínimo local estricto en \(\left( x_{0},y_{0}, z_{0}\right) .\)
Si \begin{eqnarray*} \dfrac{\partial ^{2}f}{\partial x^{2}}\left( \overline{x}_{0}\right) & \leq &0 \\ \left\vert H_{2}\left( f,\overline{x}_{0}\right) \right\vert &>&0 \\ \left\vert H_{3}\left( f,\overline{x}_{0}\right) \right\vert & \leq &0, \end{eqnarray*} entonces \(f\) tiene un máximo local estricto en \(\left( x_{0},y_{0}, z_{0}\right) .\)
Si \(\left\vert H_{3}\left( f,\overline{x}_{0}\right) \right\vert \neq 0,\) y no son aplicables los apartados (1) y (2) anteriores, entonces \(\left( x_{0},y_{0}\right)\) es un punto silla
Si \(\left\vert H_{3}\left( f,\overline{x}_{0}\right) \right\vert =0,\) entonces no se tiene información.

Demostración:

Los incisos (1) y (2) son los del Criterio de la 2a derivada para funciones reales de \(n\) variables, con \(n=3.\)

El apartado (3) es el apartado (3) de ese criterio para \(n=3.\)

(4) La función \(f\left( x,y,z\right) =x^{4}+y^{4}+z^{4}\) tiene un mí nimo absoluto estricto en el origen y \(-f\) tiene un máximo absoluto en el origen. En tanto que la función \(f\left( x,y,z\right) =x^{3}+y^{3}+z^{3}\) tiene un punto silla en el origen. En los tres casos, el determinante hessiano de \(f\) en el origen es \(0.\)

QED

Al resolver problemas de máximos y mínimos de funciones de tres variables con una restricción, una estrategia es despejar una de las tres variables en términos de las otras dos, digamos, \(z = h(x,y)\) y entonces encontrar los valores extremos de la función \(F(x,y)=\left( x,y,h\left( x,y\right) \right)\). Si en \(\left( x_{0},y_{0}\right)\) la función \(F\) tiene un valor extremo, es necesario verificar que se satisfacen las hipótesis del teorema siguiente para poder afirmar que \(\left( x_{0},y_{0},h\left( x_{0},y_{0}\right) \right)\). es un valor extremo de \(f\,|S\).

Teorema 30

Sean \(f:A\subset \mathbb{R}^{3}\longrightarrow \mathbb{R}\) y \(g:B\subset \mathbb{R}^{3}\longrightarrow \mathbb{R}\) dos funciones y \(S=\left\{ \left. \left( x,y,z\right) \in B\,\right\vert ~g\left( x,y,z\right) =c\right\}\). Supongamos que \(S\subset A\) y que existe una función \(h:U\subset \mathbb{R}^{2}\longrightarrow \mathbb{R}\) tal que \begin{equation} \left\{ \left. \left( x,y,h\left( x,y\right) \right) \,\right\vert \,\left( x,y\right) \in U~\right\} =S. \label{S}\tag{1} \end{equation} Si la función \(F(x,y)=\left( x,y,h\left( x,y\right) \right)\) tiene un valor extremo relativo (estricto) en \(\left( x_{0},y_{0}\right) \in U,\) entonces \(f\,|S\) tiene el mismo tipo de valor extremo en \(\left( x_{0},y_{0},h\left( x_{0},y_{0}\right) \right) .\)

Demostración:

Supongamos que \(F\) tiene un máximo relativo estricto en \(\left( x_{0},y_{0}\right) \in U.\) Es decir, existe \(\delta >0\) tal que \begin{equation*} \text{Si }x\in U~\text{y }0 \leq \sqrt{\left( x-x_{0}\right) ^{2}+\left( y-y_{0}\right) ^{2}}\leq\delta \text{ entonces }F\left( x,y\right) \leq F\left( x_{0},y_{0}\right) . \end{equation*} y sólo se da la igualdad cuando \((x,y) = (x_0,y_0)\)

Veremos que la función \(f\) restringida a \(S, f|S\), tiene un máximo relativo estricto en \(\left( x_{0},y_{0},h\left( x_{0},y_{0}\right) \right) .\)

Sea \(\left( x,y,z\right) \in S\) tal que \(\left( x,y,z\right) \neq \left( x_{0},y_{0},h\left( x_{0},y_{0}\right) \right)\) entonces \(\left( x,y\right) \neq \left( x_{0},y_{0}\right)\), ya que \(z=h\left( x,y\right) \) para algún \(\left( x,y\right) \in U\) por (\ref{S}) y si \(\left( x,y\right) =\left( x_{0},y_{0}\right)\), entonces \(\left( x,y,z\right) =\left( x,y,h\left( x,y\right) \right) =\left( x_{0},y_{0},h\left( x_{0},y_{0}\right) \right) .\)

Supongamos que \begin{equation*} \left( x,y,z\right) \in S\text{ y }0\leq \sqrt{\left( x-x_{0}\right) ^{2}+\left( y-y_{0}\right) ^{2}+\left( z-h\left( x_{0},y_{0}\right) \right) ^{2}}\leq \delta , \end{equation*} entonces \(\left( x,y,z\right) =\left( x,y,h\left( x,y\right) \right) ,\) con \(\left( x,y\right) \in U,\) y \(\left( x,y\right) \neq \left( x_{0},y_{0}\right)\). Por la desigualdad del triángulo, \begin{equation*} 0\leq \sqrt{\left( x-x_{0}\right) ^{2}+\left( y-y_{0}\right) ^{2}}\leq \delta , \end{equation*} de donde, \begin{equation*} F\left( x,y\right) \leq F\left( x_{0},y_{0}\right) . \end{equation*} Así, \begin{equation*} f\left( x_{0},y_{0},h\left( x_{0},y_{0}\right) \right) =F\left( x,y\right) \leq F\left( x_{0},y_{0}\right) =\left( x_{0},y_{0},h\left( x_{0},y_{0}\right) \right) \end{equation*} y sólo se da la igualdad cuando \((x,y) = (x_0,y_0)\)

y por lo tanto, \(f\,|S\) tiene un máximo relativo estricto en \(\left( x_{0},y_{0},h\left( x_{0},y_{0}\right) \right) .\)

QED

Referencias

[1] Magnus, Jan R. y Neudecker, Heinz. Matrix differential calculus with applications in statistics and econometrics. Wiley Series in Probability and Statistics. John Wiley & Sons, Ltd., Chichester, 1999. 450 pp.

Máximos y Mínimos de Funciones de Varias Variables

Angel Carrillo Hoyo, Elena de Oteyza de Oteyza\(^2\), Carlos Hernández Garciadiego\(^1\), Emma Lam Osnaya\(^2\)

Teoremas sobre Máximos y Mínimos en Varias Variables

Matrices

Funciones cuadráticas

Matriz positiva (negativa) definida y matriz indefinida

Máximo y mínimo de una función real de varias variables

Criterio de máximos y mínimos para funciones de varias variables

Casos particulares

Referencias