Matematyka:Matematyka II NI/Wzór Taylora dla funkcji

Z Brain-wiki


Wzór Taylora dla funkcji wielu zmiennych

Wzór Taylora

Niech [math] {\cal O}\subset { \mathbb R}^N[/math] — zbiór otwarty. Niech [math]f: {\cal O}\rightarrow { \mathbb R}[/math] — funkcja klasy [math]C^r[/math] (tzn. różniczkowalna [math]r[/math] razy i [math]r-[/math]te pochodne są ciągłe). Niech [math]x, x_0\in {\cal O}[/math], [math]h=x-x_0[/math], przy czym niech [math]x,x_0[/math] będą takie, aby [math]x_0+\theta h\in {\cal O}[/math] dla [math]0\le \theta \le 1[/math].

Utwórzmy funkcję pomocniczą

[math]\varphi (t) = f(x_0+th),\;\;\;\;\;t\in [0,1]. [/math]

Z własności [math]f[/math] wynika, że [math]\varphi [/math] jest ciągła na [math][0,1][/math] oraz różniczkowalna [math]r[/math] razy w sposób ciągły na [math]]0,1[[/math]. Policzmy kolejne pochodne tej funkcji.

[math] \varphi (t)=f(x_0^1+t h^1, x_0^2+t h^2,\dots , x_0^N+t h^N), [/math]
[math] \varphi ^{\prime }(t) =\sum _{i=1}^N \frac{\partial f}{\partial x^i}(x_0+t h) h^i, [/math]
[math] \varphi ^{\prime \prime }(t) =\sum _{i_1=1}^N \sum _{i_2=1}^N\frac{\partial ^2 f}{\partial x^{i_1} \partial x^{i_2}}(x_0+t h) h^{i_1} h^{i_2}, [/math]
[math] \vdots [/math]
[math] \varphi ^{r-1}(t) =\sum _{i_1,i_2,\dots ,i_{r-1}}\frac{\partial ^{r-1} f}{\partial x^{i_1} \partial x^{i_2}\dots \partial x^{i_{r-1}}} (x_0+t h) h^{i_1} h^{i_2}\dots h^{i_{r-1}}, [/math]
[math] \varphi ^{r}(t) =\sum _{i_1,i_2,\dots ,i_{r}}\frac{\partial ^{r} f}{\partial x^{i_1} \partial x^{i_2}\dots \partial x^{i_{r}}} (x_0+t h) h^{i_1} h^{i_2}\dots h^{i_{r}}. [/math]

Napiszmy dla [math]\varphi [/math] wzór Taylora dla przyrostu argumentu równego [math]1[/math] i z resztą w postaci Lagrange'a:

[math] \varphi (1)=\varphi (0) +\frac{1}{1!}\varphi ^{\prime }(0) + \frac{1}{2!}\varphi ^{\prime \prime }(0) + \dots + \frac{1}{(r-1)!}\varphi ^{r-1}(0) + \frac{1}{r!}\varphi ^{r}(\theta ) [/math]

(tu [math]\theta \in [0,1][/math]).

Wstawiając otrzymane wyżej wzory na pochodne [math]\varphi [/math], otrzymujemy:

[math] f(x)=f(x_0) + \frac{1}{1!}\sum _{i=1}^N \frac{\partial f}{\partial x^i}(x_0) h^i + \frac{1}{2!}\sum _{i_1=1}^N \sum _{i_2=1}^N\frac{\partial ^2 f}{\partial x^{i_1} \partial x^{i_2}}(x_0) h^{i_1} h^{i_2} +\dots [/math]
[math]+ \frac{1}{(r-1)!}\sum _{i_1,i_2,\dots ,i_{r-1}}\frac{\partial ^{r-1} f}{\partial x^{i_1} \partial x^{i_2}\dots \partial x^{i_{r-1}}} (x_0) h^{i_1} h^{i_2}\dots h^{i_{r-1}} + R_r,[/math]

gdzie [math]R_r[/math] jest resztą [math]r-[/math]tego rzędu:

[math]R_r= \frac{1}{r!} \sum _{i_1,i_2,\dots ,i_{r}}\frac{\partial ^{r} f}{\partial x^{i_1} \partial x^{i_2}\dots \partial x^{i_{r}}} (x_0+\theta h) h^{i_1} h^{i_2}\dots h^{i_{r}}.[/math]

I to jest już kompletny wzór Taylora.

Czasem może nam przyjść ochota na oszacowanie reszty. Podamy tu takie proste oszacowanie.

Proste oszacowanie reszty

Stwierdzenie

Weźmy kulę domkniętą [math] {\cal K} = \overline{K(x_0,\rho )}[/math], gdzie [math]\rho [/math] jest takie, że [math] {\cal K} \subset {\cal O}[/math]. Wtedy istnieje taka stała [math]M[/math], że

[math]|R_r|\le M ||h||^r[/math]

dla wszystkich [math]x\in {\cal K} [/math].

Dowód

Wiemy, że funkcje ciągłe na zbiorze zwartym są ograniczone; tak więc:

[math] \sum _{i_1,i_2,\dots ,i_{r}}\frac{\partial ^{r} f}{\partial x^{i_1} \partial x^{i_2}\dots \partial x^{i_{r}}} (x) \le M^{\prime } [/math]

dla wszystkich [math]x\in {\cal K} [/math] i pewnej dodatniej stałej [math]M^{\prime }[/math]. Tak więc resztę [math]R_r[/math] we wzorze (%i 3) szacujemy przez

[math] R_r\le \frac{1}{r!} M^{\prime } \sum _{i_1,i_2,\dots ,i_{r}}^N |h^{i_1}|\cdot | h^{i_2}|\cdot \dots \cdot |h^{i_{r}}| = \frac{1}{r!} M^{\prime } \sum _{i_1}^N |h^{i_1}|\cdot \sum _{i_2}^N |h^{i_2}|\cdot \dots \cdot \sum _{i_r}^N |h^{i_r}| [/math]
[math] =\frac{1}{r!} M^{\prime } \left(\sum _{i=1}^N |h^{i}|\right)^r \le N^{\frac{r}{2}} ||h||^r [/math]

Uzasadnienie ostatniej nierówności: Przypomnijmy sobie nierówność Schwarza: Zapodaje ona, że

[math] \left| \sum _{i=1}^N a^i b^i \right| \le \sqrt{\sum _{i=1}^N (a^i)^2}\cdot \sqrt{\sum _{i=1}^N (b^i)^2} = ||a||\cdot ||b||; [/math]

więc mamy:

[math] \sum _{i=1}^N |h^{i}| = \sum _{i=1}^N |h^{i}\cdot 1| \le \sqrt{\sum _{i=1}^N (h^i)^2}\cdot \sqrt{\sum _{i=1}^N (1)^2} =||h|| \cdot \sqrt{N} [/math]

Mamy więc

[math] |R_r|\le \frac{M^{\prime } N^\frac{r}{2}}{r!} ||h||^r, [/math]

i oznaczając: [math]M=\frac{M^{\prime } N^\frac{r}{2}}{r!}[/math], otrzymujemy wzór (%i 3) czyli tezę.

CBDO

Morał

Podsumujmy: Wzór Taylora możemy zapisać w postaci:

[math] f(x_0+h) = [\mbox{wielomian stopnia }(r-1)\mbox{ od zmiennych }h^1, h^2,\dots , h^N] + R_r, [/math]

gdzie [math]R_r[/math] — mała stopnia wyższego niż [math]||h||^{r-1}[/math], tzn. spełniająca

[math] \frac{R_r}{||h||^{r-1}} \stackrel{h\rightarrow 0}{\longrightarrow } 0. [/math]

Wzór Taylora pozwala na przybliżenie skomplikowanych funkcji przez wielomiany, z którymi jest mieć do czynienia na ogół o wiele prościej.

W zastosowaniach najczęściej spotyka się zastępowanie funkcji przez wielomian pierwszego lub drugiego stopnia, choć zdarza się też konieczność uwzględniania wyższych potęg.

Przykł.

Energia drga/n cząsteczki o dwu lub więcej atomach w pobliżu położenia równowagi: przybliżenie harmoniczne i czasem konieczność wyjścia poza to przybliżenie.

Ekstrema i punkty stacjonarne

Niech [math] {\cal O}\subset { \mathbb R}^N[/math] — zb. otwarty, niech [math]x_0\in {\cal O}[/math], niech [math]f: {\cal O}\rightarrow { \mathbb R}[/math] RYS.

Maksimum

Mówimy, że [math]f[/math] ma w [math]x_0[/math] maksimum, jeżeli

[math]\displaystyle \mathop {\forall }_{x\in {\cal O}} f(x)\le f(x_0).[/math]

Ścisłe maksimum

Mówimy, że [math]f[/math] ma w [math]x_0[/math] ścisłe maksimum, jeżeli

[math]\displaystyle \mathop {\forall }_{x\in {\cal O}} f(x)\lt f(x_0).[/math]

Maksimum lokalne

Mówimy, że [math]f[/math] ma w [math]x_0[/math] maksimum lokalne, jeżeli

[math]\displaystyle \mathop {\exists }_{\rho \gt 0} \;\;\mathop {\forall }_{x\in K(x_0,\rho )} f(x)\le f(x_0).[/math]

Uwaga

Analogicznie mówimy o minimum, minimum ścisłym, minimum lokalnym, jeśli zmienimy znaki nierówności w definicjach powyżej.

Stwierdzenie

Niech [math] {\cal O}\subset { \mathbb R}^N[/math] — zb. otwarty, niech [math]f\in C^1( {\cal O})[/math], niech [math]x_0\in {\cal O}[/math]. Niech [math]f[/math] ma w punkcie [math]x_0[/math] minimum lokalne. Wtedy

[math]\frac{\partial f}{\partial x^i}(x_0)=0, \;\;\;\;\;i=1,\dots , N[/math]

(tzn. wszystkie pochodne cząstkowe są równe zeru w [math]x_0[/math]).

Dowód

Dla większej jasności zapiszmy tu jawnie współrzędne punktu [math]x_0[/math]:

[math] x_0=(x_0^1, x_0^2, \dots , x_0^N). [/math]

Warunek (%i 7) na maksimum lokalne można przeformułować mówiąc, że [math]f(x_0+h)-f(x_0)\ge 0[/math] dla dowolnego wektora przyrostu [math]h[/math]. Skoro tak, to weźmy wektor przyrostu posiadający tylko pierwszą składową różną od zera, a wszystkie pozostałe równe zeru. W ten sposób, [math]f(x_0+h)-f(x_0)[/math] jest funkcją tylko jednej zmiennej [math]x^1[/math]. Przypomnijmy sobie teraz tw. dla funkcji jednej zmiennej [math]F(x)[/math] mówiące, że jeżeli [math]F(x)[/math] posiada w [math]x^*[/math] maksimum lokalne, to [math]F^{\prime }(x^*)=0[/math]. W naszej wersji oznacza to, że [math] \frac{\partial f}{\partial x^1}(x_0)=0[/math].

Weźmy teraz wektor przyrostu [math]h[/math] o niezerowej drugiej składowej, a wszystkich pozostałych równych zeru. Analogiczne rozumowanie prowadzi do wniosku, że [math] \frac{\partial f}{\partial x^2}(x_0)=0[/math]. Itd. W ten sposób otrzymujemy (%i 8).

CBDO

Z teorii funkcji jednej zmiennej przypominamy sobie, że warunek [math]F^{\prime }(x^*)[/math] był warunkiem koniecznym, ale nie dostatecznym na to, aby [math]F[/math] posiadała w punkcie [math]x^*[/math] maksimum. Analogicznie jest w przypadku funkcji wielu zmiennych: Warunek (%i 8) jest warunkiem koniecznym, aby w [math]x_0[/math] istniało maksimum (mówi o tym powyższe Stwierdzenie), ale implikacja: (%i 8) [math]\Longrightarrow [/math] ([math]f[/math] posiada maksimum w [math]x_0[/math]) na ogół nie jest prawdziwa.

Punkt krytyczny

Niech [math]f\in C^1( {\cal O})[/math], [math] {\cal O}[/math] — zbiór otwarty w [math] { \mathbb R}^N[/math]. Mówimy, że [math]f[/math] ma w [math]x_0\in {\cal O}[/math] punkt krytyczny (zwany też stacjonarnym), jeśli

[math]\frac{\partial f}{\partial x^i}(x_0)=0, \;\;\;\;\;i=1,\dots , N[/math]

W przypadku funkcji jednej zmiennej można było podać kryterium na to, aby punkt krytyczny był maksimum (minimum); był to warunek, aby druga pochodna funkcji w punkcie krytycznym była mniejsza (większa) od zera[1].

W przypadku funkcji wielu zmiennych również można podać warunek dostateczny na to, aby punkt krytyczny był maksimum (minimum). Jest to jednak bardziej skomplikowane niż w przypadku funkcji jednej zmiennej, i aby ten warunek podać, przypomnimy najsampierw kilka faktów z zakresu teorii form kwadratowych.

Forma kwadratowa

Niech [math]k \in { \mathbb R}^N[/math]. Formą kwadratową na [math] { \mathbb R}^N[/math] nazywamy funkcję

[math]\omega (k)=\sum _{i,j=1}^N \omega _{ij} k^i k^j[/math]

Współczynniki występujące w powyższym wyrażeniu tworzą macierz formy kwadratowej:

[math]\left( \begin{array}{cccc} \omega _{11} & \omega _{12} & \dots & \omega _{1N}\\ \omega _{21} & \omega _{22} & \dots & \omega _{2N}\\ \vdots & \vdots & \dots & \vdots \\ \omega _{N1} & \omega _{N2} & \dots & \omega _{NN} \end{array} \right)\;\;\;\;- \;\;\;\mbox{macierz symetryczna: }\;\;\;\;\omega _{ij}=\omega _{ji}[/math]

Dla macierzy formy kwadratowej (%i 11) zdefiniujmy następujące liczby [math]D_1, D_2, \dots , D_N[/math].

[math]D_1=\omega _{11}[/math]
[math]D_2 =\det \left( \begin{array}{cc} \omega _{11} & \omega _{12} \\ \omega _{21} & \omega _{22} \end{array} \right)[/math]
[math]D_3=\det \left( \begin{array}{ccc} \omega _{11} & \omega _{12} & \omega _{13}\\ \omega _{21} & \omega _{22} &\omega _{23}\\ \omega _{31} & \omega _{32} & \omega _{33} \end{array} \right)[/math]

itd.,

[math]D_N = \det \left( \begin{array}{cccc} \omega _{11} & \omega _{12} & \dots & \omega _{1N}\\ \omega _{21} & \omega _{22} & \dots & \omega _{2N}\\ \vdots & \vdots & \dots & \vdots \\ \omega _{N1} & \omega _{N2} & \dots & \omega _{NN} \end{array} \right)[/math]

Twierdzenie (Kryterium dodatniej/ujemnej określoności form kwadratowych)

  1. Jeśli wszystkie [math]D_i[/math] są większe od zera: [math]D_i\gt 0[/math] dla [math] i=1, 2,\dots , N[/math], to dla dowolnego niezerowego wektora [math]k\in { \mathbb R}^N[/math] zachodzi:
    [math] \omega (k)\gt 0 [/math]
    (taką formę nazywamy ściśle dodatnią).
  2. Jeśli zachodzi: [math](-1)^i D_i\gt 0[/math] dla [math] i=1, 2,\dots , N[/math], to dla dowolnego niezerowego wektora [math]k\in { \mathbb R}^N[/math] zachodzi:
    [math] \omega (k)\lt 0 [/math]
    (taką formę nazywamy ściśle ujemną).
Dowodu

nie będzie, bo był on już albo będzie niedługo w części 'algebraicznej' wykładu.

Przykł.

Niech [math]N=2[/math]. Forma [math]\omega _+(k)=k_1^2 + k_2^2[/math] jest ściśle dodatnia, forma [math]\omega _-(k)=-k_1^2 - k_2^2[/math] jest ściśle ujemna, zaś forma [math]\omega _{+-} = k_1 k_2[/math] nie jest ani dodatnia, ani ujemna.

Postać kanoniczna formy kwadratowej

Jest to taka forma, że macierz formy jest macierzą diagonalną z liczbami: [math]1,0,-1[/math] na przekątnej. Innymi słowy,

[math] \omega (k) = \sum _{i=1}^n (k^i)^2 - \sum _{i=n+1}^m (k^i)^2\;\;\;\;\;(m\le N). [/math]

Twierdzenie

Każdą formę kwadratową można przez liniową zamianę zmiennych doprowadzić do postaci kanonicznej, która jest jedyna z dokładnością do przenumerowania zmiennych (tzn. ilość plusów i minusów w postaci kanonicznej formy jest jednoznaczna).

Dowód

Bez dowodu — był on / będzie na części algebraicznej wykładu.

Twierdzenie (warunek dostateczny istnienia ekstremum)

Niech [math]f\in C^2( {\cal O})[/math], [math] {\cal O}[/math] — otwarty w [math] { \mathbb R}^N[/math]. Niech [math]x_0\in {\cal O}[/math] — punkt krytyczny funkcji [math]f[/math], tzn. [math]\frac{\partial f}{\partial x^i}(x_0)=0, \;\;\;\;\;i=1,\dots , N[/math]. Niech

[math] D_s(x_0) = \det \left( \frac{\partial ^2 f}{\partial x^i\partial x^j}(x_0)\gt 0 \;\;\;\;\;(1\le i,j\le s) \right) [/math]

dla [math]s=1,2,\dots ,N[/math]. Wtedy [math]f[/math] ma w [math]x_0[/math] ścisłe minimum lokalne.

Dowód

Wypiszmy wzór Taylora dla [math]f[/math] do 2. rzędu, uwzględniając, że [math]x_0[/math] jest punktem krytycznym:

[math] f(x)=f(x_0) + \frac{1}{2} \sum _{i,j=1}^N \frac{\partial ^2 f}{\partial x^i\partial x^j}(x_0 + \theta h)h^i h^j [/math]

Drugie pochodne [math]f[/math] z założenia są ciągłe, a co za tym idzie — funkcje [math]D_s[/math] też są ciągłe, więc istnieje [math]\rho \gt 0[/math] takie, że [math]D_s(x)\gt 0[/math] dla [math]x=\in K(x_0, \rho )[/math]. Dla wszystkich [math]x[/math] — a więc w szczeg/olności dla [math]x = x_0+\theta h[/math].

CBDO

Ekstrema związane (warunkowe)

Rozwiązanie przez funkcje uwikłane

Często w matematyce/fizyce mamy do czynienia z sytuacją, gdy musimy znaleźć ekstrema jakiejś funkcji przy nałożonym określonym warunku. Na przykład, chcemy znaleźć prostopadłościan o możliwie największej objętości przy warunku, że pole powierzchni tego prostopadłościanu jest ustalone.

Niech [math]f: {\cal O}\subset { \mathbb R}^N\rightarrow { \mathbb R}[/math], [math] {\cal O}[/math] — otwarty. Niech [math]P\subset {\cal O}[/math]. (dalej zazwyczaj będziemy rozważać przypadki, gdzie [math]P[/math] jest zadany jako poziomica pewnej różniczkowalnej funkcji [math]g[/math]).

RYS.

Minimum lokalne

Niech [math]p_0\in P[/math]. Mówimy, że funkcja [math]f(x)[/math] ma w punkcie [math]p_0[/math] minimum lokalne przy warunku, że [math]x\in P[/math], jeśli istnieje otoczenie [math]V[/math] punktu [math]p_0[/math] w [math] {\cal O}[/math] takie, że

[math] \displaystyle \mathop { \forall }_{p\in V\cap P} f(p)\ge f(p_0). [/math]

Rozpatrzmy konkretniej przypadek [math]N=2[/math]. Niech [math]g: {\cal O}\rightarrow { \mathbb R}[/math], [math]g[/math] jest klasy [math]C^1[/math]. Niech [math]P=\lbrace (x,y)\in { \mathbb R}^2: g(x,y)=0\rbrace [/math] (tzn. [math]P[/math] jest zadany jako zerowa poziomica [math]g[/math]). Niech będzie dana funkcja [math]f\in C^1( {\cal O})[/math]. Szukamy ekstremów funkcji [math]f(x,y)[/math] przy warunku, że [math]g(x,y)=0[/math].

Sytuacja, gdy szukamy ekstremum funkcji bez żadnych warunków, na ogół różni się zasadniczo od tej, gdy szukamy ekstremów przy nałożeniu jakiegoś warunku.

Przykł.

[math]f(x,y)=2xy, g(x,y)=x^2+y^2-1[/math]. Gdy szukamy ekstremów [math]f[/math] bez żadnego warunku, to ekstremów nie ma: jest jeden punkt krytyczny [math](0,0)[/math], który jest siodłem. Rozważmy teraz sytuację, gdy szukamy ekstremów [math]f[/math] przy warunku [math]g(x,y)=0[/math]. Sparametryzujmy okrąg przez kąt [math]\phi [/math] we wsp. biegunowych: [math]x=\cos \phi [/math], [math]y=\sin \phi [/math]; wtedy [math]f[/math] obcięta do okręgu jest dana równaniem: [math]F(\phi )=f(\cos \phi ,\sin \phi )=2\sin \phi \cos \phi =\sin 2\phi [/math], i funkcja [math]F[/math] ma cztery ekstrema: dwa maksima w [math]\phi \in \lbrace \frac{\pi }{4},\frac{5\pi }{4}\rbrace [/math], co odpowiada punktom na płaszczyźnie: [math](\pm \frac{1}{\sqrt{2}},\pm \frac{1}{\sqrt{2}})[/math]; w tych punktach wartość [math]f[/math] jest równa 1; i dwa minima w [math]\phi \in \lbrace \frac{3\pi }{4},\frac{7\pi }{4}\rbrace [/math] tzn. [math](\pm \frac{1}{\sqrt{2}},\mp \frac{1}{\sqrt{2}})[/math] — w tych punktach wartość [math]f[/math] jest [math]-1[/math]. RYS.

Wróćmy do og/olnego przypadku funkcji zależnej od dwóch zmiennych [math]f(x,y)[/math] przy warunku [math]g(x,y)=0[/math]. Rozwiązanie problemu znajdowania ekstremum warunkowego możemy znaleźć, posługując się niedawno udowodnionym twierdzeniem o funkcjach uwikłanych. Będziemy zakładać, że równanie: [math]g(x,y)=0[/math] da się (przynajmniej lokalnie) rozwikłać do postaci [math]y=y(x)[/math]; da się tak zrobić, gdy [math]\frac{\partial g}{\partial y}\ne 0[/math]. Wstawmy uzyskaną funkcję [math]y(x)[/math] do funkcji [math]f[/math]. Zdefiniujmy: [math]F(x)=f(x,y(x))[/math]. W ten sposób, badanie ekstremów funkcji [math]f(x,y)[/math] przy warunku [math]g(x,y)=0[/math] sprowadza się do badania ekstremów funkcji [math]F(x)[/math].

Funkcja [math]F(x)[/math] posiada punkt [math]x_0[/math] podejrzany o ekstremum, gdy

[math] \frac{{\sf d}F}{{\sf d}x}(x_0)=0, [/math]

Policzmy pochodną funkcji [math]F[/math]. Mamy

[math] \frac{{\sf d}F}{{\sf d}x} = \frac{\partial f}{\partial x}(x,y(x))+ \frac{\partial f}{\partial y}(x,y(x))\cdot \frac{{\sf d}y}{{\sf d}x} [/math]

oraz

[math] \frac{{\sf d}y}{{\sf d}x} = -\frac{\frac{\partial g}{\partial x}(x,y(x))}{ \frac{\partial g}{\partial y}(x,y(x))} [/math]

Punkt [math](x_0,y_0)[/math] (gdzie [math]y_0=y(x_0)[/math]) będzie podejrzany o ekstremum, gdy spełniona będzie równość

[math]\frac{\partial f}{\partial x}(x_0,y_0)- \frac{\partial f}{\partial y}(x_0,y_0)\cdot \frac{\frac{\partial g}{\partial x}(x_0,y_0)}{ \frac{\partial g}{\partial y}(x_0,y_0)} = 0. [/math]

Jest to jedno równanie na dwie liczby [math]x_0[/math] oraz [math]y_0[/math]. Pamiętajmy jednak, że mamy też drugie równanie

[math]g(x_0,y_0)=0. [/math]

Przeformułowanie — metoda mnożników Lagrange'a

Wzór (%i 16) nie wygląda miło. Lagrange podał schemat, który w znacznie bardziej przejrzysty sposób pokazuje sposób liczenia ekstremów warunkowych.

Uzyskuje się to wprowadzając dodatkową zmienną [math]\lambda [/math] ([math]\lambda [/math] jest nazywane mnożnikiem Lagrange'a), określoną jako:

[math]\lambda = \frac{\frac{\partial f}{\partial y}(x_0,y_0)}{ \frac{\partial g}{\partial y}(x_0,y_0)}[/math]

Równanie (%i 16) można wtedy zapisać jako:

[math]f_x -\lambda g_x =0,[/math]

zaś definicję mnożnika Lagrange'a [math]\lambda [/math] jako

[math]f_y-\lambda g_y=0.[/math]

(pamiętając, że cały czas mamy też trzeci warunek (%i 17)).

Wprowadźmy teraz funkcję:

[math]\Phi (x,y;\lambda )=f(x,y)-\lambda g(x,y).[/math]

Warunek konieczny istnienia ekstremum związanego możemy teraz zapisać jako

[math]\begin{matrix}\Phi _x(x_0,y_0) = f_x(x_0,y_0) - \lambda g_x(x_0,y_0) & = & 0\\ \Phi _y(x_0,y_0) = f_y(x_0,y_0) - \lambda g_y (x_0,y_0)& = & 0\\ g(x_0,y_0) & = & 0. \end{matrix}[/math]

Jest to układ 3 równa/n na 3 niewiadome; z tego rzadko potrzebujemy znać [math]\lambda [/math], rozwiązujemy więc go tak aby wyznaczyć tylko [math](x_0, y_0)[/math].

Przykł.

[math]f(x,y)=2xy, g(x,y)=x^2+y^2-1[/math] raz jeszcze. Mamy: [math]\Phi (x,y)=xy-\lambda (x^2+y^2-2)[/math]. Warunek konieczny istnienia ekstremum jest:

[math]\begin{matrix}\Phi _x(x_0,y_0) = 0\Longrightarrow y_0 - \lambda x_0 & = & 0,\\ \Phi _y(x_0,y_0) = 0\Longrightarrow x_0 - \lambda y_0& = & 0,\\ g(x_0,y_0) & = & 0. \end{matrix}[/math]

Mnożąc pierwsze z powyższych równa/n przez [math]y_0[/math], drugie przez [math]x_0[/math] i odejmując stronami, otrzymamy: [math]x_0^2-y_0^2=0[/math], co daje [math]x_0=\pm y_0[/math]. Uwzględniając teraz trzecie równanie dostajemy: [math](x_0,y_0)=(\pm 1,\pm 1)[/math] oraz [math](x_0,y_0)=(\pm 1,\mp 1)[/math] — zgodnie z tym co dostaliśmy uprzednio.

Badanie warunku dostatecznego

W przypadku znajdowania ekstremów funkcji bez nałożonych żadnych warunków, po znalezieniu punktów krytycznych, jako podejrzanych o ekstrema, trzeba było je dodatkowo zbadać, aby zobaczyć, czy są ekstremami, czy nie. Gdy mamy kandydatów na ekstrema warunkowe, również powinno się przeprowadzić analogiczne badanie. Jest to zazwyczaj bardziej skomplikowane niż w przypadku kandydatów na ekstrema 'bezwarunkowe'. Są tu trzy zasadnicze sposoby postępowania.

  1. Gdy zbiór, na którym szukamy ekstremów warunkowych, jest zwarty (tzn. domknięty i ograniczony), to możemy skorzystać z tw. Weierstrassa mówiącego, iż funkcja na zbiorze zwartym osiąga swoje kresy. W ten sposób, gdy z metody mnożników Lagrange'a znajdziemy punkty podejrzane o ekstrema warunkowe, to liczymy wartość funkcji w tych punktach; w ten sposób znajdujemy wartość największa i najmniejszą. Przykł. [math]f(x,y)=xy, g(x,y)=x^2+y^2-2[/math] raz jeszcze: Poziomicą zerową funkcji [math]g[/math] jest okrąg, więc zbiór zwarty. W znalezionych już punktach [math](1,1)[/math] i [math](-1,-1)[/math] wartość [math]f[/math] wy nosi [math]+1[/math], a w punktach [math](-1,1)[/math] i [math](1,-1)[/math] wynosi [math]-1[/math]. Dwa pierwsze są więc maksimami, a dwa pozostałe — minimami.
  2. Badamy kandydatów na ekstrema warunkowe, korzystając z teorii funkcji uwikłanych.
  3. Wyznaczamy mnożniki Lagrange'a i liczymy drugą pochodną funkcji [math]\Phi [/math] z uzyskanymi mnożnikami w znalezionych punktach krytycznych, a następnie badamy określoność tej formy kwadratowej ograniczonej do płaszczyzny stycznej do poziomicy [math]g(x)=0[/math].

Dwie ostatnie recepty brzmią być może dość abstrakcyjnie; podam konkretniejsze przykłady w wolnej chwili.

Przypadek gdy mamy [math]M[/math] warunków

Może się wreszcie zdarzyć, że musimy znaleźć ekstremum funkcji [math]f[/math] przy nałożonym nie jednym, a [math]M[/math] warunkach. Sprecyzujmy to tak:

Niech [math] {\cal O}\subset { \mathbb R}^{N+M}[/math], niech [math]f\in C^1( {\cal O})[/math]. Niech [math]g_1,g_2,\dots , g_M\in C^1( {\cal O})[/math] i niech

[math] {\cal P}=\lbrace x\in { \mathbb R}^{N+M}: g_1(x)=0 \wedge g_2(x)=0 \wedge \dots \wedge g_M(x)=0\rbrace . [/math]

RYS.

Podamy teraz (ale uzasadnienie sobie darujemy[2]) sposób, w jaki znajdujemy kandydatów na ekstrema w tym przypadku. (Tu również uzasadnienie — jako materiał nadobowiązkowy — planuję w wolnej chwili napisać.)

Utwórzmy mianowicie funkcję

[math]\Phi (x,\lambda )=f(x)+\lambda _1 g_1(x) + \lambda _2 g_2(x)+ \dots + \lambda _M g_M(x); [/math]

występujące tu liczby [math]\lambda _1, \dots , \lambda _M[/math] są parametrami, zwanymi mnożnikami Lagrange'a. Przyrównajmy następnie do zera pochodne:

[math] \frac{\partial \Phi }{\partial x^1} = \frac{\partial f}{\partial x^1} + \lambda _1\frac{\partial g_1}{\partial x^1} + \dots + \lambda _M\frac{\partial g_M}{\partial x^1}=0, [/math]
[math] \frac{\partial \Phi }{\partial x^2} = \frac{\partial f}{\partial x^2} + \lambda _1\frac{\partial g_1}{\partial x^2} + \dots + \lambda _M\frac{\partial g_M}{\partial x^2}=0, [/math]

[math]\dots [/math]

[math] \frac{\partial \Phi }{\partial x^{N+M}} = \frac{\partial f}{\partial x^{N+M}} + \lambda _1\frac{\partial g_1}{\partial x^{N+M}} + \dots + \lambda _M\frac{\partial g_M}{\partial x^{N+M}}=0 [/math]

(razem [math]N+M[/math] równa/n) oraz

[math] g_1=0,\;\;g_2=0, \dots , g_M=0. [/math]

Razem mamy [math]N+M+M[/math] równa/n na [math]N+M+M[/math] niewiadomych. Rozwiązując te równania dostaniemy zestaw [math]x^1,\dots , x^{N+M}[/math] oraz [math]\lambda _1, \dots , \lambda _M[/math] (tych ostatnich zazwyczaj nie potrzebujemy). W ten sposób mamy kandydatów na ekstrema.

Przykł.

Na elipsie [math]\frac{x^2}{4}+\frac{y^2}{9}[/math] znaleźć punkty najmniej i najbardziej odległe od prostej [math]3x-y+9=0[/math].

Rozw. Niech [math]p_1=(x_1,y_1)[/math] należy do elipsy, zaś [math]p_2=(x_2,y_2)[/math] — do prostej. Musimy znaleźć najmniejszą wartość odległości pomiędzy punktami [math]p_1[/math] i [math]p_2[/math]: [math]d(p_1,p_2)=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2}[/math] przy warunkach, że [math]p_1[/math] należy do elipsy, zaś [math]p_2[/math] do prostej.

łatwiej będzie rozwiązywąc równoważny problem badania kwadratu odległości. Musimy zatem znaleźć ekstrema funkcji [math]f(x_1,x_2,y_1,y_2)=(x_1-x_2)^2 + (y_1-y_2)^2[/math] przy dwóch warunkach: [math]\frac{x_1^2}{4}+\frac{y_1^2}{9}-1=0[/math], [math]3x_2-y_2+9=0[/math].

Postępując we wskazany wyżej sposób, tworzymy funkcję:

[math] \Phi = (x_1-x_2)^2 + (y_1-y_2)^2 + \lambda \left( \frac{x_1^2}{4}+\frac{y_1^2}{9}-1 \right) + \mu (3x_2-y_2+9), [/math]

([math]\lambda , \mu [/math] — mnożniki Lagrange'a), liczymy jej pochodne, przyrównujemy do zera i rozwiązujemy powstały układ równa/n. Odp.: Punktem na elipsie najmniej odległym od prostej jest [math]p_{min}=\left(\frac{2}{\sqrt{5}}, \frac{3}{\sqrt{5}}\right)[/math], zaś punktem najbardziej odległym jest [math]p_{max}=\left(-\frac{2}{\sqrt{5}}, -\frac{3}{\sqrt{5}}\right)[/math].



  1. Nie był to warunek najogólniejszy, ale tego ogólniejszego warunku nie będziemy tu przypominać, gdyż rozszerzenie go na przypadek funkcji wielu zmiennych wymaga znacznie bardziej zaawansowanej teorii
  2. Podobnie jak w filmie 'Toy Story 2' bohater negatywny Al darował sobie prysznic przed wylotem do Tokio