Matematyka:Matematyka II NI/Twierdzenie o lokalnej odwracalności

Z Brain-wiki


Twierdzenie o lokalnej odwracalności

Wstęp motywacyjny

Twierdzenie o funkcji odwrotnej dla funkcji jednej zmiennej

Dla funkcji jednej zmiennej mieliśmy twierdzenie o funkcji odwrotnej, które dla wygody tutaj przypomnimy.

Niech [math]f: { \mathbb R}\supset ]a,b[ \rightarrow { \mathbb R}[/math]; przyjmijmy, że [math]f[/math] jest klasy [math]C^1[/math].

Jeśli [math]f^{\prime }(x_0)\ne 0[/math], to wtedy [math]f^{\prime }(x)\ne 0[/math] na pewnym przedziale [math]]x_0-\epsilon , x_0+\epsilon [[/math] i wtedy [math]f[/math] jest bijekcją odcinka [math]]a,b[ [/math] na [math]]f(a),f(b)[[/math] (dla [math]f^{\prime }(x_0)\gt 0[/math]; w przypadku gdy [math]f^{\prime }(x_0)\lt 0[/math] bijekcja jest na odcinek [math]]f(b),f(a)[[/math]). Innymi słowy, w każdym punkcie [math]x\in ]x_0-\epsilon , x_0+\epsilon [[/math] istnieje funkcja odwrotna [math]f^{-1}[/math].

Twierdzenie o odwzorowaniu odwrotnym

Zastanówmy się teraz, czy i jak można to twierdzenie rozszerzyć na przypadek odwzorowań [math]f: { \mathbb R}^n\rightarrow { \mathbb R}^m[/math] klasy [math]C^1[/math].

Przykłady z zakresu odwzorowań liniowych pokazują, kiedy na pewno nie jest możliwe znalezienie odwzorowania odwrotnego. I tak, dla odwzorowania [math] { \mathbb R}^2\rightarrow { \mathbb R}[/math], pytanie o istnienie odwz. odwrotnego jest równoważne pytaniu o istnienie jednoznacznego rozwiązania układu równań liniowych. I tak np. układ równań [math]ax+by=A[/math] nie ma jednoznacznego rozwiązania (gdy [math]b\ne 0[/math], to rozwiązaniem jest: [math](x, y=\frac{A-ax}{b})[/math] dla dowolnego [math]x[/math]; a gdy [math]b=0[/math], to jest rozwiązaniem jest [math](x=\frac{A}{a}, y)[/math]-dowolne; w obu więc przypadkach nie ma jednoznaczności rozwiązania). Podobnie można się przekonać, że dla [math]n\lt m[/math] żadne odwzorowanie liniowe nie może być wzajemnie jednoznaczne.

Przyjmijmy więc, że [math]n=m[/math], i spróbujmy odgadnąć kryteria na odwracalność odwzorowania.

Analogonem pochodnej funkcji jest pochodna odwzorowania, tzn. macierz Jacobiego. Można przypuścić, że gdy macierz Jacobiego będzie nieosobliwa (tzn. rząd macierzy Jacobiego będzie równy [math]n[/math]), to odwzorowanie da się odwrócić. Okazuje się jednak, że jest to warunek konieczny, ale niewystarczający.

Przykł.

Rozpatrzmy: [math] { \mathbb R}^2\ni (x,y)\rightarrow (e^x\cos y, e^x\sin y)\in { \mathbb R}^2[/math]. Mamy:

[math] T^{\prime }(x)= \left[ \begin{array}{cc} e^x\cos y &- e^x\sin y\\ e^x\sin y & e^x\cos y \end{array} \right], \;\;\;\;\; \det T^{\prime }(x,y) = e^x \ne 0 [/math]

zatem jakobian odwzorowania wszędzie jest różny od zera i macierz Jacobiego jest wszędzie nieosobliwa. Ale: [math]T(x,y+2\pi )=T(x,y)[/math], tzn. odwzorowanie nie jest globalnie odwracalne.

Okazuje się, że jest niełatwo podać warunki na globalną odwracalność odwzorowań. Da się to jednak zrobić zadowalając się odwracalnością lokalną, tzn. jeśli odwracalność zachodzi na małym otoczeniu punktu [math]x_0[/math] w przeciwobrazie i [math]T(x_0)[/math] w obrazie. Do takiej lokalnej odwracalności wystarczy, aby macierz Jacobiego w punkcie [math]x_0[/math] była nieosobliwa.

Przyjrzyjmy się, 'jak to działa', gdy mamy do czynienia z odwzorowaniem liniowym [math]A: { \mathbb R}^n\rightarrow { \mathbb R}^n[/math]. Niech [math]y=Ax[/math]. Wtedy pytanie, czy odwzorowanie [math]A[/math] jest odwracalne (tzn. czy istnieje [math]A^{-1}[/math], jest równoważne pytaniu, czy układ równań liniowych [math]Ax=y[/math] posiada jednoznaczne rozwiązanie. Wiemy z algebry, że odpowiedź jest pozytywna w przypadku, gdy macierz [math]A[/math] jest odwracalna, co jest równoważne temu, że [math]\det A\ne 0[/math].

Dokładniejsze sformułowanie podamy później, a na razie zdefiniujemy pojęcia, które będą potrzebne dalej przy dowodzie.

Norma na przestrzeni macierzy

Własności normy na przestrzeni wektorowej.

Pamiętamy, że jeżeli [math]x,y\in { \mathbb R}^N[/math] — wektory (tzn. [math]x=(x^1, x^2,\dots , x^N)[/math], a [math]\lambda [/math] — liczba, i określiliśmy normę [math]||x||[/math] wzorem

[math] ||x||=\sqrt{\sum _{k=1}^N (x^i)^2} [/math]

to norma posiada własności:

  1. [math]||\lambda x||=|\lambda |\cdot ||x||[/math] dla dowolnego [math]\alpha \in { \mathbb R}[/math] i [math]x\in { \mathbb R}^N[/math].
  2. [math]||x||\ge 0,[/math] a równość [math]||x||=0[/math] zachodzi tylko dla wektora zerowego [math]x=0[/math].
  3. [math]||x+y||\le ||x|| + ||y||[/math]

Iloczyn skalarny

W przestrzeni [math] { \mathbb R}^N[/math] możemy też wprowadzić iloczyn skalarny[1]. Iloczynem skalarnym wektorów [math]x,y\in { \mathbb R}^N[/math] nazywamy liczbę [math](x|y)[/math] określoną jako

[math](x|y) = \sum _{k=1}^N x^i y^i [/math]

Dla tak zdefiniowanego iloczynu skalarnego zachodzi nierówność Schwarza:

[math] \left| \sum _{k=1}^N x^i y^i \right| \le ||x||\cdot ||y||. [/math]

Przestrzeń wektorowa

Jak pamiętamy z wykładu z algebry (a jeśli nie pamiętamy to niniejszym wprowadzamy), zbiór macierzy ustalonego rozmiaru jest przestrzenią wektorową. Załóżmy, że mamy do czynienia z macierzami rozmiaru [math]m\times n[/math], tzn. o [math]m[/math] wierszach i [math]n[/math] kolumnach. Taką macierz [math]A[/math] zapisujemy jako: [math]A=(a_{ij})[/math], gdzie [math]1\le i\le m[/math], [math]1\le j\le n[/math]. Gdy chcemy z macierzy [math]A[/math] 'wyjąć' element macierzowy [math]a_{ij}[/math], to zapisujemy to jako: [math](A)_{ij}[/math] (element na skrzyżowaniu [math]i[/math]-tego wiersza i [math]j[/math]-tej kolumny). Macierze można dodawać: Jeśli [math]A,B[/math] — macierze [math]m\times n[/math], to ich suma [math]C=A+B[/math] jest macierzą [math]m\times n[/math] o elementach

[math] c_{ij}=a_{ij}+b_{ij}; [/math]

macierz można także pomnożyć przez liczbę: Jeśli [math]A[/math] — macierz, [math]\lambda [/math] — liczba, to iloczynem [math]\lambda A[/math] nazywamy macierz o elementach

[math] (\lambda A)_{ij} = \lambda a_{ij}. [/math]

Te dwie operacje (dodawanie macierzy oraz mnożenie macierzy przez liczbę) czynią ze zbioru macierzy przestrzeń wektorową.

Przypomnijmy jeszcze, jak macierz [math]A[/math] działa na wektor [math]x\in { \mathbb R}^n[/math]: Wynikiem jest wektor [math]y=Ax=(y_1,\dots , y_m)\in { \mathbb R}^m[/math] o składowych

[math]y_i =(Ax)_i =\sum _{k=1}^n a_{ij} x^j [/math]

Do zdefiniowania normy na przestrzeni macierzy będzie nam potrzebny następujaćy

Lemat

Niech [math]A=(a_{ij})[/math] — macierz [math]m\times n[/math]. Istnieje wtedy taka stała [math]C\ge 0[/math], że dla dowolnego wektora [math]x=(x^1, \dots , x^n)\in { \mathbb R}^n[/math] zachodzi nierówność

[math]\underbrace{||Ax||}_{{\rm liczona\;\;w\;\;} { \mathbb R}^m}\le C\cdot \underbrace{||x||}_{{\rm liczona\;\;w\;\;} { \mathbb R}^m} [/math]
Dowód

Niech [math]y=Ax[/math] liczone jak w (%i 2). Liczymy kwadrat normy wektora [math]Ax[/math]:

[math] ||Ax||^2 =||y||^2=\sum _{i=1}^m (y_i)^2= \sum _{i=1}^m (\sum _{j=1}^n a_{ij} x^j)^2=\spadesuit [/math]

Potraktujmy teraz macierz [math]A[/math] jako kolekcję [math]m[/math] wektorów (wierszowych) o długości [math]n[/math]. Tzn. taki [math]i[/math]-ty wektor [math]a_i[/math] ma składowe [math](a_i)_j = a_{ij}[/math]. W ten sposób, drugą sumę w powyższej podwójnej sumie można potraktować jako iloczyn skalarny wektorów [math]a_i[/math] oraz [math]x[/math]. Korzystając z nierówności Schwarza w [math] { \mathbb R}^n[/math], mamy:

[math] \spadesuit \le \sum _{i=1}^m ||a_i||^2\cdot ||x||^2 = ||x||\sum _{i=1}^m \left(\sum _{j=1}^n (a_{ij})^2\right) = ||x||\sum _{i=1}^m \sum _{j=1}^n (a_{ij})^2. [/math]

Wyciągając pierwiastek (obie strony są nieujemne), mamy

[math] ||Ax|| \le \sqrt{\sum _{i=1}^m \sum _{j=1}^n (a_{ij})^2} \cdot ||x||; [/math]

za liczbę [math]C[/math] w sformułowaniu Lematu możemy więc wziąć np.

[math] C=\sqrt{\sum _{i=1}^m \sum _{j=1}^n (a_{ij})^2}. [/math]

CBDO

Normą macierzy [math]A[/math]

nazywamy kres dolny zbioru [math]\Gamma \subset { \mathbb R}_+\cup \lbrace 0\rbrace [/math], gdzie

[math] \Gamma = \lbrace C\in { \mathbb R}_+\cup \lbrace 0\rbrace :\displaystyle \mathop { \forall }_{x\in { \mathbb R}^n} ||Ax||\le C ||x||\rbrace [/math]
Uwaga

Definicja jest z sensem, bo z pokazanego dopiero co Lematu wynika, że zbiór [math]\Gamma [/math] jest niepusty. Stąd też mamy nieujemność normy:

[math] ||A||\ge 0 [/math]

dla dowolnej macierzy [math]A[/math].

Stwierdzenie

Norma macierzy posiada następujące własności:

  1. [math]\displaystyle \mathop {\forall }_x ||Ax||\le ||A||\cdot ||x||[/math].
  2. [math]||\lambda A||\le |\lambda |\cdot ||A||[/math].
  3. [math]||A+B||\le ||A||+||B||[/math].
  4. [math]||A||\ge 0[/math], przy czym [math]||A||=0 \Longleftrightarrow A=0[/math].
  5. [math]||A\cdot B|| \le ||A||\cdot ||B||[/math] dla [math]A, B[/math] — takich, że iloczyn [math]A\cdot B[/math] jest określony.
Dowód
  1. Wynika z definicji normy.
  2. Oczywiste.
  3. Policzmy [math]||(A+B)x||[/math]:
    [math] ||(A+B)x|| = \underbrace{||Ax+Bx||}_{\rm norma\;wektora} \overbrace{\le }^{\rm v.S.i.} ||Ax|| + ||Bx|| \overbrace{\le }^{{\rm wl.\;0.}} ||A||\cdot ||x|| + ||B||\cdot ||x|| = (||A||+||B||)||x|| [/math]
    Pokazaliśmy więc, że dla dowolnego wektora [math]x[/math] zachodzi [math]||(A+B)x||\le (||A||+||B||) \cdot ||x||[/math]. Porównajmy to z definicją normy: Norma [math](A+B)[/math] to kres dolny liczb [math]C[/math] takich, że [math]||(A+B)x||\le C\cdot ||x||[/math], zatem
    [math] ||A+B||\le ||A||+||B||. [/math]
  4. Było, że [math]A=0\Longrightarrow ||A||=0[/math]. Pokażemy, że też: [math]||A=0||\Longrightarrow A=0[/math]. Dow. będzie niewprost: Pokażemy, że jeżeli [math]A\ne 0\Longrightarrow ||A||\gt 0[/math]. Najsampierw zauważmy, że jeśli [math]A\ne 0[/math], to istnieje wektor [math]x[/math] taki, że [math]Ax\ne 0[/math]. Możemy założyć, że [math]||x||=1[/math]. Niech [math]||Ax||=k\gt 0[/math]. Ponieważ [math]||Ax||\le ||A||[/math] dla każdego [math]x[/math] takiego, że [math]||x||=1[/math], to znaczy, że [math]||A||\ge k\gt 0[/math]. CBDO w p. 3.
  5. Mamy:
    [math] (A\cdot B)x||= ||A(Bx)||\le ||A||\cdot ||Bx||\le ||A||\cdot ||B||\cdot ||x||; [/math]
    argumentując analogicznie jak pod koniec p. 2. mamy, że [math]||A\cdot B||\le ||A||\cdot ||B||[/math].


Zasada Banacha

Niech [math]D[/math] —zbiór domknięty w [math] { \mathbb R}^n[/math]. Niech [math]T:K\rightarrow K[/math], [math]T[/math] — ciągłe.

Odwzorowanie zwężające

Mówimy, że [math]T[/math] jest zwężające, jeśli istnieje stała [math]C\lt [/math] taka, że

[math] \displaystyle \mathop {\forall }_{x,y\in K} d(T(x),T(y)) \le C d(x,y) [/math]

Twierdzenie

Niech [math]T[/math] — zwężające. Wtedy istnieje dokładnie jeden punkt stały dla [math]T[/math], tzn. [math]\hat{x}\in K[/math] taki, że [math]T(\hat{x})=\hat{x}[/math], przy czym

[math] \hat{x}={\displaystyle \mathop {\lim }_{n\rightarrow \infty } }T^n(x_0)\;\;\;\mbox{dla dowolnego } x_0\in K [/math]
Uwaga 1

Innymi słowy, możemy znaleźć punkt stały przez kolejne iteracje odwzorowania [math]T[/math] jako granicę ciągu: [math]x_0, T(x_0), T(T(x_0)), \dots )[/math].

Uwaga 2

Zasada Banacha jest bardzo potężnym narzędziem: W tym wykładzie użyjemy jej do dowodu tw. o lokalnej odwracalności, a potem do istnienia i jednoznaczności rozwiązania równania różniczkowego.

Dowód

Załóżmy najsampierw, że istnieją dwa punkty stałe [math]x_1[/math], [math]x_2[/math], tzn. zachodzi: [math]T(x_1)=x_1[/math], [math]T(x_2)=x_2[/math]. Wtedy jednak, ponieważ [math]T[/math] jest zwężające, mamy:

[math] d(T(x_1), T(x_2))\le C d(x_1,x_2), [/math]

i ponieważ [math]x_1, x_2[/math] są punktami stałymi, to

[math] d(x_1,x_2)\le C d(x_1,x_2), [/math]

co może mieć miejsce tylko w przypadku, gdy [math]d(x_1,x_2)=0[/math], co implikuje, że [math]x_1=x_2[/math].

Jeśli więc istnieje punkt stały, to co najwyżej jeden.

Dla wykazania, że punkt stały istnieje, pokażemy najsampierw, że ciąg [math]x_n = T^n(x_0)[/math], [math]x_0\in K[/math], jest zbieżny. A jeżeli jest zbieżny, to jego granica [math]\hat{x} = {\displaystyle \mathop {\lim }_{n\rightarrow \infty } }x_n[/math] należy do [math]K[/math], bo [math]K[/math] jest domknięty. Ta granica [math]\hat{x}[/math] jest też punktem stałym [math]T[/math], bo

[math] T(\hat{x}) = {\displaystyle \mathop {\lim }_{n\rightarrow \infty } }T(x_n) ={\displaystyle \mathop {\lim }_{n\rightarrow \infty } }x_{n+1} = \hat{x}. [/math]

Będziemy wykazywać, że ciąg [math]\lbrace {x}_n \rbrace [/math] jest ciągiem Cauchy'ego, tzn. że

[math] \displaystyle \mathop \forall _{\epsilon \gt 0} \mathop \exists _{N\in { \mathbb N}} \mathop \forall _{n\gt N} \mathop \forall _{k\in { \mathbb N}} d(x_{n+k},x_n)\le \epsilon . [/math]

Mamy:

[math]d(x_{n+k},x_n)=d(T^{n+k}(x_0), T^n(x_0))=d(T^n(x_k),T^n(x_0))\le C^n d(x_k, x_0)[/math]

Potrzebujemy oszacowania na [math]d(x_k,x_0)[/math] niezależnego od [math]k[/math]. Najsampierw weźmy:

[math] d(x_2,x_0) \le d(x_2, x_1) + d(x_1,x_0) = d(T(x_1), T(x_0)) + d(x_1,x_0)\le d(x_1,x_0) (1+C); [/math]

i ogólniej mamy:

[math] d(x_n,x_0) \le d(x_n, x_{n-1}) + d(x_{n-1},x_0) \le C^{n-1}d(x_1, x_0) + d(x_{n-1},x_0) [/math]
[math] \le d(x_1,x_0) C^{n-1} +d(x_{n-1}, x_{n-2})+ d(x_{n-2},x_0)\le (C^{n-1}+C^{n-2}) d(x_1, x_0) + d(x_{n-2},x_0) \le \dots [/math]
[math] \le (C^{n-1}+C^{n-2}+\dots + C +1) d(x_1, x_0) [/math]

i sumując szereg geometryczny, otrzymamy ostatecznie, że

[math] d(x_n,x_0) \le d(x_1,x_0) (C^{n-1}+C^{n-2}) + \dots + C +1) d(x_1, x_0) = \frac{1}{1-C} d(x_1, x_0). [/math]

Wstawiając to do (%i 4), otrzymamy ostatecznie, że

[math] d(x_{n+k},x_n)\le \frac{C^n}{1-C} d(x_1, x_0) [/math]

Zatem ciąg [math]\lbrace {x}_n \rbrace [/math] jest ciągiem Cauchy'ego i, ponieważ [math]K[/math] jest domknięty, posiada granicę należącą do [math]K[/math].

CBDO

Mamy następujący prosty fakt dotyczący funkcji rzeczywistych.

Niech [math]f:]a,b[\rightarrow { \mathbb R}[/math] — różniczkowalna. Dla dowolnych [math]x,y\in ]a,b[[/math] istnieje taki punkt [math]\xi \in ]x,y[[/math], że

[math] \frac{f(x)-f(y)}{x-y}=f^{\prime }(\xi ). [/math]

Niech pochodna [math]f^{\prime }(x)[/math] będzie ograniczona na odcinku [math]]a,b[[/math]: [math]|f^{\prime }(x)|\lt C[/math] dla dowolnego [math]x\in ]a,b[[/math]. Wtedy dla dowolnych [math]x,y\in ]a,b[[/math] mamy

[math] |f(x)-f(y)|=|f^{\prime }(\xi )|\cdot |x-y|\le C|x-y|. [/math]

Będziemy potrzebowali rozszerzenia tego faktu na odwzorowania. Okazuje się, że zachodzi

Stwierdzenie

Niech [math] {\cal O}\subset { \mathbb R}^n[/math] — otwarty i wypukły. Niech [math]T: {\cal O}\rightarrow {\cal U}\subset { \mathbb R}^m[/math]. Niech norma z pochodnej [math]T[/math] będzie ograniczona, tzn. dla każdego [math]x\in {\cal O}[/math] niech [math]||T^{\prime }(x)||\le C[/math]. Wtedy

[math] d(T(x),T(y))\le C d(x,y) [/math]

dla dowolnych [math]x,y\in {\cal O}[/math].

Uzupełnienie

Zbiór [math]X\subset { \mathbb R}^N[/math] nazywamy wypukłym, gdy dla dowolnych jego punktów [math]x,y[/math], także punkt [math]z=\alpha x + (1-\alpha )y[/math] należy do [math]X[/math] dla dowolnego [math]\alpha \in [0,1][/math]. RYS.

Dowód

Weźmy [math]h\in { \mathbb R}^n[/math] na tyle małe, aby [math]y=x+h[/math] należało do [math] {\cal O}[/math]. (RYS.). Niech [math] { \mathbb R}^m\ni k=T(x+h)-T(x)[/math]; naówczas [math]||k||=d(T(x+h),T(x)[/math].

Zdefiniujmy funkcję zmiennej rzeczywistej [math]\lambda [/math], [math]\lambda \in [0,1][/math]:

[math] f(\lambda )=\sum _{i=1}^m k^i (T^i(x+\lambda h)-T^i(x)). [/math]

Policzmy pochodną [math]f(\lambda )[/math]:

[math]\frac{{\sf d}f}{{\sf d}\lambda } = \sum _{i=1}^m k^i \sum _{j=1}^n \frac{\partial T^i}{\partial x^j}(x+\lambda h)h^j[/math]

Mamy: [math]f(0)=0[/math] oraz [math]f(1)=||k||^2[/math]. Wobec tego, z tw. Lagrange'a o wartości średniejwnosimy, iż istnieje [math]\xi \in ]0,1[[/math] t. że [math]f(1)-f(0)=f^{\prime }(\xi )[/math]. Pisząc jawnie wyrażenie (%i 5) na [math]f^{\prime }(\lambda )[/math] uzyskane wyżej, mamy

[math] \left| \sum _{i=1}^m k^i \sum _{j=1}^n \frac{\partial T^i}{\partial x^j}(x+\xi h)h^j \right| =||k||^2 [/math]

Z własności 4. dla normy macierzy, mamy, iż lewa strona jest nie większa niż

[math] ||k||\cdot ||T^{\prime }(x+\xi h) h|| [/math]

zatem

[math] ||k||^2 \le ||k|| \cdot ||T^{\prime }(x+\xi h) h|| \le ||k|| \cdot ||T^{\prime }(x+\xi h)||\cdot || h|| \le ||k||\cdot C \cdot ||h||, [/math]

zatem

[math] ||k||\le C\cdot ||h||, [/math]

co znaczy, że

[math] d(T(x+h),T(x))\le C\cdot d(x+h,x) [/math]

czyli

[math] d(T(x),T(y))\le C\cdot d(x,y) [/math]

CBDO

Morał

Jeśli [math]C\lt 1[/math], to [math]T[/math] jest zbliżające.

Teraz już jesteśmy gotowi, aby sformułować

Twierdzenie o lokalnej odwracalności

RYS.

Niech [math]F: {\cal O}\rightarrow { \mathbb R}^n[/math], gdzie [math] {\cal O}\subset { \mathbb R}^n[/math]. Zakładamy, że [math]F[/math] jest klasy [math]C^1[/math]. Niech [math]x_0\in {\cal O}[/math] i niech [math]F^{\prime }(x_0)[/math] będzie odwracalne, tzn. [math]\det F^{\prime }(x_0)\ne 0[/math].

Wtedy istnieje otoczenie punktu [math]x_0[/math] (a więc i [math]K(x_0,r),\; r\gt 0[/math]) i istnieje otoczenie [math] {\cal U}[/math] punktu [math]F(x_0)[/math] takie, że odwzorowanie [math]F[/math] obcięte do [math]K(x_0,r)[/math]: [math]\left. F\right|_{K(x_0,r)} : K(x_0,r) \rightarrow {\cal U}[/math] jest odwracalne. Odwzorowanie odwrotne do niego jest też klasy [math]C^1[/math].

Oznaczmy: [math]\left. F\right|_{K(x_0,r)}=\tilde{F}[/math]. Wtedy wyrażenie na pochodną [math](\tilde{F}^{-1})^{\prime }[/math] odwzorowania odwrotnego jest dane przez

[math](\tilde{F}^{-1})^{\prime } (\tilde{F}(x)) = (\tilde{F}^{\prime }(x))^{-1}. [/math]

Dowód

Jak pamiętamy, odwzorowanie odwrotne jest zdefiniowane przez: [math]\tilde{F}^{-1} \circ \tilde{F} = {\rm Id}\,[/math] lub, jawnie wypisując argument(-y),

[math](\tilde{F}^{-1})(\tilde{F}(x)) =x[/math]

Jeśli [math]\tilde{F}[/math] oraz [math]\tilde{F}^{-1} [/math] są klasy [math]C^1[/math], to obliczając pochodne obu stron wyrażenia (%i 7) i korzystając z wzoru na pochodną odwzorowania złożonego mamy

[math] (\tilde{F}^{-1})^{\prime }(\tilde{F}(x))\cdot (\tilde{F}^{\prime }(x)) = I, [/math]

([math]I[/math] — macierz jednostkowa) czyli

[math] (\tilde{F}^{-1})^{\prime }(\tilde{F}(x)) = (\tilde{F}^{\prime }(x))^{-1}. [/math]

czyli mamy wzór (%i 6). Pozostaje wykazać całą resztę tezy.

Oznaczmy: [math]F^{\prime }(x_0) = A[/math] i wybierzmy [math]\lambda \in { \mathbb R}_+[/math] tak, aby [math]4\lambda ||A^{-1}||=1[/math]. Ponieważ [math]F[/math] jest klasy [math]C^1[/math], tzn. jego pochodne cząstkowe są ciągłe, to istnieje kula otwarta [math]U[/math] o środku w punkcie [math]x_0[/math] taka, że

[math]||F^{\prime }(x)-A|| \lt 2\lambda \;\;\;\;\;\mbox{dla wszystkich}\;\;\;x\in U.[/math]

Załóżmy, że [math]x\in U[/math], [math]x+h\in U[/math] i zdefiniujmy [math]\Phi : [0,1]\rightarrow { \mathbb R}^n[/math]:

[math] \Phi (t)=F(x+th)-F(x)-tAh\;\;\;\;\;0\le t\le 1. [/math]

Ponieważ kula [math]U[/math] jest zbiorem wypukłym[2], to [math]x+th\in U[/math] dla [math]0\le t\le 1[/math] i z (%i 8) wynika, że

[math]||\Phi ^{\prime }(t)|| = || F^{\prime }(x+th)h -Ah|| = || (F^{\prime }(x+th) -A)h|| \le || F^{\prime }(x+th) -A||\cdot ||h|| \le 2\lambda ||h|| \le \frac{1}{2}||Ah||[/math]

(w przedostatniej nierówności skorzystaliśmy z (%i 8)). Ostatnia nierówność wynika z następującej argumentacji:

[math]2\lambda ||h||= 2\lambda ||A^{-1} A h||\le 2 \lambda ||A^{-1}||\cdot ||Ah|| = \frac{1}{2}||Ah||. [/math]

Przypomnijmy sobie teraz Stw. ze str. 6 mówiące, że jeżeli odwzorowanie [math]T: { \mathbb R}^m\rightarrow { \mathbb R}^n[/math] ma pochodną ograniczoną przez [math]C[/math], to dla dowolnych [math]x,y\in { \mathbb R}^m[/math] zachodzi nierówność [math]d(T(x),T(y))\le C d(x,y)[/math]. Zastosujmy go do funkcji [math]\Phi : { \mathbb R}\rightarrow { \mathbb R}^n[/math]: Jeżeli jest spełnione oszacowanie (%i 9) na normę [math]\Phi [/math], to biorąc [math]x=1,y=0[/math] dostajemy

[math] ||\Phi (1)-\Phi (0)||\le \frac{1}{2}||Ah||, [/math]

co można przepisać jako

[math]||F(x+h)-F(x)-Ah||\le \frac{1}{2}||Ah||.[/math]

Oznaczmy na chwilę [math]F(x+h)-F(x)=\Delta [/math]. Mamy więc: [math]||\Delta -Ah||\le \frac{1}{2}||Ah||[/math] lub

[math]-||\Delta -Ah||\ge -\frac{1}{2}||Ah||;[/math]

Ponadto:

[math] ||Ah||=||\Delta -Ah-\Delta ||\le ||\Delta -Ah||+||\Delta ||, [/math]

czyli

[math] ||\Delta ||\ge ||Ah||-||\Delta -Ah|| [/math]

zaś uwzględniając (%i 12) mamy:

[math] ||\Delta ||\ge ||Ah||-\frac{1}{2}||Ah||=\frac{1}{2}||Ah||, [/math]

czyli, uwzględniając jeszcze (%i 10), dostajemy

[math]||F(x+h)-F(x)||\ge \frac{1}{2} ||Ah|| \ge 2 \lambda ||h||.[/math]

Nierówności (%i 11) i (%i 13) zachodzą dla dowolnych [math]x[/math] i [math]h[/math] takich, że [math]x\in U[/math] i [math]x+h\in U[/math]. Tak więc nierówność (%i 13) mówi, że [math]F[/math] jest wzajemnie jednoznaczna na [math]U[/math] (bowiem nie ma takich punktów [math]x,x+h[/math] aby zachodziło [math]F(x)=F(x+h)[/math]).

Pozostaje pokazać ciągłość i różniczkowalność odwzorowania odwrotnego. Oznaczmy odwzorowanie odwrotne do [math]F[/math] przez [math]G[/math].

Niech [math] {\cal U}=F(U)[/math], niech [math]y\in {\cal U}[/math], [math]y+k\in V[/math] i niech [math]x=G(y)[/math]. Niech

[math] h=G(y+k)-G(y). [/math]

Pamiętamy, że na [math]U[/math] pochodna [math]F^{\prime }(x)[/math] ma operator odwrotny, który oznaczymy przez [math]B[/math].

Odwzorowanie [math]F[/math] jest różniczkowalne, więc możemy zapisać:

[math] k=F(x+h)-F(x) = F^{\prime }(x) h + r(h), [/math]

gdzie [math]r(h)[/math] jest resztą, tzn. zachodzi: [math]\frac{||r(h)||}{||h||}\rightarrow 0[/math] dla [math]h\rightarrow 0[/math]. Na obie strony powyższej równości zadziałajmy operatorem [math]B[/math]. Otrzymamy: [math]Bk=h+Br(h)[/math] lub

[math]G(y+k)-G(y) = Bk -B(r(h)).[/math]

Na mocy (%i 13), [math]2\lambda ||h||\le ||k||[/math]. Zatem [math]h\rightarrow 0[/math], jeśli [math]k\rightarrow 0[/math] (co dowodzi ciągłości [math]G[/math] w punkcie [math]y[/math]) oraz

[math]\frac{||B(r(h))||}{||k||} \le \frac{||B||}{2\lambda }\cdot \frac{||r(h)||}{||h||}\rightarrow 0,\;\;\;\;\;\mbox{gdy}\;\;\;k\rightarrow 0.[/math]

Z porównania (%i 14) i (%i 15) wynika, że [math]G[/math] jest różniczkowalna w punkcie [math]y[/math] oraz że [math]G^{\prime }(y)=B[/math]. Można to przeformułować mówiąc, że dla [math]y\in {\cal U}[/math] zachodzi

[math]G^{\prime }(y) = [F^{\prime }(G(y))]^{-1}.[/math]

o czym już wiedzieliśmy z formalnego rachunku tuż przed dowodem (ale dopiero teraz uzasadniliśmy poprawność tego rachunku).

CBDO

Przykł.

Dla [math]F: { \mathbb R}^2\ni (r,\phi ) \rightarrow (x,y)\in { \mathbb R}^2[/math] określonego jako: [math]x(r,\phi )= r\cos \phi [/math], [math]y(r,\phi )=r\sin \phi [/math] pokazujemy bezpośrednim rachunkiem, że [math](F^{-1})^{\prime } = (F^{\prime })^{-1}[/math].

Tw. o funkcji uwikłanej

Układ równań liniowych

Aby wyrobić intuicję, rozpatrzmy najsampierw układy równań liniowych. Taki układ to [math]m[/math] równań na [math]N[/math] zmiennych, gdzie założymy, że [math]N\gt m[/math]. [3] W takiej sytuacji, jeśli jest spełniony określony warunek, który zaraz wypiszemy, możemy wyrazić [math]m[/math] zmiennych jako funkcję pozostałych [math]N-m[/math].

Przykłady

    (1)
  1. [math]N=3[/math], [math]m=1[/math]. Weźmy równanie:
    [math] 3x+2y+z=1 [/math]
    (Geometrycznie, powyższe równanie opisuje płaszczyznę w [math] { \mathbb R}^3[/math] — więc obiekt dwuwymiarowy.) Jedną ze zmiennych (np. [math]z[/math]) można wyrazić jako funkcję od pozostałych dwóch [math]x,y[/math]:
    [math] z=1-3x-2y [/math]
    (2)
  2. [math]N=3[/math], [math]m=2[/math]. Weźmy układ 2 równań na 3 niewiadome:
    [math] \left\lbrace \begin{array}{ccc} x+y+z & = & 1\\ x+2y -z & = & 1 \end{array} \right. [/math]
    (Geometrycznie, powyższy układ dwóch równań opisuje przecięcie dwóch płaszczyzn, a więc prostą). Wybierzmy dwie zmienne, np. [math]x,y[/math] i wyraźmy je jako funkcje pozostałej zmiennej [math]z[/math]. Mamy:
    [math] W = \left| \begin{array}{cc} 1&1\\ 1&2 \end{array} \right|=1,\;\;\;\;\; W_x = \left| \begin{array}{cc} 1-z&1\\ 1+z&2 \end{array} \right|=1-3z,\;\;\;\;\; W_y = \left| \begin{array}{cc} 1&1-z\\ 1&1+z \end{array} \right|=2z\;\;\;\;\; [/math]
    czyli rozwiązaniem jest: [math] \left\lbrace \begin{array}{ccc} x& = & 1-3z\\ y& = & 2z \end{array} \right. [/math]
    (3)
  3. W ogólnym przypadku [math]m[/math] równań na [math]N[/math] zmiennych, wybieramy [math]m[/math] zmiennych które chcemy wyrazić jako funkcje [math]N-m[/math] pozostałych. Zmienne zalezne przenosimy na lewą stronę układu, a zmienne niezależne — na prawą, traktując je jako parametry. Układ da się rozwiązać, jeśli główny wyznacznik jest różny od zera.

Układ równań nieliniowych

Wróćmy teraz do sytuacji, którą będziemy chcieli analizować: Będzie to układ [math]m[/math] równań na [math]N[/math] zmiennych, ale równań na ogół nieliniowych.

W ogólnym przypadku rozwiązywanie takich układów jest bardzo trudne (podobnie jak przy konstrukcji odwzorowania odwrotnego). Jeżeli jednak ograniczymy się do sytuacji lokalnych, tzn. małego otoczenia jakiegoś punktu z [math] { \mathbb R}^N[/math], to sytuacja pod wieloma względami przypomina to, z czym mamy do czynienia w przypadku układów równań liniowych. Zanim sformułujemy odpowiednie twierdzenie, podeprzemy się znów dwoma przykładami.

    (1)
  1. [math]N=2[/math], [math]m=1[/math].
    [math] x^2 + y^2 =2 [/math]
    co możemy zapisać jako: [math]H(x,y)=0[/math], gdzie [math]H(x,y)=x^2+y^2-2[/math]. Weżmy punkt [math]p=(1,1)[/math] na płaszczyźnie; widać, że w otoczeniu tego punktu można wyrazić jedną ze zmiennych, np. [math]y[/math] jako funkcję pozostałej (tu [math]x[/math]). RYS. (Rozwiązanie można tu napisać jawnie, tzn. [math]y=+\sqrt{2-x^2}[/math]). Inna jest sytuacja w otoczeniu punktu [math]p^*=(2,0)[/math]. W żadnym otoczeniu tego punktu nie można jednoznacznie wyrazić [math]y[/math] jako funkcji [math]x[/math].
    (2)
  2. [math]N=3[/math], [math]m=2[/math].
    [math] W = \left\lbrace \begin{array}{ccc} x^2+y^2+z^2 -1 & = & 0\\ x+2y+3z & = & 0 \end{array} \right. [/math]
    Co opisuje ten układ równań? Pierwsze równanie to równanie sfery, a drugie — płaszczyzny, zatem powyższy układ to przecięcie sfery z płaszczyzną, czyli okrąg (łatwo się przekonać, że nie jest to zbiór pusty ani punkt). Rozwiązaniem powyższego układu byłaby para zmiennych, np. [math]x[/math] i [math]y[/math] jako funkcja pozostałej trzeciej: [math] \left\lbrace \begin{array}{ccc} x& = & x(z),\\ y& = &y(z) \end{array} \right., [/math] czyli opis parametryczny okręgu. Jest to możliwe dla prawie wszystkich punktów okręgu, z wyjątkiem jednak niektórych z nich. Poniżej zobaczymy, jak rozpoznać, kiedy w otoczeniu danego punktu jest możliwy taki jednoznaczny opis parametryczny, a kiedy nie jest możliwy.
    (3)
  3. Przykład z innej beczki — termodynamika. Równanie stanu, np. [math]F(p,V,T)=0[/math] i konieczność policzenia stąd np. [math]p(V,T)[/math]
    (4)
  4. Przykład z jeszcze innej beczki — mechanika. Układy z więzami (np. punkt uwięziony na powierzchni i ślizgający się tylko po niej).

Rozpatrzmy teraz przypadek ogólny. Zmienimy najpierw trochę oznaczenia: Ponieważ [math]N\gt m[/math], będziemy pisać: [math]N=n+m[/math] (gdzie [math]n\gt 0[/math]). Mamy zatem układ [math]m[/math] równań na [math]n+m[/math] zmiennych. Będziemy ten układ (lokalnie) rozwiązywać, tzn. wyznaczać [math]m[/math] zmiennych jako funkcje [math]n[/math] pozostałych. Zmienne niezależne oznaczać będziemy jako [math]x=(x_1, \dots , x_n)[/math], zaś zmienne zależne jako [math]y=(y_1, \dots , y_m)[/math].

Załóżmy więc, że mamy odwzorowanie [math]H: { \mathbb R}^n\times { \mathbb R}^m\supset {\cal O}\rightarrow { \mathbb R}^m[/math] ([math] {\cal O}[/math] jest zb. otwartym) klasy [math]C^1[/math]. [math]H(x,y)[/math] jest więc wektorem o [math]m[/math] składowych:

[math] H(x,y)= \left( \begin{array}{c} H^1(x,y)\\ H^2(x,y)\\ \vdots \\ H^m(x,y) \end{array} \right) [/math]

zaś równość: [math]H(x,y)=0[/math] możemy przepisać jako [math]m[/math] równań:

[math] H(x,y)= \left\lbrace \begin{array}{ccc} H^1(x,y) & = & 0\\ H^2(x,y)& = & 0\\ & \vdots & \\ H^m(x,y)& = & 0 \end{array} \right. [/math]

Popatrzmy jeszcze na macierz pochodnej [math]H^{\prime }[/math]. Jest to macierz rozmiaru [math]m\times (n+m)[/math]:

[math]H^{\prime } = \left[ \begin{array}{cccccc} \frac{\partial H^1}{\partial x^1} & \dots & \frac{\partial H^1}{\partial x^n} & \frac{\partial H^1}{\partial y^1} & \dots & \frac{\partial H^1}{\partial y^m} \\ \frac{\partial H^2}{\partial x^1} & \dots & \frac{\partial H^2}{\partial x^n} & \frac{\partial H^2}{\partial y^1} & \dots & \frac{\partial H^2}{\partial y^m} \\ \vdots &\vdots &\vdots &\vdots &\vdots &\vdots \\ \frac{\partial H^m}{\partial x^1} & \dots & \frac{\partial H^m}{\partial x^n} & \frac{\partial H^m}{\partial y^1} & \dots & \frac{\partial H^m}{\partial y^m}\\ \end{array} \right][/math]

Są tam pochodne po zmiennych [math]x[/math] oraz [math]y[/math]. Macierz pochodnych [math]H[/math] po zmiennych [math]x[/math] oznaczymy jako [math]H^{\prime }_x[/math] (jest to macierz [math]m\times n[/math]), zaś po zmiennych [math]y[/math] jako [math]H^{\prime }_y[/math] (jest to macierz [math]m\times m[/math]). Możemy więc napisać

[math] H^{\prime } = (H^{\prime }_x,H^{\prime }_y) [/math]

Twierdzenie (o funkcji uwikłanej)

Niech [math]H: { \mathbb R}^n\times { \mathbb R}^m\supset {\cal O}\rightarrow { \mathbb R}^m[/math] ([math] {\cal O}[/math] jest zb. otwartym) będzie odwzorowaniem klasy [math]C^1[/math]. Niech [math]H(x_0,y_0)=0[/math]. Niech [math]H^{\prime }_y(x_0,y_0)[/math] będzie odwracalna.

Wtedy istnieje otoczenie [math] {\cal U}[/math] punktu [math]x_0[/math]: [math] {\cal U}\subset { \mathbb R}^n[/math] oraz odwzorowanie [math]\phi [/math] klasy [math]C^1[/math]: [math]\phi : {\cal U}\rightarrow { \mathbb R}^m[/math] takie, że

[math]H(x,\phi (x)) \equiv 0 \;\;\;\mbox{dla}\;\; x\in {\cal U} [/math]

oraz pochodna [math]\phi ^{\prime }(x)[/math] jest równa

[math]\phi ^{\prime }(x)= - (H^{\prime }_y(x,\phi (x)))^{-1} \cdot (H^{\prime }_x(x,\phi (x))). [/math]

Dowód

Zdefiniujmy odwzorowanie [math]\Psi [/math] następująco:

[math] \Psi : {\cal O}\ni (x,y) \rightarrow (x,H(x,y))\in { \mathbb R}^n\times { \mathbb R}^m, [/math]

czyli jawnie, w składowych:

[math] \left( \begin{array}{c} x^1\\ \vdots \\ x^n\\ y^1\\ \vdots \\ y^m \end{array} \right)[/math][math] \stackrel{\Psi }{\rightarrow }[/math][math] \left( \begin{array}{c} x^1\\ \vdots \\ x^n\\ H^1(x,y)\\ \vdots \\ H^m(x,y) \end{array} \right)[/math] co daje [math]\Psi ^{\prime }(x_0,y_0)[/math][math]=\left(\begin{matrix} {\bf I} _n & \bf 0\\ H^{\prime }_x(x_0,y_0) & H^{\prime }_y(x_0,y_0) \end{matrix}\right) [/math]

gdzie [math]{\bf I} _n[/math] jest macierzą jednostkową rozmiaru [math]n\times n[/math], [math]\bf 0[/math] jest macierzą rozmiaru [math]n\times m[/math] złożoną z samych zer.

Mamy:

[math] \det (\Psi ^{\prime }(x_0,y_0)) = \det (H^{\prime }_y(x_0,y_0) \ne 0\;\;\;\mbox{z założenia}. [/math]

zatem — z twierdzenia o lokalnej odwracalności — istnieje otoczenie [math] {\cal V}[/math] punktu [math](x_0,0)[/math] oraz otoczenie [math] {\cal W}[/math] punktu [math](x_0,y_0)[/math] oraz istnieje odwzorowanie [math]\Psi ^{-1}[/math] określone na [math] {\cal V}[/math]: [math]\Psi ^{-1}: {\cal V}\rightarrow {\cal W}[/math] takie, że

[math] \Psi ^{-1}(x,z) = (x,\tilde{\phi }(x,z))\in {\cal W}[/math]

Odwzorowanie [math]\tilde{\phi }[/math] jest klasy [math]C^1[/math]. Oznaczmy teraz:

[math] \phi (x)=\tilde{\phi }(x,0); [/math]

mamy:

[math] \Psi (x, \tilde{\phi }(x,z))=(x,z) [/math]

i z definicji odwzorowania [math]\Psi [/math]

[math] \Psi (x, \tilde{\phi }(x,z)) = (x,H(x, \tilde{\phi }(x,z))) = (x,z) [/math]

i patrząc na drugie składowe powyższej równości dla [math]z=0[/math] mamy

[math] H(x,\phi (x)) = H (x, \tilde{\phi }(x,0)) = 0 [/math]

Znaleźliśmy więc odwzorowanie [math]\phi [/math] o własnościach danych przez (%i 18).

Co do wzoru (%i 19) na pochodną, to rozważmy następujące odwzorowanie [math]F: { \mathbb R}^n\rightarrow { \mathbb R}^m[/math]:

[math] F(x)=H(x,\phi (x)). [/math]

[math]F[/math] jest odwzorowaniem tożsamościowo równym zeru, więc jego pochodna też jest tożsamościowo równa zeru (i wyższe pochodne też). Policzmy pochodną [math]F^{\prime }[/math]:

?? Bardziej szczegółowa kalkulacja??

[math] F^{\prime }(x)=H^{\prime }_x(x,\phi (x) + H^{\prime }_y(x,\phi (x))\cdot \phi ^{\prime }(x) \equiv 0, [/math]

co daje

[math] -H^{\prime }_x(x,\phi (x) = H^{\prime }_y(x,\phi (x))\cdot \phi ^{\prime }(x) [/math]

i po pomnożeniu (lewostronnym) przez macierz [math](H^{\prime }_y(x,\phi (x)))^{-1}[/math] (a pomnożyć można, bo w dostatecznie małym otoczeniu [math]x_0[/math] macierz [math]H^{\prime }_y(x,\phi (x))[/math] jest odwracalna) dostajemy wzór (%i 19).

CBDO

Przykł.

[math]H: { \mathbb R}^3\rightarrow { \mathbb R}[/math]; czyli [math]m=1, n=2[/math]; czyli mamy tu jedno równanie na 3 zmienne: [math]H(x,y,z) = 0[/math] i chcemy stąd wyrazić [math]z[/math] jako funkcję od pozostałych zmiennych [math]x,y[/math]: [math]z = z(x,y)[/math] w otoczeniu jakiegoś danego punktu [math](x_0,y_0, z_0)[/math]. Udowodnione dopiero co twierdzenie o funkcji uwikłanej mówi, że jest to możliwe, gdy pochodna [math]\frac{\partial H}{\partial z}(x_0,y_0, z_0)\ne 0[/math]. Gdybyśmy jeszcze chcieli policzyć pochodne [math]z[/math] po swoich argumentach, to są one następujące:

[math] \frac{\partial z}{\partial x} = -\frac{\frac{\partial H}{\partial x}}{\frac{\partial H}{\partial z}}, \;\;\; \frac{\partial z}{\partial y} = -\frac{\frac{\partial H}{\partial y}}{\frac{\partial H}{\partial z}}. [/math]

  1. Na razie jest to jedynie definicja i nazwa; iloczyn skalarny ma kilka własności, które będą wymienione później
  2. To chyba nie było dowodzone; wydaje się, że warto
  3. Dlaczego zakładamy, że ilość równań jest mniejsza od ilości niewiadomych? Bo gdy jest większa, tzn. [math]N\lt m[/math], to — jeśli równania są liniowo niezależne — to układ nie ma rozwiązań, a gdy [math]N=m[/math], to mamy sytuację z tw. o lokalnej odwracalności.