Matematyka:Matematyka II NI/Twierdzenie o lokalnej odwracalności
Twierdzenie o lokalnej odwracalności
Wstęp motywacyjny
Twierdzenie o funkcji odwrotnej dla funkcji jednej zmiennej
Dla funkcji jednej zmiennej mieliśmy twierdzenie o funkcji odwrotnej, które dla wygody tutaj przypomnimy.
Niech [math]f: { \mathbb R}\supset ]a,b[ \rightarrow { \mathbb R}[/math]; przyjmijmy, że [math]f[/math] jest klasy [math]C^1[/math].
Jeśli [math]f^{\prime }(x_0)\ne 0[/math], to wtedy [math]f^{\prime }(x)\ne 0[/math] na pewnym przedziale [math]]x_0-\epsilon , x_0+\epsilon [[/math] i wtedy [math]f[/math] jest bijekcją odcinka [math]]a,b[ [/math] na [math]]f(a),f(b)[[/math] (dla [math]f^{\prime }(x_0)\gt 0[/math]; w przypadku gdy [math]f^{\prime }(x_0)\lt 0[/math] bijekcja jest na odcinek [math]]f(b),f(a)[[/math]). Innymi słowy, w każdym punkcie [math]x\in ]x_0-\epsilon , x_0+\epsilon [[/math] istnieje funkcja odwrotna [math]f^{-1}[/math].
Twierdzenie o odwzorowaniu odwrotnym
Zastanówmy się teraz, czy i jak można to twierdzenie rozszerzyć na przypadek odwzorowań [math]f: { \mathbb R}^n\rightarrow { \mathbb R}^m[/math] klasy [math]C^1[/math].
Przykłady z zakresu odwzorowań liniowych pokazują, kiedy na pewno nie jest możliwe znalezienie odwzorowania odwrotnego. I tak, dla odwzorowania [math] { \mathbb R}^2\rightarrow { \mathbb R}[/math], pytanie o istnienie odwz. odwrotnego jest równoważne pytaniu o istnienie jednoznacznego rozwiązania układu równań liniowych. I tak np. układ równań [math]ax+by=A[/math] nie ma jednoznacznego rozwiązania (gdy [math]b\ne 0[/math], to rozwiązaniem jest: [math](x, y=\frac{A-ax}{b})[/math] dla dowolnego [math]x[/math]; a gdy [math]b=0[/math], to jest rozwiązaniem jest [math](x=\frac{A}{a}, y)[/math]-dowolne; w obu więc przypadkach nie ma jednoznaczności rozwiązania). Podobnie można się przekonać, że dla [math]n\lt m[/math] żadne odwzorowanie liniowe nie może być wzajemnie jednoznaczne.
Przyjmijmy więc, że [math]n=m[/math], i spróbujmy odgadnąć kryteria na odwracalność odwzorowania.
Analogonem pochodnej funkcji jest pochodna odwzorowania, tzn. macierz Jacobiego. Można przypuścić, że gdy macierz Jacobiego będzie nieosobliwa (tzn. rząd macierzy Jacobiego będzie równy [math]n[/math]), to odwzorowanie da się odwrócić. Okazuje się jednak, że jest to warunek konieczny, ale niewystarczający.
Przykł.
Rozpatrzmy: [math] { \mathbb R}^2\ni (x,y)\rightarrow (e^x\cos y, e^x\sin y)\in { \mathbb R}^2[/math]. Mamy:
- [math] T^{\prime }(x)= \left[ \begin{array}{cc} e^x\cos y &- e^x\sin y\\ e^x\sin y & e^x\cos y \end{array} \right], \;\;\;\;\; \det T^{\prime }(x,y) = e^x \ne 0 [/math]
zatem jakobian odwzorowania wszędzie jest różny od zera i macierz Jacobiego jest wszędzie nieosobliwa. Ale: [math]T(x,y+2\pi )=T(x,y)[/math], tzn. odwzorowanie nie jest globalnie odwracalne.
Okazuje się, że jest niełatwo podać warunki na globalną odwracalność odwzorowań. Da się to jednak zrobić zadowalając się odwracalnością lokalną, tzn. jeśli odwracalność zachodzi na małym otoczeniu punktu [math]x_0[/math] w przeciwobrazie i [math]T(x_0)[/math] w obrazie. Do takiej lokalnej odwracalności wystarczy, aby macierz Jacobiego w punkcie [math]x_0[/math] była nieosobliwa.
Przyjrzyjmy się, 'jak to działa', gdy mamy do czynienia z odwzorowaniem liniowym [math]A: { \mathbb R}^n\rightarrow { \mathbb R}^n[/math]. Niech [math]y=Ax[/math]. Wtedy pytanie, czy odwzorowanie [math]A[/math] jest odwracalne (tzn. czy istnieje [math]A^{-1}[/math], jest równoważne pytaniu, czy układ równań liniowych [math]Ax=y[/math] posiada jednoznaczne rozwiązanie. Wiemy z algebry, że odpowiedź jest pozytywna w przypadku, gdy macierz [math]A[/math] jest odwracalna, co jest równoważne temu, że [math]\det A\ne 0[/math].
Dokładniejsze sformułowanie podamy później, a na razie zdefiniujemy pojęcia, które będą potrzebne dalej przy dowodzie.
Norma na przestrzeni macierzy
Własności normy na przestrzeni wektorowej.
Pamiętamy, że jeżeli [math]x,y\in { \mathbb R}^N[/math] — wektory (tzn. [math]x=(x^1, x^2,\dots , x^N)[/math], a [math]\lambda [/math] — liczba, i określiliśmy normę [math]||x||[/math] wzorem
- [math] ||x||=\sqrt{\sum _{k=1}^N (x^i)^2} [/math]
to norma posiada własności:
- [math]||\lambda x||=|\lambda |\cdot ||x||[/math] dla dowolnego [math]\alpha \in { \mathbb R}[/math] i [math]x\in { \mathbb R}^N[/math].
- [math]||x||\ge 0,[/math] a równość [math]||x||=0[/math] zachodzi tylko dla wektora zerowego [math]x=0[/math].
- [math]||x+y||\le ||x|| + ||y||[/math]
Iloczyn skalarny
W przestrzeni [math] { \mathbb R}^N[/math] możemy też wprowadzić iloczyn skalarny[1]. Iloczynem skalarnym wektorów [math]x,y\in { \mathbb R}^N[/math] nazywamy liczbę [math](x|y)[/math] określoną jako
Dla tak zdefiniowanego iloczynu skalarnego zachodzi nierówność Schwarza:
- [math] \left| \sum _{k=1}^N x^i y^i \right| \le ||x||\cdot ||y||. [/math]
Przestrzeń wektorowa
Jak pamiętamy z wykładu z algebry (a jeśli nie pamiętamy to niniejszym wprowadzamy), zbiór macierzy ustalonego rozmiaru jest przestrzenią wektorową. Załóżmy, że mamy do czynienia z macierzami rozmiaru [math]m\times n[/math], tzn. o [math]m[/math] wierszach i [math]n[/math] kolumnach. Taką macierz [math]A[/math] zapisujemy jako: [math]A=(a_{ij})[/math], gdzie [math]1\le i\le m[/math], [math]1\le j\le n[/math]. Gdy chcemy z macierzy [math]A[/math] 'wyjąć' element macierzowy [math]a_{ij}[/math], to zapisujemy to jako: [math](A)_{ij}[/math] (element na skrzyżowaniu [math]i[/math]-tego wiersza i [math]j[/math]-tej kolumny). Macierze można dodawać: Jeśli [math]A,B[/math] — macierze [math]m\times n[/math], to ich suma [math]C=A+B[/math] jest macierzą [math]m\times n[/math] o elementach
- [math] c_{ij}=a_{ij}+b_{ij}; [/math]
macierz można także pomnożyć przez liczbę: Jeśli [math]A[/math] — macierz, [math]\lambda [/math] — liczba, to iloczynem [math]\lambda A[/math] nazywamy macierz o elementach
- [math] (\lambda A)_{ij} = \lambda a_{ij}. [/math]
Te dwie operacje (dodawanie macierzy oraz mnożenie macierzy przez liczbę) czynią ze zbioru macierzy przestrzeń wektorową.
Przypomnijmy jeszcze, jak macierz [math]A[/math] działa na wektor [math]x\in { \mathbb R}^n[/math]: Wynikiem jest wektor [math]y=Ax=(y_1,\dots , y_m)\in { \mathbb R}^m[/math] o składowych
Do zdefiniowania normy na przestrzeni macierzy będzie nam potrzebny następujaćy
Lemat
Niech [math]A=(a_{ij})[/math] — macierz [math]m\times n[/math]. Istnieje wtedy taka stała [math]C\ge 0[/math], że dla dowolnego wektora [math]x=(x^1, \dots , x^n)\in { \mathbb R}^n[/math] zachodzi nierówność
Dowód
Niech [math]y=Ax[/math] liczone jak w (%i 2). Liczymy kwadrat normy wektora [math]Ax[/math]:
- [math] ||Ax||^2 =||y||^2=\sum _{i=1}^m (y_i)^2= \sum _{i=1}^m (\sum _{j=1}^n a_{ij} x^j)^2=\spadesuit [/math]
Potraktujmy teraz macierz [math]A[/math] jako kolekcję [math]m[/math] wektorów (wierszowych) o długości [math]n[/math]. Tzn. taki [math]i[/math]-ty wektor [math]a_i[/math] ma składowe [math](a_i)_j = a_{ij}[/math]. W ten sposób, drugą sumę w powyższej podwójnej sumie można potraktować jako iloczyn skalarny wektorów [math]a_i[/math] oraz [math]x[/math]. Korzystając z nierówności Schwarza w [math] { \mathbb R}^n[/math], mamy:
- [math] \spadesuit \le \sum _{i=1}^m ||a_i||^2\cdot ||x||^2 = ||x||\sum _{i=1}^m \left(\sum _{j=1}^n (a_{ij})^2\right) = ||x||\sum _{i=1}^m \sum _{j=1}^n (a_{ij})^2. [/math]
Wyciągając pierwiastek (obie strony są nieujemne), mamy
- [math] ||Ax|| \le \sqrt{\sum _{i=1}^m \sum _{j=1}^n (a_{ij})^2} \cdot ||x||; [/math]
za liczbę [math]C[/math] w sformułowaniu Lematu możemy więc wziąć np.
- [math] C=\sqrt{\sum _{i=1}^m \sum _{j=1}^n (a_{ij})^2}. [/math]
CBDO
Normą macierzy [math]A[/math]
nazywamy kres dolny zbioru [math]\Gamma \subset { \mathbb R}_+\cup \lbrace 0\rbrace [/math], gdzie
- [math] \Gamma = \lbrace C\in { \mathbb R}_+\cup \lbrace 0\rbrace :\displaystyle \mathop { \forall }_{x\in { \mathbb R}^n} ||Ax||\le C ||x||\rbrace [/math]
Uwaga
Definicja jest z sensem, bo z pokazanego dopiero co Lematu wynika, że zbiór [math]\Gamma [/math] jest niepusty. Stąd też mamy nieujemność normy:
- [math] ||A||\ge 0 [/math]
dla dowolnej macierzy [math]A[/math].
Stwierdzenie
Norma macierzy posiada następujące własności:
- [math]\displaystyle \mathop {\forall }_x ||Ax||\le ||A||\cdot ||x||[/math].
- [math]||\lambda A||\le |\lambda |\cdot ||A||[/math].
- [math]||A+B||\le ||A||+||B||[/math].
- [math]||A||\ge 0[/math], przy czym [math]||A||=0 \Longleftrightarrow A=0[/math].
- [math]||A\cdot B|| \le ||A||\cdot ||B||[/math] dla [math]A, B[/math] — takich, że iloczyn [math]A\cdot B[/math] jest określony.
Dowód
- Wynika z definicji normy.
- Oczywiste.
- Policzmy [math]||(A+B)x||[/math]:
- [math] ||(A+B)x|| = \underbrace{||Ax+Bx||}_{\rm norma\;wektora} \overbrace{\le }^{\rm v.S.i.} ||Ax|| + ||Bx|| \overbrace{\le }^{{\rm wl.\;0.}} ||A||\cdot ||x|| + ||B||\cdot ||x|| = (||A||+||B||)||x|| [/math]
- [math] ||A+B||\le ||A||+||B||. [/math]
- Było, że [math]A=0\Longrightarrow ||A||=0[/math]. Pokażemy, że też: [math]||A=0||\Longrightarrow A=0[/math]. Dow. będzie niewprost: Pokażemy, że jeżeli [math]A\ne 0\Longrightarrow ||A||\gt 0[/math]. Najsampierw zauważmy, że jeśli [math]A\ne 0[/math], to istnieje wektor [math]x[/math] taki, że [math]Ax\ne 0[/math]. Możemy założyć, że [math]||x||=1[/math]. Niech [math]||Ax||=k\gt 0[/math]. Ponieważ [math]||Ax||\le ||A||[/math] dla każdego [math]x[/math] takiego, że [math]||x||=1[/math], to znaczy, że [math]||A||\ge k\gt 0[/math]. CBDO w p. 3.
- Mamy:
- [math] (A\cdot B)x||= ||A(Bx)||\le ||A||\cdot ||Bx||\le ||A||\cdot ||B||\cdot ||x||; [/math]
Zasada Banacha
Niech [math]D[/math] —zbiór domknięty w [math] { \mathbb R}^n[/math]. Niech [math]T:K\rightarrow K[/math], [math]T[/math] — ciągłe.
Odwzorowanie zwężające
Mówimy, że [math]T[/math] jest zwężające, jeśli istnieje stała [math]C\lt [/math] taka, że
- [math] \displaystyle \mathop {\forall }_{x,y\in K} d(T(x),T(y)) \le C d(x,y) [/math]
Twierdzenie
Niech [math]T[/math] — zwężające. Wtedy istnieje dokładnie jeden punkt stały dla [math]T[/math], tzn. [math]\hat{x}\in K[/math] taki, że [math]T(\hat{x})=\hat{x}[/math], przy czym
- [math] \hat{x}={\displaystyle \mathop {\lim }_{n\rightarrow \infty } }T^n(x_0)\;\;\;\mbox{dla dowolnego } x_0\in K [/math]
Uwaga 1
Innymi słowy, możemy znaleźć punkt stały przez kolejne iteracje odwzorowania [math]T[/math] jako granicę ciągu: [math]x_0, T(x_0), T(T(x_0)), \dots )[/math].
Uwaga 2
Zasada Banacha jest bardzo potężnym narzędziem: W tym wykładzie użyjemy jej do dowodu tw. o lokalnej odwracalności, a potem do istnienia i jednoznaczności rozwiązania równania różniczkowego.
Dowód
Załóżmy najsampierw, że istnieją dwa punkty stałe [math]x_1[/math], [math]x_2[/math], tzn. zachodzi: [math]T(x_1)=x_1[/math], [math]T(x_2)=x_2[/math]. Wtedy jednak, ponieważ [math]T[/math] jest zwężające, mamy:
- [math] d(T(x_1), T(x_2))\le C d(x_1,x_2), [/math]
i ponieważ [math]x_1, x_2[/math] są punktami stałymi, to
- [math] d(x_1,x_2)\le C d(x_1,x_2), [/math]
co może mieć miejsce tylko w przypadku, gdy [math]d(x_1,x_2)=0[/math], co implikuje, że [math]x_1=x_2[/math].
Jeśli więc istnieje punkt stały, to co najwyżej jeden.
Dla wykazania, że punkt stały istnieje, pokażemy najsampierw, że ciąg [math]x_n = T^n(x_0)[/math], [math]x_0\in K[/math], jest zbieżny. A jeżeli jest zbieżny, to jego granica [math]\hat{x} = {\displaystyle \mathop {\lim }_{n\rightarrow \infty } }x_n[/math] należy do [math]K[/math], bo [math]K[/math] jest domknięty. Ta granica [math]\hat{x}[/math] jest też punktem stałym [math]T[/math], bo
- [math] T(\hat{x}) = {\displaystyle \mathop {\lim }_{n\rightarrow \infty } }T(x_n) ={\displaystyle \mathop {\lim }_{n\rightarrow \infty } }x_{n+1} = \hat{x}. [/math]
Będziemy wykazywać, że ciąg [math]\lbrace {x}_n \rbrace [/math] jest ciągiem Cauchy'ego, tzn. że
- [math] \displaystyle \mathop \forall _{\epsilon \gt 0} \mathop \exists _{N\in { \mathbb N}} \mathop \forall _{n\gt N} \mathop \forall _{k\in { \mathbb N}} d(x_{n+k},x_n)\le \epsilon . [/math]
Mamy:
Potrzebujemy oszacowania na [math]d(x_k,x_0)[/math] niezależnego od [math]k[/math]. Najsampierw weźmy:
- [math] d(x_2,x_0) \le d(x_2, x_1) + d(x_1,x_0) = d(T(x_1), T(x_0)) + d(x_1,x_0)\le d(x_1,x_0) (1+C); [/math]
i ogólniej mamy:
- [math] d(x_n,x_0) \le d(x_n, x_{n-1}) + d(x_{n-1},x_0) \le C^{n-1}d(x_1, x_0) + d(x_{n-1},x_0) [/math]
- [math] \le d(x_1,x_0) C^{n-1} +d(x_{n-1}, x_{n-2})+ d(x_{n-2},x_0)\le (C^{n-1}+C^{n-2}) d(x_1, x_0) + d(x_{n-2},x_0) \le \dots [/math]
- [math] \le (C^{n-1}+C^{n-2}+\dots + C +1) d(x_1, x_0) [/math]
i sumując szereg geometryczny, otrzymamy ostatecznie, że
- [math] d(x_n,x_0) \le d(x_1,x_0) (C^{n-1}+C^{n-2}) + \dots + C +1) d(x_1, x_0) = \frac{1}{1-C} d(x_1, x_0). [/math]
Wstawiając to do (%i 4), otrzymamy ostatecznie, że
- [math] d(x_{n+k},x_n)\le \frac{C^n}{1-C} d(x_1, x_0) [/math]
Zatem ciąg [math]\lbrace {x}_n \rbrace [/math] jest ciągiem Cauchy'ego i, ponieważ [math]K[/math] jest domknięty, posiada granicę należącą do [math]K[/math].
CBDO
Mamy następujący prosty fakt dotyczący funkcji rzeczywistych.
Niech [math]f:]a,b[\rightarrow { \mathbb R}[/math] — różniczkowalna. Dla dowolnych [math]x,y\in ]a,b[[/math] istnieje taki punkt [math]\xi \in ]x,y[[/math], że
- [math] \frac{f(x)-f(y)}{x-y}=f^{\prime }(\xi ). [/math]
Niech pochodna [math]f^{\prime }(x)[/math] będzie ograniczona na odcinku [math]]a,b[[/math]: [math]|f^{\prime }(x)|\lt C[/math] dla dowolnego [math]x\in ]a,b[[/math]. Wtedy dla dowolnych [math]x,y\in ]a,b[[/math] mamy
- [math] |f(x)-f(y)|=|f^{\prime }(\xi )|\cdot |x-y|\le C|x-y|. [/math]
Będziemy potrzebowali rozszerzenia tego faktu na odwzorowania. Okazuje się, że zachodzi
Stwierdzenie
Niech [math] {\cal O}\subset { \mathbb R}^n[/math] — otwarty i wypukły. Niech [math]T: {\cal O}\rightarrow {\cal U}\subset { \mathbb R}^m[/math]. Niech norma z pochodnej [math]T[/math] będzie ograniczona, tzn. dla każdego [math]x\in {\cal O}[/math] niech [math]||T^{\prime }(x)||\le C[/math]. Wtedy
- [math] d(T(x),T(y))\le C d(x,y) [/math]
dla dowolnych [math]x,y\in {\cal O}[/math].
Uzupełnienie
Zbiór [math]X\subset { \mathbb R}^N[/math] nazywamy wypukłym, gdy dla dowolnych jego punktów [math]x,y[/math], także punkt [math]z=\alpha x + (1-\alpha )y[/math] należy do [math]X[/math] dla dowolnego [math]\alpha \in [0,1][/math]. RYS.
Dowód
Weźmy [math]h\in { \mathbb R}^n[/math] na tyle małe, aby [math]y=x+h[/math] należało do [math] {\cal O}[/math]. (RYS.). Niech [math] { \mathbb R}^m\ni k=T(x+h)-T(x)[/math]; naówczas [math]||k||=d(T(x+h),T(x)[/math].
Zdefiniujmy funkcję zmiennej rzeczywistej [math]\lambda [/math], [math]\lambda \in [0,1][/math]:
- [math] f(\lambda )=\sum _{i=1}^m k^i (T^i(x+\lambda h)-T^i(x)). [/math]
Policzmy pochodną [math]f(\lambda )[/math]:
Mamy: [math]f(0)=0[/math] oraz [math]f(1)=||k||^2[/math]. Wobec tego, z tw. Lagrange'a o wartości średniejwnosimy, iż istnieje [math]\xi \in ]0,1[[/math] t. że [math]f(1)-f(0)=f^{\prime }(\xi )[/math]. Pisząc jawnie wyrażenie (%i 5) na [math]f^{\prime }(\lambda )[/math] uzyskane wyżej, mamy
- [math] \left| \sum _{i=1}^m k^i \sum _{j=1}^n \frac{\partial T^i}{\partial x^j}(x+\xi h)h^j \right| =||k||^2 [/math]
Z własności 4. dla normy macierzy, mamy, iż lewa strona jest nie większa niż
- [math] ||k||\cdot ||T^{\prime }(x+\xi h) h|| [/math]
zatem
- [math] ||k||^2 \le ||k|| \cdot ||T^{\prime }(x+\xi h) h|| \le ||k|| \cdot ||T^{\prime }(x+\xi h)||\cdot || h|| \le ||k||\cdot C \cdot ||h||, [/math]
zatem
- [math] ||k||\le C\cdot ||h||, [/math]
co znaczy, że
- [math] d(T(x+h),T(x))\le C\cdot d(x+h,x) [/math]
czyli
- [math] d(T(x),T(y))\le C\cdot d(x,y) [/math]
CBDO
Morał
Jeśli [math]C\lt 1[/math], to [math]T[/math] jest zbliżające.
Teraz już jesteśmy gotowi, aby sformułować
Twierdzenie o lokalnej odwracalności
RYS.
Niech [math]F: {\cal O}\rightarrow { \mathbb R}^n[/math], gdzie [math] {\cal O}\subset { \mathbb R}^n[/math]. Zakładamy, że [math]F[/math] jest klasy [math]C^1[/math]. Niech [math]x_0\in {\cal O}[/math] i niech [math]F^{\prime }(x_0)[/math] będzie odwracalne, tzn. [math]\det F^{\prime }(x_0)\ne 0[/math].
Wtedy istnieje otoczenie punktu [math]x_0[/math] (a więc i [math]K(x_0,r),\; r\gt 0[/math]) i istnieje otoczenie [math] {\cal U}[/math] punktu [math]F(x_0)[/math] takie, że odwzorowanie [math]F[/math] obcięte do [math]K(x_0,r)[/math]: [math]\left. F\right|_{K(x_0,r)} : K(x_0,r) \rightarrow {\cal U}[/math] jest odwracalne. Odwzorowanie odwrotne do niego jest też klasy [math]C^1[/math].
Oznaczmy: [math]\left. F\right|_{K(x_0,r)}=\tilde{F}[/math]. Wtedy wyrażenie na pochodną [math](\tilde{F}^{-1})^{\prime }[/math] odwzorowania odwrotnego jest dane przez
Dowód
Jak pamiętamy, odwzorowanie odwrotne jest zdefiniowane przez: [math]\tilde{F}^{-1} \circ \tilde{F} = {\rm Id}\,[/math] lub, jawnie wypisując argument(-y),
Jeśli [math]\tilde{F}[/math] oraz [math]\tilde{F}^{-1} [/math] są klasy [math]C^1[/math], to obliczając pochodne obu stron wyrażenia (%i 7) i korzystając z wzoru na pochodną odwzorowania złożonego mamy
- [math] (\tilde{F}^{-1})^{\prime }(\tilde{F}(x))\cdot (\tilde{F}^{\prime }(x)) = I, [/math]
([math]I[/math] — macierz jednostkowa) czyli
- [math] (\tilde{F}^{-1})^{\prime }(\tilde{F}(x)) = (\tilde{F}^{\prime }(x))^{-1}. [/math]
czyli mamy wzór (%i 6). Pozostaje wykazać całą resztę tezy.
Oznaczmy: [math]F^{\prime }(x_0) = A[/math] i wybierzmy [math]\lambda \in { \mathbb R}_+[/math] tak, aby [math]4\lambda ||A^{-1}||=1[/math]. Ponieważ [math]F[/math] jest klasy [math]C^1[/math], tzn. jego pochodne cząstkowe są ciągłe, to istnieje kula otwarta [math]U[/math] o środku w punkcie [math]x_0[/math] taka, że
Załóżmy, że [math]x\in U[/math], [math]x+h\in U[/math] i zdefiniujmy [math]\Phi : [0,1]\rightarrow { \mathbb R}^n[/math]:
- [math] \Phi (t)=F(x+th)-F(x)-tAh\;\;\;\;\;0\le t\le 1. [/math]
Ponieważ kula [math]U[/math] jest zbiorem wypukłym[2], to [math]x+th\in U[/math] dla [math]0\le t\le 1[/math] i z (%i 8) wynika, że
(w przedostatniej nierówności skorzystaliśmy z (%i 8)). Ostatnia nierówność wynika z następującej argumentacji:
Przypomnijmy sobie teraz Stw. ze str. 6 mówiące, że jeżeli odwzorowanie [math]T: { \mathbb R}^m\rightarrow { \mathbb R}^n[/math] ma pochodną ograniczoną przez [math]C[/math], to dla dowolnych [math]x,y\in { \mathbb R}^m[/math] zachodzi nierówność [math]d(T(x),T(y))\le C d(x,y)[/math]. Zastosujmy go do funkcji [math]\Phi : { \mathbb R}\rightarrow { \mathbb R}^n[/math]: Jeżeli jest spełnione oszacowanie (%i 9) na normę [math]\Phi [/math], to biorąc [math]x=1,y=0[/math] dostajemy
- [math] ||\Phi (1)-\Phi (0)||\le \frac{1}{2}||Ah||, [/math]
co można przepisać jako
Oznaczmy na chwilę [math]F(x+h)-F(x)=\Delta [/math]. Mamy więc: [math]||\Delta -Ah||\le \frac{1}{2}||Ah||[/math] lub
Ponadto:
- [math] ||Ah||=||\Delta -Ah-\Delta ||\le ||\Delta -Ah||+||\Delta ||, [/math]
czyli
- [math] ||\Delta ||\ge ||Ah||-||\Delta -Ah|| [/math]
zaś uwzględniając (%i 12) mamy:
- [math] ||\Delta ||\ge ||Ah||-\frac{1}{2}||Ah||=\frac{1}{2}||Ah||, [/math]
czyli, uwzględniając jeszcze (%i 10), dostajemy
Nierówności (%i 11) i (%i 13) zachodzą dla dowolnych [math]x[/math] i [math]h[/math] takich, że [math]x\in U[/math] i [math]x+h\in U[/math]. Tak więc nierówność (%i 13) mówi, że [math]F[/math] jest wzajemnie jednoznaczna na [math]U[/math] (bowiem nie ma takich punktów [math]x,x+h[/math] aby zachodziło [math]F(x)=F(x+h)[/math]).
Pozostaje pokazać ciągłość i różniczkowalność odwzorowania odwrotnego. Oznaczmy odwzorowanie odwrotne do [math]F[/math] przez [math]G[/math].
Niech [math] {\cal U}=F(U)[/math], niech [math]y\in {\cal U}[/math], [math]y+k\in V[/math] i niech [math]x=G(y)[/math]. Niech
- [math] h=G(y+k)-G(y). [/math]
Pamiętamy, że na [math]U[/math] pochodna [math]F^{\prime }(x)[/math] ma operator odwrotny, który oznaczymy przez [math]B[/math].
Odwzorowanie [math]F[/math] jest różniczkowalne, więc możemy zapisać:
- [math] k=F(x+h)-F(x) = F^{\prime }(x) h + r(h), [/math]
gdzie [math]r(h)[/math] jest resztą, tzn. zachodzi: [math]\frac{||r(h)||}{||h||}\rightarrow 0[/math] dla [math]h\rightarrow 0[/math]. Na obie strony powyższej równości zadziałajmy operatorem [math]B[/math]. Otrzymamy: [math]Bk=h+Br(h)[/math] lub
Na mocy (%i 13), [math]2\lambda ||h||\le ||k||[/math]. Zatem [math]h\rightarrow 0[/math], jeśli [math]k\rightarrow 0[/math] (co dowodzi ciągłości [math]G[/math] w punkcie [math]y[/math]) oraz
Z porównania (%i 14) i (%i 15) wynika, że [math]G[/math] jest różniczkowalna w punkcie [math]y[/math] oraz że [math]G^{\prime }(y)=B[/math]. Można to przeformułować mówiąc, że dla [math]y\in {\cal U}[/math] zachodzi
o czym już wiedzieliśmy z formalnego rachunku tuż przed dowodem (ale dopiero teraz uzasadniliśmy poprawność tego rachunku).
CBDO
Przykł.
Dla [math]F: { \mathbb R}^2\ni (r,\phi ) \rightarrow (x,y)\in { \mathbb R}^2[/math] określonego jako: [math]x(r,\phi )= r\cos \phi [/math], [math]y(r,\phi )=r\sin \phi [/math] pokazujemy bezpośrednim rachunkiem, że [math](F^{-1})^{\prime } = (F^{\prime })^{-1}[/math].
Tw. o funkcji uwikłanej
Układ równań liniowych
Aby wyrobić intuicję, rozpatrzmy najsampierw układy równań liniowych. Taki układ to [math]m[/math] równań na [math]N[/math] zmiennych, gdzie założymy, że [math]N\gt m[/math]. [3] W takiej sytuacji, jeśli jest spełniony określony warunek, który zaraz wypiszemy, możemy wyrazić [math]m[/math] zmiennych jako funkcję pozostałych [math]N-m[/math].
Przykłady
-
(1)
- [math]N=3[/math], [math]m=1[/math]. Weźmy równanie:
- [math] 3x+2y+z=1 [/math]
- [math] z=1-3x-2y [/math]
- (2)
- [math]N=3[/math], [math]m=2[/math]. Weźmy układ 2 równań na 3 niewiadome:
- [math] \left\lbrace \begin{array}{ccc} x+y+z & = & 1\\ x+2y -z & = & 1 \end{array} \right. [/math]
- [math] W = \left| \begin{array}{cc} 1&1\\ 1&2 \end{array} \right|=1,\;\;\;\;\; W_x = \left| \begin{array}{cc} 1-z&1\\ 1+z&2 \end{array} \right|=1-3z,\;\;\;\;\; W_y = \left| \begin{array}{cc} 1&1-z\\ 1&1+z \end{array} \right|=2z\;\;\;\;\; [/math]
- (3)
- W ogólnym przypadku [math]m[/math] równań na [math]N[/math] zmiennych, wybieramy [math]m[/math] zmiennych które chcemy wyrazić jako funkcje [math]N-m[/math] pozostałych. Zmienne zalezne przenosimy na lewą stronę układu, a zmienne niezależne — na prawą, traktując je jako parametry. Układ da się rozwiązać, jeśli główny wyznacznik jest różny od zera.
- [math]N=3[/math], [math]m=1[/math]. Weźmy równanie:
Układ równań nieliniowych
Wróćmy teraz do sytuacji, którą będziemy chcieli analizować: Będzie to układ [math]m[/math] równań na [math]N[/math] zmiennych, ale równań na ogół nieliniowych.
W ogólnym przypadku rozwiązywanie takich układów jest bardzo trudne (podobnie jak przy konstrukcji odwzorowania odwrotnego). Jeżeli jednak ograniczymy się do sytuacji lokalnych, tzn. małego otoczenia jakiegoś punktu z [math] { \mathbb R}^N[/math], to sytuacja pod wieloma względami przypomina to, z czym mamy do czynienia w przypadku układów równań liniowych. Zanim sformułujemy odpowiednie twierdzenie, podeprzemy się znów dwoma przykładami.
-
(1)
- [math]N=2[/math], [math]m=1[/math].
- [math] x^2 + y^2 =2 [/math]
- (2)
- [math]N=3[/math], [math]m=2[/math].
- [math] W = \left\lbrace \begin{array}{ccc} x^2+y^2+z^2 -1 & = & 0\\ x+2y+3z & = & 0 \end{array} \right. [/math]
- (3)
- Przykład z innej beczki — termodynamika. Równanie stanu, np. [math]F(p,V,T)=0[/math] i konieczność policzenia stąd np. [math]p(V,T)[/math]
- (4)
- Przykład z jeszcze innej beczki — mechanika. Układy z więzami (np. punkt uwięziony na powierzchni i ślizgający się tylko po niej).
- [math]N=2[/math], [math]m=1[/math].
Rozpatrzmy teraz przypadek ogólny. Zmienimy najpierw trochę oznaczenia: Ponieważ [math]N\gt m[/math], będziemy pisać: [math]N=n+m[/math] (gdzie [math]n\gt 0[/math]). Mamy zatem układ [math]m[/math] równań na [math]n+m[/math] zmiennych. Będziemy ten układ (lokalnie) rozwiązywać, tzn. wyznaczać [math]m[/math] zmiennych jako funkcje [math]n[/math] pozostałych. Zmienne niezależne oznaczać będziemy jako [math]x=(x_1, \dots , x_n)[/math], zaś zmienne zależne jako [math]y=(y_1, \dots , y_m)[/math].
Załóżmy więc, że mamy odwzorowanie [math]H: { \mathbb R}^n\times { \mathbb R}^m\supset {\cal O}\rightarrow { \mathbb R}^m[/math] ([math] {\cal O}[/math] jest zb. otwartym) klasy [math]C^1[/math]. [math]H(x,y)[/math] jest więc wektorem o [math]m[/math] składowych:
- [math] H(x,y)= \left( \begin{array}{c} H^1(x,y)\\ H^2(x,y)\\ \vdots \\ H^m(x,y) \end{array} \right) [/math]
zaś równość: [math]H(x,y)=0[/math] możemy przepisać jako [math]m[/math] równań:
- [math] H(x,y)= \left\lbrace \begin{array}{ccc} H^1(x,y) & = & 0\\ H^2(x,y)& = & 0\\ & \vdots & \\ H^m(x,y)& = & 0 \end{array} \right. [/math]
Popatrzmy jeszcze na macierz pochodnej [math]H^{\prime }[/math]. Jest to macierz rozmiaru [math]m\times (n+m)[/math]:
Są tam pochodne po zmiennych [math]x[/math] oraz [math]y[/math]. Macierz pochodnych [math]H[/math] po zmiennych [math]x[/math] oznaczymy jako [math]H^{\prime }_x[/math] (jest to macierz [math]m\times n[/math]), zaś po zmiennych [math]y[/math] jako [math]H^{\prime }_y[/math] (jest to macierz [math]m\times m[/math]). Możemy więc napisać
- [math] H^{\prime } = (H^{\prime }_x,H^{\prime }_y) [/math]
Twierdzenie (o funkcji uwikłanej)
Niech [math]H: { \mathbb R}^n\times { \mathbb R}^m\supset {\cal O}\rightarrow { \mathbb R}^m[/math] ([math] {\cal O}[/math] jest zb. otwartym) będzie odwzorowaniem klasy [math]C^1[/math]. Niech [math]H(x_0,y_0)=0[/math]. Niech [math]H^{\prime }_y(x_0,y_0)[/math] będzie odwracalna.
Wtedy istnieje otoczenie [math] {\cal U}[/math] punktu [math]x_0[/math]: [math] {\cal U}\subset { \mathbb R}^n[/math] oraz odwzorowanie [math]\phi [/math] klasy [math]C^1[/math]: [math]\phi : {\cal U}\rightarrow { \mathbb R}^m[/math] takie, że
oraz pochodna [math]\phi ^{\prime }(x)[/math] jest równa
Dowód
Zdefiniujmy odwzorowanie [math]\Psi [/math] następująco:
- [math] \Psi : {\cal O}\ni (x,y) \rightarrow (x,H(x,y))\in { \mathbb R}^n\times { \mathbb R}^m, [/math]
czyli jawnie, w składowych:
- [math] \left( \begin{array}{c} x^1\\ \vdots \\ x^n\\ y^1\\ \vdots \\ y^m \end{array} \right)[/math][math] \stackrel{\Psi }{\rightarrow }[/math][math] \left( \begin{array}{c} x^1\\ \vdots \\ x^n\\ H^1(x,y)\\ \vdots \\ H^m(x,y) \end{array} \right)[/math] co daje [math]\Psi ^{\prime }(x_0,y_0)[/math][math]=\left(\begin{matrix} {\bf I} _n & \bf 0\\ H^{\prime }_x(x_0,y_0) & H^{\prime }_y(x_0,y_0) \end{matrix}\right) [/math]
gdzie [math]{\bf I} _n[/math] jest macierzą jednostkową rozmiaru [math]n\times n[/math], [math]\bf 0[/math] jest macierzą rozmiaru [math]n\times m[/math] złożoną z samych zer.
Mamy:
- [math] \det (\Psi ^{\prime }(x_0,y_0)) = \det (H^{\prime }_y(x_0,y_0) \ne 0\;\;\;\mbox{z założenia}. [/math]
zatem — z twierdzenia o lokalnej odwracalności — istnieje otoczenie [math] {\cal V}[/math] punktu [math](x_0,0)[/math] oraz otoczenie [math] {\cal W}[/math] punktu [math](x_0,y_0)[/math] oraz istnieje odwzorowanie [math]\Psi ^{-1}[/math] określone na [math] {\cal V}[/math]: [math]\Psi ^{-1}: {\cal V}\rightarrow {\cal W}[/math] takie, że
- [math] \Psi ^{-1}(x,z) = (x,\tilde{\phi }(x,z))\in {\cal W}[/math]
Odwzorowanie [math]\tilde{\phi }[/math] jest klasy [math]C^1[/math]. Oznaczmy teraz:
- [math] \phi (x)=\tilde{\phi }(x,0); [/math]
mamy:
- [math] \Psi (x, \tilde{\phi }(x,z))=(x,z) [/math]
i z definicji odwzorowania [math]\Psi [/math]
- [math] \Psi (x, \tilde{\phi }(x,z)) = (x,H(x, \tilde{\phi }(x,z))) = (x,z) [/math]
i patrząc na drugie składowe powyższej równości dla [math]z=0[/math] mamy
- [math] H(x,\phi (x)) = H (x, \tilde{\phi }(x,0)) = 0 [/math]
Znaleźliśmy więc odwzorowanie [math]\phi [/math] o własnościach danych przez (%i 18).
Co do wzoru (%i 19) na pochodną, to rozważmy następujące odwzorowanie [math]F: { \mathbb R}^n\rightarrow { \mathbb R}^m[/math]:
- [math] F(x)=H(x,\phi (x)). [/math]
[math]F[/math] jest odwzorowaniem tożsamościowo równym zeru, więc jego pochodna też jest tożsamościowo równa zeru (i wyższe pochodne też). Policzmy pochodną [math]F^{\prime }[/math]:
?? Bardziej szczegółowa kalkulacja??
- [math] F^{\prime }(x)=H^{\prime }_x(x,\phi (x) + H^{\prime }_y(x,\phi (x))\cdot \phi ^{\prime }(x) \equiv 0, [/math]
co daje
- [math] -H^{\prime }_x(x,\phi (x) = H^{\prime }_y(x,\phi (x))\cdot \phi ^{\prime }(x) [/math]
i po pomnożeniu (lewostronnym) przez macierz [math](H^{\prime }_y(x,\phi (x)))^{-1}[/math] (a pomnożyć można, bo w dostatecznie małym otoczeniu [math]x_0[/math] macierz [math]H^{\prime }_y(x,\phi (x))[/math] jest odwracalna) dostajemy wzór (%i 19).
CBDO
Przykł.
[math]H: { \mathbb R}^3\rightarrow { \mathbb R}[/math]; czyli [math]m=1, n=2[/math]; czyli mamy tu jedno równanie na 3 zmienne: [math]H(x,y,z) = 0[/math] i chcemy stąd wyrazić [math]z[/math] jako funkcję od pozostałych zmiennych [math]x,y[/math]: [math]z = z(x,y)[/math] w otoczeniu jakiegoś danego punktu [math](x_0,y_0, z_0)[/math]. Udowodnione dopiero co twierdzenie o funkcji uwikłanej mówi, że jest to możliwe, gdy pochodna [math]\frac{\partial H}{\partial z}(x_0,y_0, z_0)\ne 0[/math]. Gdybyśmy jeszcze chcieli policzyć pochodne [math]z[/math] po swoich argumentach, to są one następujące:
- [math] \frac{\partial z}{\partial x} = -\frac{\frac{\partial H}{\partial x}}{\frac{\partial H}{\partial z}}, \;\;\; \frac{\partial z}{\partial y} = -\frac{\frac{\partial H}{\partial y}}{\frac{\partial H}{\partial z}}. [/math]
- ↑ Na razie jest to jedynie definicja i nazwa; iloczyn skalarny ma kilka własności, które będą wymienione później
- ↑ To chyba nie było dowodzone; wydaje się, że warto
- ↑ Dlaczego zakładamy, że ilość równań jest mniejsza od ilości niewiadomych? Bo gdy jest większa, tzn. [math]N\lt m[/math], to — jeśli równania są liniowo niezależne — to układ nie ma rozwiązań, a gdy [math]N=m[/math], to mamy sytuację z tw. o lokalnej odwracalności.