WnioskowanieStatystyczne/wstep

Z Brain-wiki

Wnioskowanie_Statystyczne_-_wykład

Wstęp

Nigdy w historii matematyki tak wielu nie popełniało tak licznych błędów w tak niewielu zastosowaniach. To parafraza wypowiedzi Winstona Churchilla (w brytyjskim parlamencie 20 sierpnia 1940 roku), ale tutaj chodzi o statystykę. Dlaczego?

  • Zdecydowana większość ludzi korzystających z metod statystycznych to specjaliści w zupełnie innych dziedzinach, względem których statystyka pełni rolę służebną.
  • Klasyczna teoria statystyki powstawała ponad pół wieku temu i z braku podówczas komputerów opiera się na zaawansowanych metodach analitycznych (czytaj: długich i skomplikowanych wzorach) oraz koniecznych do ich wyprowadzenia założeniach, nie zawsze spełnianych w praktyce.
  • Próba wyjaśnienia tej złożonej teorii na kursie lub w podręczniku dla nie-statystyków kończy się zwykle katalogiem przepisów kiedy stosować który test. Niestety, żaden katalog nie uwzględni wszystkich przypadków, z którymi możemy mieć do czynienia, i nie zastąpi zrozumienia podstaw. Na przykład studium 50 artykułów w najbardziej prestiżowym czasopiśmie medycznym (New England Journal of Medicine), w których wykorzystano do analizy wyników test t wykazało, że w ponad połowie z nich użycie tego testu było nieprawidłowe — cytat za książką Juliana L. Simona „The Philosophy and Practice of Resampling Statistics".
  • Główną konsekwencją rozpowszechnienia komputerów jest ułatwienie dostępu do tych skomplikowanych metod: z wczytaniem danych do specjalizowanego pakietu statystycznego jakoś sobie poradzimy, potem tylko trzeba „doklikać się” do jakiegoś testu i... komputer zawsze „wyrzuci” jakiś wynik. Ale komputer nie przyjmie odpowiedzialności za dobór metody do problemu i poprawne sformułowanie hipotezy.

Na szczęście komputery niosą tu również dobrą nowinę. Są nią nowe, rewolucyjnie proste i intuicyjne metody oparte na idei repróbkowania (ang. resampling) — testy permutacyjne i bootstrap — oraz możliwość szerokiego stosowania symulacji Monte Carlo. Uwalniając użytkownika od skomplikowanej teorii i wzorów pozwalają skupić się na istocie pytania, na które statystyka ma odpowiedzieć. Ponadto działają często w sytuacjach, w których tradycyjne metody analityczne zawodzą (jak np. bootstrap w szacowaniu błędów złożonych funkcji).

Ideę testów permutacyjnych po raz pierwszy zaproponował R. A. Fischer w latach 1930-tych jako teoretyczny argument za testem [math]t[/math] Studenta (William Sealy Gosset); symulacje Monte Carlo (Stanisław Ulam) zaczęto stosować po II wojnie światowej, gdy pojawiły się pierwsze komputery. Idee repróbkowania (Julian L. Simon) i bootstrapu (Bradley Efron) w dzisiejszej postaci sformułowano w latach 80. XX wieku, jednak praktyczne możliwości wykorzystania tych metod na szerszą skalę pojawiły się dopiero w latach 90. dzięki rozwojowi technologii komputerowej.

Nowe metody oparte są na „brutalnej mocy” obliczeniowej. Kilkadziesiąt lat temu fakt ten uniemożliwiał ich praktyczne zastosowanie (pewnie dlatego nie zawracano sobie podówczas głowy ich wymyślaniem). Kilkanaście lat temu stanowiło to poważną przeszkodę w ich rozpowszechnieniu. Dzisiaj stosowanie tych metod może Tobie co najwyżej uświadomić, że komputer na Twoim biurku ma w sobie więcej mocy obliczeniowej niż maszyna do pisania, którą na co dzień zastępuje.

To „brutalne” podejście nie zachwyca, jak się łatwo domyślić, wyrafinowaną elegancją matematyczną (zachwyca raczej prostotą). Być może to właśnie jest przyczyną jego relatywnie małej popularności, szczególnie wśród wykształconych matematycznie przedstawicieli nauk przyrodniczych. Ale nawet wśród nich większość zgadza się, że statystyka pełni w stosunku do innych nauk rolę służebną — choć często kluczowo ważną.

Wreszcie niekwestionowanym walorem tych metod jest ich ogromna wartość dydaktyczna, umożliwiająca zrozumienie podstaw „przed” zmierzeniem się z komplikacjami matematycznymi i ideowymi statystyki klasycznej.

Co znajdziemy w tej książce i jak z niej korzystać

Pierwsza część to luźne i bezstresowe (bez użycia wzorów) wprowadzenie podstawowych pojęć statystyki, dzięki którym dochodzimy — wciąż bez żadnego wzoru — do całkiem poważnych i przydatnych zastosowań metody Monte Carlo i repróbkowania (testów permutacyjnych i bootstrapu). Celem tej części jest:

  • zapoznanie Czytelnika z najnowszymi trendami w statystyce,
  • umożliwienie samodzielnego i poprawnego rozwiązywania wielu problemów statystycznych w sposób intuicyjny drogą symulacji komputerowych, co pozwala na skoncentrowanie się na poprawnym sformułowaniu problemu (hipotezy) i znacząco zmniejsza szansę popełnienia grubego błędu metodycznego,
  • wprowadzenie w sposób intuicyjny i na konkretnych przykładach pojęć z klasycznej teorii statystyki (jak np. poziom istotności i moc testu), co ułatwi zrozumienie części drugiej.

W części drugiej całki itp. są już nie do uniknięcia; jednak liczba wzorów podawanych bez dowodu ograniczona jest do koniecznego minimum. Znajdziemy tam:

  • podstawy wystarczające do zrozumienia klasycznej — i wciąż najbardziej powszechnej — metodologii weryfikacji hipotez statystycznych; stanowi ona podstawę większości zastosowań wnioskowania statystycznego, czyli „testów statystycznych",
  • dokładne i poparte przykładami omówienie najczęściej stosowanych testów: [math]t[/math] Studenta, [math]\chi^2[/math] dla tabel i dopasowania rozkładu, testu serii Walda–Wolfowitza i testu rang Wilcoxona–Manna–Whitneya,
  • wyprowadzenie od podstaw statystyki testu serii, co pozwala na prześledzenie kompletnej drogi powstawania metody statystycznej również w podejściu klasycznym,
  • oparty na wielu dokładnie analizowanych przykładach opis podstawowego schematu weryfikacji hipotez statystycznych, na którym opierają się wszystkie powszechnie stosowane testy statystyczne.

Do zrozumienia części pierwszej nie jest wymagane praktycznie żadne przygotowanie matematyczne. Dla samodzielnego zastosowania opisywanych w niej metod konieczne jest zastosowanie dowolnego języka programowania bądź specjalizowanego pakietu statystycznego.

Przyswojenie podstawowych pojęć wprowadzonych w części pierwszej znacznie ułatwia zrozumienie części drugiej, w której korzysta się już z pojęcia całki i podstaw kombinatoryki.

Pierwsza część książki oparta jest na intensywnym wykorzystaniu komputerów. Dodatek A opisuje ogólne ograniczenia, którym podlegają wszelkie rozwiązania problemów za pomocą maszyn liczących.

Na koniec Dodatek B zawiera oryginalne teksty wszystkich programów, wykorzystanych do tworzenia rysunków i wykonywania obliczeń prezentowanych w tej książce, w języku Matlab. Jest to język wysokiego poziomu o stosunkowo intuicyjnej składni, dzięki czemu teksty te mogą stanowić uzupełnienie opisywanych algorytmów również dla osób nie korzystających z pakietu Matlab. Studiowanie tych programów nie jest bynajmniej konieczne do zrozumienia prezentowanych w książce zagadnień. Programy te, jak również inne związane z książką materiały i ewentualne uaktualnienia, znaleźć można w Internecie pod adresem http://statystyka.durka.info.