Projekt pn. „Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych” realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki Statystyka i eksploracja danych Treść wykładów Adam Jakubowski UMK Toruń 2011 Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Spis treści Wstęp 1 1 Formalizm teorii prawdopodobieństwa Po co nam formalizm matematyczny? . . . . Co to jest ... . . . . . . . . . . . . . . . . . . . . Przestrzeń probabilistyczna . . . . . . . . . Przykłady przestrzeni probabilistycznych Przestrzeń statystyczna . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Zmienne losowe i charakterystyki ich rozkładów Zmienna losowa i jej rozkład . . . . . . . . . . . . Wartość oczekiwana zmiennej losowej . . . . . . Dystrybuanta zmiennej losowej . . . . . . . . . . Rozkłady dyskretne i absolutnie ciągłe . . . . . Momenty, wariancja, odchylenie standardowe . Mediana, kwantyle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 4 7 8 . . . . . . 9 9 10 11 12 13 14 3 Wektory losowe i charakterystyki ich rozkładów 15 Wektory losowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Macierz kowariancji wektora losowego . . . . . . . . . . . . . . . . . 16 Współczynnik korelacji . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4 Niezależność Brak korelacji a niezależność zmiennych losowych Niezależność zmiennych losowych . . . . . . . . . . . . Kryteria niezależności . . . . . . . . . . . . . . . . . . . Niezależność zdarzeń . . . . . . . . . . . . . . . . . . . . Niezależność parami . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 21 22 23 24 5 Estymatory Jak wyliczyć współczynnik korelacji? Próba prosta z populacji . . . . . . . . . Estymator nieobciążony . . . . . . . . . Zgodność ciągu estymatorów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 26 27 29 i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii Spis treści 6 Estymatory II Estymatory największej wiarogodności . . . . . Estymatory minimalnej wariancji . . . . . . . . . Rodziny wykładnicze rozkładów . . . . . . . . . . Estymatory nieobciążone minimalnej wariancji 7 Przedziały ufności Obszar ufności . . . . . . . Przedział ufności . . . . . . Rozkład t-Studenta . . . . Rozkład chi-kwadrat . . . Rozkład F -Snedecora . . . Asymptotyczne przedziały . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 33 34 36 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 39 40 41 42 43 44 8 Prognoza. Warunkowa wartość oczekiwana Zagadnienie prognozowania . . . . . . . . Warunkowa wartość oczekiwana . . . . . Prognoza liniowa . . . . . . . . . . . . . . . Procesy gaussowskie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 47 48 50 51 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ufności . . . . . . . . . . . . . 9 Testowanie hipotez statystycznych 53 Test hipotezy, poziom istotności, moc testu . . . . . . . . . . . . . . 53 Lemat Neymana-Pearsona . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Konkluzje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 10 Testowanie hipotez - przykłady Dystrybuanta empiryczna i tw. Test zgodności Kołmogorowa . Porównywanie średnich . . . . . Test χ2 Pearsona . . . . . . . . . Gniedenki-Cantellego . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 59 60 62 63 11 Metoda najmniejszych kwadratów i regresja liniowa 65 Model liniowy i regresja liniowa . . . . . . . . . . . . . . . . . . . . . 65 Metoda najmniejszych kwadratów . . . . . . . . . . . . . . . . . . . . . 66 Twierdzenie Gaussa-Markowa . . . . . . . . . . . . . . . . . . . . . . . . 67 12 Redukcja wymiaru danych Procedura standaryzacji danych . . . . . . . . . . . . . . . . . . . . . Analiza składowych głównych . . . . . . . . . . . . . . . . . . . . . . . Analiza czynnikowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 69 71 72 Literatura 75 Wstęp Plan studiów na kierunku „Informatyka” na Wydziale Matematyki i Informatyki Uniwersytetu Mikołaja Kopernika w Toruniu przewiduje na pierwszym roku studiów drugiego stopnia obowiązkowy blok statystyczno-probabilistyczny, składający się z przedmiotów „Statystyka i eksploracja danych” i „Metody i modele probabilistyczne”. Według założeń programowych realizacja tego bloku ma stanowić podstawę do szerokiego stosowania metod stochastycznych, w zagadnieniach algorytmicznych, obliczeniowych i w modelowaniu systemów złożonych. Przedmiot „Statystyka i analiza danych” prowadzony jest w semestrze zimowym, w wymiarze 30 godzin wykładu i 30 godzin ćwiczeń rachunkowo-laboratoryjnych, w dużej mierze wykorzystujących najnowsze wersje pakietu SPSS. Zaliczenie przedmiotu polega na uzyskaniu zaliczenia ćwiczeń rachunkowo-laboratoryjnych oraz zdaniu dwuczęściowego egzaminu, składającego się z egzaminu praktycznego w laboratorium (wykonanie analizy przykładowych danych) oraz egzaminu ustnego z teorii. Do wykładu prowadzone są kursy wyrównawcze, podczas których osoby mające trudności z podstawowymi pojęciami teorii prawdopodobieństwa lub rachunkami mogą uzupełnić swoje umiejętności. Podstawą zajęć wyrównawczych jest materiał dydaktyczny Adam Jakubowski „Statystyka i eksploracja danych. Repetytorium z teorii prawdopodobieństwa”, Toruń 2011. Należy podkreślić, że podczas egzaminu wiadomości zawarte w „Repetytorium” są bezwzględnie wymagane. Ćwiczenia dydaktyczne prowadzone są w oparciu o materiały dydaktyczne Joanna Karłowska-Pik „Statystyka i eksploracja danych. Ćwiczenia i zadania”, Toruń 2011. Niniejsze opracowanie zawiera treści przekazywane w trakcie wykładów. Najważniejsze definicje i twierdzenia przedstawiane są w postaci zrzutu ekranowego odpowiedniej transparencji. Podstawowy materiał uzupełniany jest komentarzami i przykładami. Zagadnienia omawiane na wykładach, wraz z ewentualnymi uzupełnieniami, są dostępne na: https://plas.mat.umk.pl/moodle/ w kategorii Studia stacjonarne/Statystyka i eksploracja danych. Całość materiału podzielono na 12 jednostek, z grubsza odpowiadających dwugodzinnemu wykładowi. Istotne poszerzenie zakresu materiału wydaje się mało prawdopodobne, ze względu na konieczność „wyrównania poziomu” podczas pierwszych wykładów. 1 2 Wstęp Doświadczenie wskazuje bowiem, że studenci drugiego stopnia „Informatyki” posiadają bardzo różne przygotowanie w zakresie metod probabilistycznych, często ograniczające się do elementarnego rachunku prawdopodobieństwa wykładanego w ramach „Matematyki dyskretnej”. Należy podkreślić, że pewne aspekty analizy danych (np. metody bayesowskie) są przekazywane w ramach przedmiotu „Metody i modele probabilistyczne”, po systematycznej prezentacji dynamicznych metod Monte Carlo (MCMC). Literatura podstawowa przedmiotu zawiera książki: W. Niemiro „Rachunek prawdopodobieństwa i statystyka matematyczna”, Szkoła Nauk Ścisłych, Warszawa 1999, oraz D.T. Larose „Metody i modele eksploracji danych”, Wydawnictwo Naukowe PWN, Warszawa 2008. Jako literatura uzupełniająca zalecane są ksiązki: J. Jakubowski i R. Sztencel „Wstęp do teorii prawdopodobieństwa”, Script, Warszawa 2004, D.T. Larose „Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych”, Wydawnictwo Naukowe PWN, Warszawa 2006, oraz R. Zieliński „Siedem wykładów wprowadzających do statystyki matematycznej”, PWN Warszawa 1990. Adam Jakubowski 1. Formalizm teorii prawdopodobieństwa Po co nam formalizm matematyczny? • Podstawa porozumienia - aby skutecznie porozumiewać się z innymi przy realizacji projektów lub w trakcie rozwiązywania problemów. • Możliwość uzyskania pomocy - aby umieć postawić specjalistom problem do rozwiązania. • Lepsze zrozumienie materii - np. naturalnych ograniczeń stosowanych narzędzi. Co to jest ... • Rachunek prawdopodobieństwa to sztuka (umiejętność) obliczania prawdopodobieństw zdarzeń. • Teoria prawdopodobieństwa to dział matematyki, na którym opierają się praktyczne obliczenia dokonywane w rachunku prawdopodobieństwa. • Statystyka to sztuka (umiejętność) wnioskowania na podstawie próby losowej. • Statystyka matematyczna to dział matematyki, który rozwija metody uzasadniające poprawność wnioskowania statystycznego. • Eksploracja danych (drążenie danych, ekstrakcja danych) to umiejętność wydobywania użytecznych informacji z dużych zbiorów danych. Uwaga: Przyjmuje się, że twórcą matematycznego formalizmu teorii prawdopodobieństwa był rosyjski matematyk A.N. Kołmogorow (1903-1987), który w 1933 roku opublikował książkę „Grundbegriffe der Wahrscheinlichkeitsrechnung”. 3 4 1. Formalizm teorii prawdopodobieństwa Przestrzeń probabilistyczna Uwaga: Pojęcia występujące w definicji przestrzeni probabilistycznej można interpretować w sposób następujący: • Ω to zbiór wszystkich możliwych wyników eksperymentu losowego. • Zdarzenia (elementy F) reprezentują fakty, których zajście możemy stwierdzić, tzn. dla A ∈ F zawsze możemy powiedzieć, czy wynik ω ∈ A, czy ω 6∈ A. W ten sposób F reprezentuje całość wiedzy, którą możemy uzyskać w wyniku realizacji eksperymentu losowego. • ∅ ∈ F nigdy nie może zajść (jest zdarzeniem „niemożliwym”), więc P (∅) = 0. Ale idziemy dalej: P (A) = 0 oznacza, że zdarzenie A jest „niemożliwe”, choć może być A 6= ∅. • Ω ∈ F zachodzi „zawsze” (jest zdarzeniem „pewnym”), więc P (Ω) = 1. Podobnie: P (A) = 1 oznacza, że zdarzenie A jest „pewne”, choć A może być właściwym podzbiorem Ω. Przestrzeń probabilistyczna 5 6 1. Formalizm teorii prawdopodobieństwa Przykłady przestrzeni probabilistycznych 7 Przykłady przestrzeni probabilistycznych • „Klasyczna definicja prawdopodobieństwa”. Niech Ω będzie zbiorem skończonym i niech F = 2Ω . Określamy #A . P (A) = #Ω („Zasada racji dostatecznej Laplace’a”.) • „Prawdopodobieństwo dyskretne”. Niech Ω0 = {ω1 , ω2 , . . .} będzie podzbiorem P przeliczalnym zbioru Ω. Niech p1 , p2 , . . . ­ 0, j pj = 1. Przyjmując z definicji P ∅ ≡ 0, określamy X pj . P (A) = {j : ωj ∈A} (F = 2Ω !) • Niech Ω = R1 i p(x) ­ 0 będzie funkcją na R1 taką, że my: Z b P ((a, b]) = p(x) dx, a R +∞ −∞ p(x) dx = 1. Określa- a < b, a, b ∈ R1 . Uwaga: Jak wygląda F? To problem badany przez teorię miary i całki Lebesgue’a. Można 1 pokazać, że nie istnieje prawdopodobieństwo Q : 2R → [0, 1] pokrywające się z P na odcinkach. 8 1. Formalizm teorii prawdopodobieństwa Z drugiej strony istnieje σ-algebra B 1 (tzw. zbiorów borelowskich) na którą można rozszerzyć funkcję P , tak aby spełnione były własności prawdopodobieństwa. Przestrzeń statystyczna 2. Zmienne losowe i charakterystyki ich rozkładów Zmienna losowa i jej rozkład 9 10 2. Zmienne losowe Wartość oczekiwana zmiennej losowej Uwaga: zmienna losowa X ma skończoną wartość oczekiwaną dokładnie wtedy, gdy E|X| < +∞. Mówimy również, że zmienna X jest całkowalna i piszemy X ∈ L1 (P ). 2.1 Twierdzenie (Własności wartości oczekiwanej) 1. Jeżeli X ­ 0, to EX ­ 0. Jeżeli X ­ 0 i EX = 0, to P (X = 0) = 1. 2. |EX| ¬ E|X|. 3. Jeżeli E|X| < +∞ i E|Y | < +∞, to dla dowolnych liczb α, β ∈ R1 funkcja αX + βY jest zmienna losową i ma miejsce równość: E (αX + βY ) = αEX + βEY. 4. Jeżeli Y ­ X, to EY ­ EX pod warunkiem, że wartości oczekiwane istnieją. Dystrybuanta zmiennej losowej 11 Dystrybuanta zmiennej losowej 2.2 Twierdzenie (Własności dystrybuanty zmiennej losowej) 1. Jeżeli u ¬ v, to FX (u) ¬ FX (v) (monotoniczność). 2. FX jest funkcją prawostronnie ciągłą. 3. lim FX (u) = 0, u→−∞ lim FX (u) = 1. u→+∞ 2.3 Twierdzenie Twierdzenie (O dystrybuantach) Jeżeli funkcja F : R1 → [0, 1] spełnia warunki 1-3 z powyższego twierdzenia, to istnieje zmienna losowa X taka, że F = FX . 12 2. Zmienne losowe Rozkłady dyskretne i absolutnie ciągłe 2.4 Fakt (Skoki dystrybuanty) PX {x} = P (X = x) > 0 wtedy i tylko wtedy, gdy dystrybuanta FX ma skok w punkcie x i FX (x) − FX (x−) = P (X = x). 2.5 Twierdzenie (Gęstość a pochodna dystrybuanty) Każda dystrybuanta F jest `-prawie wszędzie różniczkowalna i pochodna F 0 (określona `-prawie wszędzie) spełnia warunek Z F 0 (x) dx. F (x) ­ (−∞,x] Uwaga: Może się zdarzyć, że R R1 F 0 (x) dx < 1. 2.6 Twierdzenie Jeżeli R1 F 0 (x) dx = 1, to rozkład odpowiadający dystrybuancie F jest absolutnie ciągły z gęstością p(x) = F 0 (x). R 2.7 Twierdzenie (Obliczanie EX dla rozkładu dyskretnego) Jeżeli X ma rozkład dyskretny, to dla dowolnej funkcji f : R1 → R1 Ef (X) = ∞ X i=1 f (xi )P (X = xi ) = ∞ X i=1 f (xi )pi , Momenty, wariancja, odchylenie standardowe 13 przy czym Ef (X) istnieje dokładnie wtedy, gdy ∞ X |f (xi )|pi < +∞. i=1 2.8 Twierdzenie (Obliczanie EX dla rozkładu absolutnie ciągłego) Jeżeli X ma rozkład absolutnie ciągły o gęstości p(x), to dla dowolnej funkcji (borelowskiej) f : R1 → R1 Z +∞ f (x)p(x) dx, Ef (X) = −∞ przy czym Ef (X) istnieje dokładnie wtedy, gdy R +∞ −∞ |f (x)|p(x) dx < +∞. Momenty, wariancja, odchylenie standardowe 14 Mediana, kwantyle 2. Zmienne losowe 3. Wektory losowe i charakterystyki ich rozkładów Wektory losowe ~ Podobnie jak w przypadku zmiennych losowych, dystrybuantą wektora losowego X d nazywamy funkcję FX~ : IR → [0, 1], zadaną wzorem FX~ (a1 , a2 , . . . , ad ) := PX~ ({X1 ¬ a1 , X2 ¬ a2 , . . . , Xd ¬ ad }) . Uwaga: dystrybuanta wektora losowego określa rozkład wektora losowego. W jaki sposób? Uwaga: nie każda funkcja na IRd , która jest niemalejąca po współrzędnych, zadaje dystrybuantę! (Przykład!) 15 16 3. Wektory losowe Macierz kowariancji wektora losowego 80 80 Współczynnik korelacji 17 ~ < 3.1 Twierdzenie (Równoważna definicja wartości oczekiwanej) Niech EkXk d ~ +∞. Wartość oczekiwana wektora X to jedyny wektor m ∈ IR taki, że ~ = hx, mi, Ehx, Xi x ∈ IRd . ~ 2< 3.2 Twierdzenie (Równoważna definicja macierzy kowariancji) Niech EkXk ~ +∞. Macierz kowariancji wektora X jest jedyną symetryczną macierzą Σ wymiaru d × d wyznaczoną przez formę kwadratową ~ − E Xi ~ 2 = Var (hx, Xi) ~ = hx, Σ xi, Ehx, X x ∈ IRd . ~ jest więc jedyną macierzą Σ spełniającą związek Cov (X) ~ − E Xihy, ~ ~ − E Xi ~ = cov (hx, Xi, ~ hy, Xi) ~ = hx, Σ yi, x, y ∈ IRd . Ehx, X X 3.3 Twierdzenie (Charakteryzacja macierzy kowariancji) Macierz kowariancji ~ jest symetryczna i nieujemnie określona. Na odwrót, dla dowolnej wektora losowego X symetrycznej i nieujemnie określonej macierzy Σ rozmiaru d × d istnieje d-wymiarowy ~ taki, że wektor losowy X ~ = Σ. Cov (X) Współczynnik korelacji 3.4 Twierdzenie (Interpretacja wspólczynnika korelacji) |r(X, Y )| = 1 wtedy, i tylko wtedy, gdy istnieją stałe α, β takie, że X = αY + β lub Y = αX + β. 18 3. Wektory losowe 4. Niezależność Brak korelacji a niezależność zmiennych losowych Niech zmienne losowe X i Y będą jak na stronie 18. Rozważmy zmienne X 2 i Y 2 . 19 20 4. Niezależność Niezależność zmiennych losowych 21 Niezależność zmiennych losowych Uwaga: Jeżeli rodzina {Xi }i∈II jest niezależna, to niezależna jest również każda rodzina postaci {gi (Xi )}i∈II . 4.1 Twierdzenie (Niezależność pociąga nieskorelowanie) Jeżeli zmienne losowe X i Y są niezależne i całkowalne, to iloczyn XY jest całkowalną zmienną losową i EXY = EX · EY. W szczególności niezależne zmienne losowe są nieskorelowane. Uwaga: Bez założenia o niezależności warunek dostateczny dla całkowalności iloczynu XY odwołuje się do nierówności Höldera. E|XY | ¬ (E|X|p )1/p (E|Y |q )1/q , 1 1 + = 1. p q 4.2 Wniosek (Mnożenie wartości oczekiwanych) Niech X1 , X2 , . . . , Xd będą niezależne. Jeżeli funkcje fi sa takie, że f1 (X1 ), f2 (X2 ), . . . , fd (Xd ) są całkowalnymi zmiennymi losowymi, tj. E|fi (Xi )| < +∞, i = 1, 2, . . . , d, to Ef1 (X1 )f2 (X2 ) · · · fd (Xd ) = Ef1 (X1 ) · Ef2 (X2 ) · · · · Efd (Xd ). 22 4. Niezależność Kryteria niezależności 4.3 Twierdzenie Zmienne losowe X1 , X2 , . . . , Xd są niezależne wtedy, i tylko wtedy, gdy dla dowolnych liczb a1 , a2 , . . . , ad ma miejsce równość P (X1 ¬ a1 , X2 ¬ a2 , . . . , Xd ¬ ad ) = P (X1 ¬ a1 )P (X2 ¬ a2 ) · . . . · P (Xd ¬ ad ). Innymi słowy F(X1 ,X2 ,...,Xd ) (a1 , a2 , . . . , ad ) = FX1 (a1 ) · FX2 (a2 ) · . . . · FXd (ad ), tzn. dystrybuanta rozkładu łącznego jest iloczynem dystrybuant brzegowych. 4.4 Przykład (Klasyczne prawdopodobieństwo na produkcie) Niech wyniki itego eksperymentu będą elementami skończonej przestrzeni Ωi . Połóżmy Ω = Ω1 × Ω2 × . . . × Ωd . Niech P będzie klasycznym prawdopodobieństwem na Ω. Wtedy dla dowolnych funkcji fi : Ωi → IR1 , zmienne losowe Xi (ω1 , ω2 , . . . , ωd ) = fi (ωi ) są stochastycznie niezależne. Uwaga: W tym szczególnym przypadku niezależność stochastyczna pokrywa się z niezależnością funkcyjną (zmienne Xi w istocie są funkcjami różnych argumentów). Przewaga niezależności stochastycznej polega na uwolnieniu tej własności od konkretnej przestrzeni funkcyjnej. Niezależność zdarzeń 23 4.5 Twierdzenie (Niezależność dyskretnych zmiennych losowych) Niech rozkłady zmiennych X1 , X2 , . . . , Xd będą dyskretne. Zmienne losowe X1 , X2 , . . . , Xd są niezależne dokładnie wtedy, gdy dla dowolnych x1 , x2 , . . . , xd ∈ IR1 ma miejsce związek P (X1 = x1 , X2 = x2 , . . . , Xd = xd ) = P (X1 = x1 )P (X2 = x2 ) · · · P (Xd = xd ). 4.6 Twierdzenie (Niezależność absolutnie ciągłych zmiennych losowych) Niech rozkłady zmiennych X1 , X2 , . . . , Xd będą absolutnie ciągłe z gęstościami p1 (x), p2 (x), . . . , pd (x). Zmienne losowe X1 , X2 , . . . , Xd są niezależne dokładnie wtedy, gdy rozkład łączny tych zmiennych jest absolutnie ciągły (tzn. posiada gęstość względem miary Lebesgue’a na IRd ) i jego gęstość ma postać pX~ (x1 , x2 , . . . , xd ) = p1 (x1 )p2 (x2 ) · · · pd (xd ). Niezależność zdarzeń 24 Niezależność parami 4. Niezależność 5. Estymatory Jak wyliczyć współczynnik korelacji? • W przykładach podanych na poprzednim wykładzie dane maja postać chmury punktów (wektorów dwuwymiarowych). • Na podstawie danych, za pomocą odpowiedniego wzoru, wyliczamy liczbę, która stanowi pewną charakterystykę zbioru danych. • Nasuwają się następujące naturalne pytania: – Skąd wiemy, że to, co policzyliśmy, odpowiada naszym oczekiwaniom? – Jaka jest jakość uzyskanego wyniku? – A raczej: Jak mierzyć jakość naszego wyniku? – Jak znajdować „odpowiednie wzory”? 5.1 Przykład (n-krotny pomiar jednym przyrządem) Xk = m + εk , gdzie m - „rzeczywista wartość pomiaru”, a εk - błąd k-tego pomiaru. Co przyjąć za wynik pomiaru? X1 + X2 + . . . + Xn X̄n = . n Dlaczego? • Prawo wielkich liczb stwierdza, że ε1 + ε2 + . . . + εn → Eε1 , n gdzie Eε1 = 0 dla przyrządu poprawnie skalibrowanego („brak błędu systematycznego”). • Powyżej korzystamy z modelu „błędu pomiaru” w postaci ciągu niezależnych zmiennych losowych o jednakowym rozkładzie, z wartością oczekiwaną zero. • Inne spojrzenie: E X̄n = m, jeśli brak jest błędu systematycznego (obciążenia). 25 26 5. Estymatory Próba prosta z populacji 5.2 Przykład (Losowanie ze zwracaniem) Jesteśmy zainteresowani rozkładem danej cechy U w populacji Ω. Losujemy (ze zwracaniem) N „osobników” i badamy wartości cechy. Jak określić odpowiednią przestrzeń statystyczną (X , B, {Pθ }θ∈Θ )? Niech X0 = {U (ω) : ω ∈ Ω} ⊂ IRd . Kładziemy: • X = (X0 )N ; • B =? (jak wynika z kontekstu); • Θ = P(X0 ) (zbiór wszystkich rozkładów prawdopodobieństwa na X0 ); • Pθ = |θ × θ ×{z. . . × θ} . N razy Estymator nieobciążony Estymator nieobciążony 27 28 5. Estymatory 5.3 Przykład (Estymator wartości oczekiwanej) Θ = {θ ∈ P(IR1 ) : E|Y | < +∞, jeśli Y ∼ θ}, g(θ) = EY , jeśli Y ∼ θ. ĝ(X1 , X2 , . . . , XN ) = X̄N = X1 + X2 + . . . + XN . N 5.4 Przykład (Nieobciążony estymator wariancji) Θ = {θ ∈ P(IR1 ) : EY 2 < +∞, jeśli Y ∼ θ}, g(θ) = Var (Y ) = EY 2 − (EY )2 , jeśli Y ∼ θ. 2 ĝ(X1 , X2 , . . . , XN ) = S̄N = 2 (X1 − X̄N ) + (X2 − X̄N )2 + . . . + (XN − X̄N )2 = . N −1 5.5 Przykład (Nieobciążony estymator wariancji przy znanej wartości oczekiwanej) Θ = {θ ∈ P(IR1 ) : EY 2 < +∞, EY = µ, jeśli Y ∼ θ}, g(θ) = Var (Y ) = EY 2 − µ2 , jeśli Y ∼ θ. ĝ(X1 , X2 , . . . , XN ) = (X1 − µ)2 + (X2 − µ)2 + . . . + (XN − µ)2 . N 5.6 Przykład (Estymator prawdopodobieństwa sukcesu w schemacie Bernoullego) Θ = {rozkład dwupunktowy, P (Y = 1) = θ = 1 − P (Y = 0)}, Zgodność ciągu estymatorów 29 g(θ) = θ. ĝ(X1 , X2 , . . . , XN ) = X1 + X2 + . . . + XN . N 5.7 Przykład (Dwa estymatory dla P (X = 0) z rozkładu Poissona) Θ = {rozkład Poissona z parametrem θ ∈ IR+ }, g(θ) = e−θ (= Pθ (Y = 0)). ĝ1 (X1 , X2 , . . . , XN ) = 1I {{X1 =0}} + 1I {{X2 =0}} + . . . + 1I {{XN =0}} . N ĝ2 (X1 , X2 , . . . , XN ) = 1 − 1 N X1 +X2 +...+XN . Zgodność ciągu estymatorów Uwaga: Jeśli ciąg {ĝn } jest mocno zgodny, to jest słabo zgodny. Jeśli ciąg {ĝn } jest zgodny w sensie L2 , to jest słabo zgodny. 5.8 Przykład Jeśli istnieją drugie momenty, to ciąg estymatorów {X̄n } jest zgodny w sensie L2 . 30 5. Estymatory 5.9 Wniosek • Ciąg estymatorów {X̄n } jest mocno zgodny. • Zgodność obu ciągów estymatorów wariancji. • Zgodność ciągu estymatorów prawdopodobieństwa sukcesu w schemacie Bernoullego. • Zgodność obu ciągów estymatorów dla P (Y = 0) z rozkładu Poissona. 6. Estymatory II Estymatory największej wiarogodności Uwaga: Na poprzednim wykładzie pojawiło się wiele wzorów, które miały rozmaite dobre własności. Czy istnieje metoda znajdowania takich wzorów? Uwaga: gdy wszystkie rozkłady Pθ są dyskretne i skoncentrowane na tym samym zbiorze przeliczalnym X0 , jako miarę referencyjną możemy wybrać miarę liczącą: Λ(A) = #A, A ⊂ X0 . Wtedy „gęstość w punkcie” x ∈ X0 jest dana wzorem pθ (x) = Pθ ({x}). 31 32 6. Estymatory II Uwagi: • ENW nie musi być nieobciążony. • ENW może nie istnieć. • ENW może nie być określony jednoznacznie lub jego wyznaczenie może być bardzo trudne. 6.1 Przykłady • ENW dla prawdopodobieństwa sukcesu w schemacie N prób Bernoullego. p̂(X1 , X2 , . . . , XN ) = X1 + X2 + . . . + XN . N • ENW dla wartości oczekiwanej i wariancji dla próby prostej gaussowskiej długości N. X1 + X2 + . . . + XN µ̂ = = X̄N . N (X1 − X̄N )2 + (X2 − X̄N )2 + . . . + (XN − X̄N )2 N −1 2 σˆ2 = = S̄N . N N Estymatory minimalnej wariancji 33 Estymatory minimalnej wariancji 6.2 Przykład (Porównywanie estymatorów) Przypomnijmy dwa estymatory dla P (X = 0) z rozkładu Poissona Θ = {rozkład Poissona z parametrem θ ∈ IR+ }, g(θ) = e−θ (= Pθ (X = 0)). ĝ1 (X1 , X2 , . . . , XN ) = 1I {{X1 =0}} + 1I {{X2 =0}} + . . . + 1I {{XN =0}} . N ĝ2 (X1 , X2 , . . . , XN ) = 1 − 1 N X1 +X2 +...+XN . Który jest lepszy i w jakim sensie? Var θ (ĝ2 ) < Var θ (ĝ1 ) ! Uwaga: Istnieje piękna teoria, równie pięknie przedstawiona w książce R. Zieliński, Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa 1990, która pojęcie „estymator nieobciążony minimalnej wariancji” analizuje z punktu widzenia tzw. statystyk dostatecznych (tzn. zawierających pełną informację o modelu statystycznym). Na wykładzie podamy tylko najważniejsze zastosowanie tej teorii. 34 6. Estymatory II Rodziny wykładnicze rozkładów 6.3 Przykład Rozkład dwupunktowy (Bernoullego) Pθ {1} = θ = 1 − Pθ {0} ma gęstość na {0, 1} θ pθ (x) = exp x ln + ln(1 − θ) . 1−θ W reprezentacji pθ (x) = exp k X cj (θ)Tj (x) − b(θ) · h(x), j=1 mamy: • T1 (x) = x, • c1 (θ) = ln θ/(1 − θ) , • b(θ) = − ln(1 − θ), • h(x) ≡ 1. 6.4 Przykład Rozkład normalny N (µ, σ 2 ) ma gęstość na IR1 √ 1 µ µ2 pµ,σ (x) = exp − 2 · x2 + 2 · x − [ 2 + ln(σ 2π)] . 2σ σ 2σ ! W reprezentacji pθ (x) = exp P k j=1 cj (θ)Tj (x) − b(θ) · h(x), mamy θ = (µ, σ 2 ) oraz: Rodziny wykładnicze rozkładów 35 • T1 (x) = x2 , • c1 (θ) = −1/(2σ 2 ), • T2 (x) = x, • c2 (θ) = µ/σ 2 , √ • b(θ) = µ2 /(2σ 2 ) + ln(σ 2π), • h(x) ≡ 1. 6.5 Przykład Rozkład gamma Γ(α, λ), α > −1, γ > 0 ma gęstość na IR1 1 pα,λ (x) = exp − · x + (α − 1) · ln x − ln[λα Γ(α)] · 1I {[0,∞)} (x). λ W reprezentacji pθ (x) = exp P k j=1 cj (θ)Tj (x) − b(θ) · h(x), mamy θ = (α, γ) oraz: • T1 (x) = x, • c1 (θ) = −1/λ, • T2 (x) = ln x, • c2 (θ) = α − 1, • b(θ) = ln λα Γ(α) , • h(x) = 1I {[0,∞)} (x).. 6.6 Przykład Rozkład Poissona z parametrem λ ma gęstość na IN pλ (x) = exp (ln λ · x − λ) · W reprezentacji pθ (x) = exp P k j=1 cj (θ)Tj (x) 1 . x! − b(θ) · h(x), mamy (θ = λ): • T1 (x) = x, • c1 (λ) = ln λ, • b(λ) = λ, • h(x) = 1/x!. 6.7 Przykład Próba prosta długości N z rozkładu Bernoullego z prawdopodobieństwem sukcesu θ ∈ (0, 1) ma gęstość na przestrzeni {0, 1}N pN θ (x1 , x2 , . . . , xN ) = pθ (x1 ) · pθ (x2 ) · . . . · pθ (xN ) θ = exp (x1 + x2 + . . . xN ) ln + N · ln(1 − θ) . 1−θ W reprezentacji pN θ (x) = exp P k j=1 cj (θ)Tj (x) − b(θ) · h(x) mamy więc: 36 6. Estymatory II • T1 (x1 , x2 , . . . , xN ) = x1 + x2 + . . . + xN , • c1 (θ) = ln θ/(1 − θ) , • b(θ) = −N · ln(1 − θ), • h(x) ≡ 1. Podobnie transformują się gęstości dla prób prostych z innych rodzin wykładniczych. Estymatory nieobciążone minimalnej wariancji 6.8 Przykłady • Populacja normalna, µ znane. EN M W (σ 2 ) = (X1 − µ)2 + (X2 − µ)2 + . . . + (XN − µ)2 . N • Populacja normalna, µ znane. EN M W (σ) = √ Γ( n2 ) 2Γ( n+1 2 ) q (X1 − µ)2 + (X2 − µ)2 + . . . + (XN − µ)2 . Estymatory nieobciążone minimalnej wariancji 37 • Populacja normalna, σ znane. EN M W (µ) = X̄N . • Populacja normalna, µ i σ nie są znane. EN M W (µ) = X̄N . • Populacja normalna, µ i σ nie są znane. EN M W (σ 2 ) = (X1 − X̄N )2 + (X2 − X̄N )2 + . . . + (XN − X̄N )2 . (N − 1) • Populacja normalna, µ i σ nie są znane. Estymator kwantyla rzędu p ∈ (0, 1), tzn. liczby up spełniającej relację p = Φµ,σ (up ) lub up = µ + σ · Φ−1 (p). Γ( N −1 ) EN M W (up ) = X̄N + √ 2 N · σ̄N · Φ−1 (p), 2Γ( 2 ) gdzie σ̄N = q (X1 − X̄N )2 + (X2 − X̄N )2 + . . . + (XN − X̄N )2 . Uwaga: • Estymatory nieobciążone nie zawsze istnieją. • ENMW może nie istnieć, mimo że istnieją estymatory nieobciążone. • ENMW może mieć większy błąd średniokwadratowy (funkcję ryzyka) R(δ̂, θ) = Eθ (δ̂ − g(θ))2 od estymatora obciążonego. • ENMW może być zupełnie nieprzydatny. 38 6. Estymatory II 7. Przedziały ufności Obszar ufności Problem: jak ocenić jakość przybliżenia parametru przez estymator? Niech X , B, {Pθ }θ∈Θ będzie modelem statystycznym i niech ĝ : X → IRd będzie estymatorem parametru g : Θ → IRd . • W modelach ciągłych (tzn. Pθ ({x}) = 0 dla każdego x ∈ X i θ ∈ Θ) najczęściej mamy Pθ ĝ = y0 = 0. • Tymczasem na podstawie estymacji „przyjmujemy” g(θ) = y0 . Na ile można ufać takiej ocenie wartości parametru? • Wyjściem może być stosowanie estymatorów jako odwzorowań przestrzeni próbek o wartościach w „masywnych” zbiorach. 39 40 7. Przedziały ufności Przedział ufności 7.1 Przykład (Przedział ufności dla średniej ze znaną wariancją) Niech X1 , X2 , . . . , XN będzie próbą prostą z rozkładu N (µ, σ 2 ). Zakładamy, że σ 2 jest znane (np. dokonujemy pomiaru skalibrowanym przyrządem o znanej dokładności). Jeśli położymy X1 +X2 +...+XN σ2 X̄N = ∼ N µ, N , to N X̄N − µ √ ∼ N (0, 1). σ/ N Niech ζ = ζ1−α/2 będzie takie, że Φ(−ζ) = 1 − Φ(ζ) = α/2. Wtedy Pµ X̄N − σ · ζ1−α/2 σ · ζ1−α/2 √ ¬ µ ¬ X̄N + √ = 1 − α. N N Piszemy: µ = X̄N ± σ · ζ1−α/2 √ . N Rozkład t-Studenta 41 Rozkład t-Studenta 7.2 Przykład (Przedział ufności dla średniej z nieznaną wariancją) Niech X1 , X2 , . . . , XN będzie próbą prostą z rozkładu N (µ, σ 2 ). Nie znamy ani µ, ani σ 2 . Niech s S̄N = (X1 − X̄N )2 + (X2 − X̄N )2 + . . . + (XN − X̄N )2 . N −1 7.3 Twierdzenie Zmienna losowa tN −1 = X̄N − µ √ S̄N / N ma rozkład t-Studenta z N − 1 stopniami swobody. 7.4 Wniosek Jeżeli FtN −1 (τ1−α/2 ) = 1 − α/2, to na poziomie ufności α µ = X̄N ± S̄N · τ1−α/2 √ . N 42 7. Przedziały ufności Rozkład chi-kwadrat 7.5 Przykład (Przedział ufności dla wariancji) Podobnie jak poprzednio X1 , X2 , . . . , XN jest próbą prostą z rozkładu N (µ, σ 2 ), gdzie µ i σ 2 nie są znane. 7.6 Twierdzenie Zmienna losowa χ2N −1 = 2 (N − 1)S̄N σ2 ma rozkład chi-kwadrat z N − 1 stopniami swobody. 7.7 Wniosek Jeśli Fχ2 N −1 ności dla σ2 (ξα/2 ) = α/2 i Fχ2 N −1 (ξ1−α/2 ) = 1 − α/2, to przedziałem uf- na poziomie ufności α jest " # 2 (N − 1)S̄ 2 (N − 1)S̄N N , . ξ1−α/2 ξα/2 Rozkład F -Snedecora 43 Rozkład F -Snedecora 7.8 Przykład (Przedział ufności dla ilorazu wariancji) Niech X1 , X2 , . . . , XN bę2 ), a Y , Y , . . . , Y dzie próbą prostą z rozkładu N (µX , σX 1 2 M próbą prostą z rozkładu 2 2 2 2 będzie statystyką N (µY , σY ), gdzie nie znamy ani µX i σX , ani µY i σY . Niech S̄X 2 2 2 S̄N zbudowaną na próbce {Xk }, a S̄Y będzie statystyką S̄M zbudowaną na próbce {Yk }. 7.9 Twierdzenie Zmienna losowa FN −1,M −1 = 2 · σ2 S̄X Y 2 , S̄Y2 · σX ma rozkład F -Snedecora z N − 1 stopniami swobody licznika i M − 1 stopniami swobody mianownika. 7.10 Wniosek Niech FFN −1,M −1 (φα/2 ) = α/2, FFN −1,M −1 (φ1−α/2 ) = 1 − α/2. 2 na poziomie ufności α jest Przedziałem ufności dla σY2 /σX " # S̄ 2 S̄ 2 φα/2 Y2 , φ1−α/2 Y2 . S̄X S̄X 44 7. Przedziały ufności Asymptotyczne przedziały ufności 7.11 Przykład (Przedziały ufności dla prawdopodobieństwa sukcesu w schemacie Bernoullego) Niech X1 , X2 , . . . będzie schematem Bernoullego z prawdopodobieństwem sukcesu θ ∈ (0, 1), a SN liczbą sukcesów w N próbach. Rozkład SN jest znany (dwumianowy). Teoretycznie znamy więc również rozkład zmiennej standaryzowanej √ SN /N −θ√ . W praktyce lepiej jednak używać przybliżenia danego przez sławne θ(1−θ)/ N twierdzenie de Moivre’a-Laplace’a. 7.12 Wniosek Jeśli Φ(ζ1−α/2 ) = 1 − α/2, mamy „asymptotycznie”: 2 Pθ ζ1−α/2 θ(1 − θ) ­ N SN /N − θ 2 ≈ 1 − α. W szczególności na „przybliżonym” poziomie ufności α r θ= 2 SN + ζ1−α/2 /N 2 N + ζ1−α/2 ± ζ1−α/2 2 ζ1−α/2 SN (N −SN ) + N 4 2 N + ζ1−α/2 . 7.13 Przykład (Nieparametryczne przedziały ufności dla kwantyli) Niech X1 , X2 , . . . będzie próbą prostą z rozkładu o dystrybuancie F = FX1 . Niech ξp będzie kwantylem rzędu p rozkładu F (zakładamy, że F jest ciągła i ściśle rosnąca w otoczeniu ξp , więc ξp Asymptotyczne przedziały ufności 45 jest określony jednoznacznie). Połóżmy LN = N X 1I {{Xj ¬ξp }} . j=1 Zmienna LN ma rozkład dwumianowy! Z twierdzenia de Moivre’a-Laplace’a wynika, że ! LN /N − p ¬ ζ1−α/2 −ζ1−α/2 ¬ p p(1 − p)N = Φ(ζ1−α/2 ) − Φ(−ζ1−α/2 ) = 1 − α. lim P N →∞ Niech k N i k N będą takie, że k /N − p k N /N − p = −ζ1−α/2 , lim p = ζ1−α/2 . lim p N p(1 − p)/N p(1 − p)/N N →∞ N →∞ Wtedy lim PF k N ¬ LN ¬ k N = 1 − α, N →∞ lub równoważnie lim PF XkN :N ¬ ξp ¬ XkN :N = 1 − α, N →∞ gdzie Xk:N jest k-tą statystyką porządkową z próby prostej N -elementowej. Uwaga: Szczególny charakter rozkładu normalnego najbardziej widoczny jest w centralnym twierdzeniu granicznym. 46 7. Przedziały ufności 8. Prognoza. Warunkowa wartość oczekiwana Zagadnienie prognozowania • Przypuśćmy, że mamy dany ciąg liczb x1 , x2 , . . . , xn , stanowiących wyniki pomiaru pewnej zmiennej w czasie wielkości x, w chwilach t1 < t2 < . . . < tn . Inaczej mówiąc, mamy dany „szereg czasowy”. • Zagadnienie prognozowania: Niech T > tn . Jaką wartość przyjmie badana wielkość w chwili T ? • Jeżeli x jest funkcją tylko czasu t, tzn. xk = f (tk ), k = 1, 2, . . . , tn , możemy próbować odgadnąć postać funkcji f , np. – znajdując współczynniki wielomianu interpolacyjnego, – lub amplitudę, częstość i przesunięcie sygnału sinusoidalnego, – lub parametry przekształcenia S, którego kolejne iteracje S(t0 ), S 2 (t0 ), . . . Sn (t0 ) dają nam kolejne wartości x1 , x2 , . . . , xn . • To jest jednak rzadka sytuacja. Na ogół musimy zakładać, że liczby x1 , x2 , . . . , xn są wartościami ciągu zmiennych losowych. 47 48 8. Prognoza. Warunkowa wartość oczekiwana Warunkowa wartość oczekiwana ~ iZ ~ będą wektorami losowymi o wartościach w IRm i IRn , określonymi na Niech Y ~ = ~z) > 0, to rozkładem tej samej przestrzeni probabilistycznej (Ω, F, P ). Jeżeli P (Z ~ gdy Z ~ = ~z nazywamy prawdopodobieństwo warunkowym wektora Y ~ ~ ~ ~ z ) = P (Y ∈ A, Z = ~z) . ⊃ A 7→ PY~ |Z=~ ~ z (A) = P (Y ∈ A|Z = ~ ~ = ~z) P (Z ! IR m Pytanie: jak określić rozkład warunkowy w ogólnym przypadku? Jeżeli P(Y,Z) jest absolutnie ciągły z gęstością pY,Z (y, z), to można określić gęstość rozkładu PY |Z=z za pomocą wzoru pY |Z=z (y) = R +∞pY,Z (y,z) −∞ pY,Z (u,z) du 1I {[0,1]} (y), , jeśli R pY,Z (u, z) du > 0 jeśli R pY,Z (u, z) du = 0 . Warunkowa wartość oczekiwana 49 Uwaga: w terminach przestrzeni Hilberta L2 (Ω, F, P ) warunkowa wartość oczekiwana ~ ~ jest rzutem ortogonalnym na podprzestrzeń funkcji postaci {h(Z)}, czyli funkcji σ(Z)mierzalnych. W tym kontekście (niemal) oczywiste są następujące fakty: 50 8. Prognoza. Warunkowa wartość oczekiwana • Jeżeli E|Y | < +∞ i g : IRn → IRm , to ~ = E(Y |g(Z)). ~ ~ g(Z) E E(Y |Z) ~ jest funkcją stałą, to E(Y |Z) ~ = EY . • Jeżeli Z ~ • Co by było, gdybyśmy minimalizowali E|Y − h(Z)|? Prognoza liniowa Procesy gaussowskie 51 Procesy gaussowskie Wnioski z definicji: Biorąc α ~ = (0, . . . , 0, 1, 0, . . . , 0)T , otrzymujemy rozkład normalny dla składowych Xk ∼ N (mk , σk2 ). W ogólności, ~ = h~ ~ mα~ = E(α1 X1 + α2 X2 + · · · + αn Xn ) = Eh~ α, Xi α, E Xi. Podobnie ~ = h~ ~ α σα~2 = Var (h~ α, Xi) α, Cov (X) ~ i. 8.1 Twierdzenie (Transformacja liniowa zmiennych gaussowskich) Jeżeli wek~ = (X1 , X2 , . . . , Xn )T ma składowe gaussowskie, przy czym E X ~ = m tor losowy X ~ i n m Cov (X) = Σ) i jezeli A : IR → IR jest odwzorowaniem liniowym, to składowe wektora ~ też są gaussowskie, przy czym A(X) ~ = A(m), ~ = AΣAT . EA(X) ~ Cov (A(X)) 8.2 Twierdzenie (Konstrukcja zmiennych gaussowskich) Jeżeli m ~ ∈ IRn i Σ jest ~ o macierzą n × n, symetryczną i nieujemnie określoną, to istnieje wektor losowy X składowych gaussowskich, który spełnia związki ~ = m, EX ~ ~ = Σ. Cov (X) 8.3 Twierdzenie (Charakterystyka rozkładu łącznego zmiennych gaussowskich) Rozkład łączny zmiennych losowych gaussowskich (X1 , X2 , . . . , Xn ) (nazywany n-wymiarowym rozkładem normalnym) jest w pełni określony przez swoja wartość oczekiwaną m ~ i ma~ ∼ N (m, Σ). cierz kowariancji Σ. Piszemy X 52 8. Prognoza. Warunkowa wartość oczekiwana 8.4 Twierdzenie (Absolutna ciągłość rozkładu normalnego) Rozkład normalny jest absolutnie ciągły dokładnie wtedy, gdy macierz Σ jest nieosobliwa (det(Σ) 6= 0). W takim przypadku gęstość zadana jest wzorem: 1 1 1 ~ . pm,Σ x) = √ d √ exp − h~x − m, ~ Σ−1 (~x − m)i ~ (~ 2 ( 2π) det Σ 8.5 Twierdzenie (Niezależność zmiennych gaussowskich) Zmienne gaussowskie X1 , X2 , . . . , Xn są niezależne dokładnie wtedy, gdy są nieskorelowane: cov (Xi , Xj ) = 0, i, j = 1, 2, . . . , n, i 6= j. 9. Testowanie hipotez statystycznych Test hipotezy, poziom istotności, moc testu 53 54 9. Testowanie hipotez statystycznych Lemat Neymana-Pearsona Lemat Neymana-Pearsona 55 56 9. Testowanie hipotez statystycznych 9.1 Przykład (za R. Zielińskim „Siedem wykładów ...”) Niech X = IN . Rozważmy hipotezę prostą H0 = {B(10; 0, 1)} (rozkład dwumianowy: liczba sukcesów 10, p-stwo sukcesu 0, 01) przeciw hipotezie prostej H1 = {P o(1)} (rozkład Poissona z parametrem 1). x B(10; 0, 1) P o(1) P o(1) B(10;0,1) 0 1 2 3 4 5 6 7 8 0,3468 0,38742 0,19371 0,05739 0,01116 0,00149 0,00014 0,00001 0,00000 0, 36788 0,36788 0,18394 0,06131 0,01533 0,00307 0,00051 0,00007 0,00001 1,05506 0,94956 0,94956 1,06830 1,37366 2,06040 3,64286 7,0000 +∞ obszar krytyczny K {x : x ­ 8} {x : x ­ 7} {x : x ­ 6} {x : x ­ 5} {x : x ­ 4} {x : x ­ 3} PH0 (K) 0,00000 0,00001 0,00015 0,00164 0,01280 0,07019 PH1 (K) 0,00001 0,00008 0,00059 0,00366 0,01899 0,08030 Test niezrandomizowany na poziomie istotności α = 0, 05: ( φ(x) = 1, 0, gdy x ­ 4 gdy x < 4. Rozmiar testu EPH0 φ = PH0 {x : x ­ 4} = 0, 01280. Jeśli γ = 0, 6482, to PH0 {x : x ­ 4} + γPH0 {x : x = 3} = 0, 05. Test zrandomizowany na poziomie istotności α = 0, 05 1, gdy x ­ 4 φ(x) = 0, 6482 gdy x = 3 0, gdy x ¬ 2. ma również rozmiar 0, 05. Jaka jest moc tego testu? Tylko 0, 05873! Interpretacja: prawdopodobieństwo nieodrzucenia weryfikowanej hipotezy H0 = {B(10; 0, 1)}, gdy prawdziwa jest hipoteza alternatywna H1 = {P o(1)}, wynosi 0,94127. Konkluzje 57 Konkluzje • W przypadku hipotez złożonych teorię Neymana-Pearsona można przenieść na tzw. modele z monotonicznym ilorazem wiarogodności. • Teoria porównywania testów ma ograniczone znaczenie praktyczne. 58 9. Testowanie hipotez statystycznych 10. Testowanie hipotez - przykłady Dystrybuanta empiryczna i tw. Gniedenki-Cantellego 59 60 10. Testowanie hipotez - przykłady Test zgodności Kołmogorowa Przypuścmy, że X1 , X2 , . . . , XN jest próba prostą z nieznanego rozkładu. Rozważmy hipotezę H0 : zmienne maja rozkład o dystrybuancie F , przeciw alternatywie H1 : zmienne mają inny rozkład o dystrybuancie G 6= F . Jak przetestować tę hipotezę? • Niech zmienne będą miały rozkład G i niech GN będzie odpowiednią dystrybuantą empiryczną. Określamy statystykę DN = sup |GN (x) − F (x)|. x∈IR1 • Jeżeli G = F , to statystyka powinna przyjmować małe wartości; jeżeli G 6= F , to wartości powinny być znacząco większe. Określamy więc zbiór krytyczny dla poziomu istotności α wzorem KDN ,α = {DN > DN (α)}, gdzie PF (KDN ,α ) ¬ α. • Problem: PF (KDN ,α ) zależy od F ! Jak obliczyć to prawdopodobieństwo dla każdego F ? Na szczęście w obszernej klasie rozkładów PF (KDN ,α ) nie zależy od F ! • Jeżeli f jest funkcją niemalejącą, to dla dowolnej zmiennej losowej X i t ∈ IR1 {f (X) < f (t)} ⊂ {X ¬ t} ⊂ {f (X) ¬ f (t)}. Test zgodności Kołmogorowa 61 • Niech F będzie dystrybuantą zmiennej losowej X. Jeśli F jest ciągła, to F (X) ∼ U (0, 1). • Niech X1 , X2 , . . . , XN będzie próbką prostą z F . Jeżeli F jest ciągła, to F (X1 ), F (X2 ), . . . jest próbką prostą z rozkładu U (0, 1). 62 10. Testowanie hipotez - przykłady Porównywanie średnich Przypomnijmy, że rozkładem t-Studenta o k stopniach swobody nazywamy rozkład Test χ2 Pearsona zmiennej losowej 63 √ Z0 T =q k, Z12 + Z22 + . . . Zk2 gdzie Z0 , Z1 , . . . Zk są niezależne o rozkładzie N (0, 1). Test χ2 Pearsona • Niech niezależne zmienne losowe X1 , X2 , . . . , XN przyjmują wartości ai z prawdopodobieństwem pi > 0, p1 + . . . + pk = 1. • Określamy: νi = N X 1I {{Xj =ai }} . j=1 • Jeśli n1 + n2 + . . . nk = N i spełnione są pewne inne założenia, to P (ν1 = n1 , ν2 = n2 , . . . , νk = nk ) = N! pn1 pn2 . . . pnk k . n1 !n2 ! . . . nk ! 1 2 (rozkład wielomianowy). Przypomnijmy, że rozkład χ2 z k-stopniami swobody to rozkład zmiennej losowej χ2k ∼ X12 + X22 + . . . + Xk2 , 64 10. Testowanie hipotez - przykłady gdzie X1 , X2 , . . . , Xk są niezależne o rozkładzie N (0, 1). Rozkład χ2k jest rozkładem Gamma(k/2, 1/2). 11. Metoda najmniejszych kwadratów i regresja liniowa Model liniowy i regresja liniowa 65 66 11. Metoda najmniejszych kwadratów i regresja liniowa Metoda najmniejszych kwadratów Twierdzenie Gaussa-Markowa Twierdzenie Gaussa-Markowa 67 68 11. Metoda najmniejszych kwadratów i regresja liniowa 12. Redukcja wymiaru danych Procedura standaryzacji danych 12.1 Definicja (Standaryzacja zmiennej losowej) Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową X − EX Z=p . Var (X) Uwaga: EZ = 0, Var (Z) = 1. ~ = (X1 , X2 , . . . , Xd )T jest wektorem losowym o macierzy kowariancji Uwaga: Jeżeli X ~ ma wartość oczekiwaną E Z ~ =0i Σ, to wektor standaryzowany (po współrzędnych) Z ~ macierz kowariancji R = [rij ] równą macierzy KORELACJI wektora X, tj. cov (Xi , Xj ) rij = ρij = q . Var (Xi )Var (Xj ) Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja niektórych pól = ciąg ~ n (rekordów), których składowe mierzone są na ogół w różnych jedwartości wektorów X nostkach. Wartości poszczególnych pól (współrzędnych rekordów), nawet jeśli mają podobny charakter, mogą być mierzone w różnych jednostkach, co powoduje, że w analizie dominować mogą wielkości marginalne. Z tego powodu przed rozpoczęciem statystycznej analizy danych przeprowadza się standaryzację lub normalizację. 12.2 Definicja (Empiryczna standaryzacja ciągu wektorów losowych) Niech ~ n = (Xn1 , Xn2 , . . . , Xnd )T , n = 1, 2, . . . , N będzie ciągiem wektorów losowych. Niech X N 1 X X̄j = Xnj , Sj = N n=1 sP N n=1 (Xnj − X̄j )2 . N −1 ~ n } nazywamy ciąg wektorów losowych Z ~ n o składowych Standaryzacją ciągu {X Znj = (Xnj − X̄j ) . Sj 69 70 12. Redukcja wymiaru danych Analiza składowych głównych Analiza składowych głównych Uwaga: Innymi słowy, w analizie składowych głównych (PCA) szukamy: 71 72 12. Redukcja wymiaru danych • k możliwie małego (w stosunku do d), które spełnia warunek • λi /d + λ2 /d + . . . + λk /d > α, • i dla którego odpowiednie kombinacje liniowe zmiennych wyjściowych posiadają sensowną interpretację. Analiza czynnikowa W szczególności: ~ − E X)( ~ X ~ − E X) ~ T = E(LF~ + ~ε)(LF~ + ~ε)T Σ = E(X = E(LF~ F~ T LT ) + E(LF~ ~εT ) + E(~εF~ T LT ) + E(~ε~εT ) = LLT + Λε . Rozwiązanie powyższego równania oraz poszukiwanie czynników F~ przeprowadza się numerycznie. Uwagi: • Niech (F~ , L) będzie rozwiązaniem dla modelu analizy czynnikowej. Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas (B F~ , LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa analiza i wybór odpowiedniej „rotacji czynników”. Analiza czynnikowa 73 • Analiza czynnikowa, mimo bogatej literatury i mnogości algorytmów pozostaje zawsze narzędziem bardzo kontrowersyjnym. 74 12. Redukcja wymiaru danych Literatura Literatura podstawowa 1. W. Niemiro „Rachunek prawdopodobieństwa i statystyka matematyczna”, Szkoła Nauk Ścisłych, Warszawa 1999. 2. D.T. Larose „Metody i modele eksploracji danych”, Wydawnictwo Naukowe PWN, Warszawa 2008. Literatura uzupełniająca 1. J. Jakubowski i R. Sztencel „Wstęp do teorii prawdopodobieństwa”, Script, Warszawa 2000, 2001, 2004. 2. D.T. Larose „Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych”, Wydawnictwo Naukowe PWN, Warszawa 2006. 3. R. Zieliński „Siedem wykładów wprowadzających do statystyki matematycznej”, PWN Warszawa 1990. 75