MODELE STATYSTYCZNE Punktem wyjścia w rozumowaniu statystycznym jest zmienna losowa (cecha) X i jej obserwacje opisujące wyniki doświadczeń bądź pomiarów. Zbiór wartości zmiennej losowej X (zbiór wartości obserwacji) oznaczamy X , X ⊂ R. Wraz z X określamy rodzinę podzbiorów A (σ-ciało) oraz pewną rodzinę rozkładów P na A. Zakładamy, że rozkład zmiennej losowej X, czyli PX , nie jest nam znany; wiemy tylko, że PX ∈ P. Analogia: Rachunek prawdopodobieństwa - (Ω, F, P ); Statystyka matematyczna - (X , A, PX ), PX ∈ P. Próba to ciąg niezależnych zmiennych losowych X1, X2, . . . , Xn o jednakowym rozkładzie PX . Przestrzenią prób nazywamy zbiór X n. Na tej przestrzeni określamy rodzinę podzbiorów A(n) - jest to najmniejsze σ-ciało zawierające wszystkie zbiory postaci A1 × . . . × An, Ai ∈ A, i = 1, . . . , n. (n) Na A(n) rozważamy rozkład PX , który na zbiorach postaci A1 × . . . × An określa się jako (n) PX (A1 × . . . × An) = PX (A1) · . . . · PX (An). (n) (X n, A(n), PX ), gdzie PX ∈ P, - to przestrzeń statystyczna (używa się też nazwy model statystyczny). 1 Opisać model statystyczny, odpowiadający pewnemu doświadczeniu (lub ciągu doświadczeń), oznacza określić X n i P. Przykład 1. Przedmiotem badania jest populacja, w której część jednostek posiada pewną własność, a pozostali jej nie posiadają. Chcemy dowiedzieć się, ile wynosi frakcja θ ∈ [0, 1] jednostek w populacji posiadających tę własność. 1. Losujemy n jednostek i sprawdzamy posiadanie owej własności: 1 - posiada własność, 0 - nie posiada własności. Próbka X1, . . . , Xn to ciąg niezależnych zmiennych losowych o tym samym rozkładzie zero-jedynkowym z prawdopodobieństwem „sukcesu” (wartość 1) θ. Przestrzeń prób to zbiór X n = {0, 1}n. Rodzina P to rodzina wszystkich rozkładów zero-jedynkowych indeksowana parametrem θ : P (X = 1) = θ, P (X = 0) = 1 − θ, lub inaczej P (X = xi) = θxi (1 − θ)1−xi , gdzie xi ∈ {0, 1}. 2. Losujemy n jednostek i zapisujemy wynik x - liczbę jednostek posiadających tę własność wśród wylosowanych. Próbka X (składa się z jednego elementu) to zmienna 2 losowa o rozkładzie dwumianowym B(n, θ) : ( ) n x P (X = x) = θ (1 − θ)n−x, x ∈ {0, 1, . . . , n}. x Przestrzeń prób to zbiór X = {0, 1, . . . , n}. Rodzina P to rodzina wszystkich rozkładów dwumianowych B(n, θ) indeksowana parametrem θ ∈ [0, 1]. Przykład 2. Niech w warunkach poprzedniego przykładu wiadomo, że populacja się składa z N jednostek; celem jest dowiedzieć się, ile wynosi liczba M 6 N jednostek posiadających pewną własność (np. wadliwych). Losujemy n jednostek i ponownie zapisujemy wynik x - liczbę jednostek posiadających tę własność. Próbka X (jednoelementowa) to zmienna losowa o rozkładzie hipergeometrycznym: ) ( ) ( )( M N −M N . (1) P (X = x) = / n n−x x Przestrzeń prób to zbiór X = {0, 1, . . . , min{n, M }}. Rodzina P to rodzina wszystkich rozkładów postaci (1) indeksowana parametrem M ∈ {0, 1, . . . , N }. Przykład 3. Powtarzamy niezależnie n razy pomiar pewnej nieznanej wielkości µ. Poszczególne wyniki możemy traktować jako niezależne zmienne losowe (przy3 rząd pomiarowy jest niedoskonały) X1, . . . , Xn o tym samym rozkładzie. Chcemy się dowiedzieć, ile wynosi µ. W takiej sytuacji często zakłada się, że rozkład każdej zmiennej losowej jest normalny N (µ, σ 2), którego gęstość to ] [ 2 1 (u − µ) f (u) = √ exp − , u ∈ R. 2 2σ 2πσ Przestrzeń prób: X n = Rn. Rodzina P to rodzina wszystkich rozkładów normalnych N (µ, σ 2) indeksowana parametrem µ ∈ R (jeśli σ > 0 jest znane) lub wektorem parametrów θ = (µ, σ) ∈ R × R+. Wśród modeli statystycznych rozróżniamy parametryczne i nieparametryczne. Parametryczne to modele, w których P = {Pθ ∈ Θ} oraz Θ ⊂ Rk (zbiór Θ nazywamy przestrzenią parametrów). Będziemy zawsze zakładali, że jeżeli θ1 ̸= θ2, to Pθ1 ̸= Pθ2 (rozkłady są identyfikowalne). W pozostałych przypadkach model nazywamy nieparametrycznym. W Przykładzie 1: Θ = [0, 1], w Przykładzie 2: Θ = {0, 1, . . . , N }, w Przykładzie 3: Θ = R lub R × R+. 4 Ważnym przykładem modeli parametrycznych są modele z parametrami położenia i skali. Niech P0 będzie rozkładem pewnej zmiennej losowej X (nazwijmy go rozkładem standardowym) i rozważmy rodzinę rozkładów P zmiennych losowych postaci σX + µ, gdzie µ ∈ R, σ > 0. Taka rodzina rozkładów nazywa się rodziną rozkładów z parametrami położenia (µ) i skali (σ). Jeśli przez F0(·) oznaczymy dystrybuantę rozkładu standardowego, to dystrybuanta rozkładu zmiennej losowej σX + µ to F0((· − µ)/σ). Np. rodzina rozkładów normalnych z Przykładu 3 jest rodziną rozkładów z parametrami położenia i skali. Przykłady rodzin rozkładów (i odpowiednio modeli) nieparametrycznych: rodzina rozkładów absolutnie ciągłych o ciągłej i ograniczonej gęstości, rodzina symetrycznych rozkładów absolutnie ciągłych (gdy gęstość jest funkcją ciągłą i symetryczną względem pewnej prostej x = x0) itd. Rodziny tych rozkładów są zbyt bogate i nie mogą być sparametryzowane za pomocą wektoru parametrów. 5