MODELE STATYSTYCZNE Punktem wyjścia w rozumowaniu

advertisement
MODELE STATYSTYCZNE
Punktem wyjścia w rozumowaniu statystycznym jest
zmienna losowa (cecha) X i jej obserwacje opisujące
wyniki doświadczeń bądź pomiarów. Zbiór wartości
zmiennej losowej X (zbiór wartości obserwacji) oznaczamy X , X ⊂ R.
Wraz z X określamy rodzinę podzbiorów A (σ-ciało)
oraz pewną rodzinę rozkładów P na A. Zakładamy,
że rozkład zmiennej losowej X, czyli PX , nie jest nam
znany; wiemy tylko, że PX ∈ P.
Analogia: Rachunek prawdopodobieństwa - (Ω, F, P );
Statystyka matematyczna - (X , A, PX ), PX ∈ P.
Próba to ciąg niezależnych zmiennych losowych X1, X2,
. . . , Xn o jednakowym rozkładzie PX . Przestrzenią prób
nazywamy zbiór X n. Na tej przestrzeni określamy rodzinę podzbiorów A(n) - jest to najmniejsze σ-ciało zawierające wszystkie zbiory postaci A1 × . . . × An, Ai ∈
A, i = 1, . . . , n.
(n)
Na A(n) rozważamy rozkład PX , który na zbiorach
postaci A1 × . . . × An określa się jako
(n)
PX (A1 × . . . × An) = PX (A1) · . . . · PX (An).
(n)
(X n, A(n), PX ), gdzie PX ∈ P, - to przestrzeń statystyczna (używa się też nazwy model statystyczny).
1
Opisać model statystyczny, odpowiadający pewnemu
doświadczeniu (lub ciągu doświadczeń), oznacza określić X n i P.
Przykład 1. Przedmiotem badania jest populacja, w
której część jednostek posiada pewną własność, a pozostali jej nie posiadają. Chcemy dowiedzieć się, ile
wynosi frakcja θ ∈ [0, 1] jednostek w populacji posiadających tę własność.
1. Losujemy n jednostek i sprawdzamy posiadanie owej
własności: 1 - posiada własność, 0 - nie posiada własności.
Próbka X1, . . . , Xn to ciąg niezależnych zmiennych losowych o tym samym rozkładzie zero-jedynkowym z
prawdopodobieństwem „sukcesu” (wartość 1) θ. Przestrzeń prób to zbiór X n = {0, 1}n. Rodzina P to rodzina wszystkich rozkładów zero-jedynkowych indeksowana parametrem θ :
P (X = 1) = θ, P (X = 0) = 1 − θ, lub inaczej
P (X = xi) = θxi (1 − θ)1−xi , gdzie xi ∈ {0, 1}.
2. Losujemy n jednostek i zapisujemy wynik x - liczbę
jednostek posiadających tę własność wśród wylosowanych.
Próbka X (składa się z jednego elementu) to zmienna
2
losowa o rozkładzie dwumianowym B(n, θ) :
( )
n x
P (X = x) =
θ (1 − θ)n−x, x ∈ {0, 1, . . . , n}.
x
Przestrzeń prób to zbiór X = {0, 1, . . . , n}. Rodzina P
to rodzina wszystkich rozkładów dwumianowych B(n, θ)
indeksowana parametrem θ ∈ [0, 1].
Przykład 2. Niech w warunkach poprzedniego przykładu wiadomo, że populacja się składa z N jednostek;
celem jest dowiedzieć się, ile wynosi liczba M 6 N
jednostek posiadających pewną własność (np. wadliwych).
Losujemy n jednostek i ponownie zapisujemy wynik x
- liczbę jednostek posiadających tę własność.
Próbka X (jednoelementowa) to zmienna losowa o rozkładzie hipergeometrycznym:
) ( )
( )(
M
N −M
N
.
(1)
P (X = x) =
/
n
n−x
x
Przestrzeń prób to zbiór X = {0, 1, . . . , min{n, M }}.
Rodzina P to rodzina wszystkich rozkładów postaci (1)
indeksowana parametrem M ∈ {0, 1, . . . , N }.
Przykład 3. Powtarzamy niezależnie n razy pomiar
pewnej nieznanej wielkości µ. Poszczególne wyniki możemy traktować jako niezależne zmienne losowe (przy3
rząd pomiarowy jest niedoskonały) X1, . . . , Xn o tym
samym rozkładzie. Chcemy się dowiedzieć, ile wynosi µ.
W takiej sytuacji często zakłada się, że rozkład każdej
zmiennej losowej jest normalny N (µ, σ 2), którego gęstość to
]
[
2
1
(u − µ)
f (u) = √
exp −
, u ∈ R.
2
2σ
2πσ
Przestrzeń prób: X n = Rn. Rodzina P to rodzina
wszystkich rozkładów normalnych N (µ, σ 2) indeksowana parametrem µ ∈ R (jeśli σ > 0 jest znane) lub
wektorem parametrów θ = (µ, σ) ∈ R × R+.
Wśród modeli statystycznych rozróżniamy parametryczne i nieparametryczne.
Parametryczne to modele, w których P = {Pθ ∈ Θ}
oraz Θ ⊂ Rk (zbiór Θ nazywamy przestrzenią parametrów). Będziemy zawsze zakładali, że jeżeli θ1 ̸= θ2, to
Pθ1 ̸= Pθ2 (rozkłady są identyfikowalne).
W pozostałych przypadkach model nazywamy nieparametrycznym.
W Przykładzie 1: Θ = [0, 1], w Przykładzie 2: Θ =
{0, 1, . . . , N }, w Przykładzie 3: Θ = R lub R × R+.
4
Ważnym przykładem modeli parametrycznych są modele z parametrami położenia i skali. Niech P0 będzie
rozkładem pewnej zmiennej losowej X (nazwijmy go
rozkładem standardowym) i rozważmy rodzinę rozkładów P zmiennych losowych postaci σX + µ, gdzie µ ∈
R, σ > 0. Taka rodzina rozkładów nazywa się rodziną
rozkładów z parametrami położenia (µ) i skali (σ).
Jeśli przez F0(·) oznaczymy dystrybuantę rozkładu standardowego, to dystrybuanta rozkładu zmiennej losowej
σX + µ to F0((· − µ)/σ). Np. rodzina rozkładów normalnych z Przykładu 3 jest rodziną rozkładów z parametrami położenia i skali.
Przykłady rodzin rozkładów (i odpowiednio modeli)
nieparametrycznych: rodzina rozkładów absolutnie ciągłych o ciągłej i ograniczonej gęstości, rodzina symetrycznych rozkładów absolutnie ciągłych (gdy gęstość
jest funkcją ciągłą i symetryczną względem pewnej prostej x = x0) itd. Rodziny tych rozkładów są zbyt
bogate i nie mogą być sparametryzowane za pomocą
wektoru parametrów.
5
Download