Integralne twierdzenie graniczne - E-SGH

advertisement
WYKŁAD 2
Podstawy teorii estymacji
TWIERDZENIA GRANICZNE
• W twierdzeniach tych rozpatruje się ciągi zmiennych
losowych {Xn}, których rozkłady – przy wzroście
wskaźnika n do nieskończoności – mogą być
zbieżne do pewnego rozkładu.
• Taki rozkład jest nazywany rozkładem granicznym
(asymptotycznym) ciągu zmiennych losowych {Xn}.
• Twierdzenia graniczne formułują warunki, przy
zachowaniu, których dla ciągu zmiennych losowych
istnieje asymptotyczny rozkład oraz określają, jaka
jest postać tego rozkładu.
TWIERDZENIA GRANICZNE
Wyróżniamy dwa rodzaje twierdzeń granicznych:
twierdzenia lokalne
twierdzenia integralne
dotyczą zbieżności ciągu
funkcji prawdopodobieństw
zmiennych losowych typu
skokowego lub zbieżności
ciągu funkcji gęstości
zmiennych losowych typu
ciągłego
dotyczą zbieżności ciągu
dystrybuant zmiennych
losowych
TWIERDZENIA GRANICZNE
• Wśród twierdzeń granicznych ważną rolę odgrywają
twierdzenia o rozkładach granicznych sum
niezależnych zmiennych losowych, w tym o
zbieżności dystrybuant standaryzowanych sum
niezależnych zmiennych losowych do dystrybuanty
rozkładu normalnego.
• Poza twierdzeniami o zbieżności do rozkładu
normalnego istotne znaczenie mają tzw. prawa
wielkich liczb, w których rozkładem granicznym
jest rozkład jednopunktowy.
TWIERDZENIA GRANICZNE
Abraham
de Moivre
(1667-1754)
Integralne twierdzenie graniczne –
twierdzenie mówiące o zbieżności
ciągu dystrybuant
Twierdzenie de Moivre`a - Laplace`a
Pierre Simon
de Laplace
(1749-1827)
Niech {Xn} będzie ciągiem zmiennych losowych o
rozkładzie dwumianowym z parametrami n i 0<p<1 oraz
niech {Un} będzie ciągiem standaryzowanych zmiennych Xn
:
X  np
Un 
n
npq
,
Wtedy dla ciągu dystrybuant {Fn (u)} zmiennych losowych
Un zachodzi dla każdej wartości u
TWIERDZENIA GRANICZNE
Twierdzenie de Moivre`a - Laplace`a
• Wniosek 1
Ciąg zmiennych losowych {Xn} o rozkładzie
dwumianowym z parametrami n i p
(niestandaryzowanych) jest zbieżny do rozkładu
normalnego N np; npq


• Wniosek 2
 Xn 
 
 n 
Jeśli rozpatrzymy ciąg zmiennych
, to z
twierdzenia de Moivre'a-Laplace'a wynika, że
zmienna ta ma asymptotyczny rozkład normalny

N p, pq | n

TWIERDZENIA GRANICZNE
J.W.Lindeberg
(1876-1932)
Integralne twierdzenie graniczne –
twierdzenie mówiące o zbieżności
ciągu dystrybuant
Paul Levy
(1886-1971)
Centralne twierdzenie graniczne Lindeberga-Levy`ego
Jeśli {Xk} jest ciągiem niezależnych zmiennych losowych o
jednakowych rozkładach (identycznych wartościach oczekiwanych
E(Xk)=E(X) oraz skończonych wariancjach D²(Xk)=D²(X), to ciąg
dystrybuant {Fn(t)} zmiennych losowych T określonych wzorem
spełnia:
Z n  nE ( X )
Tn 
D( X ) n
Dla każdej wartości t
TWIERDZENIA GRANICZNE
Centralne twierdzenie graniczne Lindeberga-Levy`ego
Wniosek 1
Zmienna losowa Zn określona wzorem
ma asymptotyczny rozkład normalny
Wniosek 2
Jeśli dla określonych wyżej zmiennych losowych Zn
rozpatrzymy zmienną
o wartości oczekiwanej
i wariancji
to z twierdzenia L-L otrzymujemy, że ciąg zmiennych {Vn}
jest zbieżny do rozkładu normalnego
PRÓBA LOSOWA
Próbą losową prostą nazywamy ciąg n-zmiennych
losowych niezależnych i posiadających jednakowe
rozkłady takie jak rozkład zmiennej losowej X w
populacji generalnej
Populacja generalna
Próba losowa
STATYSTYKI Z PRÓBY
STATYSTYKA (z próby)
Statystyką (z próby) nazywamy zmienną
losową Zn będącą funkcją zmiennych
losowych X1 , X2 ,… Xn stanowiących próbę
losową
Przykłady:
wyznaczone z danych z próby losowej np.:
•średnia arytmetyczna,
•częstość względna,
•wariancja
STATYSTYKI Z PRÓBY
STATYSTYKA (z próby)
Statystyka jako funkcja zmiennych losowych sama jest
zmienną losową, która posiada pewien rozkład
Rozkład statystyki Zn =z(X1 , X2 , X3,… Xn) nazywa się
rozkładem z próby
Rozkład statystyki z próby zależy od:
•rozkładu zmiennej losowej X w populacji generalnej
•liczebności próby
STATYSTYKI Z PRÓBY
STATYSTYKA (z próby)
Rozkład statystyki z próby przy ustalonym n
nazywamy dokładnym rozkładem statystyki.
Rozkłady dokładne są wykorzystywane w przypadku
tzw. małych prób.
Rozkład graniczny statystyki (o ile taki istnieje) jest
wykorzystywany, gdy nie można znaleźć dokładnego
rozkładu statystyki z próby.
Wymaga to tzw. dużej próby.
STATYSTYKI Z PRÓBY
ROZKŁAD ŚREDNIEJ ARYTMETYCZNEJ Z PRÓBY DLA
POPULACJI NORMALNEJ ZE ZNANYM ODCHYLENIEM
STANDARDOWYM ROZKŁAD DOKŁADNY
Założenia
• X ma rozkład N(m,σ)
• Pobieramy n-elementową próbę losową prostą
(X1, X2,…Xn)
Średnia arytmetyczna z próby
posiada
rozkład normalny o
standardowym
i odchyleniu
STATYSTYKI Z PRÓBY
ROZKŁAD ŚREDNIEJ ARYTMETYCZNEJ Z PRÓBY DLA
POPULACJI NORMALNEJ ZE ZNANYM ODCHYLENIEM
STANDARDOWYM ROZKŁAD DOKŁADNY
f(x)
X:N(5;2)
X:N(5;0,2)
n=100
STATYSTYKI Z PRÓBY
ROZKŁAD ŚREDNIEJ ARYTMETYCZNEJ Z PRÓBY DLA
POPULACJI NORMALNEJ Z NIEZNANYM ODCHYLENIEM
STANDARDOWYM mała próba
Założenia:
• Cecha X ma w populacji rozkład normalny ze
średnia m i odchyleniem standardowym σ,
• Z populacji pobieramy n-elementową losową
próbę (X1 , X2 ,…, Xn )
• Nie znamy wartości σ
?
Standaryzacja średniej
STATYSTYKI Z PRÓBY
ROZKŁAD
ROZKŁAD ŚREDNIEJ
ŚREDNIEJ ARYTMETYCZNEJ
ARYTMETYCZNEJ ZZ PRÓBY
PRÓBY DLA
DLA
POPULACJI
POPULACJI NORMALNEJ
NORMALNEJ ZZ NIEZNANYM
NIEZNANYM ODCHYLENIEM
ODCHYLENIEM
STANDARDOWYM
STANDARDOWYM
ROZKŁAD
mała DOKŁADNY
próba
W.S.Gosset odkrył w 1908r rozkład statystyczny
zależny od pomiarów xi, a niezależny od wariancji
William Sealy
Gosset
(1876-1937).
=> rozkład t-Studenta.
Założenia:
• Cecha X ma w populacji rozkład normalny ze średnia m i
odchyleniem standardowym σ,
• Z populacji pobieramy n-elementową losową próbą (X1 , X2 ,…, Xn )
• Do wnioskowania o średniej korzystamy ze statystyki t-Studenta:
STATYSTYKI Z PRÓBY
Liczba stopni swobody v
– liczba niezależnych wyników obserwacji pomniejszona o
liczbę niezależnych związków, które łączą te wyniki ze sobą.
np.: gdy n=2 i
gdy X1 =5 to X2 =?
lub X1 =3 to X2 =?
to ∑X = 2∙ X = X1 + X2 = 2∙5 = 10
5 + ? = 10
5+5=10
3 + ? = 10
3 + 7=10
v = n-1 = 2-1 =1
np.:
gdy stopni
n=3 i swobody
to ∑X
= 3∙ Xutożsamiać
= X1 + X2 + X3 z= liczbą
3∙5 =15
Liczbę
można
gdy
X1 =4 i X2 =3 to
X3 =?
4+3+?= 15które wpływają
4+3+8=15
niezależnych
zmiennych
losowych,
v = n-1 = 3-1 =2
na wynik.
STATYSTYKI Z PRÓBY
Rozkład t-Studenta
n≤30
STATYSTYKI Z PRÓBY
Zmienna
X~ N(m, σ)
Statystyka
średnia
  
X : N  m;

n

x
X~ N(m, ?)
średnia
mała próba n ≤ 30
X~ nieznany
rozkład
Standaryzacja
U

N(0; 1)
n
  
X : N  m;

n

t-Student
średnia
  
X : N  m;

n

U
częstość
X m

N(0; 1)
n
duża próba n > 30
duża próba n ≥ 100
X m
v=n-1
n→∞
X~ dwumianowy
Rozkład
X
W
n
U
Wp
p(1  p )
n
N(0; 1)
STATYSTYKI Z PRÓBY
Zmienna
X1~ N(m1, σ1)
X2~ N(m2, σ2)
X1~ N(m1, σ1)
X2~ N(m2, σ2)
Statystyka
Standaryzacja
różnica dwóch średnich

X 1  X 2 : N  m1  m2 ,





n1 n2 
 12
x
 22
U
1
1
t
X
1
różnica dwóch średnich
rozkłady
U
duża próba
n1 +n2 > 30
n1, n2 →∞
X1 , X2 ~
różnica dwóch częstości
dwumianowe
rozkłady
duża próba
n1 +n2 ≥ 100
2
n1, n2 →∞
p2 1  p2   U 

n2

2
n2
1 1
s 2p   
 n1 n2 
X
1
 X 2   m1  m2 
1
2
n1

p1 1  p1 
W1  W2 : N  p1  p2 ;


n1



N(0; 1)
2
 X 2   m1  m2 
mała próba n ≤30
X1 , X2 ~ nieznane
 X 2   m1  m2 
n1
różnica dwóch średnich

 12  22 

X 1  X 2 : N m1  m2 ,


n
n2 
1

X
Rozkład
2
2
t-Student
v=n1+n2-2
N(0; 1)
n2
(W1  W2 )  ( p1  p2 )
p1  (1  p1 ) p2  (1  p2 )

n1
n2
N(0; 1)
ESTYMACJA
Estymacją nazywamy szacowanie wartości parametrów,
ewentualnie postaci rozkładu
zmiennej losowej w populacji generalnej, na podstawie
obserwacji uzyskanych w próbie
Karl Pearson
(1857-1936)
losowej.
Estymacja parametryczna – szacowanie wartości
parametrów rozkładu populacji generalnej.
estymacja punktowa – za ocenę wartości parametru
przyjmuje się jedną konkretną wartość otrzymaną na
podstawie wyników z próby.
estymacja przedziałowa – wyznacza się liczbowy przedział,
w którym z określonym prawdopodobieństwem zawiera się
wartość szacowanego parametru.
Estymacja nieparametryczna – szacowanie postaci rozkładu
ESTYMACJA
Założenia
• rozkład zmiennej losowej X w populacji generalnej jest
opisany za pomocą dystrybuanty F(x,θ), gdzie θ jest
parametrem rozkładu, od którego zależy ta
dystrybuanta,
• nieznaną wartość parametru θ szacujemy na podstawie
n-elementowej próby losowej (X1, X2,…, Xn)
Estymatorem Tn parametru θ rozkładu
populacji generalnej nazywamy statystykę z
próby Tn = t(X1, X2,…, Xn) , która służy do
oszacowania wartości tego parametru.
ESTYMACJA
Estymator jest zmienną losową i ma pewien
rozkład
można obliczyć jego :
- wartość oczekiwaną = E(Tn )
- odchylenie standardowe = D(Tn ) nazywane
średnim błędem szacunku.
Błędem szacunku (estymacji) parametru θ nazywamy różnicę
pomiędzy estymatorem a wartością parametru oznaczoną przez:
d = Tn – θ
a za miarę tego błędu przyjmuje się wyrażenie
∆ = E(Tn – θ)² , które jest wariancją D²(Tn ) estymatora Tn
Względny błąd szacunku to
ESTYMACJA
Podstawowe pojęcia:
θ
Tn
tn
parametr
estymator (funkcja)
wartość estymatora = ocena
parametru θ
E(Tn ) wartość oczekiwana Tn
D(Tn) średni błąd szacunku parametru θ
uα •D(Tn) maksymalny błąd szacunku
parametru θ
ESTYMACJA
METODY UZYSKIWANIA ESTYMATORA
• Metoda momentów
• Metoda największej wiarygodności MNW
• Metoda najmniejszych kwadratów MNK
ESTYMACJA
WŁASNOŚCI ESTYMATORÓW
• Nieobciążoność
• Zgodność
• Efektywność
• Dostateczność
ESTYMACJA
WŁASNOŚCI ESTYMATORÓW- NIEOBCIĄŻONOŚĆ
Estymator jest nieobciążony jeśli:
E(Tn)=θ
W przeciwnym przypadku jest to estymator obciążony
Obciążenie estymatora:
b(Tn)=E(Tn) – θ
Estymator asymptotycznie
nieobciążony
Interpretacja
Własność nieobciążoności oznacza, że przy wielokrotnym
losowaniu próby średnia z wartości przyjmowanych przez estymator
nieobciążony równa się wartości szacowanego parametru.
Własność ta gwarantuje otrzymanie za jego pomocą ocen wolnych
od błędu systematycznego
ESTYMACJA
WŁASNOŚCI ESTYMATORÓW- ZGODNOŚĆ
• Mówimy, że estymator Tn parametru θ jest zgodny,
jeśli spełnia relację:


P
T





1
n
lim
n
• dla dowolnego ε > 0
ESTYMACJA
WŁASNOŚCI ESTYMATORÓW- EFEKTYWNOŚĆ
Jeśli dany jest zbiór wszystkich nieobciążonych
1
2
N
T
,
T
,...,
T
estymatorów n n
n parametru θ, to estymator
*
Tn ,który ma w tym zbiorze najmniejszą wariancję,
2 *
2 i
D
T

D
Tn
tzn.
, i=1,...,r, nazywamy
n
najefektywniejszym estymatorem parametru θ
 
Wyrażenie:
 
 
i
e Tn
2
 
 
*
D Tn
2 i
D Tn
i
nazywamy efektywnością estymatora Tn parametru θ
ESTYMACJA
WŁASNOŚCI ESTYMATORÓW-DOSTATECZNOŚĆ
Dostateczność (wystarczalność)– estymator
Tn parametru θ jest dostateczny, jeśli zawiera
wszystkie informacje, jakie można uzyskać na
temat parametru θ na podstawie próby i żaden
inny estymator nie umożliwia otrzymania
dodatkowych
informacji
o
szacowanym
parametrze.
ESTYMACJA
PRZEDZIAŁ UFNOŚCI
Założenia
• cecha X ma w populacji generalnej rozkład
z nieznanym parametrem θ,
• na podstawie próby losowej
 X1 , X 2 ,..., X n 
Jerzy
Spława-Neyman
1894-1981
pochodzącej z populacji wyznaczamy takie dwie
funkcje   X1, X 2 ,..., X n  i   X1, X 2 ,..., X n  , że dla
każdej realizacji próby
x1, x2 ,..., xn 
jest
   i dla,
z góry przyjętego, prawdopodobieństwa 1- α zachodzi:
P  X1, X 2 ,..., X n       X1, X 2 ,..., X n   1  
ESTYMACJA
PRZEDZIAŁ UFNOŚCI DLA ŚREDNIEJ m W POPULACJI NORMALNEJ
ZE ZNANYM ODCHYLENIEM STANDARDOWYM
Założenia
- zmienna X ma w populacji rozkład N m,  , gdzie średnia m jest
nieznana, natomiast odchylenie standardowe  jest znane,
- opierając się na próbie losowej  X 1, X 2 ,..., X n  pobranej z
populacji szukamy przedziału ufności dla m przyjmując
współczynnik ufności 1-
ESTYMACJA
Budowa przedziału ufności dla wartości oczekiwanej m
Estymatorem jest średnia arytmetyczna
mająca rozkład
• standaryzujemy
uzyskując
gdzie U: N(0,1)
• definiujemy uα jako wartość w standardowym
rozkładzie normalnym, dla której spełniony jest
warunek
ESTYMACJA
Pobieramy próby n1 i n2 o tej samej liczebności z
tej samej populacji
Szerokość przedziału ufności wzrasta wraz z poziomem
ufności!
n2
1-α=0,99
n1
1-α=0,90
• Większy poziom ufności → Szerszy przedział
• Mniejszy poziom ufności →Węższy przedział
ESTYMACJA
Pobieramy próby z tej samej populacji, przy
ustalonym współczynniku ufności
Szerokość przedziału ufności zmniejsza się wraz ze
wzrostem rozmiaru próby!
• Większa próba → zwykle węższy przedział
• Mniejsza próba → zwykle szerszy przedział
Budowa przedziałów ufności dla wartości oczekiwanej m
X ma dowolny rozkład
(n>30)
X ma rozkład normalny
tak
nie
σ znane ?
x  u

n
rozkład dwumianowy (n≥100)
n>30 ?
nie
s( x )
x  t , v
n
tak
s( x )
x  u
n
ESTYMACJA
Dokładność dopasowania
Bezwzględny (maksymalny) błąd szacunku,
czyli połowa przedziału ufności

 
2
Względny błąd estymacji

 
*  *100 
*100
tn
2tn
Minimalna liczebność próby przy szacowaniu p
• minimalna liczebność próby zapewnia,
przy danym 1-, nie przekroczenie
przez względny (maksymalny) błąd
szacunku z góry założonej wielkości d:
u pˆ (1  pˆ )
n
2
d
2
Download