Ocena rozkładu na podstawie wykresów kwantylowych

advertisement
Ocena rozkładu na podstawie
wykresów kwantylowych
Zofia Hanusz, Joanna Tarasińska
Katedra Zastosowań Matematyki i Informatyki
Uniwersytet Przyrodniczy w Lublinie
Jednowymiarowe wykresy kwantylowe
X i ~ N ,  2  i  1, , n
- niezależne


1  i  0.375 
P

,
x
punkty i  
 i   powinny się układać wzdłuż linii

 n  0.25 

y  x
kwantyl z
N(0,1)
i  0,375
kwantyl z próby rzędu 
n  0,25
Miarą współliniowości punktów jest statystyka Shapiro-Wilka. Jej
małe wartości świadczą o braku współliniowości i powodują
odrzucenie hipotezy o normalności rozkładu.
Jeśli próba nie pochodzi z rozkładu normalnego, to punkty Pi układają
się przeważnie w krzywą nieliniową a po jej kształcie można czasem
odgadnąć takie cechy rozkładu, jak skośność czy rodzaj „ogonów”.
Na dalszych rysunkach przedstawiono teoretyczny kształt krzywych,
wzdłuż których układają się punkty gdy próba jest generowana z
określonych rozkładów. Krzywe te opisane są równaniem :
kwantyl z rozkładu o
dystrybuancie F
kwantyl z rozkładu F
y  F1x
kwantyl z N(0,1)
rozkład jednostajny na (0,1)
n=20 p-value= 0.0734
n=100 p-value= 0.0013
rozkład Beta(2,2)
n=20 p-value=0,1534
n=100 p-value=0,0169
Rozkład t(1)
n=20 p-value = 4,427 E-05
n=100 p-value = 2,2 E-16
Rozkład t(5)
n=20 p-value = 0,0592
n=100 p-value = 0,0066
Rozkład wykładniczy(l=1)
n=20 p-value = 0,00074
n=100 p-value = 3,21 E-11
Mieszanina ½ z N(0,1), ½ z N(5,1)
n=20 p-value = 0,0324
n=100 p-value = 6,256 E-06
7
6
5
sample
4
3
N(0,1)
N(5,1)
2
1
0
-3
-2
-1
0
-1
-2
theoretical
1
2
3
Mieszanina ½ z N(0,1), ½ z N(0,9)
scale contaminated normal (Tukey)
n=20 p-value = 0.1542
N(0,1)
,
N(0,9)
,
Mieszanina
n=100 p-value = 6.758 E-05
10
N(0,1)
N(0,9)
8
6
4
sample
2
0
-2
-3
-2
-1
0
-4
-6
-8
-10
theoretical
1
2
3
dwumianowy (10,0.1)
n=20 p-value = 0.001575
n=100 p-value = 3.994 E-09
Poissona (l=1)
n=20 p-value = 0,0085
n=100 p-value = 4,344 E-10
Poissona (l=20)
n=20 p-value = 0,737
n=100
p-value = 0,7532
Dane wielowymiarowe – metoda graficzna Small’a
(Small, 1978, Biometrika 65)
1 n

S   X i  X X i  X 
n i 1
X i i  1,  , n - iid
ci 
X i ~ N p μ, Σ 
d , c  
i
i
1
Xi  X S 1 Xi  X 
n 1
1 1
ci ~ Beta p, n  p  1 as. niezależne
2 2

(Gnanadesikan & Kettenring, 1972, Biometrika 28)
powinny ułożyć się wzdłuż prostej c=d
kwantyl rozkładu Beta rzędu
i
n     1

a 1
2a

b 1
2b
a
p
2
b
n  p 1
2
(Blom,1958,”Statistical estimates and transformed Beta-variables” Wiley, New York)
1 1

Beta p, n  p  1
2 2

n=10
n=20
p=2
p=4
n=100
c j i 
Aby znaleźć prawdziwą teoretyczną linię, wokół której układają się
punkty w metodzie Smalla generowano 100 000 prób o liczebności n z
ustalonego rozkładu. Dla każdej próby znaleziono ciąg c j  i 
Obliczono średnie
c(i )
1 100 000

c j i 

100 000 j 1
Następnie narysowano (czerwoną) linię łączącą punkty
di , ci  
Rozkład t(1)p
n=20, p= 2 p-value 4.796 E-06
n=20, p= 4, p-value = 1.11 E-16
n=100, p=2, p-value = 0
n=100, p=4, p-value = 0
Rozkład jednostajny(0,1)p
n=20, p=2, p-value = 0.158
Uwaga! tu słaba moc H-Z a na
wykresie Smalla wyraźnie widać
nienormalność
n=100, p=2, p-value = 0.0001
n=20, p=2,
d c
t(1)p
jedn(0,1)p
t(2)p
Beta(2,2)p
MPVII(2)
MPII(0)
N(0,I)
t(2)2
MPVII(2)
Symetryczny czy skośny?
n = 20, p = 2
t(1)p
t’(1,l=5)p
Mieszanina ½ z N([0,0],I), ½ z N([5,0],I)
n=20, p=2 p-value = 0.106
(widać, że kiepsko Small
wykrywa)
n=100, p=2 p-value = 0.0004
Rozkład dwumianowy(n=10, q=0,1)p
100-elementowa próba
p=2, p-value = 6.668 E-05
p=4, p-value = 4.430 E-07
Dane wielowymiarowe – wykres kwantylowy
Adaptacja pomysłu Roystona
(Royston , 1983, „Some techniques for assessity multivariate
normality based on Shapiro-Wilk W”, Appl. Statist.32, 121-133)
zi   1 F ci 
p n  p 1 

2 
2
dystr. Beta ,
X ~ N μ, Σ
i  1,, n
ci 
1
Xi  X S 1 Xi  X 
n 1
zi ~ N 0,1
asymp.
Aby znaleźć teoretyczną linię, wokół której układają się punkty na
wykresie kwantylowym generowano po 10 000 prób o liczebności n z
różnych rozkładów .
Dla każdej próby j znaleziono ciąg statystyk porządkowych
1
 1
Xi  X  S Xi  X 

n 1
i  1,, n
j  1,,10 000
zi j  1 F ci  j 
i  1,, n
j  1,,10 000
1 10000
zi 
zi j

10 000 j 1
i  1,, n
c i  j


1  i  0.375 
,
z
Narysowano linię łączącą punkty   
 i

 n  0.25  
X ~ N μ, Σ
punkty powinny ułożyć się wzdłuż prostej y = x
n=100, p=2
Rozkład t(1)2
Smalla
Roystona
n=100, p=2
Rozkład jednost.(0,1)2
Smalla
Roystona
n=100, p=2
Mieszanina ½ z N([0,0],I), ½ z N([5,0],I)
Smalla
Roystona
Download