Ocena rozkładu na podstawie wykresów kwantylowych Zofia Hanusz, Joanna Tarasińska Katedra Zastosowań Matematyki i Informatyki Uniwersytet Przyrodniczy w Lublinie Jednowymiarowe wykresy kwantylowe X i ~ N , 2 i 1, , n - niezależne 1 i 0.375 P , x punkty i i powinny się układać wzdłuż linii n 0.25 y x kwantyl z N(0,1) i 0,375 kwantyl z próby rzędu n 0,25 Miarą współliniowości punktów jest statystyka Shapiro-Wilka. Jej małe wartości świadczą o braku współliniowości i powodują odrzucenie hipotezy o normalności rozkładu. Jeśli próba nie pochodzi z rozkładu normalnego, to punkty Pi układają się przeważnie w krzywą nieliniową a po jej kształcie można czasem odgadnąć takie cechy rozkładu, jak skośność czy rodzaj „ogonów”. Na dalszych rysunkach przedstawiono teoretyczny kształt krzywych, wzdłuż których układają się punkty gdy próba jest generowana z określonych rozkładów. Krzywe te opisane są równaniem : kwantyl z rozkładu o dystrybuancie F kwantyl z rozkładu F y F1x kwantyl z N(0,1) rozkład jednostajny na (0,1) n=20 p-value= 0.0734 n=100 p-value= 0.0013 rozkład Beta(2,2) n=20 p-value=0,1534 n=100 p-value=0,0169 Rozkład t(1) n=20 p-value = 4,427 E-05 n=100 p-value = 2,2 E-16 Rozkład t(5) n=20 p-value = 0,0592 n=100 p-value = 0,0066 Rozkład wykładniczy(l=1) n=20 p-value = 0,00074 n=100 p-value = 3,21 E-11 Mieszanina ½ z N(0,1), ½ z N(5,1) n=20 p-value = 0,0324 n=100 p-value = 6,256 E-06 7 6 5 sample 4 3 N(0,1) N(5,1) 2 1 0 -3 -2 -1 0 -1 -2 theoretical 1 2 3 Mieszanina ½ z N(0,1), ½ z N(0,9) scale contaminated normal (Tukey) n=20 p-value = 0.1542 N(0,1) , N(0,9) , Mieszanina n=100 p-value = 6.758 E-05 10 N(0,1) N(0,9) 8 6 4 sample 2 0 -2 -3 -2 -1 0 -4 -6 -8 -10 theoretical 1 2 3 dwumianowy (10,0.1) n=20 p-value = 0.001575 n=100 p-value = 3.994 E-09 Poissona (l=1) n=20 p-value = 0,0085 n=100 p-value = 4,344 E-10 Poissona (l=20) n=20 p-value = 0,737 n=100 p-value = 0,7532 Dane wielowymiarowe – metoda graficzna Small’a (Small, 1978, Biometrika 65) 1 n S X i X X i X n i 1 X i i 1, , n - iid ci X i ~ N p μ, Σ d , c i i 1 Xi X S 1 Xi X n 1 1 1 ci ~ Beta p, n p 1 as. niezależne 2 2 (Gnanadesikan & Kettenring, 1972, Biometrika 28) powinny ułożyć się wzdłuż prostej c=d kwantyl rozkładu Beta rzędu i n 1 a 1 2a b 1 2b a p 2 b n p 1 2 (Blom,1958,”Statistical estimates and transformed Beta-variables” Wiley, New York) 1 1 Beta p, n p 1 2 2 n=10 n=20 p=2 p=4 n=100 c j i Aby znaleźć prawdziwą teoretyczną linię, wokół której układają się punkty w metodzie Smalla generowano 100 000 prób o liczebności n z ustalonego rozkładu. Dla każdej próby znaleziono ciąg c j i Obliczono średnie c(i ) 1 100 000 c j i 100 000 j 1 Następnie narysowano (czerwoną) linię łączącą punkty di , ci Rozkład t(1)p n=20, p= 2 p-value 4.796 E-06 n=20, p= 4, p-value = 1.11 E-16 n=100, p=2, p-value = 0 n=100, p=4, p-value = 0 Rozkład jednostajny(0,1)p n=20, p=2, p-value = 0.158 Uwaga! tu słaba moc H-Z a na wykresie Smalla wyraźnie widać nienormalność n=100, p=2, p-value = 0.0001 n=20, p=2, d c t(1)p jedn(0,1)p t(2)p Beta(2,2)p MPVII(2) MPII(0) N(0,I) t(2)2 MPVII(2) Symetryczny czy skośny? n = 20, p = 2 t(1)p t’(1,l=5)p Mieszanina ½ z N([0,0],I), ½ z N([5,0],I) n=20, p=2 p-value = 0.106 (widać, że kiepsko Small wykrywa) n=100, p=2 p-value = 0.0004 Rozkład dwumianowy(n=10, q=0,1)p 100-elementowa próba p=2, p-value = 6.668 E-05 p=4, p-value = 4.430 E-07 Dane wielowymiarowe – wykres kwantylowy Adaptacja pomysłu Roystona (Royston , 1983, „Some techniques for assessity multivariate normality based on Shapiro-Wilk W”, Appl. Statist.32, 121-133) zi 1 F ci p n p 1 2 2 dystr. Beta , X ~ N μ, Σ i 1,, n ci 1 Xi X S 1 Xi X n 1 zi ~ N 0,1 asymp. Aby znaleźć teoretyczną linię, wokół której układają się punkty na wykresie kwantylowym generowano po 10 000 prób o liczebności n z różnych rozkładów . Dla każdej próby j znaleziono ciąg statystyk porządkowych 1 1 Xi X S Xi X n 1 i 1,, n j 1,,10 000 zi j 1 F ci j i 1,, n j 1,,10 000 1 10000 zi zi j 10 000 j 1 i 1,, n c i j 1 i 0.375 , z Narysowano linię łączącą punkty i n 0.25 X ~ N μ, Σ punkty powinny ułożyć się wzdłuż prostej y = x n=100, p=2 Rozkład t(1)2 Smalla Roystona n=100, p=2 Rozkład jednost.(0,1)2 Smalla Roystona n=100, p=2 Mieszanina ½ z N([0,0],I), ½ z N([5,0],I) Smalla Roystona