Wyk*ad 2 Analiza danych za pomoc* wykresów

advertisement
Estymatory punktowe i
przedziałowe
SE (standard error)
SEM
rozkład próbkowania – sampling distribution
Przedział ufności
(CI, confidence intervals)
przedział ufności, to zakres w którym znajduje
się prawdziwa wartość średniej populacji
Przedziały nie
zawierają
średniej
populacyjnej
Jak obliczyć szerokość takiego
przedziału?
47
= 0.94
50
95%
Przedział ufności
z-score (standaryzowany rozkład normalny)
0±1.96
Jak znaleźć
tę wartość?
Jak znaleźć
tę wartość?
0.61
-2.5
-1.6
5.39
-0.8
0
0.8
1.6
1.96
-1.96
-1.0
1.78
2.5
4.22
1.0
Przedział ufności
(CI, confidence intervals)
 jakie wartości odpowiadają z-score 1.96 i -1.96?
(pomiędzy nimi znajduje się 95% rozkładu średnich)
Dolne
Górne
Górne
Dolne
Przedział ufności
(CI, confidence intervals)
Przedział ufności
dla małych grup
średnia
Testowanie założeń
Testy parametryczne
• Test parametryczny – wymaga danych
pochodzących z jednego z wielu rozkładów
teoretycznych
• Testy parametryczne oparte na rozkładzie
normalnym wymagają spełnienia 4 założeń
Założenia
testy parametryczne
Normalność rozkładu
Homogeniczność wariancji
Rodzaj danych (numeryczne)
Niezależność
Najczęściej stosowane testy
w badaniach medycznych
Skala/
Liczba grup
Warunki
dodatkowe
2 grupy
2 grupy
>2 grupy
>2 grupy
Zmienne
niepowiązane
Zmienne
powiązane
Zmienne
niepowiązane
Zmienne
powiązane
Ilościowe\
numeryczne
Normalność
rozkładu
t-Studenta t-Studenta
Nie pow
Pow
ANOVA
ANOVA
Ilościowe\
numeryczne
Brak
normalności
rozkładu
MannaWhitneya
Wilcoxona
KruskalaWallisa
Friedmana
Porządkowa
MannaWhitneya
Wilcoxona
KruskalaWallisa
Friedmana
Nominalna
Chi2
Fishera
Znaków
McNemara
Chi2
Fishera
QCochrana
Założenia
testy parametryczne - normalność
Zakładamy, że rozkład próbkowania jest
normalny, ale czy rzeczywiście tak jest?
Centralne twierdzenie graniczne
Jeśli dane w próbce mają w przybliżeniu rozkład
normalny, to rozkład próbkowania tez jest
rozkładem normalnym
Jeżeli próbki mają dużą liczebność (>30), rozkład
próbkowania też jest rozkładem normalnym,
niezależnie od kształtu rozkładu w uzyskanej
próbie (a także kształtu rozkładu w populacji!)
Założenia
testy parametryczne - normalność
jeśli n jest duże (>30) to rozkład próbkowania
jest rozkładem normalnym, o odchyleniu
standardowym równym
jeśli n <30, rozkład próbkowania ma inny
kształt, jest to rozkład t!
Analiza histogramów
Analiza histogramów
Analiza histogramów
Wykres P-P
(prawdopodobieństwo-prawdopodobieństwo)
dystrybuanta empiryczna
(prawdopodobieństwo skumulowane)
wykreślona względem dystrybuanty
teoretycznej
punkty powinny leżeć w pobliżu przekątnej
wykresu
Wykres P-P
Wykres P-P
Wykres P-P
Kurtoza
Leptokurtyczny (spiczasty, smukły)
Platykurtyczny (przysadzisty)
• Miara smukłości
Kurtoza>0 (+1)
Kurtoza>1 (-4)
Testy normalności rozkładu
 Porównują częstości empiryczne z częstościami
oczekiwanymi dla danego rozkładu
teoretycznego
Chi kwadrat
Kołmogorowa-Smirnowa
Shapiro-Wilka
Lileforsa
 Wada
przy dużych liczebnościach łatwo uzyskać istotność
przy niewielkich odchyleniach od normalności
Skośność (skewness)
• Miara symetrii
Homogeniczność wariancji
Homogeniczność wariancji
Test Levene’a
Transformacje danych
Logarytmowanie
Pierwiastkowanie
Potęgowanie
Odwrotność
Download