Statystyka – zadania 4 Janusz Górczyński 1 Zadanie 1 Rozkład prawdopodobieństw ocen egzaminacyjnych ze statystyki w grupie studentów studiów dziennych i zaocznych można przedstawić w postaci takiej tabelki: Dzienne Zaoczne 2 0,06 0,11 3 0,12 0,14 3,5 0,15 0,12 4 0,09 0,07 4,5 0,05 0,03 5 0,03 0,03 Przyjmując umownie, że rodzaj studiów jest zmienną losową X o wartościach odpowiednio 1 (dzienne) i 2 (zaoczne), a oceny reprezentują zmienną losową Y otrzymujemy f.r.p dwuwymiarowej zmiennej losowej. 2 Zadanie 1 - cd Funkcję rozkładu p-stwa tak zdefiniowanej dwuwymiarowej zmiennej losowej XY (gdzie wartości zmiennej Y są „naturalne”, a zmiennej X „sztuczne”) można przedstawić w poniższej tabelce. X\Y x=1 x=2 p.j 2 0,06 0,11 0,17 3 3,5 4 0,12 0,15 0,09 0,14 0,12 0,07 0,26 0,27 0,16 4,5 0,05 0,03 0,08 5 0,03 0,03 0,06 pi. 0,50 0,50 1 W tabelce tej podano także rozkłady brzegowe obu zmiennych losowych. 3 Zadanie 1 – co chcemy wiedzieć? Interesują nas odpowiedzi na następujące pytania: Jaki jest rozkład ocen dla ogółu studentów? Jakie są charakterystyki tego rozkładu (średnia, wariancja, odchylenie standardowe, dominanta itd). Czy rozkład ocen w obu grupach studenckich jest taki sam? Jeżeli nie, to jaka jest przeciętna ocena w obu grupach studenckich? 4 Zadanie 1 – rozkład dla ogółu studentów Interesuje nas rozkład zmiennej Y niezależnie od tego, jakie wartości przyjmuje zmienna X. X\Y x=1 x=2 p.j 2 0,06 0,11 0,17 3 3,5 4 0,12 0,15 0,09 0,14 0,12 0,07 0,26 0,27 0,16 4,5 0,05 0,03 0,08 5 0,03 0,03 0,06 pi. 0,50 0,50 1 Zielony prostokąt „przykrył” niepotrzebne w tym momencie pstwa pozostawiając tylko p-stwa brzegowe zmiennej Y. Korzystając ze znanych wzorów wyznaczamy potrzebne charakterystyki. 5 Zadanie 1 – rozkład dla ogółu studentów X\Y x=1 x=2 p.j 2 0,06 0,11 0,17 3 3,5 4 0,12 0,15 0,09 0,14 0,12 0,07 0,26 0,27 0,16 4,5 0,05 0,03 0,08 5 0,03 0,03 0,06 pi. 0,50 0,50 1 m01 EY 2 0,17 3 0,26 ... 5 0,06 3,365 m02 EX 2 0,17 ... 5 0,06 12,008 2 2 2 02 D Y EY EX 12,008 3,365 0,6843 2 2 2 2 DY 0,6843 0,8272 6 Zadanie 1 – rozkład dla ogółu studentów Wyznaczoną wartość oczekiwaną zmiennej losowej Y można zinterpretować następująco: przeciętna (średnia) ocena egzaminacyjna ze statystyki dla ogółu studentów to 3,365. Przeciętne zróżnicowanie ocen (wokół wartości średniej) jest równe 0,8272. Dominującą oceną egzaminacyjną jest 3,5 7 Zadanie 1 – czy taki sam rozkład? Rozkład ocen będzie taki sam w obu grupach studenckich wtedy, jeżeli zmienne losowe będą niezależne. Musimy więc sprawdzić, czy rzeczywiście nasze zmienne są niezależne. Jedna z metod to wyznaczenie kowariancji, jeżeli zmienne są niezależne, to CXY jest równa 0. Jeżeli CXY będzie różne od zera, to będziemy mogli wyznaczyć jeszcze miarę siły związku między obu zmiennymi, czyli wsp. korelacji. Z kolei w sytuacji, gdy CXY będzie równe zero, to dalsze pytania nie mają już sensu (rozkład ocen w obu grupach jest dokładnie taki sam!). 8 Zadanie 1 – czy taki sam rozkład? Wyznaczenie CXY wymaga wcześniejszego wyznaczenia innych potrzebnych charakterystyk. Wcześniej już wyznaczyliśmy EY=3,365 oraz D2Y=0,6843. Musimy jeszcze wyznaczyć EX, D2X, EXY. X\Y x=1 x=2 p.j 2 0,06 0,11 0,17 3 3,5 4 0,12 0,15 0,09 0,14 0,12 0,07 0,26 0,27 0,16 EX 1 0,5 2 0,5 1,5 4,5 0,05 0,03 0,08 5 0,03 0,03 0,06 pi. 0,50 0,50 1 EX 2 120,5 220,5 2,5 D 2 X 2,5 1,52 0,25 9 Zadanie 1 – czy taki sam rozkład? Obliczenie EXY wymaga wykorzystania f.r.p. dwuwymiarowej zmiennej losowej: X\Y x=1 x=2 p.j 2 0,06 0,11 0,17 3 3,5 4 0,12 0,15 0,09 0,14 0,12 0,07 0,26 0,27 0,16 4,5 0,05 0,03 0,08 5 0,03 0,03 0,06 pi. 0,50 0,50 1 EXY 1 2 0,06 1 3 0,12 ... 2 5 0,03 4,99 Możemy już obliczyć CXY: CXY 4,99 1,5 3,365 0,0575 10 Zadanie 1 – czy taki sam rozkład? Jak widzimy CXY=-0,0575 jest różne od zera, tym samy zmienne losowe są zależne. W praktyce oznacza to tyle, że rozkłady ocen w obu grupach studenckich są inne, tym samym mogą być też inne ich charakterystyki. Wyznaczymy jeszcze miarę siły związku między zmiennymi: 0,0575 0,0575 0,139 0,4136 0,25 0,6843 11 Zadanie 1 – rozkłady warunkowe Wiemy już, że rozkłady ocen są różne, wyznaczymy więc warunkowe funkcje rozkładu p-stwa zmiennej losowej Y przy założeniu, że X=xi X\Y Y/x=1 Y/x=2 2 0,12 0,22 3 3,5 4 0,24 0,3 0,18 0,28 0,24 0,14 4,5 0,1 0,06 5 0,06 0,06 1,00 1,00 Łatwo zauważyć, że rozkłady te różnią się np. dominantą, która w grupie studentów dziennych (X=1) jest równa 3,5 , a w grupie studentów zaocznych (X=2) odpowiednio 3. 12 Zadanie 1 – rozkłady warunkowe A tak wyglądają wykresy obu warunkowych f.r.p 0,35 0,30 Y/x=1 0,25 Y/x=2 0,20 0,15 0,10 0,05 0,00 2 3 3,5 4 4,5 5 13 Zadanie 1 – funkcja regresji I rodzaju Wiemy już, że rozkłady ocen są różne, mamy wyznaczone warunkowe funkcje rozkładu p-stwa, możemy więc dla każdej z nich wyznaczyć wartość oczekiwaną. X\Y Y/x=1 Y/x=2 2 0,12 0,22 3 3,5 4 0,24 0,3 0,18 0,28 0,24 0,14 4,5 0,1 0,06 5 0,06 0,06 1,00 1,00 E (Y / X 1) 2 0,12 ... 5 0,06 3,48 E (Y / X 2) 2 0,22 ... 5 0,06 3,25 14 Zadanie 1 – funkcja regresji I rodzaju Wyznaczoną funkcję regresji I rodzaju można przedstawić graficznie: E(Y/X=xi) 3,50 3,45 3,40 3,35 3,30 3,25 3,20 0,8 1 1,2 1,4 1,6 1,8 2 2,2 15 Zadanie 1 – funkcja regresji I rodzaju Wyznaczoną funkcję regresji I rodzaju można także zapisać w postaci wzoru: 3,48 dla m( x ) 3,25 dla x 1 x2 a wyznaczonym warunkowym wartościom oczekiwanym nadać interpretację: W grupie studentów dziennych średnia ocena egzaminacyjna jest równa 3,48 W grupie studentów zaocznych średnia ocena jest równa 3,25 16