Sampling_Praca zaliczeniowa

advertisement
1
Henryk Banaszak
Instytut Socjologii UW
rok akademicki 2016/2017
„Dobór próby w badaniach socjologicznych”
Konwersatorium
Zadanie nr 1 – Losowanie bez zwracania dużej próby z dużej populacji
Dane wyjściowe: Populacja1.SAV
Część I: Populacja1 a dane GUS
1. Wyznacz rozkłady zmiennych mw, P, AgCat, Educ5 i Zatr w pliku „Populacja1.sav”, który
opisuje badaną populację
2. Sprawdź, czy rozkłady zmiennych mw, P, AgCat, Educ5 i Zatr w pliku „Populacja1.sav” są
zgodne z aktualnymi danymi GUS dla populacji mieszkańców Polski w wieku 15+. Wskaż
rozbieżności między danymi GUS i rozkładami w pliku i wyraź je w %.
3. Spróbuj odpowiedzieć na pytanie, czy łączny rozkład zmiennych mw, P, AgCat, Educ5 i Zatr w
pliku „Populacja1.sav” jest dobrą reprezentacją łącznego rozkładu tych zmiennych wedle aktualnych
danych GUS
a. Jakich danych potrzebujesz aby odpowiedzieć na to pytanie?
b. Czy dane te są publikowane przez GUS
c. Jakie dane dotycące tego rokłądu łącznego są dostępne na portalu GUS?
Część II: próba n=100
4. Ustaw punkt startowy generatora liczb losowych SPSS za pomocą polecenia SET SEED na wartość
#*100, gdzie # oznacza przydzielony Ci numer porządkowy.
5. Z pliku „Populacja 1.sav” wylosuj 100-elementową próbę.
6. Wyznacz rozkłady zmiennych mw, P, AgCat, Educ5 i Zatr w wylosowanej próbie
7. Dla każdej z powyższych zmiennych wykonaj test chi-kwadrat zgodności rozkładu w próbie
wylosowanej z rozkładem zmiennych w poulacji, z której próbę losowano.
8. Wyznacz w wylosowanej próbie:
a. Proporcję mieszkańców wsi
b. Proporcję kobiet
c. Proporcję osób z wykształceniem poniżej średniego (bez matury)
d. Proporcję osób z wykształceniem wyższym
e. Odsetek aktywnych zawodowo
f. Stopę bezrobocia (sprawdź jak jest zdefiniowana !)
9. Posługując się centralnym twierdzeniem granicznym wyznacz dla każdej z powyższych proporcji
przedział ufności przyjmując poziom ufności 0,95.
10. Sprawdź, czy przedziały ufności wyznaczone na podstawie Twojej próby zawierają wartość
populacyjnego parametru.
Część III: próba n=400
11. Ustaw punkt startowy generatora liczb losowych SPSS za pomocą polecenia SET SEED na wartość
#*400, gdzie # oznacza przydzielony Ci numer porządkowy
12. Z pliku „Populacja 1.sav” wylosuj 400-elementową próbę.
13. Wykonaj operacje 6-10 dla próby 400-elementowej
Część IV: porównanie wyników wnioskowania z próby n=100 z wynikami wnioskowania z próby n=400
14. Porównaj wyniki z punktu 10 uzyskane dla próby 100-elementowej z analogicznymi wynikami dla
próby 400-elementowej (z punktu 13). Wyjaśnij przyczynę różnic.
1
2
Zadanie nr 2 – Losowanie złożone z dużej populacji
Dane wyjściowe: Populacja2.SAV
Część I: Sprawdzenie zgodności danych wyjściowych ze statystykami GUS
1. Wyznacz rozkłady zmiennych Plec, AgCat11, Educ7 w pliku Populacja2.SAV
2. Porównaj brzegowe rozkłady w/w zmiennych z aktualnymi danymi GUS dla populacji mieszkańców
Polski w wieku 18+. Wskaż rozbieżności między danymi GUS i rozkładami w pliku i wyraź je w %.
Część II: Próba 1: prosta próba losowa n=1000
3. Ustaw punkt startowy generatora liczb losowych programu, za pomocą którego będziesz losował próbę
na 8-cyfrową wartość złożoną z Twojej daty urodzenia w formacie rrrr-mm-dd.
4. Wylosuj z w/w populacji w sposób prosty, bezzwrotny, próbę losową o liczebności 1000.
5. Wyznacz rozkłady brzegowe zmiennych Plec, AgCat11, Educ7 w wylosowanej próbie.
6. Porównaj w/w rozkłady z odpowiadajacymi im rozkładami w populacji.
Część III. Próba 2: złożona losowana wielostopniowo n=1000.
7. Wylosuj z populacji 1000 osobową próbę według następującego schematu:
a. Wyznacz łączny rozkład zmiennej ‘warstwa’ definiowanej przez województwo (woj16) oraz
cztero-kategorialną klasę wielkości miejscowości (klwm4).
b. Alokuj 100 wiązek po 10 osób w każdej między warstwy zdefiniowane powyżej. Alokacja ma
być proporcjonalna do liczby ludności zamieszkałej w warstwie.
c. Wylosuj niezależnie z każdej warstwy tyle gmin (kodGUS), ile wiązek 10-osobowych w niej
alokowałeś. Gminy losuj ze zwracaniem i z prawdopodobieństwami proporcjonalnymi do
liczby ludności w gminie. Uwaga: ta sama gmina może zostać wylosowana wielokrotnie.
d. Z każdej wylosowanej gminy wylosuj po 10 osób na każde „wylosowanie” gminy.
8. Wyznacz w wylosowanej próbie brzegowe rozkłady zmiennych Plec, AgCat11, Educ7.
9. Porównaj rozkłady zmiennych Plec, AgCat11, Educ7 w obu próbach z rozkładem tych zmiennych
w populacji.
Część IV. Dokładność oszacowań.
10. Posługując się centralnym twierdzeniem granicznym i przyjmując poziom ufności 0,95 wyznacz na
podstawie próby 1 przedziały ufności dla frakcji:
a. kobiet
b. osób z wyższym wykształceniem
11. Sprawdź, czy przedziały ufności wyznaczone na podstawie Twojej próby zawierają wartość
populacyjnego parametru.
UWAGI TECHNICZNE I PORZĄDKOWE
12. Dołącz syntax SPSS lub/oraz skrypt R używany w obu losowaniach
13. Nie zamieszczaj w pracy tabel wklejonych z outputu SPSS
14. Pracę podpisz, strony ponumeruj, a całość zredaguj tak, aby była czytelnym tekstem ilustrowanym
danymi.
15. Pamiętaj, że ‘porównaj’ oznacza ‘wskaż podobieństwa i różnice, wyraź je liczbowo i opisz’.
2
Download