1 Henryk Banaszak Instytut Socjologii UW rok akademicki 2016/2017 „Dobór próby w badaniach socjologicznych” Konwersatorium Zadanie nr 1 – Losowanie bez zwracania dużej próby z dużej populacji Dane wyjściowe: Populacja1.SAV Część I: Populacja1 a dane GUS 1. Wyznacz rozkłady zmiennych mw, P, AgCat, Educ5 i Zatr w pliku „Populacja1.sav”, który opisuje badaną populację 2. Sprawdź, czy rozkłady zmiennych mw, P, AgCat, Educ5 i Zatr w pliku „Populacja1.sav” są zgodne z aktualnymi danymi GUS dla populacji mieszkańców Polski w wieku 15+. Wskaż rozbieżności między danymi GUS i rozkładami w pliku i wyraź je w %. 3. Spróbuj odpowiedzieć na pytanie, czy łączny rozkład zmiennych mw, P, AgCat, Educ5 i Zatr w pliku „Populacja1.sav” jest dobrą reprezentacją łącznego rozkładu tych zmiennych wedle aktualnych danych GUS a. Jakich danych potrzebujesz aby odpowiedzieć na to pytanie? b. Czy dane te są publikowane przez GUS c. Jakie dane dotycące tego rokłądu łącznego są dostępne na portalu GUS? Część II: próba n=100 4. Ustaw punkt startowy generatora liczb losowych SPSS za pomocą polecenia SET SEED na wartość #*100, gdzie # oznacza przydzielony Ci numer porządkowy. 5. Z pliku „Populacja 1.sav” wylosuj 100-elementową próbę. 6. Wyznacz rozkłady zmiennych mw, P, AgCat, Educ5 i Zatr w wylosowanej próbie 7. Dla każdej z powyższych zmiennych wykonaj test chi-kwadrat zgodności rozkładu w próbie wylosowanej z rozkładem zmiennych w poulacji, z której próbę losowano. 8. Wyznacz w wylosowanej próbie: a. Proporcję mieszkańców wsi b. Proporcję kobiet c. Proporcję osób z wykształceniem poniżej średniego (bez matury) d. Proporcję osób z wykształceniem wyższym e. Odsetek aktywnych zawodowo f. Stopę bezrobocia (sprawdź jak jest zdefiniowana !) 9. Posługując się centralnym twierdzeniem granicznym wyznacz dla każdej z powyższych proporcji przedział ufności przyjmując poziom ufności 0,95. 10. Sprawdź, czy przedziały ufności wyznaczone na podstawie Twojej próby zawierają wartość populacyjnego parametru. Część III: próba n=400 11. Ustaw punkt startowy generatora liczb losowych SPSS za pomocą polecenia SET SEED na wartość #*400, gdzie # oznacza przydzielony Ci numer porządkowy 12. Z pliku „Populacja 1.sav” wylosuj 400-elementową próbę. 13. Wykonaj operacje 6-10 dla próby 400-elementowej Część IV: porównanie wyników wnioskowania z próby n=100 z wynikami wnioskowania z próby n=400 14. Porównaj wyniki z punktu 10 uzyskane dla próby 100-elementowej z analogicznymi wynikami dla próby 400-elementowej (z punktu 13). Wyjaśnij przyczynę różnic. 1 2 Zadanie nr 2 – Losowanie złożone z dużej populacji Dane wyjściowe: Populacja2.SAV Część I: Sprawdzenie zgodności danych wyjściowych ze statystykami GUS 1. Wyznacz rozkłady zmiennych Plec, AgCat11, Educ7 w pliku Populacja2.SAV 2. Porównaj brzegowe rozkłady w/w zmiennych z aktualnymi danymi GUS dla populacji mieszkańców Polski w wieku 18+. Wskaż rozbieżności między danymi GUS i rozkładami w pliku i wyraź je w %. Część II: Próba 1: prosta próba losowa n=1000 3. Ustaw punkt startowy generatora liczb losowych programu, za pomocą którego będziesz losował próbę na 8-cyfrową wartość złożoną z Twojej daty urodzenia w formacie rrrr-mm-dd. 4. Wylosuj z w/w populacji w sposób prosty, bezzwrotny, próbę losową o liczebności 1000. 5. Wyznacz rozkłady brzegowe zmiennych Plec, AgCat11, Educ7 w wylosowanej próbie. 6. Porównaj w/w rozkłady z odpowiadajacymi im rozkładami w populacji. Część III. Próba 2: złożona losowana wielostopniowo n=1000. 7. Wylosuj z populacji 1000 osobową próbę według następującego schematu: a. Wyznacz łączny rozkład zmiennej ‘warstwa’ definiowanej przez województwo (woj16) oraz cztero-kategorialną klasę wielkości miejscowości (klwm4). b. Alokuj 100 wiązek po 10 osób w każdej między warstwy zdefiniowane powyżej. Alokacja ma być proporcjonalna do liczby ludności zamieszkałej w warstwie. c. Wylosuj niezależnie z każdej warstwy tyle gmin (kodGUS), ile wiązek 10-osobowych w niej alokowałeś. Gminy losuj ze zwracaniem i z prawdopodobieństwami proporcjonalnymi do liczby ludności w gminie. Uwaga: ta sama gmina może zostać wylosowana wielokrotnie. d. Z każdej wylosowanej gminy wylosuj po 10 osób na każde „wylosowanie” gminy. 8. Wyznacz w wylosowanej próbie brzegowe rozkłady zmiennych Plec, AgCat11, Educ7. 9. Porównaj rozkłady zmiennych Plec, AgCat11, Educ7 w obu próbach z rozkładem tych zmiennych w populacji. Część IV. Dokładność oszacowań. 10. Posługując się centralnym twierdzeniem granicznym i przyjmując poziom ufności 0,95 wyznacz na podstawie próby 1 przedziały ufności dla frakcji: a. kobiet b. osób z wyższym wykształceniem 11. Sprawdź, czy przedziały ufności wyznaczone na podstawie Twojej próby zawierają wartość populacyjnego parametru. UWAGI TECHNICZNE I PORZĄDKOWE 12. Dołącz syntax SPSS lub/oraz skrypt R używany w obu losowaniach 13. Nie zamieszczaj w pracy tabel wklejonych z outputu SPSS 14. Pracę podpisz, strony ponumeruj, a całość zredaguj tak, aby była czytelnym tekstem ilustrowanym danymi. 15. Pamiętaj, że ‘porównaj’ oznacza ‘wskaż podobieństwa i różnice, wyraź je liczbowo i opisz’. 2