V. Zbieranie, organizowanie danych liczbowych Często interesują nas informacje dotyczące pewnej zbiorowości – osób, zwierząt, albo przedmiotów. Na przykład chcielibyśmy dowiedzieć się: (A) Jaki wzrost mają uczniowie klasy 3 gimnazjum ? (B) Które z polskich miast najbardziej im się podobają ? W tym celu możemy wybrać grupę uczniów tych klas (jak najliczniejszą) i zanotować im wzrost (A) oraz nazwę wybranego przez nich miasta (B). Zapisujemy uzyskane informacje: (A) 170, 182, 173, 149, 156, 145, 161, 152, 176, 160, 164, 159, 148, 163, 172, 169, 163. (B) Szczecin, Wrocław, Wrocław, Warszawa, Przemyśl, Warszawa, Karków, Kraków, Gdańsk, Karków, Poznań, Poznań, Kraków, Gdańsk, Poznań, Warszawa, Karków, Karków, Gdańsk, Karków. Mówimy, że zebraliśmy dane. Jak widać z przykłady, nie zawsze są to liczby. Całą serie wyników przeprowadzonego pomiaru lub obserwacji (tzw. danych) nazywamy próbą. Zawiera ona liczne i szczegółowe informacje, z których jeszcze nie wiele widać. Pytania, jakie zwykle zadajemy na temat badanego zbioru – osób, zwierząt czy rzeczy – mają charakter ogólny i dotyczą całej zbiorowości, z której próba pochodzi. W statystyce badany zbiór osób, zwierząt albo przedmiotów nazywamy populacją. Aby odpowiedzieć na postawione pytania na podstawie próby, trzeba zebrane dane opracować. Dane trzeba przedstawić w czytelny sposób, np. w postaci tabelek lub diagramów przedstawiających liczbę o rodzaj danych, które wystąpiły w próbie. Tabelka – wypisujemy wszystkie wyniki w próbie i notujemy, ile razy każdy z nich się pojawił. Diagram słupkowy – dla każdego rodzaju danych rysujemy słupek, którego wysokość obrazuje, ile razy wynik pojawił się w próbie. Diagram kołowy – liczebność całej próby odpowiada koło, w którym zaznaczamy wycinko o kątach odpowiadających częstościom poszczególnych rodzajów danych w całej próbie. Miasto Liczba uczniów Poznań /// 3 Szczecin / 1 Wrocław // 2 Przemyśl / 1 Gdańsk /// 3 Karków /////// 7 Warszawa /// 3 7 6 5 4 3 2 1 0 Poznań Szczecin Wrocław Przemyśl Gdańsk Kraków Liczba uczniów Warszaw a Miasto Liczba uczniów Poznań 3 3 360 54 20 Szczecin 1 1 360 18 20 2 2 360 36 20 Szczecin 18 Przemyśl Wrocław Przemyśl Gdańsk 1 3 Karków 7 Warszawa 3 Część kata pełnego w stopniach 54 126 54 Poznań Wrocław Gdańsk Kraków Warszawa Tabelka pozwala uporządkować zebrane dane i okazuje się przydatna, gdy sporządzamy diagramy. 3 1 2 Liczby 20 , 20 , 10 to częstości poszczególnych rodzajów danych. Na przykład dla Poznania częstość jest 3 równa , ponieważ 3 osoby z 20 ankietowanych 20 wskazało to miasto. Z diagramu słupkowego i kołowego można odczytać informacje dotyczące poszczególnych rodzajów danych, a także można je łatwo porównywać. W przykładzie (B) oba diagramy wyraźnie wskazują, że ulubionym miastem w tej grupie uczniów jest Kraków. Cechy diagramu słupkowego: • jest czytelny, gdy liczba poszczególnych rodzajów danych jest nieduża, a częstości są raczej duże, • pozwala łatwo porównywać próby, o tej samej liczebności i strukturze danych (te same rodzaje danych), • próby o różnych liczebnościach można porównywać jedynie w sposób przybliżony, na podstawie kształtów diagramów Cechy diagramu kołowego: • jest czytelny, gdy próba składa się z kilku rodzajów danych, tzn. gdy koło dzieli się na kilka niezbyt wąskich wycinków, • pozwala zaobserwować, jaką część całej próby stanowią poszczególne częstości, •pozwala łatwo porównywać próby o różnych liczebnościach, • nie można go stosować, gdy ankietowany może wybrać więcej niż jedna możliwość. Gdy stwierdzimy, że dana próba zawiera wiele rodzajów danych i wskutek tego diagramy kołowy i słupkowy będą nieczytelne, wówczas grupujemy zebrane dane w kilka grup i sporządzamy diagramy częstości dla danych pogrupowanych. Innym sposobem przedstawiania danych pogrupowanych, zachowującym dane surowe, jest diagram łodygowo – listkowy. Cechy diagramu łodygowo – listkowego: • jest czytelny, • zachowuje wszystkie dane surowe, • umożliwia łatwe porównywanie dwu prób; dane drugiej próby zaznaczamy z drugiej strony tej samej łodygi. Innym sposobem opracowywania danych jest znajdowanie liczb charakteryzujących całą próbę, to znaczy liczb, które moglibyśmy uznać za typowe dla badanej próby. Liczby te pomagają stawiać hipotezy, podejmować właściwe decyzje. Średnia arytmetyczna – to liczba uzyskana przez dodanie wszystkich wyników z próby i podzielenie tej sumy przez liczebność próby. Mediana (liczba środkowa) – to liczba znajdująca się pośrodku serii danych z próby, uporządkowanych w kolejności od najmniejszej do największej. Gdy liczba danych w próbie jest parzysta, wówczas jako medianę przyjmuje się średnią arytmetyczną obu liczb środkowych. Moda – to liczba, wielkość, cecha, która w danej próbie występuje najczęściej. Rozstęp danych – to różnica między największa i najmniejsza liczb ą w danej próbie. Kwartyl dolny zestawu danych – to mediana wyników znajdujących się na pozycjach niższych od pozycji mediany. Gdy liczba danych w próbie jest parzysta, kwartylem dolnym jest mediana pierwszej połowy danych uporządkowanych rosnąco. Kwartyl górny zestawu danych – to mediana wyników znajdujących się na pozycjach wyższych od pozycji mediany. Gdy liczba danych w próbie jest parzysta, kwartylem górnym jest mediana drugiej połowy danych uporządkowanych rosnąco. Koniec