TERMINOLOGIA Przypadki i zmienne: Przypadki są odpowiednikami rekordów w bazach danych lub wierszy w arkuszach kalkulacyjnych. Zmienne są zaś odpowiednikami pól lub kolumn. Każdy przypadek jest zbiorem wartości zmiennych. TERMINOLOGIA PRZYPADEK ZMIENNA ETAPY ANALIZY STATYSTYCZNEJ WYNIKI POPULACJA PRÓBKA OBLICZENIA POMIARY ANALIZA ETAPY ANALIZY STATYSTYCZNEJ WYNIKI POPULACJA PRÓBKA OBLICZENIA POMIARY ANALIZA PRÓBKA WYBÓR PRÓBKI: Próbka wybrana do badania musi być odpowiednia Wybór próbki jest kluczowy etapem z punktu widzenia wiarygodności końcowych wyników DOBRZE POBRANA PRÓBKA JEST REPREZENTATYWNA!!! REPREZENTATYWNOŚĆ PRÓBKI Próbka reprezentatywna: w dobry sposób odzwierciedla populację, z której została pobrana Dla zapewnienia reprezentatywności konieczna jest odpowiednia liczebność próbki. Im większa próbka, tym bardziej wiarygodne wyniki. Uwaga! Liczności nie można zwiększać w nieskończoność (koszty analiz!). Należy szukać optimum pomiędzy kosztami a wiarygodnością wyników. Liczebność próby Przeprowadzając badania z populacji generalnej pobieramy próbę: n 100 n 30 10 n < 30 n < 10 próba b. duża próba duża próba mała próba b. mała RODZAJE DANYCH Dana: każda informacja opisująca badane zjawisko/obiekt Typy danych: dane kategorialne (uzyskiwane przy ocenie metodą alternatywną) dane liczbowe (pochodzące z pomiarów) RODZAJE DANYCH Typy danych: dane kategorialne Uzyskuje się je w przypadkach: dzielenia (klasyfikowania) przedmiotów na kategorie zliczania liczby przedmiotów w danych kategoriach zliczania proporcji przedmiotów zliczania liczby braków/obecności RODZAJE DANYCH Typy danych: dane kategorialne Są one często wykorzystywane w praktyce, bo do ich zebrania zazwyczaj nie potrzeba skomplikowanych i dokładnych urządzeń pomiarowych. Przykład: klasyfikacja czystości wody, stwierdzanie braku/obecności danego gatunku ryby w jeziorze RODZAJE DANYCH Typy danych: dane kategorialne Zwykle stosuje się 2 kategorie: brak i obecność. Można jednak stosować więcej kategorii, które odzwierciedlać będą jakość. Przykład: klasy czystości wód I, II, III. Klasa Inajwyższej jakości, klasa III- najgorszej. RODZAJE DANYCH Typy danych: dane kategorialne Zalety: prostota czytelność otrzymanych wyników Wady: nieprecyzyjność RODZAJE DANYCH Typy danych: dane liczbowe Uzyskuje się je w przypadkach: pomiarów cechy obiektu badań przeliczania numerycznych wartości z dwóch lub więcej pomiarów liczbowych Wymóg: korzystanie z urządzeń pomiarowych PREZENTOWANIE DANYCH Najprostszy sposób: spisywanie w rzędzie np.: 5,6,9,11,6,7,7,6,5,9,7,8,7,6,7,8,4,8,7,8,10,10,9,7,8,... Ten zapis jest nieczytelny i mało użyteczny PREZENTOWANIE DANYCH Użyteczne metody prezentacji danych: tabela częstości wystąpień (liczności) histogram wykres punktowy PREZENTOWANIE DANYCH Tabela częstości wystąpień Wartość danej Wystąpienie danej Liczba wystąpień 3 0 4 2 5 3 6 5 7 1 PREZENTOWANIE DANYCH Tabela częstości wystąpień Z tabeli takiej można łatwo odczytać: ile pomiarów o danej wartości zarejestrowano która wartość powtarzała się najczęściej w jakim zakresie pojawiają się dane (minimum i maksimum) PREZENTOWANIE DANYCH Histogram Jest pewnym rozwinięciem tabeli liczności. Szczególnie przydatny do prezentowania dużej ilości danych liczbowych i kategorialnych. PREZENTOWANIE DANYCH Histogram 31,820 33,100 33,780 34,650 34,870 35,530 36,750 32,010 33,120 33,790 34,690 34,880 35,620 36,680 32,010 33,260 33,790 34,690 34,900 35,780 36,780 32,050 33,260 33,790 34,720 34,920 35,790 36,850 32,230 33,280 33,820 34,720 34,960 35,860 38,520 32,600 33,300 33,820 34,810 35,090 36,120 32,950 33,360 33,860 34,810 35,120 36,250 33,030 33,540 33,950 34,810 35,160 36,560 33,050 33,560 34,210 34,860 35,280 36,560 33,060 33,750 34,220 34,870 35,290 36,590 PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 1. Posortowanie danych w porządku od najmniejszej do największej: nasze dane są już tak ustawione 2. Wyznaczenie wartości najmniejszej i największej: w naszym zbiorze wartość najmniejsze xmin=31,820, wartość największa xmax=38,520 PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 3. Obliczenie szerokości zakresu, w jakim pojawiają się dane (rozstępu): R=xmax-xmin=38,520-31,820=6,7 4. Wyznaczenie liczby przedziałów: ilość przedziałów= pierwiastek(ilość pomiarów) =pierwiastek(65)=8,068 UWAGA! Zasady tej nie stosujemy przy dużej liczbie pomiarów (>100). Zasadniczo liczba przedziałów powinna się mieścić w przedziale <6,12> PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 5. Ustalenie szerokości przedziałów: szerokość przedziału=rozstęp/l-ba przedziałów =6,7/8=0,831 Otrzymaną wartość zaokrąglamy w taki sposób, aby narysowany histogram był jak najbardziej czytelny (tutaj do wartości 1) PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 6. Rozpisanie przedziałów i obliczenie, ile w każdym z nich znajduje się wyników: Przedział wartości Ilość wyników w przedziale (31,32] 1 (32,33] 6 (33,34] 21 (34,35] 17 (35,36] 10 (36,37] 9 (37,38] 0 (38,39] 1 PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 6. Narysowanie wykresu: w zależności od liczby wyników w poszczególnych przedziałach, rysuje się odpowiednią wysokość słupka. PODSTAWY – DANE I ICH PREZENTACJA PREZENTOWANIE DANYCH Histogram Ilość wystąpień . 25 20 15 10 5 0 (31,32] (32,33] (33,34] (34,35] (35,36] Przedział (36,37] (37,38] (38,39] Typy rozkładów (histogramów) Typy rozkładów (histogramów) Amodalny = skrajnie asymetryczny Typy rozkładów (histogramów) PODSTAWY – DANE I ICH PREZENTACJA PREZENTOWANIE DANYCH Wykres punktowy Tabela Uziarnienie w zależności od obrotów młyna. Pomiary w próbce Obroty młyna [obr/min] 1415 1430 1445 1460 1480 1 32,76 33,37 36,54 36,20 36,74 2 32,72 33,11 35,11 36,58 36,40 3 32,70 33,15 36,02 35,24 36,43 4 32,69 33,25 35,59 36,14 36,72 5 32,67 33,20 36,03 35,52 36,55 PODSTAWY – DANE I ICH PREZENTACJA PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36 Uziarnienie 35.5 35 34.5 34 33.5 33 32.5 32 1410 1420 1430 1440 1450 1460 1470 1480 1490 Obroty [obr/min] Rys. Wykres punktowy zależności pomiędzy uziarnieniem a obrotami młyna. PODSTAWY – DANE I ICH PREZENTACJA PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36 Uziarnienie 35.5 35 34.5 34 33.5 33 32.5 32 1410 1420 1430 1440 1450 1460 1470 1480 1490 Obroty [obr/min] im większe obroty młyna tym większe uziarnienie PODSTAWY – DANE I ICH PREZENTACJA PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36 Uziarnienie 35.5 35 34.5 34 33.5 33 32.5 32 1410 1420 1430 1440 1450 1460 1470 1480 1490 Obroty [obr/min] Przy obrotach 1450 i 1460 największa zmienność uziarnienia PODSTAWY – DANE I ICH PREZENTACJA PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36 Uziarnienie 35.5 35 34.5 34 33.5 33 32.5 32 1410 1420 1430 1440 1450 1460 1470 1480 1490 Obroty [obr/min] uziarnienie najbardziej jednorodne przy 1415 obrotach na min STATYSTYKI OPISOWE Miary położenia: średnia arytmetyczna- przeciętna w próbie; inaczej: wartość oczekiwana x1 x2 ... xn 1 n xśr xi n n i 1 rzadko wykorzystywane: średnia geometryczna, średnia harmoniczna, średnia ważona STATYSTYKI OPISOWE Miary położenia: mediana: wartość środkowa w ciągu danych; wartość, która dzieli wyniki próby na dwie części takie, że przynajmniej połowa próby ma wynik mniejszy niż mediana moda (dominanta): wartość występująca najczęściej w zbiorze danych STATYSTYKI OPISOWE Miary zmienności (pokazują rozproszenie wyników) wariancja- zróżnicowanie wyników, de facto jest ona równa kwadratowi odchylenia standardowego n 1 2 ( xi xśr ) 2 n i 1 odchylenie standardowe- przeciętna różnica między średnią a poszczególnymi wynikami 2 UWAGA! Powyższe wzory obowiązują, pod warunkiem, że mamy możliwość zbadania całej populacji, co jest PRAWIE NIGDY SPEŁNIONE STATYSTYKI OPISOWE Miary zmienności (pokazują rozproszenie wyników) Ponieważ opisujemy rozkład opierając się jedynie na pewnej próbce wyników, pobranej z populacji, stosuje się estymator: 1 n 2 s ( x x ) i śr n 1 i 1