rodzaje danych

advertisement
TERMINOLOGIA
Przypadki i zmienne:
Przypadki są odpowiednikami rekordów w
bazach danych lub wierszy w arkuszach
kalkulacyjnych.
Zmienne są zaś odpowiednikami pól lub
kolumn.
Każdy przypadek jest zbiorem wartości
zmiennych.
TERMINOLOGIA
PRZYPADEK
ZMIENNA
ETAPY ANALIZY STATYSTYCZNEJ
WYNIKI
POPULACJA
PRÓBKA
OBLICZENIA
POMIARY
ANALIZA
ETAPY ANALIZY STATYSTYCZNEJ
WYNIKI
POPULACJA
PRÓBKA
OBLICZENIA
POMIARY
ANALIZA
PRÓBKA
WYBÓR PRÓBKI:
Próbka wybrana do badania musi być odpowiednia
Wybór próbki jest kluczowy etapem z punktu
widzenia wiarygodności końcowych wyników
DOBRZE POBRANA PRÓBKA JEST
REPREZENTATYWNA!!!
REPREZENTATYWNOŚĆ PRÓBKI
Próbka reprezentatywna: w dobry sposób
odzwierciedla populację, z której została pobrana
Dla zapewnienia reprezentatywności konieczna jest
odpowiednia liczebność próbki. Im większa próbka,
tym bardziej wiarygodne wyniki.
Uwaga! Liczności nie można zwiększać w
nieskończoność (koszty analiz!). Należy szukać
optimum pomiędzy kosztami a wiarygodnością
wyników.
Liczebność próby
Przeprowadzając badania z
populacji generalnej pobieramy
próbę:
n  100
n  30
10  n < 30
n < 10
próba b. duża
próba duża
próba mała
próba b. mała
RODZAJE DANYCH
Dana: każda informacja opisująca badane
zjawisko/obiekt
Typy danych:
 dane kategorialne (uzyskiwane przy ocenie
metodą alternatywną)
 dane liczbowe (pochodzące z pomiarów)
RODZAJE DANYCH
Typy danych: dane kategorialne
Uzyskuje się je w przypadkach:
 dzielenia (klasyfikowania) przedmiotów na
kategorie
 zliczania liczby przedmiotów w danych kategoriach
 zliczania proporcji przedmiotów
 zliczania liczby braków/obecności
RODZAJE DANYCH
Typy danych: dane kategorialne
Są one często wykorzystywane w praktyce, bo do ich
zebrania zazwyczaj nie potrzeba skomplikowanych i
dokładnych urządzeń pomiarowych.
Przykład: klasyfikacja czystości wody, stwierdzanie
braku/obecności danego gatunku ryby w jeziorze
RODZAJE DANYCH
Typy danych: dane kategorialne
Zwykle stosuje się 2 kategorie: brak i obecność.
Można jednak stosować więcej kategorii, które
odzwierciedlać będą jakość.
Przykład: klasy czystości wód I, II, III. Klasa Inajwyższej jakości, klasa III- najgorszej.
RODZAJE DANYCH
Typy danych: dane kategorialne
Zalety:
 prostota czytelność otrzymanych wyników
Wady:
 nieprecyzyjność
RODZAJE DANYCH
Typy danych: dane liczbowe
Uzyskuje się je w przypadkach:
 pomiarów cechy obiektu badań
 przeliczania numerycznych wartości z dwóch lub
więcej pomiarów liczbowych
Wymóg: korzystanie z urządzeń pomiarowych
PREZENTOWANIE DANYCH
Najprostszy sposób: spisywanie w rzędzie np.:
5,6,9,11,6,7,7,6,5,9,7,8,7,6,7,8,4,8,7,8,10,10,9,7,8,...
Ten zapis jest nieczytelny i mało użyteczny
PREZENTOWANIE DANYCH
Użyteczne metody prezentacji danych:
 tabela częstości wystąpień (liczności)
 histogram
 wykres punktowy
PREZENTOWANIE DANYCH
Tabela częstości wystąpień
Wartość danej
Wystąpienie danej
Liczba wystąpień
3
0
4
2
5
3
6
5
7
1
PREZENTOWANIE DANYCH
Tabela częstości wystąpień
Z tabeli takiej można łatwo odczytać:
 ile pomiarów o danej wartości zarejestrowano
 która wartość powtarzała się najczęściej
 w jakim zakresie pojawiają się dane (minimum i
maksimum)
PREZENTOWANIE DANYCH
Histogram
Jest pewnym rozwinięciem tabeli liczności.
Szczególnie przydatny do prezentowania dużej
ilości danych liczbowych i kategorialnych.
PREZENTOWANIE DANYCH
Histogram
31,820
33,100
33,780
34,650
34,870
35,530
36,750
32,010
33,120
33,790
34,690
34,880
35,620
36,680
32,010
33,260
33,790
34,690
34,900
35,780
36,780
32,050
33,260
33,790
34,720
34,920
35,790
36,850
32,230
33,280
33,820
34,720
34,960
35,860
38,520
32,600
33,300
33,820
34,810
35,090
36,120
32,950
33,360
33,860
34,810
35,120
36,250
33,030
33,540
33,950
34,810
35,160
36,560
33,050
33,560
34,210
34,860
35,280
36,560
33,060
33,750
34,220
34,870
35,290
36,590
PREZENTOWANIE DANYCH
Histogram
Procedura rysowania histogramu:
1. Posortowanie danych w porządku od
najmniejszej do największej: nasze dane są już
tak ustawione
2. Wyznaczenie wartości najmniejszej i
największej: w naszym zbiorze wartość
najmniejsze xmin=31,820, wartość największa
xmax=38,520
PREZENTOWANIE DANYCH
Histogram
Procedura rysowania histogramu:
3. Obliczenie szerokości zakresu, w jakim
pojawiają się dane (rozstępu):
R=xmax-xmin=38,520-31,820=6,7
4. Wyznaczenie liczby przedziałów:
ilość przedziałów= pierwiastek(ilość pomiarów)
=pierwiastek(65)=8,068
UWAGA! Zasady tej nie stosujemy przy dużej
liczbie pomiarów (>100). Zasadniczo liczba
przedziałów powinna się mieścić w przedziale
<6,12>
PREZENTOWANIE DANYCH
Histogram
Procedura rysowania histogramu:
5. Ustalenie szerokości przedziałów:
szerokość przedziału=rozstęp/l-ba przedziałów
=6,7/8=0,831
Otrzymaną wartość zaokrąglamy w taki sposób,
aby narysowany histogram był jak najbardziej
czytelny (tutaj do wartości 1)
PREZENTOWANIE DANYCH
Histogram
Procedura rysowania histogramu:
6. Rozpisanie przedziałów i obliczenie, ile w
każdym z nich znajduje się wyników:
Przedział wartości
Ilość wyników w przedziale
(31,32]
1
(32,33]
6
(33,34]
21
(34,35]
17
(35,36]
10
(36,37]
9
(37,38]
0
(38,39]
1
PREZENTOWANIE DANYCH
Histogram
Procedura rysowania histogramu:
6. Narysowanie wykresu: w zależności od liczby
wyników w poszczególnych przedziałach, rysuje
się odpowiednią wysokość słupka.
PODSTAWY – DANE I ICH PREZENTACJA
PREZENTOWANIE DANYCH
Histogram
Ilość wystąpień
.
25
20
15
10
5
0
(31,32]
(32,33]
(33,34]
(34,35]
(35,36]
Przedział
(36,37]
(37,38]
(38,39]
Typy rozkładów (histogramów)
Typy rozkładów (histogramów)
Amodalny = skrajnie asymetryczny
Typy rozkładów (histogramów)
PODSTAWY – DANE I ICH PREZENTACJA
PREZENTOWANIE DANYCH
Wykres punktowy
Tabela Uziarnienie w zależności od obrotów młyna.
Pomiary
w próbce
Obroty młyna [obr/min]
1415
1430
1445
1460
1480
1
32,76
33,37
36,54
36,20
36,74
2
32,72
33,11
35,11
36,58
36,40
3
32,70
33,15
36,02
35,24
36,43
4
32,69
33,25
35,59
36,14
36,72
5
32,67
33,20
36,03
35,52
36,55
PODSTAWY – DANE I ICH PREZENTACJA
PREZENTOWANIE DANYCH
Wykres punktowy
37
36.5
36
Uziarnienie
35.5
35
34.5
34
33.5
33
32.5
32
1410
1420
1430
1440
1450
1460
1470
1480
1490
Obroty [obr/min]
Rys. Wykres punktowy zależności pomiędzy
uziarnieniem a obrotami młyna.
PODSTAWY – DANE I ICH PREZENTACJA
PREZENTOWANIE DANYCH
Wykres punktowy
37
36.5
36
Uziarnienie
35.5
35
34.5
34
33.5
33
32.5
32
1410
1420
1430
1440
1450
1460
1470
1480
1490
Obroty [obr/min]
 im większe obroty młyna tym większe uziarnienie
PODSTAWY – DANE I ICH PREZENTACJA
PREZENTOWANIE DANYCH
Wykres punktowy
37
36.5
36
Uziarnienie
35.5
35
34.5
34
33.5
33
32.5
32
1410
1420
1430
1440
1450
1460
1470
1480
1490
Obroty [obr/min]
 Przy obrotach 1450 i 1460 największa zmienność
uziarnienia
PODSTAWY – DANE I ICH PREZENTACJA
PREZENTOWANIE DANYCH
Wykres punktowy
37
36.5
36
Uziarnienie
35.5
35
34.5
34
33.5
33
32.5
32
1410
1420
1430
1440
1450
1460
1470
1480
1490
Obroty [obr/min]
 uziarnienie najbardziej jednorodne przy 1415
obrotach na min
STATYSTYKI OPISOWE
Miary położenia:
 średnia arytmetyczna- przeciętna w próbie;
inaczej: wartość oczekiwana
x1  x2  ...  xn 1 n
xśr 
  xi
n
n i 1
 rzadko wykorzystywane: średnia geometryczna,
średnia harmoniczna, średnia ważona
STATYSTYKI OPISOWE
Miary położenia:
mediana: wartość środkowa w ciągu danych;
wartość, która dzieli wyniki próby na dwie części
takie, że przynajmniej połowa próby ma wynik
mniejszy niż mediana
 moda (dominanta): wartość występująca
najczęściej w zbiorze danych
STATYSTYKI OPISOWE
Miary zmienności (pokazują rozproszenie wyników)
 wariancja- zróżnicowanie wyników, de facto jest
ona równa kwadratowi odchylenia standardowego
n
1
 2   ( xi  xśr ) 2
n i 1
 odchylenie standardowe- przeciętna różnica
między średnią a poszczególnymi wynikami
 
2
UWAGA! Powyższe wzory obowiązują, pod warunkiem, że
mamy możliwość zbadania całej populacji, co jest PRAWIE
NIGDY SPEŁNIONE
STATYSTYKI OPISOWE
Miary zmienności (pokazują rozproszenie wyników)
Ponieważ opisujemy rozkład opierając się jedynie
na pewnej próbce wyników, pobranej z populacji,
stosuje się estymator:
1 n
2
s
(
x

x
)

i
śr
n  1 i 1
Download