Teoria - Agnieszka-Strzelczak

advertisement
Metody pozyskiwania i
przetwarzania danych w
badaniach naukowych
Dr inż. Agnieszka Strzelczak
Zakład Inżynierii Procesowej i
Maszynoznawstwa
E-mail: [email protected]
Tel: +48 91 449 65 36
Pokój: 308 PP
Konsultacje: środa 12 – 14
www: https://agstrzelczak.zut.edu.pl
Człowiek otoczony jest różnymi zjawiskami i próbuje je
poznać, dowiedzieć się w jaki sposób funkcjonują, jakie
relacje między nimi zachodzą.
Aby coś powiedzieć o jakimś zjawisku należy je
najpierw zbadać!
Statystyka: obejmuje metody pozyskiwania, prezentacji i
analizy danych
Użycie statystyki do badania zjawisk sprawia, że badanie
jest oparte na sprawdzonych i dopracowanych metodach
Statystyka jest tylko narzędziem
pozwalającym sprawdzić nasze pomysły
badawcze i wyjaśnić zjawiska
Podstawowe pojęcia
Cechy zmienne
rzeczowe
czasowe
przestrzenne
Podstawowe pojęcia
Cechy zmienne
rzeczowe
czasowe
przestrzenne
Podstawowe pojęcia
Podstawowe pojęcia
Podstawowe pojęcia
przyjmują określone wartości liczbowe
(np. wiek-w latach, wzrost-w cm, wskaźnik
masy ciała BMI)
mogą przyjmować wszystkie wartości
liczb rzeczywistych z określonego
przedziału liczbowego
(np. koszt, wiek, waga)
mogą być wyrażone tylko liczbami
zmieniającymi się skokami , bez
pośrednich wartości
(np. liczba studentów na roku, liczba
pracowników przedsiębiorstwa)
Podstawowe pojęcia
Podstawowe pojęcia
nie można ich wyrazić za pomocą liczb, a jedynie
słownie
(np. płeć - kobieta, mężczyzna; kolor - czarny,
biały, zielony, itd.)
nie można ich ustawić w
odpowiedniej kolejnością
(np. płeć, grupa krwi, kolor oczu)
cechy słownie dające się
uporządkować w pewnej kolejności
(np. wykształcenie, oceny egzaminów)
Etapy analizy statystycznej
WYNIKI
POPULACJA
PRÓBA STAT.
OBLICZENIA
POMIARY
ANALIZA
Etapy analizy statystycznej
WYNIKI
POPULACJA
PRÓBA STAT.
OBLICZENIA
POMIARY
ANALIZA
Próba statystyczna
• Próba wybrana do badania musi być odpowiednia
• Wybór próby jest kluczowym etapem z punktu widzenia
wiarygodności końcowych wyników
DOBRZE POBRANA PRÓBKA JEST REPREZENTATYWNA!!!
Próba statystyczna
Próba reprezentatywna: w dobry sposób odzwierciedla
populację, z której została pobrana
Dla zapewnienia reprezentatywności konieczna jest
odpowiednia liczebność próby. Im większa próba, tym bardziej
wiarygodne wyniki.
Uwaga! Liczności nie można zwiększać w nieskończoność (koszty
analiz!). Należy szukać optimum pomiędzy kosztami a
wiarygodnością wyników.
Metody opisu statystycznego
Stosuje się je do wyników o relatywnie
dużej liczebności (n>10)
Określanie struktury danych (rozkładu)
Mierniki statystyczne
Metody opisu statystycznego
Stosuje się je do wyników o relatywnie
dużej liczebności (n>10)
Określanie struktury danych (rozkładu)
Mierniki statystyczne
Określanie rozkładu danych
HISTOGRAM
Zawartość tłuszczu % w 65 różnych serach żółtych
31,820
33,100
33,780
34,650
34,870
35,530
36,750
32,010
33,120
33,790
34,690
34,880
35,620
36,680
32,010
33,260
33,790
34,690
34,900
35,780
36,780
32,050
33,260
33,790
34,720
34,920
35,790
36,850
32,230
33,280
33,820
34,720
34,960
35,860
38,520
32,600
33,300
33,820
34,810
35,090
36,120
32,950
33,360
33,860
34,810
35,120
36,250
33,030
33,540
33,950
34,810
35,160
36,560
33,050
33,560
34,210
34,860
35,280
36,560
33,060
33,750
34,220
34,870
35,290
36,590
Określanie rozkładu danych
HISTOGRAM
Procedura rysowania histogramu:
1. Posortowanie danych w porządku od
najmniejszej do największej
2. Wyznaczenie wartości najmniejszej i
największej: xmin, xmax
Określanie rozkładu danych
HISTOGRAM
Procedura rysowania histogramu:
3. Obliczenie szerokości zakresu, w jakim
pojawiają się dane (rozstępu):
R=xmax-xmin
4. Wyznaczenie liczby przedziałów:
ilość przedziałów= pierwiastek(ilość
pomiarów)
Określanie rozkładu danych
HISTOGRAM
Procedura rysowania histogramu:
5. Ustalenie szerokości przedziałów:
szerokość przedziału=rozstęp/l-ba przedziałów
Określanie rozkładu danych
HISTOGRAM
Procedura rysowania histogramu:
6. Rozpisanie przedziałów i obliczenie, ile w
każdym z nich znajduje się wyników:
Przedział wartości
Ilość wyników w przedziale
(31,32]
1
(32,33]
6
(33,34]
21
(34,35]
17
(35,36]
10
(36,37]
9
(37,38]
0
(38,39]
1
Określanie rozkładu danych
HISTOGRAM
Procedura rysowania histogramu:
7. Narysowanie wykresu: w zależności od liczby
wyników w poszczególnych przedziałach, rysuje
się odpowiednią wysokość słupka.
Określanie rozkładu danych
HISTOGRAM
Ilość wystąpień
.
25
20
15
10
5
0
(31,32]
(32,33]
(33,34]
(34,35]
(35,36]
Przedział
(36,37]
(37,38]
(38,39]
Typy rozkładów (histogramów)
Typy rozkładów (histogramów)
Amodalny = skrajnie asymetryczny
Typy rozkładów (histogramów)
Metody opisu statystycznego
Stosuje się je do wyników o relatywnie
dużej liczebności (n>10)
Określanie struktury danych (rozkładu)
Mierniki statystyczne
Mierniki statystyczne
Miary położenia
Miary rozproszenia
Miary kształtu
rozkładu
Mierniki statystyczne
Miary położenia
Miary rozproszenia
Miary kształtu
rozkładu
Mierniki statystyczne
Miary położenia
Średnia arytmetyczna
Mierniki statystyczne
Miary położenia
Średnia geometryczna
Stosuje się ją, gdy badamy dane w postaci
logarytmów z wyników.
Dane muszą być >0 !!!
Średnia geom. Jest zwykle < niż średnia arytm.
Mierniki statystyczne
Miary położenia
Mediana
Wynik środkowy w zbiorze danych.
• Przy nieparzystej liczbie danych:
x1 , x 2 . x3 , x 4 , x 5
• Przy parzystej liczbie danych:
x1 , x 2 . x3 , x4 , x 5 , x 6
Średnia arytmetyczna z dwóch wyników
Mierniki statystyczne
Miary położenia
Jeśli x  Me : struktura wyników jest
symetryczna
Jeśli x < Me : struktura wyników jest
prawostronnie asymetryczna
Jeśli x > Me : struktura wyników jest
lewostronnie asymetryczna
Mediana
Mierniki statystyczne
Kwantyle
(w tym mediana)
Miary położenia
Kwantylami możemy dzielić zbiory na różne przedziały.
Mediana dzieli zbiór danych na 2 części, czyli 50% wyników
jest > niż Me a 50% jest < niż Me.
Dzieląc zbiór na 4 części uzyskujemy kwantyle zwane
kwartylami: kwartyl dolny i kwartyl górny.
x1 ,
x 2 . x3 ,
Kd=k0,25
Me
x4 ,
x5 ,
Kg=k0,75
x6
Mierniki statystyczne
Miary położenia
Kwantyle
• Jeśli dzielimy zbiór na 10 części: decyle
• Jeśli dzielimy zbiór na 100 części: percentyle
Mierniki statystyczne
Miary położenia
Miary rozproszenia
Miary kształtu
rozkładu
Miary rozproszenia
Miary rozproszenia
Wariancja
Zróżnicowanie wyników
UWAGA! Powyższy wzór obowiązuje, pod warunkiem, że mamy
możliwość zbadania całej populacji (czyli mamy nieskończoną
liczbę wyników), co jest PRAWIE NIGDY SPEŁNIONE
Miary rozproszenia
Miary rozproszenia
Odchylenie
standardowe
Przeciętna różnica między
średnią a poszczególnymi
wynikami
UWAGA! Powyższy wzór obowiązuje, pod warunkiem, że mamy
możliwość zbadania całej populacji (czyli mamy nieskończoną
liczbę wyników), co jest PRAWIE NIGDY SPEŁNIONE
Miary rozproszenia
Miary rozproszenia
Odchylenie
standardowe
Ponieważ opisujemy rozkład opierając się
jedynie na pewnej próbce wyników, pobranej z
populacji, stosuje się estymator:
𝜎
𝑥
Miary rozproszenia
Miary rozproszenia
Względna miara rozproszenia.
𝜎
Współczynnik
zmienności
Miary rozproszenia
Miary rozproszenia
Przedział typowy
𝜎
𝜎
Przedział wyników typowych. Ma on sens, gdy
rozkład wyników jest zbliżony do
symetrycznego. Zawiera ok. 68% wyników,
pozostałe to wyniki nietypowe (małe lub duże)
Mierniki statystyczne
Miary położenia
Miary rozproszenia
Miary kształtu
rozkładu
Mierniki statystyczne
Miary kształtu
rozkładu
Skośność
Wskaźnik niesymetryczności rozkładu,
nazywany jest często asymetrią
Dla rozkładu symetrycznego wynosi 0!!!
𝜎
UWAGA! Powyższy wzór obowiązuje, pod warunkiem, że mamy
możliwość zbadania całej populacji (czyli mamy nieskończoną
liczbę wyników), co jest PRAWIE NIGDY SPEŁNIONE
Mierniki statystyczne
Miary kształtu
rozkładu
Skośność
Ponieważ opisujemy rozkład opierając się
jedynie na pewnej próbce wyników, pobranej z
populacji, stosuje się estymator:
𝜎
Mierniki statystyczne
Miary kształtu
rozkładu
Skośność
Gdy  > 0 : rozkład prawostronnie
asymetryczny
Gdy  < 0 : rozkład lewostronnie
asymetryczny
Gdy  = 0 : rozkład symetryczny
Mierniki statystyczne
Miary kształtu
rozkładu
Kurtoza
Spłaszczenie, wskaźnik opisujący kształt i
wyniesienie rozkładu zmiennej.
𝜎
UWAGA! Powyższy wzór obowiązuje, pod warunkiem, że mamy
możliwość zbadania całej populacji (czyli mamy nieskończoną
liczbę wyników), co jest PRAWIE NIGDY SPEŁNIONE
Mierniki statystyczne
Miary kształtu
rozkładu
Kurtoza
Ponieważ opisujemy rozkład opierając się
jedynie na pewnej próbce wyników, pobranej z
populacji, stosuje się estymator:
𝜎
Mierniki statystyczne
Miary kształtu
rozkładu
Kurtoza
Gdy  > 0 : rozkład wysmukły,
leptokurtyczny
Gdy  < 0 : rozkład spłaszczony,
platokurtyczny
Gdy  = 0 : rozkład mezokurtyczny
(normalny)
Liczebność próby
WYNIKI
POPULACJA
PRÓBA STAT.
OBLICZENIA
POMIARY
ANALIZA
Liczebność próby
Przeprowadzając badania z populacji
generalnej pobieramy próbę:
n  100
próba b. duża
n  30
próba duża
10  n < 30 próba mała
n < 10
próba b. mała
Download