statystyka i doświadczalnictwo

advertisement
STATYSTYKA I DOŚWIADCZALNICTWO
Wykład 1 i 2
Dariusz Gozdowski
Katedra Doświadczalnictwa i Bioinformatyki
Wydział Rolnictwa i Biologii SGGW
Słowo statystyka pochodzi od łacińskiego
słowa status, które oznacza stan rzeczy.
Pierwotne znaczenie słowa statystyka wiązało się ze
zbieraniem informacji związanych z demografią i
gospodarką.
Termin statystyka jako nauka pojawił się znacznie
później. Dynamiczny rozwój statystyki
matematycznej nastąpił od przełomu XIX i XX wieku.
Związane jest to z rosnącą rolą eksperymentu
(doświadczenia), jako źródła wiedzy człowieka.
Doświadczalnictwo – planowanie doświadczeń z
uwzględnieniem oraz analiza danych doświadczalnych
z użyciem metod statystycznych
Doświadczalnictwo rolnicze w zorganizowanej formie
rozwinęło się w połowie XIX wieku. Pierwsza stacja
doświadczalna powstała w Rothamsted w 1843 r.,
natomiast w Polsce podobne doświadczenia zostały
zakładane w końcu XIX wieku.
STATYSTYKA to nauka, której przedmiotem zainteresowania są
metody pozyskiwania i prezentacji, a przede wszystkim analizy
danych opisujących zjawiska masowe. Metody statystyczne
oparte są na rachunku prawdopodobieństwa.
Różnica między
rachunkiem
prawdopodobieństwa
a statystyką
There are three kinds of lies: lies, damned lies, and statistics
Benjamin Disraeli (1804-1881)
m.in. premier Wielkiej Brytanii
ZDARZENIE ELEMENTARNE to możliwy wynik doświadczenia
losowego. Wszystkie takie możliwe wyniki tworzą zbiór zdarzeń
elementarnych. Na przykład zbiór zdarzeń elementarnych przy
pojedynczym rzucie monetą składa się z dwóch elementów tj. może
wypaść orzeł, bądź reszka.
POPULACJA STATYSTYCZNA (inaczej populacja generalna) to
zbiór elementów, podlegających badaniu statystycznemu.
Elementy populacji są do siebie podobne pod względem badanej
cechy, ale nie są identyczne. Np. osoby zamieszkujące w pewnym
regionie, rośliny pewnej odmiany pszenicy, kolonie grzybów pleśni,
produkty jednego rodzaju produkowane przez pewien zakład itp.
Nie wszystkie populacje muszą istnieć w rzeczywistości, niektóre z
nich mają charakter wyłącznie hipotetyczny. (np. zakładamy to przy
przeprowadzaniu doświadczenia planowanego)
Elementy populacji statystycznej nazywamy jednostkami
statystycznymi, zaś badana cecha to cecha statystyczna.
Ze względu na liczebność zbioru, populacje można podzielić na:
-populacje skończone - np. powiaty w woj. mazowieckim (określona
liczba w danym czasie nie ulegająca zmianie)
- populacje nieskończone – w rzeczywistości raczej nie istnieją, ale
często zakłada się, przy bardzo dużej liczebności np. rośliny pewnego
gatunku, że reprezentują one populację nieskończoną, gdyż
teoretycznie można zwiększać ciągle ich liczebność
Badanie populacji
Badanie wyczerpujące (pełne) - badaniu poddana jest cała populacja.
Badanie niewyczerpujące (częściowe) - badaniu poddana jest tylko
część populacji (wybrane jednostki).
Populacja próbna, próba - ta część populacji generalnej, która
bezpośrednio podlega badaniu.
Próbę nazywamy reprezentatywną, jeśli stanowi ona taką część
populacji, która zachowuje wszelkie właściwości struktury całej
populacji.
Dla zapewnienia reprezentatywności próby konieczne jest
spełnienie dwóch warunków:
− losowości (sposób tworzenia próby powinien zapewnić każdej
jednostce populacji jednakową szansę dostania się do tej próby;
− niezależności (sposób dodawania następnej jednostki do
próby powinien być niezaleŜny od pobranych juŜ jednostek).
ZMIENNA LOSOWA, to funkcja, która zdarzeniom losowym przypisuje
liczby. Na przykład, losując z pewnej populacji jednego osobnika
przypisujemy mu jego wagę, lub też rzucając monetą przyjmujemy, że
wyrzucenie reszki będzie oznaczało wartość 0 a wyrzucenie orła –
wartość 1.
Zmienne losowe dzielimy na:
- Skokowe (dyskretne)
- Ciągłe
1
0
ZMIENNE LOSOWE (CECHY)
-skokowe (dyskretne), które przyjmują skończoną liczbę
wartości, zazwyczaj wartości są liczbami całkowitymi z
pewnego przedziału (np. liczba oczek na kostce
sześciennej do gry, liczba osób w rodzinie, liczba kwiatów
na roślinie itp.)
- ciągłe, czyli takie które przyjmują niekończenie wiele
wartości, np. wszystkie liczby rzeczywiste z pewnego
przedziału (przykłady: wzrost człowieka, zawartość cukru
w jabłkach, temperatura powietrza). Często takie zmienne
podajemy z pewną dokładnością, wynikającą z
ograniczeń przyrządów pomiarowych (np. termometru,
wagi itp.) ale należy mieć świadomość, że dysponując
dokładniejszym przyrządem pomiarowym możemy ustalić
wartość z coraz większą dokładnością.
Własności rozkładu cechy ilościowej:
• przeciętny poziom wartości cechy (tendencja centralna),
• zróżnicowanie (dyspersja),
• skośność (asymetria).
Ocenę tych własności można przeprowadzić posługując się
charakterystykami liczbowymi nazywanymi parametrami rozkładu.
Parametry klasyczne – obliczane na podstawie wszystkich
wyników,
Parametry pozycyjne - wyznaczane na podstawie miejsca
obserwacji w szeregu statystycznym lub częstości ich
występowania.
PARAMETRY POŁOŻENIA - opisują przeciętny poziom wartości
cechy:
• wartość średnia (np. średnia arytmetyczna, harmoniczna,
geometryczna),
• wartość typowa – najczęściej występująca (dominanta),
• wartość o ustalonej pozycji w rozkładzie (np. wartość w środku
rozkładu - mediana, wartość w jednej czwartej rozkładu - kwartyl
pierwszy lub trzech czwartych rozkładu – kwartyl trzeci, wartość
w jednej dziesiątej rozkładu – decyl pierwszy itp.)
Średnia arytmetyczna dla próby prostej x1, x2, ...xn:
Średnia arytmetyczna dla szeregu rozdzielczego o liczbie
klas k i liczebności nk w k-tej klasie:
Średnia harmoniczna dla próby prostej x1, x2, ...xn:
Średnia geometryczna dla próby prostej x1, x2, ...xn:
Dominanta – wartość występująca najczęściej w próbie
(dominująca, wartość modalna, moda).
Mediana (wartość środkowa) – średnia pozycyjna; rozdziela całą próbę
na dwie części o równych liczebnościach w ten sposób, że w jednej z
nich znajdują się jednostki o wartościach nie wyższych od mediany, a w
drugiej o wartościach nie niższych od mediany.
(dla znalezienia mediany trzeba najpierw uporządkować próbę według
wielkości jej elementów, tzn. od ich wartości najmniejszej do największej
lub odwrotnie)
PARAMETRY DYSPERSJI (rozproszenia) – opisują zróżnicowanie,
zmienność w próbie:
• wariancja
• odchylenie standardowe (pierwiastek z wariancji)
• współczynnik zmienności
PARAMETRY ASYMETRII – opisują skośność:
X − Me
A=
s
Współczynnik skośności przyjmuje wartość zero dla rozkładu
symetrycznego, wartości ujemne dla rozkładów o lewostronnej asymetrii
(wydłużone lewe ramię rozkładu) i wartości dodatnie dla rozkładów o
prawostronnej asymetrii (wydłużone prawe ramię rozkładu).
PRAWDOPODOBIEŃSTWEM (wg Laplace) zajścia
zdarzenia A nazywamy iloraz liczby zdarzeń sprzyjających
zdarzeniu A do liczby wszystkich możliwych przypadków |Ώ|,
zakładając, że wszystkie przypadki wzajemnie się wykluczają
i są jednakowo prawdopodobne.
Na przykład przy pojedynczym rzucie kostką sześcienną
prawdopodobieństwo wyrzucenia dokładnie 3 oczek wynosi
1/6 gdyż wszystkich możliwych zdarzeń jest 6 a tylko jedno
spełnia ten warunek.
Prawdopodobieństwo przyjmuje wartości z przedziału [0;1].
Wartość prawdopodobieństwa bliższa 1 oznacza zdarzenie
bardziej prawdopodobne, czyli zachodzące częściej,
natomiast wartość prawdopodobieństwa bliższa 0 oznacza
zdarzenie, które jest mało prawdopodobne, czyli zachodzi
rzadziej.
ROZKŁAD PRAWDOPODOBIEŃSTWA ZMIENNEJ LOSOWEJ
zbiór wartości zmiennej losowej oraz prawdopodobieństwa, z jakimi
są te wartości przyjmowane.
np. dla pojedynczego rzutu kostką rozkład prawdopodobieństwa
można przedstawić następująco:
xi
1
2
3
4
5
6
pi
1/6
1/6
1/6
1/6
1/6
1/6
Jedynie dla rozkładów zmiennych skokowych możliwe jest
przedstawienie rozkładu prawdopodobieństwa w takiej postaci jak
powyżej. Niemożliwe jest to w przypadku rozkładów ciągłych, gdyż
nie możemy określić prawdopodobieństwa, że zmienna przyjmie
określoną wartość. Możemy natomiast określić prawdopodobieństwo,
że zmienna przyjmie wartość z określonego przedziału.
Typowe rozkłady zmiennych losowych skokowych
•
Rozkład dwupunktowy
•
Rozkład dwumianowy (Bernoulliego)
•
Rozkład Poissona
1) Rozkład dwupunktowy
Z rozkładem dwupunktowym mamy do czynienia wówczas, gdy w
wyniku doświadczenia możemy uzyskać tylko jedną z dwóch
wartości zmiennej losowej: x1 lub x2 z prawdopodobieństwami
odpowiednio p oraz 1-p. W szczególnym przypadku, gdy x1=0 oraz
x2=1 rozkład ten nazywany jest rozkładem zero-jedynkowym.
Rozkład dwupunktowy mają wszystkie zjawiska losowe, w których są
tylko dwie możliwości np. wystąpienie opadów w pewnym dniu,
odpowiedź ankietowanej osoby na pytanie czy pali papierosy,
wykiełkowanie nasionka (we wszystkich tych zjawiskach są tylko
dwie wykluczające się możliwości)
lub
Rozkład dwupunktowy
2) Rozkład dwumianowy (Bernoulliego)
Rozkład dwumianowy występuje wówczas, gdy przeprowadza się n
jednakowych doświadczeń, z których każde może zakończyć się
jednym z dwóch wyników: „sukcesem” z prawdopodobieństwem p
lub „porażką” z prawdopodobieństwem 1-p. Zmienną losową X w tym
eksperymencie jest liczba sukcesów w n próbach. Przykłady
rozkładu dwumianowego mogą być podobne jak powyżej, tylko w
przypadku większej liczby powtarzanych zdarzeń np. jeśli pytamy 10
osób czy pala papierosy, to liczba osób które odpowiedzą twierdząco
jest zmienną mająca rozkład dwumianowy.
Rozkład prawdopodobieństwa w rozkładzie dwumianowym jest
określony wzorem:
 n k
P( X = k ) =   ⋅ p ⋅ ( 1 − p )n−k
k
gdzie
 n
n!
  =
 k  k!⋅(n − k )!
k-liczba sukcesów; n – liczba prób; p- prawdopodobieństwo sukcesu
Przykładowy rozkład wartości prawdopodobieństwa dla rozkładu
dwumianowego dla n = 10 oraz p=0,5
3) Rozkład Poissona
Jest rozkładem zmiennej losowej skokowej, z którym mamy do
czynienia w przypadku określania prawdopodobieństwa zajścia
zdarzeń stosunkowo rzadkich i niezależnych od siebie, takich jak
np. liczba usterek w produkowanej partii materiału, liczba osób
nieobecnych na zajęciach w pewnym dniu. Rozkład Poissona jest
przybliżeniem rozkładu Bernoulliego dla dużych prób i przy małym
prawdopodobieństwie zajścia zdarzenia („sukcesu”).
λk −λ
P( X = k ) = ⋅ e
k!
e - podstawa logarytmów naturalnych (e=2,718…)
λ - stała, która jest wartością oczekiwaną i równocześnie wariancją rozkładu,
Przykładowe rozkłady wartości prawdopodobieństw dla rozkładu Poissona
dla λ = 2 oraz λ =10
Typowe rozkłady zmiennych losowych ciągłych
1) Rozkład jednostajny
2) Rozkład normalny
1) Rozkład jednostajny
Jest to najprostszy z rozkładów zmiennej losowej ciągłej. Mamy z nim do
czynienia wtedy, gdy prawdopodobieństwo zajścia zdarzenia jest stałe w
pewnym przedziale [a, b].
Przykładem zmiennej mającej rozkład jednostajny jest np. czas oczekiwania na
przystanku na autobus przy założeniu, że autobus jeździ dokładnie co np. 20
min. a my wychodzimy nie znając rozkładu jazdy tego autobusu (oczywiście
sytuacja jest zupełnie teoretyczna, gdyż zakładamy, że autobus nigdy nie
przyjeżdża wcześniej ani się nie spóźnia). Czas oczekiwania na autobus jest w
takim wypadku między 0 a 20 min.
2) Rozkład normalny
Zwany także rozkładem Gaussa-Laplace'a jest najczęściej spotykanym w naturze
rozkładem zmiennej losowej ciągłej. Ciągła zmienna losowa X ma rozkład
normalny o wartości oczekiwanej m (często zamiast µ używamy oznaczenia literą
µ) i odchyleniu standardowym σ co oznaczamy X~N(m,σ2) lub X~N(m,σ).
Funkcja gęstości prawdopodobieństwa rozkładu normalnego
standardowego (o średniej równej 0 i odchyleniu standardowym równym 1)
oraz wartości prawdopodobieństwa dla wartości zmiennej.
Przykładowe funkcje gęstości prawdopodobieństwa dla rozkładu
normalnego o różnych wartościach średnich i tych samych odchyleniach
standardowych
Przykładowe funkcje gęstości prawdopodobieństwa dla rozkładu
normalnego o takich samych wartościach średnich i różnych odchyleniach
standardowych
Standaryzacja zmiennych – jest to przekształcenie (transformacja)
wartości zmiennej wg następującego wzoru:
X −m
Z=
σ
gdzie,
m- średnia,
σ- odchylenie standardowe,
X – wartość zmiennej przed standaryzacją,
Z – wartość zmiennej po standaryzacji
zmienna po standaryzacji ma rozkład normalny Z ~ N(0, 1) , czyli o
średniej równej 0 i odchyleniu standardowym równym 1.
Standaryzację stosuje się w celu wyrażenia zmiennych w tej samej
skali np. w analizie skupień.
Download