Statystyka opisowa i projektowanie eksperymentu dr inż. Krzysztof Bryś Konspekt zajęć 1. Podstawowe pojęcia statystyki doświadczenie losowe – doświadczenie, którego wynik jest nieznany ale znany jest zbiór możliwych wyników zwanych zdarzeniami losowymi. zmienna losowa – zmienna, która przyjmuje określoną wartość w wyniku doświadczenia losowego. rozkład prawdopodobieństwa zmiennej losowej - przypisanie wartościom zmiennej losowej wartości funkcji prawdopodobieństwa (tzn. szans wystąpienia określonych wartości) Podstawowe parametry rozkładu prawdopodobieństwa: wartość oczekiwana, wariancja, wskaźnik struktury. Podstawowe rozkłady prawdopodobieństwa wykorzystywane w statystyce: rozkład Bernoulliego, rozkład normalny, rozkład t-Studenta, rozkład chi-kwadrat. populacja – cały zbiór badanych osób, przedmiotów lub wartości, próba – skończony podzbiór populacji podlegający badaniu, próba losowa – próba losowana (najczęściej) zgodnie z rozkładem równomiernym tzn. wylosowanie każdej próby jest jednakowo prawdopodobne, cechy: mierzalne, niemierzalne. Przedmiot badania: cecha (cechy) populacji = zmienna losowa. Cel badania: znalezienie rozkładu prawdopodobieństwa (częstości wystąpień poszczególnych wartości) badanej cechy w populacji. próba n-elementowa = ciąg n zmiennych losowych o jednakowym rozkładzie (takim jak poszukiwany rozkład badanej cechy). 2. Etapy badania statystycznego 1) Przygotowanie (formatowanie) badania: określenie celu, rodzaju, potrzebnych parametrów wejściowych badania. 2) Przeprowadzenie badania: wylosowanie próby, określenie wartości badanych cech w próbie. 3) Zebranie uzyskanych podczas badania danych. 4) Opis i wnioskowanie statystyczne: obliczenie parametrów, estymacja, weryfikacja hipotez. 5) Przedstawienie wyników. 3. Szeregi statystyczne a) Szereg wyliczający punktowy. b) Szereg rozdzielczy punktowy. c) Szereg rozdzielczy przedziałowy. 4. Rozkład empiryczny i jego graficzna prezentacja -Rozkład częstości -Histogram rozkładu częstości -Dystrybuanta empiryczna (skumulowana częstość) 5. Parametry empiryczne – wyznaczanie i interpretacja. a) Miary położenia -Średnia z próby - Dominanta (moda, wartość modalna) -Kwantyle rzędu p (mediana, kwartyl dolny, kwartyl górny, decyle, percentyle) b) Miary rozproszenia - Rozstęp, - Wariancja z próby, - Odchylenie standardowe z próby. c) Miary asymetrii i koncentracji - Współczynnik asymetrii (skośności), - Kurtoza. 6. Estymacja punktowa estymator parametru T – statystyka (funkcja próby), której wartość zależy od rzeczywistej wartości parametru T rozkładu cechy w populacji. estymacja punktowa – szacowanie nieznanej wartości parametru T na podstawie próby; polega na wyznaczeniu z próby wartości u estymatora U parametru T i przyjmowaniu tej wartości za oszacowanie T. Estymatory wartości oczekiwanej: średnia z próby, mediana z próby. Estymatory wariancji: wariancja z próby. Estymator wskaźnika struktury: wskaźnik struktury z próby. 7. Estymacja przedziałowa. Przedział ufności dla parametru T na poziomie ufności 1- - przedział ( a ; b) taki, że : 1) a, b są funkcjami próby, 2) P ( a < T < b ) = 1- Uwagi: - Przedział ufności zmienia się wraz z próbką. - Nieznana wartość parametru może być albo nie być w utworzonym przedziale ufności. - Można stworzyć nieskończenie wiele przedziałów ufności na danym poziomie ufności. - Częstość występowania prób, dla których zbudowany przedział ufności na poziomie ufności 1-zawiera nieznaną wartość parametru T wynosi w przybliżeniu 1- (dla „dużej” liczności próby). Przedziały ufności dla wartości oczekiwanej, odchylenia standardowego, wskaźnika struktury. 7. Zagadnienie minimalnej liczności próby Dane: 1-poziom ufności, maksymalny błąd oszacowania (estymacji) Szukane: minimalna liczność próby n0 , przy której błąd oszacowania (promień przedziału ufności) nie przekracza Wyznaczanie minimalnej liczności próby przy szacowaniu wartości oczekiwanej oraz przy szacowaniu wskaźnika struktury. 8. Weryfikacja hipotez statystycznych. hipoteza statystyczna – przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji. hipoteza parametryczna – hipoteza statystyczna dotycząca wartości parametru badanej cechy. weryfikacja – odpowiedź na pytanie czy hipoteza statystyczna jest prawdziwa. test statystyczny – reguła postępowania, która danej próbie przyporządkowuje decyzję przyjęcia lub odrzucenia badanej hipotezy. H0 – hipoteza zerowa (podlega badaniu) H1 – hipoteza alternatywna test istotności – test statystyczny, przy którym wnioskowanie odbywa się przy założeniu, że hipoteza H0 jest prawdziwa; pozwala jedynie odrzucić H0 ( = przyjąć H1 ); jako H0 należy stawiać hipotezy, co do których zachodzi podejrzenie o ich fałszywości. Typy błędów popełnianych przy weryfikacji hipotez: błąd 1-go rodzaju – odrzucenie prawdziwej hipotezy H0 (prawdopodobieństwo popełnienia = poziom istotności = błąd 2-go rodzaju - przyjęcie fałszywej hipotezy H0 (prawdopodobieństwo popełnienia = moc testu = 1- zbiór krytyczny W – zbiór wartości osiągany przez statystykę testową z prawdopodobieństwem (przy założeniu, że hipoteza H0 jest prawdziwa) Algorytm weryfikacji hipotez za pomocą testów istotności: 1) Wybieramy model (dla danej postaci hipotezy H0, H1 i próby) 2) Obliczamy wartość statystyki testowej u. 3) Budujemy zbiór krytyczny W (w zależności od postaci H1) 4) Jeśli obliczona wartość statystyki testowej u należy do zbioru krytycznego W, to odrzucamy hipotezę H0 (przyjmujemy H1) na poziomie istotnościW przeciwnym przypadku mówimy, że nie ma podstaw do odrzucenia H0 na poziomie istotności Krytyczny poziom istotności poziom istotności przy którym następuje zmiana decyzji weryfikacyjnej. Weryfikacja hipotez za pomocą krytycznego poziomu istotności: Jeśli to mówimy, że nie ma podstaw do odrzucenia H0 na poziomie istotności Jeśli to odrzucamy H0 na poziomie istotności Wyznaczanie krytycznego poziomu istotności dla danej próby: jest to taka wartość poziomu istotności, przy której obliczona wartość statystyki testowej znajduje się na brzegu zbioru krytycznego.