Rozkłady empiryczne i wyznaczanie estymatorów wartości oczekiwanej i odchylenia standardowego Michał Urbański 1. Cel ćwiczenia 5) Porównanie wykresów rozkładu empirycznego z rozkładem równomiernym, normalnym i ewentualnie dowolnym innym ustalonym przez piszącego sprawozdanie. 6) Porównanie zmierzonego czasu spadania z teorią opisującą czas spadania swobodnego w polu grawitacyjnym ziemskim. Celem ćwiczenia jest wyznaczenie parametrów rozkładów empirycznych, wyznaczenie rozkładu empirycznego (histogramu i dystrybuanty empirycznej), wyznaczanie niepewności gdy mamy serię danych pomiarowych (próbę losową) i porównanie uzyskanych rozkładów z kilkoma rozkładami znanymi w matematyce (rozkład jednostajny, rozkład normalny). W eksperymencie mierzyć będziemy czas spadania niewielkiego przedmiotu oraz średnicę pręta (lub grubość blaszki). Zakładać będziemy, że wyniki pomiarów są próbą losową pewnego rozkładu, którego właściwości badamy. Rozkładu tego nie znamy, ale możemy sprawdzić z jakim rozkładem dane empiryczne są w najwyższym stopniu zgodne. Zgodność rozkładu empirycznego z rozkładem hipotetycznym weryfikuje się metodami statystycznymi (test chi kwadrat) ale w tym ćwiczeniu porównamy jedynie wykresy w sposób jakościowy nanosząc na jednym wykresie rozkład empiryczny i rozkład hipotetyczny. 3.1. Histogram Histogram jest wykresem słupkowym, w którym każdemu przedziałowi wartości zmiennej losowej przyporządkujemy liczbę wystąpień wartości zmiennej losowej z tego przedziału. Przedziały nazywamy koszykami lub binami. Jest to więc wykres częstości występowania zjawiska. nk 5 2. Wykonanie ćwiczenia 1 Ćwiczenie polega na wykonaniu następujących eksperymentów, w wyniku których otrzymamy trzy serie danych: x koszyki Punkty pomiarowe x i 1) Pomiar średnicy pręta (lub grubości innego przedmiotu) w możliwie wielu miejscach. Średnicę mierzymy suwmiarką i mikrometrem (dwie serie danych jedna suwmiarką druga mikrometrem). Pręt nie jest idealny i w różnych miejscach uzyskuje się różne wskazania. 2) Pomiar czasu lotu małego (np. nakrętki od soku) ciała z wysokości 1-2m. Aby wyniki były powtarzalne należy zrzucać nakrętki np. z szafy. Czas należy mierzyć stoperem wykorzystując telefon komórkowy. Rysunek 1: Konstrukcja histogramu. Nawiasami klamrowymi zaznaczone są koszyki, nk - liczba wyników pomiaru w k-tym koszyku (binie). W celu wykonani histogramu porządkujemy dane pomiarowe od najmniejszego do największego: x1 , x2 , . . . , xN , gdzie N jest liczbą danych pomiarowych (x1 jest wartością najmniejszą a xN - największą). Dzielimy przedział [x1 , xN ] na K odcinków, każdy o szerokości ∆x = xNK−x1 . Dla każdego k-ego przedziału āk (k = 1, . . . , K) o postaci āk = [x1 +(k−1)∆x, x1 +k∆x] wyliczamy liczbę nk elementów xi (i = 1, . . . , N ) ze zbioru danych x1 , . . . , xN , które znajdują się w przedziale āk . Przedział āk nazywamy koszykiem lub binem. Zależność nk od k jest dyskretna dlatego wykres powinie być słupkowy a nie typu XY dla funkcji ciągłych. Na wykresie 2 pokazano histogram dla przykładowych danych i pokazano porównanie z histogramem dla rozkładu jednostajnego wyznaczonego na rys. 4. Każdy rodzaj pomiaru należy powtórzyć przynajmniej 100 razy przy czym każdy członek zespołu powinien wykonać jednakową liczbę pomiarów. Jeśli w pomiarze suwmiarką nie widać zmian (nie widać rozrzutu) pomiar wystarczy wykonać 30 razy. 3. Opracowanie wyników pomiarów Dla każdej serii danych należy wykonać następujące obliczenie i wykresy: 1) 2) 3) 4) Wykres histogramu. Wykres dystrybuanty empirycznej. Wyznaczenie parametrów rozkładów. Obliczenia wartości średniej z pomiarów, odchylenia standardowego oraz niepewności złożonej (uwzględniającej błędy aparaturowe i refleksu) pomiaru czasu i długości (średnicy pręta lub grubości przedmiotu). 3.2. Dystrybuanta Estymator dystrybuanty (dystrybuanta empiryczna) F̃ (x) ma postać: ](xi ≤ x) F̃ (x) = (1) N 1 prostą o równaniu: F (x) = Rysunek 2: Histogram czasów spadania dla danych jak na rys 4. Niebieskie słupki- histogram empiryczny, czerwone - histogram wyznaczony z równania na wykresie 4. Na osi poziomej podano przedziały czasów w sekundach. gdzie ](xi ≤ x) jest liczbą elementów xi spełniających warunek xi ≤ x. Dystrybuanta jest wykresem schodkowym, w którym w każdym punkcie pomiarowym xk schodek wynosi N1 nk , gdzie nk jest liczbą powtórzeń wartości xk w serii pomiaroK wej {xi }i=1 (K - liczba danych pomiarowych o wartościach różnych). W sprawozdaniu należy wykreślić dystrybuantę empiryczną dla pomiarów średnicy i czasu lotu, oraz na jednym rysunku dystrybuantę rozkładu równomiernego, normalnego i ewentualnie innego rozkładu, o parametrach wyznaczonych metodą opisaną w punkcie następnym. Na rys. 4 pokazano przykład empirycznej dystrybuanty dla danych takich ja na wykresie 2 i pokazano wykres prostej będącej dystrybuantą rozkładu jednostajnego najlepiej pasującego do danych pomiarowych. 3.3. Wyznaczanie parametrów rozkładów Sposób wyznaczanie parametrów rozkładu prawdopodobieństwa zależy od rozkładu. 0 x−a1 a2 −a1 0 gdy gdy gdy x < x1 x ∈ [a1 , a2 ] xx > a2 (2) Parametry rozkładu jednostajnego można wyznaczyć na kilka sposobów, jednak w tym ćwiczeniu wykorzystamy metodę uproszczona polegająca na dobraniu wartości a1 i a2 (dwóch parametrów równania (3.3.1) tak aby wykres prostej pokrywał się najlepiej (w ocenie na „oko”) z wykresem dystrybuanty. Najprościej jest to wykonać ręcznie na wykresie dystrybuanty empirycznej. Punkty przecięcia prostej z prostymi poziomymi zera i jedynki wyznaczają a1 i a2 : czyli F (a1 ) = 0 i F (a2 ) = 1. Korzystając z komputera należy wykreślić na jednym rysunku funkcję daną wzorem (3.3.1) i wykres empiryczny i tak dobrać parametry a1 i a2 aby prosta najlepiej pasowała do danych dystrybuanty empirycznej. Należy parametry te umieścić w dwóch komórkach arkusza a wzór na dystrybuantę należy wpisać korzystając z tych komórek. Prostej nie należy prowadzić przez wartości maksymalną i minimalna bowiem zazwyczaj dystrybuanta ma płaskie wykresy na krańcach przedziału zmienności wartości pomiarów. W przykładzie na rysunku 4 zakres zmienności czasów to przedział [0.44, 0.82] natomiast parametry, które dają dobre przyleganie prostej do głównej części wykresu wynoszą a1 = 0, 55 i a2 = 0, 75. Łatwo zauważyć, że prosta poprowadzona przez wartości brzegowe 0,44 i 0.82 nie będzie dobrze pasować do danych empirycznych. Również współczynniki prostej wyznaczone metodą najmniejszych kwadratów dla całości danych nie są zadowalające z punktu widzenia obserwacji wzrokowej. Dopasowanie prostej metodą najmniejszych kwadratów dla prostej nie jest dobre ponieważ faktycznie dystrybuanta jest krzywą łamaną składająca się z dwóch odcinków płaskich i jednej ukośnej. 3.3.1. Rozkład jednostajny. Rozkład jednostajny w przedziale [a1 , a2 ] przedstawiony jest na rys 3.3.1. Rysunek 3: Rozkład jednostajny Rozkład jednostajny wyznaczony jest jednoznacznie przez medianę M ed = 21 (a2 +a1 ) (czyli środek) oraz rozstęp (promień przedziału) L = 12 (a2 − a1 ). Dystrybuanta rozkładu jednostajnego opisana jest linią Rysunek 4: Przykładowa dystrybuanta empiryczna czasów spadania (kropki), dystrybuanty rozkładu jednostajnego (linia ciągła) i rozkładu normalnego (linia przerywana). Prosta będąca dystrybuantą rozkładu jednostajnego została poprowadzona przez obszar danych układających się na możliwie prostej części wykresu z pominięciem „zagięć”. Prosta na rysunku jest wyznaczona z równania (3.3.1) dla parametrów a1 = 0, 55s i a2 = 0, 75s. Widać, że rozkład normalny lepiej pasuje do rozkładu empirycznego. 3.3.2. Rozkład normalny. Rozkład normalny określony jest przez dwa parametry: wartość oczekiwaną µ i odchylenie standardowe σ. Wzór na funkcję gęstości prawdopodobieństwa ma postać: f (x) = 2 1 x−µ 1 √ exp − 2 σ σ 2π (3) Parametry te wyznaczyć można z danych pomiarowych jako wartość średnią x̄ (estymator wartości oczekiwanejµ) i estymator odchylenia standardowego σ dany wzorem s = q PN PN 1 1 2 i=1 (xi − x̄) , gdzie x̄ = N i=1 xi . N −1 Dystrybuanta rozkładu normalnego może być wyliczona przy pomocy odpowiedniej funkcji arkusza kalkulacyjnego (np. w Gnumericu funkcja tan nazywa się „normdist”. Funkcja ta ma cztery argumenty; (zmienna, wartość średnia, odchylenie standardowe,liczba). Jesli chcemy obliczeń dystrybuanty liczba musi być 1. 3.4. Porównanie wykresów empirycznych z rozkładami hipotetycznymi W celu porównania rozkładu empirycznego z rozkładem hipotetycznym należy wykonać następujące wykresy: 1) na jednym wykresie narysować dystrybuanty: empiryczną, rozkładu jednostajnego i rozkładu normalnego i ewentualnie innego. 2) na jednym wykresie narysować histogram: dla danych empirycznych, oraz rozkładu jednostajnego i rozkładu normalnego i ewentualnie innego. Przykład wykresu dla dystrybuanty rozkładu empirycznego oraz jednostajnego i normalnego pokazany jest na rys. 4. Parametry rozkładu normalnego wyznaczone są metodą opisaną w punkcie 3.3.2. W celu porównania histogramu empirycznego z rozkładem jednostajnym i normalnym należy wyznaczyć prawdopodobieństwa pl dla każdego l-tego przedziału (czyli koszyka) na podstawie następującego wzoru: pl = P (al−1 < x < al ) = (4) f (x)dx = F (al ) − F (al−1 ) (5) Zal = al−1 gdzie al jest końcem koszyków (l = 0, 1, . . . , L), f (x) jest gęstością rozkładu prawdopodobieństwa (hipoteza), a F (x) jego dystrybuantą i pl jest prawdopodobieństwem tego, że zmierzona wartość x jest wewnątrz l-tego koszyka. Koszykiem nazywamy przedział [al , al+1 ] o końcach al i al+1 , w każdym koszyku o numerze l znajduje się nl danych pomiarowych. W celu budowy histogramu koszyki powinny mieć jednakową szerokość (ok sześciu koszyków). Należy więc przedział w którym obserwujemy mierzoną zmienną (przedział zmienności) podzielić na jednakowe przedziały. Dystrybuantę można wyznaczyć posługując się dowolnym programem typu arkusz kalkulacyjny (mogą być inne programy do analizy danych). Obliczenia należy zrobić dla wszystkich rozważanych rozkładów (jednostajnego, normalnego i ewentualnie innego) wykorzystując parametry policzone zgodnie z punktem 3.3. Rysunek 5: Wyznaczanie granic koszyków z serii uporządkowanych danych pomiarowych 3.5. Porównanie zmierzonego czasu spadania z obliczonym z teorii Jeśli założymy, że pomijany jest opór powietrza i prędkość początkowa jest zerowa to czas spadania opisany jest wzorem s 2H t0 = (6) g gdzie H - wysokość, g = 9, 81m.s2 - przyśpieszenia grawitacyjne. Należy porównać wynik obliczenia czasu t0 spadania wyznaczonego na podstawie wzoru (6) ze średnią tsr z serii pomiarów czasu spadania. Aby stwierdzić czy różnica pomiędzy t0 i tsr mieści się w granicach błędu należy oszacować niepewności t0 i tsr . 3.6. Analiza niepewności Na niepewność danych pomiarowych składa się odchylenie standardowe z danych pomiarowych oraz niepewność przyrządu pomiarowego. W przypadku pomiaru czasu spadania o dokładności przyrządu decyduje refleks. W celu wyznaczenia wartości niepewności pochodzącej od refleksu należy zbadać rozkład błędu refleksu. W tym celu należy wykonać eksperyment polegający na pomiarze czasu zdarzenia o określonym czasie trwania. Należy zaprojektować taki eksperyment np. z wykorzystaniem komputera.