Rozkład normalny (Gaussa (1777-1855)) Rozkład normalny jest najważniejszym rozkładem zmiennej losowej ciągłej, o bardzo szerokich zastosowaniach praktycznych. W rozkładzie tym gęstość prawdopodobieństwa wyraża się wzorem: 1 f ( x) 2 gdzie: i m to stałe (tzw. parametry rozkładu); m Zamiast symbolu e x m 2 2 2 x m 2 e 2 2 - odchylenie standardowe zmiennej losowej x w populacji, - wartość oczekiwana zmiennej losowej x w populacji. x m 2 używa się czasem zapisu exp 2 2 Dystrybuantę rozkładu normalnego wyraża się wzorem: F x 1 2 x e t m 2 2 2 dt Okazuje się, że powyższa całka nie może być wyrażona za pomocą funkcji elementarnych. Wyliczenie wartości F(x) jest żmudne, opiera się na całkowaniu szeregu jednostajnie zbieżnego, na który rozwija się funkcję podcałkową. Jest to rozwinięcie typu: e z 2 1 z 2 z4 2 z6 6 Dla uniknięcia żmudnych rachunków przy wyliczaniu wartości gęstości prawdopodobieństwa i dystrybuanty rozkładu normalnego, zostały opracowane specjalne tabele. Stablicowane funkcje gęstości i dystrybuanty rozkładu normalnego mają postać: u u 1 e 2 1 2 u u2 2 o parametrach m = 0 i σ = 1. e Wzory te wyrażają funkcję gęstości i dystrybuanty zmiennej t2 2 Zmienną taką nazywamy zmienną standaryzowaną. dt Całkę F(x) sprowadzamy do całki u xm u ponieważ m = 0 i σ = 1 Mianowicie: F x 1 2 przez wprowadzenie nowej zmiennej u: x e xm t m 2 2 2 dt 1 2 t2 2 e dt 1 2 u e t2 2 dt u Zmienna t jest zmienną względem której całkujemy; jedną z jej wartości jest u – granica całkowania. Natomiast przy wprowadzeniu zmiennej standaryzowanej określonej wzorem u xm do funkcji gęstości otrzymujemy: f u u2 2 1 e 2 Między funkcją gęstości zmiennej zwykłej i funkcją gęstości zmiennej standaryzowanej istnieje więc następująca zależność: f u 1 u Rozkład normalny jest rozkładem symetrycznym względem punktu x = m. Obliczając pochodną funkcji f(x) i przyrównując ją do zera, możemy określić maksimum tej funkcji. Maksimum to przypada w punkcie x = m i wynosi: f m 1 2 Na lewo i prawo od swego maksimum funkcja gęstości rozkładu normalnego stale opada, zbliżając się asymptotycznie do osi odciętych. Punkty przegięcia krzywej gęstości rozkładu normalnego posiadają odcięte m ± σ. Rysunek następny przedstawia krzywą gęstości prawdopodobieństwa i dystrybuantę rozkładu normalnego. f(x) f(m) 1 2 Funkcja gęstości prawdopodobieństwa f(x) zmiennej losowej X o rozkładzie normalnym N(m,σ) F(x) 1 m X Dystrybuanta F(x) zmiennej losowej X 0,5 0 o rozkładzie normalnym N(m,σ) m X Liczba m określa położenie osi symetrii rozkładu, natomiast od parametru σ zależy wartość maksymalna funkcji gęstości (czyli „kształt rozkładu”). Czasem oznaczenie m zastępujemy inną literą, przyjmujemy mianowicie jej grecki odpowiednik, literę μ. Dlatego na rysunku poniżej zamiast m jest μ. Rysunek z lewej strony przedstawia porównanie gęstości rozkładu normalnego dla różnych wartości parametrów. Większe wartości na wykresie odpowiadają większemu prawdopodobieństwu znalezienia w tym miejscu obserwacji. Czerwona, zielona i niebieska krzywa odpowiadają tej samej wartości oczekiwanej (średniej), lecz różnym odchyleniom standardowym w populacji. Czerwona odpowiada najmniejszemu, a niebieska największemu odchyleniu standardowemu. Im wyższe odchylenie standardowe, tym mniej obserwacji skupia się w pobliżu średniej a tym więcej jest ich daleko od niej (są bardziej rozproszone). Reguła Trzech Sigm dla danego rozkładu normalnego N(μ,σ) oznacza że w przedziale [μ − 3σ, μ + 3σ] znajduje się 99.7 % wszystkich obserwacji. Oznacza to że obserwacje, które nie należą do tego przedziału będą się zdarzały bardzo rzadko. Dzięki tej regule w łatwy sposób można też zlokalizować obserwacje odstające. Ilustracja Reguły Trzech Sigm: Po pierwsze korzystając z symetryczności rozkładu normalnego widzimy te same procenty po obu stronach μ. Po drugie w łatwy sposób możemy odczytać przedziały procentowe dla kolejnych sigm, tzn.: PRZEDZIAŁ: PROCENT OBSERWACJI: [μ − σ, μ + σ] 68.2% [μ − 2σ, μ + 2σ] 95.4% [μ − 3σ, μ + 3σ] 99.7% Reguła Trzech Sigm jest wykorzystywana jak sygnał ostrzegawczy dotyczący anomalnych zachowań, np. przypadków wyłudzeń, manipulacji, oszustw itd. Oczywiście takie wartości mogą się zdarzyć bez ingerencji człowieka ale zawsze warto sprawdzić czy ktoś im nie dopomógł. Załóżmy taką sytuację: jesteśmy właścicielami firmy produkującej obuwie. Zastanawiamy się nad tym w jakich rozmiarach mamy produkować buty. Załóżmy, że średni rozmiar męskiego buta wynosi μ = 42 a odchylenie standardowe σ = 1.5. Korzystając z Reguły Trzech Sigm produkując buty w rozmiarach od 37.5 do 46.5 w naszych butach będzie mogło chodzić 99.7 % mężczyzn. To bardzo dobry wynik ale załóżmy, że nasza firma nie ma za dużo pieniędzy na wyprodukowanie partii butów, co wtedy? Być może lepszym wyjściem jest zrobienie butów w rozmiarach od 39 do 45. Wtedy w naszych butach będzie mogło chodzić 95.4% mężczyzn a zaoszczędzimy trochę na produkcji dużych numerów. Dzięki rozkładowi normalnemu wiemy również których rozmiarów wyprodukować więcej - tych najbliżej średniej - od 40.5 do 43.5 - prawie 70% butów.