Rozkład normalny (Gaussa)

advertisement
Rozkład normalny (Gaussa (1777-1855))
Rozkład normalny jest najważniejszym rozkładem zmiennej losowej ciągłej, o bardzo szerokich zastosowaniach
praktycznych. W rozkładzie tym gęstość prawdopodobieństwa wyraża się wzorem:
1
f ( x) 
 2
gdzie:
 i m to stałe (tzw. parametry rozkładu); 
m
Zamiast symbolu
e

 x  m 2
2 2

 x  m 2
e
2 2
- odchylenie standardowe zmiennej losowej x w populacji,
- wartość oczekiwana zmiennej losowej x w populacji.
  x  m 2 

używa się czasem zapisu exp  
2 2 

Dystrybuantę rozkładu normalnego wyraża się wzorem:
F x  
1
 2
x

e
t  m 2
2 2
dt

Okazuje się, że powyższa całka nie może być wyrażona za pomocą funkcji elementarnych. Wyliczenie wartości
F(x) jest żmudne, opiera się na całkowaniu szeregu jednostajnie zbieżnego, na który rozwija się funkcję podcałkową.
Jest to rozwinięcie typu:
e
z 2
 1 z 
2
z4
2

z6
6

Dla uniknięcia żmudnych rachunków przy wyliczaniu wartości gęstości prawdopodobieństwa i dystrybuanty
rozkładu normalnego, zostały opracowane specjalne tabele.
Stablicowane funkcje gęstości i dystrybuanty rozkładu normalnego mają postać:
 u  
u  

1
e
2
1
2
u
u2
2
o parametrach m = 0 i σ = 1.

e

Wzory te wyrażają funkcję gęstości i dystrybuanty zmiennej
t2
2
Zmienną taką nazywamy zmienną standaryzowaną.
dt
Całkę F(x) sprowadzamy do całki
 u 
xm
u

ponieważ m = 0 i σ = 1
Mianowicie:
F x  
1
 2
przez wprowadzenie nowej zmiennej u:
x

e
xm
t  m 
2
2 2
dt 


1
 2


t2
2
e  dt 

1
2
u
e

t2
2
dt  u 

Zmienna t jest zmienną względem której całkujemy; jedną z jej wartości jest u – granica całkowania.
Natomiast przy wprowadzeniu zmiennej standaryzowanej określonej wzorem u 
xm
do funkcji gęstości otrzymujemy:
f u  

u2

2
1
e
 2
Między funkcją gęstości zmiennej zwykłej i funkcją gęstości zmiennej standaryzowanej istnieje
więc następująca zależność:
f u  
1

 u 
Rozkład normalny jest rozkładem symetrycznym względem punktu x = m. Obliczając pochodną
funkcji f(x) i przyrównując ją do zera, możemy określić maksimum tej funkcji. Maksimum to
przypada w punkcie x = m i wynosi:
f m 
1
 2
Na lewo i prawo od swego maksimum funkcja gęstości rozkładu normalnego stale opada,
zbliżając się asymptotycznie do osi odciętych.
Punkty przegięcia krzywej gęstości rozkładu normalnego posiadają odcięte m ± σ.
Rysunek następny przedstawia krzywą gęstości prawdopodobieństwa i dystrybuantę rozkładu
normalnego.
f(x)
f(m)
1
 2
Funkcja gęstości prawdopodobieństwa f(x) zmiennej
losowej X o rozkładzie normalnym N(m,σ)

F(x)
1
m
X
Dystrybuanta F(x) zmiennej losowej X
0,5
0
o rozkładzie normalnym N(m,σ)
m
X
Liczba m określa położenie osi symetrii rozkładu, natomiast od parametru σ zależy wartość maksymalna funkcji
gęstości (czyli „kształt rozkładu”).
Czasem oznaczenie m zastępujemy inną literą, przyjmujemy mianowicie jej grecki odpowiednik, literę μ.
Dlatego na rysunku poniżej zamiast m jest μ.
Rysunek z lewej strony przedstawia porównanie gęstości
rozkładu normalnego dla różnych wartości parametrów.
Większe wartości na wykresie odpowiadają większemu
prawdopodobieństwu znalezienia w tym miejscu obserwacji.
Czerwona, zielona i niebieska krzywa odpowiadają tej
samej wartości oczekiwanej (średniej), lecz różnym
odchyleniom
standardowym
w
populacji.
Czerwona
odpowiada najmniejszemu, a niebieska największemu
odchyleniu
standardowemu.
Im
wyższe
odchylenie
standardowe, tym mniej obserwacji skupia się w pobliżu
średniej a tym więcej jest ich daleko od niej (są bardziej rozproszone).
Reguła Trzech Sigm dla danego rozkładu normalnego N(μ,σ) oznacza że w przedziale [μ − 3σ, μ + 3σ] znajduje się
99.7 % wszystkich obserwacji. Oznacza to że obserwacje, które nie należą do tego przedziału będą się zdarzały
bardzo rzadko. Dzięki tej regule w łatwy sposób można też zlokalizować obserwacje odstające.
Ilustracja Reguły Trzech Sigm:
Po pierwsze korzystając z symetryczności rozkładu normalnego widzimy te same procenty po obu stronach μ.
Po drugie w łatwy sposób możemy odczytać przedziały procentowe dla kolejnych sigm, tzn.:
PRZEDZIAŁ:
PROCENT OBSERWACJI:
[μ − σ, μ + σ]
68.2%
[μ − 2σ, μ + 2σ]
95.4%
[μ − 3σ, μ + 3σ]
99.7%
Reguła Trzech Sigm jest wykorzystywana jak sygnał ostrzegawczy dotyczący anomalnych zachowań, np.
przypadków wyłudzeń, manipulacji, oszustw itd. Oczywiście takie wartości mogą się zdarzyć bez ingerencji
człowieka ale zawsze warto sprawdzić czy ktoś im nie dopomógł.
Załóżmy taką sytuację: jesteśmy właścicielami firmy produkującej obuwie. Zastanawiamy się nad tym w jakich
rozmiarach mamy produkować buty. Załóżmy, że średni rozmiar męskiego buta wynosi μ = 42 a odchylenie
standardowe σ = 1.5. Korzystając z Reguły Trzech Sigm produkując buty w rozmiarach od 37.5 do 46.5 w naszych
butach będzie mogło chodzić 99.7 % mężczyzn. To bardzo dobry wynik ale załóżmy, że nasza firma nie ma za dużo
pieniędzy na wyprodukowanie partii butów, co wtedy?
Być może lepszym wyjściem jest zrobienie butów w rozmiarach od 39 do 45. Wtedy w naszych butach będzie mogło
chodzić 95.4% mężczyzn a zaoszczędzimy trochę na produkcji dużych numerów.
Dzięki rozkładowi normalnemu wiemy również których rozmiarów wyprodukować więcej - tych najbliżej
średniej - od 40.5 do 43.5 - prawie 70% butów.
Download