podstawy probabilistyki z przykładami zastosowań

advertisement
Marek Cieciura, Janusz Zacharski
PODSTAWY PROBABILISTYKI
Z PRZYKŁADAMI ZASTOSOWAŃ
W INFORMATYCE
CZĘŚĆ VI
WYBRANE TWIERDZENIA
WRAZ Z DOWODAMI
Na prawach rękopisu
Warszawa, październik 2011
Data ostatniej aktualizacji: piątek, 2 grudnia 2011, godzina 16:41
Statystyka jest bardziej sposobem myślenia lub wnioskowania niŜ pęczkiem recept
na młócenie danych w celu odsłonięcia odpowiedzi - Calyampudi Radhakrishna Rao
Podręcznik:
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ
W INFORMATYCE
publikowany jest w częściach podanych poniŜej
Nr
Tytuł
I.
Wprowadzenie
II.
Statystyka opisowa
III.
Rachunek prawdopodobieństwa
IV.
Statystyka matematyczna
V.
Przykłady zastosowań w informatyce
VI.
Wybrane twierdzenia z dowodami
VII.
Tablice statystyczne
Autorzy proszą o przesyłanie wszelkich uwagi i propozycji dotyczących zawartości
podręcznika z wykorzystaniem formularza kontaktowego zamieszczonego w portalu
http://cieciura.net/mp/
Publikowane części będą na bieŜąco poprawiane, w kaŜdej będzie podawana data ostatniej
aktualizacji.
Podręcznik udostępnia się na warunku licencji Creative Commons (CC): Uznanie Autorstwa
– UŜycie Niekomercyjne – Bez Utworów ZaleŜnych (CC-BY-NC-ND),co oznacza:
•
Uznanie Autorstwa (ang. Attribution - BY): zezwala się na kopiowanie,
dystrybucję, wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych pod
warunkiem umieszczenia informacji o twórcy.
•
UŜycie Niekomercyjne (ang. Noncommercial - NC): zezwala się na
kopiowanie, dystrybucję, wyświetlanie i uŜytkowanie dzieła i wszelkich jego
pochodnych tylko w celach niekomercyjnych..
•
Bez Utworów ZaleŜnych (ang. No Derivative Works - ND): zezwala się na
kopiowanie, dystrybucję, wyświetlanie tylko dokładnych (dosłownych) kopii dzieła,
niedozwolone jest jego zmienianie i tworzenie na jego bazie pochodnych.
Podręcznik i skorelowany z nim portal, są w pełni i powszechnie dostępne, stanowią więc
Otwarte Zasoby Edukacyjne - OZE (ang. Open Educational Resources – OER).
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
SPIS TREŚCI
23. STATYSTYKA OPISOWA ...........................................................................................5
23.1. WŁASNOŚĆ ŚREDNIEJ ARYTMETYCZNEJ ELEMENTÓW PRÓBY ........................................5
23.1.1. Własność 1..........................................................................................................5
23.1.2. Własność 2..........................................................................................................5
23.1.3. Własność 3..........................................................................................................5
23.1.4. Własność 4 średniej arytmetycznej elementów próby...........................................6
23.2. RELACJE POMIĘDZY ŚREDNIMI .....................................................................................6
23.3. WYZNACZANIE WARIANCJI Z PRÓBY ............................................................................7
23.4. WSPÓŁCZYNNIK KORELACJI SPEARMANA ....................................................................8
23.5. WYZNACZANIE WSPÓŁCZYNNIKÓW REGRESJI METODĄ NAJMNIEJSZYCH KWADRATÓW 12
23.6. WŁASNOŚCI FUNKCJI REGRESJI ..................................................................................14
23.6.1. Własność 1........................................................................................................14
23.6.2. Własność 2........................................................................................................15
24. RACHUNEK PRAWDOPODOBIEŃSTWA ..............................................................16
24.1. PRAWA DE MORGANA ...............................................................................................16
24.1.1. Zdarzenie przeciwne do sumy zdarzeń – 1 prawo de Morgana...........................16
24.1.2. Zdarzenie przeciwne do iloczynu zdarzeń – 2 prawo de Morgana......................16
24.2. WŁASNOŚCI PRAWDOPODOBIEŃSTWA ........................................................................16
24.2.1. Prawdopodobieństwo zdarzenia niemoŜliwego ..................................................16
24.2.2. Monotoniczność prawdopodobieństwa ..............................................................17
24.2.3. Prawdopodobieństwo sumy dwóch zdarzeń .......................................................17
24.2.4. Prawdopodobieństwo zdarzenia przeciwnego....................................................17
24.2.5. NiezaleŜność zdarzeń przeciwnych ....................................................................18
24.3. PRAWDOPODOBIEŃSTWO CAŁKOWITE ........................................................................18
24.4. WZÓR BAYESA .........................................................................................................18
24.5. WŁASNOŚCI WARTOŚCI OCZEKIWANEJ I WARIANCJI ....................................................19
24.5.1. Wartość oczekiwana i wariancja iloczynu stałej i zmiennej losowej –
jednorodność ................................................................................................................19
24.5.2. Wartość oczekiwana sumy zmiennych losowych - addytywność .........................20
24.5.3. Wartość oczekiwana iloczynu zmiennych losowych............................................20
24.5.4. Wariancja sumy niezaleŜnych zmiennych losowych ...........................................21
24.5.5. Parametry rozkładu standaryzowanej zmiennej losowej ....................................21
24.6. PARAMETRY WYBRANYCH ROZKŁADÓW ....................................................................22
24.6.1. Wartość oczekiwana i wariancja zmiennej losowej o rozkładzie dwumianowym 22
24.6.2. Wartość oczekiwana rozkładu równomiernego ..................................................23
24.6.3. Współczynniki asymetrii i spłaszczenia rozkładu normalnego............................23
24.7. ROZKŁADY PRZYKŁADOWYCH FUNKCJI ZMIENNYCH LOSOWYCH ................................25
24.7.1. Rozkład zmiennej losowej będącej liniowym przekształceniem zmiennej losowej o
rozkładzie normalnym...................................................................................................25
24.7.2. Rozkład sumy niezaleŜnych zmiennych losowych o rozkładach normalnych.......26
24.8. ANALIZA KORELACJI I REGRESJI .................................................................................27
24.8.1. Własności współczynnika korelacji....................................................................27
24.8.2. Funkcja regresji drugiego rodzaju ....................................................................29
3
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
25. STATYSTYKA MATEMATYCZNA..........................................................................31
25.1. ROZKŁADY WYBRANYCH STATYSTYK ........................................................................31
25.1.1. Rozkład średniej z próby o rozkładzie normalnym .............................................31
25.1.2. Rozkład unormowanej średniej cechy o rozkładzie normalnym..........................31
25.1.3. Rozkład róŜnicy średnich niezaleŜnych cech o rozkładach normalnych..............32
25.1.4. Rozkład ilorazu wariancji z prób.......................................................................34
25.1.5. Rozkład wskaźnika struktury..............................................................................34
25.2. OBCIĄśONOŚĆ WARIANCJI Z PRÓBY ...........................................................................35
25.3. WYZNACZANIE ESTYMATORÓW METODĄ NAJWIĘKSZEJ WIAROGODNOŚCI ...................36
25.3.1. Estymator parametru p rozkładu zero-jedynkowego ..........................................36
25.3.2. Estymator parametru Θ rozkładu wykładniczego...............................................37
25.3.3. Estymator parametru rozkładu Poissona ...........................................................38
25.4. WYZNACZANIE WSPÓŁCZYNNIKÓW REGRESJI METODĄ NAJWIĘKSZEJ WIAROGODNOŚCI
.........................................................................................................................................38
4
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
23. STATYSTYKA OPISOWA
23.1. Własność średniej arytmetycznej elementów próby
23.1.1. Własność 1
Średnia arytmetyczna elementów próby (x1 , x 2 ,..., x n ) spełnia zaleŜność:
(23-1.1)
x min ≤ x n ≤ x max
Dowód
∧ x min ≤ x i ≤ x max
i
n
n
n
∑ x min ≤∑ x i ≤∑ x max
i =1
i =1
n
i =1
n
1
1
1 n
x min ≤ ∑ x i ≤ ∑ x max
∑
n i =1
n i =1
n i =1
1
1 n
1
⋅ n ⋅ x min ≤ ∑ x i ≤ ⋅ n ⋅ x max
n
n i =1
n
x min ≤
1 n
∑ x i ≤ x max
n i =1
x min ≤ x ≤ x max cbdu
23.1.2. Własność 2
Średnia arytmetyczna elementów próby (x1 , x 2 ,..., x n ) spełnia zaleŜność:
n
∑ (x
i
(23-1.2)
− xn ) = 0
i =1
Dowód
n
∑ (x
i
n
n
n
n
i =1
i =1
i =1
i =1
− x n ) = ∑ x i − x n ∑ 1 =∑ x i − n ⋅ x n = ∑ x i − n ⋅
i =1
n
n
1 n
x i = ∑ x i − ∑ x i = 0 cbdu
∑
n i =1
i =1
i =1
23.1.3. Własność 3
Średnia arytmetyczna elementów próby (x1 , x 2 ,..., x n ) spełnia zaleŜność
∑ (x
i
− xn ) =
xi > x n
∑ (x
n
− xi )
xi < x n
Dowód
n
∑ (x
i
∑ (x
∑ (x
− xn ) =
i =1
i
− xn ) +
xi < x n
∑ (x
∑ (x
− x n ) + ∑ (x i − x n )
∑ (x
xi > x n
i
− x n ) = 0 zgodnie z własnością 2 średniej arytmetycznej
xi >x n
i
− x n ) = − ∑ (x i − x in)
xi > x n
xi > x n
i
xi < x n
xi < x n
i
− xn ) =
∑ (x
n
− x i ) cbdu
xi < x n
5
(23-1.3)
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
23.1.4. Własność 4 średniej arytmetycznej elementów próby
Dla elementów próby (x1 , x 2 ,..., x n ) wyraŜenie
n
∑ (x
i
− c)2
(23-1.4)
i =1
ma wartość najmniejszą gdy c= x n
Dowód
Obliczamy pierwszą pochodną wyraŜenia i przyrównujemy ją do zera
n
n
d n
(x i − c)2 = 2∑ (x i − c) ⋅ (−1) = −2∑ ( x i − n ⋅ c ) = 0
∑
dc i =1
i =1
i =1
n
∑x
i
= n ⋅c
i =1
1 n
∑ xi = x n
n i =1
Druga pochodna jest równa
d2 n
∑ (x i − c)2 = 2n 2 > 0
dc 2 i =1
c=
Zatem wyraŜenie
n
∑ (x
i
− c)2 ma wartość najmniejszą gdy c= x n cbdu
i =1
23.2. Relacje pomiędzy średnimi
Wykazać prawdziwość zaleŜności pomiędzy elementami próby (x1 , x 2 ,..., x n ) :
1
1 n 2
 n
n 1 n
≤
x
≤
x
≤
xi
∑ i n∑
i
1 n 1  ∏
n i =1
i =1
i =1

∑
n i =1 x i
1
(23-2.1)
dla n=2
Dowód
Zwraca się uwagę, Ŝe elementy powyŜszej zaleŜności liczone od lewej to: średnia
harmoniczna, średnia geometryczna, średnia arytmetyczna i średnia kwadratowa.
Zapisujemy zaleŜność (23-2.1) dla n=2 w postaci
1
1
1 2
≤ a ⋅ b ≤ (a + b) ≤
(a + b 2 )
11 1
2
2
 + 
2a b
6
(23-2.2)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
Część 1
Udowodnimy, Ŝe
1
≤ a ⋅b
11 1
 + 
2a b
(a − b)2 ≥ 0 ; a 2 − 2ab + b 2 ≥ 0 + 2ab ; a 2 + b 2 ≥ 2ab : ab ;
a b
+ >2
b a
ab ab
ab ab
ab ab
1 1
2
+ 2 > 2 ; 2 + 2 > 2 + 2 ; 2 + 2 + 2 > 4 ; ab( 2 + 2 + ) ≥ 4
2
b a
b a
b a
a
b ab
1 1
1 1
4
ab( + )2 ≥ 4 : ( + )2 ; ab ≥
2
a b
a b
1 1
+


a b
;
ab ≥
2
;
1 1
+
a b
ab ≥
1
cbdu
11 1
+


2a b
Część 2
Udowodnimy, Ŝe
a ⋅b ≤
1
(a + b)
2
(a − b)2 ≥ 0 ; a 2 − 2ab + b 2 ≥ 0 + 4ab ; a 2 + 2ab + b 2 ≥ 4ab ; (a + b)2 > 4ab : 4 ;
(a + b)2
≥ ab
4
;
a+b
≥ ab cbdu
2
Część 3
Udowodnimy, Ŝe
1
1 2
(a + b) ≤
(a + b 2 )
2
2
(a − b)2 ≥ 0 ; a 2 − 2ab + b 2 ≥ 0 ; a 2 + b 2 ≥ 2ab + (a 2 + b 2 ) ; 2(a 2 + b 2 ) ≥ a 2 + 2ab + b 2 : 4 ;
a 2 + b 2 (a + b) 2
≥
2
4
a 2 + b2 a + b
≥
cbdu
2
2
;
23.3. Wyznaczanie wariancji z próby
Wykazać, Ŝe wariancję z próby (x1 , x 2 ,..., x n ) moŜna wyznaczyć ze wzoru
s 2n =
1 n
1 n
1 n
(x i − x n ) 2 = ∑ x i2 − ( ∑ x i ) 2
∑
n i =1
n i =1
n i =1
s 2n =
1 n
1 n
(x i − x n ) 2 = ∑  x i2 − 2x i ⋅ x n + (x n )2 
∑
n i =1
n i =1
Dowód
s 2n =
1 n 2
1 n
1 n
1 n
1
x i − 2x n ∑ x i + ∑ (x n )2 = ∑ x i2 − 2(x n ) 2 + n(x n )2
∑
n i =1
n i =1
n i =1
n i =1
n
2
1 n
1 n
1 n 
s = ∑ x i2 −(x n )2 = ∑ x i2 −  ∑ x i  cbdu
n i =1
n i =1
 n i =1 
2
n
7
(23-3.1)
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
23.4. Współczynnik korelacji Spearmana
Uzasadnić postać wzoru na współczynnik korelacji Spearmana
n
6 ∑ (ci − di )2
rS = 1 −
i =1
n(n 2 − 1)
(23-2.1)
i dokonać jego analizy.
Dowód
Podstawą rozwaŜań jest współczynnik korelacji Pearsona:
1 n
∑ (x − x)(yi − y)
n i =1 i
rP =
sxsy
(23-2.2)
1 n
∑ x i (23-2.3)
n i =1
1 n
y = ∑ yi (23-2.4)
n i =1
1 n
s x = ∑ (x i − x) 2 (23-2.5)
n i =1
1 n
s y = ∑ (yi − y)2 (23-2.6)
n i=1
Przy obliczaniu współczynnika Spearmana w powyŜszym wzorze zamiast wyników x i oraz
gdzie: x =
yi wykorzystuje się ich rangi ci oraz di , przy czym ci ∈ {1,..., n} , di ∈ {1,..., n}
Wykorzystamy wzory na sumy szeregów i wynikające z nich wartości średnich
arytmetycznych:
n
n(n + 1)
2
i =1
1 n
n +1
i = ∑i =
n i=1
2
n
n(n + 1)(2n + 1)
∑ i2 =
6
i =1
1 n
n(n + 1)(2n + 1)
i2 = ∑ i2 =
n i =1
6
∑i =
(23-2.7)
(23-2.8)
(23-2.9)
(23-2.10)
1) Obliczamy licznik wzoru na współczynnik korelacji Pearsona obliczany na podstawie
rang
L=
1 n
1 n
1 n
1 n
∑ ci di − d ∑ ci − c ∑ di + ∑ cd
n i=1
n i=1
n i =1
n i =1
8
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
Wykorzystując określenia (23-2.3) i (23-2.4) dla rang otrzymujemy
L=
1 n
1
1 n
1 n
∑ ci di − cd − cd + ncd = ∑ ci di − 2cd + cd = ∑ x i yi − cd
n i=1
n
n i=1
n i=1
Wykorzystując wzór (23-2.8) otrzymujemy
L=
1 n
(n + 1)2
∑ ci d i −
n i=1
4
Przekształcimy teraz pierwszy składnik powyŜszego wzoru.
Uwzględniając, Ŝe (ci − d i )2 = ci2 − 2ci d i + d i2 otrzymujemy ci di =
ci2 + d i2 − (ci − d i )2
2
Zatem
n
n
n
∑ ci2 + ∑ di2
i =1
2
∑ ci di = i=1
i =1
1 n
− ∑ (ci − d i )2
2 i =1
Wykorzystując wzór (23-2.9) otrzymujemy
n
∑ ci d i =
i =1
n(n + 1)(2n + 1) 1 n
− ∑ (ci − d i )2
6
2 i =1
Uwzględnimy teraz powyŜszy wynik do dalszego przekształcenia licznika wzoru na
współczynnik Perarsona obliczanego na podstawie rang
L=
(n + 1)(2n + 1) (n + 1)2 1 n
−
−
∑ (ci − di )2
6
4
2n i =1
RóŜnica pierwszych dwóch składników w powyŜszym wzorze jest równa
(2n 2 + n + 2n + 1) − 3(n 2 + 2n + 1+ ) 4n 2 + 6n + 2 − 3n 2 − 6n − 3 n 2 − 1
=
=
12
12
12
Czyli ostatecznie licznik wzoru na współczynnik Pearsona obliczany na podstawie rang
jest równy
L=
n2 +1 1 n
−
∑ (ci − di )2
12
2n i =1
2) Obliczymy teraz mianownik wzoru na współczynnik korelacji Pearsona obliczany na
podstawie rang. W pierwszej kolejności obliczymy sc2 określony analogicznym wzorem jak
(23-2.5)
sc2 =
n
1 n
1 n
1
1 n
∑ (ci − c) 2 = ∑ ci2 − 2c ∑ ci + ∑ (c) 2
n i=1
n i=1
n i=1
n i=1
Wykorzystując wzór (23-2.10) i oznaczenie (23-2.3) dla rang otrzymujemy
sc2 =
(n + 1)(2n + 1)
(n + 1)(2n + 1)
− 2c 2 + c 2 =
− c2
6
6
9
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
Po uwzględnieniu wzoru (23-2.8) mamy
sc2 =
=
(n + 1)(2n + 1) (n + 1)2 n + 1  2n + 1 n + 1  n + 1 4n + 2 − 3n − 3
−
=
−
=
=
6
2
2  3
2 
2
6
n +1 n −1 n 2 −1
=
2
6
12
Tyle samo wynosi sd2 . Czyli mianownik wzoru na współczynnik korelacji Pearsona
obliczany na podstawie rang jest równy
M = sc2sd2 =
n2 −1
12
3) Uwzględniając otrzymane postacie licznika i mianownika obliczamy postać wzoru na
współczynnik korelacji Perarsona w przypadku gdy wyniki mają postać rang.
n
n2 −1 1 n
−
6 ∑ (ci − di )2
∑ (ci − di ) 2
n
L
12 1
12
2n i=1
rP' =
=
= 1− 2
∑ (ci − di )2 = 1 − i=1 2
2
M
n −1
n − 1 2n i =1
n(n − 1)
12
Otrzymany wzór określa współczynnik korelacji Spearmana
n
6 ∑ (ci − di )2
rS = 1 −
i =1
n(n 2 − 1)
cbdu
4) Na zakończenie określimy zaleŜność współczynnika korelacji Spearmana od sumy
n
kwadratów róŜnic pomiędzy rangami S= ∑ (ci − di ) 2 ≥0.
i =1
rS = 1 −
6S
2
n(n − 1)
= 1 − cS c =
6S
n(n 2 − 1)
>0
•
ZaleŜność współczynnika korelacji rS od sumy S jest liniowa, przy czym wartość
współczynnika korelacji maleje ze wzrostem wartości tej sumy.
•
Współczynnik korelacji przyjmuje wartość maksymalną, jeŜeli S=0, wartość ta jest
równa jeden. Sytuacja ta występuje wtedy, jeŜeli rangi są parami równe ∧ ci = d i .
1≤i≤ n
W tym przypadku uporządkowanie wyników obu prób jest takie samo.
•
Wykorzystując to spostrzeŜenie obliczymy wartość współczynnika korelacji dla
przypadku, kiedy uporządkowania elementów pierwszej próby jest odwrotne do
uporządkowania elementów drugiej próby. W poniŜszej tabeli podano rangi dla
takiego przypadku.
10
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
Nr
elementu
Rangi
Kwadrat róŜnicy rang
1 próba
2
próba
Postać
1 składnik
2 składnik
3 składnik
1
1
n
(1-n)2
1
-2n
n2
2
2
n-1
(3-n)2
9
-6n
n2
3
3
n-2
(5-n)2
25
-10n
n2
…
…
…
…
…
…
…
25
-10b
n2
2
n-2
n-2
3
(n-5)
n-1
n-1
2
(n-3)2
9
-6n
n2
n
N
1
(n-1)2
1
-2n
n2
Sumy
S1
S2
S3
SUMA
S
Dla obliczenia sumy S naleŜy obliczyć sumy poszczególnych składników.
ZałóŜmy, Ŝe liczność próby n jest parzysta – dowód dla nieparzystej liczności próby
przebiega w sposób analogiczny. W takim przypadku w powyŜszej tabeli występują
takie same dwie części, górna i dolna – zawierające po n/2 wierszy, w których sumy
trzech składników są takie same.
Dla obliczenia sumy pierwszych składników w górnej części tabeli
wykorzystamy wzór na sumę kwadratów pierwszych n liczb nieparzystych:
n
∑ (2i − 1)2 =
i =1
n(4n 2 − 1)
3
Tak więc suma pierwszych składników górnej części tabeli jest równa:
n n 2 
4( ) − 1
n(n 2 − 1)
2  2

'
2
S1 = ∑ (2i − 1) =
=
3
6
i =1
n/2
Drugie składniki moŜna zapisać w postaci -2n(2i-1), i=1,2,…,n/20. A więc ich
suma jest równa:
n n
( + 1)
n
n3
n 
S'2 = ∑ [ −2n(2i − 1)] = − 4n ∑ i + 2n = −4n 2 2
+ n 2 = −n 2  + 1 + n 2 = −
2
2
2
2 
i =1
i =1
Suma trzecich składników jest równa:
n/2
n/2
S3' =
n 2 n3
n =
2
2
ZauwaŜmy, Ŝe S'2 +S3' =0, czyli S' =S1' . Zatem suma kwadratów róŜnic rang jest
równa podwojonej sumie pierwszych składników (naleŜy zsumować składniki
w górnej i dolnej części tabeli) i wynosi
S = 2S1' = 2
n(n 2 − 1) n(n 2 − 1)
=
6
3
11
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
W tym przypadku współczynnik korelacji Spearmana jest równy:
n(n 2 − 1)
3
rS = 1 −
= 1 − 2 = −1
2
n(n − 1)
6
•
Współczynnik korelacji Spearmana przyjmuje wartość zero, jeŜeli S spełnia warunek
6S
n(n 2 − 1)
=
1
,
tzn,
kiedy
S
=
, a więc jest równe połowie wartości
6
n(n 2 − 1)
maksymalnej.
•
Zatem wykres wartości współczynnika korelacji Spearmana w zaleŜności od sumy S
kwadratów róŜnic pomiędzy rangami ma postać następującą:
rS
1
S
0
n(n201)/3
n(n201)/6
-1
23.5. Wyznaczanie współczynników regresji metodą najmniejszych
kwadratów
Wykazać, Ŝe metodą najmniejszych kwadratów na podstawie elementów próby
(x1 , x 2 ,..., x n ) uzyskuje się następujące współczynniki w równaniu regresji jednej zmiennej
y = a⋅x +b
s
s
(23-5.1)
â = r y b̂ = y n − r y x n
sx
sx
Dowód
Metodą najmniejszych kwadratów współczynniki regresji wyznacza się z warunku
n
F(a, b) = ∑ (yi − a ⋅ x i − b) 2 → min
a,b
i =1
W dowodzie wykorzystamy dodatek 1.
Pochodne cząstkowego powyŜszego wyraŜenia względem a i b są równe
n
∂F(a, b)
= −2∑ (yi − ax i − b)x i
∂a
i =1
12
(19-8.2)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
n
∂F(a, b)
= −2∑ (yi − ax i − b)
∂b
i =1
Po przyrównaniu ich do zera otrzymujemy układ równań
n
n
n
∂F(a, b) n
2
ˆ
ˆ
ˆ i − b)x
ˆ
= ∑ (yi − ax
i = ∑ x i yi − a ∑ x i − b ∑ x i = 0
∂a
i =1
i =1
i =1
i =1
n
n
n
∂F(a, b)
ˆ = y − aˆ x − n ⋅ bˆ = 0
ˆ i − b)
= ∑ (yi − ax
∑
∑
i
i
∂b
i =1
i =1
i =1
(22-8.3)
Z drugiego równania otrzymujemy po wprowadzeniu oznaczenia średniej otrzymujemy
ˆ n
bˆ = y n − ax
(23-5.4)
Wstawiając do pierwszego z równań mamy
n
n
n
n
n
n
n
 n 2

2
ˆ
ˆ
ˆ
x
y
−
a
x
−
y
x
+
ax
x
=
x
y
+
y
x
−
a
x
−
x
∑
∑
∑
i i
i
n∑ i
n∑ i
i i
n∑ i
n ∑ xi  = 0
∑ i
i =1
i =1
i =1
i =1
i =1
i =1
 i =1
i =1

Zatem pierwszy z współczynników regresji jest równy
â =
n
∑ x i yi + y n ∑ x i
n
∑x y
i =1
n
i =1
n
i =1
∑x
i =1
2
i
− xn ∑ xi
n
i
=
i =1
n
∑x
i
+ nx n y n
(23-5.5)
2
i
− nx
2
n
i =1
Wprowadzając oznaczenie (wzór nosi nazwę współczynnika korelacji Pearsona)
1 n
∑ (x i − x n )(yi − yn )
n i =1
r=
sx ⋅ sy
1 n
1 n
(x i − x n ) 2 s y =
(yi − y n ) 2
∑
∑
n i =1
n i =1
otrzymujemy ostateczną postać pierwszego z współczynników regresji
sy
â = r
sx
PoniŜej sprawdzimy, ze tak faktycznie jest
(23-5.6)
gdzie: s x =
(23-5.7)
1 n
1 n
(x
−
x
)(y
−
y
)
(x i − x n )(yi − y n )
i
n
i
n
sy n ∑
sy n ∑
i =1
i =1
â = r =
=
=
sx
sx ⋅ sy
sx
s 2x
1 n
1 n
1 n
1 n
1 n
1 n
x i yi − y n ∑ x i − x n ∑ yi + ∑ x n y n
x i yi − 2x n y n + x n y n
∑
∑
∑ x i yi − x n y n
n
n i =1
n i =1
n i =1
n i =1
n i =1
= i =1
=
=
s 2x
s 2x
s 2x
Uwzględniając, Ŝe zgodnie z (23-6.1) mianownik jest równy
n
∑x
i =1
prawdziwość (23-5.7).
13
2
i
− nx n2 = n ⋅ s 2x wykazaliśmy
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
Drugi ze współczynników regresji wyznaczamy ze wzoru (23-5.4) podstawiając (23-5.7)
b̂ = y n − r
sy
sx
xn
(23-5.8)
Obliczamy teraz drugie pochodne funkcji F(a,b) – patrz (23-5. 1) i (23-5.2)
n
n
∂2F ∂
=
[
−
2
(y
−
ax
−
b)x
]
=
2
x i2
∑
∑
i
i
i
∂a 2 ∂a
i =1
i =1
2
n
n
∂ F
∂
= [ −2∑ (yi − ax i − b)] = 2∑ x i
∂a∂b ∂a
i =1
i =1
n
∂2F ∂
=
[
−
2
(yi − ax i − b)] =2n
∑
∂b 2 ∂b
i =1
Wyznaczamy teraz wartość wyznacznika
∂2F
∂a 2
W= 2
∂F
∂a∂b
n
∂2F
x i2
∑
∂a∂b
= 2 i =n1
2
∂F
xi
∑
∂b 2
i =1
n
∑x
i =1
n
i
2
 n 2 1  n  2 
 n 2  n  
2 1
= 2 n ∑ x i −  ∑ x i   = 2n  ∑ x i − 2  ∑ x i   =
n  i =1  
 i =1  
 i =1
 n i =1
 1 n 2  1 n  2 
= 2n  ∑ x i −  ∑ x i  
 n i =1  
 n i =1
2
Wykorzystując (23-6.1) otrzymujemy
n
1 n
(x i − x n )2 = 2n ∑ (x i − x n ) 2 >0
∑
n i =1
i =1
W = 2n 2 ⋅ s n2 = 2n 2
PoniewaŜ
n
∂2F
=
2
x i2 > 0 wykazaliśmy, Ŝe wyznaczone współczynniki regresji zapewniają
∑
∂a 2
i =1
n
minimum wyraŜenia F(a, b) = ∑ (yi − a ⋅ x i − b) 2 cbdu
i =1
23.6. Własności funkcji regresji
23.6.1. Własność 1
Suma róŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji jest
równa zeru
n
K = ∑ (yi − yˆ i ) = 0
(23-6.1)
i =1
gdzie:
ŷi = a y ⋅ x i + y − a y x = a y (x i − x) + y
Dowód
n
n
n
i =1
i =1
i =1
Obliczymy wartość K = ∑ (yi − yˆ i ) = ∑ yi − ∑ yˆ i
Uwzględniając (*) obliczymy wartość drugiej sumy
14
(*)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
n
n
∑ ŷ =∑ a
i
i =1
y
i =1
n
n
n
i =1
i =1
i =1
(x i − x) + y  = a y ∑ x i − a y ∑ x + ∑ y = a y nx − a y nx + ny = ny
Zatem
n
n
n
i =1
i =1
i =1
K = ∑ (yi − yˆ i ) = ∑ yi − ny =∑ yi − n
n
n
1 n
y
=
y
−
∑ i ∑
i ∑ y i = 0 cbdu
n i =1
i =1
i =1
23.6.2. Własność 2
Suma odchyleń dodatnich od funkcji regresji jest równa sumie odchyleń ujemnych
∑ (y
i
− yˆ i ) = ∑ (yˆ i − yi )
yi > yˆ i
yi < yˆ i
Dowód
n
∑ (y
i
− yˆ i ) =
n
∑ (y
i
− yˆ i ) =
∑ (y
i
yi > yˆ i
∑ (y
∑ (y
yi > yˆ i
i =1
yi > yˆ i
∑ (y
i
yi > yˆ i
i =1
− yˆ i ) + ∑ (yi − yˆ i )
yi < yˆ i
i
− yˆ i ) + ∑ (yi − yˆ i ) = 0 zgodnie z powyŜej wykazaną własnością
yi < yˆ i
− yˆ i ) = − ∑ (yi − yˆ i )
yi < yˆ i
i
− yˆ i ) = − ∑ (yˆ i − yi ) cbdu
yi < yˆ i
15
(23-6.2)
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
24. RACHUNEK PRAWDOPODOBIEŃSTWA
24.1. Prawa de Morgana
24.1.1. Zdarzenie przeciwne do sumy zdarzeń – 1 prawo de Morgana
Zdarzenie przeciwne do sumy zdarzeń jest równe iloczynowi zdarzeń przeciwnych
(A ∪ B)' = A ' ∩ B'
Dowód
(24-1.1)
Na podstawie definicji zbiorów równych, wystarczy udowodnić równowaŜność:
x ∈ (A ∪ B)' ⇔ x ∈ A ' ∩ B'
Weźmy dowolne zdarzenie elementarne x:
x ∈ (A ∪ B)' ⇔ x ∉ (A ∪ B) ⇔∼ (x ∈ (A ∪ B) ⇔∼ (x ∈ A ∨ x ∈ ∩B) ⇔∼ (x ∈ A)∧ ∼ (x ∈ B) ⇔
⇔ (x ∉ A) ∧ (x ∉ B) ⇔ x ∈ A ' ∧ x ∈ B' ⇔ x ∈ (A ' ∩ B' )
cbdu
24.1.2. Zdarzenie przeciwne do iloczynu zdarzeń – 2 prawo de Morgana
Zdarzenie przeciwne do iloczynu zdarzeń jest równe sumie zdarzeń przeciwnych
(A ∩ B)' = A ' ∪ B'
Dowód
(24-1.2)
Na podstawie definicji zbiorów równych, wystarczy udowodnić równowaŜność:
x ∈ (A ∩ B)' ⇔ x ∈ A ' ∪ B'
Weźmy dowolne zdarzenie elementarne x:
x ∈ (A ∩ B)' ⇔ x ∉ (A ∩ B) ⇔∼ (x ∈ A ∩ B) ⇔∼ (x ∈ A ∧ x ∈ B) ⇔∼ (x ∈ A)∨ ∼ x ∈ B) ⇔
⇔ x ∉ A ∨ x ∉ B ⇔ x ∈ A ' ∨ x ∈ B' ⇔ x ∈ (A ' ∪ B' )
24.2. Własności prawdopodobieństwa
24.2.1. Prawdopodobieństwo zdarzenia niemoŜliwego
Prawdopodobieństwo zdarzenia niemoŜliwego jest równe zeru
P(∅) = 0
Dowód
∅∪A = A
P(∅ ∪ A) = P(A)
P(∅ ) + P(A) = P(A) zgodnie z aksjomatyczną definicją prawdopodobieństwa i
uwzględnieniem, Ŝe ∅ ∩ A = ∅
P(∅ ) = P(A) − P(A)
P(∅ ) = 0 cbdu
16
(24-2.1)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
24.2.2. Monotoniczność prawdopodobieństwa
JeŜeli zdarzenie A pociąga zdarzenie B, to prawdopodobieństwo zdarzenia A jest nie większe
niŜ prawdopodobieństwo zdarzenia B
A ⊂ B ⇒ P(A) ≤ P(B)
(24-2.2)
Dowód
A ∪ (B − A) = B
P [ A ∪ (B − A) ] = P(B)
P(A) + P(B − A) = P(B) zgodnie z aksjomatyczną definicją prawdopodobieństwa i
uwzględnieniem, Ŝe A ∩ (B − A) = ∅
P(A) = P(B) − P(B − A)
P(A) ≤ P(B) bo P(B − A) ≥ 0 zgodnie z aksjomatyczną definicją prawdopodobieństwa cbdu
24.2.3. Prawdopodobieństwo sumy dwóch zdarzeń
Wykazać, Ŝe prawdopodobieństwo sumy dwóch zdarzeń jest równe sumie
prawdopodobieństw tych zdarzeń zmniejszonej o prawdopodobieństwo ich iloczynu
(24-2.3)
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Dowód
1) B = {[B − (A ∩ B)] ∪ (A ∩ B)} = [(B − A) ∪ (A ∩ B)]
P(B) = P {[B − (A ∩ B)] ∪ (A ∩ B)} = P[(B − A) ∪ (A ∩ B)]
P(B) = P(B − A) + P(A ∩ B) poniewaŜ zdarzenia B-A oraz (A∩B) wzajemnie się
wykluczają
P(B − A) = P(B) − P(A ∩ B)
2) A ∪ B = A ∪ (B − A)
P(A ∪ B) = P[A ∪ (B − A)]
P(A ∪ B) = P(A) + P(B − A) poniewaŜ zdarzenia A oraz (B-A) wzajemnie się wykluczają
P(B − A) = P(A ∪ B) − P(A)
3) P(B) − P(A ∩ B) = P(A ∪ B) − P(A) z porównania wyników w 1) i 2)
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) cbdu
24.2.4. Prawdopodobieństwo zdarzenia przeciwnego
Wykazać, Ŝe prawdopodobieństwa zdarzenia przeciwnego A ' jest równe róŜnicy 1 i
prawdopodobieństwa zdarzenia A
P(A ' ) = 1 − P(A)
(24-2.4)
Dowód
A ∪ A' = Ω
P(A ∪ A ' ) = P(Ω)
P(A) + P(A ' ) = P(Ω)
zgodnie
z
'
i z uwzględnieniem, Ŝe A ∩ A = ∅
aksjomatyczną
definicją
prawdopodobieństwa
P(A) + P(A ' ) = 1 bo P(Ω) = 1 zgodnie z aksjomatyczną definicją prawdopodobieństwa cbdu
17
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
24.2.5. NiezaleŜność zdarzeń przeciwnych
Wykazać, Ŝe jeŜeli zdarzenia A1 i A2 są niezaleŜne, to
a) A1 i A '2
są parami zdarzeń niezaleŜnych.
b) A1' i A2
c) A1' i A '2
Dowód
a) Uwzględniając, Ŝe zdarzenie przeciwne A '2 = Ω – A2 oraz korzystając z prawa
rozdzielności mnoŜenia ∩ względem odejmowania 1 - otrzymuje się
P(A1∩ A '2 ) = P(A1 ∩ (Ω – A2)) = P((A1 ∩ Ω) – (A1∩ A2)) = P(A1 – (A1∩ A2)).
PoniewaŜ A1∩ A2 ⊂ A2 to P(A1 – (A1∩ A2)) = P(A1) – P(A1∩ A2) 2 oraz
P(A1∩ A '2 ) = P(A1) – P(A1∩ A2)
zdarzenia A1 i A2 są z załoŜenia niezaleŜne, czyli P(A1∩A2) = P(A1)·P(A2). Zatem
uwzględniając, Ŝe dla zdarzenia przeciwnego P( A '2 ) = 1 – P(A2) otrzymuje się
P(A1∩ A '2 ) = P(A1) – P(A1) * P(A2) = P(A1) (1 – P(A2)) = P(A1) * P( A '2 )
b) Z a) wynika, Ŝe A1' i (A '2 ) ' są niezaleŜne, czyli A1' i A2 takŜe są niezaleŜne.
c) A1, A2 niezaleŜne ⇒ A1 i A '2 niezaleŜne ⇒ A1' i A2 niezaleŜne ⇒ A1' i A '2 niezaleŜne.
cbdu
24.3. Prawdopodobieństwo całkowite
JeŜeli zdarzenia A1, A2,..., Ak o dodatnich prawdopodobieństwach wykluczają się parami
i suma ich jest zdarzeniem pewnym, to dla dowolnego zdarzenia B zachodzi wzór
P(B) = P(A1)P(B/A1) + P(A2)P(B/A2) + … + P(Ak)P(B/Ak)=
k
∑ P(B / A ) ⋅ P(A ) (24-3.1)
i
i
i =1
Dowód
B = B ∩ Ω = B ∩ (A1 ∪ A 2 ∪ ... ∪ A k ) = (B ∩ A1 ) ∪ (B ∩ A 2 ) ∪ ... ∪ (B ∩ A k )
k
P(B) = P(B ∩ A1 ) + P(B ∩ A 2 ) + ... + P(B ∩ A k ) = ∑ P(B ∩ A i )
bo
zdarzenia
wzajemnie
I =1
wykluczają się
k
P(B) = ∑ P(B / A i ) ⋅ P(A i ) wykorzystanie wzoru na prawdopodobieństwo iloczynu zdarzeń
i =1
cbdu
24.4. Wzór Bayesa
Wykazać, Ŝe jeŜeli zdarzenia A1,A2,...,Ak o dodatnich prawdopodobieństwach wykluczają się
parami i suma ich jest zdarzeniem pewnym, zaś B jest dowolnym zdarzeniem o dodatnim
prawdopodobieństwie, to zachodzi wzór
1
2
A ∩ (B \ C) = (A ∩ B) \ (A ∩ C)
JeŜeli A ⊂ B to zdarzenie B moŜna przedstawić jako wynik operacji B = A ∪ (B – A), której prawdziwość
wynika bezpośrednio z ilustracji graficznej przypadku A ⊂ B, zatem P(B) = P(A ∪ (B – A)). Z ilustracji tej
wynika takŜe, Ŝe składniki tej sumy są rozłączne, czego konsekwencją jest, Ŝe prawdopodobieństwo sumy
zdarzeń jest równe sumie prawdopodobieństw P(B) = P(A) + P(B – A)
18
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
P(A j / B) =
P(A i ) ⋅ P(B / A i )
k
∑ P(B / Ai ) ⋅ P(Ai )
dla j=1, ... , k
(24-3.2)
i =1
Dowód
P(A j / B) =
P(A j / B) =
P(A j ∩ B)
P(B)
P(A j ∩ B)
P(B)
z definicji prawdopodobieństwa warunkowego
=
P(A i ) ⋅ P(B / A i )
k
∑ P(B / A ) ⋅ P(A )
i
wykorzystanie wzoru na prawdopodobieństwo
i
i =1
całkowite (24-3.1) cbdu
24.5. Własności wartości oczekiwanej i wariancji
24.5.1. Wartość oczekiwana i wariancja iloczynu stałej i zmiennej losowej –
jednorodność
Wykazać, Ŝe
E(aX) = aEX
2
2
(24-5.1)
2
D (aX) = a D X
(24-5.2)
gdzie a – stała
Dowód
Rozpatrzmy zmienna losową ciągłą. Ze wzoru na wartość oczekiwaną funkcji zmiennej
losowej
∞
E(aX) =
∞
∫ a ⋅ x ⋅ f (x)dx = a ∫ x ⋅ f (x)dx = a ⋅ EX
−∞
∞
D 2 (aX) =
2
∫ [a ⋅ x − EaX] ⋅ f (x)dx =
−∞
−∞
∞
2
∫ [a ⋅ x − aEX] ⋅ f (x)dx =
−∞
∞
∫ [a(x − EX)]
2
⋅ f (x)dx =
−∞
∞
= a 2 ∫ (x − EX) 2 ⋅ f (x)dx = a 2 ⋅ D 2 X
−∞
cbdu
W analogiczny sposób przebiega dowód dla zmiennej losowej skokowej.
Przy okazji udowadnia się, Ŝe dla dowolnej stałej
Ec=c
2
(24-5.3)
D c=0
(24-5.4)
W dowodzie przyjmuje się najpierw, Ŝe stała c jest realizacją dyskretnej zmiennej losowej o
rozkładzie jednopunktowym w punkcie c, zwanym takŜe rozkładem Diraca, dla którego
funkcja prawdopodobieństwa jest równa P(X=c)=1, czyli P(X≠c)=0. Zatem
Ec = EX = ∑ P(X = x i ) ⋅ x i = P(X = c) ⋅ c = 1 ⋅ c = c
i
D c= D X = ∑ P(X = x i ) ⋅ [x i − EX]2 = P(X = c) ⋅ (c −c) = 1 ⋅ 0 = 0 cbdu
2
2
i
19
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
24.5.2. Wartość oczekiwana sumy zmiennych losowych - addytywność
Wykazać, Ŝe jeśli X i Y są zmiennymi losowymi o wartościach oczekiwanych EX i EY
wówczas wartość oczekiwana sumy X + Y jest równa sumie ich wartości oczekiwanych
E(X + Y) = EX +EY
(24-5.5)
Dowód
Dowód opiera się o określenie wartości oczekiwanej funkcji zmiennej losowej h(X,Y):
• zmienne ciągłe
∞ ∞
E[h(X, Y)] =
∫ ∫ h(x, y) ⋅ f (x, y)dxdy
(24-5.6)
−∞ −∞
• zmienne skokowe
E[h(X, Y)] = ∑
i
∑ h(x , y ) ⋅p(x , y )
i
j
i
(24-5.7)
j
j
E(X+Y) moŜna zapisać w przypadku zmiennych skokowych, opierając się o określenie
(24-5.7)
E(X + Y) = ∑ ∑ (x i + y j ) ⋅ p(x i , y j )
i
j
Grupując odpowiednio składniki sumy w powyŜszym wzorze dostajemy
E(X + Y) = ∑ x i ∑ p(x i , y j ) + ∑ y j ∑ p(x i , y j ) =
i
j
j
i
= ∑ x i ⋅ p1 (x i ) + ∑ y j ⋅ p 2 (y j ) = E(X) + E(Y)
i
j
gdzie p1 (x i ) i p 2 (y j ) są rozkładami brzegowymi odpowiednio zmiennej X i Y, cbdu.
W sposób analogiczny uzasadnia się słuszność (24-5.5) w przypadku zmiennych ciągłych.
Przekształcenia są podobne, tyle Ŝe zamiast sum występują całki, a zamiast funkcji
prawdopodobieństwa, funkcja gęstości.
24.5.3. Wartość oczekiwana iloczynu zmiennych losowych
Wykazać, Ŝe jeśli X i Y są niezaleŜnymi zmiennymi losowymi o wartościach oczekiwanych
EX i EY wówczas wartość oczekiwana ich iloczynu jest równa iloczynowi ich wartości
oczekiwanych
(24-5.8)
E(X ⋅ Y) = EX ⋅ EY
Dowód
Słuszność powyŜszego wzoru wykaŜemy na przykładzie zmiennych ciągłych.
Wychodząc z określenia (24-5.6), mamy w naszym przypadku
∞ ∞
E(X ⋅ Y)] =
∫∫
∞ ∞
x ⋅ y ⋅ f (x, y)dxdy =
−∞ −∞
∞
=
∫
−∞
∫ ∫ x ⋅ y ⋅ f (x) ⋅ f (y)dxdy =
1
2
−∞ −∞
∞
x ⋅ f1 (x) ⋅ dx ∫ y ⋅ f 2 (y) ⋅ dy =EX ⋅ EY
−∞
cbdu
Analogicznie moŜna wykazać poprawność wzoru (24-123.1) w przypadku zmiennych
skokowych.
20
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
24.5.4. Wariancja sumy niezaleŜnych zmiennych losowych
Wykazać, Ŝe jeŜeli zmienne losowe są niezaleŜne, to wariancja ich sumy jest równa sumie ich
wariancji
(24-5.9)
D 2 (X + Y) = D 2 X + D 2 Y
Dowód
W dowodzie skorzystamy z zaleŜności
D 2 X = EX 2 − (EX) 2
której prawdziwość wykazuje się następująco
(24-5.10)
D 2 X = E(X − EX)2 = E[X 2 − 2X ⋅ EX + (EX)2 ] = EX 2 − 2(EX)2 + (EX) 2 = EX 2 − (EX)2
Podstawiając we wzorze (24-5.10) pod X sumę X+Y oraz uwzględniając, Ŝe wartość
oczekiwana sumy zmiennych równa jest sumie wartości oczekiwanych (24-5.5) otrzymuje się
D 2 (X + Y) = E(X + Y) 2 − [E(X + Y)]2 = E(X + Y)2 − (EX + EY)2
A oto dalsze przekształcenia
D 2 (X + Y) = E(X + Y)2 − (EX + EY)2 =
= E(X) 2 + 2E(X ⋅ Y) + E(Y)2 − (EX) 2 − 2EXEY − (EY)2
Dla niezaleŜnych zmiennych losowych E(X ⋅ Y) = EX ⋅ EY - patrz (24-5.8) – zatem
D 2 (X + Y) = E(X) 2 − (EX)2 + E(Y)2 − (EY) 2
Korzystając z (24-5.10) otrzymujemy
D 2 (X + Y) = D 2 X + D 2 Y cbdu
24.5.5. Parametry rozkładu standaryzowanej zmiennej losowej
Wykazać, Ŝe jeŜeli zmienna losowa X ma wartość oczekiwaną EX=m i odchylenie
standardowe DX=σ > 0 , to zmienna standaryzowana Y
X−m
Y=
σ
ma wartość oczekiwaną równą zeru i odchylenie standardowe równe jeden
EY=0, DY=1
(24-5.11)
Dowód
Wartość oczekiwana zmiennej Y jest równa
1
1
 X−m 1
EY = E 
 = E(X − m) = (EX − m) = ⋅ (m − m) = 0
σ
σ
 σ  σ
Wariancja zmiennej Y jest równa
2
1
1
X−m
2
2
2
2
D Y = E(Y − 0) = EY = E 
 = 2 E(X − 2mX + m ) = 2 (EX − m )
σ
σ
 σ 
Ale m to przecieŜ EX, a σ2 to D2X - czyli ostatecznie
2
2
D2 Y =
2
1
1
1
EX 2 − (EX) 2 ) = 2 D 2 X = 2 D 2 X = 1 cbdu
2 (
σ
σ
D X
21
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
24.6. Parametry wybranych rozkładów
24.6.1. Wartość oczekiwana i wariancja zmiennej losowej o rozkładzie dwumianowym
Wartość oczekiwana zmiennej losowej X n podlegającej rozkładowi dwumianowemu
n
P(X n = k) =   p k q n −k z parametrem p jest równa EX n = np
k
WykaŜemy to najpierw korzystając z definicji wartości oczekiwanej
n
n
n
EX n = ∑ k ⋅ P(X n = k) = ∑ k   p k q n −k
k =0
k =0  k 
n
n!
Uwzględniając, Ŝe   =
otrzymujemy
k
  k!(n − k)!
n
EX n = ∑ k
k =0
n!
p k q n −k
k!(n − k)!
k
Uwzględniając, Ŝe n!=n(n-1)! oraz p = p ⋅ p k −1 otrzymujemy
n k(n − 1)!
n
(n − 1)!
EX n = np ∑
p k −1q n − k = np ∑
p k −1q n −k
k!(n
k)!
(n
k)!(k
1)!
−
−
−
k =0
k =0
Podstawmy k-1 = r
n −1
(n − 1)!
(n − 1)!
p k −1q n −k = np ∑
p r q n −r −1
(n
k)!(k
1)!
(n
r
1)!(r)!
−
−
−
−
k =0
r =0
n
−
1


(n − 1)!
Ale
=
 czyli
(n − r − 1)!(r)!  r 
n −1  n − 1
r n − r −1
EX n = np ∑ 
p q
r =0  r 
n
EX n = np ∑
(*)
n −1  n − 1
Dla obliczenia ∑ 
p r q n −r −1 podstawmy m=n-1, otrzymamy wtedy

r =0  r 
n −1  n − 1 
m m
r n − r −1
r m −r
p
q
=
∑
∑

 p q
r =0  r 
r =0  r 
n n
Zgodnie ze wzorem Newtona (x + y)n = ∑   x n −k y k otrzymujemy
k =0  k 
m m
r m −r
= (p + q)m
∑  p q
r =0  r 
n −1  n − 1
Ale p + q =1, czyli ∑ 
p r q n −r −1 = 1

r =0  r 
Wykorzystując powyŜszy wynik w (*) mamy ostatecznie
EX n = np cbdu
PowyŜszą równość moŜna udowodnić w prostszy sposób uwzględniając, Ŝe zmienna losowa o
rozkładzie dwumianowym Xn jest sumą n niezaleŜnych zmiennych losowych o rozkładzie
dwupunktowym, których wartość oczekiwana jest równa p natomiast wariancja p(1-p).
22
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
Uwzględniając, Ŝe wartość oczekiwana sumy X + Y jest równa sumie ich wartości
oczekiwanych (24.5.5) otrzymujemy EX n = np .
Korzystając z własności wariancji: zmienne losowe są niezaleŜne, to wariancja ich sumy jest
równa sumie ich wariancji (24.5.9) otrzymujemy, Ŝe D 2 X n = np(1 − p)
24.6.2. Wartość oczekiwana rozkładu równomiernego
Dla przykładowej gęstości rozkładu normalnego, przedstawionej na poniŜszym rysunku
f(x)
1
b−a
a
b
x
x
Wartość oczekiwana jest równa średniej arytmetycznej końców przedziału x =
a+b
2
Intuicyjnie wartość oczekiwana „leŜy” pośrodku odcinka [a,b], jego połowa jest równa
Zatem
b−a
.
2
b − a 2a + b − a a + b
=
=
2
2
2
Wartość oczekiwaną moŜemy obliczyć korzystając z jej definicji
b
1
1 x2 b
1 b 2 − a 2 (b − a)(b + a) a + b
EX = ∫ x
dx =
=
=
=
b−a 2 a b−a
2
2(b − a)
2
a b−a
x=a+
2
2
2
Wariancję obliczymy z zaleŜności D X = EX − (EX) korzystając z obliczonej EX
b
1
1 b 2
1 x 3 b b3 − a 3 (b − a)(a 2 + 2ab + b 2 ) a 2 + 2ab + b 2
EX 2 = ∫ x 2
dx =
x
dx
=
=
=
=
∫
b−a
b−a a
b − a 3 a 3(b − a)
3(b − a)
3
a
Zatem
D2X =
2
a 2 + 2ab + b 2  a + b 
4a 2 + 8ab + 4b 2 − 3a 2 − 6ab − 3b 2 a 2 + 2ab + b 2 (a + b) 2
−
=
=
=

3
12
12
12
 2 
24.6.3. Współczynniki asymetrii i spłaszczenia rozkładu normalnego
WykaŜemy najpierw, Ŝe współczynnik asymetrii rozkładu normalnego jest równy zeru
E(X − m)3
γ=
=0
σ3
W tym celu przedstawimy wzór na współczynnik w postaci
E(X − m)3 E(X3 − 3X 2 m + 3Xm 2 − m3 ) EX3 − 3mEX 2 + 3m 2 EX − m3
γ=
=
=
σ3
σ3
σ3
W przykładzie zamieszczonym w punkcie 24.2 obliczyliśmy juŜ
m1 = EX = m x
m 2 = EX 2 = m 2x + σ 2x
σ = σx
23
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
Zatem naleŜy jeszcze obliczyć moment trzeciego rzędu. W tym celu korzystając z wyników
przykładu z punktu 24.2 wyznaczymy trzecią pochodną funkcji M X (t)
d3
d
M X (t) = [a(t)b 2 (t) + a(t)σ x2 ] = a '(t)b 2 (t) + a(t)2b(t)b '(t) + a '(t)σ2x
3
dt
dt
Wykorzystując wartości pochodnych a’(t)=a(t)b(t) i b’(t)= σ 2x otrzymujemy
d3
M X (t) = a(t)b3 (t) + 2a(t)b(t)σ 2x + a(t)b(t)σ2x = a(t)b3 (t) + 3a(t)b(t)σ2x
dt 3
Czyli uwzględniając, Ŝe a(0)=1 b(0)=mx
d3
m 3 = EX 3 = 3 M X (t) t =o = a(0)b3 (0) + 3a(0)b(0)σ x2 = m3x + 3m x σ2x
dt
Zatem współczynnik asymetrii rozkładu normalnego jest równy
m3x + 3m x σ2x − 3m x (m 2x + σ2x ) + 3m x 2 m x − m x 3
0
= 0 cbdu
σ3x
W drugiej kolejności wykaŜemy, Ŝe współczynnik spłaszczenia rozkładu normalnego
zmiennej losowej jest równy zeru
E(X − m) 4
kurt =
− 3 =0
σ4
W tym celu obliczmy najpierw wartość sumy
E(X − m) 4 E(X − m)(X − m)3 E(X − m)(X 3 − 3X 2 m + 3Xm 2 − m3 )
=
=
=
σ4
σ4
σ4
γ=
=
σ3x
=
E(X 4 − 3X3m + 3X 2 m 2 − Xm3 − X 3m + 3X 2 m 2 − 3Xm3 + m 4 )
=
σ4
E(X 4 − 4X3m + 6X 2 m 2 − 4Xm3 + m 4 ) EX 4 − 4mEX3 + 6m 2 EX 2 − 4m3EX + Em4
=
=
σ4
σ4
Do obliczenia tego współczynnika brakuje tylko momentu czwartego rzędu. W tym celu
korzystając z obliczonego powyŜej momentu trzeciego rzędu wyznaczymy czwartą pochodną
funkcji M X (t)
d2
d
M X (t) = [a(t)b3 (t) + 3a(t)b(t)σ x2 ] = a '(t)b3 (t) + a(t)3b 2 (t)b '(t) + 3a '(t)b(t)σ 2x + 3a(t)b '(t)σ x2
2
dt
dt
Wykorzystując wartości pochodnych a’(t) i b’(t) otrzymujemy
d2
M X (t) = a(t)b 4 (t) + a(t)3b 2 (t)σ 2x + 3a(t)b 2 (t)σ2x + 3a(t)σ4x
dt 2
Czyli
m 4 = EX 4 =
d4
M X (t) t =o = a(0)b 4 (0) + a(0)3b 2 (0)σ x2 + 3a(0)b 2 (0)σ 2x + 3a(0)σ 4x =
4
dt
= m4x + 6m 2x σ2x + 3σ4x
24
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
Zatem wartość sumy jest równa
kurt =
=
EX 4 − 4mEX 3 + 6m 2 EX 2 − 4m3EX + Em 4
=
σ4
m 4x + 6m 2x σ 2x + 3σ4x − 4m x (m3x + 3m x σ2x ) + 6m 2x (m 2x + σ2x ) − 4m3x m x + m 4x
σ4
m 4x + 6m 2x σ 2x + 3σ4x − 4m 4x − 12m 2x σ2x + 6m 4x + 6m 2x σ2x − 4m 4x + m 4x
=
3σ 4x
=3
σ4
σ4x
Uwzględniając otrzymany wynik w definicji współczynnika spłaszczenia dla rozkładu
normalnego mamy
E(X − m)4
kurt =
− 3 =3-3=0 cbdu
σ4
=
=
24.7. Rozkłady przykładowych funkcji zmiennych losowych
24.7.1. Rozkład zmiennej losowej będącej liniowym przekształceniem zmiennej losowej o
rozkładzie normalnym
Wykazać, Ŝe jeŜeli zmienna losowa X ma rozkład normalny X: N(mx, σx) to zmienna losowa
Y = aX + b ma takŜe rozkład normalny: X: N(amx+b, a σx)
X : N(m x , σ x ) ⇒ Y = aX + b : N(am x + b, a σ x )
(24-7.1)
Dowód
1. Obliczymy funkcję tworzącą momenty (24-2.1) dla zmiennej X o rozkładzie normalnym
N(mx, σx)
∞
M X (t) = ∫ e tx
−∞
−
1
e
2Πσ x
(x − m x ) 2
2σ2x
∞ tx −
1
dx =
∫e
2Πσ x −∞
(x − m x ) 2
2σ 2x
dx
Wprowadźmy nową zmienną:
v=
x − mx
σx
skąd
x = vσx+ mx oraz dx = dvσx
Zatem
v2
v2
tm x ∞ tvσ −
∞ t(vσ x + m x ) −
x
σx
2 dv = e
2 dv
M X (t) =
∫e
∫e
2Πσ x −∞
2Π −∞
MoŜna łatwo sprawdzić, Ŝe wykładnik w wyraŜeniu podcałkowym moŜna zapisać
w postaci:
v2 1 2 2 1
tvσ x −
= t σ x − (v − tσ x ) 2
2 2
2
Zatem
tm
∞
e
M X (t) =
∫
2Π −∞
t 2 σ2x (v − tσ x ) 2
−
2
e 2
dv
25
=
e
tm x +
t 2σ x2
2 ∞
2Π
∫e
−∞
−
(v − tσ x ) 2
2
dv
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
Wprowadźmy nową zmienną a = v – tσx, przy której dv= da. Zatem
M X (t) =
e
tm x +
t 2σ 2x
2 ∞
∫e
2Π
∫e
−
a2
2 da
a2
2 da
−∞
PoniewaŜ moŜna udowodnić, Ŝe
∞
−
= 2Π
−∞
funkcja tworząca momenty dla zmiennej X o rozkładzie normalnym ma postać
tm x +
M X (t) = e
Wykorzystując zaleŜność (24-2.3) otrzymujemy
t 2 σ2x
2
(24-7.2)
M Y (t) = M aX + b (t) = e bt M X (at)
A po wykorzystaniu (24-15.2) mamy
bt
bt
M Y (t) = M aX + b (t) = e M X (at) = e e
atm x +
a 2 t 2 σ2x
2
=e
t (am x + b)
e
t 2 (a 2 σ2x )
2
Porównując postać MY(t) z MX(t) moŜna zauwaŜyć, Ŝe MY(t) jest funkcją tworzącą
momenty zmiennej losowej Y = aX + b o rozkładzie: N(amx+b, a σx) a poniewaŜ funkcja
tworząca momenty zmiennej losowej wyznacza jednoznacznie jej rozkład, więc
rzeczywiście rozkład funkcji liniowej Y = aX +b zmiennej losowej X o rozkładzie
normalnym jest rozkładem normalnym o w/w parametrach. cbdu
Na podstawie powyŜszego twierdzenia moŜna łatwo udowodnić, Ŝe:
X−m
X : N(m, σ) ⇒ Y =
: N(0,1)
σ
Dowód:
X−m 1
m
1
m
Y=
= X + (− ) = a 'X + b ' gdzie: a ' = X oraz b ' = −
σ
σ
σ
σ
σ
m m
1
m y = a '⋅ m + b ' = − = 0 σ y = a ' σ = σ = 1 cbdu
σ σ
σ
24.7.2. Rozkład sumy niezaleŜnych zmiennych losowych o rozkładach normalnych
Wykazać, Ŝe jeŜeli X i Y są niezaleŜnymi zmiennymi losowymi, przy czym X: N(mx, σx)
i Y: N(my, σy) to ich suma Z = X + Y ma rozkład N(mx+my, σ2x + σ2y ).
X : N(m x , σ x ) Y : N(m y , σ y ), f3 (x, y) = f1 (x) ⋅ f 2 (y) ⇒ X + Y : N(m x + m y , σ2x + σ2y ) (24-7.3)
Dowód
Uwzględniając postać funkcji tworzącej momenty zmiennej losowej o rozkładzie normalnym
(24-7.2) i jej własność (24-2.4) obliczymy funkcję tworzącą zmiennej losowej będącą sumą
niezaleŜnych zmiennych losowych o rozkładach normalnych
M X + Y (t) = e
tm x +
t 2 σ2
t 2σ 2x
tm y + y
2 e
2
26
=e
t(m x + m y )
t 2 ( σ2x +σ 2y )
e
2
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
Porównując postać MX+Y(t) z MX(t) moŜna zauwaŜyć, Ŝe MX+Y(t) jest funkcją tworzącą
momenty zmiennej losowej N(mx+my, σ 2x + σ2y ) , a poniewaŜ tworząca momenty zmiennej
losowej o danym rozkładzie wyznacza jednoznacznie rozkład tej zmiennej więc rzeczywiście
rozkład sumy niezaleŜnych zmiennych losowych o rozkładach normalnych jest
rozkładem normalnym N(mx+my, σ 2x + σ2y ) . cbdu
Własność powyŜszą często nazywa się własnością addytywności rozkładu normalnego.
Rozkład normalny ma takŜe inną ciekawą własność:
JeŜeli Z = X + Y, przy czym:
• zmienna Z ma rozkład normalny
• zmienne X i Y są niezaleŜne
to kaŜda ze zmiennych X i Y musi mieć rozkład normalny. Własność tą określa twierdzenie
Cramera, które moŜna wypowiedzieć takŜe w sposób następujący: Jeśli suma dwóch
zmiennych losowych niezaleŜnych ma rozkład normalny, to kaŜda zmienna losowa będąca
składnikiem sumy ma teŜ rozkład normalny.
24.8. Analiza korelacji i regresji
24.8.1. Własności współczynnika korelacji
1) Współczynnik korelacji spełnia podwójną nierówność:
−1 ≤ ρ ≤ 1
(24-8.1)
2) Warunkiem koniecznym i wystarczającym na to, aby
P(Y = a ⋅ X + b) = 1 gdzie a ≠ 0
(24-8.2)
jest
ρ2 = 1
(24-8.3)
co moŜna zapisać w postaci
ρ2 = 1 ⇔ P(Y = a ⋅ X + b) = 1 gdzie a ≠ 0
(24-8.4)
Dowód
Ad 1)
Podstawą jest zmienna losowa
Z(t) = [t ⋅
(X − m x ) (Y − m y ) 2
+
]
σx
σy
(24-8.5)
gdzie t dowolna stała
Obliczamy jej wartość oczekiwaną korzystając z (24-8.5)
t2
1
1
EZ(t) = 2 E(X − m x )2 + 2 E(Y − m y ) 2 + 2t
E  (X − m x )(Y − m y )  =
σx
σy
σx σy 
t2 2 1 2
1
= 2 σ x + 2 σ y + 2t
µ11 = t 2 + 1 + 2tρ
σx
σy
σx σy
(24-8.6)
Z przyjmuje tylko wartości nieujemne (funkcja kwadratowa), stąd jej wartość oczekiwana
przyjmuje takŜe tylko nieujemne wartości
t 2 + 1 + 2tρ ≥ 0
(24-8.7)
27
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
Aby warunek ten zachodził dla dowolnego t musi być ρ2 − 1 ≤ 0 (jest to warunek na to, aby
dla równania (24-8.6) ∆ = b 2 − 4ac = 4ρ2 − 4 = 4(ρ2 − 1) ≤ 0 ), z czego bezpośrednio wynika
(24-8.1) cbdu
Ad 2)
ZałóŜmy, ze warunek (24-8.3) jest spełniony. Wtedy
m y = EY = E(a ⋅ X + b) = a ⋅ m x
µ11 = E(X − m x )(Y − m y ) = E[(X − m x )(aX + b − am x − b)] = E[(X − m x )(aX − am x )] =
= a ⋅ E[(X − m x )(X − m x )] = a ⋅ E[(X − m x )2 ] = a ⋅ σ 2x
σ2y = E(Y − m y ) 2 = E(aX + b − m y ) 2 = E(aX + b − am x − b) 2 = E(aX − am x )2 = a 2 E(X − m x ) 2 = a 2 σ2x
Uwzględniając w definicji współczynnika korelacji powyŜsze wyniki otrzymujemy, Ŝe jego
kwadrat jest równy
µ2
σ2
σ2
ρ2 = 2 11 2 = a 2 2x = a 2 2 x 2 = 1
σx σy
σy
a σx
co naleŜało wykazać.
WykaŜemy teraz, Ŝe z załoŜenia (24-8.3) wynika (24-18.2).
PowyŜej udowodniono, Ŝe wartość oczekiwana zmiennej losowej Z(t) określonej (24-8.5)
jest równa
EZ(t) = t 2 + 2tρ + 1
WyróŜnik trójmianu kwadratowego t 2 + 2tρ + 1 jest określony zaleŜnością ∆ = 4(ρ2 − 1) i przy
załoŜeniu (24-8.3) przyjmuje wartość 0. Więc trójmian ma jedno miejsce zerowe równe
t0 = −
Dla tego miejsca zerowego
b
2ρ
=−
= −ρ
2a
2
EZ(−ρ) = 0
czyli zmienna losowa Z(t) ma rozkład zero-jedynkowy, a wartość –ρ występuje z
prawdopodobieństwem 1.
JeŜeli EZ(−ρ) = 0 to takŜe Z(−ρ) = 0 . RozwiąŜemy teraz równanie
Uwzględniając (24-8.5) otrzymujemy
[−ρ ⋅
(X − m x ) (Y − m y ) 2
+
] =0
σx
σy
i w konsekwencji
(X − m x ) (Y − m y )
+
=0
σx
σy
RozwiąŜemy to równanie względem Y
(Y − m y )
(X − m x )
= ρ⋅
σy
σx
−ρ⋅
Y − my =
σy
σx
ρ ⋅ (X − m x )
28
Z(−ρ) = 0 .
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
Y=
σy
σx
ρ⋅X −
σy
σx
ρ ⋅ mx + my
(*)
Wprowadzając oznaczenia
a=
σy
σx
ρ oraz b = −
σy
σx
ρ ⋅ mx + my
moŜemy zapisać (*) w postaci Y = a ⋅ X + b , która przy ρ2 = 1 występuje z
prawdopodobieństwem równym 1.
Zatem wykazaliśmy prawdziwość (24-8.4) cbdu
Uwaga:
PoniewaŜ ρ2 = 1 więc ρ = 1 lub ρ = -1.
JeŜeli ρ = 1 to a =
a=
σy
σx
σy
σx
ρ >0 czyli zaleŜność Y = a ⋅ X + b jest rosnąca. JeŜeli ρ = -1 to
ρ < 0 czyli zaleŜność Y = a ⋅ X + b jest malejąca.
24.8.2. Funkcja regresji drugiego rodzaju
Wykazać, Ŝe funkcja Y = aX + b jest funkcją regresji 2 rodzaju, tzn. zapewnia minimum
wyraŜenia
F(a,b)= E[Y − (aX − b)]2 → min
(24-8.11)
jeŜeli jej współczynniki są równe
σ
σ
â = ρ x oraz b̂ = m x − ρ x m y
σy
σy
tzn. ma postać
σ
σ
Y = ρ x X + mx − ρ x my
(24-8.12)
σy
σy
Dowód
W dowodzie wykorzystamy dodatek 1.
WyraŜenie będące podstawą wyznaczenia funkcji regresji moŜna przekształcić w sposób
następujący
[Y − (aX + b)]2 = [Y − (aX + b) + (m y − m y + a ⋅ m x − a ⋅ m x )]2 =
= [(Y − m y ) − a 2 (X − m x ) + (m y − a ⋅ m x − b)]2
Korzystając z (24-5.3) i (24-5.5) oraz wprowadzając znane oznaczenia otrzymujemy funkcję
kryterium (24-8.11) w postaci
F(a, b) = E(Y − m y ) 2 + a 2 E(X − m x )2 + (m y − a ⋅ m x − b) 2 − 2aE(X − m x )(Y − m y ) =
= σ 2y + a 2 σ2x + (m y − a ⋅ m x − b)2 − 2aµ11
29
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
Dla znalezienia minimum powyŜszego wyraŜenia obliczamy jego pochodne względem a i b
oraz przyrównujemy je do zera otrzymując
∂F(a, b)
ˆ − 2µ = 0
= 2aˆσ 2x − 2m x (m y − aˆ ⋅ m x − b)
11
∂a
(20-18.13)
∂F(a, b)
ˆ =0
= −2(m y − aˆ ⋅ m x − b)
∂b
Z drugiego równania otrzymujemy
bˆ = m y − aˆ ⋅ m x
(24-18.14)
i wstawiamy do pierwszego równania
2aˆσ 2x − 2m x (m y − aˆ ⋅ m x − m y + aˆ ⋅ m x ) − 2µ11 = 2aˆσ2x − 2µ11 = 0
Stąd otrzymujmy, Ŝe pierwszy ze współczynników regresji jest równy
µ
(24-18.15)
â = 112
σx
Wstawiając (24-8.15) do (24-8.14) mamy zaleŜność do wyznaczenia drugiego współczynnika
µ
(24-18.16)
b̂ = m y − 112 ⋅ m x
σx
Uwzględniając, Ŝe współczynnik korelacji jest równy
µ
ρ = 11
σx σ y
otrzymujemy ostatecznie
σ
σ
â = ρ x b̂ = m y − ρ x m x
(24-18.17)
σy
σy
Sprawdzimy teraz wykorzystując drugie pochodne, czy wyznaczone współczynniki
minimalizują funkcję kryterium F(a, b) .
∂ 2 F(a, b) ∂ ∂F(a, b) ∂
=
= [2aσ2x − 2m x (m y − a ⋅ m x − b) − 2µ11 ] = 2σ 2x + 2m 2x
∂a 2
∂a ∂a
∂a
2
∂ F(a, b) ∂ ∂F(a, b) ∂
=
= [−2(m y − a ⋅ m x − b)] = 2m x
∂a∂b
∂a ∂b
∂a
2
∂ F(a, b) ∂ ∂F(a, b) ∂
=
= [−2(m y − a ⋅ m x − b)] = 2
∂b 2
∂b ∂b
∂b
Wyznaczamy teraz wartość wyznacznika
∂2F
∂a 2
W= 2
∂ F
∂a∂b
∂2F
2
2
∂a∂b 2σ x + 2m x
=
2m x
∂2F
2
∂b
2m x
2
=2
m 2x + σ2x
mx
mx
1
= 2(m 2x + σ 2x − m 2x ) = 2σ2x > 0
∂2F
= 2σ2x + 2m 2x > 0 wykazaliśmy, Ŝe wyznaczone współczynniki regresji
2
∂a
zapewniają minimum wyraŜenia F(a,b)= E[Y − (aX − b)]2 cbdu
PoniewaŜ
30
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25. STATYSTYKA MATEMATYCZNA
25.1. Rozkłady wybranych statystyk
25.1.1. Rozkład średniej z próby o rozkładzie normalnym
Średnia arytmetyczna niezaleŜnych elementów próby X n =
rozkład X n : N(m,
1 n
∑ Xi gdy Xi: N(m,σ) ma
n i =1
σ
)
n
X i : N ( m, σ ) ⇒ X n =
σ
1 n
X i : N(m,
)
∑
n i =1
n
(25-1.1)
Dowód
Dowód przebiega podobnie jak dla twierdzenia (23-7.2) z rachunku prawdopodobieństwa.
Wykorzystamy funkcję tworzącą momenty (23-2.1)
Zgodnie z twierdzeniem (23-7.2) zmienna losowa
n
∑X
i
ma rozkład N(n ⋅ m, n ⋅ σ) i zgodnie
i =1
z (23-7.2) funkcja tworząca momenty ma postać:
M n (t) = e
∑ Xi
tnm +
t 2 nσ 2
2
i=1
Zgodnie z (23-2.2) otrzymujemy
MX
n
tm +
t
= M 1 n (t) = M n ( ) = e
∑ Xi n
∑ Xi
n i =1
t 2σ 2 1
⋅
2 n
i=1
Porównując otrzymany wynik z z funkcją tworzącą rozkładu normalnego (23-15.3) widać, Ŝe
istotnie otrzymana funkcja tworząca zmiennej X n jest funkcją tworzącą rozkładu normalnego
z wartością oczekiwana m i wariancją
σ2
σ
, co moŜna zapisać X n : N(m,
) cbdu
n
n
25.1.2. Rozkład unormowanej średniej cechy o rozkładzie normalnym
W podpunkcie 6.2.6. podaliśmy definicję rozkładu Studenta z n stopniami swobody jako
rozkładu zmiennej losowej
X
Tn =
Yn /n
gdzie X jest zmienną losową o rozkładzie normalnym N(0,1), Yn zmienną losową
o rozkładzie χ 2 z n stopniami swobody, X i Yn są zmiennymi losowymi niezaleŜnymi.
Jeśli cecha X populacji ma rozkład normalny N(m, σ) , to statystyka
X -m
Un = n
n-1
Sn
ma rozkład Studenta z n - 1 stopniami swobody.
31
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
Rzeczywiście, zmienna losowa
X n -m
ma rozkład normalny N(0,1), zaś zmienna losowa
σ/ n
nS2n
ma rozkład χ 2 z n-1 stopniami swobody oraz jak moŜna udowodnić obie zmienne
σ2
losowe są niezaleŜne, więc statystyka
X n -m
nS2
: 2 n
σ/ n σ (n-1)
ma rozkład Studenta z n-1 stopniami swobody. Ale
X -m
σ n-1 X n -m
Un = n
n
=
n-1
σ
Sn
nSn
Un =
25.1.3. Rozkład róŜnicy średnich niezaleŜnych cech o rozkładach normalnych
Badane są dwie populacje: pierwsza ze względu na cechę X druga ze względu na cechę Y.
Oznaczenia
n1 - liczebność próby pobranej z pierwszej populacji
X n1 - średnia z próby pobranej z pierwszej populacji
S2n1 - wariancja z próby pobranej z pierwszej populacji
n2 - liczebność próby pobranej z drugiej populacji
Yn 2 - średnia z próby pobranej z drugiej populacji
S2n 2 - wariancja z próby pobranej z drugiej populacji
Jeśli cechy X i Y są niezaleŜne i mają rozkłady normalne odpowiednio N(m, σ1 ) i N(m, σ 2 ) ,
to statystyka
X n1 -Yn 2
U n1n 2 =
σ12 σ 22
+
n1 n 2
ma rozkład normalny N(0,1).
Twierdzenie to wynika z twierdzenia o rozkładzie róŜnicy zmiennych losowych niezaleŜnych
o rozkładach normalnych.
Jeśli cechy X i Y są niezaleŜne i mają jednakowe rozkłady normalne N(m, σ ), to statystyka
X n1 -Yn2
n1 n 2
U n1n 2 =
(n1 +n 2 -2)
2
2
n1Sn +n 2Sn n1 +n 2
1
2
ma rozkład Studenta z n1+n2-2 stopniami swobody.
Rzeczywiście,

statystyka X n1 ma rozkład normalny N  m,



statystyka Yn 2 ma rozkład normalny N  m,





σ 

n 2 
σ
n1
32
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

1 1 
statystyka X n1 - Yn 2 ma rozkład normalny N  0,σ
+ 
n1 n 2 

X n1 -Yn 2 n1n 2
więc statystyka
ma rozkład normalny N(0,1)
σ
n1 +n 2
n1S2n1
ma rozkład χ 2 z n1-1stopniami swobody
σ2
n 2 S2n 2
zaś statystyka
ma rozkład χ 2 z n2-1stopniami swobody
σ2
n1S2n1 +n 2 S2n 2
zatem statystyka
ma rozkład χ 2 z n1 +n 2 -2 stopniami swobody
2
σ
zatem zgodnie z definicją rozkładu Studenta, statystyka
statystyka
X n1 -Yn 2
σ
n1S2n1 +n 2 S2n 2
n1 n 2
: 2
n1 +n 2
σ (n1 +n 2 -2)
czyli statystyka
X n1 -Yn 2
n1Sn21 +n 2 Sn2 2
n1 n 2
(n1 +n 2 -2)
n1 +n 2
ma rozkład Studenta z n1 +n 2 -2 stopniami swobody.
Jeśli cechy X i Y są niezaleŜne i mają dowolne rozkłady o tej samej wartości oczekiwanej m
i o odchyleniach standardowych dodatnich (niekoniecznie równych), to statystyka
X n1 -Yn2
U n1n 2 =
S2n1 S2n 2
+
n1 n 2
ma rozkład w przybliŜeniu normalny N(0,1) , dla duŜych n1 i n2.
Rzeczywiście, na podstawie twierdzenia o rozkładzie asymptotycznym średniej z próby (ppkt

σ 
14.2.2) statystyki X n1 i Yn 2 mają rozkłady w przybliŜeniu normalne N  m, 1  i

n1 


σ 
N  m, 2  ,

n 2 

więc statystyka
X n1 -Yn 2
σ12 σ 22
+
n1 n 2
ma rozkład w przybliŜeniu normalny N(0,1). Rozkład nadal pozostanie rozkładem
w przybliŜeniu normalnym N(0,1), gdy wariancje populacji σ12 i σ22 zastąpimy wariacjami z
próby S2n1 i S2n 2 .
33
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
25.1.4. Rozkład ilorazu wariancji z prób
Wcześniej zdefiniowaliśmy rozkład Snedecora z parą stopni swobody (r1, r2) jako rozkład
Y/r
zmiennej losowej3 F= 1 , gdzie Y i Z są niezaleŜnymi zmiennymi losowymi o rozkładach
Z/r2
χ 2 odpowiednio z r1 i r2 stopniami swobody.
Jeśli cechy X i Y populacji mają rozkłady normalne odpowiednio N(m1, σ ) i N(m2, σ ) i są
niezaleŜne, to statystyka
U n1n 2 =
n1Sn1 /(n1 -1)
n 2Sn2 /(n 2 -1)
, czyli statystyka U n1n 2 =
Ŝ2n1
Ŝ2n 2
ma rozkład Snedecora o parze (n1 − 1, n 2 − 1) stopni swobody.
Rzeczywiście statystyka
n 2S2n 2
σ
2
n1S2n1
σ
2
ma rozkład χ 2 z n1 - 1stopniami swobody, zaś statystyka
ma rozkład χ 2 z n2 – 1 stopniami swobody, zatem statystyka
n1S2n1
σ2
n 2S2n 2
:(n1 -1)
=
:(n 2 -1)
n1S2n1 /(n1 -1)
n 2S2n 2 /(n 2 -1)
σ2
ma rozkład Snedecora z parą (n1 – 1, n2 – 1) stopni swobody.
25.1.5. Rozkład wskaźnika struktury
Oznaczenia
Yn - zmienna losowa oznaczająca liczbę sukcesów w n doświadczeniach Bernoulliego4,
p - prawdopodobieństwo sukcesu w jednym doświadczeniu,
Yn
- wskaźnik struktury (częstość sukcesu).
n
PoniewaŜ zmienna losowa Yn ma rozkład dwumianowy z parametrami n i p, więc zgodnie
z integralnym tw. Moivre’a-Laplace’a ma ona rozkład asymptotycznie normalny
Yn
ma rozkład asymptotycznie normalny
N np, np(1-p) , zatem częstość sukcesu
n

p(1-p) 
N  p,
 , co zapiszemy w poniŜszej postaci.
n


(
)

Yn
p(1-p) 
ma rozkład asymptotycznie normalny N  p,
 , gdzie p jest
n
n 

prawdopodobieństwem sukcesu w jednym doświadczeniu.
Częstość sukcesu
3
4
Patrz pkt 6.2.7.
jw. ppkt 6.1.3.
34
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25.2. ObciąŜoność wariancji z próby
Wykazać, Ŝe wariancja z próby S2n jest estymatorem obciąŜonym wariancji σ2 cechy
populacji.
(25-2.1)
ES2n = σ 2
Dowód
Obliczymy wartość oczekiwaną wariancji E(S2n ) . Korzystając z (23-6.1)
S2n =
1 n 2 1 n

Xi −  ∑ Xi 
∑
n i =1
 n i =1 
2
otrzymujemy
E(S2n ) =
1 n
1 n

2
E(X
)
−
E
Xi 
∑
∑
i

n i =1
 n i =1 
2
Zmienne Xi (i=1,2,…,n) mają identyczne rozkłady, zatem E(X i2 ) przyjmuje taką samą
wartość dla wszystkich i, wartość tą oznaczamy przez E(X2), czyli
1 n
∑ E(Xi2 ) =E(X 2 )
n i =1
Z kolei


2
1 n 2 1
1 n
1
1 n


E  ∑ X i  = E 2 ∑ X i + 2 ∑ X jX k  = 2 ∑ E(X i2 ) + 2 ∑ E(X j )E(X k )


n j,k
n j,k
 n i =1 
 n i =1
 n i =1
j≠ k
j≠ k


PoniewaŜ E(X j ) = E(X k ) = m dla j,k=1,2,…,n oraz uwzględniając oznaczenie E(X2).
2
1
1 n

E  ∑ Xi  = 2
n
 n i =1 
n
1
∑ E(X ) + n ∑ m ⋅ m
i =1
2
2
j,k
j≠ k
Liczba par (j,k) j,k=1,…,n jest równa n ⋅ n , a liczba par (j,k) w których j=k jest równa n.
Zatem liczba par w drugiej z powyŜszych sum jest równa n ⋅ n - n = n ⋅ (n − 1) . Zatem
2
1
1 n
 1
E  ∑ X i  = E(X 2 ) + 2 n(n − 1)m 2
n
 n i =1  n
Zatem wartość oczekiwana wariancji z próby
1
n −1 2
1 n −1 2
E(S2n ) = E(X 2 ) − E(X 2 ) −
m = E(X 2 )(1 − ) −
m =
n
n
n
n
n −1 n −1 2 n −1
 E(X 2 ) − m 2 
= E(X 2 )
−
m =
n
n
n
2
2
2
Ale E(X ) − m = σ , czyli ostatecznie
n −1 2
E(S2n ) =
σ
n
Otrzymany wynik wskazuje, ze wariancja z próby S2n jest obciąŜonym estymatorem wariancji
σ2 gdyŜ E(S2n ) ≠ σ2 . Cbdu
35
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
25.3. Wyznaczanie estymatorów metodą największej wiarogodności
25.3.1. Estymator parametru p rozkładu zero-jedynkowego
Wykazać, Ŝe metodą największej wiarogodności na podstawie próby (x1 , x 2 ,..., x n ) której
elementy xi są równe 0 lub 1, otrzymuje się estymator wartości parametru p rozkładu zerojedynkowego w postaci
p̂ =
1 n
∑ xi = xn
n i =1
(25-3.1)
Dowód
Funkcja prawdopodobieństwa rozkładu zero-jedynkowego ma postać
dla x = 1
 p
P(X = x) = 
1 − p dla x = 0
(25.3.2)
Jeśli wystąpienie w próbie 1 oznacza sukces, to p jest częstością sukcesu.
Niech kn oznacza liczbę 1 w próbie. Wtedy wzór (25-3.1) przyjmuje postać
kn
n
Po uwzględnieniu (3.5.2) funkcja wiarogodności ma postać
p̂ =
(25-3.3)
L(p) = P(X1 = x1 )...P(X n = x n ) = p k n (1 − p) n − k n
Przy poszukiwaniu maksimum funkcji L(p) wygodniej posługiwać się logarytmem tej funkcji,
gdyŜ funkcja L(p) przyjmuje maksimum w tym samym punkcie, co funkcja ln L(p), a na ogół
łatwiej jest znaleźć maksimum lnL(p), aniŜeli maksimum L(p).
Logarytm funkcji L(p) jest równy
ln L(p) = k n ln p + (n − k n ) ln(1 − p)
Po zróŜniczkowaniu względem parametru p otrzymujemy
d ln L(p)
k
n − kn
=− n +
dp
p
1− p
Po przyrównaniu pochodnej do zera otrzymujemy
−
kn n − kn
+
=0
p
1− p
Przekształcamy powyŜsze równanie
kn n − kn
=
pˆ
1 − pˆ
ˆ = (n − k n )pˆ
k n (1 − p)
k n − k n pˆ = npˆ − k n pˆ
k n = npˆ
Czyli ostatecznie
p̂ =
kn 1 n
= ∑ xi = xn
n n i =1
36
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
Druga pochodna logarytmu funkcji wiarogodności jest równa
k
n − kn
k
n − kn
d 2 ln L(p) d
= [− n +
] = 2n +
2
dp
dp
p
1− p
p (1 − p) 2
kn
otrzymujemy
n
d 2 ln L(p) k n
n − kn
n 2k n
n − kn
n2
n2
=
+
=
+
=
+
=
2
2
k n (1 − k n ) 2
dp 2
k 2n
kn n − kn
 n − kn 


n
n2
 n 
Podstawiając do powyŜszego równania p =
 1
1 
n3
2 n − kn + kn
= n2  +
=
>0
=n
k n (n − k n ) k n (n − k n )
 kn n − kn 
Zatem wyznaczone p̂ zapewnia minimum funkcji wiarogodności. cbdu
25.3.2. Estymator parametru Θ rozkładu wykładniczego
Wykazać, Ŝe metodą największej wiarogodności na podstawie próby (x1 , x 2 ,..., x n ) otrzymuje
się estymator parametru Θ cechy X o rozkładzie wykładniczym w postaci
ˆ = n = 1
(25-3.4)
Θ
n
xn
∑ xi
i =1
Dowód
Uwzględniając, Ŝe gęstość rozkładu wykładniczego ma postać
f (x) = Θe−Θx
otrzymuje się funkcję wiarogodności w postaci
n
L(Θ) = f (x1 )...f (x n ) = Θe −Θx1 ...Θe −Θx n = Θn e
Θ
∑ xi
i=1
Przy poszukiwaniu maksimum funkcji L(Θ) wygodniej posługiwać się logarytmem tej
funkcji, gdyŜ funkcja L(Θ) przyjmuje maksimum w tym samym punkcie, co funkcja
ln L(Θ) , a na ogół łatwiej jest znaleźć maksimum ln L(Θ) , aniŜeli maksimum L(Θ) .
Logarytm funkcji L(Θ) jest równy
n
ln L(Θ) = n ln Θ − Θ∑ x i
i =1
Po zróŜniczkowaniu względem parametru p otrzymujemy
d ln L(Θ)
1 n
= n − ∑ xi
dΘ
Θ i =1
Po przyrównaniu pochodnej do zera otrzymujemy
n
1 n
− x i = 0 =0
ˆ ∑
Θ
i =1
37
WYBRANE TWIERDZENIA WRAZ Z DOWODAMI
Czyli ostatecznie
ˆ =
Θ
n
=
n
∑x
i
1
xn
i =1
Druga pochodna funkcji wiarogodności jest równa
d 2 ln L(Θ)
1
= −n 2 < 0
2
dΘ
Θ
Zatem wyznaczone Θ̂ zapewnia minimum funkcji wiarogodności. cbdu
25.3.3. Estymator parametru rozkładu Poissona
Cecha populacji ma rozkład Poissona z parametrem λ. Wyznaczmy ENW tego parametru
Rozwiązanie
(x1, ... , xn) - realizacja próby.
Funkcja wiarygodności rozkładu Poissona
λ x1 - λ
λ xn -λ
λ x1 +...+x n -nλ
e ⋅ ... ⋅
e =
e
x1 !
xn !
x1 ! ... x n !
PoniewaŜ funkcja L(λ) jest dodatnia, więc istnieje funkcja S(λ) = lnL(λ) i obie mają ekstrema
w tych samych punktach, ale łatwiej je wyznaczyć dla funkcji S(λ)
L(λ) = P(X1=x1, … , Xn=xn)= P(X1=x1) … P(Xn=xn) =
S(λ)=(x1 + ... +x n )lnλ - nλ - ln(x1! ... x n!)
1
S'(λ) = nx n - n
λ
nx
S''(λ) = - 2n < 0
λ
1
S'(λ)=0 ⇔ nx n -n=0 ⇔ λˆ =x n
λ
PoniewaŜ dla λ̂=x n mamy S' (λˆ )=0 oraz S'' (λˆ )<0 , więc funkcja S, a takŜe funkcja
wiarygodności L ma maksimum w tym punkcie. Zatem ENW dla parametru λ rozkładu
1 n
Poissona jest statystyka X n = ∑ X k n k=1
25.4. Wyznaczanie współczynników regresji metodą największej
wiarogodności
Wykazać, Ŝe metodą największej wiarogodności. gdy dla kaŜdego x cecha Y ma rozkład
normalny N(ax+b,σ), tzn. gęstość zmiennej losowej przy ustalonej wartości x ma postać
( y − ax − b)2
1
2
f x (y) =
e 2σ
σ 2π
uzyskuje się następujące współczynniki w równaniu regresji jednej zmiennej y = a ⋅ x + b
s
s
â = r y b̂ = y n − r y x n
(25-4.1)
sx
sx
38
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
Dowód
Funkcja wiarogodności ma postać:
−
1
L(a, b) =
e
σ 2π
( y1 − ax − b) 2
2σ
2
−
1
...
e
σ 2π
( y n − ax − b) 2
2σ
2
1
n
n
( yi − ax − b) 2
 1  − 2 σ2 ∑
i=1
=
 e
 σ 2π 
Przy poszukiwaniu maksimum funkcji L(a,b) wygodniej posługiwać się logarytmem tej
funkcji, gdyŜ funkcja L(a,b) przyjmuje maksimum w tym samym punkcie, co funkcja
ln L(a,b), a na ogół łatwiej jest znaleźć maksimum ln L(a,b), aniŜeli maksimum L(a,b).
Logarytm funkcji L(a.b) jest równy
1
1
1 n
+ n ln
− 2 ∑ (yi − ax i − b) 2
σ
2π 2σ i =1
Po obliczeniu pochodnych powyŜszego wyraŜenia względem a i b oraz przyrównaniu ich do
zera otrzymujemy układ równań:
ln L(a, b) = n ln
n
∑ (y
i
ˆ
ˆ i − b)x
− ax
i =0
i =1
n
∑ (y
i
(24-4.2)
ˆ =0
ˆ i − b)
− ax
i =1
Jest to analogiczny układ równań jak (23-8.2), ma on więc analogiczne rozwiązania w postaci
(25-4.1). cbdu
39
Download