Statystyczna analiza danych

advertisement
Statystyczna analiza danych
Podstawowe rozkłady zmiennych losowych
Ewa Szczurek
[email protected]
Instytut Informatyki
Uniwersytet Warszawski
1/33
Statystyczna analiza danych 1 - wykład i ćwiczenia
Strona z materiałami do wykładu i ćwiczeń
I
http://www.mimuw.edu.pl/~szczurek/SAD1/
Kryteria zaliczenia
I
I
Wykład: Egzamin pisemny (40 punktów)
Ćwiczenia:
I
I
I
Kolokwium 1 (10 punktów)
Kolokwium 2 (20 punktów)
Zadanie zaliczeniowe, prezentowane na ostatnich zajęciach (30
punktów)
2/33
Plan zajęć
1. Podstawy
I
I
Rozkłady zmiennych losowych
Testowanie hipotez
3/33
Plan zajęć
1. Podstawy
I
I
Rozkłady zmiennych losowych
Testowanie hipotez
2. Rozumienie danych
3/33
Plan zajęć
1. Podstawy
I
I
Rozkłady zmiennych losowych
Testowanie hipotez
2. Rozumienie danych
I
Nadzorowane: Budowanie modeli opisujących zależność f
danych wyjściowych Y od danych wejściowych X z błędem Y = f (X ) + I
Predykcja:
Ŷ = fˆ(Xnew )
I
Inferencja: uczenie się postaci f . Np., czy f to liniowa, czy
nieliniowa zależność?
3/33
Plan zajęć
1. Podstawy
I
I
Rozkłady zmiennych losowych
Testowanie hipotez
2. Rozumienie danych
I
Nadzorowane: Budowanie modeli opisujących zależność f
danych wyjściowych Y od danych wejściowych X z błędem Y = f (X ) + I
Predykcja:
Ŷ = fˆ(Xnew )
I
I
Inferencja: uczenie się postaci f . Np., czy f to liniowa, czy
nieliniowa zależność?
Nienadzorowane: Wyszukiwanie wzorców w danych,
grupowanie (klastrowanie)
3/33
Przykład 1: dane Wage
20
40
Age
60
80
300
200
50 100
50 100
Wage
200
50 100
Wage
300
I
Wage
I
300
I
Czy da się zestawić czynniki, które mogą wpływać na zarobki
w USA?
Trend dla zależności od zmiennej Age, ale też i wariancja
Trudne zadanie! Dla akuratnej predykcji trzeba wziąć pod
uwagę kilka zmiennych naraz
Przykład problemu regresji (predykcja danych ciągłych)
200
I
2003
2006
Year
2009
1
2
3
4
5
Education Level
4/33
Przykład 2: pomiary ekspresji genów
Czy w danych widać podział na grupy (klastry) linii
komórkowych?
I
Trudne zadanie! Jak porównać linie komórkowe gdy każda
reprezentowana jest aż przez 7000 wartości?
I
Przykład problemu nienadzorowanego klastrowania
I
Tutaj podejście przez redukcję wymiaru:
0
Z2
−20
−60
−40
−20
−40
−60
Z2
0
20
NCI60 - ekspresja 6830 genów w 64 typach komórek rakowych
I
20
I
−40
−20
0
20
Z1
40
60
−40
−20
0
20
40
60
Z1
5/33
Zmienne losowe
Zmienna losowa
Funkcja X określona na zbiorze zdarzeń elementarnych
(eksperymentów) Ω
X :Ω→Y
My będziemy rozważać zmienne losowe rzeczywiste, dla których
Y = R.
Dyskretna (skokowa)
Przyjmuje wartości ze skończonego zbioru, np. wyników rzutu
kostką
Ciągła
Przyjmuje ciągłe wartości ze zbioru R, np. pomiarów ekspresji
genów
6/33
Rozkłady zmiennych losowych
Rozkład zmiennej losowej X
Funkcja PX (A) = P(X −1 (A)), gdzie
I
A to dowolny podzbiór zbioru wartości Y ,
I
P to miara prawdopodobieństwa określona na zdarzeniach
losowych.
Formalnie ujmując, A ∈ B(Y ), gdzie B(Y ) sigma-ciało podzbiorów
zbioru wartości zmiennej losowej X .
7/33
Rozkłady zmiennych losowych
Rozkład zmiennej dyskretnej X
Zdefiniowany przez zbiór par x, PX (X = x), gdzie
I
x ∈ Y : wartość zmiennej X ;
I
PX (X = x) = PX (x): prawdopodobieństwo, że zmienna X
przyjme wartość x
PX (x) = P(X −1 (x))
Dla dyskretnego rozkładu prawdopodobieństwa mamy
P
I Dla dowolnego A ⊂ Y , PX (A) =
xi ∈A PX (xi )
P
I
i PX (xi ) = 1
8/33
Dystrybuanta
Dystrybuanta rozkładu zmiennej losowej X
Funkcja dana wzorem
FX (t) = PX ({x : x ≤ t}) = PX ((−∞, t])
9/33
Rozkład zmiennej ciągłej
Ciągły rozkład zmiennej X
Rozkład PX dla którego istnieje funkcja f , taka że
Z
PX (A) =
f (x)dx
A
zwana funkcją gęstości prawdopodobieństwa.
Dla ciągłego rozkładu prawdopodobieństwa mamy
R∞
I
f (x)dx = 1
−∞
I
Dystrybuanta X wyraża się wzorem FX (t) =
Rt
−∞ f
(x)dx
10/33
Wartość oczekiwana zmiennej losowej
Wartość określająca spodziewany wynik doświadczenia losowego.
Wartość oczekiwana zmiennej dyskretnej X o rozkładzie PX
E (X ) =
X
xi PX (xi )
i
Wartość oczekiwana zmiennej ciągłej X o gęstości rozkladu f
Z∞
E (X ) =
xf (x)dx.
−∞
11/33
Wariancja zmiennej losowej
Miara zmienności zmiennej losowej. Średnia kwadratów odchyleń
od wartości oczekiwanej.
Wariancja zmiennej losowej X
Var (X ) = E (X − E (X ))2
Zachodzi też
Var (X ) = E X 2 − (E (X ))2
12/33
Fajne rozkłady zmiennych losowych i ich zastosowania
Rozkłady zmiennych losowych można podzielić na grupy
I
Rozkłady jednostajne (ang. uniform), dyskretny Uniform(n),
albo ciągły Uniform(a, b).
I
Rozkłady dla procesu Bernoulliego, lub losowania z bądz bez
zwracania: rozkład zero-jedynkowy Bernoulli(p), dwumianowy
Binomial(n, p), Geometric(p), NegativeBinomial(p, r ) i
Hypergeometric(N, M, n).
I
Rozkłady dla procesu Poissona: Gamma(λ, r ) i Beta(α, β),
Poisson(λ, t), Exponential(λ),
I
Rozkład normalny, występujący często w naturze, i inne
związane z Centralnym Tw. Granicznym: Normal(µ, σ 2 ),
ChiSquared(ν), T(ν) i F(ν1 , ν2 ).
13/33
Przydatne funkcje: gamma i beta
O funkcjach gamma i beta można myśleć jak o odpowiednio
ciągłych wersjach silni n! i symbolu Newtona kn .
14/33
Przydatne funkcje: gamma i beta
O funkcjach gamma i beta można myśleć jak o odpowiednio
ciągłych wersjach silni n! i symbolu Newtona kn .
Funkcja Gamma Γ(x)
Funkcja Γ(x) : R+ → R zdefiniowana na liczbach dodatnich x > 0
Z∞
Γ(x) =
t x−1 e −t dt
0
Ponieważ Γ(x + 1) = xΓ(x) i Γ(1) = 1, dla dodatniego całkowitego
x zachodzi
Γ(x) = (x − 1)!
14/33
Przydatne funkcje: gamma i beta
O funkcjach gamma i beta można myśleć jak o odpowiednio
ciągłych wersjach silni n! i symbolu Newtona kn .
Funkcja Beta B(α, β)
Funkcja B(α, β) zdefiniowana na liczbach dodatnich α, β > 0 jako
Z1
B(α, β) =
t α−1 (1 − t)β−1 dt =
Γ(α)Γ(β)
.
Γ(α + β)
0
Dla α i β dodatnich całkowitych
B(α, β) =
(α − 1)!(β − 1)!
(α + β − 1)!
15/33
Rozkład jednostajny dyskretny
Uniform(n)
Zmienna X o rozkładzie jednostajnym dyskretnym przyjmuje z tym
samym prawdopodobieństwem wartości z dowolnego skończonego
zbioru. Tutaj oznaczamy go {1, . . . , n}, gdzie parametr n to liczba
całkowita dodatnia.
PX (x) = 1/n, dla x = 1, 2, . . . , n
E (X ) =
Var (X ) =
n+1
2
n2 − 1
12
16/33
Rozkład jednostajny dyskretny
Uniform(n)
Zmienna X o rozkładzie jednostajnym dyskretnym przyjmuje z tym
samym prawdopodobieństwem wartości z dowolnego skończonego
zbioru. Tutaj oznaczamy go {1, . . . , n}, gdzie parametr n to liczba
całkowita dodatnia.
PX (x) = 1/n, dla x = 1, 2, . . . , n
E (X ) =
Var (X ) =
n+1
2
n2 − 1
12
Przykład. Rzut kostką. n = 6, E (X ) = 3.5, Var (X ) =
35
12 .
16/33
Rozkład jednostajny ciągły
Uniform(a, b)
Zmienna X o rozkładzie jednostajnym ciągłym przyjmuje wartości z
danego przedziału [a, b] z tym samym prawdopodobieństwem
proporcjonalnym do jego długości.
PX (x) =
1
, dla x ∈ [a, b]
b−a
E (X ) =
Var (X ) =
a+b
2
(b − a)2
12
17/33
Rozkład jednostajny ciągły
Uniform(a, b)
Zmienna X o rozkładzie jednostajnym ciągłym przyjmuje wartości z
danego przedziału [a, b] z tym samym prawdopodobieństwem
proporcjonalnym do jego długości.
PX (x) =
1
, dla x ∈ [a, b]
b−a
E (X ) =
Var (X ) =
a+b
2
(b − a)2
12
Przykład. Błąd zaokrąglania do liczb całkowitych na przedziale
[−0.5, 0.5].
17/33
Rozkład zero-jedynkowy
Bernoulli(p)
Zmienna X o rozkładzie zero-jedynkowym odpowiada próbie
Bernoulliego mogącej zakończyć się sukcesem (wartość 1) albo
porażką (0). X przyjmuje wartośc 1 z prawdopodobieństwem p i
wartość 0 z przwdopodobieństwem 1 − p.
PX (0) = 1 − p, PX (1) = p
E (X ) = p
Var (X ) = p(1 − p)
18/33
Rozkład zero-jedynkowy
Bernoulli(p)
Zmienna X o rozkładzie zero-jedynkowym odpowiada próbie
Bernoulliego mogącej zakończyć się sukcesem (wartość 1) albo
porażką (0). X przyjmuje wartośc 1 z prawdopodobieństwem p i
wartość 0 z przwdopodobieństwem 1 − p.
PX (0) = 1 − p, PX (1) = p
E (X ) = p
Var (X ) = p(1 − p)
Przykład. Rzut monetą. p = 1 − p = E (X ) = 0.5, Var (X ) = 1/4.
18/33
Rozkład dwumianowy
Binomial(n, p)
Zmienna X jest sumą wyników w n próbach Bernoulliego (procesie
Bernoulliego), czyli X = x oznacza, że w n próbach było x
sukcesów (Binomial(1,p)=Bernoulli(p))
n x
PX (x) =
p (1 − p)n−x , dla x = 0, 1, . . . , n
x
E (X ) = np
Var (X ) = np(1 − p)
19/33
Rozkład dwumianowy
Binomial(n, p)
Zmienna X jest sumą wyników w n próbach Bernoulliego (procesie
Bernoulliego), czyli X = x oznacza, że w n próbach było x
sukcesów (Binomial(1,p)=Bernoulli(p))
n x
PX (x) =
p (1 − p)n−x , dla x = 0, 1, . . . , n
x
E (X ) = np
Var (X ) = np(1 − p)
Przykład. Losowanie ze zwracaniem (po losowaniu odkładam
spowrotem) z N kul, gdzie M jest białych a N − M czarnych.
Sukces to kula biała. Prawdopodobieństwo sukcesu za każdym
losowaniem to M/N. Losowanie n razy ze zwracaniem to proces
Bernoulliego.
19/33
Rozkład geometryczny
Geometric(p)
Rozkład liczby prób Bernoulliego (z prawdopodobieństwem sukcesu
p w jednej próbie) potrzebnych do uzyskania pierwszego sukcesu.
PX (x) = p(1 − p)x−1 , dla x = 1, 2, . . .
E (X ) =
Var (X ) =
1
p
1−p
p2
20/33
Ujemny rozkład dwumianowy
NegativeBinomial(p, r )
Rozkład liczby prób Bernoulliego (z prawdopodobieństwem sukcesu
p w jednej próbie) potrzebnych do uzyskania pierwszych r sukcesów.
x −1
PX (x) =
(p)r (1 − p)x−r , dla x = r , r + 1, . . .
r −1
E (X ) =
Var (X ) =
r
p
r (1 − p)
p2
21/33
Rozkład hipergeometryczny
Hypergeometric(N, M, n)
Rozkład liczby sukcesów w pierwszych n próbach Bernoulliego, przy
założeniu, że w N próbach będzie M sukcesów.
M N−M
PX (x) =
x
n−x
N
n
dla x = 0, 1, . . . , n
E (X ) = np
Var (X ) = (N − n)(N − 1)np(1 − p),
gdzie p =
M
N.
Przykład. Losowanie bez zwracania (element wylosowany nie wraca
spowrotem). Dla N kul mamy M kul białych, losujemy n kul.
Możemy wylosować białą z prawdopodobieństwem M/N. Ile kul
białych wylosujemy sięgając po n kul?
22/33
Proces Poissona
I
I
Wersja ciągła procesu Bernoulliego.
Proces Bernoulliego
I
I
I
I
Czas dyskretny
w każdej próbie prawdopodobieństwo p wygranej,
próby niezalezne.
Proces Poissona
I
I
I
Czas ciągły
częstotliwość λ: średnia liczba zdarzeń na jednostkę czasu
zdarzenia niezależne
23/33
Rozkład Poissona
Poisson(λt)
Rozkład liczby zdarzeń w przedziale czasowym długości t przy
założeniu że zdarzenia zachodzą jednostajnie w czasie z
częstotlwością λ.
PX (x) =
1
(λt)x e −λt , dla x = 0, 1, . . .
x!
E (X ) = λt
Var (X ) = λt
Zazwyczaj definiuje się przyjmując t = 1.
24/33
Rozkład wykładniczy
Exponential(λ)
Rozkład czasu, który upłynie do pierwszego zdarzenia, przy
założeniu że zdarzenia zachodzą jednostajnie w czasie z
częstotlwością λ.
f (x) = λe −λx , dla x ∈ [0, ∞)
E (X ) = 1/λ
Var (X ) = 1/λ2
25/33
Rozkład Gamma
Gamma(λ, r )
Rozkład czasu, który upłynie do pierwszych r zdarzeń, przy
założeniu że zdarzenia zachodzą jednostajnie w czasie z
częstotlwością λ.
f (x) =
1 r r −1 −λx
λx e
, dla x ∈ [0, ∞)
Γ(r )
E (X ) = r /λ
Var (X ) = r /λ2
26/33
Rozkład Beta
Beta(α, β)
Rozkład tej części jednostki czasu, który upłynie do pierwszych α
zdarzeń, przy założeniu że zachodzi α + β zdarzeń na jednostkę
czasu (jednostajnie tak jak w procesie Poissona).
f (x) =
x α (1 − x)β−1
, dla x ∈ [0, 1]
B(α, β)
E (X ) =
Var (X ) =
α
(α + β)
αβ
(α +
β)2 (α
+ β + 1)
27/33
Centralne Twierdzenie Graniczne
Średnie z prób i sumy z prób są asymptotycznie normalne gdy
wielkość próby dąży do nieskończoności.
28/33
Rozkład Normalny
Normal(µ, σ 2 )
Zwany także rozkładem Gaussowskim. Parametry: średnia µ ∈ R,
wariancja σ 2 ∈ R+ , z dodatnim pierwiastkiem (odchylenie
standardowe).
(x − µ)2
1
f (x) = √ exp −
, dla x ∈ R
2σ 2
σ 2π
E (X ) = µ
Var (X ) = σ 2
Rozkład normalny standardowy ma średnią µ = 0 i wariancję
σ 2 = 1. Stąd, jego funkcja gęstości to
1
2
f (x) = √ e −x /2 , dla x ∈ R
2π
29/33
Rozkład χ2
ChiSquared(ν).
Rozkład sumy kwadratów ν niezależnych rozkładów standardowych
normalnych. Parametr ν jest liczbą całkowitą dodatnią i zwany jest
stopniem swobody.
f (x) =
x ν/2−1 e −x/2
dla x.0
2ν/2 Γ(ν/2)
E (X ) = ν
Var (X ) = 2ν
30/33
Rozkład T −Studenta
T(ν).
Rozkład wartości zmiennej X gdy X = √Y
Z /ν
dla zmiennej Y
standardowej normalnej X ∼ Normal (0, 1) i Z ∼ ChiSquared (ν).
Parametr ν jest liczbą całkowitą dodatnią i zwany jest stopniem
swobody.
Γ ν+1
2
f (x) = √
dla x ∈ R
πνΓ( ν2 )(1 + x 2 /ν)(ν+1)/2
E (X ) = 0
ν
Var (X ) =
ν−2
Rozkład T stosujemy w statystyce aby wnioskować o wariancji
populacji z rozkładu normalnego, szczególnie w przypadku gdy
populacja jest mała.
31/33
Rozkład Snedecora-Fishera F
F (ν1 , ν2)
/ν1
, dla Y i Z niezależnych zmiennych
Rozkład zmiennej X = YZ /ν
2
2
∼ χ ze stopniami swobody ν1 i ν2 .
ν1 /2
ν1
ν2
1
f (x) =
B(ν1 /2, ν2 /2) (1 +
E (X ) =
Var (X ) =
x ν1 /2−1
ν1 (ν1 +ν2 )/2
ν2 x)
dla x > 0.
ν2
dla ν2 > 2
ν2 − 2
2ν22 (ν1 + ν2 − 2)
dla ν2 > 4
ν1 (ν2 − 2)2 (ν2 − 4)
Rozkłady F stosowane są w statystyce przy porównywaniu wariancji
dwóch populacji.
32/33
Referencje
I
http://www-bcf.usc.edu/~gareth/ISL/
I
http://statweb.stanford.edu/~tibs/ElemStatLearn/
I
http://aleph0.clarku.edu/~djoyce/ma218/
33/33
Download