Spis treści Twierdzenie Bayesa

advertisement
Wnioskowanie_Statystyczne_-_wykład
Spis treści
1 Twierdzenie Bayesa
1.1 Uaktualnianie prawdopodobnieńswa zaczątkowego czyli Bayes w barze
1.2 'Prawdziwe' prawdopodobieństwo zarażenia w świetle wyników testu na HIV
1.3 Referencja
Twierdzenie Bayesa
Twierdzenie Bayesa można wyprowadzić z elementarnych reguł prawdopodobieństwa, wychodząc z
definicji prawdopodobieństwa warunkowego. Ponieważ interesuje nas głównie weryfikacja hipotez
statystycznych, przekształćmy ten wzór, wstawiając od razu zamiast zdarzeń i hipotezę
i
dane . Wtedy
prawdziwa jest hipoteza
będzie prawdopodobieństwem "wylosowania danych
":
pod warunkiem, że
Analogicznie
Tak naprawdę interesuje nas prawdopodobieństwo prawdziwości hipotezy
opisanego obserwowanymi danymi
. Ponieważ
w świetle zdarzenia
, czyli
, dostajemy
Prawdopodobieństwo
uzyskania w doświadczeniu danych
trudno ocenić bezpośrednio, jeśli
nie wiemy, czy prawdziwa jest odnosząca się do nich hipoteza . W tej sytuacji należy wziąć pod
uwagę wszystkie możliwe hipotezy
, tworzące kompletny, czyli pokrywający całą przestrzeń :
zbiór hipotez
Korzystając z (1) dostajemy
wykluczających się wzajemnie
. Wtedy
Wstawiając tę zależność do (2), i podstawiając za
wyrażający twierdzenie Bayesa:
Prawdopodobieństwo hipotezy
jedną z możliwych
, dostajemy wzór
wyrażone jest przez:
prawdopodobieństwo uzyskania w jej świetle danych , czyli
stopień naszego zaufania do hipotezy
(niezależny od eksperymentu, w którym uzyskaliśmy
dane ), czyli
całkowite prawdopodobieństwo uzyskania danych
w świetle wszystkich możliwych hipotez
, czyli
Najbardziej bulwersujące jest tu
, wyrażające naszą wiarę w hipotezę
niezależną od danych
. Wielkość tę określa się mianem prawdopodobieństwa "a priori", lub jak proponuje R. Nowak,
"prawdopodobieństwem zaczątkowym" lub "zaczątkiem" . Dla odróżnienia od (szukanego)
prawdopodobieństwa
oznaczmy zaczątek jako
; wzór Bayesa przyjmie wtedy postać
Jeśli nie dysponujemy informacją o kompletnym zbiorze hipotez
prawdopodobieństw dwóch hipotez
i
:
, możemy badać stosunek
Poniższe przykłady zaczerpnięto z raportu Giuglio D'Agostini "Bayesian Reasoning in High Energy
Physics - Principles and Applications".
Uaktualnianie prawdopodobnieńswa zaczątkowego czyli Bayes w barze
Spotykamy w barze znajomego, który dla wyboru kto płaci za drinki proponuje prostą grę losową:
przykład płaci ten, kto wyciągnie z zakrytej talii niższą kartę. Zgadzamy się wierząc w losowość gry
(czyli uczciwość znajomego, który grę prowadzi), ale jeśli przegramy kilka razy z rzędu zaczynamy
wątpić. Opiszmy to liczbami:
Na początku przyjmujemy, że znajomy proponuje uczciwą grę losową, z prawdopodobieństwem na
przykład
. Poziom naszej początkowej wiary z możliwość przeciwną, czyli że jeteśmy
oszukiwani, wynosi wtedy
. Dla uproszczenia załóżmy, że jeśli prowadzący grę znajomy
oszukuje, to zawsze wygra, czyli prawdopodobieństwo wygrania w każdej z gier wyniesie wtedy
. Jeśli gra byłaby uczciwa (losowa), to prawdopodobieństwo wygrania w każdej grze
wynosiłoby
, czyli
prawdopodobieństwo wygrania w
. Jeśli kolejne gry są zdarzeniami niezależnymi, to
kolejnych grach wyniesie
Ostatecznie
import matplotlib.pyplot as plt
import numpy
t = numpy.arange(, 20.0, 1.0)
def p(n,p0c):
return p0c/(p0c+(1-p0c)*0.5**n)
plt.plot(t, p(t, 0.01), label='$p_0=0.01$')
plt.plot(t, p(t, 0.05), label='$p_0=0.05$')
plt.plot(t, p(t, 0.5), label='$p_0=0.5$')
plt.xlabel('n')
plt.ylabel('P')
plt.grid(True)
plt.legend()
plt.show()
'Prawdziwe' prawdopodobieństwo zarażenia w świetle wyników testu na HIV
Podobnie jak powyższy, ten przykład również zaczerpnięto z cytowanego poniżej tekstu
d'Agostiniego:
Przypadkowo wybrany z populacji (w której na 60 milionów jest około stu tysięcy nosicieli wirusa)
obywatel poddany jest testowi na obecność wirusa HIV. Użyty test wykrywa niemal 100%
przypadków zakażenia, i daje około 0,2% „fałszywych alarmów”. Jakie jest prawdopodobieństwo, że
badany obywatel jest nosicielem wirusa, jeśli test dał wynik pozytywny?
Na pierwszy rzut oka wydaje się, że skoro test wykrywa wirusa fałszywie tylko w dwu przypadkach
na tysiąc, to szukane prawdopodobieństwo wynosi 1-0,2% 99.8%. Jednakże, jeśli wziąć pod uwagę
prawdopodobieństwo a priori (zaczątek) wynoszące 100 000/60 000 000 2% otrzymamy wartość
bliską 50%!
Na początek wyobraźmy sobie wynik tego testu na całej populacji: będzie on pozytywny dla stu
tysięcy zarażonych i dla 0,2% pozostałych, czyli w sumie 220 tysięcy. Wśród nich faktycznych
nosicieli będzie tylko sto tysięcy, pozostali będą ofiarami błędu testu. Prawdopodobieństwo, że
jesteśmy nosicielem, jeśli znaleźliśmy się w tej grupie, jest równe
45% (a nie 99,8%!).
Formalnie możemy dowieść tego wyniku korzystając z (2) i (4). Oznaczmy:
--- prawdopodobieństwo pozytywnego wyniku testu,
--- prawdopodobieństwo, że badany jest nosicielem (zaczątek),
--- prawdopodobieństwo, że badany nie jest nosicielem (również zaczątek).
Z opisu przykładu dostaniemy:
,
,
.
Szukamy
Ponieważ
:
, dostajemy
, czyli ok. 45%
Referencja
Polecam doskonały tekst Giuglio D'Agostini z 1995 roku pt. "Probability and Measurement
Uncertainty in Physics - a Bayesian Primer", dostępny z https://arxiv.org/abs/hep-ph/9512295
Download