Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Twierdzenie Bayesa 1.1 Uaktualnianie prawdopodobnieńswa zaczątkowego czyli Bayes w barze 1.2 'Prawdziwe' prawdopodobieństwo zarażenia w świetle wyników testu na HIV 1.3 Referencja Twierdzenie Bayesa Twierdzenie Bayesa można wyprowadzić z elementarnych reguł prawdopodobieństwa, wychodząc z definicji prawdopodobieństwa warunkowego. Ponieważ interesuje nas głównie weryfikacja hipotez statystycznych, przekształćmy ten wzór, wstawiając od razu zamiast zdarzeń i hipotezę i dane . Wtedy prawdziwa jest hipoteza będzie prawdopodobieństwem "wylosowania danych ": pod warunkiem, że Analogicznie Tak naprawdę interesuje nas prawdopodobieństwo prawdziwości hipotezy opisanego obserwowanymi danymi . Ponieważ w świetle zdarzenia , czyli , dostajemy Prawdopodobieństwo uzyskania w doświadczeniu danych trudno ocenić bezpośrednio, jeśli nie wiemy, czy prawdziwa jest odnosząca się do nich hipoteza . W tej sytuacji należy wziąć pod uwagę wszystkie możliwe hipotezy , tworzące kompletny, czyli pokrywający całą przestrzeń : zbiór hipotez Korzystając z (1) dostajemy wykluczających się wzajemnie . Wtedy Wstawiając tę zależność do (2), i podstawiając za wyrażający twierdzenie Bayesa: Prawdopodobieństwo hipotezy jedną z możliwych , dostajemy wzór wyrażone jest przez: prawdopodobieństwo uzyskania w jej świetle danych , czyli stopień naszego zaufania do hipotezy (niezależny od eksperymentu, w którym uzyskaliśmy dane ), czyli całkowite prawdopodobieństwo uzyskania danych w świetle wszystkich możliwych hipotez , czyli Najbardziej bulwersujące jest tu , wyrażające naszą wiarę w hipotezę niezależną od danych . Wielkość tę określa się mianem prawdopodobieństwa "a priori", lub jak proponuje R. Nowak, "prawdopodobieństwem zaczątkowym" lub "zaczątkiem" . Dla odróżnienia od (szukanego) prawdopodobieństwa oznaczmy zaczątek jako ; wzór Bayesa przyjmie wtedy postać Jeśli nie dysponujemy informacją o kompletnym zbiorze hipotez prawdopodobieństw dwóch hipotez i : , możemy badać stosunek Poniższe przykłady zaczerpnięto z raportu Giuglio D'Agostini "Bayesian Reasoning in High Energy Physics - Principles and Applications". Uaktualnianie prawdopodobnieńswa zaczątkowego czyli Bayes w barze Spotykamy w barze znajomego, który dla wyboru kto płaci za drinki proponuje prostą grę losową: przykład płaci ten, kto wyciągnie z zakrytej talii niższą kartę. Zgadzamy się wierząc w losowość gry (czyli uczciwość znajomego, który grę prowadzi), ale jeśli przegramy kilka razy z rzędu zaczynamy wątpić. Opiszmy to liczbami: Na początku przyjmujemy, że znajomy proponuje uczciwą grę losową, z prawdopodobieństwem na przykład . Poziom naszej początkowej wiary z możliwość przeciwną, czyli że jeteśmy oszukiwani, wynosi wtedy . Dla uproszczenia załóżmy, że jeśli prowadzący grę znajomy oszukuje, to zawsze wygra, czyli prawdopodobieństwo wygrania w każdej z gier wyniesie wtedy . Jeśli gra byłaby uczciwa (losowa), to prawdopodobieństwo wygrania w każdej grze wynosiłoby , czyli prawdopodobieństwo wygrania w . Jeśli kolejne gry są zdarzeniami niezależnymi, to kolejnych grach wyniesie Ostatecznie import matplotlib.pyplot as plt import numpy t = numpy.arange(, 20.0, 1.0) def p(n,p0c): return p0c/(p0c+(1-p0c)*0.5**n) plt.plot(t, p(t, 0.01), label='$p_0=0.01$') plt.plot(t, p(t, 0.05), label='$p_0=0.05$') plt.plot(t, p(t, 0.5), label='$p_0=0.5$') plt.xlabel('n') plt.ylabel('P') plt.grid(True) plt.legend() plt.show() 'Prawdziwe' prawdopodobieństwo zarażenia w świetle wyników testu na HIV Podobnie jak powyższy, ten przykład również zaczerpnięto z cytowanego poniżej tekstu d'Agostiniego: Przypadkowo wybrany z populacji (w której na 60 milionów jest około stu tysięcy nosicieli wirusa) obywatel poddany jest testowi na obecność wirusa HIV. Użyty test wykrywa niemal 100% przypadków zakażenia, i daje około 0,2% „fałszywych alarmów”. Jakie jest prawdopodobieństwo, że badany obywatel jest nosicielem wirusa, jeśli test dał wynik pozytywny? Na pierwszy rzut oka wydaje się, że skoro test wykrywa wirusa fałszywie tylko w dwu przypadkach na tysiąc, to szukane prawdopodobieństwo wynosi 1-0,2% 99.8%. Jednakże, jeśli wziąć pod uwagę prawdopodobieństwo a priori (zaczątek) wynoszące 100 000/60 000 000 2% otrzymamy wartość bliską 50%! Na początek wyobraźmy sobie wynik tego testu na całej populacji: będzie on pozytywny dla stu tysięcy zarażonych i dla 0,2% pozostałych, czyli w sumie 220 tysięcy. Wśród nich faktycznych nosicieli będzie tylko sto tysięcy, pozostali będą ofiarami błędu testu. Prawdopodobieństwo, że jesteśmy nosicielem, jeśli znaleźliśmy się w tej grupie, jest równe 45% (a nie 99,8%!). Formalnie możemy dowieść tego wyniku korzystając z (2) i (4). Oznaczmy: --- prawdopodobieństwo pozytywnego wyniku testu, --- prawdopodobieństwo, że badany jest nosicielem (zaczątek), --- prawdopodobieństwo, że badany nie jest nosicielem (również zaczątek). Z opisu przykładu dostaniemy: , , . Szukamy Ponieważ : , dostajemy , czyli ok. 45% Referencja Polecam doskonały tekst Giuglio D'Agostini z 1995 roku pt. "Probability and Measurement Uncertainty in Physics - a Bayesian Primer", dostępny z https://arxiv.org/abs/hep-ph/9512295