MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie wyników eksperymentalnych Metody statystyczne © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej UWAGI OGÓLNE Na poprzedniej prezentacji zaznaczyłem, że wyniki eksperymentów jakościowych są opracowywane metodami statystycznymi. Otóż statystyka matematyczną ma zastosowanie również przy opracowywaniu wyników ilościowych. Wiąże się to z faktem, że wszystkie eksperymenty mają określoną dokładność. Teraz chciałbym Państwu przedstawić podstawowe wiadomości związane z analizą błędów eksperymentalnych. © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej BŁĘDY POMIAROWE Podstawowe informacje o błędach pomiarowych. Najczęściej używanymi pojęciami określającymi niepewność wyników pomiarowych są: błąd bezwzględny (absolutny) oraz błąd względny (procentowy). Błąd bezwzględny jest to po prostu różnica między uzyskaną wartością zmierzoną a wartością rzeczywistą. y yi y Dokładna wartość mierzonej wielkości y na ogół nie jest znana (jej wyznaczenie jest celem pomiaru). Błąd bezwzględny ma ten sam wymiar, co wielkość mierzona i może być dodatni lub ujemny. © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej BŁĘDY POMIAROWE Błąd względny jest to stosunek błędu bezwzględnego do wartości rzeczywistej: y yi y y y y Błąd względny jest bezwymiarowy i może być dodatni lub ujemny. W popularnym zastosowaniu jest jego wartość pomnożona przez 100 nazywana względnym błędem procentowym. © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej BŁĘDY POMIAROWE Bardzo istotne z punktu widzenia statystyki są pojęcia błędu systematycznego i przypadkowego. Błędem systematycznym – nazywamy część błędu bezwzględnego, która pojawia się w każdym pomiarze i której nie można wyeliminować za pomocą powtarzania pomiarów. Przyczyną błędów systematycznych na ogół jest ukryta wada przyrządów pomiarowych lub niewłaściwa procedura pomiarowa. Błąd przypadkowy – jest to natomiast ta część błędu bezwzględnego, która powstaje na skutek wielu przyczyn pojawiających się losowo podczas określonego pomiaru. y (y ) s (y ) p W związku z tym, że błędów systematycznych nie można zmniejszyć za pomocą powtarzania pomiarów w dalszych rozważaniach nie będziemy się tymi błędami zajmować tzn. będziemy przyjmować, że cały błąd ma charakter losowy. © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Rozkłady prawdopodobieństwa Rozkłady prawdopodobieństwa stosowane w analizie statystycznej eksperymentu fizykochemicznego. Powtarzanie danego pomiaru daje różne wyniki, dlatego zarówno wynik pomiaru, błąd bezwzględny jak i względny można traktować jako zmienne losowe o pewnym rozkładzie prawdopodobieństwa. Spośród wielu rozkładów prawdopodobieństwa stosowanych w statystyce matematycznej fundamentalne znaczenia ma tzw. rozkład normalny Gaussa, którego postać analityczna jest następująca: ( y y0 ) 2 1 ( y) exp 2 2 2 Wielkość ( y ) jest to tzw. gęstość rozkładu zmiennej losowej y. Iloczyn ( y)dy oznacza prawdopodobieństwo, że wartość zmiennej losowej y znajdować się będzie między y a y+dy. © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Rozkłady prawdopodobieństwa Rozkład normalny jest określony za pomocą dwu parametrów: y0 – oznacza środek rozkładu, - oznacza szerokość rozkładu. Można wykazać, że środek rozkładu normalnego jest jednocześnie wartością oczekiwaną (w znaczeniu teorii prawdopodobieństwa) zmiennej losowej y, natomiast szerokość rozkładu σ jest jednocześnie odchyleniem standardowym zmiennej losowej y. Kwadrat odchylenia standardowego σ2 nazywany jest wariancją rozkładu zmiennej losowej. © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Rozkłady prawdopodobieństwa Przykładowy wykres rozkładu normalnego: ρ(y) 0.4 0.3 0.2 0.1 y -3 -2 -1 1 2 Przedstawiony rozkład ma parametry: y0=0, σ=1 © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej 3 Rozkłady prawdopodobieństwa Odchylenie standardowe wskazuje, że prawdopodobieństwo tego że wynik pomiaru będzie zawierał się w granicach: y0 y y0 wynosi 68,26 %. Wartość ta określa tzw. poziom ufności często stosowany w statystyce. Podwyższenie poziomu ufności skutkuje dopuszczeniem, że błąd będzie większy niż wartość σ. Np. przedział y0 2 posiada poziom ufności 95,45 %. Zależność między poziomem ufności a dopuszczalnym zakresem błądu określa tzw. funkcja błędu będąca całką rozkładu normalnego: z2 1 P( y0 y y y0 y) erf (t ) exp dz 2 t 2 gdzie y t Wyrażenie po lewej stronie (3.45) oznacza t prawdopodobieństwo (poziom ufności) otrzymania wyniku w zakresie y0 y © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Analiza statystyczna pomiarów Analiza statystyczna pomiaru jednej wielkości. W niektórych eksperymentach fizykochemicznych wyznacza się jedną wielkość y za pomocą n pomiarów prowadzonych w podobnych warunkach. Zakładając, że błędy wpływające na wynik pomiaru mają charakter losowy można wykazać, że rozkład zmiennej losowej będącej wynikiem pomiarów jest rozkładem normalnym, którego środek jest dobrą miarą wielkości mierzonej, a odchylenie standardowe jest dobrą miarą wartości bezwzględnej średniego błędu bezwzględnego. Załóżmy, że wykonaliśmy n pomiarów, których wyniki tworzą dyskretny zbiór { yi } { y1, y2 ,..., yn } Założenie o normalnym rozkładzie wyników prowadzi do wniosku, że najlepszą miarą środka rozkładu, czyli rzeczywistej wartości y jest średnia arytmetyczna y y1 y2 ... yi ... yn 1 n yn yi n n i 1 © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Analiza statystyczna pomiarów Znajomość zbioru pomiarowego { y i } pozwala również na obliczenie dobrego oszacowania wariancji rozkładu normalnego σn2: n 1 2 n2 ( y y ) i n 1 i 1 Wielkości yn i n2 mają ważne własności graniczne: lim( yn ) y0 n 2 2 ( ) lim n n Oznacza to, że rozkład normalny jest rozkładem granicznym przy nieskończonej liczbie pomiarów. W rzeczywistości zazwyczaj wystarczająca liczba pomiarów to kilka lub kilkanaście. © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Analiza statystyczna pomiarów W praktyce bardzo istotne jest oszacowanie wariancji. Pozwala ono na obliczenie odchylenia standardowego będącego miarą niepewności (czyli błędu) wyznaczanej wielkości: n 1 2 n n2 ( y y ) y i i n n 1 i 1 Wzór powyższy określa oszacowanie odchylenia standardowego pojedynczego pomiaru. Średnia arytmetyczna wszystkich pomiarów jest oczywiście dokładniejsza a oszacowane dla niej odchylenie standardowe dane jest wzorem: n n 1 2 ( yn ) ( y y ) i n n(n 1) i 1 n Zauważmy, że pojawiają się tutaj sumy kwadratów różnicy wartości mierzonej i średniej arytmetycznej. Zatem zastosowanie metody najmniejszych kwadratów prowadzi do minimalizacji odchylenia standardowego mierzonej wielkości. © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Analiza statystyczna pomiarów Zasady przenoszenia i kumulacji błędów. W wielu przypadkach ostateczny wynik eksperymentu powstaje na skutek pewnego przekształcenia wyniku pomiarowego. Przykładowo, objętość kuli otrzymamy po zmierzeniu jej średnicy i zastosowaniu odpowiedniego wzoru. W takim przypadku zmianie ulegnie również błąd. Zasada przenoszenia błędu, w przypadku przekształcenia jednej wielkości polega na zastosowaniu wzoru: dq( y ) q y dy gdzie mierzoną wielkością jest y, a końcowy wynik q otrzymujemy na podstawie funkcji q( y ) © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Analiza statystyczna pomiarów Zasady przenoszenia i kumulacji błędów. Dosyć często, końcowy wynik q jest rezultatem niezależnych pomiarów różnych wielkości yi i 1,2,..., N oraz funkcji wielu zmiennych: q q( y1 , y2 ,..., yN ) Załóżmy, że znamy oszacowania błędów pomiarów poszczególnych zmiennych: yi i 1,2,..., N Oszacowanie błędu końcowej wielkości jest dane wzorem: 2 2 q q q q y1 y2 ... yN y1 y2 yN © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej 2 Analiza statystyczna pomiarów Analiza statystyczna eksperymentu wyznaczającego zależność funkcyjną. W ogromnej większości, eksperymenty polegają na doświadczalnym wyznaczaniu wartości pewnej funkcji jednej lub wielu zmiennych. Celem eksperymentu jest albo sama funkcja (np. zależność prężności pary nasyconej od temperatury), albo jej parametry (np. wartość energii aktywacji w zależności Arrheniusa). Funkcję (lub jej parametry) wyznacza się prowadząc szereg pomiarów w wybranych z dziedziny funkcji punktach. Pomiary w różnych punktach, ściśle rzecz biorąc, są pojedynczymi eksperymentami opisanymi przez pojedyncze zmienne losowe (różne dla różnych pomiarów). Aby przeprowadzić analizę statystyczną takich pomiarów, zakłada się że prowadzone są one z taką samą dokładnością a zmienna losowa opisująca ich błędy bezwzględne ma rozkład normalny o środku 0 i pewnej szerokości równej średniemu odchyleniu standardowemu. Na podstawie tego założenia można przeprowadzić aproksymację funkcji metodą najmniejszych kwadratów oraz oszacować średnie błędy wartości funkcji i jej parametrów. © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Analiza statystyczna pomiarów W przypadkach, kiedy dokładności poszczególnych pomiarów są istotnie różne, słuszność powyższego założenia można zachować, wprowadzając odpowiednie wagi sprowadzające różne rozkłady losowe do jednego rozkładu ważonego. Załóżmy, że wykonano n pomiarów w różnych punktach xi. Punkty te tworzą dyskretny zbiór {xi}. Wagi poszczególnych pomiarów są określone przez nieujemne liczby wi. Wyniki pomiarów dają dyskretny zbiór {yi}. Następnie za pomocą metody najmniejszych kwadratów aproksymujemy dyskretną funkcję eksperymentalną, otrzymując ciągłą funkcję modelową: y f ( x, a1 , a1 ,..., ak ) Znajomość tej funkcji pozwala na oszacowanie średnich wartości wariancji i odchylenia standardowego pojedynczego pomiaru wielkości y: © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Analiza statystyczna pomiarów y2 n n n (n k ) wi 2 w [ y f ( x , a , a ,..., a )] i i i 1 2 k i 1 i 1 y y2 n n n (n k ) wi i 1 © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej 2 w [ y f ( x , a , a ,..., a )] i i i 1 2 k i 1 Analiza statystyczna pomiarów W częstym przypadku, gdy pomiary są jednakowo ważne a liczba parametrów wynosi 2, wzór określający odchylenie standardowe przyjmuje postać: n 1 2 y y2 [ y f ( x , a , a )] i i 1 2 (n 2) i 1 © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Analiza statystyczna pomiarów Niepewności parametrów w metodzie najmniejszych kwadratów Wyznaczone metodą najmniejszych kwadratów parametry a1,a2,…,ak funkcji aproksymującej f(x) są również obarczone niepewnością. Oszacowanie wariancji tych parametrów dla przypadku funkcji liniowej ze względu na parametry jest dane za pomocą wzoru: w det B ( x ) n 2 aj 2 i 1 y i j 2 i det B 2 j 1, 2,..., k gdzie B jest macierzą główną układu równań opisujących współczynniki natomiast B j ( xi ) jest macierzą kwadratową rzędu k, powstałą przez zastąpienie j – tej kolumny w macierzy B wektorem: [1 ( xi ), 2 ( xi ),..., r ( xi ),..., k ( xi )] © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Analiza statystyczna pomiarów Przypominam, że funkcja liniowa ze względu na parametry ma postać: k f ( x, a1 , a2 ,..., ak ) a11 ( x) a22 ( x) ... akk ( x) a j j ( x) j 1 gdzie 1 ( x), 2 ( x),..., k ( x) są to stosunkowo proste ale liniowo niezależne tzw. funkcje bazowe. © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Analiza statystyczna pomiarów Natomiast liniowy układ równań określający współczynniki ma postać: a1b11 a2b12 ... ak b1k c1 a1b21 a2b22 ... ak b2 k c2 ........................................... a1bk1 a2bk 2 ... ak bkk ck gdzie: n w i 1 i j ( xi ) r ( xi ) brj n w y (x ) c i 1 i i r i r © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej Analiza statystyczna pomiarów n W przypadku pomiarów jednakowo ważnych gdy wi=1 oraz w i 1 i wzór powyższy można uprościć do wyrażenia: 2 aj 2 y det B jj det B j 1, 2,..., k gdzie: B jj oznacza macierz k-1 rzędu powstałą przez skreślenie w macierzy B j – tej kolumny oraz j – tego wiersza. © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej n Analiza statystyczna pomiarów Dla funkcji liniowej postaci f(x)=a1+a2x w przypadku pomiarów jednakowo ważnych wyrażenia określające wariancje parametrów przyjmują następującą postać: n a2 1 2 x i i 1 n 2 [ y ( a a x )] i 1 2i i 1 (n 2) n 2 n 2 n xi xi i 1 i 1 n 2 a2 2 [ y ( a a x )] i 1 2i n i 1 (n 2) n 2 n 2 n xi xi i 1 i 1 © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej To tyle na dzisiaj. Dziękuję bardzo Państwu za uwagę. © Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej