Relacyjne Bazy Danych Wykład I 1 opr. Lech Banachowski, Jan Wierzbicki Literatura • Lech Banachowski: Bazy danych projektowanie aplikacji, Akademicka OficynaWydawnicza PLJ, 1998 • Dariusz Boratyn: MS Access, • Paul Beynon-Davies: Systemy baz danych, WNT, 1998 2 opr. Lech Banachowski, Jan Wierzbicki Baza danych • pojęcie sięgające wieków • Informacja, dane – pewien zasób • ludzie od zawsze próbują gromadzić informację i wnioskować na jej podstawie • komputery – tylko ułatwiają przetwarzanie informacji 3 opr. Lech Banachowski, Jan Wierzbicki • Dane są takim samym zasobem firmy jak każdy inny (np. pracownicy, materiały, urządzenia) i wymagającym, tak samo jak one, zarządzania. • Informacja to dane razem z ich semantyką znaczeniem dla firmy. • Zarządzanie danymi jest realizowane poprzez system informacyjny obsługujący zapotrzebowania na informacje dla pewnego fragmentu rzeczywistości w firmie. • Baza danych stała się standardową metodą wprowadzenia struktury do procesu zarządzania danymi. • Baza danych jest częścią systemu informacyjnego firmy. 4 opr. Lech Banachowski, Jan Wierzbicki Informacja ma wartość gdy jest: • dokładna (nie za dużo, ani nie za mało) • dostępna gdy mamy „zły” sposób poszukiwania informacji możemy nie być wstanie jej odszukać - może nam zabraknąć np. „życia” - komputer tu nic nie pomoże 5 opr. Lech Banachowski, Jan Wierzbicki Baza danych • metoda strukturalizacji zarządzania informacją • dotyczy fragmentu rzeczywistości i stanowi kolekcję danych • część systemu informacyjnego - aplikacja bazy danych (oprogramowanie) - system informatyczny (sprzęt) 6 opr. Lech Banachowski, Jan Wierzbicki Linia lotnicza D B E A C F 7 opr. Lech Banachowski, Jan Wierzbicki Inne złożone Bazy danych • Bankowe ochrona danych • Satelitarne tryliardy danych 8 opr. Lech Banachowski, Jan Wierzbicki Bazy danych • Wszechobecność informacji: od serwisów działających na przeglądarkach internetowych, po aplikacje naukowe. • Zbiory danych o coraz większej różnorodności i wielkości: biblioteki elektroniczne, multimedialne bazy danych, interaktywne video, projekty badania genomu człowieka, projekt obserwacji Ziemi (NASA). • Przy konstrukcji systemów baz danych wykorzystuje się większość działów informatyki: systemy operacyjne, teorię informatyki, sztuczną inteligencję, logikę, języki programowania, multimedia, inżynierię oprogramowania. • Obszar systemów baz danych reprezentuje jeden z największych i najbardziej aktywnych segmentów rynku. 9 opr. Lech Banachowski, Jan Wierzbicki Cechy bazy danych • trwałość (aplikacja powinna działać przez długi okres czasu – dane przechowywane „latami”) • zgodność z rzeczywistością zmiana rzeczywistości musi być uwzględniona w bazie danych 10 opr. Lech Banachowski, Jan Wierzbicki BIBLIOTEKA Tytuł: Potop Tytuł: Pan Tadeusz Tytuł: Quo Vadis Autor:H.Sienkiewicz Autor: A.Mickiewicz Autor: H.Sienkiewicz ISBN: ....... ISBN: ....... ISBN: ....... POLE REKORD 11 opr. Lech Banachowski, Jan Wierzbicki Ujęcie projektowe Dane przechowywane w tabeli: Tytuł Autor ISBN Rok Wydania ... Potop H.Sienkiewicz 23xc4 1970 Quo Vadis H.Sienkiewicz 3e45d 1985 Pan Tadeusz A.Mickiewicz 231ws 1990 ... ... ... ... ... ... ... ... 12 opr. Lech Banachowski, Jan Wierzbicki W bazie danych, musimy • kontrolować redundancję (powtarzanie się danych) • jeden fakt powinien być reprezentowany na jeden sposób – problem dostępności i dokładności poszukiwanych danych (czas dostępu oraz nadmiar danych) 13 opr. Lech Banachowski, Jan Wierzbicki Problem jednej tabeli Tytuł Autor ISBN Rok Wydania ... Potop H.Sienkiewicz 23xc4 1970 Quo Vadis H.Sienkiewicz 3e45d 1985 Pan Tadeusz A.Mickiewicz 231ws 1990 ... ... ... ... ... ... ... ... ... ... ... H.Sienkiewicz A.Mickiewicz ... ... ... 14 opr. Lech Banachowski, Jan Wierzbicki Problem jednej tabeli Uczeń Hobby Zachowanie Telefon domowy ... Adaś Komputery hmmmm 123456 Karolina Kwiatki wzorowe 654321 Paweł Legia odpowiednie 876543 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 15 opr. Lech Banachowski, Jan Wierzbicki Relacyjna Baza Danych Autor Książka Wydawnictwo imię tytuł nazwa nazwisko ISBN adres ... rok wyd ... adres opis 16 opr. Lech Banachowski, Jan Wierzbicki Relacyjna Baza Danych Książka Autor imię tytuł ISBN Henryk Sienkiewicz Potop 12234ee4 Adam Quo Vadis 334we2 Pan Tadeusz 23we45 nazwisko Mickiewicz 17 opr. Lech Banachowski, Jan Wierzbicki Uczeń Dane osobowe Hobby imię nazwa nazwisko ...... opis ..... Oceny ocena opis Przedmiot nazwa opis 18 opr. Lech Banachowski, Jan Wierzbicki Relacyjny model danych - Edgar Codd (1970) W terminologii matematycznej - baza danych jest zbiorem relacji. W matematyce definiuje się relację jako podzbiór iloczynu kartezjańskiego zbiorów wartości. Reprezentacją relacji jest dwuwymiarowa tabela złożona z kolumn i wierszy. 19 opr. Lech Banachowski, Jan Wierzbicki Założenia: • Liczba kolumn jest z góry ustalona. • Z każdą kolumną jest związana jej nazwa oraz dziedzina, określająca zbiór wartości, jakie mogą wystąpić w kolumnie. • Na przecięciu wiersza i kolumny znajduje się pojedyncza (atomowa) wartość należąca do dziedziny kolumny. • Wiersz reprezentuje jeden rekord informacji np. osobę. • W modelu relacyjnym abstrahujemy od kolejności wierszy (rekordów) i kolumn (pól w rekordzie). 20 opr. Lech Banachowski, Jan Wierzbicki Tabela wykładowców IdWykładowcy Imię Nazwisko Tytuł Jan Kowalski Doktor 3245 Maciej Jankowski Docent 8976 Artur Malinowski Profesor 237 21 opr. Lech Banachowski, Jan Wierzbicki Tabela przedmiotów NazwaPrzedmiotu Kod IdWykładowcy Bazy danych BDA 1237 Projektowanie systemów informacyjnych PSI 3245 Technologie internetowe TIN 3245 Programowanie obiektowe POB 8976 Systemy decyzyjne SDE 1237 22 opr. Lech Banachowski, Jan Wierzbicki Znaczenie IdWykładowcy w tabeli Przedmiotów: • Jego wartość nie opisuje cechy wykładu. • Reprezentuje związek danego przedmiotu z wykładowcą, o którym informacja znajduje się w innej tabeli i tylko korzystając z identyfikatora możemy rozpoznać w innej tabeli wiersz właściwego wykładowcy i odczytać o nim informacje. 23 • Istotne jest więc, aby identyfikator ten jednoznacznie określał danego wykładowcę - w modelu relacyjnym nie ma innej możliwości identyfikacji wiersza tylko poprzez wartości kolumn, które jednoznacznie identyfikują wiersz. opr. Lech Banachowski, Jan Wierzbicki Klucz główny i jednoznaczny • Dla każdej tabeli musi być określony jednoznaczny identyfikator nazywany kluczem głównym - jedna lub więcej kolumn, w których wartości jednoznacznie identyfikują cały wiersz. • Klucz jednoznaczny (nazywany też kluczem alternatywnym lub w skrócie kluczem) ma tę samą własność co klucz główny przy czym klucz główny jest tylko jeden, kluczy jednoznacznych w tabeli może być więcej niż jeden. • W tabeli Przedmioty kluczem głównym jest KodPrzedmiotu, kluczem alternatywnym jest NazwaPrzedmiotu. • W tabeli Wykładowcy kluczem głównym jest IdWykładowcy. Nazwisko nie musi być kluczem! 24 Każda tabela musi mieć dokładnie jeden klucz główny. opr. Lech Banachowski, Jan Wierzbicki Klucz obcy • Klucz obcy jest to jedna lub więcej kolumn, których wartości występują jako wartości ustalonego klucza głównego lub jednoznacznego w tej lub innej tabeli i są interpretowane jako wskaźniki do wierszy w tej drugiej tabeli. • W tabeli Przedmioty kluczem obcym jest IdWykładowcy, którego wartości pochodzą z kolumny IdWykładowcy w tabeli Wykładowcy. Na przykład, wartość 1237 występująca w wierszu przedmiotu "Bazy danych" tabeli Przedmioty stanowi odwołanie do wiersza w tabeli Wykładowcy, w którym są zapisane informacje o wykładowcy o nazwisku "Kowalski": "Przedmiot Bazy danych jest wykładany przez Jana Kowalskiego" 25 Każda tabela może mieć więcej niż jeden klucz obcy. opr. Lech Banachowski, Jan Wierzbicki NULL – "brak wartości" • Dziedziny kolumn są rozszerzane o specjalny obiekt Null - oznaczający brak wartości – • chwilowy bądź • wynikający z istoty rzeczy (coś innego niż napis pusty czy zero). • Wszystkie porównania i operacje na danych, w których argumentem jest Null dają w wyniku Null (również Null=Null). • Jest to więc w efekcie trzecia wartość logiczna obok True i False. 26 opr. Lech Banachowski, Jan Wierzbicki Operator alternatywy OR OR True False Null True True True True False True False Null Null True Null Null Operator koniunkcji AND AND True False Null True True False Null False False False False Null Null False Null 27 opr. Lech Banachowski, Jan Wierzbicki Operator negacji NOT NOT True False Null False True Null Wartość wyrażenia logicznego jest prawdziwa na przykład dla alternatywy, której jeden argument ma wartość true a drugi ma wartość nieokreśloną NULL. Predykaty Is Null oraz Is Not Null Pozwalają stwierdzić, czy dana wartość jest Null czy nie: •"X Is Null" = True gdy, X jest Null •"X Is Null" = False gdy, X nie jest Null •"X=Null" = Null dla wszystkich X 28 Wartością wyrażenia "(Null=Null) Is Null" jest True tzn. wyrażenie jest prawdziwe. opr. Lech Banachowski, Jan Wierzbicki Więzy spójności danych - warunki poprawności danych w tabelach • • • • • • 29 Dla pojedynczych wartości w wierszu np. 0<Wiek<140 Dla kilku wartości w wierszu np. Data_urodzenia<Data_zatrudnienia Więzy klucza głównego, więzy klucza jednoznacznego. Więzy NOT NULL. Więzy referencyjne (więzy spójności referencyjnej): wartość klucza obcego może być albo Null albo musi występować jako wartość powiązanego z nim klucza głównego (lub jednoznacznego). • Bardziej skomplikowane reguły wymagające zastosowania bardziej skomplikowanego języka np. Suma wszystkich zarobków pracowników działu X = Fundusz płac działu X opr. Lech Banachowski, Jan Wierzbicki Perspektywa (view) - wirtualna tabela, którą posługują się użytkownicy Przedmioty-Wykładowcy: NazwaPrzedmiotu Wykładowca Bazy danych Kowalski Projektowanie systemów informacyjnych Jankowski Technologie internetowe Jankowski Programowanie obiektowe Malinowski Systemy decyzyjne Kowalski 30 opr. Lech Banachowski, Jan Wierzbicki Zawartość zwykłej perspektywy jest na życzenie wyliczana przez system ze źródłowych tabel. Nie jest na stałe zapisywana w bazie danych. W pewnych sytuacjach wygodniej jest zapisać zawartość perspektywy w bazie danych a następnie korzystać z jej „materializacji”. Taki specjalny rodzaj perspektywy nosi nazwę perspektywy zmaterializowanej. Indeks jest to dodatkowa struktura danych umożliwiająca szybki dostęp do wierszy tabeli na podstawie wartości w określonej kolumnie lub kolumnach np. indeks zbudowany na kolumnie Nazwisko umożliwia szybkie wyszukiwanie danych wykładowcy w oparciu o jego nazwisko. Przypomina indeks (skorowidz) w książce. 31 opr. Lech Banachowski, Jan Wierzbicki Poziomy relacyjnej bazy danych • Poziom użytkowy – widoki na dane i programy, którymi posługuje się użytkownik. • Poziom logiczny (koncepcyjny) – zbiór tabel, perspektyw i indeksów. • Poziom fizyczny – zbiór plików z danymi i z indeksami. Przy czym perspektywy definiuje się na poziomie logicznym a używa się na poziomie użytkowym; indeksy definiuje się na poziomie logicznym a używa się na poziomie fizycznym. Jeśli chodzi o tabele to definiuje się na poziomie logicznym a używa się zarówno na poziomie użytkowym jak i fizycznym. 32 opr. Lech Banachowski, Jan Wierzbicki Korzystanie z poszczególnych poziomów odbywa się do pewnego stopnia w sposób niezależny. Na przykład, można zmieniać położenie danych na dysku i ich zapis bez potrzeby zmiany struktury logicznej tabel; można zmieniać tabele bez konieczności zmiany programów aplikacyjnych - o ile programy aplikacyjne są oparte na perspektywach a nie tabelach. W pierwszym przypadku mamy do czynienia z tak zwaną niezależnością fizyczną danych, w drugim z niezależnością logiczną danych. 33 opr. Lech Banachowski, Jan Wierzbicki Katalog (słownik danych), metadane jest to zbiór tabel i perspektyw opisujących schemat bazy danych to jest definicje wszystkich jej obiektów (na każdym z trzech poziomów bazy danych). Istotne jest użycie relacyjnego modelu danych w tym celu. Zatem metadane są zapisywane i przetwarzane w taki sam sposób jak zwykłe dane. 34 opr. Lech Banachowski, Jan Wierzbicki Architektura klient-serwer Aplikacje bazodanowe składają się zwykle z co najmniej dwóch części: • strony klienta - na stacji roboczej użytkownika, • strony serwera – na komputerze zawierającym serwer bazy danych czyli bazę danych wraz z jej systemem zarządzania (SZBD). 35 opr. Lech Banachowski, Jan Wierzbicki Funkcje aplikacji po stronie serwera bazy danych • Przechowywanie i organizacja dostępu do danych. • Wykonywanie instrukcji języka baz danych (jest to język o nazwie SQL omawiany w wykładzie 9). • Sprawowanie kontroli nad spójnością danych. • Zarządzanie zasobami bazy danych w tym kontami użytkowników. Funkcje aplikacji po stronie klienta • Kontakt z użytkownikiem (interfejs użytkownika). • Wyjaśnianie użytkownikowi stanu obliczeń w tym błędów i sytuacji wyjątkowych. • Przyjmowanie od niego zleceń na operacje, wykonywanie tych zleceń lub przesyłanie ich w postaci instrukcji języka SQL do serwera bazy danych. 36 opr. Lech Banachowski, Jan Wierzbicki Historia baz danych • 1961– Integrated Data Store IDS (Charles Bachman, General Electric) - pierwszy SZBD, początek sieciowego modelu danych. • 1965-70 – Information Management System IMS (IBM) – hierarchiczny model danych. • 1970 – Edgar Codd, IBM – relacyjny model danych. • 1971 – CODASYL, standard sieciowego modelu danych. • 1976 – Peter Chen – model związków encji (ERD, ERM), brak standardu do tej pory. • Początek lat siedemdziesiątych - w laboratorium badawczym IBM w San Jose powstał prototyp języka SQL o nazwie Sequel. • 1973 - pierwszy system zarządzania relacyjną bazą danych (System R w firmie IBM). • 1979 - firma Relational Software (później Oracle) wprowadziła na rynek pierwszą komercyjną wersję systemu zarządzania relacyjną 37 bazą danych. opr. Lech Banachowski, Jan Wierzbicki • 1987 pierwszy standard języka SQL (ISO), • Kolejne wersje standardu ANSI/ISO: 1989, 1992 SQL2, 1999 SQL:1999 – model obiektowo-relacyjny, trwają prace nad następnymi standardami SQL3 i SQL4. • Lata osiemdziesiąte – badania nad dedukcyjnymi i obiektowymi bazami danych. • 1997 - Standard obiektowych baz danych ODMG 2.0. 38 • Lata dziewięćdziesiąte – rozszerzenie baz danych o nowe aspekty: architektury wielowarstwowe, rozproszenie, równoległość, Internet, hurtownie danych, OLAP, multimedia, bazy dokumentów w tym XML, GIS (Geographical Information Systems), ERP (Enterprise Resource Planning) oraz MRP (Management Resource Planning) - pakiety takie jak SAP, Baan, Oracle, PeopleSoft, Siebel, CRM (Client Relationship Management). opr. Lech Banachowski, Jan Wierzbicki Posługiwanie się bazą danych • • • • wyszukiwanie danych modyfikacja (aktualizacja) danych dopisywanie danych usuwanie danych 39 opr. Lech Banachowski, Jan Wierzbicki Wyszukiwanie danych • filtr – doraźnie • kwerenda – trwale 40 opr. Lech Banachowski, Jan Wierzbicki