Hurtownie danych i data mining

advertisement
Hurtownie danych i data mining
Piotr Lipiński
Lista zadań nr 4 – BONUSOWA – Oracle Data Mining
Zadanie 0. (1 punkt bonusowy)
1. Uruchom dostępną na komputerach w sali 110 przygotowaną maszynę wirtualną Oracle Virtual
Box z zainstalowanym oprogramowaniem Oracle Database oraz Oracle Data Mining. W tym celu
należy:
- uruchomić na komputerze system Microsoft Windows,
- uruchomić program Oracle VirtualBox (jeśli nie jest dostępny na pulpicie, to w menu Start
wybrać folder Wszystkie programy, a w nim folder Oracle VM Virtual Box),
- w oknie Oracle VM Virtual Box Manager podłączyć przygotowaną wirtualną maszynę w
następujący sposób:
- w menu Machine wybrać Add...,
- wskazać plik C:\VirtualBox VMs\win7\win7oracle.vbox (na niektórych komputerach plik
może znajdować się w innej lokalizacji, na przykład na dysku D:, w przypadku problemów
z jego znalezieniem proszę o kontakt z administratorami z Centrum Obliczeniowego),
- w oknie Oracle VM Virtual Box Manager wybrać podłączoną wirtualną maszynę i uruchomić
ją naciskając przycisk Start.
- zalogować się do systemu operacyjnego na maszynie wirtualnej (użytkownik BI, hasło
123456).
UWAGA: Jeśli wcześniej była używana (i nadal jest podłączona) w Oracle VirtualBox wirtualna
maszyna z Microsoft SQL Server, to należy ją odłączyć (usunąć z Oracle VirtualBox).
Zadanie 1. (3 punkty bonusowe)
Uruchom SQLDeveloper i utwórz projekt klasyfikacji danych taki jak na wykładzie. W tym celu:
0. Sprawdź czy uruchomiony jest serwer Oracle Database i niezbędne procesy – powinny działać
usługi systemowe o nazwach OracleServiceORCL i OracleOraDB12Home1TNSListener – jeśli nie
są włączone, to uruchom je.
1. Uruchom Oracle SQLDeveloper. Zwróć uwagę, żeby uruchomić program w wersji 4.1.3 (skrót
powinien być dostępny na pulpicie), a nie w wersji 3.2.20 domyślnie dostarczanej z
oprogramowaniem Oracle Database 12g.
2. W zakładce Connections dwukrotnie kliknij na połączeniu admin (reprezentującym połączenie
do głównej bazy danych ORCL jako główny administrator - użytkownik SYS) w celu połączenia się
z główną bazą danych Oracle. Następnie, w celu włączenia osadzonych baz danych, wykonaj
poniższe polecenie SQL wpisując je w zakładce Worksheet i klikając przycisk Execute:
alter pluggable database all open;
Po wykonaniu polecenia powinien zostać zwrócony komunikat Pluggable DATABASE altered
potwierdzający włączenie osadzonych baz danych.
3. W zakładce Connections dostępne są jeszcze połączenia: sys, dmuser i dmdata. Połączenie sys
reprezentuje połączenie do osadzonej bazy danych PDBORCL jako główny administrator –
użytkownik SYS. Połączenie dmuser reprezentuje połączenie do osadzonej bazy danych
PDBORCL jako użytkownik DMUSER utworzony do celów analizy danych. Połączenie dmdata
reprezentuje połączenie do osadzonej bazy danych PDBORCL jako użytkownik DMDATA
utworzony do celów przechowywania danych do analizy. Sprawdź działanie tych połączeń i obiekty
bazy danych dostępne dla każdego z tych użytkowników.
4. W zakładce Data Miner dwukrotniej kliknij na połączeniu dmuser (reprezentującym połączenie
do repozytorium Oracle Data Miner stworzonym w osadzonej bazie danych PDBORCL i
dostępnym dla użytkownika DMUSER) w celu połączenia się z repozytorium Oracle Data Miner.
5. Stwórz nowy projekt klikając prawym przyciskiem na nazwie połączenia, wybierając New Project
i podając nazwę projektu. Po utworzeniu projektu, stwórz nowy diagram klikając prawym
przyciskiem na nazwie projektu, wybierając New Workflow i podając nazwę diagramu.
6. W panelu po prawej stronie dostępne są komponenty umożliwiające zaprojektowanie procesu
eksploracji danych. Stwórz prosty proces eksploracji danych złożony z komponentów Data Source
(wskazującego na źródło danych – wybierz tabelę DMUSER.ODMR_CARS_DATA) i Clustering
(określającego sposób grupowania danych). Połącz komponenty klikając prawym przyciskiem na
Data Source i wybierając Connect, a następnie klikając na Clustering.
7. Określ zakres danych do grupowania, klikając prawym przyciskiem na komponencie Clustering i
wybierając Edit, a następnie w zakładce Input Data w kolumnie Input zaznaczając Ignore przy
atrybucie Name i Input przy pozostałych atrybutach. Po określeniu danych zamknij okno
przyciskiem OK.
8. Uruchom proces eksploracji danych, klikając prawym przyciskiem na komponencie Data Source
i wybierając Force Run, a następnie Selected Node and Children.
9. Przeanalizuj wyniki grupowania danych, klikając prawym przyciskiem na komponencie
Clustering i wybierając View Models.
10. Rozszerz utworzony proces eksploracji danych o filtrowanie danych, w sposób analogiczny jak
na wykładzie, tak aby grupować tylko dane pojazdów o mocy (HORSEPOWER) niższej niż
wybrany próg.
Zadanie 2. (2 punkty bonusowe)
Załaduj do bazy danych, do schematu użytkownika DMDATA, zestaw danych IRIS, a następnie
stwórz proces eksploracji danych grupujący te dane (analogicznie jak pokazano to na wykładzie).
Zadanie 3. (2 punkty bonusowe)
Stwórz proces eksploracji danych klasyfikujący dane IRIS (analogicznie jak pokazano to na
wykładzie).
WSKAZÓWKI:
Wiele wskazówek technicznych można znaleźć w skrypcie "Drążenie danych z użyciem narzędzi
Oracle", który można otrzymać kontaktując się osobiście lub emailem z prowadzącym zajęcia (ze
względu na prawa autorskie – skrypt został przygotowany wyłącznie na użytek studentów naszego
wydziału – skrypt nie jest publicznie dostępny).
Download