Hurtownie danych i data mining Piotr Lipiński Lista zadań nr 4 – BONUSOWA – Oracle Data Mining Zadanie 0. (1 punkt bonusowy) 1. Uruchom dostępną na komputerach w sali 110 przygotowaną maszynę wirtualną Oracle Virtual Box z zainstalowanym oprogramowaniem Oracle Database oraz Oracle Data Mining. W tym celu należy: - uruchomić na komputerze system Microsoft Windows, - uruchomić program Oracle VirtualBox (jeśli nie jest dostępny na pulpicie, to w menu Start wybrać folder Wszystkie programy, a w nim folder Oracle VM Virtual Box), - w oknie Oracle VM Virtual Box Manager podłączyć przygotowaną wirtualną maszynę w następujący sposób: - w menu Machine wybrać Add..., - wskazać plik C:\VirtualBox VMs\win7\win7oracle.vbox (na niektórych komputerach plik może znajdować się w innej lokalizacji, na przykład na dysku D:, w przypadku problemów z jego znalezieniem proszę o kontakt z administratorami z Centrum Obliczeniowego), - w oknie Oracle VM Virtual Box Manager wybrać podłączoną wirtualną maszynę i uruchomić ją naciskając przycisk Start. - zalogować się do systemu operacyjnego na maszynie wirtualnej (użytkownik BI, hasło 123456). UWAGA: Jeśli wcześniej była używana (i nadal jest podłączona) w Oracle VirtualBox wirtualna maszyna z Microsoft SQL Server, to należy ją odłączyć (usunąć z Oracle VirtualBox). Zadanie 1. (3 punkty bonusowe) Uruchom SQLDeveloper i utwórz projekt klasyfikacji danych taki jak na wykładzie. W tym celu: 0. Sprawdź czy uruchomiony jest serwer Oracle Database i niezbędne procesy – powinny działać usługi systemowe o nazwach OracleServiceORCL i OracleOraDB12Home1TNSListener – jeśli nie są włączone, to uruchom je. 1. Uruchom Oracle SQLDeveloper. Zwróć uwagę, żeby uruchomić program w wersji 4.1.3 (skrót powinien być dostępny na pulpicie), a nie w wersji 3.2.20 domyślnie dostarczanej z oprogramowaniem Oracle Database 12g. 2. W zakładce Connections dwukrotnie kliknij na połączeniu admin (reprezentującym połączenie do głównej bazy danych ORCL jako główny administrator - użytkownik SYS) w celu połączenia się z główną bazą danych Oracle. Następnie, w celu włączenia osadzonych baz danych, wykonaj poniższe polecenie SQL wpisując je w zakładce Worksheet i klikając przycisk Execute: alter pluggable database all open; Po wykonaniu polecenia powinien zostać zwrócony komunikat Pluggable DATABASE altered potwierdzający włączenie osadzonych baz danych. 3. W zakładce Connections dostępne są jeszcze połączenia: sys, dmuser i dmdata. Połączenie sys reprezentuje połączenie do osadzonej bazy danych PDBORCL jako główny administrator – użytkownik SYS. Połączenie dmuser reprezentuje połączenie do osadzonej bazy danych PDBORCL jako użytkownik DMUSER utworzony do celów analizy danych. Połączenie dmdata reprezentuje połączenie do osadzonej bazy danych PDBORCL jako użytkownik DMDATA utworzony do celów przechowywania danych do analizy. Sprawdź działanie tych połączeń i obiekty bazy danych dostępne dla każdego z tych użytkowników. 4. W zakładce Data Miner dwukrotniej kliknij na połączeniu dmuser (reprezentującym połączenie do repozytorium Oracle Data Miner stworzonym w osadzonej bazie danych PDBORCL i dostępnym dla użytkownika DMUSER) w celu połączenia się z repozytorium Oracle Data Miner. 5. Stwórz nowy projekt klikając prawym przyciskiem na nazwie połączenia, wybierając New Project i podając nazwę projektu. Po utworzeniu projektu, stwórz nowy diagram klikając prawym przyciskiem na nazwie projektu, wybierając New Workflow i podając nazwę diagramu. 6. W panelu po prawej stronie dostępne są komponenty umożliwiające zaprojektowanie procesu eksploracji danych. Stwórz prosty proces eksploracji danych złożony z komponentów Data Source (wskazującego na źródło danych – wybierz tabelę DMUSER.ODMR_CARS_DATA) i Clustering (określającego sposób grupowania danych). Połącz komponenty klikając prawym przyciskiem na Data Source i wybierając Connect, a następnie klikając na Clustering. 7. Określ zakres danych do grupowania, klikając prawym przyciskiem na komponencie Clustering i wybierając Edit, a następnie w zakładce Input Data w kolumnie Input zaznaczając Ignore przy atrybucie Name i Input przy pozostałych atrybutach. Po określeniu danych zamknij okno przyciskiem OK. 8. Uruchom proces eksploracji danych, klikając prawym przyciskiem na komponencie Data Source i wybierając Force Run, a następnie Selected Node and Children. 9. Przeanalizuj wyniki grupowania danych, klikając prawym przyciskiem na komponencie Clustering i wybierając View Models. 10. Rozszerz utworzony proces eksploracji danych o filtrowanie danych, w sposób analogiczny jak na wykładzie, tak aby grupować tylko dane pojazdów o mocy (HORSEPOWER) niższej niż wybrany próg. Zadanie 2. (2 punkty bonusowe) Załaduj do bazy danych, do schematu użytkownika DMDATA, zestaw danych IRIS, a następnie stwórz proces eksploracji danych grupujący te dane (analogicznie jak pokazano to na wykładzie). Zadanie 3. (2 punkty bonusowe) Stwórz proces eksploracji danych klasyfikujący dane IRIS (analogicznie jak pokazano to na wykładzie). WSKAZÓWKI: Wiele wskazówek technicznych można znaleźć w skrypcie "Drążenie danych z użyciem narzędzi Oracle", który można otrzymać kontaktując się osobiście lub emailem z prowadzącym zajęcia (ze względu na prawa autorskie – skrypt został przygotowany wyłącznie na użytek studentów naszego wydziału – skrypt nie jest publicznie dostępny).