Przykłady narzędzi wspomagających analizę danych R oraz RStudio Środowisko programistyczne analiz statystycznych (open-source) Dane: GUS R oraz RStudio Tworzenie skryptu i dokumentacji HTML jednocześnie RapidMiner Community Edition Przetwarzanie danych i data mining Przykład: Practical text mining QGIS Aplikacja do analizy informacji przestrzennej (open source) Kartodiagram - dane: Instytut Transportu Samochodowego – Obserwatorium BRD Znajdź najbliższe placówki medyczne w pobliżu al. Trzech Wieszczów w Krakowie Serwer danych przestrzennych Publikacja danych Obserwatorium Bezpieczeństwa Ruchu Drogowego Dane: Instytut Transportu Samochodowego Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach Programu Infrastruktura i Środowisko Serwer danych przestrzennych Agregacja danych podczas nawigacji mapy Dane: Instytut Transportu Samochodowego Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach Programu Infrastruktura i Środowisko Serwer danych przestrzennych Agregacja danych podczas nawigacji mapy Dane: Instytut Transportu Samochodowego Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach Programu Infrastruktura i Środowisko Analiza danych w chmurze Amazon Web Services Tworzenie klastra obliczeniowego Zapis do chmury AWS S3 Analiza danych w chmurze Amazon Web Services Tworzenie klastra obliczeniowego Wybór wielkości, mocy i zasobów klastra Analiza danych w chmurze Amazon Web Services Tworzenie klastra obliczeniowego Publiczny adres DNS klastra umożliwia połączenie SSH do systemu Linux Analiza danych w chmurze Amazon Web Services – HIVE (sql-like) CREATE EXTERNAL TABLE dane (nazwa_stacji_pomiarowej string, pomiar int, data_pomiaru) ROW FORMAT DELIMITED FIELDS TERMINATED BY ';' LINES TERMINATED BY '\n' LOCATION 's3n://mys3.aws.amazon.com/dane_testowe'; SELECT nazwa_stacji_pomiarowej, AVG(pomiar), count(*) liczba_pomiarow FROM dane WHERE data_pomiaru='2011-06-01' GROUP BY nazwa_stacji_pomiarowej; Plik płaski 2 GB, klaster small – 10 węzłów obliczeniowych czas przetworzenia: ~9 minut Plik płaski 0,5TB, klaster small – 20 węzłów obliczeniowych czas przetworzenia: ~4 godziny Funkcje agregacyjne (SUM, AVG, MIN, MAX, COUNT) i analityczne (OVER PARTITION BY, RANK, CUM_DIST, …) Rozwiązania komercyjne typu „appliance” IBM Pure Data for Analytics (dawniej Netezza) Oracle Exadata Database Machine Cechy: • Dedykowane urządzenie • Rozwiązanie kompletne (hardware + software) • Szybka instalacja • Łatwe zarządzanie Appliance IBM Netezza Narzędzia open source – przykłady Analiza danych i przetwarzanie numeryczne GNU Octave Serwery danych przestrzennych www.r-project.org www.rstudio.com www.knime.org www.cs.waikato.ac.nz/ml/weka orange.biolab.si rapidminer.com www.predictiveanalyticstoday.com/top-15-free-data-mining-software Dziękuję za uwagę [email protected] Comarch ♦ al. Jana Pawła II 39a ♦ 31-864 Kraków ♦ Phone +48 (12) 64 61 000 ♦ E-Mail: [email protected] ♦ www.comarch.com