Przykłady narzędzi wspomagających analize danych

advertisement
Przykłady narzędzi wspomagających
analizę danych
R oraz RStudio
 Środowisko programistyczne analiz statystycznych (open-source)
Dane: GUS
R oraz RStudio
 Tworzenie skryptu i dokumentacji HTML jednocześnie
RapidMiner Community Edition
 Przetwarzanie danych i data mining
Przykład: Practical text mining
QGIS
 Aplikacja do analizy informacji przestrzennej (open source)
Kartodiagram - dane: Instytut Transportu Samochodowego – Obserwatorium BRD
Znajdź najbliższe placówki medyczne w pobliżu
al. Trzech Wieszczów w Krakowie
Serwer danych przestrzennych
 Publikacja danych Obserwatorium Bezpieczeństwa Ruchu Drogowego
Dane: Instytut Transportu Samochodowego
Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach
Programu Infrastruktura i Środowisko
Serwer danych przestrzennych
 Agregacja danych podczas nawigacji mapy
Dane: Instytut Transportu Samochodowego
Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach
Programu Infrastruktura i Środowisko
Serwer danych przestrzennych
 Agregacja danych podczas nawigacji mapy
Dane: Instytut Transportu Samochodowego
Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach
Programu Infrastruktura i Środowisko
Analiza danych w chmurze
 Amazon Web Services
Tworzenie klastra obliczeniowego
Zapis do chmury AWS S3
Analiza danych w chmurze
 Amazon Web Services
Tworzenie klastra obliczeniowego
Wybór wielkości, mocy
i zasobów klastra
Analiza danych w chmurze
 Amazon Web Services
Tworzenie klastra obliczeniowego
Publiczny adres DNS klastra umożliwia
połączenie SSH do systemu Linux
Analiza danych w chmurze
 Amazon Web Services – HIVE (sql-like)
CREATE EXTERNAL TABLE dane (nazwa_stacji_pomiarowej string, pomiar int, data_pomiaru)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ';'
LINES TERMINATED BY '\n'
LOCATION 's3n://mys3.aws.amazon.com/dane_testowe';
SELECT nazwa_stacji_pomiarowej, AVG(pomiar), count(*) liczba_pomiarow
FROM dane
WHERE data_pomiaru='2011-06-01'
GROUP BY nazwa_stacji_pomiarowej;

Plik płaski 2 GB, klaster small – 10 węzłów obliczeniowych
czas przetworzenia: ~9 minut

Plik płaski 0,5TB, klaster small – 20 węzłów obliczeniowych
czas przetworzenia: ~4 godziny
Funkcje agregacyjne (SUM, AVG, MIN,
MAX, COUNT) i analityczne (OVER
PARTITION BY, RANK, CUM_DIST, …)
Rozwiązania komercyjne
typu „appliance”
 IBM Pure Data for Analytics (dawniej Netezza)
 Oracle Exadata Database Machine
Cechy:
• Dedykowane urządzenie
• Rozwiązanie kompletne (hardware + software)
• Szybka instalacja
• Łatwe zarządzanie
Appliance IBM Netezza
Narzędzia open source – przykłady
 Analiza danych i przetwarzanie numeryczne
GNU Octave
 Serwery danych przestrzennych
www.r-project.org
www.rstudio.com
www.knime.org
www.cs.waikato.ac.nz/ml/weka
orange.biolab.si
rapidminer.com
www.predictiveanalyticstoday.com/top-15-free-data-mining-software
Dziękuję za uwagę
[email protected]
Comarch ♦ al. Jana Pawła II 39a ♦ 31-864 Kraków ♦ Phone +48 (12) 64 61 000 ♦ E-Mail: [email protected] ♦ www.comarch.com
Download