Przykłady narzędzi wspomagających analize danych

Przykłady narzędzi wspomagających
analizę danych
R oraz RStudio
 Środowisko programistyczne analiz statystycznych (open-source)
Dane: GUS
R oraz RStudio
 Tworzenie skryptu i dokumentacji HTML jednocześnie
RapidMiner Community Edition
 Przetwarzanie danych i data mining
Przykład: Practical text mining
QGIS
 Aplikacja do analizy informacji przestrzennej (open source)
Kartodiagram - dane: Instytut Transportu Samochodowego – Obserwatorium BRD
Znajdź najbliższe placówki medyczne w pobliżu
al. Trzech Wieszczów w Krakowie
Serwer danych przestrzennych
 Publikacja danych Obserwatorium Bezpieczeństwa Ruchu Drogowego
Dane: Instytut Transportu Samochodowego
Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach
Programu Infrastruktura i Środowisko
Serwer danych przestrzennych
 Agregacja danych podczas nawigacji mapy
Dane: Instytut Transportu Samochodowego
Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach
Programu Infrastruktura i Środowisko
Serwer danych przestrzennych
 Agregacja danych podczas nawigacji mapy
Dane: Instytut Transportu Samochodowego
Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach
Programu Infrastruktura i Środowisko
Analiza danych w chmurze
 Amazon Web Services
Tworzenie klastra obliczeniowego
Zapis do chmury AWS S3
Analiza danych w chmurze
 Amazon Web Services
Tworzenie klastra obliczeniowego
Wybór wielkości, mocy
i zasobów klastra
Analiza danych w chmurze
 Amazon Web Services
Tworzenie klastra obliczeniowego
Publiczny adres DNS klastra umożliwia
połączenie SSH do systemu Linux
Analiza danych w chmurze
 Amazon Web Services – HIVE (sql-like)
CREATE EXTERNAL TABLE dane (nazwa_stacji_pomiarowej string, pomiar int, data_pomiaru)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ';'
LINES TERMINATED BY '\n'
LOCATION 's3n://mys3.aws.amazon.com/dane_testowe';
SELECT nazwa_stacji_pomiarowej, AVG(pomiar), count(*) liczba_pomiarow
FROM dane
WHERE data_pomiaru='2011-06-01'
GROUP BY nazwa_stacji_pomiarowej;

Plik płaski 2 GB, klaster small – 10 węzłów obliczeniowych
czas przetworzenia: ~9 minut

Plik płaski 0,5TB, klaster small – 20 węzłów obliczeniowych
czas przetworzenia: ~4 godziny
Funkcje agregacyjne (SUM, AVG, MIN,
MAX, COUNT) i analityczne (OVER
PARTITION BY, RANK, CUM_DIST, …)
Rozwiązania komercyjne
typu „appliance”
 IBM Pure Data for Analytics (dawniej Netezza)
 Oracle Exadata Database Machine
Cechy:
• Dedykowane urządzenie
• Rozwiązanie kompletne (hardware + software)
• Szybka instalacja
• Łatwe zarządzanie
Appliance IBM Netezza
Narzędzia open source – przykłady
 Analiza danych i przetwarzanie numeryczne
GNU Octave
 Serwery danych przestrzennych
www.r-project.org
www.rstudio.com
www.knime.org
www.cs.waikato.ac.nz/ml/weka
orange.biolab.si
rapidminer.com
www.predictiveanalyticstoday.com/top-15-free-data-mining-software
Dziękuję za uwagę
[email protected]
Comarch ♦ al. Jana Pawła II 39a ♦ 31-864 Kraków ♦ Phone +48 (12) 64 61 000 ♦ E-Mail: [email protected] ♦ www.comarch.com

Przykłady narzędzi wspomagających analize danych

Related documents

Products

Support

Przykłady narzędzi wspomagających analize danych

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib