10 Business Intelligence prof. UE dr hab. Maria Mach-Król Wykład 12 Text Mining i Web Mining(drążenie tekstu i drążenie web) Case study Drążenie tekstu dla bezpieczeństwa i przeciw terroryzmowi Projekt GENOA próbuje dostarczyć zaawansowane narzędzia i techniki celem szybkiego analizowania informacji związanej z bieżącą sytuacją. Jednym z wyzwań GENOA było ułatwienie użytkownikowi wchłonięcia wiedzy odkrytej przez narzędzia analityczne. Badawcza organizacja non-profit MITRE dołączyła do projektu, zapewniając narzędzie drążenia tekstu. Pojęcia Text Mining 85-90 % wszystkich danych korporacyjnych jest w jakiejś nieustrukturyzowanej formie (np. tekstu) Nieustrukturyzowane dane korporacyjne podwajają się co 18 miesięcy. Wykorzystanie tych źródeł informacji to nie opcja, ale rzeczywista potrzeba, jeśli chce się być konkurencyjnym. Odpowiedź: text mining (drążenie tekstu) Półautomatyczny proces wydobywania wiedzy z nieustrukturyzowanych źródeł danych Inne nazwy: text data mining (tekstowe drążenie danych) lub odkrywanie wiedzy w bazach danych tekstowych Data Mining versus Text Mining Oba poszukują nowych i użytecznych wzorców Oba są procesami półautomatycznymi Różnica tkwi w naturze danych: Dane ustrukturyzowane vs nieustrukturyzowane Dane ustrukturyzowane: bazy danych Dane nieustrukturyzowane: dokumenty Word, pliki PDF, wyjątki z tekstu, pliki XML itd. Text mining - najpierw narzuca strukturę na dane, a potem drąży dane ustrukturyzowane Pojęcia Text Mining Korzyści z drążenia tekstu są oczywiste, zwłaszcza w środowiskach bogatych tekstowo Np. prawo (wyroki), badania naukowe (artykuły), finanse (raporty kwartalne), medycyna (wypisy szpitalne), biologia (interakcje molekularne), technika (pliki patentowe), marketing (komentarze klientów) itd. Zadania w komunikacji elektronicznej (np. Email) Filtrowanie spamu Priorytetyzacja i kategoryzacja emaili Automatyczne generowanie odpowiedzi Zastosowania Text Mining Ekstrakcja informacji - identyfikacja kluczowych fraz w tekście za pomocą dopasowywania wzorców Śledzenie tematów - w oparciu o profil użytkownika i oglądane przez niego dokumenty, przewidywanie innych dokumentów mogących go zainteresować Sumaryzacja - Podsumowywanie dokumentu aby oszczędzić czas użytkownika Kategoryzacja - identyfikacja głównych tematów dokumentu i w oparciu o nie przypisanie dokumentu do odpowiedniej kategorii Grupowanie grupowanie podobnych dokumentów bez predefiniowanego zbioru kategorii (…) … się w dokumencie Tagowanie części mowy - proces oznaczania słów w tekście jako konkretnych części mowy (rzeczownik, przyimek itp. ) Morfologia - bada wewnętrzną strukturę słów Macierz term-dokument - inaczej macierz wystąpień - powszechny schemat reprezentacji związków między termami a dokumentem, w postaci tabelarycznej, gdzie w wierszach są termy, w kolumnach dokumenty, a w komórkach częstotliwość występowania… … wiedzy z baz danych patentowych. Przykład: Eastman Kodak zatrudniał ponad 5 tys. naukowców, inżynierów i techników na świecie. W XX w. uzyskał ok. 20 tys. patentów. Analitycy Kodaka wykorzystując specjalistyczne oprogramowanie (narzędzia text mining z ClearForest Corp.) analizowali bazy danych patentowych, aby uzyskać całościowe spojrzenie na konkurencję. Przetwarzanie języka naturalnego (Natural… … sposób jak my - ludzie? Wyzwania NLP Tagowanie części mowy - jest trudne, ponieważ zależy nie tylko od definicji termu, ale też od kontekstu Segmentacja tekstu - Niektóre języki, jak chiński, japoński, tajski, nie mają w piśmie rozgraniczeń między słowami; Wtedy wymagane jest odnalezienie tych granic. Usunięcie niejasności i dwuznaczności sensu słów - wiele słów ma więcej niż jedno znaczenie. Dwuznaczność składni… … opartych na tekście (wskazówek) Zastosowania Text Mining Case study: drążenie kłamstw Wygenerowano 371 użytecznych wypowiedzi (fraz) Użyto 31 cech Użyto różnych metod selekcji cech Zastosowano 10-krotną walidację krzyżową Rezultaty (całkowity % dokładności) Regresja logistyczna 67.28 Drzewa decyzyjne 71.60 Sieci neuronowe 73.46 Proces Text Mining Krok 1: Ustal korpus Zbierz wszystkie relewantne… Materiał ilustracyjny - historia sztuki starożytnej Drążenie danych w BI - wykład Rachunek predykatów Technologie internetowe-opracowane zagadnienia na egzamin Wprowadzenie do BI - wykład nlp Reklama Prawa autorskie Reklama Kontakt