text-mining-i-web-mining-wyklad

advertisement
10
Business Intelligence prof. UE dr hab. Maria Mach-Król
Wykład 12
Text Mining i Web Mining(drążenie tekstu i drążenie web)
Case study
Drążenie tekstu dla bezpieczeństwa i przeciw terroryzmowi
Projekt GENOA próbuje dostarczyć zaawansowane narzędzia i techniki celem szybkiego
analizowania informacji związanej z bieżącą sytuacją.
Jednym z wyzwań GENOA było ułatwienie użytkownikowi wchłonięcia wiedzy odkrytej przez
narzędzia analityczne.
Badawcza organizacja non-profit MITRE dołączyła do projektu, zapewniając narzędzie drążenia
tekstu.
Pojęcia Text Mining
85-90 % wszystkich danych korporacyjnych jest w jakiejś nieustrukturyzowanej formie (np. tekstu)
Nieustrukturyzowane dane korporacyjne podwajają się co 18 miesięcy. Wykorzystanie tych źródeł
informacji to nie opcja, ale rzeczywista potrzeba, jeśli chce się być konkurencyjnym.
Odpowiedź: text mining (drążenie tekstu) Półautomatyczny proces wydobywania wiedzy z
nieustrukturyzowanych źródeł danych Inne nazwy: text data mining (tekstowe drążenie danych) lub
odkrywanie wiedzy w bazach danych tekstowych Data Mining versus Text Mining
Oba poszukują nowych i użytecznych wzorców Oba są procesami półautomatycznymi Różnica tkwi
w naturze danych: Dane ustrukturyzowane vs nieustrukturyzowane Dane ustrukturyzowane: bazy
danych Dane nieustrukturyzowane: dokumenty Word, pliki PDF, wyjątki z tekstu, pliki XML itd.
Text mining - najpierw narzuca strukturę na dane, a potem drąży dane ustrukturyzowane Pojęcia
Text Mining
Korzyści z drążenia tekstu są oczywiste, zwłaszcza w środowiskach bogatych tekstowo Np. prawo
(wyroki), badania naukowe (artykuły), finanse (raporty kwartalne), medycyna (wypisy szpitalne),
biologia (interakcje molekularne), technika (pliki patentowe), marketing (komentarze klientów) itd.
Zadania w komunikacji elektronicznej (np. Email)
Filtrowanie spamu Priorytetyzacja i kategoryzacja emaili Automatyczne generowanie odpowiedzi
Zastosowania Text Mining
Ekstrakcja informacji - identyfikacja kluczowych fraz w tekście za pomocą dopasowywania
wzorców Śledzenie tematów - w oparciu o profil użytkownika i oglądane przez niego dokumenty,
przewidywanie innych dokumentów mogących go zainteresować Sumaryzacja - Podsumowywanie
dokumentu aby oszczędzić czas użytkownika Kategoryzacja - identyfikacja głównych tematów
dokumentu i w oparciu o nie przypisanie dokumentu do odpowiedniej kategorii Grupowanie grupowanie podobnych dokumentów bez predefiniowanego zbioru kategorii
(…)
… się w dokumencie Tagowanie części mowy - proces oznaczania słów w tekście jako konkretnych
części mowy (rzeczownik, przyimek itp. ) Morfologia - bada wewnętrzną strukturę słów Macierz
term-dokument - inaczej macierz wystąpień - powszechny schemat reprezentacji związków między
termami a dokumentem, w postaci tabelarycznej, gdzie w wierszach są termy, w kolumnach
dokumenty, a w komórkach częstotliwość występowania…
… wiedzy z baz danych patentowych. Przykład: Eastman Kodak zatrudniał ponad 5 tys.
naukowców, inżynierów i techników na świecie. W XX w. uzyskał ok. 20 tys. patentów. Analitycy
Kodaka wykorzystując specjalistyczne oprogramowanie (narzędzia text mining z ClearForest Corp.)
analizowali bazy danych patentowych, aby uzyskać całościowe spojrzenie na konkurencję.
Przetwarzanie języka naturalnego (Natural…
… sposób jak my - ludzie? Wyzwania NLP Tagowanie części mowy - jest trudne, ponieważ zależy
nie tylko od definicji termu, ale też od kontekstu Segmentacja tekstu - Niektóre języki, jak chiński,
japoński, tajski, nie mają w piśmie rozgraniczeń między słowami; Wtedy wymagane jest
odnalezienie tych granic. Usunięcie niejasności i dwuznaczności sensu słów - wiele słów ma więcej
niż jedno znaczenie. Dwuznaczność składni…
… opartych na tekście (wskazówek) Zastosowania Text Mining
Case study: drążenie kłamstw Wygenerowano 371 użytecznych wypowiedzi (fraz) Użyto 31 cech
Użyto różnych metod selekcji cech Zastosowano 10-krotną walidację krzyżową Rezultaty
(całkowity % dokładności)
Regresja logistyczna 67.28
Drzewa decyzyjne 71.60
Sieci neuronowe 73.46
Proces Text Mining
Krok 1: Ustal korpus Zbierz wszystkie relewantne…
Materiał ilustracyjny - historia sztuki starożytnej
Drążenie danych w BI - wykład
Rachunek predykatów
Technologie internetowe-opracowane zagadnienia na egzamin
Wprowadzenie do BI - wykład
nlp
Reklama































Prawa autorskie
Reklama
Kontakt
Download