Analiza danych nieustrukturyzowanych: Text Miningkuligowska.com/wne/textmining/tm2.pdf · Przykład...

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Analiza danych nieustrukturyzowanych: Text Mining

dr Karolina Kuligowska

Wydział Nauk Ekonomicznych

Uniwersytet Warszawski


Część 2 SAS Text Miner

1) Krótka charakterystyka narzędzia

2) Etapy procesu text mining

3) Komponenty

4) Makro % tmfilter


49


[email protected]


[email protected]

SAS Institute na polskim rynku od 1992 r.

SAS Enterprise Miner

analizy data mining

interaktywna wizualizacja danych

SAS Text Miner

przetwarzanie tekstu

wydobywanie wiedzy z dokumentów tekstowych

interaktywna wizualizacja danych

SAS


50


[email protected]


[email protected]

Komponent wewnątrz SAS Enterprise Miner

Umożliwia wydobywanie informacji oraz dotarcie do tematów i konceptów zawartych w dużym zbiorze dokumentów

Obsługiwane formaty dokumentów: PDF, ASCII, Corel Presentations, HTML, Lotus Word Pro, WordPerfect, MS Excel, MS PowerPoint, MS Word, MS Outlook, MS Outlook Express

SAS Text Miner


51


[email protected]


[email protected]

SAS Text Miner zawiera makro %tmfilter, które:

wydobywa tekst z plików o różnym formacie lub

wydobywa tekst ze stron internetowych

a następnie

tworzy bazę danych SAS gotową do dalszych analiz

Funkcjonalności


52


[email protected]


[email protected]

SAS Text Miner może wydobywać tekst z plików w formacie PDF, ale nie obraz tekstu z pliku PDF

Jeśli plik zawiera zeskanowany tekst (tj. obraz tekstu), należy go przekonwertować na dokument tekstowy za pomocą dowolnego programu OCR (Optical Character Recognition)

Uwaga!





3) Komponenty

4) Makro % tmfilter


54


[email protected]


[email protected]

1. Wstępna analiza plików tekstowych (file preprocessing)

przetworzenie zbioru dokumentów w jedną bazę danych SAS - input dla Text Miner

2. Parsowanie - rozbiór struktury tekstu (text parsing)

a) dekompozycja danych tekstowych

b) ilościowa reprezentacja zbioru dokumentów

Etapy procesu text mining


55


[email protected]


[email protected]

3. Transformacja i redukcja wymiarów (transformation, dimension reduction)

a) transformacja reprezentacji ilościowej tekstu

b) redukcja wymiarów do zwartego formatu informacyjnego

4. Analiza (document analysis)

klastrowanie, klasyfikacja, predykcja

Etapy procesu text mining




2) Etapy procesu text mining 1. Wstępna analiza plików tekstowych

2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów

3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego

4. Analiza

3) Komponenty

4) Makro % tmfilter


57


[email protected]


[email protected]

Wstępna analiza plików tekstowych (file preprocessing)

Makro %tmfilter

tworzy bazę danych SAS, która zawiera tekst wydobyty z plików o różnym formacie

Źródła danych tekstowych

lokalne pliki tekstowe

bazy danych SAS

tabele w zewnętrznych bazach danych

pliki dostępne w sieci internetowej







4. Analiza

3) Komponenty

4) Makro % tmfilter


59


[email protected]


[email protected]

Termin wielowyrazowy to grupa wyrazów rozpatrywana jako pojedynczy termin

Zazwyczaj jest to czasownik złożony lub nazwa własna, rzadziej zwrot idiomatyczny

due to, because of

Web browser, interest rate

Terminy wielowyrazowe są obsługiwane w językach: angielski, francuski, niemiecki, włoski, portugalski, hiszpański

Terminy wielowyrazowe


60


[email protected]


[email protected]

SAS Text Miner identyfikuje części mowy

W rezultacie każde wyrażenie jest przyporządkowane do gramatycznej kategorii, bazując na kontekście użycia w danym zdaniu

Analiza ta jest obsługiwana w językach: angielski, francuski, niemiecki, hiszpański

Części mowy


61


[email protected]


[email protected]

Dokumenty z reguły zawierają pewne szczególne jednostki tekstu, takie jak:

adres, firma, organizacja, kwota, waluta, data, godzina, adres internetowy, lokalizacja, miara, procent, osoba, tytuł naukowy, telefon, produkt

SAS Text Miner identyfikuje jednostki specjalne dla języków: angielski, francuski, niemiecki, hiszpański

Jednostki specjalne


62


[email protected]


[email protected]

Stop lista: słowa o mało znaczącej treści zebrane w formie tabeli

Umożliwia pominięcie konkretnych słów, co przyspiesza analizę tekstu i prowadzi do uzyskania lepszych rezultatów

SAS Text Miner posiada stop listy dla języków: angielski, francuski, niemiecki

Stop lista


63


[email protected]


[email protected]

Przykład stop listy


64


[email protected]


[email protected]

Start lista: słowa o znaczącej treści zebrane w formie tabeli

Umożliwia włączenie konkretnych słów do analizy i zbadanie tylko wybranych słów

SAS Text Miner nie posiada domyślnej start listy

Start lista


65


[email protected]


[email protected]

SAS Text Miner może zostać skonfigurowany w celu znajdowania podstawy fleksyjnej słów (stemming, lematyzacja)

Jedno słowo może grupować różne części mowy np. słowo „nauka” może grupować „uczyć” oraz „nauczyciel”

Jednocześnie SAS Text Miner rozróżnia te słowa jako czasownik i rzeczownik w grupie „nauka”

Znajdowanie podstawy fleksyjnej


66


[email protected]


[email protected]

Podstawa fleksyjna

Wyrażenia

reach reaches, reached, reaching

big bigger, biggest

aller (francuski) vais, vas, va, allons, allez, vont

Przykłady podstawy fleksyjnej


67


[email protected]


[email protected]

SAS Text Miner korzysta z listy synonimów w celu pogrupowania słów

Synonimy nie mają wspólnej podstawy fleksyjnej, ale niosą tę samą informację

Np: „uczyć” ma synonimy: instruować, edukować, kształcić

Synonimy


68


[email protected]


[email protected]

Oprócz synonimów słów istnieją także formy kanoniczne („synonimy”) jednostek specjalnych

Jednostki specjalne, pomimo różnych nazw, są traktowane przez SAS Text Miner tak samo jak ich bazowa forma kanoniczna

Forma kanoniczna


69


[email protected]


[email protected]

DATA i rok 07/03/07

7 marzec

7 marzec 2007

’07

Procent 50%

Pięćdziesiąt procent

Pięćdziesiąt pt. proc

Forma kanoniczna

2007-03-07

-03-07

2007-03-07

2007

Forma kanoniczna

50%

Przykłady formy kanonicznej


70


[email protected]


[email protected]

SAS Text Miner umożliwia stworzenie własnych synonimów oraz form kanonicznych

W tym celu należy stworzyć zbiór danych SAS zawierający listę synonimów, która uwzględnia min. trzy zmienne:

słowo (term)

baza fleksyjna (parent)

kategoria części mowy (category)

Własne ustawienia


71


[email protected]


[email protected]

Słowo Baza Kategoria

wiele dużo liczebnik synonim

pracownicy pracować czasownik stemming

EM Enterprise Miner SAS

produkt forma kanoniczna

Przykłady własnych synonimów







4. Analiza

3) Komponenty

4) Makro % tmfilter


73


[email protected]


[email protected]

Oparta o zbiór słów kluczowych („bag of words” document representation) dokument tekstowy reprezentowany jest przez zbiór

słów kluczowych opisujących dokument (wypisywanych najczęściej ręcznie przez osobę tworzącą dokument). Wyszukiwanie dokumentów realizowane jest poprzez podanie słów kluczowych

Oparta o przestrzeń wektorową (vector space document representation) dokument tekstowy reprezentowany jest przez

wektor częstości występowania słów kluczowych, a całość zebrana jest w macierzy Term_Frequency_Matrix

Reprezentacja dokumentu


74


[email protected]

Doc 1 Coca-Cola announced earnings on Tuesday, Jan 12, 2017

Doc 2 Coca-Cola’s profits are down as of 12/01/2017

powyższy zbiór dwóch jednozdaniowych dokumentów SAS Text Miner przekształci do postaci macierzy częstości (term-by-document frequency matrix)

Zbiór dokumentów


75


[email protected]

Parsed term ID D1 D2

Coca-cola 1 1 1

+announce 2 1 0

+earnings 3 1 0

on 4 1 0

Tuesday 5 1 0

+profit 6 0 1

down 7 0 1

as of 8 0 1

‘s 9 0 1

+be 10 0 1

+[12/01/2017] 11 1 1

Macierz częstości występowania terminów w dokumencie


76


[email protected]


[email protected]

wiersze reprezentują rozłożone wyrażenia (rdzenie oraz formy kanoniczne)

w kolumnach odnoszących się do dokumentów przedstawiona jest liczba wystąpień (częstość) danego wyrażenia w tym dokumencie

niektóre wyrażenia zostały usunięte przez stop listę

macierz częstości służy jako podstawa analizy zbioru dokumentów

Macierz częstości występowania terminów w dokumencie


77


[email protected]


[email protected]

Macierz częstości jest olbrzymia, zawiera tysiące wyrażeń

Jak polepszyć macierz?

transformacja (funkcje ważące)

redukcja wymiarów macierzy do znacznie mniejszych rozmiarów (poprawia wydajność i efektywność procesu text mining)

Dopiero później: analiza

Ilościowa reprezentacja to za mało...







4. Analiza

3) Komponenty

4) Makro % tmfilter


79


[email protected]


[email protected]

Tematyka większości dokumentów jest zazwyczaj wystarczająco dobrze określona przez niewielką ilość słów

Pozostałe informacje słowne - zbędny „balast”

Celowość transformacji


80


[email protected]


[email protected]

Występowanie słów w tekście


81


[email protected]


[email protected]

Prawo Zipfa

częstotliwość występowania słowa w tekście jest odwrotnie proporcjonalna do jego rangi (pozycji w rankingu)

Prawo Zipfa


82


[email protected]


[email protected]

Słowa o największej mocy dyskryminacyjnej mają od niskiej do średniej częstotliwości

Prawo Zipfa i moc dyskryminacyjna


83


[email protected]


[email protected]

Potrzebna jest funkcja wybierająca słowa najbardziej istotne dla zbioru dokumentów

dziedzina - elementy reprezentacji (słowa)

wartości - określać będą przydatność tych elementów dla dalszej analizy

Transformacja reprezentacji ilościowej tekstu


84


[email protected]


[email protected]

Macierz częstości występowania terminów w dokumencie (term-by-document frequency matrix) jest podstawą analizy zbioru dokumentów, lecz nie uwzględnia siły dyskryminacyjnej słów/terminów

Funkcje ważące ulepszają macierz częstości: im rzadsze słowo, tym większa jego waga i tym bardziej dokumenty zawierające to słowo są do siebie podobne (dzięki temu można tworzyć podzbiory podobnych dokumentów)

Funkcje ważące


85


[email protected]


[email protected]

Waga częstości (lokalna) Lij

Informacje o 1 dokumencie, jakie niesie dane słowo/termin

Waga wyrażenia (globalna) Gi

Informacje o zbiorze dokumentów, jakie niesie dane słowo/termin

Wzór ogólny całkowitej wagi danej pozycji w macierzy częstości: âij = LijGi

Funkcje ważące


86


[email protected]

Są to funkcje częstości występowania słowa i w dokumencie j

Dostępne funkcje:

Binarna (binary)

Logarytmiczna (log)

Pusta (none)

Wagi częstości (Lij)


87


[email protected]

Binarna (0-1), używana dla prostych dokumentów o nieskomplikowanej składni

Logarytmiczna, obniża efekt często

powtarzanego pojedynczego słowa

Pusta, wszystkie wagi mają wartość 1

)1(log 2 ijij aL

1ijL

0

1

ij

ij

L

L - gdy słowo i występuje w dokumencie j

- w przeciwnym przypadku

Wagi częstości (Lij)


88


[email protected]

Są to funkcje zliczające wystąpienia słowa i w całym zbiorze dokumentów

Dostępne funkcje:

Entropia (entropy)

GF-IDF (Global Frequency x Inverse Document Frequency)

IDF (Inverse Document Frequency)

Normalna (normal)

Pusta (none)

Wagi wyrażenia (Gi)


89


[email protected]

Entropia, kładzie nacisk na słowa, które występują tylko w kilku dokumentach z całego zbioru. Największą wagę otrzymują słowa rzadkie w zbiorze dokumentów

-liczba dokumentów w zbiorze

-częstość występowania słowa i w dokumencie j

j

ijij

in

ppG

)(log

)(log1

2

2n

ijf

i

ij

ijg

fP ig -liczba wystąpień słowa i w całym zbiorze



90


[email protected]

GF-IDF, podobnie jak Entropia, kładzie nacisk na słowa, które występują tylko w kilku dokumentach w całym zbiorze. Największą wagę otrzymują słowa rzadkie w zbiorze dokumentów

i

i

id

gG

id -liczba dokumentów, w których pojawia się słowo i

-liczba wystąpień słowa i w całym zbiorze ig



91


[email protected]

IDF, tzw. odwrotna częstość, podkreśla słowa występujące tylko w kilku dokumentach

Normalna, podkreśla bardziej proporcję ilości pojawień słowa w zbiorze dokumentów, niż samą liczbę wystąpień

Pusta, wszystkie wagi mają wartość 1

1iG

1log 2

i

id

nG

j

ij

i

fG

2

1



92


[email protected]


[email protected]

Funkcje ważące – przykład ważenia







4. Analiza

3) Komponenty

4) Makro % tmfilter


94


[email protected]


[email protected]

Modelowanie oraz obliczenia wykonywane na wielowymiarowych przestrzeniach słów są kosztowne i trudne do przeprowadzenia

Duża ilość wymiarów oznacza rozrzedzone dane wejściowe (sparse data)

dziesiątki tysięcy wyodrębnionych słów

niewielki procent istotnych słów (prawo Zipfa)

Redukcja wymiarów macierzy zwiększa efektywność analizy

Celowość redukcji wymiarów


95


[email protected]

Singular Value Decomposition -rozkład macierzy według wartości szczególnych

Metoda ta generuje k wymiarów, które najlepiej przybliżają macierz częstości

parametr k określany jest przez użytkownika mała wartość k (2 - 50) jest przydatna

w dalszej klasteryzacji duża wartość k (30 - 200) jest przydatna

w dalszej predykcji lub klasyfikacji

Redukcja wymiarów: Dekompozycja SVD


96


[email protected]

Rozkład macierzy Am*n na iloczyn macierzy:

A=U S VT

Dekompozycja SVD


97


[email protected]


[email protected]

Zastosowanie dekompozycji SVD pozwala na redukcję wymiaru macierzy częstości bez utraty informacji

Szczególnie ważna, gdy dokumenty są długie i jest w nich wiele homonimów

Homonimy – wyrazy wieloznaczne, mają tę samą postać, ale różne znaczenie np. zamek/zamek, granat/granat, itp.

Dekompozycja SVD


Przebieg dekompozycji SVD - przykład


99


[email protected]

Document 1: deposit the cash and check in the bank

Document 2: the river boat is on the bank

Document 3: borrow based on credit

Document 4: river boat floats up the river

Document 5: boat is by the dock near the bank

Document 6: with credit, I can borrow cash from the bank

Document 7: boat floats by dock near the river bank

Document 8: check the parade route to see the floats

Document 9: along the parade route

Przykład dekompozycji SVD


100


[email protected]

Zbiór 9 dokumentów

dokumenty 1,3,6 dotyczą bankowości i pożyczek

dokumenty 2,4,5,7 dotyczą brzegu rzeki

dokumenty 8, 9 dotyczą trasy defilady

Niektóre z dokumentów zawierają homonimy

„bank” jako instytucja finansowa lub brzeg rzeki

„check” jako rzeczownik w dokumencie 1 lub jako czasownik w dokumencie 8

„float” jako czasownik w dokumencie 4 lub jako rzeczownik w dokumencie 8



101


[email protected]

d1 d2 d3 d4 d5 d6 d7 d8 d9

the 2 2 0 1 2 1 1 2 1

cash 1 0 0 0 0 1 0 0 0

check 1 0 0 0 0 0 0 1 0

bank 1 1 0 0 1 1 1 0 0

river 0 1 0 2 0 0 1 0 0

boat 0 1 0 1 1 0 1 0 0

+ be 0 1 0 0 1 0 0 0 0

on 0 1 1 0 0 0 0 0 0

borrow 0 0 1 0 0 1 0 0 0

credit 0 0 1 0 0 1 0 0 0

+ floats 0 0 0 1 0 0 1 1 0

by 0 0 0 0 1 0 1 0 0

dock 0 0 0 0 1 0 1 0 0

near 0 0 0 0 1 0 1 0 0

parade 0 0 0 0 0 0 0 1 1

route 0 0 0 0 0 0 0 1 1


102


[email protected]

Obserwując elementy macierzy można zauważyć na pierwszy rzut oka, że:

dokumenty 1 i 2 są do siebie bardziej podobne niż dokumenty 1 i 3, gdyż dokumenty 1 i 2 zawierają słowo „bank”, podczas gdy dokumenty 1 i 3 nie mają wspólnych wyrazów

W rzeczywistości dokumenty 1 i 2 nie są wcale ze sobą powiązane; to dokumenty 1 i 3 dotyczą tych samych zagadnień

Dekompozycja SVD pozwala przezwyciężyć powyższe problemy



103


[email protected]

W wyniku dekompozycji SVD macierz częstości została zredukowana do 2 wymiarów

Przestrzeń semantyczna staje się 2-wymiarowa

Przewidywany rozkład dokumentów można zobrazować w 2-wymiarowej przestrzeni



104


[email protected]

2-wymiarowy rozkład dokumentów


105


[email protected]

Dokument 1 jest bliżej dokumentu 3 niż 2 (jest to zgodne z prawdą, chociaż dokumenty 1 i 3 nie zawierają takich samych słów)

Dokument 5 jest ściśle powiązany z dokumentami 2,4,7

Przewidywania umiejscawiają podobne dokumenty obok siebie, nawet jeśli zawierają one niewiele wspólnych słów

2-wymiarowy rozkład dokumentów







4. Analiza

3) Komponenty

4) Makro % tmfilter


107


[email protected]

Celem analiz Text Mining jest określenie tematyki zbioru dokumentów bez konieczności czytania każdego słowa

Text Mining opisowy (descriptive text mining) – klastrowanie, klasyfikacja (wykrycie konceptów, wzorców i powiązań tematycznych w zbiorze dokumentów)

Text Mining predykcyjny (predictive text mining) – predykcja (wykorzystanie wykrytych konceptów, wzorców i powiązań tematycznych w zbiorze dokumentów do formułowania prognoz)

Analiza


108


[email protected]

Metoda hierarchiczna

jeden klaster może zawierać inny

brak innych rodzajów nałożeń klastrów

Klastrowanie


109


[email protected]

Metoda EM (Expectation Maximization)

oblicza prawdopodobieństwa przynależności do skupień przy założeniu jednego lub wielu rozkładów prawdopodobieństwa

dozwolona różna wielkość i kształt klastrów

Klastrowanie


110


[email protected]

Sortowanie dokumentów tekstowych wg wcześniej zdefiniowanych kategorii

Wymaga zbioru treningowego

Opiera się na

wnioskowaniu pamięciowym

sieciach neuronowych

drzewach decyzyjnych

Klasyfikacja


111


[email protected]

Ogólne nieautomatyczne wnioskowanie na podstawie wykrytych konceptów, wzorców i powiązań tematycznych w zbiorze dokumentów

Przykłady

przewidywanie wystąpienia problemu na podstawie zapisów rozmów z call center

prognozowanie kosztów usługi, bazujące na tekstowym opisie problemu

przewidywanie poziomu satysfakcji klientów na podstawie ich komentarzy i opinii

prognozowanie wahań cen akcji na podstawie wiadomości prasowych i ogłoszeń biznesowych

Predykcja





3) Komponenty

4) Makro % tmfilter


113


[email protected]


[email protected]

Text Parsing - parsowanie zbioru dokumentów w celu stworzenia ilościowej reprezentacji tekstu i macierzy częstości

Text Filter - czyszczenie danych przez redukcję całkowitej liczby analizowanych słów i/lub dokumentów

Text Topic - eksploracja zbioru dokumentów przez wyznaczenie kategorii tematycznych

Komponenty


114


[email protected]


[email protected]

Text Cluster - klastrowanie dokumentów, bazując na macierzy częstości (Text Parsing) z oczyszczonymi danymi (Text Filter)

Text Rule Builder - tworzenie reguł do opisywania zmiennej celu

Text Profile - profilowanie zmiennej celu na podstawie słów odkrytych w dokumentach

Text Import - import tekstu źródłowego

Komponenty



1. Krótka charakterystyka narzędzia

2. Etapy procesu text mining

3. Komponenty Text Parsing

Text Filter

Text Topic

Text Cluster

Text Rule Builder

Text Profile

Text Import

4. Makro % tmfilter


116


[email protected]

Text Parsing


117


[email protected]


[email protected]

Język: ENGLISH / POLISH

Wykryj wyrażenia

to samo słowo jako różne części mowy

grupy rzeczowników

terminy wielowyrazowe

jednostki specjalne

Ustawienia Text Parsing


118


[email protected]


[email protected]

Ignoruj części mowy

Ignoruj typy jednostek specjalnych

Ignoruj typy atrybutów

liczby

interpunkcja



119


[email protected]


[email protected]

Rozpoznawane części mowy:

Det – rodzajnik (a, an), zaimek wskazujący (this, that...)

Conj – spójnik

Aux – czasownik posiłkowy

Prep – przyimek

Pron – zaimek

Part – bezokolicznik, partykuła przecząca (not, ain’t), zaimki dzierżawcze (my, your, her, his…)

Interj – wykrzyknik

Noun – rzeczownik

Verb – czasownik

Prop – nazwa własna (proper noun)

Adj – przymiotnik

Adv – przysłówek

Abbr – skrót

Num – liczby i liczebniki (napisane słownie)



120


[email protected]


[email protected]

Synonimy

Słowa mające wspólną podstawę fleksyjną sprowadź do formy rdzenia (stem terms)

Lista synonimów

SASHELP.ENGSYNMS (angielski)



121


[email protected]


[email protected]

Filtruj listy słów włączonych do/wyłączonych z analizy

Start lista

Stop lista

SASHELP.ENGSTOP (angielski)

SASHELP.FRCHSTOP (francuski)

SASHELP.GRMNSTOP (niemiecki)

Liczba słów do wyświetlenia