Opinion Mining - Paper · W ahrend beim Data Mining keine groˇen Schwankungen festzustellen sind,...

Opinion Mining

Eine Einfuhrung in den Themenkomplex

Autoren: Florian Kalisch (236865)[email protected]

Betreuerin: Prof. Dr. Monika [email protected] derHochschule Furtwangen University

WS 2011/2012 – 13. Februar 2012Application Architectures

Modul: Data Warehousing und Business Intelligence

Zusammenfassung

Der Forschungsbereich des Opinion Mining ist aktuell starker Nachfrage unter-

worfen und birgt ein hohes Potenzial fur Unternehmen. Diese Arbeit gibt eine

Einfuhrung in das notige Hintergrundwissen, welches fur das Verstandnis der Opi-

nion Mining Methoden notig ist. Im Anschluss wird die Struktur von zwei Platt-

formen zur Meinungsaußerung untersucht. Der Schwerpunkt dieser Ausarbeitung

liegt auf der Darstellung der Grundlagen und Methodiken des Opinion Mining.

Danach erfolgt die Dokumentation der praktischen Umsetzung und ein Fazit.

Stichworte: Opinion Mining, Sentiment Analysis, Sentiment Detection, Poten-

ziale des Internet, Prototyp, Assoziationsanalyse

Inhaltsverzeichnis iii

Inhaltsverzeichnis

Abstract i

Inhaltsverzeichnis iii

Abbildungsverzeichnis vi

Tabellenverzeichnis viii

Stichwortverzeichnis x

Abkurzzungsverzeichnis xi

1 Einleitung 1

2 Hintergrundwissen 2

2.1 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1.1 Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1.2 Annotation von Texten . . . . . . . . . . . . . . . . . . . . . . . 4

2.2 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2.2 Assoziationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Plattformen zur Meinungsaußerung 10

3.1 Produktbewertungsplattformen . . . . . . . . . . . . . . . . . . . . . . . 10

3.2 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Sentiment Analysis 13

4.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.2 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4.2.1 Terminologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

iv Inhaltsverzeichnis

4.2.2 Definition einer Meinung . . . . . . . . . . . . . . . . . . . . . . . 15

4.3 Verfahren mit hohem Automationspotenzial . . . . . . . . . . . . . . . . 15

4.3.1 Document Sentiment Classification . . . . . . . . . . . . . . . . . 15

4.3.2 Aspect-Based Opinion Mining . . . . . . . . . . . . . . . . . . . . 17

4.4 Alternativer Crowd Sourcing Ansatz . . . . . . . . . . . . . . . . . . . . 22

5 Der Prototyp 23

5.1 Anforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5.2 Evaluation moglicher Tools . . . . . . . . . . . . . . . . . . . . . . . . . 24

5.2.1 Scrapy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5.2.2 Natural Language Toolkit . . . . . . . . . . . . . . . . . . . . . . 26

5.2.3 Rapid Miner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.3 Umgesetzte Teile des Prototypen . . . . . . . . . . . . . . . . . . . . . . 27

5.3.1 Aufgabendefinition . . . . . . . . . . . . . . . . . . . . . . . . . . 27

5.3.2 Dokumentenselektion . . . . . . . . . . . . . . . . . . . . . . . . 28

6 Fazit 30

Index 31

Literatur 32

vi Abbildungsverzeichnis

Abbildungsverzeichnis

1 Job Trends from Indeed.com1 . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Knowledge Discovery in Databases2 . . . . . . . . . . . . . . . . . . . . 6

3 Assoziationsanalyse3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

4 Der Text Mining Prozess4 . . . . . . . . . . . . . . . . . . . . . . . . . . 8

5 Produktbewertungsplattform ciao.de5 . . . . . . . . . . . . . . . . . . . 10

6 Produktbewertungsplattform amazon.de6 . . . . . . . . . . . . . . . . . 11

7 Inhalte von Tweets7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

8 Komplexe Darstellung der Basiseinheiten . . . . . . . . . . . . . . . . . 15

9 Vereinfachte Darstellung der Basiseinheiten . . . . . . . . . . . . . . . . 16

10 Meinungspolaritat8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

11 Automatische Klassifizierung9 . . . . . . . . . . . . . . . . . . . . . . . . 22

12 Automatische Klassifizierung10 . . . . . . . . . . . . . . . . . . . . . . . 23

13 Scrapy Architektur11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

14 NLTK Programmpakete . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

15 Einblick in RapidMiner . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

viii Tabellenverzeichnis

Tabellenverzeichnis

1 POS Beispieltags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

x Stichwortverzeichnis

Stichwortverzeichnis

Annotation Bei einer Annotation handelt es sich um ein Hinzufugen von Information

zu einem Objekt innerhalb des betrachteten Kontextes. Diese zusatzlichen Infor-

mationen konnen als Metadaten angesehen werden.

Cluster In der Informatik wird unter einem Cluster eine Gruppe von ahnlichen Date-

nobjekten verstanden.

Hidden Markov-Modelle HHM stellen eine stochastische Annaherung an Sprache dar.

Korpus Korpus stellt ein Synonym fur Textkorpus dar.

Review Eine von einem Kunden verfasste und auf einer Produktbewertungsplattform

veroffentlichte Kundenmeinung in Bezug auf ein Produkt oder sonstiges Objekt.

Tag Das Tag12 kann als Zuordnung einer Kategorie zu einem Objekt angesehen werden,

wie es z.B. im Rahmen einer Annotation geschieht.

Textkorpus Ein Textkorpus stellt eine Sammlung von Texten zur Beschreibung einer

spezifischen Sprache dar.

12 angelehnt an tag (engl.), was in diesem Kontext mit Anhangeschild ubersetzt werden kann

Abkurzzungsverzeichnis xi

Abkurzungsverzeichnis

BI Business Intelligence

CI Competitive Intelligence

DW Data Warehouse

HMM Hidden Markov-Modelle

IR Information Retrieval

KDD Knowledge Discovery in Databases

NLP Natural Language Processing

NLTK Natural Language Toolkit

POS Part-of-Speech13

STTS Stuttgart-Tubingen Tagset

TEI Text Encoding Initiative

YALE Yet Another Learning Environment

13 engl. fur Wortart

Einleitung 1

1 Einleitung

Fruher lag das Hauptaugenmerk in Unternehmen hauptsachlich auf sogenannten struk-

turierten Daten, welche zur Verarbeitung vorgehalten wurden. Dabei helfen Analysen,

aus den gespeicherten Daten einen Mehrwert fur das Unternehmen zu generieren. Mit

dem rasanten Zuwachs an Textdaten sowohl innerhalb eines Unternehmens, als auch

im World Wide Web, gewinnen diese eine immer wichtigere Bedeutung. Mittlerweile

stellen diese einen wichtigen Teil der Data Warehouse (DW) 2.0 Architektur dar [Inmon

et al., 2008, S. 310], bei welcher der Fokus jedoch noch immer auf den unternehmensin-

ternen Daten liegt. Die Verwaltung, Bereitstellung und Analyse dieser Daten fallt in

den Aufgabenbereich der Business Intelligence (BI).

Die Competitive Intelligence (CI) richtet den Fokus auf die unternehmensexternen Da-

ten, obgleich die internen Daten mit einbezogen werden. Das Ziel besteht in der Errei-

chung eines Wettbewerbsvorteils durch Beobachtung von Konkurrenzunternehmen.

Der dieser Arbeit zugrunde liegende Bereich ist das Opinion Mining, welches zwischen

der BI und CI einzuordnen ist. Hierbei besteht die Zielsetzung, einen Wettbewerbsvor-

teil fur das eigene Unternehmen durch die systematische Beobachtung der Meinungen

von Kunden im Internet zu erreichen. Abbildung 1 zeigt einen Einblick in den aktuel-

len Arbeitsmarkt. Dabei steht der prozentuale Zuwachs an relevanten Stellenangebo-

ten in den Bereichen Data Mining, Text Mining und Opinion Mining im Vordergrund.

Wahrend beim Data Mining keine großen Schwankungen festzustellen sind, liegt dem

Text Mining und vorallem dem Opinion Mining eine große Dynamik zugrunde. Gerade

das Opinion Mining ist aktuell stark im Wachstum.

14 [Indeed.com, 2012]

2 Hintergrundwissen

Abb. 1: Job Trends from Indeed.com14

2 Hintergrundwissen

2.1 Natural Language Processing

2.1.1 Verfahren

Innerhalb des Natural Language Processing (NLP) existieren verschiedene Verfahren

zur Analyse von Text. Diese werden nachfolgend aufgelistet und sind angelehnt an

[Hammer, 2010].

Morphologische Analyse

Bei der morphologischen Analyse werden einzelne Worte und ihre Wortformen unter-

sucht. Diese gliedert sich auf in:

� Tokenisierung:

Das Ziel der Tokenisierung besteht in der Auftrennung von Satzen in einzelne

Worter. Als Trenner (delimiter) konnen Leerzeichen, Tabulatoren und Zeilenum-

bruche dienen.

� Stammreduktion der Worter:

Die Stammreduktion, welche nach der Tokenisierung ausgefuhrt wird, reduziert

die einzelnen Worte auf ihren Wortstamm. Dabei kann der morphologische oder

lexikalische Stamm das Ziel sein. Gerade bei Text Mining Anwendungen ist dies

ein wichtiger Schritt, da so der semantische Zusammenhang besser erfasst werden

Hintergrundwissen 3

kann.

� Finden von Satzgrenzen:

Das Finden von Satzgrenzen dient der Erkennung, wo ein Satz aufhort und ein

neuer anfangt. Auch wenn die Vermutung nahe liegt, dass dies eine triviale Aufga-

be ist, so wird der Vorgang verkompliziert durch die Tatsache, dass (als Beispiel)

der Punkt als Interpunktionszeichen zwar ein Satzende markiert, er jedoch auch

innerhalb einer Zahl (z.B. als Dezimaltrennzeichen) auftauchen kann.

Syntaktische Analyse

� Part-of-Speech Tagging:

Beim Part-of-Speech (POS) Tagging geht es grundsatzlich um die Zuteilung ei-

nes Wortes zu seiner Wortform. Dieser Vorgang, auch Annotation von Texten

genannt, ist ein wichtiger Vorverarbeitungsschritt des Opinion Mining und wird

daher in Kapitel 2.1.2 ausfuhrlich beschrieben.

� Phrase Recognition:

Aufbauen auf der POS Annotation, konnen auch funktionale Phrasen erkannt

werden. Folgende Phrasen sind denkbar:

– Nominalphrasen

– Verbphrasen

– Adverbialphrasen

– Adjektivphrasen

– Prapositionalphrasen

� Parsing:

Das Parsing baut auf dem POS Tagging auf, bringt jedoch noch mehr Informa-

tionen mit ein. So erfolgt eine Zuordnung der Worter zu ihrer Stellung im Satz

(Subjekt, Pradikat, Objekt).

4 Hintergrundwissen

Semantische Analyse

Die semantische Analyse stellt das aufwandigste Verfahren dar. Dabei wird der Sinn

und die Bedeutung der von Sprache analysiert. Eine Aufgabe aus diesem Bereich ist die

Erkennung von Doppeldeutigkeiten von Worten. So kann herausgefunden werden, ob

die Bedeutung des Worts Bank im Textkontext die Sitzgelegenheit oder das Geldinstitut

ist.

2.1.2 Annotation von Texten

Die Annotation von Texten verfolgt das Ziel, den Wortern, aus welchen der betrach-

tete Text besteht, bestimme Kategorien zuzuordnen. Diese Kategorien kommen in der

Praxis in Form von standardisierten Tags zum Einsatz. Der Prozess dieser Annotation

wird auch als tagging bezeichnet. Meist geschieht diese Kategorisierung in Form der

Zuordnung zwischen Wort und grammatikalischen Form (Wortart), welche dann auch

POS Tags genannt werden.

Eine in der Praxis gebrauchliche Sammlung von POS Tags stellt das Stuttgart-Tubingen

Tagset (STTS) dar. [Heyer et al., 2006, S. 52–54]

Das STTS orientiert sich der Text Encoding Initiative (TEI)15, welche Richtlinien und

Standards fur Textannotationen vorgibt und weist eine hierarchische Struktur auf, wel-

che in Form von definiert angeordneten Buchstabensequenzen vorliegt. In Leserichtung

ist jedes Tag so unterteilt, dass man vom Allgemeinen (Hauptwortart) zum Speziellen

(Unterwortart) gelangt. Insgesamt sind 54 Tags definiert. [Schiller et al., 1999, S. 4–5]

Die Tabelle 1 auf Seite 5 gibt einen Einblick, wie diese Tags aussehen. Daraus lasst sich

folgender Beispielsatz aufstellen.

”Kaffeetassen[NN] ,[$,] T-Shirts ,[$,] Videobander[NN] und[KON] Bierdeckel[NN] las-

sen[VVFIN] sich[PRF] als[APPR] Erinnerung[NN] an[APPR] das[ART] beruchtigte

[ADJA] Gefangnis[NN] von[APPR] Alcatraz[NE] mit[APPR] nach[APPR] Hause[NN]

nehmen[VVINF] [$.]“ [Heyer et al., 2006, S. 128–129]

POS getaggte Worter beinhalten mehr Informationen als unstrukturierter Text, jedoch

kann das Taggen schneller und genauer ausgefuhrt werden, als durch ein volles syntak-

15 http://www.tei-c.org/P4X/

Hintergrundwissen 5

Tag Bedeutung

ADJA attributives Adjektiv

APPR Praposition; Zirkumposition links

ART bestimmter oder unbestimmter Artikel

KON nebengeordnete Konjunktion

NN Nomen

NE Eigennamen

PRF reflexives Personalpronomen

VVFIN finites Verb, voll

VVINF Infinitiv, voll

$, Komma

$. Satzbeendende Interpunktion

Tabelle 1: POS Beispieltags

tisches Parsen. Somit stellen sie einen guten Kompromiss zwischen Genaauigkeit und

Nutzwert dar. [Dale et al., 2000, S. 403]

Beim Vorgang des Taggens treten zweierlei Probleme auf ( [Dale et al., 2000, S. 404]):

1. Worter konnen (je nach Kontext) zu mehreren POS Klassen gehoren

2. Neue Worter konnen entstehen bzw. noch nicht getagged worden sein

Fur das Taggen von Wortern konnen, ausgehend von einem Trainingskorpus , Hidden

Markov-Modelle (HMM) zur Kategorisierung nicht getaggter Worter verwendet wer-

den. Dabei lasst sich eine Genauigkeit von etwa 97% erreichen. [Heyer et al., 2006,

S. 133]

Fur die deutsche Sprache bietet sich der Negra-Korpus16 an, welcher aktuell in der Ver-

sion 2 aus 355.096 Wortern besteht. Im englischsprachigen Raum ist das Penn Treebank

Tagset stark verbreitet.

2.2 Data Mining

2.2.1 Einfuhrung

Der Bereich des Data Mining ist im Zusammenhand mit dem Begriff des Knowledge

Discovery in Databases (KDD) zu sehen. Wahrend sich Data Mining im eigentlichen

16 http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html

6 Hintergrundwissen

Sinne lediglich auf die Analyse von Daten bezieht, so umfasst der Begriff des KDD einen

Prozess, welcher zusatzlich die Auswahl, Aufbereitung, Festlegung und Interpretation

enthalt. Dabei wird das Ziel verfolgt, aus den anfallenden Unternehmensdaten einen

wirtschaftlich entscheidenden Vorteil fur Unternehmen zu gewinnen. So konnen diese

zur Gewinnung eines besseren Kundenverstandnisses dienen. Aus den Kassentransak-

tionsdaten eines Handelsunternehmens lassen sich beispielsweise Verbundsbeziehungen

zwischen verkauften Artikeln herstellen und aus diesen Maßnahmen zur Erhohung der

Kundenbindung ableiten. Diese konnten darin bestehen, dass Verbundartikel nahe bei-

einander platziert werden. Der KDD dient somit zur Aufdeckung von Auffalligkeiten

(Beziehungen) in Daten. Diese mussen fur einen Großteil der Daten gelten und unbe-

kannte, als auch nutzliche, Zusammenhange aufdecken. Dabei wird aus dem implizit in

den Daten vorliegenden Wissen, explizites Wissen abgeleitet. [Chamoni and Gluchow-

ski, 2006] In der Praxis hat sich der Begriff des Data Mining als eine synonyme Be-

zeichnung fur den Prozess des KDD etabliert [Fayyad et al., 1996]. Innerhalb des KDD

fließen mehrere Forschungsrichtungen ein, wie Abbildung 2 verdeutlicht.

Abb. 2: Knowledge Discovery in Databases17

Das nachfolgende Unterkapitel setzt den Fokus ausschließlich auf das maschinelle Ler-

nen und beschreibt ein elementares Verfahren, welches fur das Verstandnis der aspekt-

17 [Chamoni and Gluchowski, 2006, S. 245]

Hintergrundwissen 7

basierten Sentiment Analysis aus Kapitel 4.3.2 benotigt wird.

2.2.2 Assoziationsanalyse

Die Assoziationsanalyse operiert auf einem vorhandenen Datenbestand und verfolgt

das Ziel, Regeln zwischen den einzelnen Datensatzen des Datenbestands aufzustellen.

Unter den sogenannten Items werden Elemente des Datensatzes verstanden, welche

als Auspragungen der Attributwerte eines Datensatzes angesehen werden konnen. Eine

Regel wird von einem Datensatz unterstutzt, wenn dieser die Items der Regel enthalt.

Eine Regel besteht aus einem ersten Teil, der Pramisse, sowie einem zweitel Teil, der

Konklusion oder auch Schlussfolgerung. [Chamoni and Gluchowski, 2006]

Nachfolgend ist ein Beispiel fur solch eine Regel abgebildet.

Wenn Item A im Datensatz auftritt, dann kommt auch Item B vor.

Zwei wichtige Begrifflichkeiten im Kontext der Assoziationsanalyse.

1. Support einer Regel:

Bezeichnet das Verhaltnis der unterstutzten Datensatze zur Anzahl der Gesamt-

datensatze.

2. Konfidenz einer Regel:

Bezeichnet das Verhaltnis zwischen Anzahl der Datensatze, auf die die Pramisse

zutrifft, zur Anzahl der Datensatze, auf die die Konklusion zutrifft.

Diese Begrifflichkeiten verdeutlicht Abbildung 3.

Die Erzeugung der Regeln setzt voraus, dass ein Mindestsupport, als auch eine Min-

destkonfidenz definiert wurden. Die eigentliche Regelerzeugung geschieht dann in zwei

Phasen [Chamoni and Gluchowski, 2006]:

1. Erzeugung aller Kombinationen von Items, bei denen die Mindestsupportschranke

uberschritten wird.

2. Im Anschluss werden fur jede dieser Kombinationen Regeln generiert, bei denen

die Mindestkonfidenz uberschritten wird.18 [Chamoni and Gluchowski, 2006, S. 277]

8 Hintergrundwissen

Abb. 3: Assoziationsanalyse18

2.3 Text Mining

2.3.1 Einfuhrung

Text Mining operiert, im Gegensatz zum Data Mining, auf unstrukturierten bzw. je

nach Dokumententyp auch semistrukturierten Daten. Es basiert dabei auf statistischen

sowie musterbasierten Verfahren. [Heyer et al., 2006]

In der Praxis hat sich ein Text Mining Prozess etabliert, welcher in Abbildung 4 dar-

gestellt ist und nachfolgend erlautert wird.

Abb. 4: Der Text Mining Prozess19

1. Aufgabendefinition:

Dieser Schritt umfasst die Definition der Problemstellung und die Ableitung der

Ziele, welche fur das Text Mining gelten sollen.

2. Dokumentenselektion:

Nach der Festlegung der Ziele muss die Auswahl der potenziellen Dokumente

19 angelehnt an [Hippner and Rentzmann, 2006]

Hintergrundwissen 9

erfolgen. Dieser Teilschritt ist dem Information Retrieval (IR) zugeordnet.

3. Dokumentenaufbereitung:

Die Dokumentenaufbereitung verfolgt das Ziel, den un- bzw. semistrukturierten

Daten eine Struktur zu verleihen. Dies ist dem Forschungsbereich des NLP zu-

zuordnen. Der Untersuchungsschwerpunkt liegt dabei auf der algorithmischen

Verarbeitung von naturlicher Sprache. Dabei konnen folgende, BEREITS BE-

SCHRIEBENENE, Verfahren zum Einsatz kommen.

� Morphologische Analyse

� Syntaktische Analyse

� Semantische Analyse

4. (Text) Mining Methoden:

Nachdem den textuellen Daten eine Struktur verliehen wurde, konnen klassische

Verfahren des Data Mining (maschinellen Lernens), wie beispielsweise die Asso-

ziationsanalyse (siehe 2.2.2), angewendet werden.

5. Interpretation / Evaluation:

Die Ergebnisse des Text Mining werden gefiltert und bewertet.

6. Anwendung:

Abschließend konnen die Ergebnisse fur konkrete Anwendungszwecke verwendet

werden.

10 Plattformen zur Meinungsaußerung


3.1 Produktbewertungsplattformen

Produktbewertungsplattformen bieten Benutzern von Online-Shops einerseits die Moglichkeit

selbst gemachte Erfahrungen mit Produkten anderen Personen mitzuteilen, als auch

sich selbst uber Produkte zu informieren. Die Beschreibung der Erfahrung liegt dann

in Form eines sogenannten Reviews vor. Es existieren zwei Hauptarten, wie solche Re-

views gestaltet sein konnen [Liu, 2011, S. 486-487]

Format 1 - Pros, Cons und das detaillierte Review:

Der Ersteller des Reviews wird aufgefordert, in knapper Form, die wichtigsten Pros und

Contras separat zu beschreiben, sowie ein detaillierten Erfahrungsbericht zu beschrei-

ben. Ein Beispiel stellt die Plattform ciao.de dar, von welcher ein beispielhaftes Review

in Abbildung 5 zu sehen ist.

Format 2 - Freies Format:

Der Ersteller des Reviews kann einen freien Text verfassen und wird nicht dazu angehal-

ten, die Pros und Cons separat darzustellen. Ein Beispiel stellt die Plattform amazon.de

dar, von welcher ein beispielhaftes Review in Abbildung 6 zu sehen ist.

Abb. 5: Produktbewertungsplattform ciao.de20

20 http://www.ciao.de/Apple iPhone 4S 16GB Test 877021621 http://www.amazon.de/Apple-MC603B-A-iPhone-4/product-reviews/B003U6628A/

Plattformen zur Meinungsaußerung 11

Abb. 6: Produktbewertungsplattform amazon.de21

3.2 Twitter

Bei Twitter handelt es sich um einen Dienst, welcher unter die Kategorie ”Microblog-

ging”fallt. Wie der Name dieses Genres bereits vermuten lasst, werden die Eigenschaften

von Weblogs mit der Festlegung auf eine gewisse Zeichenlange (Vorsilbe ’Micro-’) ver-

eint. Somit sind Benutzer zwar in der Lange ihrer Außerungen eingeschrankt, jedoch

werden sie gleichzeitig zu einer pragnanten Meinungsaußerung gezwungen. Twitter be-

steht einerseits aus Funktionen, welche durch die Plattform an sich zur Verfugung ge-

stellt werden, als auch aus einer gewissen Semantik, welche innerhalb der zu sendenden

Nachrichten (Tweets) Verwendung finden. Die folgende Auflistung, welche an [Herwig

et al., , S.4-5] angelehnt ist, stellt die wichtigsten Features, vor allem in Hinblick auf

den Einsatz beim Opinion Mining, vor.

Kommunikationsgestaltung

1. Offentliche Antworten (@-reply oder @-response genannt):

Diese Art von Nachricht dient dazu, einem Benutzer eine Mitteilung, welche

offentlich einsehbar ist, zukommen zu lassen. Dazu muss innerhalb des Nach-

richtentextes die Zeichensequenz @username auftauchen.

2. Lesezeichen (favorites):

Jeder Benutzer besitzt die Moglichkeit, Nachrichten, welche sein Interesse beson-

ders erwecken bzw. die er fur sehr Interessant halt, als Favorit zu kennzeichnen.

Dadurch wird der Tweet seinem Profil unter dem Menupunkt Favoriten, welche

auch offentlich einsehbar sind, hinzugefugt. Externe Dienste wie Favotter oder


Favstar wiederum werten diese allgemein zuganglichen Favoriten aus und konnen

so die beliebtesten Nachrichten identifizieren.

3. Listen:

Die Moglichkeit der Anlage von Listen existiert erst seit Ende Oktober 2009. Eine

List fasst mehrere Profile zu einer Gruppe zusammen. Der Vorteil besteht darin,

dass die Nachrichten der Gruppe nur dann angezeigt werden, wenn die Liste

eingesehen wird. Es ist dadurch nicht notig, ein Leser der betreffenden Person zu

werden (ihm zu followen). Listen anderer Benutzer kann auch gefolgt werden.

4. Retweeting:

Da Twitter umgekehrt chronologisch organisiert ist, werden die neusten Nachrich-

ten an oberster Stelle angezeigt. Altere Beitrage weichen den neueren Updates.

Das Retweeten bezeichnet den Vorgang des Kopierens einer alteren Nachricht und

deren erneuter Post mit Hinweis auf den ur-sprunglichen Autor. Dies verlangert

die Zirkulationsdauer eines Tweets, was dazu fuhrt, dass der Beitrag langer sicht-

bar bleibt und damit mehr Leser erreicht.

5. Hashtags:

Wahrend die Punkte 1 bis 4 in das Twitter Userinterface integriert sind und somit

per se fur jeden Benutzer ersichtlich, so handelt es sich bei den sogenannten Has-

htags lediglich um eine Konvention, welche sich mit der Zeit durch die begrenzte

Anzahl an Zeichen herausgebildet hat. Das Wort setzt sich einerseits aus hash

(engl. Raute) und tag (engl. fur Etikett bzw. to tag engl. fur etwas markieren)

zusammen. Diese Kennzeichnung fuhrt zu einer Klassifizierung des Beitrags.

22 http://www.sistrix.de/news/910-twitter-nutzung.html

Sentiment Analysis 13

Abb. 7: Inhalte von Tweets22

4 Sentiment Analysis

4.1 Einfuhrung

Die Sentiment Analyse ist ein sehr breit gefasstes Forschungsgebiet, welches sich der

Disziplinen Statistik, NLP, Text Mining, Maschinelles Lernen sowie auch Teilbereichen

des Data Mining bedient. Bei Recherchen im Internet zu diesem Themenkomplex stoßt

man auf die Begrifflichkeiten Opinion Mining, Sentiment Analysis und Sentiment

Detection, welche im Sinne der Meinungsextraktion als synonym zueinader anzusehen

sind.

Zur Entwicklung einer genaueren Vorstellung dieses Forschungsgebietes ist es dienlich,

die Definitionen der Worter Sentiment als auch Opinion genauer zu betrachten. Ange-

lehnt an [[F9, 1997, S. 738] bezeichnet das Sentiment ein Gefuhl bzw. eine Empfindung

oder Gefuhlsaußerung in Bezug auf eine bestimmte Sache. Das Wort Opinion23 wieder-

um, beschreibt laut [Scholze-Stubenrecht, 1999, S. 2556] die personlichen Ansichten,

Uberzeugungen bzw. Einstellungen in Bezug auf ein Objekt. Stellt man diese beiden

Begriffe in Bezug zueinander, so ist erkennbar, dass beide in diesem Kontext zusammen

betrachtet werden mussen. Ausgehend von den Meinungen einer Person in Bezug auf

ein bestimmtes Objekt, konnen positive, negative oder auch neutrale Ansichten auftre-

23 engl. fur die Meinung


ten, welche wiederum Ruckschlusse auf die Empfindung der Person in Bezug auf das

Objekt erlauben.

Durch die enorme Bedeutung fur die Praxis ist mittlerweile ein starker Zuwachs an

Forschung im akademischen und wirtschaftlichen Bereich zu verzeichnen. So gab es in

den USA im Jahr 2010 bereits ca. 30 Firmen, welche Dienste zur Sentiment Analyse

anboten. [Indurkhya and Damerau, 2010, S. 627–667]

Texte konnen, bezogen auf den Schwerpunkt der Meinungsextraktion, aus folgenden

zwei Kategorien bestehen:

Fakten: Als Fakten werden objektive Aussagen gegenuber einem Objekt oder dessen

Eigenschaften angesehen.

Meinungen: Unter Meinungen sind, angelehnt an [Scholze-Stubenrecht, 1999, S. 2556],

zu verstehen.

4.2 Grundlagen

4.2.1 Terminologien

Im Bereich des Opinion Mining gibt es verschiedene Begrifflichkeiten, welche in diesem

Unterkapitel anhand von Ontologien definiert werden. Die komplexe Darstellung aus

Abbildung 8 stellt eine sehr detaillierte Beschreibung dar. Eine Entitat ist ein Ziel-

objekt, zu welchem Meinungen ausgedruckt werden konnen. Eine solche Entitat kann

beispielsweise ein Produkt, eine Dienstleistung, eine Organisation, etc. sein. Weiterhin

existieren Komponenten und Attribute. Eine Entitat kann wiederum Komponenten

besitzen und im Fall eines Smartphones konnten diese Komponenten zum Beispiel der

Screen oder die Battery sein. Attribute konnen zu Komponenten oder aber der Entitat

selbst existieren und sind beispielsweise Gewicht oder Akkulaufzeit. Eine Meinung kann

zur Entitat, zu einer Komponente oder zu einem Attribut ausgedruckt werden.

Da diese komplexe Untergliederung den Problembereich zu stark verkompliziert, wird

in der Praxis eine Vereinfachung vorgenommen, welche Abbildung 9 zeigt. Die Kompo-


Abb. 8: Komplexe Darstellung der Basiseinheiten

nenten und Attribute werden zusammengefuhrt in den Begriff des Aspekts, welcher in

fruheren Publikationen noch als Feature definiert wurde. Eine Meinungsaußerung kann

sich somit nur noch auf eine Entitat oder einen Aspekt beziehen.

4.2.2 Definition einer Meinung

Eine Meinung wird uber ein sogenanntes Meinungsquadrupel definiert, welches in nach-

folgender Formel (vgl. [Liu, 2011, S. 463]) dargestellt ist.

Definition 1 [Allgemeines Meinungsquadrupel]

(ei, aij , ooijkl, hk, tl) (1)

4.3 Verfahren mit hohem Automationspotenzial

4.3.1 Document Sentiment Classification

Die Klassifikation der Stimmung auf Dokumentenebene kann dem generellen Problem-

feld der Textklassifikation zugeordnet werden, bei welchem Dokumente, aufgrund der


Abb. 9: Vereinfachte Darstellung der Basiseinheiten

in ihnen enthaltenen Worter, einer Kategorie zugeordnet werden. Die Document Sen-

timent Classification verfolgt dabei den Ansatz, die Gesamtmeinung eines Autors zu

einer Entitat zu ermitteln und diese beispielsweise den Klassen Positiv, Negativ oder

Neutral zuzuteilen. Anstatt der Betrachtung von haufig vorkommenden Wortern, wel-

che fur die jeweilige Klasse charakteristisch sind, muss der Fokus bei der Klassifikation

von Meinungen auf den Meinungsworten liegen. Hierbei spielen einzelne Aspekte einer

Entitat eine untergeordnete Rolle, da diese als ein Teil einer Entitat angesehen werden

(vgl. Kapitel 4.2.1) und somit jede geaußerte Meinung in Bezug auf einen Aspekt auch

als eine Meinung in Bezug auf die Entitat angesehen werden kann. Nachfolgende Formel

2 (vgl. (vgl. [Liu, 2011, S. 469])), deren Form angelehnt an das allgemeine Meinungs-

quadrupel (vgl. Formel 1) bestehen bleibt, verdeutlicht dies, indem die Aspekte durch

GENERAL verallgemeinert werden. Weiterhin werden folgende Vorannahmen getrof-

fen, welche bei Produktbewertungsplattformen als erfullt angesehen werden konnen:

� Eine einzelne Entitat:

Innerhalb des Dokuments treten nicht mehrere Entitaten auf.


� Ein einzelner Meinungsaußerer:

Das Dokument beinhaltet nur einen Meinungsaußerer.

Definition 2 [Meinungsquadrupel fur Document Sentiment Classification]

(e,GENERAL, oo, h, t) (2)

Unter Einbeziehung der vorangegangenen Vorannahmen ist ersichtlich, dass ooijkl des

allgemeinen Meinungsquadrupels zu oo vereinfacht werden kann, denn es existieren we-

der mehrere Entitaten, mehrere Meinungsaußerer oder Zeitpunkte, noch Aspekte.

4.3.2 Aspect-Based Opinion Mining

Einfuhrung

Im Gegensatz zur Klassifikation der Stimmung auf Dokumentenebene soll mittels dem

Aspect-Based Opinion Mining ein detaillierteres Verstandnis entwickelt werden. Das

Abstrahieren von Meinungen, welche zu einzelnen Aspekten geaußert wurden, hin zur

allgemeineren Entitat, kann dazu fuhren, dass das Dokument in die Klasse der positiven

Meinung eingestuft wird, obwohl darin einige Aspekte als sehr negativ hervorgehoben

werden. Das Wissen um diese negativ bewerteten Aspekte konnte von entscheiden-

der Bedeutung sein, entfallt jedoch aufgrund der Abstraktion. Eine solche tiefgreifende

Analyse erfordert umfangreiche Methoden des NLP und hat das allgemeine Meinungs-

quadrupel aus Formel 1 als Grundlage. Das definierte Ziel besteht darin, aus einem Do-

kument d alle Meinungsquadrupel zu extrahieren. Die grundlegende Herangehensweise

soll mittels des nachfolgenden, fiktiven, Reviews und den folgenden funf Schrittfolgen

(vgl. [Liu, 2011, S. 465-466]) sowohl theoretisch als auch praktisch veranschaulicht wer-

den:

Fiktives Review


Geschrieben von: SeelenPluecker am 16.01.2012

(1) Ich habe mir vor ein paar Tagen ein Motorola Tablet gekauft und meine Freundin

sich ein Tablet von Apple. (2) Als wir daheim waren, testeten wir beide unsere Gerate.

(3) Der Touchscreen meines Mot fuhlte sich sehr trage an, wahrend die Haptik jedoch

sehr gut war. (4) Meine Freundin war sehr zufrieden mit ihrem Apfelchen und dem

Screen. (5) Ich mochte aber ein Tablet mit gutem Display. (6) Wahrscheinlich tausche

ich es um.

1. Im ersten Schritt steht die Aufdeckung aller Entitaten und zugehoriger Ausdrucke

im Vordergrund. Nachdem alle Entitaten sowie deren Ausdrucke gefunden wur-

den, sind diese in Cluster-Form zu gruppieren. Es ergibt sich der erste Teil des

Meinungsquadrupels. (ei, aij , ooijkl, hk, tl)

Extrahierte Entitaten und zugehorige Ausdrucke:

� Entitat: Motorola

Ausdruck: Mot

� Entitat: Apple

Ausdruck: Apfelchen

2. Analog zu vorangegangenem Schritt wird auch mit den Aspekten verfahren. Diese

mitsamt ihren Ausdrucken mussen ebenfalls aufgedeckt und gruppiert werden.

Damit ergibt sich der zweite Teil des Meinungsquadrupels (ei,aij, ooijkl, hk, tl).

Extrahierte Aspekte und zugehorige Ausdrucke:

� Aspekt: Display

Ausdrucke: Screen, Touchscreen

� Entitat: Haptik

Ausdrucke: Keine alternative Ausdrucksweisen

3. Nachfolgend werden die Meinungsaußerer sowie Zeitpunkte ermittelt, welche die

letzten beiden Teile des Meinungsquadrupels ergeben (ei, aij , ooijkl,hk, tl).

Extrahierte Meinungsaußerer sowie zugehoriges Datum:

� Meinungsaußerer: SeelenPluecker, Freundin von SeelenPluecker


� Datum: 16.01.2012

4. Nachdem die Entitaten, Aspekte und deren jeweilige Ausdrucksformen ermittelt

wurden, kann gezielt die auf diese geaußerte Meinung sowie Meinungspolaritat

ausfindig gemacht werden. Dies fuhrt zum dritten und letzten fehlenden Teil des

Meinungsquadrupels (ei, aij ,ooijkl, hk, tl).

Extrahierte Meinungen:

Der Satz Nr. 3 enthalt Meinungsaußerungen in Bezug auf die nachfolgend darge-

stellten Aspekte:

� Negativ: Display des Motorola

� Positiv: Haptik des Motorola

Satz Nr. 4 enthalt Meinungen zu folgenden Aspekten:

� Positive Außerung auf gesamtes Gerat

� Positiv: Display des Apple Tablets

5. Im Rahmen des funften und letzten Teils dieser Schrittfolge konnen alle zuvor er-

mittelten Teile zusammengefuhrt werden, um alle moglichen Meinungsquadrupel

zu generieren.

Generierte Meinungsquadrupel:

� (Motorola, Display, Negativ, SeelenPluecker, 16.02.2012)

� (Motorola, Haptik, Positiv, SeelenPluecker, 16.02.2012)

� (Apple, Allgemein, Positiv, Freundin SeelenPluecker, 16.02.2012)

� (Apple, Display, Positiv, Freundin SeelenPluecker, 16.02.2012)

Vorangegangene Beschreibung der allgemeinen Vorgehensweise fuhrte bereits grob in

die notigen Teilschritte ein. Die zwei umfangreichsten Problembereiche dabei liegen

einerseits in der Ermittlung der Aspekte, andererseits in der Klassifikation der aus-

gedruckten Meinungen zu den Aspekten. Einen Einblick in diese Bereiche geben die

nachfolgenden Beschreibungen. Die maßgebliche Grundlagenforschung von Bing Liu

und Minqing Hu betrieben und in [Hu and Liu, 2004a] und [Hu and Liu, 2004b]


veroffentlicht. Als Vorverarbeitungsschritt wird ein POS Tagging durchgefuhrt, wel-

ches in den beschriebenen Veroffentlichungen um ein syntaktisches Tagging erganzt

wird, so dass auch Nominalphrasen und Verbphrasen annotiert werden.

Extraktion von haufig vorkommenden Aspekten

Die Extraktion von Aspekten umfasst sowohl die Extraktion von haufig vorkommenden

Aspekten, als auch nicht haufig auftretende Aspekte. Die Aspekte konnen in expliziter

Form, d.h. namentlich genannt, oder in impliziter Form, d.h. mit Worten umschrieben,

vorkommen. Die Publikationen beschranken sich jedoch auf die explizite Form, da diese

die uberwiegende Mehrheit der Reviews ausmachen.

1. Extraktion von haufig vorkommenden Aspekten:

Haufig auftretende Aspekte, d.h. Aspekte, welche in vielen Reviews auftauchen,

werden uber die Assoziationsanalyse (vgl. Kapitel 2.2.2) aufgedeckt. In diesem

Kontext werden Worte oder zusammengehorende Phrasen als Itemsets angesehen.

Hierbei wird ein Itemset als haufig angesehen, wenn es in mehr als 1% der Reviews

auftaucht (Mindestsupport). Auf die zweite Phase der Assoziationsanalyse kann

verzichtet werden.

2. Pruning der Aspekte:

Nicht alle durch die Assoziationsanalyse gefundenen Aspekte sind wirklich op-

timal. Es existieren auch Aspekte, welche nicht von Interesse sind bzw. doppelt

vorkommen. Das ist Aufgabe dieses Schritts. An dieser Stelle sei auf die Quelle [Hu

and Liu, 2004b] verwiesen.

Extraktion der Meinungsworte

Fur die Extraktion der Meinungsworten wird davon ausgegangen, dass diese in der

Nahe der haufig vorkommenden Aspekten stehen. Dabei wird so vorgegangen, dass

jeder Satz nach einem haufigen Aspekt untersucht wird. Taucht dieser auf, so wird das

nachst liegende Adjektiv extrahiert, welches das Meinungswort darstellt.

Extraktion von nicht haufig vorkommenden Aspekten

Wahrend die haufig vorkommenden Aspekte die interessantesten sind, da uber diese

am haufigsten gesprochen wird, konnen durchaus auch die nicht haufig vorkommenden


Aspekte von Interesse sein. Um diese zu finden, wird analog zur Methodik der Extrak-

tion der Meinungsworte vorgegangen. Fur jeden Satz wird untersucht, ob darin kein

haufig vorkommender Aspekt auftaucht. Ist dies der Fall so wird analysiert, ob sich in

diesem ein Meinungswort befindet. Sollt das der Fall sein, so wird das nachstliegende

Nomen bzw. die nachst liegende Nominalphrase extrahiert, welche als nicht haufig vor-

kommender Aspekt angesehen werden kann.

Feststellen der Polaritat der Meinungsworte

Fur jedes gefundene Meinungswort muss dessen Polaritat in Bezug auf die Klassen

positive Meinungsaußerung oder negative Meinungsaußerung festgestellt werden. Aus-

gehend von einer fest stehenden Liste an bereits klassifizierten Meinungsworten, wird

diese uber die Synonym-Funktionalitat von WordNET in jeder Klasse erweitert. Ab-

bildung 10 gibt einen Einblick, wie solche vorklassifizierten Meinungsworte aussehen

konnen.

Abb. 10: Meinungspolaritat24

24 [Hu and Liu, 2004a]


4.4 Alternativer Crowd Sourcing Ansatz

Dieses Kapitel beschreibt eine weniger stark automatisierte Art zur Ermittlung von

Kundenmeinungen. Die Beschreibung der automatisierten Verfahren aus Kapitel 4.3

lassen bereits auf die Komplexitat des Problems schließen. Verfahren des maschinel-

len Lernens versuchen dabei die Fahigkeiten des menschlichen Gehirns nachzubilden,

welche es dem Menschen ermoglichen, den Zusammenhang in Texten zu verstehen und

damit die von einem Meinungsaußerer ausgedruckte Meinung sicher einer Meinungspo-

laritat zuzuordnen.

Der Ansatz des Crowd Sourcing verzichtet auf die Verfahren des maschinellen Ler-

nens und deligiert die Aufgabe der Meinungsklassifizierung an Menschen. Ein moglicher

Ansatz hierzu ist im Internet25 beschrieben. Ein Vergleich zwischen manuell und au-

tomatisch klassifizierten Meinungen ist in [Ellis, 2011] beschreiben. Die automatische

Klassifikation in Abbildung 11 zeigt eine sehr hohe Anzahl an neutralen Bewertungen,

welche durch die manuelle Klassifikation in Abbildung 12 deutlich vermindert werden

konnte und damit mehr Klassifizierungen in die Klassen positiv und negativ fallen.

Abb. 11: Automatische Klassifizierung26

25 http://irserver.ucd.ie/dspace/handle/10197/202826 http://blog.crowdflower.com/wp-content/uploads/2011/11/cainauto.png27 http://blog.crowdflower.com/wp-content/uploads/2011/11/caincf.png

Der Prototyp 23

Abb. 12: Automatische Klassifizierung27

5 Der Prototyp

5.1 Anforderungen

Die Intention hinter dem zu entwickelnden Prototypen bestand darin, das durch Re-

cherche erarbeitete und in dieser Ausarbeitung vermittelte Grundlagenwissen anhand

einer praktischen Umsetzung zu verdeutlichen. Aufgrund der Tatsache, dass der The-

menkomplex des Opinion Mining als eine Schnittmenge von vielen verschiedenen For-

schungsrichtungen angesehen werden kann und sich noch keine Best-Practices etabliert

haben, ist eine flexible und brauchbare Umsetzung ein schwieriges Unterfangen. Aus

diesem Grund sollen die nachfolgend beschriebenen Anforderungen an den Prototypen

gelten.

� Halbautomatisches Crawling der Web-Seiten:

Unter halbautomatisch ist hier zu verstehen, dass ein konkretes Produkt (iPhone

4) bereits vorgegeben ist und die Links auf die Reviews der Amazon.de Seite,

welche sich uber mehrere Seiten erstrecken, manuell mitgegeben werden.

� Anwendung der beschriebenen Aspekt-Mining Technik ohne Optimierung der Er-

gebnisse.

24 Der Prototyp

� Festlegung auf Reviews, welche in der englischen Sprache verfasst sind, denn fur

diese existiert die großte Vielfalt an Tools.

5.2 Evaluation moglicher Tools

5.2.1 Scrapy

Bei dem Tool Scrapy handelt es sich um ein auf Python basierendes Framework fur

Web-Crawling und Screen-Scraping. Es wird zum Crawlen von Web-Seiten und der

strukturierten Datenextraktion aus diesen verwendet. Abbildung 13 verdeutlicht die

grundlegende und sehr flexible Architektur.

Abb. 13: Scrapy Architektur28

Die nachfolgende Auflistung, angelehnt an [scrapy.org, 2012], beschreibt die einzelnen

Komponenten der Architektur.

� Scrapy Engine:

28 vgl. http://doc.scrapy.org/en/latest/topics/architecture.html

Der Prototyp 25

Die Scrapy Engine koordiniert den Datenfluss zwischen den Komponenten inner-

halb des Systems.

� Scheduler:

Der Scheduler nimmt Anfragen entgegen und speichert diese zwischen.

� Downloader:

Der Downloader ladt die Seiten und reicht diese weiter an die Engine, welche

diese wiederum an die Spiders weiterreicht.

� Spiders:

Spider sind benutzerdefinierte Klassen, welche die runtergeladenen Dateien par-

sen und darin enthaltene Daten Extrahieren. URLs zu neuen Seiten sind auch

auslesbar.

� Item Pipeline:

Die Item Pipeline ist dafur verantwortlich, dass Items verarbeitet werden, nach-

dem sie durch die Spider extrahiert wurden. Typische Aufgaben dabei sind die

Bereinigung, Validierung und Persistierung der Daten.

� Downloader middlewares:

Die Downloader Middleware sitzt zwischen der Engine und dem Downloader und

verarbeitet Anfragen, wenn sie von der Engine zum Downloader weitergereicht

werden. Hier besteht die Moglichkeit der Anpassung durch Benutzer.

� Spider middlewares:

Die Spider Middleware sitzt zwischen der Engine und den Spidern und verarbeitet

Anfragen sowie Ausgaben (Items).

Das Scrapy Framework eignet sich sehr gut fur das Crawling und Screen-Scraping von

Webseiten, da es einfach in der Anwendung ist, jedoch keine Einschrankungen in Bezug

auf die Flexibilitat aufweist.

26 Der Prototyp

5.2.2 Natural Language Toolkit

Das Natural Language Toolkit (NLTK) stellt eine Bibliothek zur Erweiterung von Py-

thon dar. Es eignet sich hauptsachlich zur prototypischen Entwicklung in den Bereichen

der Computerlinguistik und der Kunstlichen Intelligenz. Mitgeliefert werden einige Bei-

spieldaten, welche uber den in Abbildung 14 dargestellten Dialog nachtraglich installiert

werden konnen.

Abb. 14: NLTK Programmpakete

Die Programmpakete umfassen umfangreiche Funktionalitaten zu den verschiedenen

Verfahren des NLP (vgl. 2.1.1), sowie diverse Corpi, Grammatiken und Klassifikatoren.

5.2.3 Rapid Miner

Rapid Miner entstand unter dem Namen Yet Another Learning Environment (YALE)

am Lehrstuhl fur kunstliche Intelligenz an der Universitat Dortmund im Jahr 2001.

Uber die Zeit wurde die Software immer beliebter. Seit dem Beginn der Entwick-

lung wurde die Software mehr als eine halbe Million heruntergeladen. Unter den vielen

privaten Anwendern befanden sich auch Mitarbeiter von Unternehmen, welche einen

Partner mit Kompetenz im Bereich der kunstlichen Intelligenz fur ihre Projekte such-

ten. Mit diesem Hintergrund wurde die Firma Rapid-I gegrundet. Auf Grundlage von

Der Prototyp 27

XML-Dateien und einer Programmieroberflache mit dem Vorteil der Grafischen Pro-

grammierung anhand von sogenannten Operatoren, werden die Prozessablaufe zur Pro-

blemlosung entwickelt. Rapid Miner deckt mit mehr als 500 Operatoren die Bereiche

des Data Mining, Web Mining und Text Mining ab. [Rapid-I, 2010]

Einen Einblick in die Programmoberflache des RapidMiner gibt Abbildung 15.

Abb. 15: Einblick in RapidMiner

5.3 Umgesetzte Teile des Prototypen

Dieses Unterkapitel beschreibt, welche Teile des Prototypen umgesetzt wurden. Dazu

wird anhand des Text Mining Prozesses aus Kapitel 2.3.1 vorgegangen.

5.3.1 Aufgabendefinition

Die Aufgabendefinition leitet sich aus den Anforderungen an den Prototypen ab. Die

Aufgabendefinition lautet somit:

� Halbautomatische Extraktion von englischen Kundenmeinungen zum iPhone 4

� Vorbereitung der Daten fur die Meinungsklassifikation auf Aspektebene

� Anwendung des Opinion Mining

28 Der Prototyp

Die Beschrankung auf englische Kundenmeinungen dient dem Zweck der Vereinfachung,

denn die verfugbaren Programmpakete des NLTK sind hauptsachlich auf die englische

Sprache ausgelegt.

5.3.2 Dokumentenselektion

Wahrend der Dokumentenselektion erfolgte die Festlegung auf die Produktbewertungs-

plattform Amazon.com. Mehrere Versuche zur Datenextraktion umfasste dieser Teil-

schritt.

1. Nutzung der Amazon API:

Amazon bietet eine API, die Product Advertising API29, an, mit welcher der Zu-

griff auf Amazon E-Commerce Daten moglich ist. Die zugehorigen API-Schnittstellen

fur die Product-Reviews sind zwar noch vorhanden, liefern jedoch bei Aufruf kei-

ne Daten zuruck. Der API liegt eine hohe Anderungsrate zugrunde. Nach einer

Recherche in der sehr unklar gehaltenen Dokumentation war festzustellen, dass

die Review-Daten nur noch mit dem Besitzt einer Amazon Partner-ID erhaltlich

sind und dann auch nur in Form von einer URL auf das Review. Da damit fast

kein Vorteil mehr gegenuber von Web-Crawling und Web-Scraping besteht, wurde

der nachfolgende Versuch gestartet.

2. Nutzung von Scrapy:

Die Nutzung eines Frameworks fur das Crawlen und Scrapen des Webs stellt einen

universelleren Ansatz gegenuber den spezifischen APIs dar. In Scrapy wurde die

Datenstruktur zur Speicherung (Item) definiert:

1 from scrapy.item import Item , Field2 class AmazonItem(Item):3 helpful = Field()4 rating = Field()5 title = Field()6 reviewDate = Field()7 author = Field()8 productToReview = Field()9 review = Field()

29 https://affiliate-program.amazon.com/gp/advertising/api/detail/main.html

Der Prototyp 29

Im Anschluss erfolgte die Definition eines Parsers, welcher im nachfolgenden Lis-

ting ausschnittsweise aufgelistet ist.

1 def parse(self , response):2 hxs = HtmlXPathSelector(response)3 items = []4 for i in range (1,11,1):5 item = AmazonItem ()6 item[’helpful ’] = hxs.select(’//html//body//table[@id=\’

productReviews \’]//tr//td[1]// div[’ + str(i) + ’]/div [1]/ text()’).extract ()

7 items.append(item)8 return items

Das Web-Crawling ist uber die Kommandozeile mit nachfolgendem Befehl start-

bar und ein Ausgabeformat kann gewahlt werden.

scrapy crawl amazon -o revitems.xml -t xml

Die Datenextraktion durch Scrapy kann nur als teilweise erfolgreich angesehen

werden, da die Amazon-Reviews ungenugende HTML-Struktur aufweisen. Die

verwendeten, absoluten, XPATH-Angaben fuhren zu fehlerhaften Extraktionen,

da erstes ¡div¿ Tag der Reviews unterschiedliches bedeuten kann. Wurde ein Re-

view als hilfreich bewertet, so befindet sich im ersten DIV-Tag die Anzahl der

Personen, die das Review hilfreich fanden. Andernfalls rucken die nachfolgenden

Tags eine Stelle vor. Dieses Problem schien nicht ohne Weiteres behebbar, wes-

wegen auf die manuelle Extraktion zuruckgegriffen werden musste.

3. Manuelle Extraktion:

Zum Schluss wurde auf die handische Extraktion zuruckgegriffen. Aufgrund der

Tatsache, dass der Prozess der Datenextraktion weit mehr Zeit in Anspruch ge-

nommen hatte, als geplant, musste die praktische Umsetzung des Prototypen an

dieser Stelle angebrochen werden.

30 Fazit

6 Fazit

Der Forschungsbereich des Opinion Mining ist gleichermaßen interessant und komplex.

Er erfordert ein umfangreiches Wissen in den angrenzenden Disziplinen der Computer-

linguistik, des Text Mining und des Data Mining. Das Part-Of-Speech Tagging stellt

einen wichtigen Vorverarbeitungsschritt hin zum Opinion Mining dar. Plattformen zur

Meinungsaußerung weisen unterschiedliche Strukturen auf, welche es gilt zu verstehen.

Das eigentliche Opinion Mining untergliedert sich in die Klassifikation von ganzen Do-

kumenten in Bezug auf die darin geaußerte Meinung, als auch auf die Klassifikation

von Meinungen, welche auf bestimmte Objekte der deren Eigenschaften ausgedruckt

werden. Letztere Art der Meinungsklassifikation stellt die schwierigste, aber auch aus-

sichtsreichste Form des Opinion Ming dar.

Der Aufwand fur eine eigene Implementierung ist nicht unerheblich und darf nicht un-

terschatzt werden.

Zukunftig durfen von diesem Forschungsgebiet noch viele Verbesserungen der Metho-

diken erwartet werden, welche den Nutzen fur Unternehmen noch weiter steigern.

Index

Annotation, 4

Assoziationsanalyse

Konfidenz, 7

Support, 7

Faktum, 14

Hidden Markov Model, 5

HMM, siehe Hidden Markov Model

Korpus

Negra, 5

Trainings-, 5

Meinung, 14

Part of Speech, 4

POS, siehe Part of Speech

Regel

Konklusion, 7

Pramisse, 7

STTS, siehe Stuttgart Tubingen Tagset

Stuttgart Tubingen Tagset, 4

Tag, 4

Textannotation, 4

31

32 Literatur

Literatur

[[F9, 1997] (1997). Fremdworterbuch. Der Duden in 12 Banden.

[Chamoni and Gluchowski, 2006] Chamoni, P. and Gluchowski, P. (2006). Analyti-

sche Informationssysteme: Business Intelligence-Technologien und -Anwendungen.

Springer-Verlag., Berlin Heidelberg.

[Dale et al., 2000] Dale, R., Moisl, H. L., and Somers, H. L. (2000). Handbook of natural

language processing. Marcel Dekker, New York.

[Ellis, 2011] Ellis, J. (2011). Did you say “great!”, or “oh great!”?

[Fayyad et al., 1996] Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. (1996). From

data mining to knowledge discovery in databases. AI Magazine, (17):37–54.

[Hammer, 2010] Hammer, T. (2010). Opinion und Relationship Mining in sozialen

Netzwerken: Extraktion von Meinungen und Beziehungen mittels Textmining und

sozialer Netzwerkanalyse. VDM Verlag Dr. Muller, Saarbrucken, neue ausg. edition.

[Herwig et al., ] Herwig, J., Kittenberger, A., Nentwich, M., and Schmirmund, J. Mi-

croblogging und die wissenschaft. das beispiel twitter. steckbrief 4 im rahmen des

rojekts interactive science.

[Heyer et al., 2006] Heyer, G., Quasthoff, U., and Wittig, T. (2006). Text Mining:

Wissensrohstoff Text: Konzepte, Algorithmen, Ergebnisse. W3L-Verl, Herdecke [u.a.].

[Hippner and Rentzmann, 2006] Hippner, H. and Rentzmann, R. (2006). Text mining.

Informatik-Spektrum, 29:287–290.

[Hu and Liu, 2004a] Hu, M. and Liu, B. (2004a). Mining and summarizing customer

reviews. In KDD ’04: Proceedings of the tenth ACM SIGKDD international confe-

rence on Knowledge discovery and data mining, pages 168–177, New York and NY

and USA. ACM.

Literatur 33

[Hu and Liu, 2004b] Hu, M. and Liu, B. (2004b). Mining opinion features in customer

reviews. In Proceedings of the 19th National Conference on Artificial Intelligence

(AAAI’04).

[Indeed.com, 2012] Indeed.com (06.02.2012). Job trends from indeed.com.

[Indurkhya and Damerau, 2010] Indurkhya, N. and Damerau, F. J. (2010). Handbook

of natural language processing. Chapman & Hall/CRC, Boca Raton and FL.

[Inmon et al., 2008] Inmon, W. H., Neushloss, G., and Strauss, D. (2008). DW 2.0:

The architecture for the next generation of data warehousing. Kaufmann, Amsterdam

[u.a.].

[Liu, 2011] Liu, B. (2011). Web data mining: Exploring hyperlinks, contents, and usage

data. Springer e-books.

[Rapid-I, 2010] Rapid-I (2010). Rapidminer 5.0: Benutzerhandbuch.

[Schiller et al., 1999] Schiller, A., Teufel, S., Stockert, C., and Thielen, C. (August

1999). Guidlines fur das tagging deutscher textcorpa mit stts: Kleines und großes

tagset.

[Scholze-Stubenrecht, 1999] Scholze-Stubenrecht, W. (1999). Duden. Dudenverlag,

Mannheim and and Leipzig and and Wien [etc], 3 edition.

[scrapy.org, 2012] scrapy.org (11.02.2012). Architecture overview.

Opinion Mining - Paper · W ahrend beim Data Mining keine groˇen Schwankungen festzustellen sind,...

Documents

Transcript of Opinion Mining - Paper · W ahrend beim Data Mining keine groˇen Schwankungen festzustellen sind,...