Opinion Mining - Paper · W ahrend beim Data Mining keine groˇen Schwankungen festzustellen sind,...
Transcript of Opinion Mining - Paper · W ahrend beim Data Mining keine groˇen Schwankungen festzustellen sind,...
Opinion Mining
Eine Einfuhrung in den Themenkomplex
Autoren: Florian Kalisch (236865)[email protected]
Betreuerin: Prof. Dr. Monika [email protected] derHochschule Furtwangen University
WS 2011/2012 – 13. Februar 2012Application Architectures
Modul: Data Warehousing und Business Intelligence
2
Zusammenfassung
Der Forschungsbereich des Opinion Mining ist aktuell starker Nachfrage unter-
worfen und birgt ein hohes Potenzial fur Unternehmen. Diese Arbeit gibt eine
Einfuhrung in das notige Hintergrundwissen, welches fur das Verstandnis der Opi-
nion Mining Methoden notig ist. Im Anschluss wird die Struktur von zwei Platt-
formen zur Meinungsaußerung untersucht. Der Schwerpunkt dieser Ausarbeitung
liegt auf der Darstellung der Grundlagen und Methodiken des Opinion Mining.
Danach erfolgt die Dokumentation der praktischen Umsetzung und ein Fazit.
Stichworte: Opinion Mining, Sentiment Analysis, Sentiment Detection, Poten-
ziale des Internet, Prototyp, Assoziationsanalyse
Inhaltsverzeichnis iii
Inhaltsverzeichnis
Abstract i
Inhaltsverzeichnis iii
Abbildungsverzeichnis vi
Tabellenverzeichnis viii
Stichwortverzeichnis x
Abkurzzungsverzeichnis xi
1 Einleitung 1
2 Hintergrundwissen 2
2.1 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.1 Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.2 Annotation von Texten . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.2 Assoziationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 Plattformen zur Meinungsaußerung 10
3.1 Produktbewertungsplattformen . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4 Sentiment Analysis 13
4.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2.1 Terminologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
iv Inhaltsverzeichnis
4.2.2 Definition einer Meinung . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Verfahren mit hohem Automationspotenzial . . . . . . . . . . . . . . . . 15
4.3.1 Document Sentiment Classification . . . . . . . . . . . . . . . . . 15
4.3.2 Aspect-Based Opinion Mining . . . . . . . . . . . . . . . . . . . . 17
4.4 Alternativer Crowd Sourcing Ansatz . . . . . . . . . . . . . . . . . . . . 22
5 Der Prototyp 23
5.1 Anforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.2 Evaluation moglicher Tools . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.2.1 Scrapy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.2.2 Natural Language Toolkit . . . . . . . . . . . . . . . . . . . . . . 26
5.2.3 Rapid Miner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.3 Umgesetzte Teile des Prototypen . . . . . . . . . . . . . . . . . . . . . . 27
5.3.1 Aufgabendefinition . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.3.2 Dokumentenselektion . . . . . . . . . . . . . . . . . . . . . . . . 28
6 Fazit 30
Index 31
Literatur 32
vi Abbildungsverzeichnis
Abbildungsverzeichnis
1 Job Trends from Indeed.com1 . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Knowledge Discovery in Databases2 . . . . . . . . . . . . . . . . . . . . 6
3 Assoziationsanalyse3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4 Der Text Mining Prozess4 . . . . . . . . . . . . . . . . . . . . . . . . . . 8
5 Produktbewertungsplattform ciao.de5 . . . . . . . . . . . . . . . . . . . 10
6 Produktbewertungsplattform amazon.de6 . . . . . . . . . . . . . . . . . 11
7 Inhalte von Tweets7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
8 Komplexe Darstellung der Basiseinheiten . . . . . . . . . . . . . . . . . 15
9 Vereinfachte Darstellung der Basiseinheiten . . . . . . . . . . . . . . . . 16
10 Meinungspolaritat8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
11 Automatische Klassifizierung9 . . . . . . . . . . . . . . . . . . . . . . . . 22
12 Automatische Klassifizierung10 . . . . . . . . . . . . . . . . . . . . . . . 23
13 Scrapy Architektur11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
14 NLTK Programmpakete . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
15 Einblick in RapidMiner . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
viii Tabellenverzeichnis
Tabellenverzeichnis
1 POS Beispieltags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
x Stichwortverzeichnis
Stichwortverzeichnis
Annotation Bei einer Annotation handelt es sich um ein Hinzufugen von Information
zu einem Objekt innerhalb des betrachteten Kontextes. Diese zusatzlichen Infor-
mationen konnen als Metadaten angesehen werden.
Cluster In der Informatik wird unter einem Cluster eine Gruppe von ahnlichen Date-
nobjekten verstanden.
Hidden Markov-Modelle HHM stellen eine stochastische Annaherung an Sprache dar.
Korpus Korpus stellt ein Synonym fur Textkorpus dar.
Review Eine von einem Kunden verfasste und auf einer Produktbewertungsplattform
veroffentlichte Kundenmeinung in Bezug auf ein Produkt oder sonstiges Objekt.
Tag Das Tag12 kann als Zuordnung einer Kategorie zu einem Objekt angesehen werden,
wie es z.B. im Rahmen einer Annotation geschieht.
Textkorpus Ein Textkorpus stellt eine Sammlung von Texten zur Beschreibung einer
spezifischen Sprache dar.
12 angelehnt an tag (engl.), was in diesem Kontext mit Anhangeschild ubersetzt werden kann
Abkurzzungsverzeichnis xi
Abkurzungsverzeichnis
BI Business Intelligence
CI Competitive Intelligence
DW Data Warehouse
HMM Hidden Markov-Modelle
IR Information Retrieval
KDD Knowledge Discovery in Databases
NLP Natural Language Processing
NLTK Natural Language Toolkit
POS Part-of-Speech13
STTS Stuttgart-Tubingen Tagset
TEI Text Encoding Initiative
YALE Yet Another Learning Environment
13 engl. fur Wortart
Einleitung 1
1 Einleitung
Fruher lag das Hauptaugenmerk in Unternehmen hauptsachlich auf sogenannten struk-
turierten Daten, welche zur Verarbeitung vorgehalten wurden. Dabei helfen Analysen,
aus den gespeicherten Daten einen Mehrwert fur das Unternehmen zu generieren. Mit
dem rasanten Zuwachs an Textdaten sowohl innerhalb eines Unternehmens, als auch
im World Wide Web, gewinnen diese eine immer wichtigere Bedeutung. Mittlerweile
stellen diese einen wichtigen Teil der Data Warehouse (DW) 2.0 Architektur dar [Inmon
et al., 2008, S. 310], bei welcher der Fokus jedoch noch immer auf den unternehmensin-
ternen Daten liegt. Die Verwaltung, Bereitstellung und Analyse dieser Daten fallt in
den Aufgabenbereich der Business Intelligence (BI).
Die Competitive Intelligence (CI) richtet den Fokus auf die unternehmensexternen Da-
ten, obgleich die internen Daten mit einbezogen werden. Das Ziel besteht in der Errei-
chung eines Wettbewerbsvorteils durch Beobachtung von Konkurrenzunternehmen.
Der dieser Arbeit zugrunde liegende Bereich ist das Opinion Mining, welches zwischen
der BI und CI einzuordnen ist. Hierbei besteht die Zielsetzung, einen Wettbewerbsvor-
teil fur das eigene Unternehmen durch die systematische Beobachtung der Meinungen
von Kunden im Internet zu erreichen. Abbildung 1 zeigt einen Einblick in den aktuel-
len Arbeitsmarkt. Dabei steht der prozentuale Zuwachs an relevanten Stellenangebo-
ten in den Bereichen Data Mining, Text Mining und Opinion Mining im Vordergrund.
Wahrend beim Data Mining keine großen Schwankungen festzustellen sind, liegt dem
Text Mining und vorallem dem Opinion Mining eine große Dynamik zugrunde. Gerade
das Opinion Mining ist aktuell stark im Wachstum.
14 [Indeed.com, 2012]
2 Hintergrundwissen
Abb. 1: Job Trends from Indeed.com14
2 Hintergrundwissen
2.1 Natural Language Processing
2.1.1 Verfahren
Innerhalb des Natural Language Processing (NLP) existieren verschiedene Verfahren
zur Analyse von Text. Diese werden nachfolgend aufgelistet und sind angelehnt an
[Hammer, 2010].
Morphologische Analyse
Bei der morphologischen Analyse werden einzelne Worte und ihre Wortformen unter-
sucht. Diese gliedert sich auf in:
� Tokenisierung:
Das Ziel der Tokenisierung besteht in der Auftrennung von Satzen in einzelne
Worter. Als Trenner (delimiter) konnen Leerzeichen, Tabulatoren und Zeilenum-
bruche dienen.
� Stammreduktion der Worter:
Die Stammreduktion, welche nach der Tokenisierung ausgefuhrt wird, reduziert
die einzelnen Worte auf ihren Wortstamm. Dabei kann der morphologische oder
lexikalische Stamm das Ziel sein. Gerade bei Text Mining Anwendungen ist dies
ein wichtiger Schritt, da so der semantische Zusammenhang besser erfasst werden
Hintergrundwissen 3
kann.
� Finden von Satzgrenzen:
Das Finden von Satzgrenzen dient der Erkennung, wo ein Satz aufhort und ein
neuer anfangt. Auch wenn die Vermutung nahe liegt, dass dies eine triviale Aufga-
be ist, so wird der Vorgang verkompliziert durch die Tatsache, dass (als Beispiel)
der Punkt als Interpunktionszeichen zwar ein Satzende markiert, er jedoch auch
innerhalb einer Zahl (z.B. als Dezimaltrennzeichen) auftauchen kann.
Syntaktische Analyse
� Part-of-Speech Tagging:
Beim Part-of-Speech (POS) Tagging geht es grundsatzlich um die Zuteilung ei-
nes Wortes zu seiner Wortform. Dieser Vorgang, auch Annotation von Texten
genannt, ist ein wichtiger Vorverarbeitungsschritt des Opinion Mining und wird
daher in Kapitel 2.1.2 ausfuhrlich beschrieben.
� Phrase Recognition:
Aufbauen auf der POS Annotation, konnen auch funktionale Phrasen erkannt
werden. Folgende Phrasen sind denkbar:
– Nominalphrasen
– Verbphrasen
– Adverbialphrasen
– Adjektivphrasen
– Prapositionalphrasen
� Parsing:
Das Parsing baut auf dem POS Tagging auf, bringt jedoch noch mehr Informa-
tionen mit ein. So erfolgt eine Zuordnung der Worter zu ihrer Stellung im Satz
(Subjekt, Pradikat, Objekt).
4 Hintergrundwissen
Semantische Analyse
Die semantische Analyse stellt das aufwandigste Verfahren dar. Dabei wird der Sinn
und die Bedeutung der von Sprache analysiert. Eine Aufgabe aus diesem Bereich ist die
Erkennung von Doppeldeutigkeiten von Worten. So kann herausgefunden werden, ob
die Bedeutung des Worts Bank im Textkontext die Sitzgelegenheit oder das Geldinstitut
ist.
2.1.2 Annotation von Texten
Die Annotation von Texten verfolgt das Ziel, den Wortern, aus welchen der betrach-
tete Text besteht, bestimme Kategorien zuzuordnen. Diese Kategorien kommen in der
Praxis in Form von standardisierten Tags zum Einsatz. Der Prozess dieser Annotation
wird auch als tagging bezeichnet. Meist geschieht diese Kategorisierung in Form der
Zuordnung zwischen Wort und grammatikalischen Form (Wortart), welche dann auch
POS Tags genannt werden.
Eine in der Praxis gebrauchliche Sammlung von POS Tags stellt das Stuttgart-Tubingen
Tagset (STTS) dar. [Heyer et al., 2006, S. 52–54]
Das STTS orientiert sich der Text Encoding Initiative (TEI)15, welche Richtlinien und
Standards fur Textannotationen vorgibt und weist eine hierarchische Struktur auf, wel-
che in Form von definiert angeordneten Buchstabensequenzen vorliegt. In Leserichtung
ist jedes Tag so unterteilt, dass man vom Allgemeinen (Hauptwortart) zum Speziellen
(Unterwortart) gelangt. Insgesamt sind 54 Tags definiert. [Schiller et al., 1999, S. 4–5]
Die Tabelle 1 auf Seite 5 gibt einen Einblick, wie diese Tags aussehen. Daraus lasst sich
folgender Beispielsatz aufstellen.
”Kaffeetassen[NN] ,[$,] T-Shirts ,[$,] Videobander[NN] und[KON] Bierdeckel[NN] las-
sen[VVFIN] sich[PRF] als[APPR] Erinnerung[NN] an[APPR] das[ART] beruchtigte
[ADJA] Gefangnis[NN] von[APPR] Alcatraz[NE] mit[APPR] nach[APPR] Hause[NN]
nehmen[VVINF] [$.]“ [Heyer et al., 2006, S. 128–129]
POS getaggte Worter beinhalten mehr Informationen als unstrukturierter Text, jedoch
kann das Taggen schneller und genauer ausgefuhrt werden, als durch ein volles syntak-
15 http://www.tei-c.org/P4X/
Hintergrundwissen 5
Tag Bedeutung
ADJA attributives Adjektiv
APPR Praposition; Zirkumposition links
ART bestimmter oder unbestimmter Artikel
KON nebengeordnete Konjunktion
NN Nomen
NE Eigennamen
PRF reflexives Personalpronomen
VVFIN finites Verb, voll
VVINF Infinitiv, voll
$, Komma
$. Satzbeendende Interpunktion
Tabelle 1: POS Beispieltags
tisches Parsen. Somit stellen sie einen guten Kompromiss zwischen Genaauigkeit und
Nutzwert dar. [Dale et al., 2000, S. 403]
Beim Vorgang des Taggens treten zweierlei Probleme auf ( [Dale et al., 2000, S. 404]):
1. Worter konnen (je nach Kontext) zu mehreren POS Klassen gehoren
2. Neue Worter konnen entstehen bzw. noch nicht getagged worden sein
Fur das Taggen von Wortern konnen, ausgehend von einem Trainingskorpus , Hidden
Markov-Modelle (HMM) zur Kategorisierung nicht getaggter Worter verwendet wer-
den. Dabei lasst sich eine Genauigkeit von etwa 97% erreichen. [Heyer et al., 2006,
S. 133]
Fur die deutsche Sprache bietet sich der Negra-Korpus16 an, welcher aktuell in der Ver-
sion 2 aus 355.096 Wortern besteht. Im englischsprachigen Raum ist das Penn Treebank
Tagset stark verbreitet.
2.2 Data Mining
2.2.1 Einfuhrung
Der Bereich des Data Mining ist im Zusammenhand mit dem Begriff des Knowledge
Discovery in Databases (KDD) zu sehen. Wahrend sich Data Mining im eigentlichen
16 http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html
6 Hintergrundwissen
Sinne lediglich auf die Analyse von Daten bezieht, so umfasst der Begriff des KDD einen
Prozess, welcher zusatzlich die Auswahl, Aufbereitung, Festlegung und Interpretation
enthalt. Dabei wird das Ziel verfolgt, aus den anfallenden Unternehmensdaten einen
wirtschaftlich entscheidenden Vorteil fur Unternehmen zu gewinnen. So konnen diese
zur Gewinnung eines besseren Kundenverstandnisses dienen. Aus den Kassentransak-
tionsdaten eines Handelsunternehmens lassen sich beispielsweise Verbundsbeziehungen
zwischen verkauften Artikeln herstellen und aus diesen Maßnahmen zur Erhohung der
Kundenbindung ableiten. Diese konnten darin bestehen, dass Verbundartikel nahe bei-
einander platziert werden. Der KDD dient somit zur Aufdeckung von Auffalligkeiten
(Beziehungen) in Daten. Diese mussen fur einen Großteil der Daten gelten und unbe-
kannte, als auch nutzliche, Zusammenhange aufdecken. Dabei wird aus dem implizit in
den Daten vorliegenden Wissen, explizites Wissen abgeleitet. [Chamoni and Gluchow-
ski, 2006] In der Praxis hat sich der Begriff des Data Mining als eine synonyme Be-
zeichnung fur den Prozess des KDD etabliert [Fayyad et al., 1996]. Innerhalb des KDD
fließen mehrere Forschungsrichtungen ein, wie Abbildung 2 verdeutlicht.
Abb. 2: Knowledge Discovery in Databases17
Das nachfolgende Unterkapitel setzt den Fokus ausschließlich auf das maschinelle Ler-
nen und beschreibt ein elementares Verfahren, welches fur das Verstandnis der aspekt-
17 [Chamoni and Gluchowski, 2006, S. 245]
Hintergrundwissen 7
basierten Sentiment Analysis aus Kapitel 4.3.2 benotigt wird.
2.2.2 Assoziationsanalyse
Die Assoziationsanalyse operiert auf einem vorhandenen Datenbestand und verfolgt
das Ziel, Regeln zwischen den einzelnen Datensatzen des Datenbestands aufzustellen.
Unter den sogenannten Items werden Elemente des Datensatzes verstanden, welche
als Auspragungen der Attributwerte eines Datensatzes angesehen werden konnen. Eine
Regel wird von einem Datensatz unterstutzt, wenn dieser die Items der Regel enthalt.
Eine Regel besteht aus einem ersten Teil, der Pramisse, sowie einem zweitel Teil, der
Konklusion oder auch Schlussfolgerung. [Chamoni and Gluchowski, 2006]
Nachfolgend ist ein Beispiel fur solch eine Regel abgebildet.
Wenn Item A im Datensatz auftritt, dann kommt auch Item B vor.
Zwei wichtige Begrifflichkeiten im Kontext der Assoziationsanalyse.
1. Support einer Regel:
Bezeichnet das Verhaltnis der unterstutzten Datensatze zur Anzahl der Gesamt-
datensatze.
2. Konfidenz einer Regel:
Bezeichnet das Verhaltnis zwischen Anzahl der Datensatze, auf die die Pramisse
zutrifft, zur Anzahl der Datensatze, auf die die Konklusion zutrifft.
Diese Begrifflichkeiten verdeutlicht Abbildung 3.
Die Erzeugung der Regeln setzt voraus, dass ein Mindestsupport, als auch eine Min-
destkonfidenz definiert wurden. Die eigentliche Regelerzeugung geschieht dann in zwei
Phasen [Chamoni and Gluchowski, 2006]:
1. Erzeugung aller Kombinationen von Items, bei denen die Mindestsupportschranke
uberschritten wird.
2. Im Anschluss werden fur jede dieser Kombinationen Regeln generiert, bei denen
die Mindestkonfidenz uberschritten wird.18 [Chamoni and Gluchowski, 2006, S. 277]
8 Hintergrundwissen
Abb. 3: Assoziationsanalyse18
2.3 Text Mining
2.3.1 Einfuhrung
Text Mining operiert, im Gegensatz zum Data Mining, auf unstrukturierten bzw. je
nach Dokumententyp auch semistrukturierten Daten. Es basiert dabei auf statistischen
sowie musterbasierten Verfahren. [Heyer et al., 2006]
In der Praxis hat sich ein Text Mining Prozess etabliert, welcher in Abbildung 4 dar-
gestellt ist und nachfolgend erlautert wird.
Abb. 4: Der Text Mining Prozess19
1. Aufgabendefinition:
Dieser Schritt umfasst die Definition der Problemstellung und die Ableitung der
Ziele, welche fur das Text Mining gelten sollen.
2. Dokumentenselektion:
Nach der Festlegung der Ziele muss die Auswahl der potenziellen Dokumente
19 angelehnt an [Hippner and Rentzmann, 2006]
Hintergrundwissen 9
erfolgen. Dieser Teilschritt ist dem Information Retrieval (IR) zugeordnet.
3. Dokumentenaufbereitung:
Die Dokumentenaufbereitung verfolgt das Ziel, den un- bzw. semistrukturierten
Daten eine Struktur zu verleihen. Dies ist dem Forschungsbereich des NLP zu-
zuordnen. Der Untersuchungsschwerpunkt liegt dabei auf der algorithmischen
Verarbeitung von naturlicher Sprache. Dabei konnen folgende, BEREITS BE-
SCHRIEBENENE, Verfahren zum Einsatz kommen.
� Morphologische Analyse
� Syntaktische Analyse
� Semantische Analyse
4. (Text) Mining Methoden:
Nachdem den textuellen Daten eine Struktur verliehen wurde, konnen klassische
Verfahren des Data Mining (maschinellen Lernens), wie beispielsweise die Asso-
ziationsanalyse (siehe 2.2.2), angewendet werden.
5. Interpretation / Evaluation:
Die Ergebnisse des Text Mining werden gefiltert und bewertet.
6. Anwendung:
Abschließend konnen die Ergebnisse fur konkrete Anwendungszwecke verwendet
werden.
10 Plattformen zur Meinungsaußerung
3 Plattformen zur Meinungsaußerung
3.1 Produktbewertungsplattformen
Produktbewertungsplattformen bieten Benutzern von Online-Shops einerseits die Moglichkeit
selbst gemachte Erfahrungen mit Produkten anderen Personen mitzuteilen, als auch
sich selbst uber Produkte zu informieren. Die Beschreibung der Erfahrung liegt dann
in Form eines sogenannten Reviews vor. Es existieren zwei Hauptarten, wie solche Re-
views gestaltet sein konnen [Liu, 2011, S. 486-487]
Format 1 - Pros, Cons und das detaillierte Review:
Der Ersteller des Reviews wird aufgefordert, in knapper Form, die wichtigsten Pros und
Contras separat zu beschreiben, sowie ein detaillierten Erfahrungsbericht zu beschrei-
ben. Ein Beispiel stellt die Plattform ciao.de dar, von welcher ein beispielhaftes Review
in Abbildung 5 zu sehen ist.
Format 2 - Freies Format:
Der Ersteller des Reviews kann einen freien Text verfassen und wird nicht dazu angehal-
ten, die Pros und Cons separat darzustellen. Ein Beispiel stellt die Plattform amazon.de
dar, von welcher ein beispielhaftes Review in Abbildung 6 zu sehen ist.
Abb. 5: Produktbewertungsplattform ciao.de20
20 http://www.ciao.de/Apple iPhone 4S 16GB Test 877021621 http://www.amazon.de/Apple-MC603B-A-iPhone-4/product-reviews/B003U6628A/
Plattformen zur Meinungsaußerung 11
Abb. 6: Produktbewertungsplattform amazon.de21
3.2 Twitter
Bei Twitter handelt es sich um einen Dienst, welcher unter die Kategorie ”Microblog-
ging”fallt. Wie der Name dieses Genres bereits vermuten lasst, werden die Eigenschaften
von Weblogs mit der Festlegung auf eine gewisse Zeichenlange (Vorsilbe ’Micro-’) ver-
eint. Somit sind Benutzer zwar in der Lange ihrer Außerungen eingeschrankt, jedoch
werden sie gleichzeitig zu einer pragnanten Meinungsaußerung gezwungen. Twitter be-
steht einerseits aus Funktionen, welche durch die Plattform an sich zur Verfugung ge-
stellt werden, als auch aus einer gewissen Semantik, welche innerhalb der zu sendenden
Nachrichten (Tweets) Verwendung finden. Die folgende Auflistung, welche an [Herwig
et al., , S.4-5] angelehnt ist, stellt die wichtigsten Features, vor allem in Hinblick auf
den Einsatz beim Opinion Mining, vor.
Kommunikationsgestaltung
1. Offentliche Antworten (@-reply oder @-response genannt):
Diese Art von Nachricht dient dazu, einem Benutzer eine Mitteilung, welche
offentlich einsehbar ist, zukommen zu lassen. Dazu muss innerhalb des Nach-
richtentextes die Zeichensequenz @username auftauchen.
2. Lesezeichen (favorites):
Jeder Benutzer besitzt die Moglichkeit, Nachrichten, welche sein Interesse beson-
ders erwecken bzw. die er fur sehr Interessant halt, als Favorit zu kennzeichnen.
Dadurch wird der Tweet seinem Profil unter dem Menupunkt Favoriten, welche
auch offentlich einsehbar sind, hinzugefugt. Externe Dienste wie Favotter oder
12 Plattformen zur Meinungsaußerung
Favstar wiederum werten diese allgemein zuganglichen Favoriten aus und konnen
so die beliebtesten Nachrichten identifizieren.
3. Listen:
Die Moglichkeit der Anlage von Listen existiert erst seit Ende Oktober 2009. Eine
List fasst mehrere Profile zu einer Gruppe zusammen. Der Vorteil besteht darin,
dass die Nachrichten der Gruppe nur dann angezeigt werden, wenn die Liste
eingesehen wird. Es ist dadurch nicht notig, ein Leser der betreffenden Person zu
werden (ihm zu followen). Listen anderer Benutzer kann auch gefolgt werden.
4. Retweeting:
Da Twitter umgekehrt chronologisch organisiert ist, werden die neusten Nachrich-
ten an oberster Stelle angezeigt. Altere Beitrage weichen den neueren Updates.
Das Retweeten bezeichnet den Vorgang des Kopierens einer alteren Nachricht und
deren erneuter Post mit Hinweis auf den ur-sprunglichen Autor. Dies verlangert
die Zirkulationsdauer eines Tweets, was dazu fuhrt, dass der Beitrag langer sicht-
bar bleibt und damit mehr Leser erreicht.
5. Hashtags:
Wahrend die Punkte 1 bis 4 in das Twitter Userinterface integriert sind und somit
per se fur jeden Benutzer ersichtlich, so handelt es sich bei den sogenannten Has-
htags lediglich um eine Konvention, welche sich mit der Zeit durch die begrenzte
Anzahl an Zeichen herausgebildet hat. Das Wort setzt sich einerseits aus hash
(engl. Raute) und tag (engl. fur Etikett bzw. to tag engl. fur etwas markieren)
zusammen. Diese Kennzeichnung fuhrt zu einer Klassifizierung des Beitrags.
22 http://www.sistrix.de/news/910-twitter-nutzung.html
Sentiment Analysis 13
Abb. 7: Inhalte von Tweets22
4 Sentiment Analysis
4.1 Einfuhrung
Die Sentiment Analyse ist ein sehr breit gefasstes Forschungsgebiet, welches sich der
Disziplinen Statistik, NLP, Text Mining, Maschinelles Lernen sowie auch Teilbereichen
des Data Mining bedient. Bei Recherchen im Internet zu diesem Themenkomplex stoßt
man auf die Begrifflichkeiten Opinion Mining, Sentiment Analysis und Sentiment
Detection, welche im Sinne der Meinungsextraktion als synonym zueinader anzusehen
sind.
Zur Entwicklung einer genaueren Vorstellung dieses Forschungsgebietes ist es dienlich,
die Definitionen der Worter Sentiment als auch Opinion genauer zu betrachten. Ange-
lehnt an [[F9, 1997, S. 738] bezeichnet das Sentiment ein Gefuhl bzw. eine Empfindung
oder Gefuhlsaußerung in Bezug auf eine bestimmte Sache. Das Wort Opinion23 wieder-
um, beschreibt laut [Scholze-Stubenrecht, 1999, S. 2556] die personlichen Ansichten,
Uberzeugungen bzw. Einstellungen in Bezug auf ein Objekt. Stellt man diese beiden
Begriffe in Bezug zueinander, so ist erkennbar, dass beide in diesem Kontext zusammen
betrachtet werden mussen. Ausgehend von den Meinungen einer Person in Bezug auf
ein bestimmtes Objekt, konnen positive, negative oder auch neutrale Ansichten auftre-
23 engl. fur die Meinung
14 Sentiment Analysis
ten, welche wiederum Ruckschlusse auf die Empfindung der Person in Bezug auf das
Objekt erlauben.
Durch die enorme Bedeutung fur die Praxis ist mittlerweile ein starker Zuwachs an
Forschung im akademischen und wirtschaftlichen Bereich zu verzeichnen. So gab es in
den USA im Jahr 2010 bereits ca. 30 Firmen, welche Dienste zur Sentiment Analyse
anboten. [Indurkhya and Damerau, 2010, S. 627–667]
Texte konnen, bezogen auf den Schwerpunkt der Meinungsextraktion, aus folgenden
zwei Kategorien bestehen:
Fakten: Als Fakten werden objektive Aussagen gegenuber einem Objekt oder dessen
Eigenschaften angesehen.
Meinungen: Unter Meinungen sind, angelehnt an [Scholze-Stubenrecht, 1999, S. 2556],
zu verstehen.
4.2 Grundlagen
4.2.1 Terminologien
Im Bereich des Opinion Mining gibt es verschiedene Begrifflichkeiten, welche in diesem
Unterkapitel anhand von Ontologien definiert werden. Die komplexe Darstellung aus
Abbildung 8 stellt eine sehr detaillierte Beschreibung dar. Eine Entitat ist ein Ziel-
objekt, zu welchem Meinungen ausgedruckt werden konnen. Eine solche Entitat kann
beispielsweise ein Produkt, eine Dienstleistung, eine Organisation, etc. sein. Weiterhin
existieren Komponenten und Attribute. Eine Entitat kann wiederum Komponenten
besitzen und im Fall eines Smartphones konnten diese Komponenten zum Beispiel der
Screen oder die Battery sein. Attribute konnen zu Komponenten oder aber der Entitat
selbst existieren und sind beispielsweise Gewicht oder Akkulaufzeit. Eine Meinung kann
zur Entitat, zu einer Komponente oder zu einem Attribut ausgedruckt werden.
Da diese komplexe Untergliederung den Problembereich zu stark verkompliziert, wird
in der Praxis eine Vereinfachung vorgenommen, welche Abbildung 9 zeigt. Die Kompo-
Sentiment Analysis 15
Abb. 8: Komplexe Darstellung der Basiseinheiten
nenten und Attribute werden zusammengefuhrt in den Begriff des Aspekts, welcher in
fruheren Publikationen noch als Feature definiert wurde. Eine Meinungsaußerung kann
sich somit nur noch auf eine Entitat oder einen Aspekt beziehen.
4.2.2 Definition einer Meinung
Eine Meinung wird uber ein sogenanntes Meinungsquadrupel definiert, welches in nach-
folgender Formel (vgl. [Liu, 2011, S. 463]) dargestellt ist.
Definition 1 [Allgemeines Meinungsquadrupel]
(ei, aij , ooijkl, hk, tl) (1)
4.3 Verfahren mit hohem Automationspotenzial
4.3.1 Document Sentiment Classification
Die Klassifikation der Stimmung auf Dokumentenebene kann dem generellen Problem-
feld der Textklassifikation zugeordnet werden, bei welchem Dokumente, aufgrund der
16 Sentiment Analysis
Abb. 9: Vereinfachte Darstellung der Basiseinheiten
in ihnen enthaltenen Worter, einer Kategorie zugeordnet werden. Die Document Sen-
timent Classification verfolgt dabei den Ansatz, die Gesamtmeinung eines Autors zu
einer Entitat zu ermitteln und diese beispielsweise den Klassen Positiv, Negativ oder
Neutral zuzuteilen. Anstatt der Betrachtung von haufig vorkommenden Wortern, wel-
che fur die jeweilige Klasse charakteristisch sind, muss der Fokus bei der Klassifikation
von Meinungen auf den Meinungsworten liegen. Hierbei spielen einzelne Aspekte einer
Entitat eine untergeordnete Rolle, da diese als ein Teil einer Entitat angesehen werden
(vgl. Kapitel 4.2.1) und somit jede geaußerte Meinung in Bezug auf einen Aspekt auch
als eine Meinung in Bezug auf die Entitat angesehen werden kann. Nachfolgende Formel
2 (vgl. (vgl. [Liu, 2011, S. 469])), deren Form angelehnt an das allgemeine Meinungs-
quadrupel (vgl. Formel 1) bestehen bleibt, verdeutlicht dies, indem die Aspekte durch
GENERAL verallgemeinert werden. Weiterhin werden folgende Vorannahmen getrof-
fen, welche bei Produktbewertungsplattformen als erfullt angesehen werden konnen:
� Eine einzelne Entitat:
Innerhalb des Dokuments treten nicht mehrere Entitaten auf.
Sentiment Analysis 17
� Ein einzelner Meinungsaußerer:
Das Dokument beinhaltet nur einen Meinungsaußerer.
Definition 2 [Meinungsquadrupel fur Document Sentiment Classification]
(e,GENERAL, oo, h, t) (2)
Unter Einbeziehung der vorangegangenen Vorannahmen ist ersichtlich, dass ooijkl des
allgemeinen Meinungsquadrupels zu oo vereinfacht werden kann, denn es existieren we-
der mehrere Entitaten, mehrere Meinungsaußerer oder Zeitpunkte, noch Aspekte.
4.3.2 Aspect-Based Opinion Mining
Einfuhrung
Im Gegensatz zur Klassifikation der Stimmung auf Dokumentenebene soll mittels dem
Aspect-Based Opinion Mining ein detaillierteres Verstandnis entwickelt werden. Das
Abstrahieren von Meinungen, welche zu einzelnen Aspekten geaußert wurden, hin zur
allgemeineren Entitat, kann dazu fuhren, dass das Dokument in die Klasse der positiven
Meinung eingestuft wird, obwohl darin einige Aspekte als sehr negativ hervorgehoben
werden. Das Wissen um diese negativ bewerteten Aspekte konnte von entscheiden-
der Bedeutung sein, entfallt jedoch aufgrund der Abstraktion. Eine solche tiefgreifende
Analyse erfordert umfangreiche Methoden des NLP und hat das allgemeine Meinungs-
quadrupel aus Formel 1 als Grundlage. Das definierte Ziel besteht darin, aus einem Do-
kument d alle Meinungsquadrupel zu extrahieren. Die grundlegende Herangehensweise
soll mittels des nachfolgenden, fiktiven, Reviews und den folgenden funf Schrittfolgen
(vgl. [Liu, 2011, S. 465-466]) sowohl theoretisch als auch praktisch veranschaulicht wer-
den:
Fiktives Review
18 Sentiment Analysis
Geschrieben von: SeelenPluecker am 16.01.2012
(1) Ich habe mir vor ein paar Tagen ein Motorola Tablet gekauft und meine Freundin
sich ein Tablet von Apple. (2) Als wir daheim waren, testeten wir beide unsere Gerate.
(3) Der Touchscreen meines Mot fuhlte sich sehr trage an, wahrend die Haptik jedoch
sehr gut war. (4) Meine Freundin war sehr zufrieden mit ihrem Apfelchen und dem
Screen. (5) Ich mochte aber ein Tablet mit gutem Display. (6) Wahrscheinlich tausche
ich es um.
1. Im ersten Schritt steht die Aufdeckung aller Entitaten und zugehoriger Ausdrucke
im Vordergrund. Nachdem alle Entitaten sowie deren Ausdrucke gefunden wur-
den, sind diese in Cluster-Form zu gruppieren. Es ergibt sich der erste Teil des
Meinungsquadrupels. (ei, aij , ooijkl, hk, tl)
Extrahierte Entitaten und zugehorige Ausdrucke:
� Entitat: Motorola
Ausdruck: Mot
� Entitat: Apple
Ausdruck: Apfelchen
2. Analog zu vorangegangenem Schritt wird auch mit den Aspekten verfahren. Diese
mitsamt ihren Ausdrucken mussen ebenfalls aufgedeckt und gruppiert werden.
Damit ergibt sich der zweite Teil des Meinungsquadrupels (ei,aij, ooijkl, hk, tl).
Extrahierte Aspekte und zugehorige Ausdrucke:
� Aspekt: Display
Ausdrucke: Screen, Touchscreen
� Entitat: Haptik
Ausdrucke: Keine alternative Ausdrucksweisen
3. Nachfolgend werden die Meinungsaußerer sowie Zeitpunkte ermittelt, welche die
letzten beiden Teile des Meinungsquadrupels ergeben (ei, aij , ooijkl,hk, tl).
Extrahierte Meinungsaußerer sowie zugehoriges Datum:
� Meinungsaußerer: SeelenPluecker, Freundin von SeelenPluecker
Sentiment Analysis 19
� Datum: 16.01.2012
4. Nachdem die Entitaten, Aspekte und deren jeweilige Ausdrucksformen ermittelt
wurden, kann gezielt die auf diese geaußerte Meinung sowie Meinungspolaritat
ausfindig gemacht werden. Dies fuhrt zum dritten und letzten fehlenden Teil des
Meinungsquadrupels (ei, aij ,ooijkl, hk, tl).
Extrahierte Meinungen:
Der Satz Nr. 3 enthalt Meinungsaußerungen in Bezug auf die nachfolgend darge-
stellten Aspekte:
� Negativ: Display des Motorola
� Positiv: Haptik des Motorola
Satz Nr. 4 enthalt Meinungen zu folgenden Aspekten:
� Positive Außerung auf gesamtes Gerat
� Positiv: Display des Apple Tablets
5. Im Rahmen des funften und letzten Teils dieser Schrittfolge konnen alle zuvor er-
mittelten Teile zusammengefuhrt werden, um alle moglichen Meinungsquadrupel
zu generieren.
Generierte Meinungsquadrupel:
� (Motorola, Display, Negativ, SeelenPluecker, 16.02.2012)
� (Motorola, Haptik, Positiv, SeelenPluecker, 16.02.2012)
� (Apple, Allgemein, Positiv, Freundin SeelenPluecker, 16.02.2012)
� (Apple, Display, Positiv, Freundin SeelenPluecker, 16.02.2012)
Vorangegangene Beschreibung der allgemeinen Vorgehensweise fuhrte bereits grob in
die notigen Teilschritte ein. Die zwei umfangreichsten Problembereiche dabei liegen
einerseits in der Ermittlung der Aspekte, andererseits in der Klassifikation der aus-
gedruckten Meinungen zu den Aspekten. Einen Einblick in diese Bereiche geben die
nachfolgenden Beschreibungen. Die maßgebliche Grundlagenforschung von Bing Liu
und Minqing Hu betrieben und in [Hu and Liu, 2004a] und [Hu and Liu, 2004b]
20 Sentiment Analysis
veroffentlicht. Als Vorverarbeitungsschritt wird ein POS Tagging durchgefuhrt, wel-
ches in den beschriebenen Veroffentlichungen um ein syntaktisches Tagging erganzt
wird, so dass auch Nominalphrasen und Verbphrasen annotiert werden.
Extraktion von haufig vorkommenden Aspekten
Die Extraktion von Aspekten umfasst sowohl die Extraktion von haufig vorkommenden
Aspekten, als auch nicht haufig auftretende Aspekte. Die Aspekte konnen in expliziter
Form, d.h. namentlich genannt, oder in impliziter Form, d.h. mit Worten umschrieben,
vorkommen. Die Publikationen beschranken sich jedoch auf die explizite Form, da diese
die uberwiegende Mehrheit der Reviews ausmachen.
1. Extraktion von haufig vorkommenden Aspekten:
Haufig auftretende Aspekte, d.h. Aspekte, welche in vielen Reviews auftauchen,
werden uber die Assoziationsanalyse (vgl. Kapitel 2.2.2) aufgedeckt. In diesem
Kontext werden Worte oder zusammengehorende Phrasen als Itemsets angesehen.
Hierbei wird ein Itemset als haufig angesehen, wenn es in mehr als 1% der Reviews
auftaucht (Mindestsupport). Auf die zweite Phase der Assoziationsanalyse kann
verzichtet werden.
2. Pruning der Aspekte:
Nicht alle durch die Assoziationsanalyse gefundenen Aspekte sind wirklich op-
timal. Es existieren auch Aspekte, welche nicht von Interesse sind bzw. doppelt
vorkommen. Das ist Aufgabe dieses Schritts. An dieser Stelle sei auf die Quelle [Hu
and Liu, 2004b] verwiesen.
Extraktion der Meinungsworte
Fur die Extraktion der Meinungsworten wird davon ausgegangen, dass diese in der
Nahe der haufig vorkommenden Aspekten stehen. Dabei wird so vorgegangen, dass
jeder Satz nach einem haufigen Aspekt untersucht wird. Taucht dieser auf, so wird das
nachst liegende Adjektiv extrahiert, welches das Meinungswort darstellt.
Extraktion von nicht haufig vorkommenden Aspekten
Wahrend die haufig vorkommenden Aspekte die interessantesten sind, da uber diese
am haufigsten gesprochen wird, konnen durchaus auch die nicht haufig vorkommenden
Sentiment Analysis 21
Aspekte von Interesse sein. Um diese zu finden, wird analog zur Methodik der Extrak-
tion der Meinungsworte vorgegangen. Fur jeden Satz wird untersucht, ob darin kein
haufig vorkommender Aspekt auftaucht. Ist dies der Fall so wird analysiert, ob sich in
diesem ein Meinungswort befindet. Sollt das der Fall sein, so wird das nachstliegende
Nomen bzw. die nachst liegende Nominalphrase extrahiert, welche als nicht haufig vor-
kommender Aspekt angesehen werden kann.
Feststellen der Polaritat der Meinungsworte
Fur jedes gefundene Meinungswort muss dessen Polaritat in Bezug auf die Klassen
positive Meinungsaußerung oder negative Meinungsaußerung festgestellt werden. Aus-
gehend von einer fest stehenden Liste an bereits klassifizierten Meinungsworten, wird
diese uber die Synonym-Funktionalitat von WordNET in jeder Klasse erweitert. Ab-
bildung 10 gibt einen Einblick, wie solche vorklassifizierten Meinungsworte aussehen
konnen.
Abb. 10: Meinungspolaritat24
24 [Hu and Liu, 2004a]
22 Sentiment Analysis
4.4 Alternativer Crowd Sourcing Ansatz
Dieses Kapitel beschreibt eine weniger stark automatisierte Art zur Ermittlung von
Kundenmeinungen. Die Beschreibung der automatisierten Verfahren aus Kapitel 4.3
lassen bereits auf die Komplexitat des Problems schließen. Verfahren des maschinel-
len Lernens versuchen dabei die Fahigkeiten des menschlichen Gehirns nachzubilden,
welche es dem Menschen ermoglichen, den Zusammenhang in Texten zu verstehen und
damit die von einem Meinungsaußerer ausgedruckte Meinung sicher einer Meinungspo-
laritat zuzuordnen.
Der Ansatz des Crowd Sourcing verzichtet auf die Verfahren des maschinellen Ler-
nens und deligiert die Aufgabe der Meinungsklassifizierung an Menschen. Ein moglicher
Ansatz hierzu ist im Internet25 beschrieben. Ein Vergleich zwischen manuell und au-
tomatisch klassifizierten Meinungen ist in [Ellis, 2011] beschreiben. Die automatische
Klassifikation in Abbildung 11 zeigt eine sehr hohe Anzahl an neutralen Bewertungen,
welche durch die manuelle Klassifikation in Abbildung 12 deutlich vermindert werden
konnte und damit mehr Klassifizierungen in die Klassen positiv und negativ fallen.
Abb. 11: Automatische Klassifizierung26
25 http://irserver.ucd.ie/dspace/handle/10197/202826 http://blog.crowdflower.com/wp-content/uploads/2011/11/cainauto.png27 http://blog.crowdflower.com/wp-content/uploads/2011/11/caincf.png
Der Prototyp 23
Abb. 12: Automatische Klassifizierung27
5 Der Prototyp
5.1 Anforderungen
Die Intention hinter dem zu entwickelnden Prototypen bestand darin, das durch Re-
cherche erarbeitete und in dieser Ausarbeitung vermittelte Grundlagenwissen anhand
einer praktischen Umsetzung zu verdeutlichen. Aufgrund der Tatsache, dass der The-
menkomplex des Opinion Mining als eine Schnittmenge von vielen verschiedenen For-
schungsrichtungen angesehen werden kann und sich noch keine Best-Practices etabliert
haben, ist eine flexible und brauchbare Umsetzung ein schwieriges Unterfangen. Aus
diesem Grund sollen die nachfolgend beschriebenen Anforderungen an den Prototypen
gelten.
� Halbautomatisches Crawling der Web-Seiten:
Unter halbautomatisch ist hier zu verstehen, dass ein konkretes Produkt (iPhone
4) bereits vorgegeben ist und die Links auf die Reviews der Amazon.de Seite,
welche sich uber mehrere Seiten erstrecken, manuell mitgegeben werden.
� Anwendung der beschriebenen Aspekt-Mining Technik ohne Optimierung der Er-
gebnisse.
24 Der Prototyp
� Festlegung auf Reviews, welche in der englischen Sprache verfasst sind, denn fur
diese existiert die großte Vielfalt an Tools.
5.2 Evaluation moglicher Tools
5.2.1 Scrapy
Bei dem Tool Scrapy handelt es sich um ein auf Python basierendes Framework fur
Web-Crawling und Screen-Scraping. Es wird zum Crawlen von Web-Seiten und der
strukturierten Datenextraktion aus diesen verwendet. Abbildung 13 verdeutlicht die
grundlegende und sehr flexible Architektur.
Abb. 13: Scrapy Architektur28
Die nachfolgende Auflistung, angelehnt an [scrapy.org, 2012], beschreibt die einzelnen
Komponenten der Architektur.
� Scrapy Engine:
28 vgl. http://doc.scrapy.org/en/latest/topics/architecture.html
Der Prototyp 25
Die Scrapy Engine koordiniert den Datenfluss zwischen den Komponenten inner-
halb des Systems.
� Scheduler:
Der Scheduler nimmt Anfragen entgegen und speichert diese zwischen.
� Downloader:
Der Downloader ladt die Seiten und reicht diese weiter an die Engine, welche
diese wiederum an die Spiders weiterreicht.
� Spiders:
Spider sind benutzerdefinierte Klassen, welche die runtergeladenen Dateien par-
sen und darin enthaltene Daten Extrahieren. URLs zu neuen Seiten sind auch
auslesbar.
� Item Pipeline:
Die Item Pipeline ist dafur verantwortlich, dass Items verarbeitet werden, nach-
dem sie durch die Spider extrahiert wurden. Typische Aufgaben dabei sind die
Bereinigung, Validierung und Persistierung der Daten.
� Downloader middlewares:
Die Downloader Middleware sitzt zwischen der Engine und dem Downloader und
verarbeitet Anfragen, wenn sie von der Engine zum Downloader weitergereicht
werden. Hier besteht die Moglichkeit der Anpassung durch Benutzer.
� Spider middlewares:
Die Spider Middleware sitzt zwischen der Engine und den Spidern und verarbeitet
Anfragen sowie Ausgaben (Items).
Das Scrapy Framework eignet sich sehr gut fur das Crawling und Screen-Scraping von
Webseiten, da es einfach in der Anwendung ist, jedoch keine Einschrankungen in Bezug
auf die Flexibilitat aufweist.
26 Der Prototyp
5.2.2 Natural Language Toolkit
Das Natural Language Toolkit (NLTK) stellt eine Bibliothek zur Erweiterung von Py-
thon dar. Es eignet sich hauptsachlich zur prototypischen Entwicklung in den Bereichen
der Computerlinguistik und der Kunstlichen Intelligenz. Mitgeliefert werden einige Bei-
spieldaten, welche uber den in Abbildung 14 dargestellten Dialog nachtraglich installiert
werden konnen.
Abb. 14: NLTK Programmpakete
Die Programmpakete umfassen umfangreiche Funktionalitaten zu den verschiedenen
Verfahren des NLP (vgl. 2.1.1), sowie diverse Corpi, Grammatiken und Klassifikatoren.
5.2.3 Rapid Miner
Rapid Miner entstand unter dem Namen Yet Another Learning Environment (YALE)
am Lehrstuhl fur kunstliche Intelligenz an der Universitat Dortmund im Jahr 2001.
Uber die Zeit wurde die Software immer beliebter. Seit dem Beginn der Entwick-
lung wurde die Software mehr als eine halbe Million heruntergeladen. Unter den vielen
privaten Anwendern befanden sich auch Mitarbeiter von Unternehmen, welche einen
Partner mit Kompetenz im Bereich der kunstlichen Intelligenz fur ihre Projekte such-
ten. Mit diesem Hintergrund wurde die Firma Rapid-I gegrundet. Auf Grundlage von
Der Prototyp 27
XML-Dateien und einer Programmieroberflache mit dem Vorteil der Grafischen Pro-
grammierung anhand von sogenannten Operatoren, werden die Prozessablaufe zur Pro-
blemlosung entwickelt. Rapid Miner deckt mit mehr als 500 Operatoren die Bereiche
des Data Mining, Web Mining und Text Mining ab. [Rapid-I, 2010]
Einen Einblick in die Programmoberflache des RapidMiner gibt Abbildung 15.
Abb. 15: Einblick in RapidMiner
5.3 Umgesetzte Teile des Prototypen
Dieses Unterkapitel beschreibt, welche Teile des Prototypen umgesetzt wurden. Dazu
wird anhand des Text Mining Prozesses aus Kapitel 2.3.1 vorgegangen.
5.3.1 Aufgabendefinition
Die Aufgabendefinition leitet sich aus den Anforderungen an den Prototypen ab. Die
Aufgabendefinition lautet somit:
� Halbautomatische Extraktion von englischen Kundenmeinungen zum iPhone 4
� Vorbereitung der Daten fur die Meinungsklassifikation auf Aspektebene
� Anwendung des Opinion Mining
28 Der Prototyp
Die Beschrankung auf englische Kundenmeinungen dient dem Zweck der Vereinfachung,
denn die verfugbaren Programmpakete des NLTK sind hauptsachlich auf die englische
Sprache ausgelegt.
5.3.2 Dokumentenselektion
Wahrend der Dokumentenselektion erfolgte die Festlegung auf die Produktbewertungs-
plattform Amazon.com. Mehrere Versuche zur Datenextraktion umfasste dieser Teil-
schritt.
1. Nutzung der Amazon API:
Amazon bietet eine API, die Product Advertising API29, an, mit welcher der Zu-
griff auf Amazon E-Commerce Daten moglich ist. Die zugehorigen API-Schnittstellen
fur die Product-Reviews sind zwar noch vorhanden, liefern jedoch bei Aufruf kei-
ne Daten zuruck. Der API liegt eine hohe Anderungsrate zugrunde. Nach einer
Recherche in der sehr unklar gehaltenen Dokumentation war festzustellen, dass
die Review-Daten nur noch mit dem Besitzt einer Amazon Partner-ID erhaltlich
sind und dann auch nur in Form von einer URL auf das Review. Da damit fast
kein Vorteil mehr gegenuber von Web-Crawling und Web-Scraping besteht, wurde
der nachfolgende Versuch gestartet.
2. Nutzung von Scrapy:
Die Nutzung eines Frameworks fur das Crawlen und Scrapen des Webs stellt einen
universelleren Ansatz gegenuber den spezifischen APIs dar. In Scrapy wurde die
Datenstruktur zur Speicherung (Item) definiert:
1 from scrapy.item import Item , Field2 class AmazonItem(Item):3 helpful = Field()4 rating = Field()5 title = Field()6 reviewDate = Field()7 author = Field()8 productToReview = Field()9 review = Field()
29 https://affiliate-program.amazon.com/gp/advertising/api/detail/main.html
Der Prototyp 29
Im Anschluss erfolgte die Definition eines Parsers, welcher im nachfolgenden Lis-
ting ausschnittsweise aufgelistet ist.
1 def parse(self , response):2 hxs = HtmlXPathSelector(response)3 items = []4 for i in range (1,11,1):5 item = AmazonItem ()6 item[’helpful ’] = hxs.select(’//html//body//table[@id=\’
productReviews \’]//tr//td[1]// div[’ + str(i) + ’]/div [1]/ text()’).extract ()
7 items.append(item)8 return items
Das Web-Crawling ist uber die Kommandozeile mit nachfolgendem Befehl start-
bar und ein Ausgabeformat kann gewahlt werden.
scrapy crawl amazon -o revitems.xml -t xml
Die Datenextraktion durch Scrapy kann nur als teilweise erfolgreich angesehen
werden, da die Amazon-Reviews ungenugende HTML-Struktur aufweisen. Die
verwendeten, absoluten, XPATH-Angaben fuhren zu fehlerhaften Extraktionen,
da erstes ¡div¿ Tag der Reviews unterschiedliches bedeuten kann. Wurde ein Re-
view als hilfreich bewertet, so befindet sich im ersten DIV-Tag die Anzahl der
Personen, die das Review hilfreich fanden. Andernfalls rucken die nachfolgenden
Tags eine Stelle vor. Dieses Problem schien nicht ohne Weiteres behebbar, wes-
wegen auf die manuelle Extraktion zuruckgegriffen werden musste.
3. Manuelle Extraktion:
Zum Schluss wurde auf die handische Extraktion zuruckgegriffen. Aufgrund der
Tatsache, dass der Prozess der Datenextraktion weit mehr Zeit in Anspruch ge-
nommen hatte, als geplant, musste die praktische Umsetzung des Prototypen an
dieser Stelle angebrochen werden.
30 Fazit
6 Fazit
Der Forschungsbereich des Opinion Mining ist gleichermaßen interessant und komplex.
Er erfordert ein umfangreiches Wissen in den angrenzenden Disziplinen der Computer-
linguistik, des Text Mining und des Data Mining. Das Part-Of-Speech Tagging stellt
einen wichtigen Vorverarbeitungsschritt hin zum Opinion Mining dar. Plattformen zur
Meinungsaußerung weisen unterschiedliche Strukturen auf, welche es gilt zu verstehen.
Das eigentliche Opinion Mining untergliedert sich in die Klassifikation von ganzen Do-
kumenten in Bezug auf die darin geaußerte Meinung, als auch auf die Klassifikation
von Meinungen, welche auf bestimmte Objekte der deren Eigenschaften ausgedruckt
werden. Letztere Art der Meinungsklassifikation stellt die schwierigste, aber auch aus-
sichtsreichste Form des Opinion Ming dar.
Der Aufwand fur eine eigene Implementierung ist nicht unerheblich und darf nicht un-
terschatzt werden.
Zukunftig durfen von diesem Forschungsgebiet noch viele Verbesserungen der Metho-
diken erwartet werden, welche den Nutzen fur Unternehmen noch weiter steigern.
Index
Annotation, 4
Assoziationsanalyse
Konfidenz, 7
Support, 7
Faktum, 14
Hidden Markov Model, 5
HMM, siehe Hidden Markov Model
Korpus
Negra, 5
Trainings-, 5
Meinung, 14
Part of Speech, 4
POS, siehe Part of Speech
Regel
Konklusion, 7
Pramisse, 7
STTS, siehe Stuttgart Tubingen Tagset
Stuttgart Tubingen Tagset, 4
Tag, 4
Textannotation, 4
31
32 Literatur
Literatur
[[F9, 1997] (1997). Fremdworterbuch. Der Duden in 12 Banden.
[Chamoni and Gluchowski, 2006] Chamoni, P. and Gluchowski, P. (2006). Analyti-
sche Informationssysteme: Business Intelligence-Technologien und -Anwendungen.
Springer-Verlag., Berlin Heidelberg.
[Dale et al., 2000] Dale, R., Moisl, H. L., and Somers, H. L. (2000). Handbook of natural
language processing. Marcel Dekker, New York.
[Ellis, 2011] Ellis, J. (2011). Did you say “great!”, or “oh great!”?
[Fayyad et al., 1996] Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. (1996). From
data mining to knowledge discovery in databases. AI Magazine, (17):37–54.
[Hammer, 2010] Hammer, T. (2010). Opinion und Relationship Mining in sozialen
Netzwerken: Extraktion von Meinungen und Beziehungen mittels Textmining und
sozialer Netzwerkanalyse. VDM Verlag Dr. Muller, Saarbrucken, neue ausg. edition.
[Herwig et al., ] Herwig, J., Kittenberger, A., Nentwich, M., and Schmirmund, J. Mi-
croblogging und die wissenschaft. das beispiel twitter. steckbrief 4 im rahmen des
rojekts interactive science.
[Heyer et al., 2006] Heyer, G., Quasthoff, U., and Wittig, T. (2006). Text Mining:
Wissensrohstoff Text: Konzepte, Algorithmen, Ergebnisse. W3L-Verl, Herdecke [u.a.].
[Hippner and Rentzmann, 2006] Hippner, H. and Rentzmann, R. (2006). Text mining.
Informatik-Spektrum, 29:287–290.
[Hu and Liu, 2004a] Hu, M. and Liu, B. (2004a). Mining and summarizing customer
reviews. In KDD ’04: Proceedings of the tenth ACM SIGKDD international confe-
rence on Knowledge discovery and data mining, pages 168–177, New York and NY
and USA. ACM.
Literatur 33
[Hu and Liu, 2004b] Hu, M. and Liu, B. (2004b). Mining opinion features in customer
reviews. In Proceedings of the 19th National Conference on Artificial Intelligence
(AAAI’04).
[Indeed.com, 2012] Indeed.com (06.02.2012). Job trends from indeed.com.
[Indurkhya and Damerau, 2010] Indurkhya, N. and Damerau, F. J. (2010). Handbook
of natural language processing. Chapman & Hall/CRC, Boca Raton and FL.
[Inmon et al., 2008] Inmon, W. H., Neushloss, G., and Strauss, D. (2008). DW 2.0:
The architecture for the next generation of data warehousing. Kaufmann, Amsterdam
[u.a.].
[Liu, 2011] Liu, B. (2011). Web data mining: Exploring hyperlinks, contents, and usage
data. Springer e-books.
[Rapid-I, 2010] Rapid-I (2010). Rapidminer 5.0: Benutzerhandbuch.
[Schiller et al., 1999] Schiller, A., Teufel, S., Stockert, C., and Thielen, C. (August
1999). Guidlines fur das tagging deutscher textcorpa mit stts: Kleines und großes
tagset.
[Scholze-Stubenrecht, 1999] Scholze-Stubenrecht, W. (1999). Duden. Dudenverlag,
Mannheim and and Leipzig and and Wien [etc], 3 edition.
[scrapy.org, 2012] scrapy.org (11.02.2012). Architecture overview.