Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining...
-
Upload
margareta-werder -
Category
Documents
-
view
122 -
download
0
Transcript of Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining...
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
Logfile-Analyse mit dem Web Utilization Miner
WUM
Wissensextraktion aus „large databases“ an Hand des
Logfiles eines themenbezogenen
Webportals: community-of-knowledge
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
2
c-o-k: Ziele und Aufbau
• unabhängige Internet-Plattform zur „Bündelung und Präsentation von praxisorientiertem und qualifiziertem Wissen zum Thema Knowledge Management in Unternehmen.“
• Webbasierte Knowledge Base zur Thematik `Einsatz und Leistungsfähigkeit aktueller Methoden, Techniken und Tools im Bereich Knowledge Management´.
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
3
C-o-k Aufbau
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
4
Mein Hauptinteresse: Content-Abruf Concept Hierarchy für
`Artikel´Index.htm
Kontexte
Werkzeuge Fallstudien Methoden
Rollen
Organisations-entwickler
Qualitäts-manager
IT-Leiter
Personalent-wickler
WM-Koordinator
/artikel_id=137(meiner über
KDD/Data Mining)
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
5
Content Pool
Jedem Artikel werden bei der Eingabe ein Kontext und max. 4 Rollen zugeordnetKontexte und Rollen enthalten oft die gleichen ArtikelWelche Rollen würdet ihr einem Artikel über KDD zuordnen?
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
6
Content-Suche über Navigationshilfen
Die einzige weitere Möglichkeit des Content-Abrufs geht über die Navigationshilfen: Keywords (s_index), interne Suchmaschine (s_suche), Autoren (s_autoren) und Sitemap, die zwar nur auf die anderen Möglichkeiten verweist, deren häufiger Abruf aber einen näheren Blick nahelegt.
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
7
Content-Abruf über Navigation (an Hand von Analog-Reports
April 01-Mai 02)
wer
kzeu
g
falls
tudi
en
met
hode
n
Org
.-en
twic
kler
Qua
lität
sman
ager
IT-L
eite
r
HR
Koo
rd.-
WM
Aut
oren
Site
map
s_su
che
blau=Kontexterot=Navigation0
500100015002000250030003500 blau=Kontexte
grün=Rollen
rot=Navigation
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
8
Mrz
01
Ap
r 0
1
Ma
i 01
Jun
01
Jul 0
1
Au
g 0
1
Se
p 0
1
Okt
01
No
v 0
1
De
z 0
1
Jan
02
Fe
b 0
2
Mrz
02
Ap
r 0
2
Ma
i 02
cp_kon_roll
0
5000
10000
15000
20000
cp_kon_roll
s_index.htm
cp_artikel
Content-Abruf über Kontext/Rollen/Keywords
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
9
Fragen:• Ergeben sich signifikante Unterschiede
im Navigationsverhalten bei der Suche über Kontexte bzw. Rollen?
• Ergeben sich signifikante Unterschiede im Content-Abruf über Navigationshilfen gegenüber Kontext/Rollen?
• Lesen HR-Leute andere Artikel als IT-Leiter?
• Oder führt die fast identische Content-Präsentation für die 4 Rollen zu ebenso identischen Artikel-Abrufen?
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
10
Knowledge Discovery Queries mit Mint
• Der Umgang mit WUM erfordert Expertenwissen -> kein Expertensystem
• Man muss Vorannahmen treffen, die man mit Hilfe von Mint veri-/falsifizieren kann
• Definition Spiliopoulou: „a belief is a rule of the form A B, which is expected to be true“
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
11
Preprocessing via „find“• Gefiltert wurde aus Performancegründen
manuell: gif/jpg, alle parametrisierten Scriptaufrufe (außer cgi [?]), Kontakt, Messen, die meisten Serviceseiten, bekannte Robots
• Logfile 03.06.02-17.06.02 von 15MB auf 2,4 MB• Das in WUM implementierte Weka
(Assoziationsregeln) verkraftet keine %, bzw. &-Zeichen. Man ersetze sie via
sed –f sedscr filename >xyz
Download UnixUtils für Win32 http://unxutils.sourceforge.net/
filter1.bat
filter17.bat
• Sicherheitswarnung: Fremder Leute batch-
files vor dem Ausführen in einem Texteditor
anschauen‼!
• Sicherheitswarnung: Fremder Leute batch-
files vor dem Ausführen in einem Texteditor
anschauen‼!
sedscr
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
12
Website Pages, Association Rules, Mint Queries
• Association Rules und Mint Queries an unterschiedlichen Mining Bases! (Log Entry mit exakt 2 Abrufen von Suchwörtern in s_index pro Minute legt robot1 nahe. Später gab es nach dem gleichen Schema Abrufe von s_index und cp_artikel: einem typisch menschlichen Navigationsverhalten also. Abgesehen vom time stamp hat man hier keine Möglichkeit, auf Robot zu schließen ein Musterbeispiel für einen „unethical robot1
AssociationRules
Website
1 cf. Tan, Kumar,
WebRobots
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
13
Robot Detection mit WUMprep
• WUMprep ist eine Sammlung von Perl-Scripts zum Logfile-Preprocessing.
• Scripts detectRobots.pl & removeRobots.pl mit den Heuristiken `Namen´ (ethische Robots) und `maxViewTime´ (nicht ethische)
• Output `nobots´ und `robot_hosts´ mit Angabe des Hosts und der Heuristik, die zur Identifizierung führte.
• 195.71.139.174 wurde nicht identifiziert.
robot_hosts.txtawk-script zum Anhängen von Visitor- & SessionID
(Extended Cookie Format von detectRobots.pl benötigt)
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
14
Association Rules
Mit Robot Entry. Interessant sind Rule 2 und 4 (leider offensichtlich von Robot generiert. Ein Blick in das Logfile bestätigt die Regeln: 195.71.139.174 (der Robot)- - [03/Jun/2002:16:18:18 -0600] "GET /s_index.htm?ansicht=1_wort_id=205_wort=Workflowmanagement_update=2
"GET /cp_artikel.htm?artikel_id=82
Nach Rauswurf von 195.71.139.174 (kein result eines dns lookup bei Hunter.com) gab es mit den Schwellwerten Support=0.05; Confidence =30% keine Regeln mehr
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
15
Mint QueriesErste Abfrage nach /cp_.htm?fall=1 (Werkzeuge) und artikel_id=122 (Open EIS). Verm.: Er kam nicht an das pdf
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
16
2. Abfrage START select tfrom node as a b c, template a * c as twhere a.url = "/cp_.htm?fall=1" and b.url != "/cp_.htm?fall=3"and c.url contains "artikel_id=“
• Die Ergebnisse bringen Aufrufe nach „Werkzeuge“; „Fallstudien“ und „Methoden“ durcheinander --> Besucher suchen nicht nach bestimmten Inhalten.
• Auffällig viele Abrufe gibt es für id=122, Open EIS, einem typischen Artikel der Kategorie „Werkzeuge“
–> Einige suchen gezielt.
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
17
3. Abfrageselect tfrom node as a b, template a [1;3] b as twhere a.url = "/cp_.htm?fall=1" and b.url contains "artikel_id=“
ID1-4 zeigen alle zielgerichteten Contentabruf: die erste wird man über “Rollen” wiederfinden, die zweite interessiert sich nicht für Werkzeuge und geht sofort auf Methoden, 3 und 4 sind bei Werkzeuge richtig und rufen nach Durchsicht der Vorschläge (=sortieren) 2 Folgen der Serie “SW-Unterstützung im WM” ab
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
18
4. Abfrage: Rolle WM-Koordinator
select tfrom node as a b, template a [1;3] b as twhere a.url = "/cp_.htm?fall=8" and b.url contains "artikel_id=“
Pattern ID=2 stützt meine These, dass User Product Placements von Inxight/Hummingbird zusammen mit Tool-relevantem Content abrufen. ID=6 klickt sich durch alle Kontexte->Blick ins Logfile; DNS-Lookup (von Fall=1 kommt man nicht auf id=84)
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
19
5. Abfrage: Alle Folgeaufrufe von `Werkzeuge´ (fall=1)
Von „Werkzeuge“ über Hummingbird/Inxight-Produktpräsentationen geht es über „Werkzeug“-Wdh. zu „Lebendiges WM“, i.e. Einsatz von Portalen im WM. Der zweite Pfad geht über „Methoden“ zu „KM-Bewertungsstrategien“, anschließend von „Werkzeuge“ gleichfalls zu Portalen im WMDie Kategorien (Werkzeuge / Methoden) korrelieren in beiden Fällen mit den Folgeaufrufen
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
20
6. Abfrage: Alle Folgeaufrufe von `Hummingbird´ (id=125)
select tfrom node as a b, template a * b as twhere a.url contains "artikel_id=125" and b.support >= 2
Von 6 Abrufen id=125 schaut a) die Stichworte des Artikels unter s_index nach und ruft 1. den ersten und 2. den dritten Treffer des jew. Suchworts ab - eine geradezu idealtypische Form der Suche mit Ausgangspunkt „Kontexte“.
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
21
Zwischenbetrachtung• Die Suche über Kontexte läßt in obigen Abfragen
mit hinreichender Anzahl auf zielgerichteten Content-Abruf schließen. Eine Erklärung für „Start bei Werkzeuge“ – „Ziel bei Artikeln anderer Kategorien“ ist die stets vorzufindende Suche nach weiterem Content über die Keywords eines Ausgangsartikels.
• Die These, dass Produktpräsentationen weniger als Werbung denn als Information wahrgenommen wird, muss weiter verfolgt werden (unter Einbeziehung der Tool-Seiten) Erweiterung der Konzept-Hierarchie.
• Abfragen, in denen die statistische Relevanz über Support-/Konfidenz-Regeln erhöht werden sollte, brachte keine Ergebnisse 2 Wochen Logfile-Ausschnitt sind zu kurz. Allerdings liegt der Mittelwert von Content-Abruf der Kategorie Werkzeuge auch nur bei 3,3/d
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining
22
To be continued
Danke für´s Zuhören