Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining...

22
Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining Logfile-Analyse mit dem Web Utilization Miner WUM Wissensextraktion aus „large databases“ an Hand des Logfiles eines themenbezogenen Webportals: community-of-knowledge

Transcript of Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining...

Page 1: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

Logfile-Analyse mit dem Web Utilization Miner

WUM

Wissensextraktion aus „large databases“ an Hand des

Logfiles eines themenbezogenen

Webportals: community-of-knowledge

Page 2: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

2

c-o-k: Ziele und Aufbau

• unabhängige Internet-Plattform zur „Bündelung und Präsentation von praxisorientiertem und qualifiziertem Wissen zum Thema Knowledge Management in Unternehmen.“

• Webbasierte Knowledge Base zur Thematik `Einsatz und Leistungsfähigkeit aktueller Methoden, Techniken und Tools im Bereich Knowledge Management´.

Page 3: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

3

C-o-k Aufbau

Page 4: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

4

Mein Hauptinteresse: Content-Abruf Concept Hierarchy für

`Artikel´Index.htm

Kontexte

Werkzeuge Fallstudien Methoden

Rollen

Organisations-entwickler

Qualitäts-manager

IT-Leiter

Personalent-wickler

WM-Koordinator

/artikel_id=137(meiner über

KDD/Data Mining)

Page 5: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

5

Content Pool

Jedem Artikel werden bei der Eingabe ein Kontext und max. 4 Rollen zugeordnetKontexte und Rollen enthalten oft die gleichen ArtikelWelche Rollen würdet ihr einem Artikel über KDD zuordnen?

Page 6: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

6

Content-Suche über Navigationshilfen

Die einzige weitere Möglichkeit des Content-Abrufs geht über die Navigationshilfen: Keywords (s_index), interne Suchmaschine (s_suche), Autoren (s_autoren) und Sitemap, die zwar nur auf die anderen Möglichkeiten verweist, deren häufiger Abruf aber einen näheren Blick nahelegt.

Page 7: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

7

Content-Abruf über Navigation (an Hand von Analog-Reports

April 01-Mai 02)

wer

kzeu

g

falls

tudi

en

met

hode

n

Org

.-en

twic

kler

Qua

lität

sman

ager

IT-L

eite

r

HR

Koo

rd.-

WM

Aut

oren

Site

map

s_su

che

blau=Kontexterot=Navigation0

500100015002000250030003500 blau=Kontexte

grün=Rollen

rot=Navigation

Page 8: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

8

Mrz

01

Ap

r 0

1

Ma

i 01

Jun

01

Jul 0

1

Au

g 0

1

Se

p 0

1

Okt

01

No

v 0

1

De

z 0

1

Jan

02

Fe

b 0

2

Mrz

02

Ap

r 0

2

Ma

i 02

cp_kon_roll

0

5000

10000

15000

20000

cp_kon_roll

s_index.htm

cp_artikel

Content-Abruf über Kontext/Rollen/Keywords

Page 9: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

9

Fragen:• Ergeben sich signifikante Unterschiede

im Navigationsverhalten bei der Suche über Kontexte bzw. Rollen?

• Ergeben sich signifikante Unterschiede im Content-Abruf über Navigationshilfen gegenüber Kontext/Rollen?

• Lesen HR-Leute andere Artikel als IT-Leiter?

• Oder führt die fast identische Content-Präsentation für die 4 Rollen zu ebenso identischen Artikel-Abrufen?

Page 10: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

10

Knowledge Discovery Queries mit Mint

• Der Umgang mit WUM erfordert Expertenwissen -> kein Expertensystem

• Man muss Vorannahmen treffen, die man mit Hilfe von Mint veri-/falsifizieren kann

• Definition Spiliopoulou: „a belief is a rule of the form A B, which is expected to be true“

Page 11: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

11

Preprocessing via „find“• Gefiltert wurde aus Performancegründen

manuell: gif/jpg, alle parametrisierten Scriptaufrufe (außer cgi [?]), Kontakt, Messen, die meisten Serviceseiten, bekannte Robots

• Logfile 03.06.02-17.06.02 von 15MB auf 2,4 MB• Das in WUM implementierte Weka

(Assoziationsregeln) verkraftet keine %, bzw. &-Zeichen. Man ersetze sie via

sed –f sedscr filename >xyz

Download UnixUtils für Win32 http://unxutils.sourceforge.net/

filter1.bat

filter17.bat

• Sicherheitswarnung: Fremder Leute batch-

files vor dem Ausführen in einem Texteditor

anschauen‼!

• Sicherheitswarnung: Fremder Leute batch-

files vor dem Ausführen in einem Texteditor

anschauen‼!

sedscr

Page 12: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

12

Website Pages, Association Rules, Mint Queries

• Association Rules und Mint Queries an unterschiedlichen Mining Bases! (Log Entry mit exakt 2 Abrufen von Suchwörtern in s_index pro Minute legt robot1 nahe. Später gab es nach dem gleichen Schema Abrufe von s_index und cp_artikel: einem typisch menschlichen Navigationsverhalten also. Abgesehen vom time stamp hat man hier keine Möglichkeit, auf Robot zu schließen ein Musterbeispiel für einen „unethical robot1

AssociationRules

Website

1 cf. Tan, Kumar,

WebRobots

Page 13: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

13

Robot Detection mit WUMprep

• WUMprep ist eine Sammlung von Perl-Scripts zum Logfile-Preprocessing.

• Scripts detectRobots.pl & removeRobots.pl mit den Heuristiken `Namen´ (ethische Robots) und `maxViewTime´ (nicht ethische)

• Output `nobots´ und `robot_hosts´ mit Angabe des Hosts und der Heuristik, die zur Identifizierung führte.

• 195.71.139.174 wurde nicht identifiziert.

robot_hosts.txtawk-script zum Anhängen von Visitor- & SessionID

(Extended Cookie Format von detectRobots.pl benötigt)

Page 14: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

14

Association Rules

Mit Robot Entry. Interessant sind Rule 2 und 4 (leider offensichtlich von Robot generiert. Ein Blick in das Logfile bestätigt die Regeln: 195.71.139.174 (der Robot)- - [03/Jun/2002:16:18:18 -0600] "GET /s_index.htm?ansicht=1_wort_id=205_wort=Workflowmanagement_update=2

"GET /cp_artikel.htm?artikel_id=82

Nach Rauswurf von 195.71.139.174 (kein result eines dns lookup bei Hunter.com) gab es mit den Schwellwerten Support=0.05; Confidence =30% keine Regeln mehr

Page 15: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

15

Mint QueriesErste Abfrage nach /cp_.htm?fall=1 (Werkzeuge) und artikel_id=122 (Open EIS). Verm.: Er kam nicht an das pdf

Page 16: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

16

2. Abfrage START select tfrom node as a b c, template a * c as twhere a.url = "/cp_.htm?fall=1" and b.url != "/cp_.htm?fall=3"and c.url contains "artikel_id=“

• Die Ergebnisse bringen Aufrufe nach „Werkzeuge“; „Fallstudien“ und „Methoden“ durcheinander --> Besucher suchen nicht nach bestimmten Inhalten.

• Auffällig viele Abrufe gibt es für id=122, Open EIS, einem typischen Artikel der Kategorie „Werkzeuge“

–> Einige suchen gezielt.

Page 17: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

17

3. Abfrageselect tfrom node as a b, template a [1;3] b as twhere a.url = "/cp_.htm?fall=1" and b.url contains "artikel_id=“

ID1-4 zeigen alle zielgerichteten Contentabruf: die erste wird man über “Rollen” wiederfinden, die zweite interessiert sich nicht für Werkzeuge und geht sofort auf Methoden, 3 und 4 sind bei Werkzeuge richtig und rufen nach Durchsicht der Vorschläge (=sortieren) 2 Folgen der Serie “SW-Unterstützung im WM” ab

Page 18: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

18

4. Abfrage: Rolle WM-Koordinator

select tfrom node as a b, template a [1;3] b as twhere a.url = "/cp_.htm?fall=8" and b.url contains "artikel_id=“

Pattern ID=2 stützt meine These, dass User Product Placements von Inxight/Hummingbird zusammen mit Tool-relevantem Content abrufen. ID=6 klickt sich durch alle Kontexte->Blick ins Logfile; DNS-Lookup (von Fall=1 kommt man nicht auf id=84)

Page 19: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

19

5. Abfrage: Alle Folgeaufrufe von `Werkzeuge´ (fall=1)

Von „Werkzeuge“ über Hummingbird/Inxight-Produktpräsentationen geht es über „Werkzeug“-Wdh. zu „Lebendiges WM“, i.e. Einsatz von Portalen im WM. Der zweite Pfad geht über „Methoden“ zu „KM-Bewertungsstrategien“, anschließend von „Werkzeuge“ gleichfalls zu Portalen im WMDie Kategorien (Werkzeuge / Methoden) korrelieren in beiden Fällen mit den Folgeaufrufen

Page 20: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

20

6. Abfrage: Alle Folgeaufrufe von `Hummingbird´ (id=125)

select tfrom node as a b, template a * b as twhere a.url contains "artikel_id=125" and b.support >= 2

Von 6 Abrufen id=125 schaut a) die Stichworte des Artikels unter s_index nach und ruft 1. den ersten und 2. den dritten Treffer des jew. Suchworts ab - eine geradezu idealtypische Form der Suche mit Ausgangspunkt „Kontexte“.

Page 21: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

21

Zwischenbetrachtung• Die Suche über Kontexte läßt in obigen Abfragen

mit hinreichender Anzahl auf zielgerichteten Content-Abruf schließen. Eine Erklärung für „Start bei Werkzeuge“ – „Ziel bei Artikeln anderer Kategorien“ ist die stets vorzufindende Suche nach weiterem Content über die Keywords eines Ausgangsartikels.

• Die These, dass Produktpräsentationen weniger als Werbung denn als Information wahrgenommen wird, muss weiter verfolgt werden (unter Einbeziehung der Tool-Seiten) Erweiterung der Konzept-Hierarchie.

• Abfragen, in denen die statistische Relevanz über Support-/Konfidenz-Regeln erhöht werden sollte, brachte keine Ergebnisse 2 Wochen Logfile-Ausschnitt sind zu kurz. Allerdings liegt der Mittelwert von Content-Abruf der Kategorie Werkzeuge auch nur bei 3,3/d

Page 22: Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Gebhard Dettmar Logfile Analyse mit WUM am c-o-k.log HS Web Mining

22

To be continued

Danke für´s Zuhören