Download - #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

Transcript
Page 1: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

Patrick Bunk Gründer twitter.com/uberMetrics Tel: 030-609857500 facebook.com/uberMetrics [email protected]

#Fail - Was beim Monitoring verlässlich schief geht &

wo noch Hoffnung besteht

Page 2: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

uberUns

§  Spin-Off der Humboldt-Universität zu Berlin §  15 Mitarbeiter (11 Entwickler 4 Rest) §  Kernkompetenzen:

§  Entwicklung hochskalierbarer Text-Mining-Plattform §  Entwicklung von Algorithmen zur automatischen

Strukturierung von Nachrichten

uberMetrics Technologies GmbH, Rosenthaler Str. 34/35, 10178 Berlin, [email protected], +49 30 609857500, Twitter: @ubermetrics

Page 3: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft
Page 4: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Sources/" Warum findet ihr das nicht?

§  Social Networks (Facebook, G+, Ning, XING, LinkedIn) §  Blogs (Blogger, LiveJournal, Wordpress, etc) §  Microblogs (Twitter, Tumblr) §  Foren (4chan, gulli.com, reddit, xda-developers) §  Verbraucherportale (dooyoo, ciao, qype, gutefrage) §  Video (youtube, vimeo, sevenload, clipfish) §  Foto (flickr, 500px, photobucket, SmugMug) §  News (SpiegelOnline, Bild.de, Heise) §  Obskure selbstgeschrieben HTML-Monster und das

Nachrichten-Konzept (DavidGegenGoliath)

Page 5: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

Abdeckung fixen?

§  neue Quellen entdecken http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki

§  bekannte & relevante Quellen hinzufügen §  keywordunabhängig Quellen monitoren?

§  Facebook Fanpages, Twitter Accounts, wichtige Blogs §  RSS-Feeds §  API-Integration (z.B. Tumblr, Google+, Pinterest) §  Crawler schreiben

§  Achtung: TOS, Logins und robots.txt http://www.nytimes.com/robots.txt

http://tagesschau.de/robots.txt

Page 6: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft
Page 7: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

Volumen

§ Associated Press 1/Minute §  Forenposts 5.560/Minute § Blogeinträge 45.800/Minute §  Tweets 277.777/Minute §  Facebook Posts 694.400/Minute

Page 8: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Filter - Volumen"sinnvolle Filter definieren!

§ Keywords und Top Keywords

Page 9: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Textextraction/Scope"Warum ist das ein Treffer?"

Page 10: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

Textextraction

Page 11: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Textextraction/SEOSpam"

Page 12: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Textextraction/News"Spaß mit Google News

Page 13: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

"Keywords, Textextraktion, TopKeywords"

Page 14: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Filter - Volumen"sinnvolle Filter definieren!

§ Keywords und Top Keywords § Sprachen, Länder, Geolocation

Page 15: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Filter/Sprachen

Länder & Geolocation

Page 16: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Filter - Volumen"sinnvolle Filter definieren!

§ Keywords und Top Keywords § Sprachen, Länder, Geolocation § Medienkanäle

Page 17: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Filter/Segmentation"

Page 18: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Filter - Volumen"sinnvolle Filter definieren!

§ Keywords und Top Keywords § Sprachen, Länder, Geolocation § Medienkanäle § #Fail/Filter/Sentiment § Relevanz-Filter

Page 19: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Filter/Winning/10k+"

§ Was mache ich mit 10.000 Treffern im Monat? §  Variante 1 – 500 Posts/Tag klassifizieren

§  Variante 1a – jemanden dafür bezahlen §  Variante 2 – nur “relevante” Posts lesen

§  Variante 2a – nur relevante Texte lesen (Relevance Score)

§  Variante 2b – nur relevante Domains (PI, definiertes Set)

§  Variante 2c – Author als Filter (Blog, Follower, etc)

§  Variante 2d – Backlinks (Fail/SEO,ContentOnly-Backlinks)

Page 20: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Filter/Winning/10k+"

Page 21: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Filter - Volumen"sinnvolle Filter definieren!

§ Keywords und Top Keywords § Sprachen , Länder, Geolocation § Medienkanäle § #Fail/Filter/Sentiment § Relevanz § Domains (Besucher/Monat, PI) § Autoren § Netzwerk-Struktur §  (Teil)-Duplikate

Page 22: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

#Fail/Filter/Syndication""

Was sind eigentlich Duplikate"& wie sollen wir damit umgehen?"

"Ein Beispiel"

Page 23: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft
Page 24: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

Qualitäten der Filter"Duplikate"

Page 25: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft
Page 26: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft
Page 27: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft
Page 28: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft
Page 29: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft
Page 30: #Moca 12 - #fail - was beim monitoring regelmäßig schief läuft

Slideshare.net/ubermetrics