Fachprojekt 3 Spatial Data Mining unter Schutz der Privatsphäre Dr. Thomas Liebig - TU Dortmund @t_liebig www.thomas-liebig.eu [email protected]
TU Dortmund, LS8: Künstliche Intelligenz
• Anwendungsnahe Modellierung, Vorhersage, Klassifikation, Clusterung und Merkmalsextraktion von Daten und Prozessen ▫ unter Ressourcenbeschränkungen
▫ in Echtzeit
▫ mit heterogenen Datenquellen
▫ mit unstrukturierten Daten
▫ auf verschiedenen Architekturen (eingebettete Systeme, PC, Cluster, GPU)
Thomas Liebig @t_liebig TU Dortmund
2
Ausgewählte Projekte & Tools am LS8
Thomas Liebig @t_liebig TU Dortmund
• Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining (KobRA)
• Verfügbarkeit von Information durch Analyse unter Ressourcenbeschränkung (SFB 876)
• Intelligent Synthesis and Real-time Response using Massive Streaming of Heterogeneous Data INSIGHT
3
www.rapid-i.com http://www-ai.cs.uni-dortmund.de/SOFTWARE/streams/
Geo Referenzsysteme
• WGS84 ▫ wird benutzt von GPS
• Mercator System UTM
http://www.cs.hs-rm.de/~linn/fachsem0809/GeoCoord/Geodaetische_Koordinatensysteme.pdf
Thomas Liebig @t_liebig TU Dortmund
4
Spatial Data
• Raster/Vektor Repräsentation
• Attribute: ▫ Batch,
▫ Streams,
▫ Distributed
• Speicher: ▫ Spatial RDBMS (PostGIS, Oracle Spatial, …),
▫ Moving Object Databases [Güting 2005]
Thomas Liebig @t_liebig TU Dortmund
5
Spatial Data Protokolle/Schnittstellen
• Definiert von Open Geographic Consortium (OGC) • Kartendienste ▫ Web Map Service (WMS) ▫ Web Feature Service (WFS)
• Sensordaten ▫ Sensor Observation Service (SOS)
• Austausch ▫ KML, GML ▫ CSV, Geo JSON, Geo PDF … ▫ Bild- und Videodateiformate
Thomas Liebig @t_liebig TU Dortmund
6
Mobility, Data Mining and Privacy
Kurzfassung:
Mobility, Data Mining and Privacy: The GeoPKDD Paradigm
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.190.3
672&rep=rep1&type=pdf
Thomas Liebig @t_liebig TU Dortmund
7
Beispielhafte Aufgaben des Spatio-Temporal Data Minings
• Tesselierung
• Usage Pattern
• Profiling, Muster Erkennung (Pattern Recognition)
• Trajektorien Simplifikation
• Raum-Zeitliche Vorhersage
• Self Localization and Mapping
• Map Matching
• Routing
Thomas Liebig @t_liebig TU Dortmund
8
Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Tesselierung
zB mit
[Voronoi 1908] “Nouvelles applications des paramètres continus à la théorie des formes quadratiques. Deuxième mémoire. Recherches sur les parallélloèdres primitifs.,” Journal für die reine und angewandte Mathematik (Crelle's Journal), no. 134 (December 1908): 198–287, http ://dx.doi.org/10.1515/crll.1908.134.198.
Thomas Liebig @t_liebig TU Dortmund
9
Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Pattern Mining
zB mit
Trajectory Pattern Mining [Giannotti et al. 07] https://dl.acm.org/citation.cfm?id=1281230
Thomas Liebig @t_liebig TU Dortmund
10
Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Profiling, Muster Erkennung
(Pattern Matching)
zB mit
Efficient Mobility Pattern Stream Matching on Mobile Devices [Florescu et al. 12] http://ceur-ws.org/Vol-960/paper5.pdf
Thomas Liebig @t_liebig TU Dortmund
11
Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Trajektorien Simplifikation
zB mit
SimpliFly: A Methodology for Simplification and Thematic Enhancement of Trajectories [Vrotsou et al. 2014] http://www.computer.org/csdl/trans/tg/preprint/06851202.pdf
Thomas Liebig @t_liebig TU Dortmund
12
Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Raum-Zeitliche Vorhersage: Kriging
A Statistical Approach to Some Mine Valuation and Allied Problems on the Witwatersrand [Krige 51]
Spatio-temporal random fields: compressible representation and distributed estimation [Piatkowski et al. 13] http://link.springer.com/article/10.1007%2Fs10994-013-5399-7
Thomas Liebig @t_liebig TU Dortmund
13
Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Self Localization and Mapping zB mit Hector Open Source Modules
for Autonomous Mapping and Navigation with Rescue Robots [Kohlbrecher et al. 2014] http://link.springer.com/chapter/10.1007/978-3-662-44468-9_58
Thomas Liebig @t_liebig TU Dortmund
14
Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Map Matching
zB mit
Map-Matching for Low-Sampling-Rate GPS Trajectories [Lou et al. 09] http://research.microsoft.com/pubs/105051/Map-Matching%20for%20Low-Sampling-Rate%20GPS%20Trajectories-cameraReady.pdf
Thomas Liebig @t_liebig TU Dortmund
15
Beispielhafte Aufgaben des Spatio-Temporal Data Minings • Routing
zB mit Contraction Hierarchies, Transfer Patterns
Route Planning in Transportation Networks [Bast et al. 15]
http://arxiv.org/pdf/1504.05140v1.pdf
Thomas Liebig @t_liebig TU Dortmund
16
Methoden des Data Minings
• Unüberwachtes Lernen ▫ Clustering,
▫ Frequent Pattern
• Überwachtes Lernen ▫ Regression, Klassifikation
Thomas Liebig @t_liebig TU Dortmund
17
Clustering
• K-Means (Lloyd Algorithmus)
Thomas Liebig @t_liebig TU Dortmund
18
Clustering
• DBSCAN Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu: A density-based algorithm for discovering clusters in large spatial databases with noise. In: Evangelos Simoudis, Jiawei Han, Usama M. Fayyad (Hrsg.): Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press, 1996,
Thomas Liebig @t_liebig TU Dortmund
19
Frequent Pattern • Goethals, B. (2003). Survey on frequent pattern mining. Univ. of Helsinki.
http://adrem.ua.ac.be/~goethals/software/survey.pdf
Thomas Liebig @t_liebig TU Dortmund
20
Regression
• Tobler's first law of geography “Everything is related to everything else, but near things are more related than distant things.“ W. Tobler, “A Computer Movie Simulating Urban Growth in the Detroit Region,” Economic Geography 46, no. 2 (1970): 234–240.
• K-NN Altman, N. S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46(3), 175-185. http://www.stat.washington.edu/courses/stat527/s13/readings/Altman_AmStat_1992.pdf
Thomas Liebig @t_liebig TU Dortmund
21
Precision, Recall, F-Score
Thomas Liebig @t_liebig TU Dortmund
22
Beispielhafte Aufgaben des Spatio-Temporal Data Minings
• Tesselierung - Clustering
• Usage Pattern - Frequent pattern
• Profiling, Muster Erkennung (Pattern Recognition) - Klassifikation
• Trajektorien Simplifikation - Clustering
• Raum-Zeitliche Vorhersage - Regression/Klassifikation
• Self Localization and Mapping - Regression
• Map Matching - Klassifikation
• Routing - Optimierung
Thomas Liebig @t_liebig TU Dortmund
23
Privacy Preserving Data Mining
• Adversary Model: Corrupted Server Re-Identifizierung der Individuen
Lösungsansätze:
Dezentralisierung der Berechnung
Anonyme Kommunikation (bei Mobilitätsdaten nicht ausreichend)
Verrauschte Daten (Differential Privacy)
Verschlüsselte Daten (Homomorphe Verschlüsselung)
Thomas Liebig @t_liebig TU Dortmund
24
Beispiel: Zentrales Zählen
Thomas Liebig @t_liebig TU Dortmund
25
Mittels Homomorpher Verschlüsselung • T. Liebig, Privacy Preserving Centralized Counting of Moving
Objects, in AGILE 2015, F. Bacao, M. Y. Santos, and M. Painho, Eds., Springer International Publishing, 2015, pp. 91-103.
Thomas Liebig @t_liebig TU Dortmund
26
Modulo (mod)
a=b*c+r
a mod c = r
Thomas Liebig @t_liebig TU Dortmund
27
Rechnen auf Ringen
(Zn,+,*) a+b mod n
a*b mod n
Es existiert Inverses b zu a in Ring m mit a*b = 1 mod m, wenn a und m co-prime ( ggT(a,m)=1 )
a ist Generator des Rings modulo m, wenn
a^x mod m alle Zahlen des Rings generiert Bsp: 3^x mod 17
Thomas Liebig @t_liebig TU Dortmund
28
Rechnen auf Ringen
Komplizierte Operationen:
• Logarithmus
x^a=b mod m, für welches x?
• Wurzel
a^x=b mod m, für welches x?
Thomas Liebig @t_liebig TU Dortmund
29
Rechnen auf Ringen
Aber, Euler‘s Theorem:
a^phi(m) =1 mod m, wenn a und m co-prime
Und phi(p*q)=phi(p)*phi(q) phi(prime)=prime-1
Thomas Liebig @t_liebig TU Dortmund
30
RSA
KeyGen: 1. suche zwei Primzahlen p und q 2. n=p*q 3. Phi(n)=(p-1)(q-1) // Eulersche Phi Funktion 4. Suche a co-prime to n ggT(a,n)=1 es existiert
b=a-1 in Ring modulo n Öffentlich: (a,n); Privat: b
Enc(x): c=x^a mod n Dec(c): x=c^b mod n
Thomas Liebig @t_liebig TU Dortmund
31
https://www.youtube.com/watch?v=wXB-V_Keiu8
Erweiterter Euklidischer Algorithmus
ggT(48,5)
48=9*5+3
5=1*3+2
3=1*2+1
2=2*1+0
ggT(48,5)=1
gcd
1=3-1*2
1=3-1*(5-1*3) = 2*3 – 1*5
1=2*(48-9*5)-1*5 = 2*48-19*5
-19*5 mod 48 =1
29*5 mod 48 =1
29 = 5-1 (48)
Thomas Liebig @t_liebig TU Dortmund
32
Homomorphic Verschlüsselung
• Pailliers Cryptosystem
P. Paillier, (1999, January). Public-key cryptosystems based on composite degree residuosity classes. In Advances in
cryptology—EUROCRYPT’99 (pp. 223-238). Springer Berlin Heidelberg. http://link.springer.com/chapter/10.1007%2F3-540-48910-X_16
Generiert Schlüsselpaar so, dass:
Dec(Enc(x1)*Enc(x2))=x1+x2
Thomas Liebig @t_liebig TU Dortmund
33
Implementation
• Nützliche R Pakete require("combinat") # binomial coefficient
require("pracma") # provides gcd()
require("numbers") # provides isPrime()
Sourcecode auf Fachprojekt Website
• Java Libraries https://code.google.com/p/thep/
• Python … viele Implementierungen bei Google Suche
Thomas Liebig @t_liebig TU Dortmund
34
Zusammenfassung
• Grundlagen Spatio-Temporal Data Mining ▫ Referenzsysteme, Datenrepräsentationen
▫ Praktische Aufgaben der Raum-Zeitlichen Analyse
▫ Lernverfahren Überwachte
Unüberwachte
▫ Schutz der Privatsphäre Adversary Model
Methoden insb. Homomorphe Cryptographie
Thomas Liebig @t_liebig TU Dortmund
35
Nächste Schritte
• (Paper von Paillier lesen)
• Für Methode des eigenen Papers nicht-kryptographischen Algorithmus lesen
• Für Programmiersprache entscheiden (Java, R, Python oder C++)
• Algorithmus aus Paper Implementieren
• Daten vorverarbeiten und Algorithmus anwenden
Thomas Liebig @t_liebig TU Dortmund
36
Report/Präsentation 15‘
Motivation:
• Anwendungsfrage
Lernaufgabe
• Adversary Model
Erklärung der Lern Methode
• Ohne Verschlüsselung
• Mit Verschlüsselung
Datensatz
• Vorstellung ausgewählter Datensatz
Analyse
• Vergleich der Ergebnisse (Laufzeit, Accuracy, …)
Diskussion der Analyse
• Nachteile/Vorteile
• … Ideen, Probleme, Lösungen
Thomas Liebig @t_liebig TU Dortmund
37
Aufschrieb/Skript • T. Liebig, Analysis Methods and Privacy Aspects in Spatio-Temporal Data Mining, in
AI: Philosophy, Geoinformatics and Law, M. Jankowska, M. Pawelczyk, S. Allouche, and M. Kulawiak, Eds., Warsaw: IUS PUBLICUM, 2015, p. (to appear). Direktlink
• T. Liebig, Privacy Preserving Centralized Counting of Moving Objects, in AGILE 2015, F. Bacao, M. Y. Santos, and M. Painho, Eds., Springer International Publishing, 2015, pp. 91-103. Direktlink Cran R Implementation
• I. Damgård, M Jurik, amd J. B. Nielsen, 2010. A generalization of Paillier’s public-key system with applications to electronic voting. International Journal of Information Security, 9(6), 371-385. Direktlink
• P. Paillier, (1999, January). Public-key cryptosystems based on composite degree residuosity classes. In Advances in cryptology—EUROCRYPT’99 (pp. 223-238). Springer Berlin Heidelberg. Direktlink
Thomas Liebig @t_liebig TU Dortmund
38
Ausgewählte Paper 1. C. B. Yildizli, T. Pedersen, Y. Saygin, E. Savas, and A. Levi. 2011. Distributed Privacy Preserving Clustering via
Homomorphic Secret Sharing and Its Application to Vertically Partitioned Spatio-Temporal Data. Int. J. Data Warehous. Min. 7, 1 (January 2011), 46-66. Julian Meise
2. S. V. Kaya, T. Pedersen, E. Savas, and Y. Saygin, 2007. Efficient privacy preserving distributed clustering based on secret sharing. In Emerging Technologies in Knowledge Discovery and Data Mining (pp. 280-291). Springer Berlin Heidelberg. Matthias Smoor
3. M. C. Doganay, T. Pedersen, Y. Saygin, E. Savas, and A. Levi. 2008, March. Distributed privacy preserving k-means clustering with additive secret sharing. In Proceedings of the 2008 international workshop on Privacy and anonymity in information society (pp. 3-11). ACM. Lucas Weiße
4. J. Liu, J. Li, S. Xu, and B. C. Fung, 2015. Secure Outsourced Frequent Pattern Mining by Fully Homomorphic Encryption. In Big Data Analytics and Knowledge Discovery (pp. 70-81). Springer International Publishing. Raphael Krusenbaum
5. Z. Zhou, L. Huang, Y. Wei, and Y. Yun. 2009, May. Privacy preserving outlier detection over vertically partitioned data. In E-Business and Information System Security, 2009. EBISS'09. International Conference on (pp. 1-5). IEEE. Kathrin Henkenherm
6. D. Wu, and J. Haven, 2012. Using Homomorphic Encryption for Large Scale Statistical Analysis. Timo Diederich
7. R. Bost, R. A. Popa, S. Tu, and S. Goldwasser, 2014. Machine learning classification over encrypted data. Crypto ePrint Archive. Sebastian Schröder
Thomas Liebig @t_liebig TU Dortmund
39
Fachprojekt 3 Spatial Data Mining unter Schutz der Privatsphäre Dr. Thomas Liebig - TU Dortmund @t_liebig www.thomas-liebig.eu [email protected]
Top Related