Ιδιωτικότητα και διαχείριση δεδομένων
description
Transcript of Ιδιωτικότητα και διαχείριση δεδομένων
![Page 1: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/1.jpg)
. Π Βασιλειάδης2010-09-09
( . βασισμένο στις διαφάνειες της Α)Πιλαλίδου
Ιδιωτικότητα και διαχείριση δεδομένων
![Page 2: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/2.jpg)
Γιατί είναι σημαντική η ιδιωτικότητα των δεδομένων? ( , Διάφοροι οργανισμοί νοσοκομεία δημόσιοι
,…) οργανισμοί δημοσιεύουν δεδομένα με σκοπό να εξυπηρετήσουν αναλυτές που μπορεί να εξάγουν
( . ., « χρήσιμα συμπεράσματα π χ σε ποιες περιοχές ?»έχουμε αυξημένο ποσοστό καρκίνου του δέρματος
Επειδή τα δεδομένα περιέχουν προσωπικές, πληροφορίες συνήθως οι πληροφορίες αυτές
.αποκρύβονται , « » Είναι εφικτό όμως κάποιος επιτιθέμενος να
μπορέσει να συνδυάσει δημοσιευμένα δεδομένα , από διάφορες πηγές καθώς και δική του
πληροφόρηση για να σπάσει την ανωνυμοποίηση των δεδομένων
2
![Page 3: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/3.jpg)
Ο κυβερνήτης της Μασαχουσέτης Ηπιο διάσημη περίπτωση είναι ο
συνδυασμός δημοσίων εκλογικών καταλόγων και δημοσιευθέντων
ιατρικών δεδομένων για να ανευρεθεί ο ιατρικός φάκελος του
. κυβ τηςΜασαχουσέτης Προσέξτε πώς υπάρχει μόνο μία
. 1/21/76, εγγραφή με ημ γέννησηςzipcode 53715 και φύλοMale.
Επειδή τα στοιχεία αυτά του κυβερνήτη ήταν γνωστά από τους
εκλογικούς καταλόγους + Ήταν γνωστό ότι μπήκε στονοσοκομείο
=> Μπορεί κανείς να συνάγει την
πάθησή του
3
![Page 4: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/4.jpg)
Δημοσιοποίηση δεδομένων με απόκρυψη ευαίσθητων πληροφοριών
Detailedmicrodata
T
Anonymizedpublic data
T*
Bob (the victim) to be hidden
Ben, the benevolent data miner
Alice, the external attacker
4
![Page 5: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/5.jpg)
Βασικοί Ορισμοί Quasi-Identifier: Πεδία τα οποία αν συνδυαστούν με
κάποιες εξωτερικές πληροφορίες μπορούν να (προσδιορίσουν μοναδικά μια εγγραφή ενός πίνακα zip
code, birth date, sex,…). Συχνά συνοδεύουμε τους quasi-identifiers με ιεραρχίεςγενίκευσης
Sensitive Attributes: Είναι πεδία των οποίων την (πληροφορία θέλουμε να αποκρύψουμε disease, salary,
…) Identifiers: ’ Είναι πεδία που αποκαλύπτουν απ ευθείας
(την ταυτότητα ενός ατόμου name, SNN,..).
5
![Page 6: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/6.jpg)
6
![Page 7: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/7.jpg)
Γενίκευση και ανωνυμία Για να διατηρηθεί η ιδιωτικότητα των
:δεδομένων πρέπει Να αφαιρεθούν από τα δεδομένα τα πεδία
’ εκείνα που απ ευθείας δηλώνουν σε ποιο πρόσωπο ανήκει μια εγγραφή
Οι εγγραφές και οι τιμές των πεδίων του να / / μετασχηματιστούν οργανωθούν σε ομάδες
… :με τέτοιο τρόπο ώστε Οι στατιστικές ιδιότητες του συνόλου των
δεδομένων να διατηρηθούν Ο κακόβουλος επιτιθέμενος να μη μπορεί να
« » μαντέψει σε ποιον ανήκει μια εγγραφή με στατιστικά σημαντική πιθανότητα
7
![Page 8: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/8.jpg)
k-anonymity
Ένας πίνακας Τ είναι k-anonymous όταν κάθε
εγγραφή του πίνακα είναι ίδια ως προς ταQuasi-Identifier
πεδία του με k-1 άλλες. εγγραφές
8
![Page 9: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/9.jpg)
l-diversity
Ένας πίνακας T ικανοποιεί την ιδιότητα του l-diversity όταν
κάθε group του πίνακα έχει τουλάχιστον l διαφορετικές τιμές
στα sensitive πεδία.
9
![Page 10: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/10.jpg)
Παράμετροι του προβλήματος 3 Υπάρχουν παράμετροι του προβλήματος
Suppression: πόσες εγγραφές αφαιρούνται από τα δεδομένα στη διαδικασία της ανωνυμοποίησης
Generalization: πόση πληροφορία χάνεται γενικεύοντας τα δεδομένα σε κάποιο επίπεδο
γενίκευσηςAnonymity: ποιο είναι το ελάχιστο ανεκτό
μέγεθος k για κάθε group ( : παρόμοια ποιο είναι το ελάχιστο ανεκτό μέγεθος l για τη διαφοροποίηση
των ευαίσθητων τιμών σε ένα group) οι οποίες είναι ανταγωνιστικές στο πόσο
χρήσιμη πληροφορία έχω
10
![Page 11: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/11.jpg)
Κατηγορίες γενίκευσης Global recoding
Όλες οι εμφανίσεις ενός πεδίου γενικεύονται στο ίδιοlevel στην ιεραρχία του [Swee02a] [Sama01] [LeDR05].
Multidimensional / Οι τιμές ενός χαρ κου σε διαφορετικά groups μπορούν
. να γενικεύονται σε διαφορετικά επίπεδα Αλλά η εμφάνιση ενόςQI-value γενικεύεται στην ίδια τιμή
[LeDR06]. Local recoding
/ Οι εμφανίσεις ενός χαρ κου σε διαφορετικά groups . μπορούν να γενικεύονται σε διαφορετικές τιμές Οι
εμφανίσεις ενόςQI-value μπορεί να γενικευτούν σε διαφορετική τιμή [Xu+06].
11
![Page 12: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/12.jpg)
Αναφορές (1) [Sama01] P. Samarati. Protecting respondents’ identities in microdata
release. IEEE Trans. Knowl. Data Eng. (TKDE), 13(6):1010–1027, 2001. [Swee02a] Latanya Sweeney. k-Anonymity: A Model for Protecting
Privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): 557-570 (2002)
[Swee02b] Latanya Sweeney. Achieving k-Anonymity Privacy Protection Using Generalization and Suppression. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): 571-588 (2002)
[LeDR05] K. LeFevre, D. J. DeWitt, and R. Ramakrishnan. Incognito: Efficient full-domain k-anonymity. In SIGMOD, pages 49–60, 2005.
[LeDR06] Kristen LeFevre, David J. DeWitt, Raghu Ramakrishnan. Mondrian Multidimensional K-Anonymity. ICDE 2006: 25
[MaGK06] A. Machanavajjhala, J. Gehrke, and D. Kifer. l-diversity: Privacy beyond k-anonymity. ICDE, 2006.
12
![Page 13: Ιδιωτικότητα και διαχείριση δεδομένων](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813a67550346895da25f04/html5/thumbnails/13.jpg)
Αναφορές (2) [Xu+06] Jian Xu, Wei Wang, Jian Pei, Xiaoyuan Wang, Baile
Shi, Ada Wai-Chee Fu. Utility-based anonymization using local recoding. KDD 2006: 785-790
[Agg05] Charu C.Aggarwal. On k-anonymity an the curse of Dimensionality. VLDB 2005.
[PaSh07] Hyoungmin Park, Kyuseok Shim. Approximate Algorithms for k-anonymity. SIGMOD 2007.
[UCI] U.C. Irvine Repository of Machine Learning Databases. 1998. http://www.ics.uci.edu/~mlearn
[IPUMS] Data set obtained from the web site of Y. Tao for the [XiTa07] paper http://www.cse.cuhk.edu.hk/~taoyf/paper/sigmod07.html
13