Datenschutz und Privatheit in vernetzten …buchmann/11SS-Datenschutz/03-Anonymitaet… · IPD,...

Post on 06-Feb-2018

214 views 0 download

Transcript of Datenschutz und Privatheit in vernetzten …buchmann/11SS-Datenschutz/03-Anonymitaet… · IPD,...

KIT – Universität des Landes Baden-Württemberg undnationales Forschungszentrum in der Helmholtz-Gemeinschaft

IPD, Systeme der Informationsverwaltung, Nachwuchsgruppe „Privacy Awareness in Information Systems“

www.kit.edu

Datenschutz und Privatheit in vernetzten Informationssystemen

Kapitel 3: Anonymität und Anonymitätsmaße

Erik Buchmann (buchmann@kit.edu)

IPD, Nachwuchsgruppe „Privacy Awareness“2 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Inhalte und Lernziele dieses Kapitels

Quasi-Identifier

Anonymitätsmaßek-Anonymity

l-Diversity

t-Closeness

Differential Privacy

Abschluss

LernzieleSie können das Konzept des Quasi-Identifiers erklären und von Identifikatoren abgrenzen.

Ihnen sind die verschiedenen Anonymitätsmaße mit ihren Stärken und Schwächen vertraut.

KIT – Universität des Landes Baden-Württemberg undnationales Forschungszentrum in der Helmholtz-Gemeinschaft

IPD, Systeme der Informationsverwaltung, Nachwuchsgruppe „Privacy Awareness in Information Systems“

www.kit.edu

Quasi-Identifikatoren und Verknüpfung mit korrelierendem Wissen

IPD, Nachwuchsgruppe „Privacy Awareness“4 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Motivation

Daten mit Personenbezug müssen oft Dritten zugänglich gemacht werden

Dienstverbesserung, z.B., Optimierung häufig genutzter Funktionen

Statistik, z.B. im Gesundheitswesen

Erfüllung von Gesetzesanforderungen

Forschung

Beispiel:Erforschung von Nebenwirkungen von Medikamenten benötigt Diagnosen, Gesundheitszustand und Therapie-Informationen aller Patienten

Wie Daten weitergeben, ohne...die Privatheit der Betroffenen zu gefährden oder

den Nutzwert der Daten einzuschränken?

IPD, Nachwuchsgruppe „Privacy Awareness“5 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Anonymisierung

BDSG §3(6)Anonymisieren ist das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.

Wann ist ein Datensatz anonym?

Name Geb. Geschl. PLZ Krankheit

Hans T. 19.04.75 M 76227 Impotenz

Peter T. 05.07.75 M 76228 Hodenkrebs

Klaus T. 17.01.75 M 76227 Sterilität

Jörg T. 23.04.81 M 76139 Schizophrenie

Uwe T. 30.12.81 M 76133 Diabetes

Melanie T. 05.07.83 W 76133 Magersucht

Inge T. 16.10.83 W 76131 Magersucht

Name Geb. Geschl. PLZ Krankheit

1 19.04.75 M 76227 Impotenz

2 05.07.75 M 76228 Hodenkrebs

3 17.01.75 M 76227 Sterilität

4 23.04.81 M 76139 Schizophrenie

5 30.12.81 M 76133 Diabetes

6 05.07.83 W 76133 Magersucht

7 16.10.83 W 76131 Magersucht

An

on

ym?

Sensibles AttributSchlüssel

IPD, Nachwuchsgruppe „Privacy Awareness“7 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Quasi-Identifier

Zwischen 63% und 87% der amerikanischen Bevölkerung eindeutig anhand der Attribute {Geburtsdatum, PLZ, Geschlecht} identifizierbar

Re-Identifikation durch Verknüpfung (linking) vonkorrelierendem Wissen

William Weld (ehem. Gov) lebt in Cambridge und ist Wähler,6 Personen haben seinen Geburtstag, 3 sind männlich, 1 in seiner PLZ

Korrelierendes Wissen

Pseudonymisierte Datenquelle

Quasi-Identifier

IPD, Nachwuchsgruppe „Privacy Awareness“8 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Gegeben seieinen Population aus Individuen U

eine personenspezifische Tabelle T(A1...An)

mit Attributen A1 bis An

außerdem fc: U → T und fg : T → U' mit U ⊆ U'

QT (ein Quasi-Identifier von T) besteht aus einem Set von Attributen (Ai...Aj) ⊆ (A1...An) für das gilt: pi U: fg ( fc ( pi )[QT] ) = pi

Definition Quasi-Identifier

KIT – Universität des Landes Baden-Württemberg undnationales Forschungszentrum in der Helmholtz-Gemeinschaft

IPD, Systeme der Informationsverwaltung, Nachwuchsgruppe „Privacy Awareness in Information Systems“

www.kit.edu

k-Anonymität

IPD, Nachwuchsgruppe „Privacy Awareness“10 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Daten werde in einer Form preisgegeben, dass keine Rückschlüsse auf ein einzelnes Individuum gezogen werden können.

k Datensätze formen eine Äquivalenzklasse.

k-Anonymität schützt mit einer Konfidenz von 1/k vor einer ‚korrekten‘ Verknüpfung von korrelierendem Wissen.

Idee k-Anonymität

IPD, Nachwuchsgruppe „Privacy Awareness“11 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Gegeben seieine personenspezifische Tabelle eine personenspezifische Tabelle T(A1...An) mit Attributen A1 bis An

der dazugehörige Quasi-Identifier QT

Tabelle T ist k-anonym genau dann, wenn jede Sequenz von Werten aus T[QT] mindestens k mal in T[QT] vorkommt.

Jedes Tupel ist von k-1 anderen Tupeln (bis auf die sensiblen Attribute) nicht unterscheidbar.

Definition k-Anonymität

IPD, Nachwuchsgruppe „Privacy Awareness“12 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Wie k-Anonymität erreichen?

Rauschen hinzufügen

Dummy-Datensätze einfügen

Unterdrücken von Informationen, d.h., Tupel löschen

Daten vertauschen

Generalisierung der Daten Unser Fokus

IPD, Nachwuchsgruppe „Privacy Awareness“13 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

k-Anonymität durch Generalisierung

Name Geb. Sex PLZ Krankheit

1 **.**.75 M 7622* Impotenz

2 **.**.75 M 7622* Hodenkrebs

3 **.**.75 M 7622* Sterilität

4 **.**.81 M 7613* Schizophrenie

5 **.**.81 M 7613* Diabetes

6 **.**.83 W 7613* Magersucht

7 **.**.83 W 7613* Magersucht

An

on

ym?

Beispiel einer genera-lisierten Tabelle für k=2

68259 68199 68766

68***

male female

*PLZ Sex

22 28 24

20<X<=20

Kategorisches Attribut Binäres Attr. Numerisches Attr.

IPD, Nachwuchsgruppe „Privacy Awareness“14 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Probleme von k-Anonymität

Allgemeine Probleme beim Preisgeben von Datensätzen– Sortierungsbasierte Angriffe

(Unsorted Matching Attack)– Angriffe bei dynamischen Datenbeständen

(Temporal Attack)

Spezielle Probleme von k-Anonymität– Homogenitätsangriff– Anwendung von korrelierendem (Hintergrund-) Wissen

IPD, Nachwuchsgruppe „Privacy Awareness“15 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Unsorted Matching

Werden die generalisierten Tabellen GT1 und GT2 in gleicher Sortierung preisgegeben, kann der originale Datenbestand (PT) wieder hergestellt werden

= +

IPD, Nachwuchsgruppe „Privacy Awareness“16 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Dynamische Datenbestände

Beispiel:

– Möglicher Angriff

• RT1 RTt

• RT1 ∩ RTt

• RT1 \ RTt

Vorgeschlagenes Verfahren berücksichtigt nicht den Zusammenhang von RT1 und RTt

0 1 t

RT0 RTt

InsertInsert

UpdateDelete

Release Table zum Zeitpunkt t

IPD, Nachwuchsgruppe „Privacy Awareness“17 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Homogenitätsangriff

Identifizierende Attribute sind generalisiert, es entstehen jedoch Gruppen mit identischen sensiblen Attributen [Mac06].

Name Geb. Sex PLZ Krankheit

1 **.**.75 M 7622* Impotenz

2 **.**.75 M 7622* Hodenkrebs

3 **.**.75 M 7622* Sterilität

4 **.**.81 M 7613* Schizophrenie

5 **.**.81 M 7613* Diabetes

6 **.**.83 W 7613* Magersucht

7 **.**.83 W 7613* Magersucht

Beispiel einer generalisierten Tabelle für k=2

IPD, Nachwuchsgruppe „Privacy Awareness“18 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Korrelierendes Wissen

Korrelierendes Wissen (Background Knowledge Attack)Zusatzwissen erlaubt beispielsweise durch Ausschlussverfahren die eindeutige Zuordnung zu einer Person.

Name Geb. Sex PLZ Krankheit

1 **.**.75 M 7622* Impotenz

2 **.**.75 M 7622* Hodenkrebs

3 **.**.75 M 7622* Sterilität

4 **.**.81 M 7613* Schizophrenie

5 **.**.81 M 7613* Diabetes

6 **.**.83 W 7613* Magersucht

7 **.**.83 W 7613* Magersucht

Beispiel einer generalisierten Tabelle für k=2

KIT – Universität des Landes Baden-Württemberg undnationales Forschungszentrum in der Helmholtz-Gemeinschaft

IPD, Systeme der Informationsverwaltung, Nachwuchsgruppe „Privacy Awareness in Information Systems“

www.kit.edu

l-Diversity

IPD, Nachwuchsgruppe „Privacy Awareness“20 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Idee l-Diversity (*)

Hintergrundwissen als Wahrscheinlichkeitsfunktion über den Attributen modelliert.

Statistische Methoden (Bayesian Inference) zur Untersuchung auf Privatheit.

Prinzip: Die Differenz aus Vorwissen (prior belief) und Wissen nach der Publikation eines Datensatzes (posterior belief) soll möglichst gering sein.

(*) vorgestellt als Bayes-Optimal Privacy

IPD, Nachwuchsgruppe „Privacy Awareness“21 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Hintergrundwissen

Positive Preisgabe (positive disclosure)Die Veröffentlichung der Tabelle T* die aus T abgeleitet wurde resultiert in einer positiven Preisgabe, wenn der Angreifer den Wert eines sensiblen Attributes mit hoher Wahrscheinlichkeit bestimmten kann.

Negative Preisgabe (negative disclosure)Die Veröffentlichung der Tabelle T* die aus T abgeleitet wurde resultiert in einer negativen Preisgabe, wenn der Angreifer mit hoher Wahrscheinlichkeit ein sensibles Attribut ausschließen kann.

IPD, Nachwuchsgruppe „Privacy Awareness“22 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Hintergrundwissen

Positive PreisgabeWer 83 geboren wurde hat Magersucht

Negative PreisgabeWer 81 geboren wurde hat keine Magersucht, Impotenz, etc.

Name Geb. Sex PLZ Krankheit

1 **.**.75 M 7622* Impotenz

2 **.**.75 M 7622* Hodenkrebs

3 **.**.75 M 7622* Sterilität

4 **.**.81 M 7613* Schizophrenie

5 **.**.81 M 7613* Diabetes

6 **.**.83 W 7613* Magersucht

7 **.**.83 W 7613* Magersucht1

2

IPD, Nachwuchsgruppe „Privacy Awareness“23 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

l-Diversity

Problem von Bayes-Optimal PrivacyNicht für jedes Attribut muss die Verteilung bekannt sein

Wissen des Angreifers ist unbekannt

Nicht jedes Wissen ist probabilistisch modellierbar

Zusammenschluss von Angreifern würde Modellierung jeder Kombination von Wissen erforderlich machen.

Pragmatischerer Ansatz: l-DiversityBasiert auf der vorgestellten Idee von Bayes-Optimal Privacy, umgeht jedoch die aufgezeigten Probleme

IPD, Nachwuchsgruppe „Privacy Awareness“24 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Prinzip von l-Diversity

Gegebeneine Tabelle T und die generalisierte Tabelle T*

ein Attribut q* als generalisierter Wert von q

ein q*-Block ist eine Menge von Tupeln aus T*, deren nicht-sensiblen Attribute zu q* generalisiert wurden

Ein q*-Block ist l-divers, wenn er mindestens l „wohl-repräsentierte“ Werte für das sensible Attribut S beinhaltet. Eine Tabelle ist l-divers, wenn jeder q*-Block l-divers ist.

Im Folgenden zwei konkrete Definitionen von „wohl-repräsentiert“

IPD, Nachwuchsgruppe „Privacy Awareness“25 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Entropy-l-Diversity

Definition Entropy-l-Diversity:eine Tabelle T und die generalisierte Tabelle T*

ein Attribut q* als generalisierter Wert von q

ein q*-Block ist eine Menge von Tupeln aus T*, deren nicht-sensiblen Attribute zu q* generalisiert wurden

Eine Tabelle ist Entropy-l-Diverse, wenn für jeden q*-Block gilt:

und

Kurzfassung:jeder q* Block besitzt mindestens l unterschiedliche sensiblen Werte

l ist minimales Maß der Unordnung in den Blöcken

∑∈

=

Sssq

sqsq n

nP

')'*,(

)*,()*,()log()log l(pP (q*,s)

Ss(q*,s) ≥− ∑

Beispiel Entropy-l-Diversity

Name Geb. Sex PLZ Krankheit

1 **.**.75 M 7622* Impotenz

2 **.**.75 M 7622* Hodenkrebs

3 **.**.75 M 7622* Sterilität

4 **.**.81 M 7613* Schizophrenie

5 **.**.81 M 7613* Diabetes

6 **.**.83 W 7613* Magersucht

7 **.**.83 W 7613* Magersucht

Name Geb. Sex PLZ Krankheit

1 **.**.75 M 7622* Impotenz

2 **.**.75 M 7622* Hodenkrebs

3 **.**.75 M 7622* Sterilität

4 **.**.8* * 7613* Schizophrenie

5 **.**.8* * 7613* Diabetes

6 **.**.8* * 7613* Magersucht

7 **.**.8* * 7613* Magersucht

47.0)3

1log(*

3

1*3 =−

Beispiel einer generalisierten Tabelle für k=2 entropy-0-diversity

45.0)]4

2log(*

4

2)

4

1log(*

4

2[ =+−

44.0)8.2log( =

Beispiel einer generalisierten Tabelle für k=2 entropy-2.8-diversity

IPD, Nachwuchsgruppe „Privacy Awareness“27 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Probleme von Entropy-l-Diversity

Es kann gezeigt werden, dass die Entropie der gesamten Tabelle mindestens log(l) sein muss.

Kommen wenige Attribute sehr häufig vor, ist diese Anforderung sehr restriktiv.

Beispiel: Eine Tabelle, die auch den Zustand „gesund“ speichert

Es ist schwierig eine Tabelle zu erstellen, die den Eigenschaften von Entropy-l-Diversity genügt.

IPD, Nachwuchsgruppe „Privacy Awareness“28 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Recursive (c,l)-Diversity

Ziel: häufige Werte sind nicht über-, seltene nicht unterrepräsentiert

Formale Definition Recursive (c,l)-Diversity:

ri ist die Häufigkeit, die der i-häufigste sensible Wert in einem q*-Block aufweist

gegeben eine Konstante c ist q*-Block (c,l)-Divers, wennr

1 < c(rl + rl+1 + … + rm)

T* ist (c,l)-divers, wenn jeder q*-Block recursive-(c,l)-divers ist

Daraus folgt, dass nach der Eliminierung eines sensiblen Wertes der q*-Block immernoch (c,l-1) divers ist.

IPD, Nachwuchsgruppe „Privacy Awareness“29 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Weitere Konzepte für l-Diversity

Positive Disclosure-Recursive (c.l)-DiversityErlaubt positive Preisgabe bestimmter weniger, z.B. nicht sensibler Attribute („gesund“)

Negative/Positive Disclosure-Recursive(c1,c2,l)-Diversity

Schutz vor negativer Preisgabe von Attributen

Erfüllt Positive Disclosure-Recursive (c,l)-Diversity

Vor negativer Preisgabe zu schützende Attribute müssen in mindestens c2% aller Tuper eines q*-Blocks vorkommen.

Multi-Attribute l-Diveristyfür mehrere sensible Attribute

Ausschluss eines sensiblen Attributes soll nicht zur Preisgabe der anderen sensiblen Attribute führen.

Bsp: {(q*, s1, v1), (q*, s1, v2),(q*, s2, v3), (q*, s3,v3)} Gilt für eine Person nicht s1 so gilt v3

IPD, Nachwuchsgruppe „Privacy Awareness“30 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Probleme von l-Diversity

Schwierig zu erreichen und unter Umständen unnötig

Nicht ausreichend, um vor der Preisgabe von Attributen zu schützenSkewness Attack

Similarity Attack

IPD, Nachwuchsgruppe „Privacy Awareness“31 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

l-Diversity ist schwierig zu erreichen

BeispielNur ein sensibler Wert: Infiziert:={positiv, negativ}

10.000 Datensätze, 99% negativ, 1% positiv

Problem:Private Information nur negativ

2-diversity für eine Klasse die nur negative Tupel abbildet unnötig

Bei nur 1% positiver Tupel kann es nur 100 2-diverse Äquivalenzklassen geben → u.U hoher Informationsverlust

IPD, Nachwuchsgruppe „Privacy Awareness“32 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Skewness Attack

BeispielNur ein sensibler Wert Infiziert:={positiv, negativ}

10.000 Datensätze, 99% negativ, 1% positiv

A: Eine Äquivalenzklasse hat gleich viele positive wie negative Datensätze

B: Ein Äquivalenzklasse hat 49/1 positive und 1/49 negativen DS

Skewness AttackA: Jeder in dieser Klasse hätte zu 50% eine Infektion, auch wenn das im Kontrast zu dem originalen Datenbestand steht.

B: Obwohl deutlich unterschiedliche Privatheit ist die Diversity gleich.

→ l-Diversity berücksichtigt nicht dieGesamtverteilung von sensiblen Attributen

IPD, Nachwuchsgruppe „Privacy Awareness“33 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Similarity Attack

Sensible Attribute sind unterschiedlich, jedoch semantisch ähnlich

Name Geb. Sex PLZ Krankheit

1 **.**.75 M 7622* Impotenz

2 **.**.75 M 7622* Hodenkrebs

3 **.**.75 M 7622* Sterilität

4 **.**.8* * 7613* Schizophrenie

5 **.**.8* * 7613* Diabetes

6 **.**.8* * 7613* Magersucht

7 **.**.8* * 7613* Magersucht

Beispiel einer generalisierten Tabelle für k=3 entropy-2(.8)-diversity mit ähnlichen Repräsentanten in einer Äquivalenzklasse

KIT – Universität des Landes Baden-Württemberg undnationales Forschungszentrum in der Helmholtz-Gemeinschaft

IPD, Systeme der Informationsverwaltung, Nachwuchsgruppe „Privacy Awareness in Information Systems“

www.kit.edu

t-Closeness

IPD, Nachwuchsgruppe „Privacy Awareness“35 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

t-Closeness

Belief Wissen

B0

Korrelierendes Wissen

Wissen eines potentiellen Angreifers

1) Initial

Geb. Sex PLZ Krankheit

**.**.** * ***** *

**.**.** * ***** *

**.**.** * ***** *

**.**.** * ***** *

**.**.** * ***** *

**.**.** * ***** *

**.**.** * ***** *

IPD, Nachwuchsgruppe „Privacy Awareness“36 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

t-Closeness

Geb. Sex PLZ Krankheit

**.**.** * ***** Impotenz

**.**.** * ***** Hodenkrebs

**.**.** * ***** Sterilität

**.**.** * ***** Schizophrenie

**.**.** * ***** Diabetes

**.**.** * ***** Magersucht

**.**.** * ***** Magersucht

Eine große Differenz bedeutet viel neue Information bzw. Neues im Vergleich zu einer weit verbreiteten Annahme

Belief Wissen

B0

Korrelierendes Wissen

B1

Gesamtverteilung der sensiblen Werte Q

Wissen eines potentiellen Angreifers

1) Initial2) Ohne Bezug auf die Person

IPD, Nachwuchsgruppe „Privacy Awareness“37 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

t-Closeness

Geb. Sex PLZ Krankheit

**.**.75 M 7622* Impotenz

**.**.75 M 7622* Hodenkrebs

**.**.75 M 7622* Sterilität

**.**.8* * 7613* Schizophrenie

**.**.8* * 7613* Diabetes

**.**.8* * 7613* Magersucht

**.**.8* * 7613* Magersucht

Wissen eines potentiellen Angreifers

1) Initial2) Ohne Bezug auf die Person3) Preisgabe der generalisierten Tabelle

Belief Wissen

B0

Korrelierendes Wissen

B1

Gesamtverteilung der sensiblen Werte Q

B2

Verteilung Pi der sensiblen

Werte in Äquivalenzklasse i

Eine große Differenz bedeutet viel neue Information bzw. Neues im Vergleich zu einer weit verbreiteten Annahme

IPD, Nachwuchsgruppe „Privacy Awareness“38 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

t-Closeness

B0 – B1

Wissensgewinn über die gesamte Population

eine große Differenz bedeutet viele neue Informationen

B0 – B2

l-Diversity: Differenz zwischen B0 und B2 durch die Diversity-Anforderung an Population begrenzen

B1 – B2 t-Closeness: Informationen begrenzen, die über ein bestimmtes Individuum gelernt werden kann

Belief Wissen

B0

Korrelierendes Wissen

B1

Gesamtverteilung der sensiblen Werte Q

B2

Verteilung Pi der sensiblen Werte in der

Äquivalenzklasse i

IPD, Nachwuchsgruppe „Privacy Awareness“39 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Prinzip von t-Closeness

Eine Äquivalenzklasse hat t-Closeness, wenn der Abstand der Verteilung eines sensiblen Attributes innerhalb der betrachteten Klasse und der Verteilung des Attributes in der gesamten Tabelle kleiner einer Schranke t ist.

Eine Tabelle besitzt t-Closeness, wenn alle Äquivalenzklassen t-Closeness haben.

Wie messen wir den Abstand?

IPD, Nachwuchsgruppe „Privacy Awareness“40 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Abstandsmaße für t-Closeness

GegebenVerteilung P = {p1, p2, …, pm}

Verteilung Q = {q1, q2, …, qm}

MaßeVariational Distance:

Kullback-Leibler Distanz:

∑=

−=m

iii qpQPD

1

||2

1],[

)log(],[1 j

im

ii q

ppQPD ∑

=

=

Sind das die richtigen Maße?

IPD, Nachwuchsgruppe „Privacy Awareness“41 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Problem von Variational und KL Distanz

Gegeben Q={3k, 4k, 5k, 6k, 7k, 8k, 9k, 10k, 11k}

zwei Einkommensverteilungen P

1={3k, 4k, 5k} und P

2={6k, 8k, 11k}

Intuitiv hätten wir gerneD[P1,Q] > D[P2,Q], da in P1 alle Elemente am unteren Ende sind→ Mehr Information wird preisgegeben

Die beiden Maße liefern das nicht, da alle Werte in P1 und P

2

unterschiedlich sind und kein semantischer Bezug hergestellt wird.

IPD, Nachwuchsgruppe „Privacy Awareness“42 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Lösungsansatz: Earth Mover‘s Distance

Earth Mover‘s Distance misst Distanz zwischen zwei Verteilungen in einer definierte Region

GegebenVerteilung P = {p1, p2, …, pm}

Verteilung Q = {q1, q2, …, qm}

dij: Die Ground Distance zwischen Element i aus P und Element j aus Q.

IdeeFinde einen Fluss F=[fij] bei dem fij der Fluss der Masse von Element i aus P zu Element j aus Q ist, der die gesamte Arbeit minimiert.

IPD, Nachwuchsgruppe „Privacy Awareness“43 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Definition

Earth Mover‘s Distanz

Idee (1D Fall)

Gegeben zwei Verteilungen V1 und V2

Fülle die nächstgelegenen Löcher

Work(f,i,j) = f * | i - j |;

f = Anzahl Werte

i,j die Werte

ij

m

i

m

jij fdFQPWORKQPD ∑∑

= =

==1 1

),,(],[

-0,8

-0,6

-0,4

-0,2

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9

V1

V2

IPD, Nachwuchsgruppe „Privacy Awareness“44 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Beispiel Earth Mover‘s Distance

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9

V1

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9

V2

0

,0 0

,0 0

,0 0

,0 0

0

1 2 3 4 5 6 7 8 9

V1

0

,0 0

,0 0

,0 0

,0 0

0

0 0 0 0 0 0 0 0 0

V0

Work = 0.1 * 3 = 0.3

Work(f,i,j) = f * | i - j |;

IPD, Nachwuchsgruppe „Privacy Awareness“45 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Beispiel Earth Mover‘s Distance

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9

V1

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9

V2

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9

V1

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9

V2

Work = 0,7 + 0.1 * 3 = 1

Work = 0,3 + 0.1 * 4 = 0.7

… 1 + 0,2 * 4 + 0,5 * 3 = 3,3Work(d,i,j) = f * | i - j |;

IPD, Nachwuchsgruppe „Privacy Awareness“46 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

t-Closeness

Verwendung der Earth Mover‘s Distanz

basierend auf den Bedingungen

1≤ i ≤ m, 1 ≤ j ≤ m (c1)

1≤ i ≤ m (c2)

(c3)

ij

m

i

m

jij fdFQPWORKQPD ∑∑

= =

==1 1

),,(],[

0≥ijf

i

m

jji

m

jiji qffp =+− ∑∑

== 11

1111 1

=== ∑∑∑∑=== =

m

jj

m

ii

m

i

m

jij qpf

IPD, Nachwuchsgruppe „Privacy Awareness“47 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

t-Closeness

Sind die Distanzen dij normalisiert (0 ≤ dij ≤ 1), dann ist auch 0 ≤ D[P,Q] ≤ 1 unter den Bedingungen c1, c3

D.h., die Schranke t kann zwischen 0 und 1 gewählt werden.

GeneralisierungseigenschaftGegeben die Tabelle T und zwei Generalisierungen A und B, mit A stärker generalisiert als B. Erfüllt T t-closeness bzgl. A, dann auch bzgl. B

TeilmengeneigenschaftGegeben eine Tabelle T und eine Menge von Attributen C aus T. Erfüllt T t-closeness bzgl. C, dann erfüllt es dies auch bzgl. jede Teilmenge D.

IPD, Nachwuchsgruppe „Privacy Awareness“48 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

t-Closeness

EMD für numerische Attribute

Sortierdistanz

EMD für kategorische Attribute

Äquivalenzdistanz

Hierarchische Distanz

1

||),(

−−=−

m

jivvdistordered jj

1),( =− ji vvdistequal

H

vvlevelvvdistalhierarchic jiji

),(),( =−

KIT – Universität des Landes Baden-Württemberg undnationales Forschungszentrum in der Helmholtz-Gemeinschaft

IPD, Systeme der Informationsverwaltung, Nachwuchsgruppe „Privacy Awareness in Information Systems“

www.kit.edu

Differential Privacy

IPD, Nachwuchsgruppe „Privacy Awareness“50 Dr.-Ing. Erik Buchmann - Kapitel 1: Einführung

Differential Privacy

Idee: Wenn das hinzufügen/entfernen einer Person die Verteilung der Antworten (bzgl. einer Anfrage) nicht signifikant ändert, bleibt die Privatheit gewahrt.

Es gilt:Verteilung aller Attribute ist bekannt, d.h.Pr[E]: Eintrittswahrscheinlichkeit für Ereignis E ist bekannt

X: Datensatz einer Person

Zwei Datenbestände DB1 und DB

2:

Eine Funktion K genügt der -differential privacy, wenn für alle DB1 und

DB2 und alle gilt:

DB2=DB1∪{X }

ϵS⊆Wertebereich(K )

Pr [K DB1∈S ]≤e∗Pr [K DB2∈S ]

IPD, Nachwuchsgruppe „Privacy Awareness“51 Dr.-Ing. Erik Buchmann - Kapitel 1: Einführung

Beispiel für Differential Privacy (1/2)

K ({x1 , .. , xn })=∣({x1 , .. , xn })∣+ Laplace (1/ϵ)

Anfrage: select count(*) from database where PAnzahl der Datensätze für die Prädikat P gilt

Anonymisierungsfunktion:Addiere auf Ergebnis einen zufälligen (Laplace verteilten) Wert mit Wahrscheinlichkeitsdichte (Schwerpunkt x)

Definition von K (n Tupel genügen P):

Є-differential privacy garantiert:Ändert sich der Schwerpunkt der Verteilung um höchstens 1, verändert sich das Ergebnis um (multiplikativ) um höchstens .

p (x)∝e(−∣x∣/ϵ)

e−ϵ

x

IPD, Nachwuchsgruppe „Privacy Awareness“52 Dr.-Ing. Erik Buchmann - Kapitel 1: Einführung

Beispiel für Differential Privacy (2/2)

Ergebnis „Count“ Anfrage an DB1: 107

Ergebnis „Count“ Anfrage an DB2: 108

Werte der Funktion K als Wahrscheinlichkeitsdichte:

DB1

DB2

definierte Maximaldifferenz

IPD, Nachwuchsgruppe „Privacy Awareness“53 Dr.-Ing. Erik Buchmann - Kapitel 1: Einführung

Differential Privacy - Diskussion

Formal nachweisbare Privatheitsgarantie für statistische DatenbankenStellt sicher und quantifiziert wie „groß“ das Risiko eines einzelnen bei der Veröffentlichung der Daten in einer statistischen Datenbank ist

Updates der Datenbank sind kein Datenschutzproblemjedenfalls solange sich Verteilung der Attribute nicht ändert

Nachteilefür komplexere Anfragen ist Nachweis schwierig

wie ist die Verteilung der Attribute im Anfrageergebnis über alle theoretisch möglichen Ergebnisse?

Grad der Verfälschung der Datenbank hängt von Gruppengröße c (in Form von ) und Komplexität der Anfrage ab

„Verteilung der Welt“ Pr(E) muss bekannt sein und darf sich nicht änderne(cϵ)

KIT – Universität des Landes Baden-Württemberg undnationales Forschungszentrum in der Helmholtz-Gemeinschaft

IPD, Systeme der Informationsverwaltung, Nachwuchsgruppe „Privacy Awareness in Information Systems“

www.kit.edu

Abschluss*

* Vielen Dank an Stephan Kessler und Dietmar Hauf für ihre Aufarbeitung dieses Themas

IPD, Nachwuchsgruppe „Privacy Awareness“55 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Zusammenfassung

Anonymität: Entfernen von Identifikatoren zu wenig!Quasi-Identifier

mehrere verschiedene Anonymitätsmaße mit unterschiedlichen Eigenschaften

k-Anonymity

l-Diversity

t-Closeness

Differential Privacy

Angreif- Anwend- Daten-barkeit barkeit verfremdung

IPD, Nachwuchsgruppe „Privacy Awareness“56 Dr.-Ing. Erik Buchmann - Kapitel 3: Anonymitätsmaße

Literatur

[Swe02] Sweeney, L.: K-Anonymity: A Model for Protecting PrivacyUncertainty and Fuzziness in Knowledge.-Based Systems, 2002, 10

[Mac06] Machanavajjhala, A.; Gehrke, J.; Kifer, D. & Venkitasubramaniam, M.:l-Diversity: Privacy Beyond k-Anonymity, International Conference on Data Engineering, 2006

[LiN07] Li, N.; Li, T. und Venkatasubramanian, S.: t-Closeness: Privacy Beyond k-Anonymity and l-Diversity, International Conference on Data Engineering, 2007

[Dw06] Dwork, C.: Differential Privacy. International Colloquium on Automata, Languages and Programming, 2006