Scis2014 匿名化(最終版)

18
「完全な匿名化」幻想を超えて Beyond the Fantasy of ”Perfect Anonymity” 板倉陽一郎伊藤孝一菊池浩明高木浩光高橋克巳中川裕志 疋田敏朗廣田啓一山口利恵渡辺創 1

description

SCIS2014 「「完全な匿名化」幻想を超えて Beyond the Fantasy of ”Perfect Anonymity”」 板倉陽一郎・伊藤孝一・菊池浩明・高木浩光・高橋克巳・中川裕志 ・疋田敏朗・廣田啓一・山口利恵・渡辺創

Transcript of Scis2014 匿名化(最終版)

Page 1: Scis2014 匿名化(最終版)

「完全な匿名化」幻想を超えて Beyond the Fantasy of ”Perfect Anonymity”

板倉陽一郎・伊藤孝一・菊池浩明・高木浩光・高橋克巳・中川裕志 疋田敏朗・廣田啓一・山口利恵・渡辺創

1

Page 2: Scis2014 匿名化(最終版)

この門をこえると

�  ビッグデータから個人情報を外して(匿名化して)自由に 流通できる!バラ色の世界が簡単に手に入るはず!

匿名化データを自由に活用できるバラ色の 世界が待っている

Page 3: Scis2014 匿名化(最終版)

匿名化データがほしい �  匿名化データを作成可能な「万能マジカルボックス」

�  匿名化データとは何か ← 個人を識別特定できないデータ

生データ 完全な匿名化情報がでてくる?

生データを直接入れると

匿名化データな〜れ〜♪

ボックスをとじて、魔法使いに渡そう

Page 4: Scis2014 匿名化(最終版)

個人情報とは? とてもややこしい

•  そもそも定義をしているところがたくさん o  民間事業者:個人情報保護法 o  国:行政機関個人情報保護法 o  独立行政法人:独立行政法人等個人情報保護法 o  地方公共団体:個人情報保護条例

•  個人情報保護法上は、プライバシーについて言及されていない

•  保護すべき情報とは何か? o  名刺の束? o  氏名、生年月日?

→もっと大事なことはあるのでは。

Page 5: Scis2014 匿名化(最終版)

会員番号、氏名、生年月日、住所、年齢、購買品1、購買品2、購買品3、.....

DBデータの属性の区分

5

生データ

A属性 B属性 C属性

A属性:個人識別用属性…専ら個人を識別するために用いられる属性 B属性:個人属性…個人が備える属性として一般的なもの C属性:その他…どちらでもない属性

属性として整理すると

会員番号、氏名、生年月日、住所、年齢、購買品1、購買品2、購買品3、.....

Page 6: Scis2014 匿名化(最終版)

個人情報保護法においては

�  個人情報保護法における「個人情報」の定義 1.  個人に関する情報であって、その情報から特定の個人を識

別できるもの �  どの属性から特定の個人が識別できるか?

�  A 属性: 個人識別用の情報なので、通常、これにより特定の個人が識別される

�  B 属性の一部: 住所や生年月日からほとんどの場合個人一人に絞られる

�  それ以外は?

2.  1.の情報が、他の情報と照合することができるものであり、その照合によって特定の個人を識別できるようになるもの

�  どの属性を他の情報と照合するのか?

6

Page 7: Scis2014 匿名化(最終版)

会員番号、氏名、生年月日、住所、年齢、 購買品1、購買品2、購買品3、.....

削除 曖昧化加工 完全公開OK?

よくある「匿名化」処理

7

k-匿名化の議論では、A属性を削除し、B属性をk-匿名化して、C属性を変更しない方法で行われてることが多いが、C属性はそのままでよいのか?

A属性 B属性 C属性

本人を特定する ための情報なので

本人の特定に使われ る可能性があるため

購買品の組み合わせを見ると個人特定できませんか?

Page 8: Scis2014 匿名化(最終版)

会員番号、生年月日、住所、年齢、 購買品1、購買品2、購買品3、.....

削除 曖昧化加工

完全な匿名情報とは

8

A属性 B属性 C属性

本人が特定される 可能性があるため

本人が特定される 可能性があるため

結局、C属性も含めてk-匿名化が必要では?

情報が公開されても個人が識別、特定されないデータにする

本人が特定される 可能性があるため

Page 9: Scis2014 匿名化(最終版)

�  開示データからの個人識別を防ぐための匿名化モデル �  [Sweeney 02] k-Anonymity: A Model for Protecting Privacy

�  準識別情報つまりB属性の情報について、共通の組み合わせを持つレコードが少なくともk個以上存在する時、開示データはk 匿名性をみたすと言う

�  k 匿名化 �  属性の一般化や秘匿などにより、k 匿名性をみたすように、共通の準識別情

報( B属性の情報)の組み合わせを持つ複数のレコード集合を構成すること

加工方法の例:k 匿名化

郵便番号 年齢 №

1800005

1800012

1800003

1810015

1810015

1810013

1800003

1800021

1800001

1800099

39

32

37

40

46

43

50

52

60

66

1

2

3

4

5

6

7

8

9 10

郵便番号 年齢 №

18000** 18000** 18000**

3* 3* 3*

1 2 3

18100** 18100** 18100**

4* 4* 4*

4 5 6

18000** 18000** 18000** 18000**

50以上

50以上

50以上

50以上

7 8 9 10

性別

性別

趣味

アニメ

アニメ

アニメ

映画

アニメ

ドラマ

映画

ドラマ

ドラマ

時代劇

趣味

アニメ

アニメ

アニメ

映画

アニメ

ドラマ

映画

ドラマ

ドラマ

時代劇

3

3

4

3-匿名性(郵便番号・性別・年齢)

: )

: (

: ) : )

3匿名化

ここでは、 郵便番号・性別・年齢 に注目

9

Page 10: Scis2014 匿名化(最終版)

完全な k 匿名化データ以外は公開できない

�  少しでも情報を残してよいとすると、別データと組み合わせが可能な危険性がある

⇒ どの準識別子( B属性の情報)に対しても k 匿名性を満たしたデータ以外は公開しない以外に方法はない

10

郵便番号 年齢

18000**

18000**

18000**

3*

3*

3*

18100**

18100**

18100**

4*

4*

4*

性別

趣味

アニメ

アニメ

アニメ

映画

アニメ

ドラマ

3-匿名性(郵便番号・性別・年齢)

場合によっては、個人特定可能なデータが残る、こんなにわかりやすければ消すだろうが、1人だとすると、再識別可能な可能性が残る

郵便番号 年齢 性別

18000** 18000** 18000**

3* 3* 3*

18100** 18100** 18100**

4* 4* 4*

18000** 18000** 18000** 18000**

50以上

50以上

50以上

50以上

3-匿名性(*)

Page 11: Scis2014 匿名化(最終版)

情報の有用性の減少 •  k-匿名性を満たした実データ解析

•  人の流れプロジェクトの活用 �  東京都が行ったアンケート調査から人の動きを抽出したプロジェクト、722,000人分の人

の動きのデータ �  個人の居た場所情報をB属性と見なすことにする。

•  人の流れプロジェクトのデータから、 k-匿名性を満たしたデータを作成 �  同じ場所に同じ時間、 k人以上いた場合にのみ残したデータを作成

⇒ 単純になりすぎて、役に立たない

11

k匿名性を満たしたデータ

データとして役に立たない

匿名化

「人の流れプロジェクト」のデータ

Page 12: Scis2014 匿名化(最終版)

�  他にどういう問題が残るのか �  誰かに不利な統計情報というものは残る

�  例)新大久保のヘイトスピーチ �  準識別子(B属性の情報)の性質やその項目がプライバシーにデリ

ケートか �  例)匿名化はされたがポルノを買った群と明示された

�  そのデータに入っているかどうかの推測のしやすさ �  k/n 全体のデータ量nとkの値に適切なものがありそう

加えて問題が

郵便番号 年齢 性別

18000** 18000** 18000**

3* 3* 3*

18100** 18100** 18100**

4* 4* 4*

18000** 18000** 18000** 18000**

50以上

50以上

50以上

50以上

3-匿名性(*)

匿名化データ

こういう情報ならいいがデリケートな準識別や項

目もありそう

この匿名データに入っているかどうかの推測のしやすさ

ある人に不利な統計情報として公開

される可能性

全体の量nとk人に依存 12

Page 13: Scis2014 匿名化(最終版)

万能マジカルボックス プライバシーを保てる「万能マジカルボックス」があると思っている?

生データ 完全な匿名化データがでてくる?

生データを直接入れると

匿名化データな〜れ〜♪

ボックスをとじて、魔法使いに渡そう

Page 14: Scis2014 匿名化(最終版)

幻想から脱却する 目的を考え、処理プロセスを定義・管理していくことが必要

生データ 必要な匿名化データ

生データを直接入れると

目的を考えた変換

目的に合わせた生データの選定

最終目的のアプリ

プロセス全体の管理

匿名性を保ったデータの生成

Page 15: Scis2014 匿名化(最終版)

匿名性を高める条件とは?

�  受領データの公表:データの統計情報、属性を公開する

�  どの程度統計化した場合に匿名性が担保されるのかについて検討を

�  目的:情報をどのように使いたいのかを特定する

�  万能マシンに頼るのではなく、自らプライバシー情報をどの程度利用したいのかについて検討を

�  安全管理措置:情報が適切に再識別困難であることの確認 �  利用したい情報が統計情報とならなかった場合、きちんとした扱いを

�  どうしてもk=1のデータは使いたい。その場合にはちゃんとした管理を

�  情報の扱いについて危険性の評価を

�  提供データの公表:どういうデータを提供しているのかを公開 �  第三者から提供情報の是非が判断できるように

Page 16: Scis2014 匿名化(最終版)

カブキアンのPrivacy by Designに基づく 技術、制度、法律を総合した第三者提供の枠組み

Page 17: Scis2014 匿名化(最終版)

結論 �  現状の動向(制度、技術の両面)をまとめた

�  現行の個人情報保護制度と現状の匿名化に関する世間の動向についてまとめたうえで, 現状技術について考察を行った

�  「完全な匿名化」を満たすような汎用な技術は存在しない

�  一方,世論調査や統計局の調査等,高い匿名性のあるデータ利活用の例は存在している

�  今後は, それぞれの利用領域に特化し,活用するデータ・利用シーンごとに丁寧な解析を行い適切な利用を行う必要がある

Page 18: Scis2014 匿名化(最終版)

門を超えたとしても

�  ビッグデータを安全に活用するには、まだまだ道半ば!

いつかバラまで たどり着けるさ!

門を超えたけど、次の門がある!

その先もありそう!