[db tech showcase Tokyo 2015]...

41
© Hitachi Solutions, Ltd. 2015. All rights reserved. 株式会社 日立ソリューションズ ITプラットフォーム事業部 システム基盤本部 第3部 2015/06/10 岩永 匡希 Hadoop大量データ処理技術と日立匿名化技術による プライバシー保護とデータ活用 db tech showcase Tokyo 2015

Transcript of [db tech showcase Tokyo 2015]...

© Hitachi Solutions, Ltd. 2015. All rights reserved.

株式会社 日立ソリューションズ ITプラットフォーム事業部 システム基盤本部 第3部

2015/06/10

岩永 匡希

Hadoop大量データ処理技術と日立匿名化技術による プライバシー保護とデータ活用

db tech showcase Tokyo 2015

© Hitachi Solutions, Ltd. 2015. All rights reserved. 1

はじめに

本セッションでは、 今後のITシステム、ビッグデータ利活用において、

重要な課題となるプライバシー保護にフォーカスし、

ビッグデータの先駆けとなったHadoopと、

当社独自のデータ匿名化技術 による、当社の狙いについてご紹介させていただきます。

ご興味を持たれたユーザ様におかれましては、 是非、当社までご連絡ください。

© Hitachi Solutions, Ltd. 2015. All rights reserved.

1. 市場動向

2. データ利活用におけるプライバシー保護の課題

3. 個人情報保護法の動向

2

Contents

4. プライバシー保護に向けた日立の技術

5. 今後の展望

© Hitachi Solutions, Ltd. 2015. All rights reserved. 3

1. 市場動向

© Hitachi Solutions, Ltd. 2015. All rights reserved. 4

1-1 市場動向 ~ビッグデータと個人情報~

ビッグデータ

センサー

POS

ログ

SNS

さまざまなデータに含まれる個人情報、

データ統合で新たに生み出されるプライバシー情報

© Hitachi Solutions, Ltd. 2015. All rights reserved. 5

1-2 市場動向 ~ビッグデータ市場規模~

約4千億円

約1兆円超

CAGR 20%超の成長

データ利活用の成長とともに

個人情報を取り扱うシーンも着実に増えていく

© Hitachi Solutions, Ltd. 2015. All rights reserved. 6

1-3 市場動向 ~データ利活用ニーズの高まり~

ビッグデータを蓄積

ビッグデータを(組み合せて)分析

新たな発見や気付き

顧客サービス向上・企業収益改善・社会問題の解決などへの適用

Hadoop(分散FS)

NoSQL など

© Hitachi Solutions, Ltd. 2015. All rights reserved. 7

1-4 市場動向 ~利活用シーン~

【インターネットサービス事業者による利活用例】

会員情報、購買履歴、ポイント活用状況などを分析

顧客ごとに嗜好に適した広告配信、商品レコメンド、購買促進

インターネットサービス事業者 会員

会員情報、購買履歴など

サービス利用促進・購買促進など

サービス利用

分析

© Hitachi Solutions, Ltd. 2015. All rights reserved. 8

1-5 市場動向 ~データ利活用ニーズと課題~

ビッグデータを蓄積

ビッグデータを(組み合せて)分析

新たな発見や気付き

顧客サービス向上・企業収益改善・社会問題の解決などへの適用

プライバシー保護

に関する課題

© Hitachi Solutions, Ltd. 2015. All rights reserved. 9

2. データ利活用におけるプライバシー保護の課題

© Hitachi Solutions, Ltd. 2015. All rights reserved. 10

2-1 データ利活用の拡大に伴い求められるもの

「個人に紐付く情報」を含む情報資産の活用

において、データ取得時の目的や

利用者に限定しない二次利用のシーンが

今後増えると予想される。

データ利活用時などに

「プライバシー保護」への配慮が求められる!

© Hitachi Solutions, Ltd. 2015. All rights reserved. 11

2-2 データ利活用におけるプライバシー保護の不安

データ提供/保有/利用時にさまざまな不安がある。

データ提供者 データ利用者

サービス利用 サービス利用情報など提供

データ保有者

個人を特定できない

データ加工は

どうすれば良いか?

データが加工されて

いるが利用価値

はあるのだろうか?

自分が特定されない

よう利用されている

だろうか?

© Hitachi Solutions, Ltd. 2015. All rights reserved. 12

2-3 データ利活用におけるプライバシー保護の課題

1. モノ プライバシー保護に関するノウハウが必要 個人情報の匿名性を実現する機能整備

2. 法律 個人情報の定義が曖昧

3. ヒト ビッグデータ分析者の不足 プライバシーまで考慮できる分析者は更に不足

© Hitachi Solutions, Ltd. 2015. All rights reserved. 13

3. 個人情報保護法の動向

© Hitachi Solutions, Ltd. 2015. All rights reserved. 14

3-1 プライバシー保護に関する法律的側面

1. モノ プライバシー保護に関するノウハウが必要 個人情報の匿名性を実現する機能整備

2. 法律 個人情報の定義が曖昧

3. ヒト ビッグデータ分析者の不足 プライバシーまで考慮できる分析者は更に不足

個人情報保護法の改正(現在、国会審議中)により、

「匿名加工情報」が明確になり、その加工を適切に行う

ことで、個人情報保護の制限を受けずに柔軟な利活用

が可能になる。

© Hitachi Solutions, Ltd. 2015. All rights reserved. 15

3-2 個人情報保護法の改正のポイント (国会審議中)

1. 個人情報の定義の明確化

2. 適切な規律の下で個人情報等の有用性を確保

3. 個人情報の保護を強化

4. 個人情報保護委員会の新設及びその権限

5. 個人情報の取扱いのグローバル化

6. その他改正事項

※内閣官房IT総合戦略室の「法案概要」資料から引用

© Hitachi Solutions, Ltd. 2015. All rights reserved. 16

3-3 個人情報保護法の改正効果①

1. 個人情報の定義の明確化

2. 適切な規律の下で個人情報等の有用性を確保

3. 個人情報の保護を強化

4. 個人情報保護委員会の新設及びその権限

5. 個人情報の取扱いのグローバル化

6. その他改正事項

「個人情報」に該当する 情報部の明確化

目的外利用時に匿名加工情報 とすることで個人情報の規定 から除外される

トレーサビリティ確保など 規制強化

1. 2. 3.

情報提供者・利用者が共に安心してデータを提供し利用できる枠組み プライバシー保護に則ったデータ利活用ビジネスの活性が予測される

© Hitachi Solutions, Ltd. 2015. All rights reserved. 17

3-4 個人情報保護法の改正効果②

1. 個人情報の定義の明確化

2. 適切な規律の下で個人情報等の有用性を確保 (匿名加工情報)

3. 個人情報の保護を強化 (要配慮個人情報、第三者提供)

4. 個人情報保護委員会の新設及びその権限

5. 個人情報の取扱いのグローバル化

6. その他改正事項

専門機関による監査・監督 グローバルレベルでの データ交流の規定整備

4. 5.

閉鎖的でなく透明性のある個人情報保護、グローバルな潮流化 データ利活用ビジネスへの注目は高まる傾向と予測される

本人同意を得ない第三者 提供時の規定整備など

6.

© Hitachi Solutions, Ltd. 2015. All rights reserved. 18

3-5 日立の技術との相乗効果

個人情報保護法の改正によって…

個人情報の定義(範囲)が明確に!

「匿名加工情報」にすることで、個人情報保護の制限を受けずに柔軟な利用が可能に!

日立の技術によって…

特定個人を識別できない「匿名加工情報」への加工を支援

相乗効果によって

データの利活用を促進できる!!

© Hitachi Solutions, Ltd. 2015. All rights reserved. 19

4. プライバシー保護に向けた日立の技術

© Hitachi Solutions, Ltd. 2015. All rights reserved. 20

4-1 プライバシー保護に関するシステム的側面

1. モノ プライバシー保護に関するノウハウが必要 個人情報の匿名性を実現する機能整備

2. 法律 個人情報の定義が曖昧

3. ヒト ビッグデータ分析者の不足 プライバシーまで考慮できる分析者は更に不足

データ漏洩を防止・抑止するセキュリティも必要だが、

個人が特定されないよう「匿名加工情報」へ加工する

技術が重要

© Hitachi Solutions, Ltd. 2015. All rights reserved. 21

4-2 「匿名加工情報」へ加工する技術

個人を直接特定できる情報を削除したうえで、

さらに、k-匿名性 を満たすデータへの匿名化を行う。

k-匿名性(※1)とは… 「同じ属性の組合せを持つレコードが必ずk個以上存在する状態」のこと。 例: 該当する人が必ず10人以上存在する状態(k=10)

※1) L. Sweeney. ”k-anonymity: a model for protecting privacy”, International Journal on Uncertainty, Fuzziness and Knowledge-based Systems,10(5), pp.555-570, 2002.

日本では、平成21年に経済産業省「情報大航海プロジェクト」において、 k-匿名化機能を実装した「個人情報匿名化基盤」が開発されています。

© Hitachi Solutions, Ltd. 2015. All rights reserved. 22

4-3 「匿名加工情報」へ加工するk-匿名化技術①

単純に個人情報を削除しさえすれば良い!?

※1:識別子とは、単独のデータで一個人を特定できる情報。

※2:準識別子とは、データの組合せにより一個人の特定に繋がってしまう可能性のある情報。

識別子(※1) 準識別子(※2)

居住区 年齢 性別 身長 体重 病状

東京都渋谷区代々木 35 女性 180 65 糖尿病

東京都新宿区西新宿 42 女性 160 59 心臓病

沖縄県宮古島市 105 男性 175 85 胃がん

沖縄県那覇市 92 男性 175 60 肺がん

東京都品川区東品川 39 女性 155 45 心臓病

氏名 電話番号

山田 太郎 0311111111

鈴木 花子 0322222222

吉田 太一 0980112222

佐藤 二郎 0983334444

田中 一郎 0344444444

そうとは言えません

© Hitachi Solutions, Ltd. 2015. All rights reserved. 23

4-4 「匿名加工情報」へ加工するk-匿名化技術②

以下のように、単純に個人情報を削除しただけでは、 それ以外の情報を組合せることで、個人を特定されるリスクが残ってしまいます。

識別子(※1) 準識別子(※2)

居住区 年齢 性別 身長 体重 病状

東京都渋谷区代々木 35 女性 180 65 糖尿病

東京都新宿区西新宿 42 女性 160 59 心臓病

沖縄県宮古島市 105 男性 175 85 胃がん

沖縄県那覇市 92 男性 175 60 肺がん

東京都品川区東品川 39 女性 155 45 心臓病

氏名 電話番号

山田 太郎 0311111111

鈴木 花子 0322222222

吉田 太一 0980112222

佐藤 二郎 0983334444

田中 一郎 0344444444

■個人特定に至る事例 日本で105歳以上の人口 = 1,309人 且つ、男性 = 184人 且つ、沖縄県 = 12人 (ほぼ特定される) 且つ、沖縄県宮古島市 = 1人 (確実に特定される)

© Hitachi Solutions, Ltd. 2015. All rights reserved. 24

4-5 「匿名加工情報」へ加工するk-匿名化技術③

個人情報を削除したうえで、さらにk-匿名化処理を行うことで、より個人を特定できない安全なデータへ加工できます。

識別子 準識別子

居住区 年齢 性別 身長 体重 病状

東京都渋谷区代々木 35-49 女性 155-180 45-65 循環器病

東京都新宿区西新宿 35-49 女性 155-180 45-65 循環器病

沖縄県宮古島市 90以上 男性 175 60-85 悪性腫瘍

沖縄県那覇市 90以上 男性 175 60-85 悪性腫瘍

東京都品川区東品川 35-49 女性 155-180 45-65 循環器病

氏名 電話番号

山田 太郎 0311111111

鈴木 花子 0322222222

吉田 太一 0980112222

佐藤 二郎 0983334444

田中 一郎 0344444444

補足: 赤色の部分が匿名化された情報になります。

■個人特定が困難なデータ事例 日本で90歳以上の人口 = 1,668,000人 且つ、男性 = 307,000人 且つ、沖縄県 = 87,000人 身長や体重などの条件を加えても個人を特定することは困難!

© Hitachi Solutions, Ltd. 2015. All rights reserved. 25

4-6 k-匿名化を行う際の課題①

k-匿名化するとデータの抽象度が高くなり、 データの利用価値(有用性)が低下してしまう性質がある。 匿名性(k-匿名性を高める)と有用性(データの利用価値)

は トレードオフの関係 にある。

匿名性 有用性

利用価値

利用価値

k-匿名性

k-匿名性

© Hitachi Solutions, Ltd. 2015. All rights reserved. 26

4-7 k-匿名化を行う際の課題②

分析対象のデータ

Aさん

Bさん

Cさん

同じデータを使用しても、 k-匿名化を行うヒトに依存し、

結果および有用性のレベルに バラツキ が出てしまう。

データX

k-匿名化

k-匿名化

k-匿名化

データX-A

データX-B

データX-C

© Hitachi Solutions, Ltd. 2015. All rights reserved. 27

4-8 k-匿名性と有用性の両立に向けた施策

日立のk-匿名化技術により、これらの課題の解決を図ります。

課題 日立のk-匿名化技術

・k-匿名化による

データ有用性低下

・ヒト依存による

k-匿名化結果のバラツキ

①日立特徴量保存型一般化階層方式

②一般化階層自動生成

③ポリシベース一般化階層生成

© Hitachi Solutions, Ltd. 2015. All rights reserved. 28

【予備知識】 k-匿名化処理の流れを簡単に説明します。

4-9 一般的なk-匿名化処理の技術 ~予備知識~

データX

k-匿名化前データ

一般化階層木 データX’

k-匿名化後データ

② k-匿名化前データ と一般化階層木を 用いてk-匿名化 を行う

① 一般化階層木 を手動で生成

© Hitachi Solutions, Ltd. 2015. All rights reserved. 29

血液型 人数

A型 10

B型 7

AB型 3

O型 1

本方式 一般的方式

データ加工範囲を少なくして、 情報ロスを抑える

一般にk-匿名化処理では、元データに対するデータ加工が多くなり情報ロスしやすい。 本方式では、データの出現頻度に基づいてデータ加工範囲を少なくすることで、ロスを抑えることが可能です。それにより、データ分析処理への影響を抑えることができます。

元データ

・・・・

・・・・

A+O

・・・・

B+AB

・・・・

A B AB+O

・・・・

血液型 人数

A型 or O型 11

B型 or AB型 10

血液型 人数

A型 10

B型 7

AB型 or O型 4

【日立特徴量保存型一般化階層方式】

4-10 日立のk-匿名化処理の技術①

k-匿名を実施するヒトに依存し、結果(情報損失量)

にバラツキが出る。 バラツキが無く、情報損失量も抑えられる。

[特許]登録済:日本、出願済:米国、欧州、中国 ※出願者:日立製作所

© Hitachi Solutions, Ltd. 2015. All rights reserved. 30

4-11 日立のk-匿名化処理の技術②

【一般化階層自動生成】 一般化階層木を自動生成し、k-匿名化処理を行います。

データX

k-匿名化前データ

一般化階層木 データX’

k-匿名化後データ

② 一般化階層木を 用いてk-匿名化 を行う

① 準識別子の値の出現頻度 に基づき、一般化階層木 を自動生成

© Hitachi Solutions, Ltd. 2015. All rights reserved. 31

匿名化前データ

4-11 日立のk-匿名化処理の技術②

年齢 性別 住所

53 男性 東京都立川市

27 男性 北海道札幌市

36 女性 沖縄県那覇市

12 男性 大分県別府市

64 女性 兵庫県神戸市

… … …

72 女性 新潟県上越市

↑ k-匿名化対象①

↑ k-匿名化対象②

6 8 72 98

6~8 72~98

6~27

6~98

……… ………

東京都立川市 北海道札幌市 ………

… …

… …

………

「年齢」の一般化階層データ

「住所」の一般化階層データ

自動生成

一般化階層生成の手間・コストを削減し、ヒトに依存した結果のバラツキを回避。

© Hitachi Solutions, Ltd. 2015. All rights reserved. 32

【ポリシベース一般化階層生成】 k-匿名化のポリシーを与え一般化階層を生成。2つの方式があります。

4-12 日立のk-匿名化処理の技術③

一般化階層木

1. 「基準点」と「幅」を指定する方式 基準点:1、幅:3を指定した場合の例 (データは1~9)

[特許] 出願済:日本 ※出願者:日立ソリューションズ

© Hitachi Solutions, Ltd. 2015. All rights reserved. 33

4-13 日立のk-匿名化処理の技術③

一般化階層木

2. 「境界」を指定する方式

境界:7を指定した場合の例 (データは1~9)

© Hitachi Solutions, Ltd. 2015. All rights reserved. 34

5. 今後の展望

© Hitachi Solutions, Ltd. 2015. All rights reserved. 35

5-1 個人情報保護法改正に伴うデータ利活用の促進

サービス 利用者

データを利用する第三者 サービス事業者

顧客システム

業務基幹 処理部

k-匿名化

業務データ

顧客システムにアドオン

改正後の個人情報保護法が施行されると(※1) 、 「匿名加工情報」が明確になり、その加工を適切に行うことで、個人情報保護の制限を受けずに柔軟な利活用が可能になります。

サービス 利用情報

現行の保護法下では、本人同意なしでは利用不可

個人情報保護法改正後は、 匿名加工情報にすることで、プライバシー侵害やセキュリティリスクを軽減でき、より安全にデータ利活用できるようになります。

現行の保護法下では、本人同意なしでは提供不可

※1: (2015年6月9日時点)国会審議中で改正法成立後2年以内に施行予定。

© Hitachi Solutions, Ltd. 2015. All rights reserved. 36

5-2 第三者提供による異業種コラボレーション

サービス事業者が持つ業務データを第三者に提供し、利活用する例を以下に示します。

注) 目的外利用のケースを想定。本例はあくまで一般的な情報からの推測であり、実際とは異なる場合があります。

サービス利用者 データを利用する第三者 サービス事業者

• 売買戦略

• 賃貸情報提供

不動産

業者

• 商品戦略

• 出店計画

コンビニ

業者

• 商品戦略

• プログラム開発

フィットネス

事業者

• メニュー戦略

• 出店計画 飲食業

• 商品戦略

• 顧客開拓 小売業

• 移動履歴

• 端末利用状況 携帯キャリア

• 購買履歴 電子マネー

業者

• 生体データ ヘルスケア

業者

• 移動履歴 交通系カード

業者

• 購買履歴 オンラインショッピングサイト業者

何を利用するか 何に利用するか

有償/無償提供

サービス 利用履歴

匿名化

実施後の

データ

© Hitachi Solutions, Ltd. 2015. All rights reserved. 37

「移動体通信事業者」と「タクシー会社」のコラボレーション例

5-3 異業種コラボレーションのユースケース

① 【移動体通信事業者への効果】 データ販売による収益向上 (新事業開拓) ② 【タクシー会社への効果】 乗車率向上による収益向上(配車の最適化および車両の稼働率向上) ③ 【タクシー利用者への効果】 タクシーを捕まえ易くなり待ち時間減少 (タクシー利用ニーズにすばやく応え顧客満足向上)

位置情報から人流分析 利用ニーズのありそうなポイントに重点配車

タクシーの乗車率・稼働率向上 収益向上

移動体通信事業者

匿名化後

のデータ

タクシー会社

位置情報 を分析

位置情報など

(注)財団法人日本情報処理開発協会「パーソナル情報の利用のための調査研究報告(22-H006)」に掲載されているサービス例を参考にした適用例

© Hitachi Solutions, Ltd. 2015. All rights reserved. 38

5-4 日立がめざすところ

我々は、「データ利活用」という点において、 プライバシー保護に向けた日立の技術 と 個人情報保護法の改正

との相乗効果により、

現在眠っている様々なデータの利活用を支援する ことで、 社会の持続的な発展とさらなる快適性をテーマに、 より安全で安心な社会づくりをめざしていきます。

© Hitachi Solutions, Ltd. 2015. All rights reserved.

株式会社 日立ソリューションズ ITプラットフォーム事業部 システム基盤本部 第3部

Hadoop大量データ処理技術と日立匿名化技術による プライバシー保護とデータ活用

2015/06/10

岩永 匡希

END

<お問い合わせ先>

[email protected]