2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호...

28
프라이버시 보호 빅데이터 분석 및 응용 임성수 충남대학교 컴퓨터공학과 2018년도 국공립대학정보기관협의회 세미나

Transcript of 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호...

Page 1: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

프라이버시 보호 빅데이터 분석 및 응용

임성수충남대학교 컴퓨터공학과

2018년도 국⋅공립대학정보기관협의회 세미나

Page 2: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

강연 내용

1. 프라이버시 침해 사례

2. 차등프라이버시기술

3. 프라이버시보호응용

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 02/28

프라이버시란?

빅데이터 vs 프라이버시

프라이버시 침해 사례

- 의료정보

- 온라인정보

- 재정정보

Page 3: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

빅데이터 기술

데이터의 홍수 속에서의미있는정보를찾아제공 (수집, 전처리, 저장, 분석, 활용등)

수집: IT 기술 발달로인한실시간, 연결된데이터수집

분석: 데이터를이해하고 유용한 정보를얻기위한분석

빅데이터

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 03/28

빅데이터를 설명하는 4V 데이터로부터 정보를 캐내기

Page 4: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

데이터 프라이버시 빅데이터기술의급부상으로인한 개인 정보 대량 수집 및 활용

특정개인을식별가능한데이터를통한프라이버시침해우려

민감한 정보 보호가 필요한 개인 정보

의료정보, 유전자정보, 온라인정보, 재정정보등

프라이버시

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 04/28

의료 정보 유전자 정보 온라인 정보

Page 5: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

유용한 세상 데이터의 홍수: 디지털환경에서생산되는수많은데이터

인공지능 기술: 구글, 애플, 아마존, AI 비서등

“구글신은모든것을알고있다!”

유용성 vs 프라이버시 데이터에익명성을더해프라이버시침해위험줄임

성능과 프라이버시 보호는 상충 관계

애플의 철학 부정확하다는비판에도경쟁기업에비해프라이버시보호를원칙으로함

클라우드가아닌디바이스상에서분석하여사생활침해논란에서보다자유로움

빅데이터 vs 프라이버시

Utility-Privacy Tradeoff

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 05/28

Page 6: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

익명화된 데이터(Anonymized Data): 매사추세츠주의료기록

부가 정보(Auxiliary Information): 선거인등록명부 20달러에구입

연결 공격(Linkage Attack): 데이터를 연결하여 개인 의료 정보 재식별미국인구조사데이터에적용결과우편번호, 생일, 성별로 87% 식별

프라이버시 침해 - 의료 정보

인종

방문일

진단

수술

처방

이름

주소

등록일

정당

투표일

우편번호생일성별

의료 기록 선거인 명부[Sweeney 2002] (5000+회인용)

관련연구: 유전자정보 [Homer et al. 2008](700+회인용)

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 06/28

Page 7: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

익명화된 데이터: 서로다른병원들이독립적으로익명화된자료제공

복합(Composition): 서로다른데이터로부터중복된정보취득

복합 공격(Composition Attack): 중복되는 정보를 취합하여 재식별

사전지식이있는경우민감한정보취득위험증가

프라이버시 침해 - 의료 정보

[Ganta et al. 2008] (300+회인용)

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 07/28

Page 8: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

익명화된 데이터: Netflix 콘테스트데이터 (약 50만명, 2만편영화,1억개평점)

부가 정보: IMDb의고객계정과영화평조회

연결 공격: 공개한지 2주만에일부 온라인 개인 정보 재식별

평가 8개, 3일간격을두고비교할경우 89% 식별

프라이버시 침해 - 온라인 정보

[Narayanan-Shmatikov 2008] (1700+회인용)

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 08/28

Page 9: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

사례 1: SNS 사용자정보를연결하여동일인물식별가능

Flickr, Twitter 사용자 패턴 분석을통해 1/3 식별

사례 2: Facebook, Twitter 계정개인정보노출실태분석

각 657만, 277만계정중 34만개 공통된 계정 식별

프라이버시 침해 - 온라인 정보

[Narayanan-Shmatikov 2009]

(1100+회인용)

[최대선등 (ETRI 연구진) 2013]

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 09/28

Page 10: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

익명화된 데이터: 이름, 주소, 전화번호제거된신용카드사용내역 (약 110만명, 3개월)

부가 정보: 트위터, 페이스북위치정보

재식별화: 특정날짜의 방문 장소, SNS 위치 정보를 결합하여 개인 정보 식별카드사용지점 4곳만알아도 90% 식별, 거래가격고려시확률 22% 상승

프라이버시 침해 - 재정 정보

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 10/28

[Montjoye et al. 2015] (200+회인용)2015년 사이언스지: ‘프라이버시의 종말’

Page 11: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

강연 내용

1. 프라이버시침해사례

2. 차등 프라이버시 기술

3. 프라이버시보호응용

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 11/28

프라이버시 보호- -익명화, -다양성- 차등프라이버시

차등 프라이버시

- 중요성및정의

관련 연구 주제

Page 12: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

프라이버시 보호 모델 𝒌-익명성: 동일값을가진레코드가 𝑘개이상되도록속성값익명화

장점: 특정개인의식별이어려움

단점: 특정동일집합이서로같은민감한정보를가지고있을경우식별가능

예) 우편번호 341**에거주하는 30대이상환자의경우 ‘위암’

𝒌-익명성

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 12/28

구분 ZIP 나이 성별 질병

1 34134 29 남 고혈압

2 34141 28 남 고혈압

3 08826 37 남 고혈압

4 08826 39 여 위암

5 34134 33 여 위암

6 34141 32 여 위암

구분 ZIP 나이 성별 질병

1 341** <30 * 고혈압

2 341** <30 * 고혈압

3 088** ≥30 * 고혈압

4 088** ≥30 * 위암

5 341** ≥30 * 위암

6 341** ≥30 * 위암

Page 13: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

프라이버시 보호 모델 𝒍-다양성: 동일그룹에서적어도 𝑙개의서로다른민감한정보를가지도록함

장점: 그룹화를통해배경지식에따른식별이어렵도록방지

단점: 익명성강화에의한개인정보보호는이루어지지만데이터가치손상이큼

𝑘, 𝑙값을조정해도재식별의위험성을낮추기어려운경우있음

𝒍-다양성

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 13/28

구분 ZIP 나이 성별 질병

1 34134 29 남 고혈압

2 34141 28 남 고혈압

3 08826 37 남 고혈압

4 08826 39 여 위암

5 34134 33 여 위암

6 34141 32 여 위암

구분 ZIP 나이 성별 질병

1 3413* * * 고혈압

5 3413* * * 위암

3 0882* * * 고혈압

4 0882* * * 위암

2 3414* * * 고혈압

6 3414* * * 위암

Page 14: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

차등 프라이버시

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 14/28

관련문서: [Apple 2017] 참고

Page 15: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

프라이버시 보호 모델

차등 프라이버시: 레코드자체의확률적변형을통해식별가능성을제한하는접근법

특징: 부가정보에의한연결공격에취약하지않음

변형(perturbation): 작으면정확도악화가적음 vs 크면더많은프라이버시보호

차등 프라이버시

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 15/28

[Dwork 2006] (4000+회인용)[Dwork et al. 2006] (2500+회인용)

2017년괴델상 (전산이론분야최우수논문)

Page 16: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

차등 프라이버시 보호 알고리즘

확률알고리즘M에대해, 만약두레코드 v, v′가하나의엔트리값만다를경우결과값이같을확률의비율이제한된다면차등 프라이버시가 보호된다고얘기함

프라이버시 파라미터 𝝐 > 0, 𝛿 > 0에대해, 𝐏𝐫 𝐌 𝐯 = 𝒕 ≤ 𝒆𝝐 𝐏𝐫 𝑴 𝐯′ = 𝒕 + 𝜹

차등 프라이버시 - 정의

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 16/28

i번째엔트리값이달라도알고리즘출력값유사

⇒공격결과특정개인을식별하기가어려움

정보손실의정량적평가 작은오차허용

Page 17: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

차등 프라이버시 보호의 장점

정량화

• 프라이버시와정확도의손실정도를정량화하여보장

• 데이터베이스쌍에질의할때, 응답의차이로인한레코드정보를복원하기어려움

그룹 프라이버시

• 𝜖, 0 -차등프라이버시보호알고리즘M에대해,

모든 v − v′ 1 ≤ 𝑘에대해 𝜖𝑘, 0 -그룹차등프라이버시보호

함수 프라이버시

• 𝜖, 𝛿 -차등프라이버시보호알고리즘M에대해,

모든함수 𝑓에대한 𝑓°M역시 𝜖, 𝛿 -차등프라이버시보호

합성 프라이버시

• 𝜖𝑖 , 𝛿𝑖 -차등프라이버시보호알고리즘Mi들에대해

M k v = M1 v ,… ,M𝑘 v 는 ∑𝑖=1𝑘 𝜖𝑖 , ∑𝑖=1

𝑘 𝛿𝑖 -차등프라이버시보호

차등 프라이버시 - 장점

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 17/28

𝒆𝝐 ∼ 𝟏 + 𝝐

Differential Privacy

Page 18: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

차등 프라이버시 보호 설계

기존알고리즘에대해차등프라이버시를보장하기위한다양한방법존재

입력값, 출력값, 목적함수등의 변형을 통해 보장이 되는지 증명

예) 출력값에정규분포를따르는화이트노이즈추가시보장

차등 프라이버시 - 설계

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 18/28

관련문서: [NIPS Tutorial 2017] 참고

Page 19: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

기존 데이터 분석의 문제점

프라이버시보호를잘고려하지않는데이터분석

분석결과만보고도민감한정보를복원가능

2020 미국인구조사: 차등프라이버시적용예정

차등 프라이버시 보호 데이터 분석

기존분석기법에대한프라이버시보호가 보장되는 알고리즘 개발

최신 기계 학습: 이론적보장이적고많은파라미터를사용하기때문에더욱어려움

의사결정나무

히스토그램

⋮ ⋮

딥러닝

차등 프라이버시 - 기법

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 19/28

[Abadi et al. 2016] (200+회인용)

[Friedman-Schuster 2010] (300+회인용)

[Xu et al. 2012] (200+회인용)

[Fredrikson et al. 2015] (100+회인용)

Page 20: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

적대적 기계학습 (Adversarial ML)

적대적 예제: 데이터에 작은 변형만 줘도 분류가 어려워지는 예제

간단한예제를틀리게함, 예) 분류문제, 자율주행차의표지판인식등

적대적예제가주어져도잘동작하는기계학습모델의개발은현재진행형

관련 주제 - 적대적 기계학습

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 20/28

[Szegedy et al. 2014] (1500+회인용)

관련문서: [OpenAI 2017] 참고

Page 21: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

강연 내용

1. 프라이버시침해사례

2. 차등프라이버시기술

3. 프라이버시 보호 응용

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 21/28

Google’s RAPPOR

- 크롬개인정보활용

Apple’s on-devicedifferential privacy- 유저행동패턴파악

Blockchain과의 결합

Page 22: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

구글의 프라이버시 보호

RAPPOR: 프라이버시를보호하면서대규모데이터를수집하는방식 (2014년)

• 수집: 크롬브라우저사용자들의행동에관한통계를수집, 로컬 프라이버시 모델

• 기법: 데이터압축(블룸필터, 해시) + 변형을통한차등프라이버시보장

• 활용: 악성소프트웨어, 웹페이지특성을파악하여차단

최근 적용 사례

Gboard: 가상키보드개발에적용 (2017년)

• 기법: 사용자 디바이스 상에서 인공신경망 학습

• 활용: 자동완성및수정에대한불만이많음

Google’s Chrome

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 22/28

[Erlingsson et al. 2014] (300+회인용)

Page 23: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

애플의 프라이버시 보호

Siri 등애플인공지능기술 (2017년)

• 수집: 사용사례에대해식별자와 IP 주소를제거한 로컬 프라이버시 모델

• 기법: 데이터압축(해시, 스케치) + 변형, 클라우드가아닌 디바이스 상에서 학습

• 활용: iOS 10부터적용, 인기이모티콘발견, 메모리관리, 새로운단어학습등

Apple’s iPhone

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 00/28

관련문서: [Apple 2017] 참고

Page 24: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

블록체인과 차등 프라이버시의 결합

Oasis Labs

• 올해설립된블록체인프로토콜, 내년런치예정

• UC 버클리대학 D. Song 교수와대학원생들이설립

• 블록체인 기술로 보호되는프라이버시보장클라우드컴퓨팅플랫폼구축중

• 사기를탐지하고 차등 프라이버시가 보장되는스마트계약라이브러리개발중

Blockchain + Differential Privacy

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 24/28

관련문서: [Oasis Labs 2018] 참고

Page 25: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

지도교수: 임성수 (Ph.D. KAIST, 2016) Web: http://cnudi.com

E-mail: [email protected]

주요 연구 주제 빅데이터분석: 프라이버시보호

네트워크과학: 그래프압축

인공지능: 통계적추론

최근 주요 성과 Publications: TKDE 2018, TIST 2017, JSTAT 2016, EPJ B 2016, ICDE 2016, etc. Awards: Qualcomm Innovation Award 2016, BigContest 2014 Committees: PAKDD 2019, Data Analytics 2017-2018 Reviews: VLDB J, TKDE, PR, IEEE J-STSP, IEEE CL, IEEE Access, etc.

데이터 인텔리전스 연구실

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 25/28

Page 26: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

프라이버시 보호 네트워크 분석 데이터속성뿐아니라연결성에대한프라이버시도보장되는분석기술개발

네트워크내커뮤니티구조발견, 정보확산현상분석및예측

서울대학교, 홍콩중문대학교연구진과협업

모바일 환경 딥러닝 디바이스상에서실행가능한딥러닝경량화기술개발

인공지능스타트업노타와협업

통계적 생성 모델 딥러닝기반자연어생성모델활용기술개발

아주대학교연구진과협업

최근 연구 주제

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 26/28

Page 27: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

[Sweeney 2002] “k-Anonymity: A Model for Protecting Privacy,” International Journal on Uncertainty, Fuzziness and Knowledge-based

Systems:10(5),557-570, 2002.

[Homer et al. 2008] “Resolving Individuals Contributing Trace Amounts of DNA to Highly Complex Mixtures Using High-Density SNP

Genotyping Microarrays,” PLoS Genet 4(8):e1000167, 2008.

[Ganta et al. 2008] “Composition Attacks and Auxiliary Information in Data Privacy,” ACM SIGKDD 2008.

[Narayanan-Shmatikov 2008] “Robust De-anonymization of Large Sparse Datasets,” IEEE SP 2008.

[Narayanan-Shmatikov 2009] “De-anonymizing Social Networks,” IEEE SP 2009.

[최대선등 2013] “소셜네트워크서비스개인정보노출실태분석,” 정보보호학회논문지,23(5):977-983, 2013.

[Montjoye et al. 2015] “Unique in the shopping mall: On the reidentifiability of credit card metadata,” Science, 347(6221):536-539, 2015.

[Dwork 2006] “Differential Privacy,” ICALP 2006.

[Dwork et al. 2006] “Calibrating Noise to Sensitivity in Private Data Analysis,” TCC 2006.

[Apple 2017] “Learning with Privacy at Scale,” Apple, 2017.

[NIPS Tutorial 2017] “Differentially Private Machine Learning,” NIPS Tutorial 2017.

[Friedman-Schuster 2010] “Data Mining with Differential Privacy,” ACM SIGKDD 2010.

[Xu et al. 2013] “Differentially Private Histogram Publication,” VLDB J,22(6):797-822, 2013.

[Abadi et al. 2016] “Deep Learning with Differential Privacy,” ACM CCS 2016.

[Szegedy et al. 2014] “Intriguing Properties of Neural Networks,” ICLR 2014.

[OpenAI 2017] “Attacking Machine Learning with Adversarial Examples,” OpenAI, 2017.

[Erlingsson et al. 2014] “RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response,” ACM CCS 2014.

[Oasis Labs 2018] “What Data Privacy Means for Blockchain,” Oasis Labs, 2018.

참고 문헌

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 27/28

Page 28: 2018년 국공립대학정보기관협의회 세미나 · 빅데이터분석: 프라이버시보호 네트워크과학: 그래프압축 인공지능: 통계적추론 최근주요성과

질문 및 답변

프라이버시 보호 빅데이터 분석 및 응용 – 충남대학교 임성수 28/28