networking.khu.ac.krnetworking.khu.ac.kr/layouts/net/publications/data/KCC... · 2016-06-21 · u=...
Transcript of networking.khu.ac.krnetworking.khu.ac.kr/layouts/net/publications/data/KCC... · 2016-06-21 · u=...
매쉬업 서비스를 위한 Smart Mediator에서의 효율적인 익명화 기법 연구
이다은O, 홍충선*
[email protected], [email protected]
경희대학교 컴퓨터공학과
A Study on Efficient Anonymization Scheme in Smart Mediator
for Mashup Service
Da Eun LeeO, Choong Seon Hong*
Department of Computer Science and Engineering KyungHee University
요 약
현재 서로 다른 플랫폼을 연계한 다양한 매쉬업 서비스들을 제공되고 있다. 하지만 사용자가 이러한
매쉬업 서비스를 이용하기 위해서는 이를 중계해주는 Smart Mediator가 필요하다. Smart Mediator는 각
각의 플랫폼에서 다양한 방법으로 사용자의 개인정보를 받고 이를 저장하여 매쉬업 서비스에 제공한다.
따라서 Smart Mediator는 사용자의 프라이버시 보호를 위해 사용자의 개인정보를 익명화하여 매쉬업 서
비스에 제공해야 할 필요가 있다. 본 논문에서는 엔트로피를 이용한 Smart Mediator에서의 효율적인 익명
화 기법을 제안했다. 이를 통해 Linked Attack 등의 보안 위협에서 사용자의 프라이버시를 보호하고 매쉬
업 서비스에 충분한 사용자 정보를 제공 할 수 있는 효과를 기대한다.
1. 서 론
최근 Google, Facebook, KakaoTalk 등의 서비스에서
Open API를 제공함으로써 이를 이용한 다양한 매쉬업
서비스들이 등장하고 있다[1]. 이 외에도 정부 3.0 포탈
정보 등의 공공 데이터를 이용한 매쉬업 서비스들도 다
수 등장하고 있다. 이러한 Open API를 이용한 서비스를
개발하기 위해서는 Open API들을 연계하기 위한 Smart
Mediator가 필요하다. 그림 1에서 볼 수 있듯이 Smart
Mediator(SM)는 사물인터넷, 클라우드, 빅데이터, 모바
일, 보안(ICBMS) 등의 다양한 플랫폼의 Open API를 개
발자에게 제공하여 개발자가 다양한 플랫폼을 연계한 매
쉬업 서비스를 개발 할 수 있도록 도와준다. 1)
이러한 SM에서의 익명화는 다양한 ICBMS 플랫폼으
로부터 수집되는 개인정보에 대해 프라이버시 보호기능
을 수행할 수 있도록 하는 중요한 요소이다. 따라서 매
쉬업 서비스에게 개인 정보, 센서값 등을 익명화하여 제
공함으로써 Linked Attack을 방지하고 사용자의 프라이
버시를 보호할 수 있도록 해준다. 본 논문에서는 사용자
의 프라이버시 보호를 최우선시 하고 익명화로 인해 손
실되는 정보의 양을 최소화하여 매쉬업 서비스에 충분한
이 논문은 2016년도 정부(미래창조과학부)의 재원으로 정보통신기술
진흥센터의 지원을 받아 수행된 연구임 (R0126-16-1009, ICBMS 플랫
폼 간 정보 모델 연동 및 서비스 매쉬업을 위한 스마트 중재 기술 개
발) *Dr. CS Hong is the corresponding author
정보를 제공 할 수 있도록 하는 최적의 익명화 값 k을
예측하는 연구를 진행하였다.
본 논문의 2장에서는 제안사항에 기반이 되는 K-익명
성과 엔트로피에 대해 설명하고 3장에서는 본 논문의 제
안사항인 엔트로피를 이용한 SM에서의 익명화 기법에
대해 설명한다. 4장에서는 본 논문의 제안사항에 대한
성능을 평가하고 끝으로 5장에서는 결론에 대해 논의 한
다.
1060
2016년 한국컴퓨터종합학술대회 논문집
⇐
∙ log
2. 관련 연구
2.1 K-익명성(K-anonymity)
K-익명성은 데이터들 간의 연관성을 줄이기 위해 고
안된 익명화 기술이다. K-익명성을 만족한다는 것은 주
어진 데이터 집합에서 준 식별자 속성값들이 동일한 레
코드가 적어도 K개 존재한다는 것을 의미한다[2][3].
그림 2는 K=3을 만족하도록 익명화한 데이터 테이블
의 예시이다.
2.2 엔트로피(Entropy)
어떤 확률변수의 불확실성의 정도를 측정하는 것을 엔
트로피라고 한다. 불확실성이 높아질수록 정보의 양은
더 많아지고 엔트로피는 커진다. 예를 들어 동전 던지기
의 경우 H, T 두 가지 경우만 나타내므로 엔트로피는 1
이다. 하지만 특정한 면이 나올 확률이 더 높은 경우 엔
트로피는 1보다 작아진다. 특정한 면을 예측해서 맞출
확률이 더 높아졌기 때문에 엔트로피가 더 작아진 것이
다. 표본 공간이 총 개의 서로 다른 값들로 이루어진 확률
질량 함수 에 대해 엔트로피 는 다음과 같이 정의
된다[4][5].
∙ log
3. 엔트로피를 이용한 Smart Mediator에서의 익명화
공격자가 익명화 된 데이터를 이용하여 원본 데이터를
복구 할 수 없도록 하기 위해서는 가장 높은 엔트로피
값을 구해야한다. 따라서 이번 장에서는 2장에서 설명한
엔트로피를 이용하여 SM에서 최적의 익명화 값 K를 예
측하는 알고리즘을 설명한다.
3.1 알고리즘
ICBMS 플랫폼으로부터 SM에 들어오는 정보 레코드
는 이전의 레코드들로 기반으로 하는 테이블 확률 값(1)을
갖는다. 는 다음과 같이 정규화한 확률
(2)를 갖는다.
(1)
(2)
정규화한 확률 를 이용하여 2.2장에서 설명한 엔트로피
를 계산하여 최적의 익명화 값 K를 구한다(3).
K = arg max (3)
그림 3은 앞서 설명한 엔트로피를 이용하여 K값을 예
측하는 알고리즘을 수도 코드로 나타낸 것이다.
SM은 알고리즘 1을 이용해 ICBMS 플랫폼에서 받은
데이터들을 익명화하기 위한 최적의 K값을 예측하고 그
1061
2016년 한국컴퓨터종합학술대회 논문집
K값을 이용해 데이터를 익명화 하여 매쉬업 서비스에게
제공한다.
4. 성능 평가
그림 4와 그림 5, 그림 6은 ARX[6]로 익명화한 데이
터의 Linked Attack 등의 공격 위험도를 분석한 테이블
이다. 그림 4는 원본 데이터의 공격 위험도를 분석한 테
이블이고 그림 5는 제안한 알고리즘과 다른 K값(ARX
Default)으로 익명화하여 공격 위험도를 분석한 그림이
다. 그림 6은 제안한 알고리즘으로 구한 K값으로 익명
화 한 테이블을 분석한 그림이다. 그림 4에서 Highest
공격 위험도는 거의 100%인 것을 확인 할 수 있다. 반
면 그림 5와 그림 6에서는 Highest 공격 위험도는 각각
20%, 10%로 감소하는 것을 볼 수 있다. Average 공격
위험도 또한 원본 데이터 보다 감소 한 것을 볼 수 있
다.
5. 결론
다양한 플랫폼을 연계하는 SM에서는 다양한 공격으로
부터 사용자의 프라이버시를 보호하는 것이 중요하다.
따라서 본 논문에서는 SM에서 엔트로피를 이용한 익명
화 기법에 대해 논의 하였다. 성능 평가에서 볼 수 있듯
이 원본 데이터를 최적의 K값으로 익명화 하여 사용자
의 개인 정보를 보안 위협으로부터 보호 할 수 있다. 이
번 연구에서는 단순히 공격 위협에서의 위험도만 분석하
였지만 향후 연구에서는 데이터 손실률까지 분석하여 가
장 효과적인 K값을 구할 수 있는 기법을 연구를 진행하
여 본 논문의 제안과 통합할 예정이다.
6. 참고 문헌
[1] “Mashup(OpenAPI/Mashup)” 스마트 개발자 협회,
http://www.mashup.or.kr/business/main/main.do
[2] Latanya Sweeney “ k-ANONYMITY : A MODEL
FOR PROTECTING PRIVACY”, International Journal
on Uncertainty Fuzziness and Knowledge-based
Systems, Vol. 10 Issue No. 5, pp557-570, 2002
[3] 황치광, 홍충선, 최종원 “데이터 유용성 향상을 위한
서비스 기반의 안전한 익명화 기법 연구” Journal of
KIISE Vol.42 No.5, pp681-689, 2015.5
[4] “Entropy (information theory) Wikipedia,
https://en.w ikipedia.org/wiki/Entropy_(information_theor
y)
[5] Shannon C. L., “The mathematical theory of
communication”, Bell System Technical Journal, Vol.
27, 1948
[6] “ARX” TUM, http://arx.deidentifier.org/
1062
2016년 한국컴퓨터종합학술대회 논문집