빅데이터프로젝트가이드라인 -...
Transcript of 빅데이터프로젝트가이드라인 -...
2015.06조완섭충북대학교 경영정보학과대학원 비즈니스데이터융합학과
빅데이터 프로젝트 가이드라인
• 본 자료는 “빅데이터 업무절차 및 기술활용 매뉴얼 (Ver 1.0), NIA, 2014.03”을 참고하여 정리한 것임
제 6장
목차
배경 및 개요
데이터 수집
데이터 저장관리
보안관리
품질관리
데이터 분석
– 가시화
분석결과의 활용과 서비스
2015-07-23 Wan-Sup Cho ([email protected]) 2
3. 데이터 보안관리
정의
– 데이터 유출 방지와 안전한 사용을 보장함
– 빅데이터에 포함된 개인정보 처리 등 필요한 조치 수행
– 데이터 수집, 저장, 분석활용 등 전체과정에 관련된 사항
– 기술과 함께 법제도 및 지침서 활용
업무절차
2015-07-23 Wan-Sup Cho ([email protected]) 3
보안관리기능요건도출
보안관리기능요건적용
- 발생 가능한 보안 침해 가능성 확인- 개인정보 처리 확인
관련 법제도, 지침서, 도구 등을 활용하여 데이터 보안관리 조치
3. 데이터 보안관리
보안관리 활용기술
– 사용자 인증, 접근제어, 암호화 등 다양한 기술 활용
2015-07-23 Wan-Sup Cho ([email protected]) 4
(통신, 장치, 데이터, 프로그램 등 다양한 개체에 대한 접근제한 설정)
(보안등급기반) (계정기반-Grant/Revork) (역할할당/역할권한부여/권한부여)
3. 데이터 보안관리
2015-07-23 Wan-Sup Cho ([email protected]) 5
3. 데이터 보안관리
수집단계
– 데이터 생성 주체로부터 사전동의를 받은 데이터만 수집
– 수집된 데이터에 대한 접근통제 적용• 필요하면 웹로봇에 수집해가는 행위를 원천 차단하는 기술 적용
저장단계
– 암호화 및 접근권한 설정 권장
– 개인정보 포함여부를 검사하여 암호화 조치
분석 및 활용단계
– 개인정보는 비식별화 등의 조치를 취한 후 분석에 활용
2015-07-23 Wan-Sup Cho ([email protected]) 6
** 참고자료- DB 보안의 이해 http://www.dbguide.net/- 개인정보 암호화 조치 안내서 (행정안전부, 2012.10)
3. 데이터 보안관리 - 비식별화
개인정보 비식별화 조치방안 (예시)
– 개인을 식별할 수 있는 필드 (키워드) 도출• 쉽게 개인을 식별할 수 있는 정보 (이름, 전화, 주소, 생년월일 등)
• 고유식별번호 (주민번호, 운전면허, 외국인등록번호, 여권번호 등)
• 생체정보 (지문, 홍체, DNA 정보 등)
• 기관, 단체 등의 이용자 계정 (등록번호, 계좌번호, 이메일 주소 등)
– 비식별화 조치 수행• 문서 파일을 키워드 단위로 분할
• 키워드 기반의 패턴 매칭으로 개인정보 검사 및 식별
– 주민번호, 여권번호, 의료보험번호 등
– 데이터가 메쉬업 되어도 문제가 없도록 해야 함
2015-07-23 Wan-Sup Cho ([email protected]) 7
나이지리아 국적 + 억만장자 + 2012년 한국방문 => 추정가능
3. 데이터 보안관리 - 비식별화
조직의 비식별화 규정 (권고)
– 데이터 검증• 개인정보 비식별화 여부 등을 검증할 수 있는 시스템을 보유 권고
– 데이터 인증• 개인정보가 정상적으로 처리된 데이터는 사후관리를 위해 인증표
기 권고
– 사후 모니터링• 관리가 필요한 데이터의 경우 목적에 맞게 데이터가 활용되고 폐
기되는 단계까지 사후 모니터링 권고
2015-07-23 Wan-Sup Cho ([email protected]) 9
3. 보안 및 개인정보 - 관련기술
데이터 보안관리 및 개인정보 처리 관련 기술과 활용에서 고려사항
– 데이터 보안기술의 활용시 고려사항
– 개인정보 처리기술 활용시 고려사항
– Page 42 ~ 44 참고
2015-07-23 Wan-Sup Cho ([email protected]) 10
4. 빅데이터 품질관리
각 기관은 데이터 품질관리 체계 수립을 통하여 데이터의 정확성, 완전성, 적시성, 일관성을 유지해야 함
2015-07-23 Wan-Sup Cho ([email protected]) 11
4. 빅데이터 품질관리
단계별 품질관리 점검사항
2015-07-23 Wan-Sup Cho ([email protected]) 12
빅데이터의 용도에 따라품질수준이 다르게
제정되어야 함<= 추세 파악이 목적이라면 품질 수준은 다소 낮게, 재난안전, 의료 등에서는
품질수준을 높게
4. 빅데이터 품질관리
데이터 품질 확보방안
– ETL 도구 혹은 DBMS 기능을 활용하여 데이터 품질 제고를 자동화할 수 있음• 참고문헌 : A Taxonomy of Dirty Data (Data Mining and
Knowledge Discovery, Jan. 2003)
– 데이터 정제 도구 활용• Look-up tables (referential data)
• Rule-based cleansing
• Patterns
2015-07-23 Wan-Sup Cho ([email protected]) 13
5. 데이터 분석
정의– 수집 및 저장된 빅데이터로부터 다양한 분석을 통해 유용한 통찰력을
발견하는 과정
– 다차원분석, 통계분석, 데이터 마이닝, 텍스트 마이닝, 소셜분석 등
업무절차
2015-07-23 Wan-Sup Cho ([email protected]) 15
분석계획의 수립
분석환경 구축과분석수행
분석 서비스 운영
- 분석목적 정의, 분석 시스템 환경과 방법론 등세부 분석계획 수립
- 분석 시스템과 환경의 구축- 비용, 전문가 확보 등을 고려하여 자체 분석과
외부 분석 서비스 활용을 선택함
- 자체 분석의 경우 전문가 확보, 지속적인 교육훈련으로 분석의 질을 제고
- 외부 시스템을 이용하는 경우 분석결과에 대한품질, 보안 등에 대한 SLA 협약 권고
2015-07-23 Wan-Sup Cho ([email protected]) 16
분석기술 소개
2015-07-23 Wan-Sup Cho ([email protected]) 17
5. 데이터 분석
다차원 분석
2015-07-23 Wan-Sup Cho ([email protected]) 18
- Africa의 매출액은 ?- Africa의 1분기 매출액은 ? - Africa의 1분기 sea route 매출액? ….
5. 데이터 분석
분석환경 구축
2015-07-23 Wan-Sup Cho ([email protected]) 19
조직 내부에 분석전문가 확보 및 지속적인 교육과 훈련필요; 보안담당
자 지정
데이터 분석결과에 대한 품질, 데이터 운영관련 보안사항등에 관한 SLA (Service Level Agreement) 협약 권고
5. 데이터 분석
분석 플랫폼 구축과 운영
– HW 구축• 빅데이터 수용 용량 및 분석작업에 대한 부하 등을 감안하여 HW
인프라 구축
• 수집 데이터 저장 서버, 데이터 처리서버(하둡기반 분석, 정형데이터 분석 DW 등), 기타 보안, 통신장비 등 구축
– SW 구축• 분석에 필요한 수집, 저장, 관리, 분석, 사용자 환경 등 관련 SW
2015-07-23 Wan-Sup Cho ([email protected]) 20
2015-07-23 Wan-Sup Cho ([email protected]) 21
5. 데이터 분석 - 플랫폼
2015-07-23 Wan-Sup Cho ([email protected]) 22
5. 데이터 분석 – 데이터 수명주기
Data Life Cycle
2015-07-23 Wan-Sup Cho ([email protected]) 23
StreamData
HadoopDataSources
Mining자연어 처리
Visualization
직관적 의사결정 지원
MapReduceHive