민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ......

14
Data Issue Report 2017-02 제106호 민간데이터 연계와 CKAN의 활용 민간데이터 연계와 CKAN의 활용 민간데이터 연계와 CKAN의 활용 2017. 2. 24. 주요 내용 Ⅰ. 개요 Ⅱ. 민간데이터 연계의 범위와 필요성 Ⅲ. 민간데이터 연계 사례 Ⅳ. 민간데이터 연계 방안 Ⅴ. 요약

Transcript of 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ......

Page 1: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

민간데이터�연계와� CKAN의�활용민간데이터�연계와� CKAN의�활용민간데이터�연계와� CKAN의�활용

2017.� 2.� 24.

주요�내용�

Ⅰ.�개요

Ⅱ.�민간데이터�연계의�범위와�필요성

Ⅲ.�민간데이터�연계�사례

Ⅳ.�민간데이터�연계�방안�

Ⅴ.�요약�

Page 2: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

1

I 개요

o 데이터가 ‘21세기의 원유’로 인식되면서, 각국은 공공데이터를 개방·

활용하여 경제 발전을 도모하고자 ‘오픈 데이터’ 정책을 수립, 시행 중

o 오픈 데이터 정책은 주로 공공데이터를 대상으로 하나, 민간데이터를

융·복합하여 분석해야 보다 정교한 통찰력(insight)을 얻을 수 있음

- 민간데이터도 일정수준의 공개를 통해 활용의 폭을 넓혀야 시너지를

발휘할 수 있으나, 기업 또는 개인의 시간과 노력이 투입된 무형

자산으로 무조건적인 공개를 강요할 수 없음

o 국가·공공기관 중심의 공공데이터 포털 개설 증가와 함께, 민간기업들의

데이터 연계 노력도 점차 확대 중

- 기업들의 API를 통한 데이터 활용은 상당 부분 확산되고 있으며,

글로벌 플랫폼 기업들도 점차 데이터 포털을 개설하는 등 플랫폼을

확장시키려는 시도가 계속되고 있음

- 데이터 포털들은 공공데이터 뿐만 아니라 민간데이터도 꾸준히 연계

하고 있으며, 공공·민간데이터의 경계가 허물어지는 현상도 발생

o 이러한 플랫폼 확장 경쟁 속에서, 특정 플랫폼에 종속되지 않고

공공-민간, 민간-민간 간 데이터 연계가 가능한 오픈 소스 기반의

데이터 공유 플랫폼이 주목받고 있음

- 오픈 소스 플랫폼도 매우 다양해지고 있는 만큼 점유율과 기능,

확장성을 고려하여 선별해야 함

- 다수의 데이터 포털이 채택하고 있는 CKAN(Comprehensive Knowledge

Archive Network)을 적용하여 공공·민간 데이터의 연계를 확대해야 함

Page 3: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

2

Ⅱ 민간데이터 연계의 범위와 필요성

� 민간데이터 연계의 범위

o 연계 가능한 민간데이터는 오픈 데이터, 사업 데이터, 소셜 미디어

데이터, 기업 비밀을 제외한 사업 데이터 등

- ‘오픈 데이터’와 ‘데이터 소유권, 재산권의 동기 부여’ 사이의 균형점을

찾고, 장·단기적인 사회 지식 창출에 대한 영향력을 평가해야 함1)

※�오픈�데이터란,� (저작권�표시�및�동일�조건�변경�허락의�조건에서)�모든�사람이�자유롭게�

사용·재사용이�가능하며�재배포할�수�있는�데이터2)

<� 데이터의�유형� >

※�출처� :� Joel� Gurin,� Open� Data� Now,� 2014.�

http://www.opendatanow.com�참조� (접속일� :� 2017.2.22.)

1) 황성수, 공공데이터 개방과 공공이슈 해결: 활용 가능성, 한계점, 미래방향, Open Data in Action 발표자료, 2016.

2) Open Data Handbook, What is Open Data ?, http://opendatahandbook.org/guide/en/what-is-open-data 및 Open Definition, The Open Definition, http://opendefinition.org/ 참조 (접속일 : 2017. 2. 22.)

Page 4: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

3

- 사업 보고(예 : ESG 데이터3)), 기타 사업 데이터(예 : 소비자 불만 등)와

거대 연구 데이터셋, 소셜 미디어 데이터셋, 기타 비정부 데이터

- 기업 비밀을 제외하고 마케팅 · 비즈니스 분석 등 비(非)공개

데이터도 익명성 등 일정 조건 하에서 연계 · 분석 가능

� 민간데이터 연계의 필요성

o 데이터의 연계 가치 측면

- 데이터는 다른 데이터와의 결합을 통해 보다 가치있는 통찰력을

도출할 수 있으며, 공공데이터 개방 목적인 부가가치 창출에도 부합

- 특히 금융·교통·통신·의료 등 민간데이터는 빅데이터 분석 사례에서

빠지지 않는 중요 데이터로 공공-민간데이터 연계의 시너지가 매우 큼

o 데이터의 성격 측면

- 데이터는 한 사람이 데이터를 소비해도 다른 사람이 소비를 못하게

되지 않는 ‘비경합성(non-rivalry)’으로 인해 공공재적 성격이 강함

경합성

있음 없음

배제성

있음Private� Goods

- 옷,�휴대폰,�자동차,�식품

Club� Goods(자연독점재)

- 수도,� 전기,� 철도,� 이동통신�

- 민간데이터

없음Common� Resources

- 바다�속� 물고기,� 환경

Public� Goods

- 무료�공원,� 국방,� 치안

- 공공데이터

<� 데이터의�공공재적�성격� >

3) ESG(Environment, Social, Governance) 데이터란 기업의 사회·환경적 활동까지 고려하여 기업의 성과를 측정하는 기업 성과 지표 ※ 출처 : 투이컨설팅, 오픈데이터(Open Data), 2017.1.25. http://www.2e.co.kr/hp/pages/share/ShareView.php?modsrl=5913&docsrl=162432&datatype=zeyreyubcyvqe (접속일 : 2017.2.13))

Page 5: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

4

- ① 이용자, ② 서비스업자, ③ 기기 제작자, ④ 데이터 전달자가 얽혀

있어 데이터 소유권이 모호한 경우 발생

- DB의 저작권 침해 논란에도 불구하고 크롤링, 미러링 등 데이터 수집

기술의 발전으로 데이터의 배제성에도 한계 발생

� 민간데이터 연계의 전제조건

o 민간데이터는 연계 필요성이 매우 크지만, 기업 또는 개인이 시간과

노력을 투입하여 축적한 무형자산으로 이용시 적정한 대가 지불 필요

- 민간데이터는 양도 방대하고 유용하나 기업의 이익, 영업 비밀, 개인

정보보호 문제와 직결되기 때문에 이를 구입하는데 막대한 예산이

필요하거나 연계 거부 상황 발생4)

- 민간데이터 연계시 가장 큰 장애요인은 ‘유료화 문제’로, ‘국가 차원의

인적 및 물적 지원’, ‘민간데이터 제공자와 이용자 간의 허브 기관

설치’ 등이 주요 해결 방안으로 지목5)

※�민간데이터�개방�장애요인� :� 유료화�문제(30%),� 개인정보보호�문제(26%),� 핵심�정보

노출에�대한�거부감(20%),� 법적�책임�문제(14%),� 데이터�표준화�어려움(8%)�

o 민간데이터 보유 기업은 데이터 연계 · 분석을 통해 자사의 데이터

가치를 홍보하고, 분석 결과로부터 새로운 비즈니스 모델을 이끌어

낼 수 있다는 점에 주목해야 함

- 데이터 연계의 비즈니스 창출 가능성과 데이터 판매 수익 간의 균형적

시각이 필요하며 유용한 데이터를 보유한 IT 대기업의 데이터 가격

인하 의지, 샘플 데이터 무료 이용 확대 등의 자구책 필요

4) 한국지역정보개발원, 빅데이터 활용 사례 분석을 통한 민관 융합 빅데이터 활용 전략 연구, 2014.12.30.5) 월드리서치, 정부3.0 공공데이터 개방 설문조사 연구용역 결과보고서, 2015.11.

Page 6: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

5

Ⅲ 민간데이터 연계 사례

� 데이터 플랫폼 사례

o 글로벌 기업들은 빅데이터, 클라우드, 수퍼컴퓨팅 기술과 각종 데이터를

무상으로 제공하여 사회 문제를 해결함으로써 사회에 공헌6)

- 자사 플랫폼의 영역 확장을 위한 마케팅 전략의 일환으로 데이터

분석 및 시각화 서비스를 통해 ① 자사·협력사·이용자 데이터 연계

② 정부 협력 프로젝트를 통해 획득한 공공데이터 공유

- 우리나라도 통신사, 데이터 전문기업 중심으로 데이터 연계 플랫폼을

갖춰 나가고 있으며, 공공-민간, 민간-민간 간 데이터 연계 수요는

더욱 증가할 것으로 예상

① 자사 데이터 또는 이용자가 올린 데이터 연계 사례

6) 블로터, 그들이 사회에 기여하는 법, ‘인프라’와 ‘데이터’, 2014.9.5., http://www.bloter.net/archives/203927#livere-comment__container (접속일 : 2017.2.8.)

7) InfoWorld, 4 Google data sets to kickstart machine learning, OCT. 17, 2016, http://www.infoworld.com/article/3131515/artificial-intelligence/4-google-data-sets-to-kickstart-machine-learning.html (접속일 : 2017.2.3.)

� o� 구글,� 기계학습�스타트업을�위해� 4종의�데이터셋�공개7)

� � -� 오픈�이미지� 데이터셋� :� 9백만�개의�이미지� URL,� 6천� 개의� 분류�라벨�부착,�

Creative� Common� License로� 바로�재사용�가능

� � -� 유투브� 8M� 데이터셋� :� 조회� 수� 1천회� 이상,� 재생� 시간� 2분� 이상의� 다양한�

장르,�다양한�품질의� 8백만�개의�유투브�비디오�공개.�유투브�자체�분류�기준�적용,�

TensorFlow� Record� 파일�포맷으로�이용�가능

� � -� 구글� 북스� Ngrams� :� 아마존� AWS를� 통해� 하둡에� 적합한� 파일� 포맷으로�

다운로드�가능.� Creative� Common� License� 적용.� (2.2TB)

� � -� 구글� 트렌드� 데이터스토어� :� 주제와� 기간별로� 키워드의� 트렌드를� 파악할�

수� 있는�데이터셋.� 파일�하나당�약1.1MB의�저용량(세분화)

Page 7: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

6

8) 전자신문, 네이버 데이터 랩, 이용자 쇼핑 트렌드 빅데이터로 공개, 2016.7.20. http://www.etnews.com/20160720000457 (접속일 : 2017.2.10)

9) 연합뉴스, 네이버 빅데이터 일반에 공개…자영업자들에 도움 기대, 2016.1.14. http://www.yonhapnews.co.kr/bulletin/2016/01/14/0200000000AKR20160114090500017.HTML (접속일 : 2017.2.10.)

10) 조선비즈, 솔트룩스 "20년간 축적해온 데이터 80억 건 개방", 2016.10.19. http://biz.chosun.com/site/data/html_dir/2016/10/19/2016101902467.html (접속일 : 2017.2.2.)

� o� 네이버�데이터�랩

� � -� 빅데이터� 포털� ‘데이터� 랩’에서� 검색어� 데이터� 기반� 쇼핑� 빅데이터� 공개,�

네이버� 검색어� 데이터� 중� 쇼핑� 분야� 인기� 키워드와� 검색량� 변화를� 차트와�

그래프�형태로�활용�가능8)

� � -� 네이버� 10여� 년간� 축적한� 데이터를� 무료로� 공개.� 민간기업과� 공공기관이�

보유한�데이터를�활용할�수� 있는�플랫폼� ‘데이터�랩(datalab.naver.com)’�

� � -� 지역� 서비스에� 등록된� 업체� 정보와� 해당� 지역� 내� 모바일� 검색� 사용자� 수,�

업종별� 분포도� 등의� 지역별� 정보� 이용� 가능.� 공공데이터포털,� 국토교통부,�

서울시�등에서�제공하는�공공�데이터�활용�가능9).

� o� 솔트룩스,� 인공지능�원천기술�개발을�위해�구축한�데이터�공개10)

� � -� 20년간� 축적한� 주요� 산업별� 오픈� 데이터와� 동계� 지표� 및� 소셜� 빅데이터,�

다국어�언어자원,� 지식베이스�데이터�등� 80억� 건

� � -� 자사� 데이터� 클라우드�및� 빅데이터� 분석시스템� BigO를� 통해� 전� 세계로부터�

매일� 5백만�건� 이상의�데이터를�수집,� 실시간�분석�수행

� � -� 2016년� 11월부터�데이터�포털과� Open� API를� 통해�개방,� 여러�전문기업과�

파트너십을�체결,� 해외�진출을�통해�해외�선도기업과�경쟁�예정

Page 8: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

7

② 정부와의 협력 프로젝트를 통해 획득한 데이터 연계 사례

11) HIT, American Heart Association, Amazon Launch Cloud-Based Precision Medicine Data Marketplace, 11/15/216. http://hitconsultant.net/2016/11/15/aha-amazon-launch-precision-medicine-marketplace/ (접속일 : 2017.2.3.)

12) Forbes, Big Data: 33 Brilliant And Free Data Sources For 2016, FEB 12, 2016., http://www.forbes.com/sites/bernardmarr/2016/02/12/big-data-35-brilliant-and-free-data-sources-for-2016/#1d4545006796 (접속일 : 2017.2.2.)

� o� AWS�

� � -� 2013년부터� 미국� 항공우주국(NASA)과� 협업하여� ‘NASA� NEX’� 프로젝트를�

운영하고� 있으며,� 기후� 변화� 연구를� 위해� 지구� 표면의� 위성� 이미지� 등을�

수집하여�누구나�활용할�수� 있도록�공개

� � -� AWS� 이용자� 중� 데이터를� 공개하고� 싶은� 사람끼리� 연결하여� 데이터를�

공유할� 수� 있으며,� 구글이� 제공하는�유전자�변이� 지도,� 미국� 인구�통계� 등의�

데이터도�이용�가능(AWS� PublicDataSet)

� � -� 미국심장협회(American� Heart� Association:� AHA)와� 함께,� 클라우드�기반�

정밀� 의학� 데이터� 마켓플레이스를� 개시하여� 누구나� 방대한� 심장� 관련�

데이터셋에�검색,� 접근,� 관리�가능11)

� � -� 이외에도� AWS� public� datasets를� 통해� 1000� 지놈� 프로젝트,� NASA의�

지구�위성사진�등의�데이터를�무료로�사용할�수� 있도록�서비스�중12)

� o� MS,� 클라우드�장터�MS� Azure� Marketplace

� � -� 미국� 농무부와� 협업하여� 식량� 공급에� 대한� 연구를� 지원하면서,� 농작물�

정보� 및� 기반�시설,� 비즈니스�현황�등� 관련�데이터를�공유

� o� LG� 오디피아

� � -� 빅데이터에� 관심있는� 일반인� 누구나� 참여할� 수� 있는� 빅데이터� 공유� 플랫폼�

오디피아(ODPia)를� 개설,� 소셜� 미디어�데이터를�실시간으로�분석해� 라이프

스타일�트렌드�및� 기업�평판�흐름�도출

� � -� 여러� 공공기관이� 제공하는� 데이터를� 지역� 기반으로� 제공,� 데이터� 간� 연계�

분석�가능

� � -� 공공데이터와� LG� CNS의� 소셜� 데이터,� 신한카드의�카드� 관련� 데이터,� 한국

공간정보기술의�지도�데이터,� 빌트온의� e-커머스�데이터�연계

� � -�카드,�통신,�쇼핑몰,�소셜,�핀테크,�의료�데이터�등�전�영역의�데이터�수집�예정

Page 9: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

8

� 데이터 연계 · 분석 사례

o 빅데이터 분석 프로젝트에서 공공-민간데이터 연계 사례를 다수 찾아

볼 수 있으며, 민간-민간 간 연계 사례도 증가하는 추세

내�용

공공-민간

연계

ㅇ�통계청13)

� -� 통계청�인구�데이터와�민간신용정보기관의�신용�데이터를�연계,�

5만� 신혼부부� 가구� 표본을� 분석하여� 가구� 단위의� 부채� 및�

신용� DB구축(소득이� 높을수록�적은� 수의� 자녀를� 출산.� 남편과�

아내의�신용�등급이�비슷)

o� 신한카드14)

� -� 신한카드의�카드결재�정보와�한국은행�제주본부의�통계�자료를�

연계·분석하여� 제주도청이� 제주도� 관광통계지표� 수립,� 데이터�

기반�관광�정책�수립

o� 성남시15)

� -� 건강보험심사평가원의� 질병� 데이터(의료명세서)와� KCB� 신용

정보(소득,� 소비,� 부채,� 연체� 등)을� 연계·분석하여�행정동� 단위�

통계�데이터를�통해�공공�주치의제도�우선�도입�여부�검토

� � (예)� A지역� 거주민� 중� 5%가� 당뇨병� 보유자이며,� 이중� 50%가� 소득� 하위�

10%집단으로� 65세� 이상� 독거노인� →� 공공의료사업단� 파견� 진료,�

장기� 의료비�지원� 정책�마련

민간-민간�

연계

o� 네이버�데이터랩16)

� -� 네이버의� 검색� ·� 클릭� 데이터와� BC카드� 카드결제� 데이터를�

연계하여�소비�흐름�분석�및� 고객�행동�패턴을�파악할�수�있는�

중소사업자�비즈니스�컨설팅�서비스�준비�중

� -� 이용자들은� 데이터랩에� 신설된� ‘카드� 사용� 통계’� 기능을� 통해�

최근� 13개월� 간� 특정� 지역에서의� 카드결제� 횟수� 또는� 결제

금액이�높은�업종을�월� 단위로�확인�가능�

13) 통계청, 보도자료 - 공공․민간 빅데이터 연계 현황 및 활성화 방안, 2016.8.25.14) 신한카드블로그, 신한카드·제주도·한국은행, 공동 빅데이터 협업 추진, 2016.2.23.

http://www.shinhancardblog.com/202 (접속일 : 2017.2.21.)15) 여윤희, 빅데이터 가이드라인 마련 및 전문기관 지정에 따른 금융권 활용방안 및 기대효과, 발표자료,

KCB연구소, 2016.9.1. 16) 네이버, 네이버 데이터랩, BC카드와 융합해 중소사업자 비즈니스 인사이트 넓힌다., 2016.10.04.,

https://www.navercorp.com/ko/pr/pressReleaseDetail.nhn?board.boardNum=23782 (접속일 : 2017.2.23.) 및 블로터, “‘네이버 검색+BC카드 결제 데이터’ 가져다 쓰세요”, 2016.10.4. https://www.bloter.net/archives/264742 (접속일 : 2017.2.2.) 참조.

Page 10: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

9

Ⅳ 민간데이터 연계 방안

� 데이터 연계의 절차17)

o 데이터 연계의 절차는 다음 4단계를 거치나, 이는 대략적인 순서이며

복수의 절차가 한 번에 진행될 수 있음

①�데이터셋�선택� :� 공개할�대상�데이터셋�선택

②�라이센스�적용� :� 데이터의�지적재산권�명시

③� 데이터를� 활용� 가능하게�변환� :� 대량으로,� 활용� 가능한� 형식의� 데이터� 포맷,�

API� 등의�활용�

④� 데이터를�검색�가능하게�게시� :� 웹에�데이터셋과�목록�게시

1. 데이터셋 선택

- 규모가 큰 조직에서 공개할 데이터셋을 선택하기는 매우 어려우므로,

목록을 만들어 공개 데이터셋을 확인하는 신속한 과정 필요

- 데이터 이용자 커뮤니티에 임시 데이터셋 목록을 준비하여 의견을

묻고, 수요를 파악함. 다른 조직의 데이터셋을 참조할 수 있음

2. 라이센스 적용

- 대부분 데이터의 지적재산권은 명시적 허가가 없을 때, 제3자의

데이터 사용, 재사용 및 재배포를 허용하지 않음

- 지적재산권 존재여부가 불명확한 경우 투명성을 위해 라이센스를

적용하는 것이 필요

3. 데이터를 활용 가능하게 변환

- 기계 가독형으로 대량 이용이 가능해야 하며, 하나의 세트로 이용할

수 있어야 함

17) Open Knowledge International, Open Data Handbook – Open Data Guide, http://opendatahandbook.org/guide/en/ (접속일 : 2017.2.13.)

Page 11: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

10

- 그러나 6개월 후 정제된 데이터를 제공하는 것 보다 가공되지 않은

데이터를 지금 제공하는 것이 훨씬 좋음

- 온라인으로 데이터를 제공하는 방법으로는 웹사이트에서 다운로드,

제3자의 사이트(pachube.com, infochimps.com 등) 이용 등

제공�방법 특�징

기존�웹사이트-� 자사�사이트에서�다운로드

-� 제3자가�업데이트�여부를�알기�어려움

제3의�사이트

-� pachube.com,� infochimps.com,� talis.com� 등

-� 다른�데이터셋도�이용할�수� 있어�매우�유용

-� 종종�정보�분석�및� 사용(시각화)� 기능�제공

-� 플랫폼�독립성의�문제�발생� :� 특정�플랫폼�종속�발생

FTP

(File� Transfer� Protocol)�

-� 컴퓨터�폴더에서�파일�검색과�유사

-� 특정�목적에만�적합

토렌트-� BitTorrent라는�파일�사용,� 파일을�분산하여�공유

-� 대용량�데이터�배포에�매우�효과적

API

-� 큰� 파일의�모든�데이터를�얻지�않고�일정�부분만�선택

-� 실시간�업데이트되는� DB와�연결�가능

-� 개발과�유지�관리에�많은�비용�필요

<� 데이터�게시�방법� >

※�출처� :� Open� Knowledge� International

4. 데이터를 검색 가능하게 게시

- 데이터를 더 쉽게 찾을 수 있도록 해야 함(DataHub.org 이용 등)

- 전통적인 방법은 조직이 데이터 목록을 만드는 것. 다수가 사용하고

있는 CKAN과 같은 오픈 소스를 사용하면 별도의 투자 불필요

Page 12: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

11

� 데이터 연계 플랫폼 CKAN의 활용

o 데이터 플랫폼을 통해 데이터 공급자가 보유하고 있는 데이터를

효율적으로 연계하고 데이터 수요자가 쉽게 검색 · 활용할 수 있음

- 데이터의 공유, 관리, 활용 등 데이터 연계를 지원하기 위한 다양한

기능을 제공하며, 체계적인 데이터 관리, 공유, 연계를 위해 표준 지원

<� 데이터�연계�플랫폼�개념도� >

※�출처� :� 한국데이터베이스진흥원,� 2014.�

o 데이터 연계 플랫폼 비교

※� 출처� :� ROUTE-TO-PA� Project,� D2.1� State-of-the-art� Report� and� Evaluation� of� Existing� Open�

Data� Platforms,� 4TH,� June,� 2015.�

Page 13: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

12

o CKAN(Comprehensive Knowledge Archive Network)은 대표적인 오픈소스

데이터 연계 플랫폼으로 영국, 미국, 캐나다 등 40개 이상 국가에서 활용 중18)

- 비영리 재단법인 Open Knowledge Foundation에 의해 개발되었으며,

기본 기능 이외의 시각화나 API 추출 등의 특화기능은 Drupal19) 등

타 오픈 소스와 결합하여 개발되고 있음

구분 기능

데이터셋�

게시�검색

-� 데이터를�임포트�또는�웹� 인터페이스를�통해�게시

-� 키워드·태그를�이용,� 데이터셋�정보�및�이력관리를�볼� 수�있음

데이터

저장�관리

-� 데이터�및� 메타데이터의�저장

-� 상호작용하는�테이블,� 그래프,� 맵을�통한�구조화된�데이터�시각화

사용자�참여-� 다른� CKAN노드와�네트워크�연합

-� 데이터셋에�대한�이해와�의견을�제시�할� 수� 있는�커뮤니티�구축

커스터마이징�

및�확장

-� API� 제공� (링크�체킹,� 커멘트,� 분석�등� 다양한�확장�가능성)

-� 오픈�소스�라이선스�정책으로�무료로�다운로드�및� 실행�가능

<� CKAN의�주요�기능� >

※�출처� :�한국데이터베이스진흥원,�데이터�연계�플랫폼�구축�가이드라인�개발�결과보고서,� 2014.11

- 자체적으로 제공하는 플랫폼의 기능을 사용할 수도 있고, CKAN

API만 가지고 별도의 서비스 제공도 가능

- 데이터 검색 기능, 키워드 근접 매칭(퍼지 매칭), CSV 데이터의 시각화

(테이블, 그래프, 지도) 지원

- 데이터셋 관리 등의 목적으로 다양한 플러그인(Plug-in) 추가 가능

※� 대표적인� 플러그인� Google� Analytics는� 데이터� 포털의� 트래픽이나� 데이터셋의� 다운

로드�횟수에�대한�모니터링�지원

18) 정유철 외, 오픈 데이터 플랫폼 동향, 정보처리학회지 제23권 제5호. 2016. 9. 및 한국데이터베이스진흥원, 데이터 연계 플랫폼 구축 가이드라인 개발 결과보고서, 2014.11.를 참조하여 재구성

19) Drupal은 개인 또는 커뮤니티가 웹사이트의 다양한 자료들을 손쉽게 관리, 조직, 출판할 수 있도록 다양한 기능을 제공하는 오픈 소스 기반의 컨텐츠 관리 시스템으로 미 정부를 중심으로 많은 기관들이 사용하고 있다(정유철 외, 2016).

Page 14: 민간데이터연계와CKAN의활용€¦ · 발표자료, 2016. 2) Open Data Handbook, ... -구글트렌드데이터스토어: ... -지역서비스에등록된업체정보와해당지역내모바일검색사용자수,

Data� Issue� Report� 2017-02� 제106호�

13

Ⅴ 요약

o 민간데이터는 공공재적 특성을 지니며, 다른 데이터와 결합을 통해

새로운 부가가치를 창출할 수 있는 중요한 자산

- 기업 또는 개인의 데이터는 무형자산으로 이용시 적정 대가를 지불

해야 하나 데이터 소유자도 데이터 연계에 따라 발생하는 새로운

비즈니스 기회에 주목할 필요가 있음

- 빅데이터 분석 사례를 통해 민간데이터의 가치가 입증되고 있으며,

글로벌 기업들도 데이터 플랫폼에서 민간데이터 연계 서비스 중

o 데이터 연계는 ① 데이터셋 선택 ② 라이센스 적용 ③ 데이터 변환

④ 데이터 게시의 순서로 진행하며 자사 웹사이트나 타 웹사이트,

FTP, 토렌트, API 등 다양한 방법으로 변환, 게시할 수 있음

o 데이터 연계 플랫폼은 데이터를 효율적으로 연계하고 쉽게 검색·활용

할 수 있으며, 특정 플랫폼에 종속되지 않고 사용 가능한 오픈 소스

데이터 플랫폼 CKAN을 통해 공공·민간 데이터 연계를 확대해야 함

- CKAN은 수 많은 공공데이터 포털에서 사용 중으로 민간데이터와의

연계에 효율적이며, 확장성과 유연성, 분석 및 시각화 등 다양한

기능을 지원해 뛰어난 플랫폼으로 평가받고 있음

l 본�보고서의�내용을�인용하실�경우�한국데이터진흥원의�

이슈리포트임을�명시해�주십시오.�

l 자료의�내용은�진흥원의�공식�입장과�상이할�수� 있습니다.�

l 연락처� :� 한국데이터진흥원�정책기획실�임태훈

02-3708-5364,� [email protected]