빅데이터를 이용한 서울시 행복지수 분석 및 예측을 위한 실험 ... ·...

8
Journal of KIBIM Vol.7, No.1 (2017) 28 빅데이터를 이용한 서울시 행복지수 분석 및 예측을 위한 실험 및 고찰 Forthcoming Big Data in Smart Cities: Experiment for Machine Learning Based Happiness Estimation in Seoul City 신동윤 1) , 송유미 2) Shin, Dongyoun 1) Song, Yu-Mi 2) Received March 9, 2017; Received March 18, 2017 / Accepted March 20, 2017 ABSTRACT: Cities have complex system composed diverse activities. The activities in cities have complex relationship that creates diverse urban phenomena. Big Data is emerging technology in order to understand such complex network. This research aims to understand such relations by analysing the diverse city indexes. 28 indexes were collected in 25 of districts in Seoul city and analysed to find a weighted correlation. By defining the correlation values of certain years, it tries to predict the missed index values, “happiness” of each districts in other years. The result presents that the overall prediction accuracy 70.25%. However, for further discussion, the result is considered that this methods may not enough to use in practice, since the data has inconstant accuracy by different learning years. KEYWORDS: Big data, machine learning, prediction model, urban data model 키워드 : 도시 빅데이터, 기계학습, 머신러닝, 예측 모델, 도시 지표, 가중치 분석 1) 정회원, 성균관대학교 건축학과 선임연구원 ([email protected]) (교신저자) 2) 학생회원, 성균관대학교 미래도시융합공학과 박사과정 ([email protected]) DOI: https://doi.org/10.13161/kibim.2017.7.1.028 1. 연구의 배경 및 목적 도시는 인간의 정치, 경제, 사회 활동이 종합적으로 발현되는 무대이면서 인간이 만든 가장 복잡한 시스템 중 하나일 것이다. 전 세계적으로 빠른 도시화와 함께 스마트 시티와 같은 새로운 개념에 대한 시도가 진행되고 있다. 이와 동시에 매우 다양한 형태로 발전하고 있는 도시 환경을 올바르게 이해하고 보다 발 전시키기 위해 많은 도시 이론이 등장하고 있다(Batty, 2012; Scott, 2015). 최근의 도시 연구에 대한 새로운 시도는 도시에서 발생하는 행위들 간의 상관관계 분석을 통하여 도시의 현상의 상관관계를 정의하는 것이다. The Real Time City(Kitchin 2014a, 201b)와 같은 프로젝트는 도시의 수많은 지표들을 하나의 플랫폼으로 통합하여 종합적으로 파악하기 위한 시도를 하고 있다. 또한, 최근의 인공지능 빅데이터 기술의 발달과 더불어 Urban Big Data (Kitchin, 2016)와 같은 프로젝트를 통하여 도시를 구성하 는 지표들간의 연관성 분석을 통해 도시의 다양한 현상을 기술 적으로 분석하려는 시도가 이어지고 있다. 그 구체적인 사례로, Dublin시에서는 DublinDashboard프로젝트를 통하여(Fig. 1), 도시에서 수집된 각종 지표들을 실시간으로 가시화 하고 데이터 를 공유하는 플랫폼을 만들어 운영하고 있다. 사실 수많은 사람들의 각기 다른 행위에 대한 종합적인 결과 물로 도시를 이해하려는 접근은 매우 보편적인 시도이다 (Montgeometry, 2008). 하지만 이러한 접근은 기본적으로 방대 한 도시의 데이터를 수집할 수 있어야 한다는 기술적, 물리적 전제(Jagadish et al., 2014)가 따른다. 최근에는 CCTV를 비롯한 휴대폰 통신 및 도시 곳곳에 설치 된 각종 센서 등의 발달에 힘입어 이러한 기술적 물리적 한계가 극복되고 있으며 오히려 빅데이터로 불리는 방대해진 데이터 해석 기술이 새로운 도전과제로 떠오르고 있다(Shin et al., 2015). 그와 동시에 인공지능, 머신 러닝, 혹은 딥 러닝이라고 불리는 데이터 분석의 자동화를 위한 방법이 그 핵심 기술로 대두되고 있다(Najafabadi, M. M., et al., 2015). 사실 이러한 연구 및 프로젝트들은 도시의 여러 지표들을 하

Transcript of 빅데이터를 이용한 서울시 행복지수 분석 및 예측을 위한 실험 ... ·...

Page 1: 빅데이터를 이용한 서울시 행복지수 분석 및 예측을 위한 실험 ... · 2018-12-13 · 그와 동시에 인공지능, 머신 러닝, 혹은 딥 러닝이라고

Journal of KIBIM Vol.7, No.1 (2017)28

빅데이터를 이용한 서울시 행복지수 분석 및 예측을

위한 실험 및 고찰

Forthcoming Big Data in Smart Cities: Experiment for Machine

Learning Based Happiness Estimation in Seoul City

신동윤1), 송유미

2)

Shin, Dongyoun1)・ Song, Yu-Mi

2)

Received March 9, 2017; Received March 18, 2017 / Accepted March 20, 2017

ABSTRACT: Cities have complex system composed diverse activities. The activities in cities have complex relationship that creates

diverse urban phenomena. Big Data is emerging technology in order to understand such complex network. This research aims to

understand such relations by analysing the diverse city indexes. 28 indexes were collected in 25 of districts in Seoul city and analysed to

find a weighted correlation. By defining the correlation values of certain years, it tries to predict the missed index values, “happiness” of

each districts in other years. The result presents that the overall prediction accuracy 70.25%. However, for further discussion, the result is

considered that this methods may not enough to use in practice, since the data has inconstant accuracy by different learning years.

KEYWORDS: Big data, machine learning, prediction model, urban data model

키워드 : 도시 빅데이터, 기계학습, 머신러닝, 예측 모델, 도시 지표, 가중치 분석

1)정회원, 성균관대학교 건축학과 선임연구원 ([email protected]) (교신저자)

2)학생회원, 성균관대학교 미래도시융합공학과 박사과정 ([email protected])

DOI: https://doi.org/10.13161/kibim.2017.7.1.028

1. 연구의 배경 및 목적

도시는 인간의 정치, 경제, 사회 활동이 종합적으로 발현되는

무대이면서 인간이 만든 가장 복잡한 시스템 중 하나일 것이다.

전 세계적으로 빠른 도시화와 함께 스마트 시티와 같은 새로운

개념에 대한 시도가 진행되고 있다. 이와 동시에 매우 다양한

형태로 발전하고 있는 도시 환경을 올바르게 이해하고 보다 발

전시키기 위해 많은 도시 이론이 등장하고 있다(Batty, 2012;

Scott, 2015).

최근의 도시 연구에 대한 새로운 시도는 도시에서 발생하는

행위들 간의 상관관계 분석을 통하여 도시의 현상의 상관관계를

정의하는 것이다. The Real Time City(Kitchin 2014a, 201b)와

같은 프로젝트는 도시의 수많은 지표들을 하나의 플랫폼으로

통합하여 종합적으로 파악하기 위한 시도를 하고 있다. 또한,

최근의 인공지능 빅데이터 기술의 발달과 더불어 Urban Big

Data (Kitchin, 2016)와 같은 프로젝트를 통하여 도시를 구성하

는 지표들간의 연관성 분석을 통해 도시의 다양한 현상을 기술

적으로 분석하려는 시도가 이어지고 있다. 그 구체적인 사례로,

Dublin시에서는 “DublinDashboard” 프로젝트를 통하여(Fig. 1),

도시에서 수집된 각종 지표들을 실시간으로 가시화 하고 데이터

를 공유하는 플랫폼을 만들어 운영하고 있다.

사실 수많은 사람들의 각기 다른 행위에 대한 종합적인 결과

물로 도시를 이해하려는 접근은 매우 보편적인 시도이다

(Montgeometry, 2008). 하지만 이러한 접근은 기본적으로 방대

한 도시의 데이터를 수집할 수 있어야 한다는 기술적, 물리적

전제(Jagadish et al., 2014)가 따른다.

최근에는 CCTV를 비롯한 휴대폰 통신 및 도시 곳곳에 설치

된 각종 센서 등의 발달에 힘입어 이러한 기술적 물리적 한계가

극복되고 있으며 오히려 빅데이터로 불리는 방대해진 데이터

해석 기술이 새로운 도전과제로 떠오르고 있다(Shin et al., 2015).

그와 동시에 인공지능, 머신 러닝, 혹은 딥 러닝이라고 불리는

데이터 분석의 자동화를 위한 방법이 그 핵심 기술로 대두되고

있다(Najafabadi, M. M., et al., 2015).

사실 이러한 연구 및 프로젝트들은 도시의 여러 지표들을 하

Page 2: 빅데이터를 이용한 서울시 행복지수 분석 및 예측을 위한 실험 ... · 2018-12-13 · 그와 동시에 인공지능, 머신 러닝, 혹은 딥 러닝이라고

한국BIM학회논문집 7권 1호 (2017) 29

Figure 1. Dublin Dashboard, http://www.dublindashboard.ie/

Figure 2. Visualization of Seoul city budget,

http://data.seoul.go.kr/visual/project/1050

Figure 3. 25 administrative districts of Seoul city (Source:

Seoul Development Institute)

나의 플랫폼을 통하여 효과적으로 보여주는 것은 가시화의 측면

에서 매우 성공적이라 할 수 있다. 그러나 지표들 간의 관계성을

정의해서 보여주거나 분석을 통한 예측을 위한 도구로는 뚜렷한

한계를 가지고 있다.

빅데이터를 도시 계획 및 운영에 이용하려는 시도는 복잡한

도시 현상을 과학적으로 규명할 수 있다는 점에서 매우 의미

있는 기술이 될 것이다. 하지만 이를 실질적으로 사용하는데 필

요한 기술의 뒷받침은 그 이상에 미치지 못하는 실정이다.

이 연구는 도시환경에서 빅데이터를 활용하는데 있어서 발생

하는 이러한 한계를 인식하고 이를 해결하기 위한 시도를 그

내용으로 한다. 도시에서 발생하는 다양한 행위들 간의 관련성

혹은 인과 관계 등을 파악하고 이를 기계 학습을 통하여 예측을

하는 방법에 대한 실험과 그 효용성에 대한 고찰을 주 내용으로

하고 있다.

2. 도시 데이터 수집

본 연구는 정부의 데이터 오픈 서비스를 이용하여 진행되었

다. 특히 서울시의 오픈 데이터 소스를 바탕으로 서울시의 25개

구를 대상으로 4년간의 데이터를 수집하였다. 서울시 공공데이

터 서비스가 제공하는 데이터는 각종 데이터 간의 객관적인 수

치정보는 제공하고 있으나(Fig. 2) 이 연구가 지향하고 있는 상

관관계 분석 혹은 예측에 대한 정보 혹은 도구는 제공하고 있지

않다.

시험에 이용된 서울시의 25개 행정구는 다음과 같다(Fig. 3).

� 종로구, 중구, 용산구, 성동구, 광진구,

동대문구, 중랑구, 성북구, 강북구, 도봉구,

노원구, 은평구, 서대문구, 마포구, 양천구,

강서구, 구로구, 금천구, 영등포구, 동작구,

관악구, 서초구, 강남구, 송파구, 강동구

각각의 행정구역별 행복지수를 포함한 28개의 각기 다른 지

표들을 선정하였다. 지표를 선정한 기준은 따로 두지 않았으며

4개년 동안 데이터가 일관되게 수집된 경우에 한해서 무작위로

Page 3: 빅데이터를 이용한 서울시 행복지수 분석 및 예측을 위한 실험 ... · 2018-12-13 · 그와 동시에 인공지능, 머신 러닝, 혹은 딥 러닝이라고

Journal of KIBIM Vol.7, No.1 (2017)30

Table 1. Sources and units information of the experiment

자료명 출처 단위 비고

시민

행복지수

종합 행복지수

서울서베이10점기준

환산값

건강상태

재정상태

주변인물관계

가정생활

사회생활

문화환경 만족도 서울서베이10점기준

환산점수

보행환경 만족도 서울서베이10점척도

환산평균값

주민등록인구(구별) 통계데이터담당관 명*기준시점 : 연간은 매년 12.31일기준, 분기는 매분기 말기준

*세대수, 세대당인구 : 외국인 제외 * 65세이상 고령자 수 : 외국인 포함

인구밀도 통계데이터담당관 명/㎢ * 인구밀도 = 서울시 총인구(내국인+외국인)/면적

평균연령 통계데이터담당관 세*평균연령={각세연령별인구×(연령+0.5)}의총합을총인구로나눈값(외

국인제외)

가로녹시율(구별) 조경과 %

1인당 공원면적 공원녹지정책과 ㎡ 주소지별 공원정보는 '서울의 공원(parks.seoul.go.kr/park/)'

교통이용 만족도 서울서베이10점척도

환산평균값

석유류 소비량 한국석유공사 천배럴*휘발유, 등유, 경유, 벙커C유, LPG, 기타

*기타는경질중유,중유,용제,항공유,부생연료유등포함

주택가격지수(매매)

한국감정원

전국주택가격

동향조사

기준시점

100

*기준시점개편

*국가통계위원회의결정에따라전국주택가격동향조사의통계작성기관이K

B국민은행에서한국감정원으로변경됨(2013년부터)

생활안전도

소음

서울서베이 % 심각/비심각 설문조사 (*심각 비율 사용)

대기오염

수질오염

범죄/폭력

쓰레기 방치

주차질서

화재발생 현황소방재난본부

현장대응단건

국가화재분류체계(2007.1.1)변경.쓰레기소각,음식물조리,빨래삶기,전기

스파크등오인처리를화재로분류

비만도지역사회건강조사

「지역사회건강통계」%

스트레스 인지율

보건의료정책과,

서울시 건강격차

모니터링 결과

%

*스트레스인지율:평소스트레스수준이대단히많거나많다고응답한사람의

비율

*산출식:(만19세이상인구중'평소일상생활중에스트레스를어느정도느끼

고있습니까?'라는설문에'많이느끼는편이다'또는'대단히많이느낀다'고응

답한사람수/19세이상조사대상응답자수)x100

자살률통계청

「사망원인통계」10만명당 명 자살률 : (자살로 인한 사망자수 ÷ 연앙인구) × 100,000

교육재정 지원현황 교육정책담당관 백만원 *본청 편성분 제외

학급당 학생수서울특별시교육청

「서울교육통계연보」명 *고등학교 학생수만 사용

지표를 선정하였다. 따라서 도시의 다양한 지표들 중 서로 명확

한 연관성이 보이지 않는 지표들도 실험을 위한 지표로 선정하

였다.

이는 도시에서 발생하는 복잡한 현상들 속에 숨은 의미 혹은

연관성을 발견하기 위한 전제에서 나온 것이다.

선정된 29개의 지표는 아래와 같다.

� 행복지수, 건강상태, 재정상태, 주변인물관계,

가정생활, 사회생활, 문화환경 만족도,

보행환경 만족도, 주민등록인구, 인구밀도, 평균연령,

가로녹시율, 1인당공원면적, 교통이용 만족도,

석유류 소비량, 주택가격지수(매매), 소음, 대기오염,

수질오염, 범죄/폭력, 쓰레기 방치, 주차질서,

화재발생현황, 비만도, 스트레스 인지율, 자살률,

교육재정 지원현황, 학급당 학생수(고등학교)

Table 1은 수집한 정보의 출처, 단위와 관련된 구체적인 정보

를 보여준다. 그리고 Fig. 4는 지표로 이용된 항목들과 2011년도

의 데이터 샘플을 보여준다.

3. 가중치를 이용한 상관관계 분석

본 연구의 목적은 지표들 간의 상관관계 학습을 통하여 대상

지표의 미래 예측 방법에 대해 실험하는 것이다. 실험의 구체적

Page 4: 빅데이터를 이용한 서울시 행복지수 분석 및 예측을 위한 실험 ... · 2018-12-13 · 그와 동시에 인공지능, 머신 러닝, 혹은 딥 러닝이라고

한국BIM학회논문집 7권 1호 (2017) 31

Figure 4. Example of selected 28 distinctions indexes, 2011

Figure 5. Multi operational process for correlation analysis, Determine weight value with diverse Influence factor operators

(i.e. Weight by Correlation, Weight by Gini Index, Weight by Information Gain, Weight by Information Gain Ratio).

인 방법은, 미리 설정된 28개의 다양한 도시 지표 사이의 상관관

계를 정의하고 그 지표 중 하나인 “행복지수”를 예측해 보고 그

정확성을 파악해 보는 것이다.

그 첫번째 과정으로 다양한 도시 평가의 지표와 행복지수와

Page 5: 빅데이터를 이용한 서울시 행복지수 분석 및 예측을 위한 실험 ... · 2018-12-13 · 그와 동시에 인공지능, 머신 러닝, 혹은 딥 러닝이라고

Journal of KIBIM Vol.7, No.1 (2017)32

Figure 6. Correlation weight of each indexes with Happiness

index

a

b

Figure 7. Distribution of highly correlated index, “Health

(a)” and low correlated index, “Stress (b)”, with

a index, “Happiness”

의 상관관계 분석을 하였다. 행복지수와의 높은 상관관계인 지

표를 찾는 과정으로 상관관계가 높을수록 높은 가중치가 부여된

다. 연구의 객관성을 위해 주관적이거나 직관적으로 인식되는

지표들 간의 연관성을 고려하지 않았으며 오로지 상관관계 함수

를 이용하여 지표들 간의 데이터에서 유추되는 가중치를 산출하

였다.

지표들 간의 상관관계의 분석과 기계학습을 통한 예측을 실

행하기 위한 어플리케이션으로 이 연구에서는 Rapid miner

Studio 를 이용하였다. 이는 다양한 통계 분석을 위한 수식부터

데이터 편집 및 서버와의 실시간 통신, 다양한 머신 러닝과 관련

된 알고리즘, 그리고 효과적인 가시화를 지원하는 상용 프로그

램으로 머신 러닝과 관련된 실험에 매우 유용한 어플리케이션이

다(Klinkenberg, 2013).

먼저 Rapid miner를 이용하여 행복지수와 타 데이터와의 상

관관계 가중치를 결정하기 위한 알고리즘을 구성하였다. 그림

5 는 노드 트리 형태로 구성된 처리 프로세스 과정을 보여주고

있다. 가중치 결정을 위한 수식으로는 상관관계 함수, 지니 인덱

스 함수, gain함수, gain ratio를 병렬로(Stark, 1988) 이용하였

다. 그리고 그 결과를 하나로 합산한 결과를 바탕으로 최종 가중

치를 결정 하였다.

Fig. 6은 이러한 상관관계 분석을 통한 가중치 분포를 보여준다.

여러 지표 중 주변인물관계, 재정상태, 사회생활 과 같은 지

표는 행복지수와 가장 긴밀한 상관관계를 가지고 있는 것으로

나타났다. 반면 녹시율, 학급당 학생수, 교육비, 자살률 등과는

비교적 적은 관계성을 가지고 있다고 보여주는데, 특히 행복지

수는 스트레스와의 관계성이 가장 낮다고 보여주고 있다. 이는

보편적인 직관과 상반되는 결과로 보여진다.

가장 높은 상호 상관관계성을 보여주고 있는 행복지수와 건

강(Fig. 7 (a)), 그리고 가장 낮은 상관관계성을 보여주고 있는

Page 6: 빅데이터를 이용한 서울시 행복지수 분석 및 예측을 위한 실험 ... · 2018-12-13 · 그와 동시에 인공지능, 머신 러닝, 혹은 딥 러닝이라고

한국BIM학회논문집 7권 1호 (2017) 33

Figure 8. Yearly weighted indexes

Figure 9. The correlation mining process with Rapid Miner Studio

행복지수와 스트레스(Fig. 7 (b)) 의 상관관계는 분포도를 통해

그 차이를 확인할 수 있다. 이 연구는 데이터만을 이용한 예측에

대한 실험으로 이러한 직관과 상반되는 결과를 편집 없이 그대

로 예측 데이터로 활용하였다.

가중치는 2011년도부터 2014년까지 매년 분석을 하였다. 가

중치에 대한 결과는 Fig. 8에서 보듯이 해당 년도 마다 다소 상

이한 분포를 보인다.

이러한 연도별로 일관적이지 지표 값의 분포는 예측 결과 값

의 정확성에 영향을 미칠 것으로 보인다. 다음 단락은 각 해당년

도의 가중치를 학습 자료로 이용한 대상지표의 예측 값에 대한

결과를 보여준다.

4. 학습결과를 이용한 예측

먼저 2011년도에서부터 2014년도 까지 서울시에 수집된 통

계자료를 이용하여 해당 년도의 지표 사이의 가중치를 분석하였

다. 그리고 이를 학습데이터로 활용하는 머신 러닝 알고리즘을

통하여 예측 결과 값을 얻었다. 이 단락은 그 결과 값에 대한

논의를 다루고 있다.

학습을 통한 예측의 개괄적인 방법은 먼저 행복지수가 포함

된 데이터를 이용하여 가중치를 구한다. 그리고 이를 학습 데이

터로 활용 하여 행복지수를 삭제한 예측 모델에 적용해 결과를

예측해 본다. 마지막으로, 행복지수가 삭제되지 않은 실제 데이

터를 통하여 그 정확도를 검증하는 방식이다.

Fig. 9는 Rapid miner에서 작성된 노드 트리 방식(Gilks

1944)의 프로세스 과정을 화면 캡춰한 이미지로, 2011년도의 25

개 행정 구역별 28개의 지표 데이터의 가중치 분석 결과를 학습

하여 2012년도의 행정 구역별 행복지수 예측을 위한 과정을 보

여주고 있다.

먼저 Fig. 9의 (a) Division data learning노드는 2011년도의

행복지수가 포함된 데이터 값을 입력 받는 노드이다. 여기에서

입력 받은 데이터 값은 (b) Determine Influence 노드에¡서 행정

구역별 지표 간의 가중치를 구하게 된다. 이 노드의 내부 구조는

그림 5에서 설명된 다중 가중치 계산식을 포함하고 있다. 이 노

드에서 상관관계 분석을 통하여 최종적인 가중치 값을 결정하게

된다. 이렇게 결정된 가중치 값은 학습 자료로 활용하기 위하여

(d) Post Process 노드로 입력된다. 이 과정과 동시에 (c)

Division data 2012노드에서는 행복지수가 제외된 2012년도의

행정 구역별 지표 데이터를 입력 받게 된다. 이렇게 입력 받은

데이터 역시 (d) Postprocess data노드로 입력되고 이 노드에서

2011년도의 가중치를 기준으로 2012년도의 행복지수를 비교 평

가하게 되며, 최종적인 예측 값을 출력하게 된다.

Page 7: 빅데이터를 이용한 서울시 행복지수 분석 및 예측을 위한 실험 ... · 2018-12-13 · 그와 동시에 인공지능, 머신 러닝, 혹은 딥 러닝이라고

Journal of KIBIM Vol.7, No.1 (2017)34

Table 2. Accuracy evaluation of Happiness estimation

Ground Truth

Classified 2011 2012 2013 2014

2011 100% 52% 56% 56%

2012 52% 100% 64% 64%

2013 56% 64% 100% 72%

2014 52% 68% 68% 100%

total 65% 71% 72% 73%

5. 가중치 값을 이용한 연도별 예측 결과

이렇게 평가된 자료를 실제 행복지수가 조사된 자료와 비교

하여 그 정확성을 %로 측정하였다.

Table 2는 실제로 수집된 데이터가 보여주는 행복지수

(Ground truth)와 예측된 행복지수(Classified)를 구별로 비교한

정확도에 대한 결과 값이다. 행복지수를 상위권과 하위권 두 분

류로 구분하였고 각각 구분된 25개의 구별 행복지수의 순서를

비교하여 정확도를 측정 하였다.

Table 2의 결과를 보면, 해당 년도의 자료를 바탕으로 같은

년도의 행복지수를 예측한 결과는 예상대로 100%의 정확도를

보여주는 것을 알 수 있다. 즉 2011년도의 자료를 학습하여 2011

년도의 행복지수를 예측한 결과는 100%의 정확성을 보여준다.

따라서 당해 연도 예측을 포함한 행복지수 예측의 평균 정확성

은 70.25%를 보여주는데 반해 당해 연도의 예측을 제외한 행복

지수 예측 60.3%로 비교적 낮은 수치를 기록하는 것을 볼 수

있다.

또한 학습 년도와 다른 년도와 행복지수 예측 결과는 52%에

서부터 72%에 이르는 학습 연도별 그리고 기준 연도별 매우 폭

넓은 정확성 분포를 보여주었다.

예를 들어, 2011 년도의 데이터를(Ground Truth) 학습하여

2012, 2013, 2014년도의 정확성을 예측한 결과는(Table 2의 첫

번째 열 결과 값) 각각 52%, 56%, 52%로써 기대보다 매우 낮은

결과를 보여주는데 반해 2014 년도의 자료를 이용하여 2011,

2012, 2013 년도의 행복지수를 예측한 결과는(Table 2의 네 번

째 열 결과 값) 각각 56%. 64%, 72%로써 상대적으로 높은 정확

성을 보여주었다. 결과 예측을 위한 학습은 다차원 학습의 결과

이므로 학습년도와(Ground Truth) 예측년도(Classified)를 서로

뒤바꾼 년도에 대한 대칭적인 결과 값을 보여주지는 않았다.

6. 결론

이 연구의 출발은 도시에서 일어나는 여러 복잡한 행위들 간

의 지표들이 서로 밀접하게 관련성을 가지고 있을 것이고 따라

서 28개의 한정된 지표들만으로도 매우 효과적으로 도시의 현

상에 대한 이해와 예측을 할 수 있다는 가정(Boyd, 2012)을 가지

고 실험을 시작 하였다.

서울시가 제공한 28개의 다양한 지표를 2011년부터 2014년

까지(4년) 구별로 수집하였으며 이를 통하여 구별 행복지수를

예측하여 보았다. 실험 결과는 연도별로 편차가 많은 예측 결과

값을 비롯하여 전반적으로 낮은 예측 정확도(평균 70.25%)를

보인다. 이러한 낮은 정확성에 대한 원인은 크게 두 가지로 볼

수 있다.

첫째로 학습을 위해 유추된 상관관계 가중치 값이 연도별로

높은 상관관계를 가지고 있지 않다는 것과, 둘째로 근본적으로

데이터의 정확성 혹은 일관성이 높지 않다는 것을 가정해 볼

수 있다. 사용된 지표의 대부분이 설문조사를 통해 수집되었으

며, 이에 조사환경의 변화가 발생하는 설문조사의 특성상 다년

에 걸친 조사가 실시된 환경의 일관성에 대한 추가적인 검토가

필요할 것으로 보인다.

데이터의 신뢰성을 높이 본다는 전제하에도 연구의 결과는

정해진 소수의 통계 지표들 사이의 상관관계 분석을 통한 도시

현상 예측이 사실상 높은 신뢰성을 가지기 힘들다는 생각을 들

게 하였다.

이는 앞서 보여준 그림 8의 연도별 데이터의 가중치를 나타

낸 그래프를 통하여 짐작해 볼 수 있었는데, 지표들 간의 상관관

계가 연도별로 비교적 상이한 모습을 보여주고 있었고 이러한

일관성이 떨어지는 가중치를 바탕으로 한 예측은 정확도가 떨어

질 것이라는 추론을 해 볼 수 있다.

예측 결과 중 특이한 점은 2011 년도의 지표 자료를 학습 데이

터로 하여 예측을 한 결과는 상대적으로 낮은(65%) 예측 정확성

을 보여주는데 반해, 2014년도의 지표 값을 학습 데이터로 활용

한 경우는 전반적으로 향상된(73%) 예측 정확성을 보여 주었다

는 점이다. 이는 학습 자료의 신뢰성 역시 예측의 정확성을 높여

줄 수 있는 중요한 요소로 해석될 수 있다.

7. 예측 정확성에 대한 토론 및 고찰

종합적으로 판단해 볼 때, 이 연구는 도시 현상을 객관적인

지표들로 이해하기 위한 방법으로써 무작위로 선정된 28개의

지표들을 이용하였는데, 이러한 한정된 데이터를 이용한 예측은

한계가 명확하다는 결론을 내릴 수 있다고 생각한다. 즉 연도별

지표의 값이 변화하게 된 근본 요인들을 추적 할 수 없었으며,

지표 외부의 값으로 인하여 영향을 받은 내부 지표의 영향을

예측 시스템에 반영할 수 없었다.

이를 극복하기 위해서 도시 빅데이터 연구가 나아가야 할 방

향은 물리적으로 데이터의 범위를 확장(지표의 개수 확장)하는

것과 동시에 근접성 높은 정보들을 지능적으로 선별하여 보다

Page 8: 빅데이터를 이용한 서울시 행복지수 분석 및 예측을 위한 실험 ... · 2018-12-13 · 그와 동시에 인공지능, 머신 러닝, 혹은 딥 러닝이라고

한국BIM학회논문집 7권 1호 (2017) 35

효율적인 관계성 분석을 위한 기술의 개발이 선행되어야 한다고

생각된다.

즉, 목표가 되는 현상에 대한 추적을 용이하게 하는 도시 빅데

이터 지도와 같은 수많은 데이터의 유기적인 관계성을 정의하는

연구가 매우 유용할 것이라 생각된다.

나아가 객관적인 센서 정보 외의 다양한 사회, 문화적, 혹은

정치적 변화를 반영할 수 있는 보다 진화된 빅데이터 환경이

필요하다는 결론을 얻을 수 있었다.

이는 지표들 간의 상관관계를 뛰어넘는 사회, 문화적 나아가

정책적 결정과 같은 요소를 어떻게 예측 시스템에 반영될 수

있는지에 대한 숙제를 남겨주었다.

본 연구의 핵심은 복잡하게 얽혀있는 도시의 다양한 현상에

대한 인과관계 혹은 상관관계를 빅데이터 관점에서 정의해 보

고, 그 결과를 머신 러닝 도구를 이용하여 학습하고 예측하여

정확성을 알아보는데 있다. 특히 전문가의 직관에 의존하는 기

본의 방법에서 벗어나 보다 객관적이고 과학적인 방법을 통하여

도시에서 발생하는 현상을 이해하려는 시도로 그 의의가 있다.

감사의 글

이 성과는 2016년도 정부(미래창조과학부)의 재원으로 한국

연구재단의 지원을 받아 수행된 연구임(No. 2016R1C1B2013424).

References

Boyd, D., Crawford K. (2012). Critical questions for big data:

Provocations for a cultural, technological, and scholarly

phenomenon. Information, communication & society

15(5): 662-679.

Gilks, W. R., Thomas A., Spiegelhalter D. J. (1994). A language,

program for complex Bayesian modelling. The Statistician:

169-177.

Hampton, Strasser C. A., Tewksbury J. J., Gram W. K.,

Budden A. E., Batcheller A. L., Duke C. S., Porter J. H.

(2013). Big data and the future of ecology. Frontiers in

Ecology and the Environment 11(3): 156-162.

Jagadish H., Gehrke J., Labrinidis A., Papakonstantinou Y.,

Patel J. M., Ramakrishnan R., Shahabi C. (2014). Big data

and its technical challenges. Communications of the

ACM 57(7): 86-94.

Kitchin, R. (2014). a. The real-time city? Big data and smart

urbanism. GeoJournal 79(1): 1-14.

Kitchin, R. (2014). b. Making sense of smart cities: addressing

present shortcomings. Cambridge Journal of Regions,

Economy and Society: rsu027.

Klinkenberg, R. (2013). RapidMiner: Data mining use cases

and business analytics applications, Chapman and

Hall/CRC.

Kolmogorov, V., Zabih R. (2001). Computing visual cor-

respondence with occlusions using graph cuts. Computer

Vision, 2001. ICCV 2001. Proceedings. Eighth IEEE

International Conference on, IEEE.

Montgomery, J. (2008). The new wealth of cities: city

dynamics and the fifth wave, Ashgate Publishing, Ltd.

Najafabadi, M. Najafabadi M. M., Villanustre F., Khoshgoftaar

T. M., Seliya N., Wald R., Muharemagic E. (2015). Deep

learning applications and challenges in big data

analytics. Journal of Big Data 2(1): 1.

Shin, D., Aliaga D., Tuncer B., Arisona S. M., Kim S., Zund

D., Schmitt G. (2015). Urban sensing: Using smartphones

for transportation mode classification. Computers, Environment

and Urban Systems 53: 76-86.

Stark, O., Taylor J. E., Yitzhaki S. (1988). Migration, remittances

and inequality: A sensitivity analysis using the extended

Gini index. Journal of Development Economics 28(3):

309-322.