분석7기 5조

17
일일 KRW-USD 환율 예측 멘토 : 안정국 조장 : 백형충 조원 : 윤상택, 최선애, 김성희, 차순표 2014. 09. 04. 빅데이터 분석전문가 7기 5조

Transcript of 분석7기 5조

Page 1: 분석7기 5조

일일 KRW-USD 환율 예측

멘토 : 안정국

조장 : 백형충

조원 : 윤상택, 최선애, 김성희, 차순표

2014. 09. 04.

빅데이터 분석전문가 7기 5조

Page 2: 분석7기 5조

Agenda

I. 서론

II. 관련 연구

III. 데이터 수집 및 정합성

IV. 모델링 설계 및 구축

V. 결론

1

Page 3: 분석7기 5조

1

프로젝트의 배경, 목적, 의의 Ⅰ. 서론

일일 KRW-USD 환율 예측

원/달러 환율에 대한 전통적인 통계적 예측방법과는 다르게 실제 원-달러 환율 데이터를 이용하여 일일 원-달러 환율 예측 모델을 구축

환율은 국내외 경제상황 , 원자재가격, 전쟁, 경제위기 등 외부적 요인에 의해 충격을 받아 큰 변동성을 보일수 있음.

이로 인해 장래의 환율에 대해 예측할 수 있는 모형을 만드는 것은 매우 어려운 일임.

환율의 예측 모델 구축을 위한 선험적 Pilot 프로젝트으로 추진.

( 주간단위 예측 => 일일 예측으로 변경)

추진 배경

과거 5년간의 원-달러 환율 데이터를 바탕으로 환율에 유의미한 영향변수를 연구/도출하여 탐색적 분석을 통해 최적의 상관변수를 선정 적용한 최초 일일 원-달러 환율 예측 모델?

일반인 보다는 매일 매매를 하는 외환 전문딜러에게 매우 중요한 모델

프로젝트의 의의

Page 4: 분석7기 5조

4

원/달러 환율 예측 모형의 비교분석 연구, KAIST 석사논문

원/달러 환율 예측력 분석에 관한 연구, 한국금융연구원

이윤석(2007)

홍성완(2010)

경기선행지수를 이용한 달러/원 환율예측,

건국대학교 석사학위

원/달러 환율 예측을 이용한 환위험 분석,

산업경제연구 제19권 제2호

신동백(2006)

김정수(2010)

II. 관련 연구

원/달러 환율 영향변수 메커니즘 구상

선행 연구

Page 5: 분석7기 5조

Ⅱ. 관련연구

II. 관련 연구

2

원/달러 환율 영향변수 메커니즘 구성도

환율의 변동범위를 결정하는 가장 중요한 변수임. 이명박 정부 시절에는 친기업 정책기조로 고환율정책 기조 유지. 즉, 환율이 일정수준으로 떨어지면, 정

부가 적극적으로 달러를 매입하여, 환율을 방어함. 그결과, 삼성전자,현기차 등 대기업 제품은 가격경쟁력이 높아져, 최대의 수출실적 올림. 그러나, 한편으로는 기름 등 수입물가가 높아져 중소기업이나 자영업자는 매우 어려운 상황에 처함.

박근혜 정부 정책의 무게중심이 친기업적인 성장정책이냐 친서민적인 소득재분배냐에 따라 환율 시장개입의 강도와 범위가 좌우될 전망임.

선진국 경기과열 금리 인상 수요 감소 선진국

경제성장율 둔화 수출부진

달러 약세

원자재 가격상승 경상수지

적자

선진국 경기과열 원자재 수요 증가

재고 소진 자본재 수입 증가 경기 과열

기업투자 확대

주가 상승

주가 하락

달러/원화 하락

달러/원화 상승

경상수지 흑자

정부의

시장개입

선진국 경기침체 금리 인하 수요 증가 선진국

경제성장율 상승 수출 증가

달러 강세

원자재 가격하락 선진국 경기침체 원자재 수요 감소

재고 사용 자본재 수입 감소 경기 침체

기업투자 축소

Page 6: 분석7기 5조

6

원/달러 환율에 가장 큰 영향을 미치는 영역에 대해 57가지 변수를 선정함.

R의 상관분석을

통해 유의 변수

선정 후

=> 관련 데이터

정제/변환

III. 데이터 수집 및 정합성 검증 환율영향 변수 선정/데이터 수집/정제

환율 영향변수 선정 데이터 수집 데이터 정제/변환

Data Survey

통계청 사이트

Investing.com

다음

Page 7: 분석7기 5조

7

Global 주가지수

1. KOSPI : Korea Composite Stock Price Index의 줄임말로 주가지수는 주식시장 전체의 움직임을 파악하기 위하여 작성하는 지수로 우리나라 결제 상황을 총체적으로 보여주는 지표이다.

2. S&P500 : 500개 대형기업의 주식을 포함한 지수이다. 500개의 기업 중 대부분이 미국 기업이다. 맥그로-힐 계열사인 스탠더드 앤드 푸어스가 소유 및 관리를 맡고 있다. S&P 500은 지수 자체를 일컬을 뿐 아니라 지수에 포함된 해당 500개 기업 자체를 지칭하기도 한다.

3. NASDAQ : National Association of Securities Dealers Automated Quotation의 줄임말로 전미증권업협회(NASD)가 컴퓨터전산망을 통해 운영하고 있는 미국 장외시장의 시세보도시스템을 말한다.

4. 주그 :

5. NIKKEI : 니혼게이자이(日本經濟)신문사가 발표하는 도쿄증권거래소의 주요 주가의 지수로 일본에서 1971년부터 발표되고 있는 도쿄증권거래소에 상장된 주식 중 유동성이 높은 225개 종목을 대상으로 <니혼게이자이(日本經濟)> 신문사가 산출하여

발표한다

6. 미국 달러지수

출처 : 시사상식사전, 무역용어사전, 한국경제용어사전

외환 14~20. USD, EUR, JYP,AUD, GBP 환율 파악

통화를 달리하는 2국간에 현금을 사용하지 않고 은행의 지급지시에 의하여 자금을 이동시키는 방법을 말한다. 은행의 지급지시는 환어음, 송금수표 등의 서류를 사용하는 경우와 전신에 의하여 행하는 경우가 있다.

원자재 7.금, 8.은, 9. BRENT유, 10. WIT유, 11. 천연가스, 12. 구리, 13. 옥수수(미국)

원자재의 가격을 말함.

금리

21~22. 한국 미국 10년간 채권 수익율

: 채권 수익률은 예금 이자율과 같은 개념으로 크게 △발행수익률 △유통수익률로 나눠볼 수 있다. 발행수익률은 채권을 처음 발행할 때 약속한 이자율이며, 유통수익률은 이렇게 발행된 채권이 시장에서 거래될 때 적용되는 이자율이다.

23~27. 독일 장기국채(BUND) , 영국 국채, 10년 만기 미국채 선물, 30년 만기 미국채 선물, 일본 국채

: 중앙정부가 자금조달이나 정책집행을 위해 발행하는 만기가 정해진 채무증서이다. 발행하는 주체에 따라 중앙정부가 발행하는

채권인 국채와 지방자치단체가 발행하는 채권인 지방채로 구분할 수 있다. 특히 장기국채를 발행하는 것은 장단기 금융시장이

균형적으로 발전하는 데 기여하고 금리변동에 대한 높은 가격탄력성을 활용한 자산운용기법의 발달을 촉진하는 등

금융시장의 선진화를 위해 중요한 역할을 한다.

주요 데이터의 설명 III. 데이터 수집 및 정합성 검증

Page 8: 분석7기 5조

1. 환율에 영향을 주는 변수를 선정 -> internet을 통해 수집함.

2. 항목별로 Daily/weekly/monthly/quarterly/half-yearly 별 다양한 data가

존재함.

3. 최종적으로 주간 예측에서 daily 예측으로 결정 daily가 아닌 지표들은 삭제.

1. 환율은 time series? No..

2. 환율은 시계열 data가 아님.

=> Regression 으로 결정

IV. 모델링 설계 및 구축 변수 /Model선택 과정

7

변수 선택과정

Model 선택과정

Page 9: 분석7기 5조

8

IV. 모델링 설계 및 구축

* USD_KRW 와 correlation 분석 결과

1. KOSPI_open -0.7899782

2. KOSPI_close -0.7855336

3. DWJ_open -0.7700833

4. DWJ_close -0.7677104

5. S&P500_open -0.7624288

……

환율에 영향을 주는 변수들은 correlation으로 파악해 봄.

전체 항목 중 가장 관계가 높은 변수로는 KOSPI, DWJ, S&P500, NASDAQ 등으로 abs(corr) 이 0.7 이상인 값을 가지고 있음.

환율 예측 관련 논문에서도 S&P500 지수가 영향이 있을 것이라 발견, 연관성 분석에서 증명됨.

상관 분석

분석 및 시사점

상관 분석

Page 10: 분석7기 5조

9

IV. 모델링 설계 및 구축

USDKRW 외 20개 변수 사용.

step(lm.r, direction="backward")로 의미 있는 변수를 찾아냄

전체 항목의 가장 유의한 변수들:

1위: S&P_high (S&P500)

2위: KSP_open (KOSPI)

3위: NSQ_open (NASDAQ)

Correlation 과 비슷하긴 하나, DWJ 변수는 등장하지 않음. (설명변수로는 등장하지 않음.

Adjusted R-squared : 0.7473

1st Regression Model

분석 및 시사점

대륙 대표 변수 & 환율에 영향 줄 수 있는 주가 data를 추가해

보세요.

1st Regression Model

Page 11: 분석7기 5조

1. 수동으로 수집

2. URL의 data를 parsing 하여 수집.

3. QUANDL 함수를 이용하여 수집

IV. 모델링 설계 및 구축 Data Gathering

URL을 이용, 직접 data를 가져와서 R로 저장하는 방법이 있

습니다.

또 다른 방법으로는 Quandl 함수를 이용하면 쉽게 data를 가져올

수도 있습니다.

Excel로 download 받거나, data를 drag 하여 Excel에 copy 하여 저장함

각 image나 character들이 포함되어 있어 다루기가 쉽지 않음.

각 지수가 어떤 id를 가지고 있는지 확인하기가 까다로웠음.

- 중국/일본 /유럽 국가들 경제 지표 추가 - 환율에 영향을 받거나 환율에 영향을 줄 수 있는 주가 조사해서 주가지수 추가. - 국채관련 변수 추가

10

Data gathering

Page 12: 분석7기 5조

11

USD_KRW 외 62개 변수 사용.

전체 항목의 가장 유의한 변수들:

1. CNYKRW(CHINA_KRW)

2. CNYUSD(CHINA_USD)

3. NIK_pct (NIKKEY index)

4. shorttermbond_underhalfyear (5년 채권)

5. Gold_high (금 시세)

1st model과 달리, 중요 변수로 선정된 변수들의 순위가 달라짐.

Adjusted R-squared : 0.9757

2nd Regression Model

분석 및 시사점

IV. 모델링 설계 및 구축

미국 관련 지수들은 하루씩 늦게 적용해야 합

니다.

2nd Regression Model

Page 13: 분석7기 5조

1. 수동으로 merge

2. SQLDF 를 이용하여 merge (inner join)

3. Outer join 후 Missing value 처리

IV. 모델링 설계 및 구축 Data 처리

Excel 을 이용하여 merge 했음.

SQLDF를 사용하여 inner join으로 data를 merge 함

Ourter join으로 data를 merge 한 후 Missing value를 이전 date의 값으로 채움

4. 미국 관련 지수들은 하루씩 미룸

5. USDKRW 은 하루씩 당김.

date USDKWR 미국지수 그 외

5/2

5/3

5/4

5/2일자 data를 이용하여, 5/3일 USDKRW를 예측 한국 5/2일자에 미국/유럽지수들은 5/1일 data로 이용해야 함.

12

Data 처리

Page 14: 분석7기 5조

13

Missing value 처리/미국 지수 조정

/USDKRW value 조정.

전체 항목의 가장 유의한 변수들:

1. CNYKRW(CHINA_KRW)

2. CNYUSD(CHINA_USD)

3. FYGRX_open (미국 국채)

4. FYGRX_close (미국 국채)

5. shorttermbond_underhalfyear (5년 채권)

2nd model에는 없었던 FYGRX 변수가 중요 변

수로 올라옴.

Adjusted R-squared : 0.9527

3rd Regression Model

분석 및 시사점

IV. 모델링 설계 및 구축 3rd Regression Model

Page 15: 분석7기 5조

> stat.desc(exdf_bk.predict$lag)

min max range sum median mean var std.dev

-9.0000000 14.0000000 23.0000000 -30.2000000 -0.1000000 -0.2796296 14.8840672 3.8579874

> stat.desc(exdf_bk.predict$pred_org_dif)

min max range sum median mean var std.dev

-17.9297039 13.5552327 31.4849366 43.8748469 0.2791537 0.4025215 37.4974590 6.1235169

Real value vs Predicted value IV. 모델링 설계 및 구축

Real value

Pred. value

ㅁ 2009/11월~2014/05월 data 이용

ㅁ 2009/11월~2013/12월 data : train, 2014/01월~2014/05월: predict

14

Real value vs Predicted value

Chart

Page 16: 분석7기 5조

15

IV. 계층모형 구축 및 설문조사 설계 IV. 계층모형 구축 및 설문조사 설계

V. 결론

현재의 일일 원-달러 환율 예측에서, 주간, 월간, 분기 등 다양한 예측모형으로 발전

현재의 Regression에 Classification 등 다양한 기법을 복합적으로 모델에 적용하여 더욱 정교한 예측 모델로 발전

외환시장의 왜곡을 초래하는 각 국의 특수성과 자국 이익에 따른 환율 정책, 정부의 적극적인 시장 개입 등 고려해야 할 변수를 본 모델에 적용하지 못한 점

Data가 많아지면 R-squared value가 높아지지만, 실제 예측 값 자체는 Daily 변동 폭 보다 범위가 크다.

V.I. 결론

한계점

향후 발전 방향

Error(오차)는 존재하지만, Regression 만으로도 환율의 상승과 하락에 대한 예측은 가능함.

단순한 이론이 아닌 실제 데이터를 활용한 일일 원-달러 환율을 예측할 수 있는 모델의 가능성 발견

본 예측모형을 통해 딜러들이 업무에 적용한다면 효과적인 의사결정을 위한 도움이 될 것임.

의미 있는 점

의미 있는 점, 한계점, 향후 발전방향

Page 17: 분석7기 5조

17

질의 응답