Post on 10-Jul-2020
시계열
시계열이란?
– 시간에따라 관측된데이터의 집합
– e.g. Their blood pressure, Obama's popularity rating, the annual rainfall in
Seattle, and the value of their Google stock, etc.
2
시계열데이터마이닝
시계열 데이터마이닝이란?
– 시계열데이터에서 다양한마이닝 기술로의미를찾는 작업
유사도(Similarity)
– 시계열데이터간의 유사함을판단한 수치
• Euclidean distance, DTW distance, etc.
– 유사도는대부분의 시계열데이터마이닝 기술에적용
3
데이터생성
10개의실수(0~100) 데이터를 16개생성
– 첫번째 시퀀스(ts_data[1])는질의로 사용
– 나머지시퀀스(ts_data[2:16])는 데이터로사용
4
데이터플로팅
데이터를 2차원 선형그래프로 플로팅하여 비교
5
Euclidean Distance (1/3)
가장 기본적인 유사 척도
각대응하는 점의 거리를 계산하여 두시계열의 유사도를 측정
6
Euclidean Distance (2/3)
R에서는 간단히 dist() 함수로 계산
– e.g. 질의 시퀀스와첫번째 데이터시퀀스의 거리를계산한경우
가장 유사한 시계열을 찾기 위해 모든 데이터 시퀀스와 비교
7
Euclidean Distance (3/3)
질의 시퀀스와 가장 유사한 순으로 플로팅
8
Dynamic Time Warping Distance (1/5)
Euclidean Distance에 비해 복잡하지만 정확한 유사 척도
대응하는 점과 다음 점의 거리를 비교하여, 최소값을 서로대응시킴
9
Dynamic Time Warping Distance (2/5)
DTW 패키지 다운로드 및 설치
– https://cran.r-project.org/web/packages/dtw/index.html
– 또는 ...
10
Dynamic Time Warping Distance (3/5)
DTW 계산
DTW 플로팅
11
Dynamic Time Warping Distance (4/5)
가장 유사한 시계열을 찾기 위해 모든 데이터 시퀀스와 비교
12
Dynamic Time Warping Distance (5/5)
질의 시퀀스와 가장 유사한 순으로 플로팅
13