[2016 데이터 그랜드 컨퍼런스] 4 2(인공지능). 위세아이텍...
-
Upload
k-data -
Category
Technology
-
view
94 -
download
10
Transcript of [2016 데이터 그랜드 컨퍼런스] 4 2(인공지능). 위세아이텍...
머신러닝플랫폼기반의철도사고위험예측
2016 데이터그랜드컨퍼런스2016. 11. 04
1. 철도 안전 소개2. 철도 사고위험예측3. WISE ADVISOR4. WISE 제품과 머신러닝
최근잇단열차탈선사고로인해철도안전의중요성대두
10593
81 7566
135115 113 112
46
235207
182178
104
0
50
100
150
200
250
2011년 2012년 2013년 2014년 2015년
단위: 건, 명
한국철도공사, 사상사고 발생현황
사망 사상자 사고건수
철도안전의중요성철도 안전 소개
철도사고위험분석
철도사고위험예측
선로이상위험예측프로세스
1. 데이터엔지니어링
2. 예측모델링
예측정보생성
데이터가공
예측모델생성
비교검증모델선정
3. 운용적용
철도사고위험예측
분석범위: 경부고속선
일반선경부고속선경부고속선 일반선 경부고속선
주의 /위험 주의 /위험
분석대상: KTX와 KTX-산천
분석데이터수집기간: 2011년~2015년
*월 1회 / 분기 1회정기점검으로결함정보부족
선로구간별정기점검정보
선로구간별기상정보
선로구간별유지보수정보
데이터수집및통합
철도사고위험예측
평 균 5 0 5 . 7 9 6 7
• 다양한종속변수를사용하여모델을생성하고테스트한결과를바탕으로설정
• 구간별로발생하는결함들의평균결함면적으로설정
• 평균결함면적은결함횟수와결함면적을동시에고려할수있음
• 0.1%의이상치제거한데이터의평균을기준으로 주의 (0) / 위험(1) 이항종속변수생성
평균 548
데이터가공모델생성
검증
종속변수데이터가공
철도사고위험예측
평 균 5 0 5 . 7 9 6 7
• 이전점검일사이의유지보수관련정보가공
이전 점검일 해당 점검일
• 연속적기상상태의중요성 (기온, 풍속, 강수량)3일/ 7일/ 30일 –평균/최고/최저 기상상태
독립변수데이터가공
철도사고위험예측
로지스틱회귀분석
• 결함면적을• 결함면적을
• 독립변수(x) –연속형 / 범주형포함 : 121 개
기상정보 선로정보 시계열정보
• 다중공선성 분석
1 6 2 7 3 10 4 18 5 22 6 25 7 27 8 31 9 35 10 36 11 39 12 40 13 43 14 45 15 47 16 49 17 50 18 51 19 52 20 53 21 54 22 55 23 56 24 58 25 59 26 60 27 61 28 62 29 63 30 65 31 66 32 67 33 68 34 70 35 71 36 72 37 73 38 74 39 75 40 76 41 77 42 78 43 80 44 81 45 82 46 83 47 85 48 86 49 87 50 88 51 90 52 91 53 92 54 93 55 94 56 95 57 96 58 97 59 98 60 101 61 103 62 104 63 105 64 106 65 107 66 108 67 109 68 120 69 121
121 중 61개의독립변수채택
• CONFUSION-MATRIX / ROC 분석(Receiver-Operating Characteristic curve)
실제위험수준 정확도와 오분류의 관계설명
예측 정확도 : 70%
Reference
Prediction 위험 주의
위험 1067 327
주의 263 359
철도사고위험예측
• 결함면적을 • 결함면적을
기상정보선로정보 시계열정보
Train data: 800개
• 독립변수(x) –연속형 / 범주형포함 : 41 개
Reference
Prediction 위험 주의
위험 235 77
주의 166 322
예측정확도 : 69.75%
Reference
Pre
dic
tio
n
위험
위험 주의
주의
서포트벡터머신
철도사고위험예측
• 결함면적을
• 결함면적을
• 결함면적을
예측정확도 : 80.25%
모델A
모델B
예측정확도 : 71.25%
실제예측 주의 위험
주의 0 -10
위험 -2 0
실제예측 주의 위험
주의 343 101
위험 57 299
실제예측 주의 위험
주의 238 68
위험 162 332
예측정확도 비용-이득
모델 A 80.25% -1,124
모델 B 71.25% -1,004
• 실제로주의인데주의로예측한경우와위험인데위험으로예측한경우, 비용과이득을 0으로봄
• 실제로주의인데위험으로예측한경우과도한비용이소요될수있어비용을 -2로측정함
• 실제로위험인데주의로예측한경우추가비용이발생될수있어비용을 -10으로보다높게측정함
• 모델 A가예측정확도 80%로모델 B보다높지만, 오분류결과는비용발생으로이어지기때문에비용-이득계산결과가낮은모델 B를채택하였음
비교검증및모델선정
철도사고위험예측
TM
TM
TM
통계 분석, 빅데이터, 웹 포털구축
AS-IS 분석TO-BE 모델
링AS-IS/TO-BE 테이블 매핑
이관 개발
이관 검증 이관 테스트 이관 리허설 실제 이관
WISE DQ™
머신러닝