AI = SE , giip system manage automation with A.I

38
giip Product Proposal (ko.3.3) http://giip.littleworld.net

Transcript of AI = SE , giip system manage automation with A.I

Page 1: AI = SE , giip system manage automation with A.I

giip Product Proposal(ko.3.3)

http://giip.littleworld.net

Page 2: AI = SE , giip system manage automation with A.I

E-business Networks People Internet Another world

시장 분석

Page 3: AI = SE , giip system manage automation with A.I

제 4차 산업혁명 인공지능/머신러닝/딥러닝

시장 분석

시장의 혁명적인 변화

다양한 IT기술이 나타면서 산업이 변화하고 있음

Page 4: AI = SE , giip system manage automation with A.I

모바일 트래픽 추이 글로벌 DCIM매출 추이

시장 분석

인프라수요가급증

글로벌 IT인프라의 수요가 급증

모바일 기기 사용량 증가

인공지능/머시러닝 리소스 증가

동영상등의 대용량 트래픽 증가

IDC수요 증가

DCIM : Datacenter Infrastructure Management

Page 5: AI = SE , giip system manage automation with A.I

데이터센터 구인 NHN 전용 데이터센터 ‘각’

시장 분석

인력난

IT인프라 증가에 따른 비용효율화를 위해 지방에 IDC를 건설.인프라 운영 인력 모집은 급증하나 운영 인력 부족현상

Page 6: AI = SE , giip system manage automation with A.I

시장 분석

• 24시간, 365일 대기• 장애 책임 부담• 단순 작업으로 직업상 비전이 없음

인스톨배포

감시

장애대응

점검 장애분석

튜닝

보고

인력부족의원인

Page 7: AI = SE , giip system manage automation with A.I

시장 분석

• 대부분의 솔루션은 한 가지에만 포커싱되어 SE의 업무는 여전히 줄어들지 않음

인스톨배포

감시

장애대응

점검 장애분석

튜닝

보고

솔루션의한계

Page 8: AI = SE , giip system manage automation with A.I

E-business Networks People Internet Another world

개요

Page 9: AI = SE , giip system manage automation with A.I

개요

A.I(인공지능, Artificial Intelligence) = SE ?

인공지능이 SE의 업무를 줄일 수 있다면?

•클라우드, 레거시의 모든 환경 대응• SE의 입장에서의 시스템 정보 수집•단순 모니터링이 아닌 시나리오 모니터링

• SE가 하는 모든 업무 파악• SE의 관점에서의 업무 처리•지식 축적으로 퀄리티 유지

•시스템 증가를 줄이는 튜닝•단순업무를 줄여 OPEX절감

Page 10: AI = SE , giip system manage automation with A.I

Concept

Reduce work for SE

서버에 Agent를 설치하면 모든 준비는 끝.

Agent Install

Server

Page 11: AI = SE , giip system manage automation with A.I

Concept

Just follow virtual system advisor

주기적으로 Virtual system advisor가 해주는 어드바이스를 참고로원클릭으로 모니터링, 튜닝, 관리, 장애대응이 가능!

Mail from virtual system advisor

Server

Monitoring Advise

Tuning Advise

Maintenance Advise

One-click

Implementation

Gather system informationKnowledge

Base

Page 12: AI = SE , giip system manage automation with A.I

Workflow overview

giip = A.I(Artificial Intelligence) SE(System Engineer)

SE의 모든 업무를 자동화

WebServer

Service

WAS

DB

MQE

• Login Test• Page Response Check• Payment Test• Community Text Crawling

• Process• Latency• Connections• Network• IO• Memory

• DB Lock• Wait_Time• Thread Count• IO Latch

CQE

Command

Repository

WebServer

Service

WAS

DB

Fault

Report Form

Repository

Scenario monitoringAutomatic Incident

ProcessingReport &

Machine Learning

MachineLearning

MQE

Update exp. Knowledge

Base

Trigger

Repository

Page 13: AI = SE , giip system manage automation with A.I

Funtions

All works of SE

서버를 등록하면 giip AI가 제안하고 유저의 판단에따라 운영 작업을 진행

운영자동화

설치 배포 감시장애

대응튜닝

수시

체크

관리자자동화

· ·CloudServer

OverseaServers

VirtualServer

LegacyServer

백업운영

PA NSA API

ML CQE MQE

비정형로그 통계 KB

A.I. 스스로 생각하는 자동 운영

• 설치,배포,감시,운영,백업,장애대응,튜닝,수시체크 등 운영업무를 스크립트기반으로 자동화함

• 서버를 연결하면 PA(Process Analyzer)와NSA(Network Status Analyzer)가 프로세스및 통신을 분석하여 자동으로 용도 파악 및사용량 파악, 튜닝 제안

• ML(Machine Learning)을 이용하여 장애패턴 학습 및 서버 튜닝 학습

• CQE(Command Queue Engine)으로관리자의 운영작업/장애 대응 자동화 및작업 이력, 작업 내역 자동저장, 이상시Rollback가능

• MQE(Message Queue Engine)으로 서버상태 이상 및 장애 대응 내역, ML로 학습한장애 예휴 판단시 알람 제공

• Couchbase NoSQL을 이용한 비정형 데이터저장(미국 CIA채용, AWS채용, IBM Cloudant기반기술)

• ML로 학습된 KB를 기반으로 주기적인리스크 권고 및 대응안 제시

• 16000대 서버로 온라인 게임 서비스 중인일본 G게임사의 2000대의 서버 포함 누적4000대 이상, 동시 2500대 이상의 자동 운영경험.

Page 14: AI = SE , giip system manage automation with A.I

giip Architecture

SystemEngineer

14

SP own Service

Custom Dashboard

OpenAPI

CQE(Command Queue

Engine)

MQE(Message Queue Engine)

OpenAPI

TMF(Trigger Management

Function)

MSF(Message Sender

Function)

ASR(Automation Script

Repository)

SCHD(Scheduler)

RDB LogDB DCUBE

DSF

AMF(Authentication Mapper

Function)

SM

TP

RMF(Resource Management

Function)

LGF(Log Gathering Function)

Serv

ice M

ark

et P

lace

GLB Service

CDN Service

Forensic Service

Infra. Service

Basi

c G

UI

MLE(Machine Learning

Engine)

3rd Party Solution

Page 15: AI = SE , giip system manage automation with A.I

15

giip H/W Architecture

Internet

Auth01~02 WAS01~02

API 01~N

Collector 01~N

RDBMS 01~02

NoSQL 01~N

GLB01 GLB02

All works of SE

글로벌 서비스를 위한 지역 분산 및 Scale out형 확장 구조

Page 16: AI = SE , giip system manage automation with A.I

Competition

Many solutions vs. outsourcing vs. giip

giip는 기존 인력으로 더욱 많은 업무를 처리할 수 있도록 도와줍니다.

서비스구분 서비스내역 자체 SE사용저가형운영지원

고급형운영지원

비고

고정비용 기본가격(천원/대) * 20대기준 3,500 2,000 5,000 1,000

이력관리 기술지원이력관리 417 - 0 0 ITSM

모니터링 기본모니터링(CPU/Memory/Disk/Process) 583 0 0 0 NMS 솔루션

URL모니터링 250 - 0 0 URL모니터링솔루션

로그, 이벤트모니터링 4,167 - 0 0 로그분석솔루션

24시간감시 40,000 - 0 0 SE 8명 24시간

OS운영 OS 기본운영(설치, 패치) 0 0 0 0 SE

파일백업및리스토어관리 417 - 0 0 backup solution

웹서버운영 웹서버기본운영(구축및설정변경등) 0 0 0 0 SE

웹서버이중화 600 - 600 100 LB 임대, giip는 GLB

웹서버튜닝 2,000 - 0 0 SE 전문가비용

DB서버운영 DB 기본운영(설치, 백업, 리스토어, 패치등) 0 0 0 0 SE

DB 최적화튜닝 6,000 - 0 0 DB 전문가비용

DB 이중화 0 - 0 0 DB 전문가비용포함

웹방화벽 웹방화벽설치및운영 500 - 0 0 웹방화벽솔루션

합계 58,433 2,000 5,600 1,100

단위 : 천원, - : 미지원, 0또는 숫자 : 지원 및 금액(0인 경우 다른 금액에 포함된 것임)

Page 17: AI = SE , giip system manage automation with A.I

Positioning

Prediction & AI

Infrastructure

Virtualization

Analysis

Automation

Monitoring

Deployment

Prediction & AI

Page 18: AI = SE , giip system manage automation with A.I

Roadmap

Our goal is platform for SE

• ITAM Function expand• Domain management expand• Dashboard• Xen auto install• CDN Automation (3rd party)• GLB Automation (3rd party)• Server forensic service(3rd party)

• Openstack API Support• Public Cloud Service API Support• Docker Management• CHEF Management• Big-data System Log Analytics (3rd party)• Script Market Place• Chinese Version• giip Log Analytics (Machine Learning)• giip Advertisement Platform

• Global Support Center

• IT Service Market Place• Global Infra. Market Place• Solution Market Place• Expand Global Channel

Analysis Prediction Ecosystem

2016 2017 2018 2019

Page 19: AI = SE , giip system manage automation with A.I

On-premise & SaaS reference

시스템 관리 및 네트워크 기기 관리를 메인으로 운영 자동화를 제공

Reference

전 세계 120개국에 판매된 도어폰 및 기타 제품들의 글로벌 IoT연동 플랫폼의

설계 및 컨설팅, 자동화 솔루션 도입, GLB로 모듈 서버의 로드 밸런싱

4개의 인프라 관리 툴을 통합한 통합 관리 툴의 제공 및 기존 툴로 감지 불가

능한 상황의 감지 서비스 제공

다양한 환경의 온라인 게임 인프라 관리용으로 서비스 제공

Page 20: AI = SE , giip system manage automation with A.I

E-business Networks People Internet Another world

기능

Page 21: AI = SE , giip system manage automation with A.I

Basic Feature

기능

엔지니어가 필요로 하는 모든 정보 취득

엔지니어의 업무에 필요한 모든 액션 및 리포팅 자동화

Key Findings

IT Asset Management Action

Basic server information

IP usage

Disk usage

Domain

Resource usage

Custom server information

Send command

Send Script

Triggering

Monitoring

Gather system message

Gather custom message

Messaging

Send Notification

Using Mail, MMS

Support send to RESTful API

Send custom message

Send log message

Page 22: AI = SE , giip system manage automation with A.I

뛰어난 접근성

기능

No security changes

보안 설정 변경 없이 쉽게 구축 가능- 필요한 포트는 OS update용 outbound 80포트만 있으면 모든 처리 가능

Page 23: AI = SE , giip system manage automation with A.I

통합 UI의 중앙 시스템 관리

기능

Gather all system information for bigdata analyze

서버 접속없이 대규모 서버의 감시, 운영 가능 모든 서버 액션을 중앙에서 처리 중앙 로깅으로 전체적인 장애원인 분석 가능

Page 24: AI = SE , giip system manage automation with A.I

하이브리드 클라우드 관리

기능

Manage hybrid infrastructure

클라우드 뿐만 아니라 물리 서버까지 포괄적인 운영 하이브리드 클라우드 아키텍쳐를 기반으로 한 통합 솔루션 관리

Page 25: AI = SE , giip system manage automation with A.I

See and go as human

기능

사람의 액션을 최소화

모니터링 데이터로 인사이트 획득 및 예측

Key Findings

시나리오 모니터링 액션 로그 모니터링

웹 서비스 로그인 테스트

결제 테스트

앱 기동/액션 테스트

유저와 같은 환경

액션 결과 스크린샷

액션 결과에 따른 반응

RESTful API를 이용한 로그

고객 니즈에 따라 가변필드지원 (JSON)

로깅 데이터 그래프 지원

로깅 데이터의 이벤트 감지

비정형 데이터 저장

빅데이터 분석

로깅 데이터의 통계 분석

NoSQL을 이용한 방대한데이터 처리

비정형 데이터 분석 처리

Page 26: AI = SE , giip system manage automation with A.I

E-business Networks People Internet Another world

운영사례

Page 27: AI = SE , giip system manage automation with A.I

페이지 로딩이 느린 이슈가 있는 W고객은 자체적으로 찾으려 했으나 찾지 못하여 giip의 MQE에 Bottle neck

을 찾는 요소를 걸어 DBMS의 Dead lock을 찾아 해결

DBMS Tuning

운영 사례

MQE

• WEB 서버 Connection Status 확인• WAS Thread count 확인• DBMS Lock, slow query 확인

WEB

WEB

DBMS

MQE 메시지를 보고고객이 직접 소스 수정

평균 반응속도 1초, 최대 11초 평균 반응속도 0.14초, 최대 4초

Mail로병목 Query

전달

Page 28: AI = SE , giip system manage automation with A.I

머신러닝, 비트코인, 고속 렌더링등의 수요가 늘고 있는 GPU Farm을 만들어 고객에게 서비스하는데 인프라의

관리에서부터 JOB관리까지 giip에서 제공

GPU 렌더링 팜 서비스

운영 사례

MQE

• 시스템 자원 정보 수집• JOB 프로세스 감시• Server Farm 단위 JOB LB• 시스템 로그 모니터링• 데이터 표준화(JSON)

GPU

Serv

er

Radeon rx 480

Radeon rx 480

GPU

Serv

er

Radeon rx 480

Radeon rx 480

GPU

Serv

er

Radeon rx 480

Radeon rx 480

CQE

• Server Farm 단위 JOB LB• 장애시 자동 복구• 신규 시스템 자동 설정• 백업 스케쥴링• 자동 운영

ServiceProvider

Control UI

Billing UI

Statistics UI

• 고객은 UI만 개발함으로서 GPU Cloud Service를 제공할 수 있어 빠른 최신 기술의 서비스 런칭이 가능

• 서비스에 필요한 모든 Measuring data 및 Control 을 giip엔진에서 제공으로 개발 공수 절감

• JOB 제어 및 분산, 서버당 GPU 상태정보 취득등 giip만의 고유한 기능 제공으로 타사대비 경쟁력 확보

개선 효과

Page 29: AI = SE , giip system manage automation with A.I

시스템 구입시 번들로 딸려오거나 시스템 증설시 라이선스 이슈로 구매하지 못하는 등 인프라 증설에 따른 관

리툴 및 관리 포인트가 늘고 복잡해지는 상황을 개선

시스템 통합 감시

운영 사례

MQE

• 시스템 자원 정보 수집• 상이한 관리툴의 통합 모니터링• 마우스액션등 시나리오 모니터링• 시스템 로그 모니터링• 데이터 표준화(JSON)

Server

Server

Server

CQE

• 통합 명령• 장애시 자동 대응• 다른 환경의 신규 서버 통합 설정• 백업 스케쥴링• 자동 운영

End UserDashboard

Control UI

Statistics UI

• 고객은 UI만 개발함으로서 다양한 환경의 인프라 관리 시스템 탄생

• 기존 관리툴에서 취하는 액션의 자동화 처리

• 서버 접속 시간 절감 및 운영 작업 시간 절감으로 TCO 절감효과

개선 효과

Server

Page 30: AI = SE , giip system manage automation with A.I

날로 늘어나는 전 세계 서비스를 위해 소스의 배포 및 데이터의 싱크에 표준 CDN기술을 활용하여 배포 자동

화 및 배포 관리를 giip에서 제공하여 간단히 배포 시스템을 구축

배포자동화

운영 사례

MQE

• 전세계 클라우드/레거시 서버 상태통합 관리• 유저 환경에서 배포 자동 확인• 시스템 로그 모니터링• 데이터 표준화(JSON)

OriginServer

EdgeServer

CQE

• CDN기술을 활용한 파일 전송• 전세계 클라우드/레거시 서버 지원• 전송실패 알림 및 재전송 지원• 스케쥴 전송 및 수동 전송 지원

• 고객은 UI만 개발함으로서 배포 시스템 구축

• 배포에 필요한 파일 업로드 및 배포 자동화, 스케쥴 관리 및 재배포등 필요한 기능을 쉽게 적용

• 전 세계의 다양한 환경의 서버를 통합 관리 및 배포 관리

개선 효과

EdgeServer

EdgeServer

End UserDashboard

Control UI

Statistics UI

Page 31: AI = SE , giip system manage automation with A.I

글로벌 IoT 통합 관리

운영 사례

전세계 120개국에 있는 수 만대의 다양한물리/클라우드 환경의 IoT 장비 및 관리 서버를중앙에서 제어하고, 하드웨어 폴트시 자동으로 그 나라의 A/S담당자에게 통지

국내 IoT 서버

해외 IoT 서버

클라우드 IoT 서버

국내 관리 서버

지역 담당 엔지니어 중앙 관리자

Page 32: AI = SE , giip system manage automation with A.I

NMS 자동화

다양한 서비스를 하고 있는 D사에서는

각 서비스별 다른 NMS를 사용하고 있고, 특정 NMS는 장비 추가시 설정 비용이 별도로 들어

운영 비용 이슈 및 여러 화면으로 관리를 해야하는 문제가 있었음.

운영사례

giip 도입으로 NMS에서 제공하는 정보를 API로 취득하거나 직접 SNMP를 통해 정보를 취득

하고 장비 추가시 간단한 설정 추가만으로 쉽게 통합관리가 가능하게 됨

Page 33: AI = SE , giip system manage automation with A.I

E-business Networks People Internet Another world

활용

Page 34: AI = SE , giip system manage automation with A.I

DR(Disaster Recovery) 구성

타 센터가 단순 DR을 위한 스탠바이가 아닌 DR의 자원을 부하분산 및 재난 관리까지 가능한 구성

으로 제공이 가능하며, Bittorrent Sync 와 연동하여 서비스를 구성하거나 고객이 보유하고 있는

BCP 솔루션의 검증 및 이중 감시용으로 활용할 수 있습니다.

giip의 활용

S5000(Active)

Active-Active 구성

자사서버 클라우드서버자사서버 클라우드서버

S5000(Stand-by)

Active-Active 구성

동기화된파일의더블체크

서버의상태체크및관리

다양한환경에서의

파일동기화

Internet

Page 35: AI = SE , giip system manage automation with A.I

VDI(Virtual Desktop Interface) 구성

외부/내부에서 시간과 공간의 제약없이 업무가 쉽게 가능하도록 VDI환경의 Smart work를 구축하여

업무 효율을 높이고 보안 강화를 통해 외부에서의 접속에서도 보안 및 관리가 원할하도록 구성

giip의 활용

VDI Solution

Internet

보안관리(인증 로그 추적)

시스템 확장 자동화 관리

모니터링

직원들의 업무환경을 제공

하는 VDI 솔루션

(인증 + 업무환경)

S5000(Active)

사용자

사용자인증(보안) 시스템

데스크탑 가상화

스토리지 가상화

어플리케이션 가상화

인증로그 관리

어플리케이션 배포관리

인프라 자동 확장 관리

데스크탑 가상화

스토리지 가상화

어플리케이션 가상화

지사

데스크탑 가상화

스토리지 가상화

어플리케이션 가상화

지사

본사

Page 36: AI = SE , giip system manage automation with A.I

RC(Root Cause) 분석

다양한 고객 환경에서 장애 등 이슈가 발생했을 때 시스템, 네트워크, 어플리케이션 전반에 걸친

시간축 기반의 데이터 수집을 이용하여 문제 발생 원인 파악에 도움을 주는 용도로 활용할 수

있습니다.

giip의 활용

Analytics모든레이어의값을상황별

시간값을수집

고객의모든상황분석자료를

취합후, 빅데이터분석으로

문제원인분석

Internet

Server

OS

Network

Exchange + Domino

Server

OS

Network

Verse + Domino

Page 37: AI = SE , giip system manage automation with A.I

giip 서비스 이용으로 수집되는 시스템 운영 정보를 기반으로 시스템 이슈를 예측하여

빅데이터 분석으로 장해 예측 서비스(SFPS, System Fault Prediction Service)를 제공 합니다.

giip의 활용

시스템 장해 예측 서비스 (2017.1Q 예정)

• 다양한 장해 패턴 정보 KB 공유

• 벤더의 공식 대응 KB를 장해 발생시

실시간 공유

• 사용자의 상황에 알맞은 벤더 매칭

• ML로 장해 이전 시점의 공통점

학습 및 예측

ML 처리(Machine Learning)

• 서버의 장해 패턴 데이터 수집

• 서버간 데이터 상관 관계 수집

• 어플리케이션 정보 수집

• 다양한 시스템 외의 정보 수집

Page 38: AI = SE , giip system manage automation with A.I

E-business Networks People Internet Another world