Download - SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

Transcript

SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

2019/02/22 オープンソースカンファレンス2019 Tokyo/Spring

TIS株式会社八代光平

Page 2: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

八代光平

所属 TIS株式会社 (2015年入社)

仕事インフラ・自動化・OSS

技術・興味 Ansible Docker Python Git系スクラム開発

機械学習(勉強中) StackStorm CI/CD Selenium ISUCON 競技プログラミング Kaggle Serverless

_k8shiro ko-he- ko-he-8

名前

2/29

Page 3: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

Agenda

IaCによる運用自動化と限界

運用×データ分析でなんとかする

まとめ + お願い

3/29

Page 4: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

IaCによる運用自動化と限界

4/29

Page 5: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

Infrastructure as Code

インフラ作業をコード化し実行可能にする

サーバ構築、設定変更、運用タスク ⇒ 自動化

ソフトウェア開発のプラクティスを使う

バージョン管理ツール

テスト駆動開発

レビュー・リファクタリング

作業の効率化・品質向上が期待できる

Ansible、Chef、Puppetなど

IaCとは

5/29

Page 6: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

を使用した自動化を進めています

インフラ部隊の中で

6/29

Page 7: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

オープンソースの構成管理ツール

RedHat が開発、有償サポートを提供

特徴

エージェントレス ▶ 顧客環境ではエージェントが入れられないことも

モジュールが豊富 ▶Windows・ネットワーク機器への対応も多い

学習コストが低い ▶ Yamlでかけるのでプログラミングっぽくない

Ansibleとは

7/29

Page 8: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

Ansibleを運用に使う

Firewallポリシー変更 NTP同期先の変更

スケールアップスケールアウト

自動復旧

DevOps

テスト

バージョン管理ツール

IaaS・仮想化基盤

ワークフローエンジン

自動テスト

8/29

Page 9: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

運用がIaCで自動化できそう

が、限界もある

例えば障害の調査・対応とか

9/29

Page 10: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

運用×データ分析でなんとかする

障害の調査・対応とかを

取り組みのご紹介

10/29

Page 11: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

監視データ logファイル

ある状態Aの時に異常Bが発生した場合

行動Cをすることで解決する

監視アラート設定ファイル変更コマンド実行履歴

こんなことをやりたい

状態異常行動

分析

運用中に関する情報

障害発生

11/29

Page 12: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

監視データ logファイル

ある状態Aの時に異常Bが発生した場合

行動Cをすることで解決する

監視アラート設定ファイル変更コマンド実行履歴

やりたいこと

状態異常行動

分析

これを実現する

の開発を始めました

12/29

Page 13: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

監視データは長期間保存されていない ⇒ 障害発生時の生データがない

コマンド・ファイル変更の履歴は記録されていない障害記録はExcel・チケット・メール等形式がバラバラ

分析可能な形式での情報の収集・蓄積の仕組みを作成

既存運用環境上の監視データを分析に活用 • なるべく現在の運用環境に手を入れないで使えるようにしたい

13/29

Page 14: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

運用ツール

Zabbix

Fluentd plugin

Core API

Polling

運用対象

config file

command Elasticsearch

GoTTY

rsync + git

Fess

時系列データ

InfluxDB

構成情報

Neo4j

運用情報の収集・蓄積

全文検索

14/29

Page 15: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

運用ツール

Zabbix

Fluentd plugin

Core API

Polling

運用対象

config file

command Elasticsearch

GoTTY

rsync + git

Fess

時系列データ

InfluxDB

構成情報

Neo4j

運用情報の収集・蓄積

全文検索

15/29

Page 16: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

運用ツール

Zabbix

Fluentd plugin

Core API

Polling

運用対象

config file

command Elasticsearch

GoTTY

rsync + git

Fess

時系列データ

InfluxDB

構成情報

Neo4j

運用情報の収集・蓄積

全文検索

16/29

Page 17: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

運用ツール

Zabbix

Fluentd plugin

Core API

Polling

運用対象

config file

command Elasticsearch

GoTTY

rsync + git

Fess

時系列データ

InfluxDB

構成情報

Neo4j

運用情報の収集・蓄積

全文検索

17/29

Page 18: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

運用ツール

Zabbix

Fluentd plugin

Core API

Polling

運用対象

config file

command Elasticsearch

GoTTY

rsync + git

Fess

時系列データ

InfluxDB

構成情報

Neo4j

運用情報の収集・蓄積

全文検索

18/29

Page 19: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

異常の分析をするには

異常の発生と収束

を機械的にとれるひつようがある

19/29

Page 20: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

閾値での判定の問題点

閾値

20/29

Page 21: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

閾値

閾値での判定の問題点

閾値の境界を取得したいわけではない

変化の開始と終了を取得したい 21/29

Page 22: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

外れ値はいらない変化の開始と終わりだけを取得

閾値での判定の問題点

変化点検出(Changefinder)を実行 22/29

Page 23: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

データの周期性の考慮も必要

一定間隔で実行されるJobがある休日には使用量が下がる

データの周期性(増減の規則)を分析

周期からずれたら異常と判定

正常時

異常時

自己回帰分析 +変化点検出により異常を検出 23/29

Page 24: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

WebサーバのCPUの使用率が増加 APサーバのCPUの使用率も増加 DBサーバのCPUの使用率も増加

監視データ間には相関関係がある(はず)

WebサーバのCPUの使用率が増加 APサーバのCPUの使用率が増加 DBサーバのCPUの使用率も低下

正常時異常時

AP1

Web2

相関関係をグラフ化(行列化)し正常時との差異から異常判定

24/29

DB1 AP1 DB1

Web2

Page 25: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

25/29

Page 26: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

障害解消のための行動を提案

26/29

Page 27: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

学習発生した障害の種類障害発生付近のシステムの状態障害収束付近のシステムへの行動

予測障害と状態から過去の様々な事象の類似度を算出類似度と実行確率から行動を提示

27/29

Page 28: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

解消する確率

予測された行動

28/29

Page 29: SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい

障害対応をデータ分析で補助する OpsBear開発の取り組み

サービス化・OSS化を視野に検討開発中時期未定

協力していただける方募集改善に向けてご意見試験的な導入一緒に開発してみたい方

まとめとお願い

29/29

Top Related

ォリバースパースペクティブ - kecl.ntt.co.jp · のりしろのりしろのりしろのりしろこのぶぶんにはりつけるこのぶぶんにはりつける

プログラミング - senshu-u.ac.jp3－2 1 プログラミングとはスマートフォーンにはいろいろなアプリがあり，みなさんはそれを利用していることでしょう．その「アプリ」

そろそろXamarin使ってみませんか 1

甘味一品 - NESTA...お子そぼろ様丼 500 円うどんセット 720 円ごはひとふり昆布ごはんん 310 円ちりめん山椒ごはん 310 円卵黄醤油

そろばんのくりあがり・くりさがりのないたしざ …...分そろばんのくりあがり・くりさがりのないたしざん・ひきざん 12 ページ目

感電ってなんだろう...1 感電ってなんだろう 1 感電感電ってなんだろう？ってなんだろう？鳥はなぜ電線にとまっていても感電しないの？2

「かたつむりそろそろ登れ富士の山」 · 7/27/2013 · 「かたつむりそろそろ登れ富士の山」俳、林茶の読んだ句です。「そろそろ」とは「ゆっくり」という意味です。「小さな

#jics2014 そろそろ「社員IDでログインできます」始めてみませんか? サービス・プロバイダーの立場から考える「エンタープライズ・アイデンティティ」活用の課題と今後

Download - SIerもそろそろ 運用をなんとかしたいので いろん …SIerもそろそろ 運用をなんとかしたいので いろんなOSS使って OpsBearってツールを 作りはじめたらしい

Download - SIerもそろそろ運用をなんとかしたいのでいろん …SIerもそろそろ運用をなんとかしたいのでいろんなOSS使って OpsBearってツールを作りはじめたらしい