オープンに活動することと現場の改善~Zabbix導入による改善物語~

45
オープンに活動することと現場の改善 Zabbix導入による改善物語~ Daisuke IKEDA @ike_dai 2014/8/23 DevLOVE甲子園2014東日本大会

description

DevLOVE現場甲子園東日本大会2014での発表資料です。

Transcript of オープンに活動することと現場の改善~Zabbix導入による改善物語~

Page 1: オープンに活動することと現場の改善~Zabbix導入による改善物語~

オープンに活動することと現場の改善~Zabbix導入による改善物語~

Daisuke IKEDA@ike_dai

2014/8/23 DevLOVE甲子園2014東日本大会

Page 2: オープンに活動することと現場の改善~Zabbix導入による改善物語~

自己紹介

池田 大輔

TIS株式会社 戦略技術センター

@ike_dai https://www.facebook.com/ikedai Zabbix,AWS,fluentd,Chef,JobScheduler...

名前

所属

Twitter

Facebook

興味

AWS、VMware監視用プラグイン『HyClops for Zabbix』開発(http://tech-sketch.github.io/hyclops/jp/)技術評論社HP : http://gihyo.jp/book/2014/978-4-7741-6288-1

Amazon : http://www.amazon.co.jp/dp/4774162884

Page 3: オープンに活動することと現場の改善~Zabbix導入による改善物語~

事前にちょっと

Page 4: オープンに活動することと現場の改善~Zabbix導入による改善物語~

他のツールを

disったり

したいわけではありません

Page 5: オープンに活動することと現場の改善~Zabbix導入による改善物語~

あくまで自身の経験に基づき

『フィットしたのはこれです!』

というお話

Page 6: オープンに活動することと現場の改善~Zabbix導入による改善物語~

これまで面倒みてきたシステム達

社内SNS

Page 7: オープンに活動することと現場の改善~Zabbix導入による改善物語~

社内SNS

システム構成はよくあるWeb-AP-DBの3層型

Ruby on Railsで作られたサービス

運用系ツール

死活監視SLAのチェック等

リソース監視 プロセス監視 アクセス解析

Nagios MRTG Monit AWStats

Page 8: オープンに活動することと現場の改善~Zabbix導入による改善物語~

運用・監視って何???な当時新人だった自分には

各ツールの仕組み・設定方法勉強だけで頭がパンク!

Page 9: オープンに活動することと現場の改善~Zabbix導入による改善物語~

これまで面倒みてきたシステム達

社内向けプライベートクラウドサービス

Page 10: オープンに活動することと現場の改善~Zabbix導入による改善物語~

社内向けプライベートクラウドサービス

開発サーバや開発ツール系の共有サーバを提供監視にはCactiを利用

システムの特徴

マシンの台数が多い

仮想化プラットフォームも様々

作ったり消したり頻繁に発生

Page 11: オープンに活動することと現場の改善~Zabbix導入による改善物語~

社内向けプライベートクラウドサービス

マシンの追加依頼が来たら

リソース空き状況をCactiのグラフで確認

Excel管理のマシンスペック表を確認

HVのオーバーコミット状況をみて配置先のHVを決定

Excelに追加

構築処理

監視設定を追加

マシン完成報告

Page 12: オープンに活動することと現場の改善~Zabbix導入による改善物語~

Excel”方眼紙”ではないですが・・・

仮想マシンとハイパーバイザの関係をドキュメント管理

Page 13: オープンに活動することと現場の改善~Zabbix導入による改善物語~

社内向けプライベートクラウドサービス

マシンの追加依頼が来たら

リソース空き状況をCactiのグラフで確認

Excel管理のマシンスペック表を確認

HVのオーバーコミット状況をみて配置先のHVを決定

Excelに追加

構築処理

監視設定を追加

マシン完成報告

Page 14: オープンに活動することと現場の改善~Zabbix導入による改善物語~

毎回手作業でやるの???1〜2人じゃ回らない。。

Page 15: オープンに活動することと現場の改善~Zabbix導入による改善物語~

Excelに書き忘れてた!とか現状と差異が生じる度に確認作業

毎回手作業でやるの???1〜2人じゃ回らない。。

Page 16: オープンに活動することと現場の改善~Zabbix導入による改善物語~

Excelに書き忘れてた!とか現状と差異が生じる度に確認作業

メンテとかして大幅に配置換えすると全部書き換え!?

毎回手作業でやるの???1〜2人じゃ回らない。。

Page 17: オープンに活動することと現場の改善~Zabbix導入による改善物語~

いろいろと限界を感じたので

+楽をしたいので

Page 18: オープンに活動することと現場の改善~Zabbix導入による改善物語~

Zabbix

Page 19: オープンに活動することと現場の改善~Zabbix導入による改善物語~

Zabbixを導入したことで

● 自動登録機能やディスカバリ機能で手作業激減● これまで見きれなかった細やかな監視を実現

○ 本当に必要な情報の監視を適切に実現

● 監視→視覚化→アクションの一連の流れをZabbix1つで管理可能に

Page 20: オープンに活動することと現場の改善~Zabbix導入による改善物語~

自動登録・ディスカバリ機能NWディスカバリ(ポーリング型) 自動登録(プッシュ型)

Zabbix Serveror

Zabbix Proxy

Target Server

NWDevice

Target Server

Target Server

Zabbix Serveror

Zabbix Proxy

Target Server

Target Server

Target Server

Target Server

指定したNW宛に定期ポーリング

Zabbix Agent

Zabbix Agent

Zabbix Agent

Zabbix Agent

■ NWのIPrange指定をしてポーリング■ 検知条件が豊富 - Zabbix Agent - SNMP - ICMP ping - TCP - HTTP 等

■ Agent起動時にZabbixServerに通知 →無駄なパケットが発生しない(効率的)■ 通知時に送付される情報 - Hostname (Agetホスト名) - ListenIP (Agent稼働IP) - ListenPort (Agent稼働ポート) - HostMetadata (Agentに割り当てられたメタ情報 )

起動時にプッシュ通知

Page 21: オープンに活動することと現場の改善~Zabbix導入による改善物語~

自動登録・ディスカバリ機能

監視対象機器新規追加

追加されたことを検知

追加された機器の情報を把握

機器情報を基に適切な監視設定

監視開始

一連の流れを自動化

Page 22: オープンに活動することと現場の改善~Zabbix導入による改善物語~

豊富な監視手法

snmp server

snmp server

SNMP Trap

SNMP

ssh server

ssh server

Zabbix Agent

仮想化HV

Cloud

ODBC

DB

JMXJavaアプリ

仮想環境API

クラウドAPI

SSH接続による内部コマンド実行監視

ZabbixAgentによる内部監視(リソースやログ等)

ODBCによるDB監視

Zabbix Java GatewayによるJava監視

外部チェックスクリプト監視機能による API監視

Zabbix Server

Page 23: オープンに活動することと現場の改善~Zabbix導入による改善物語~

監視運用の一連の流れを統合管理

監視処理

状況の視覚化

アクション自動化

■豊富な監視手法■環境に合わせた監視設定自動化

■グラフの自動生成■カスタムスクリーンによる運用者への最適な情報の提示

■メール通知・リモートコマンド実行■エスカレーション機能によるアクションフロー自動実行

Page 24: オープンに活動することと現場の改善~Zabbix導入による改善物語~

Zabbixを使うに至るまでに

Page 25: オープンに活動することと現場の改善~Zabbix導入による改善物語~

まずは個人的に使ってみる

書籍やブログ記事など机上の話だけではなかなかイメージも難しい

Page 26: オープンに活動することと現場の改善~Zabbix導入による改善物語~

コミュニティに参加

インターネット上に転がってない情報もいっぱい

Page 27: オープンに活動することと現場の改善~Zabbix導入による改善物語~

ブログにちょっとしたメモ残してみたり

中の人に知ってもらうためにあえて外からアプローチというのも効果的

Page 28: オープンに活動することと現場の改善~Zabbix導入による改善物語~

Zabbixも完璧ではない

Page 29: オープンに活動することと現場の改善~Zabbix導入による改善物語~

監視対象の増加に従って

設定自動化できるけど

Page 30: オープンに活動することと現場の改善~Zabbix導入による改善物語~

監視対象の削減に従って

監視設定削除は苦手だったり

Page 31: オープンに活動することと現場の改善~Zabbix導入による改善物語~

オープンだからこそ補い合える

Page 32: オープンに活動することと現場の改善~Zabbix導入による改善物語~

こんなものを作ったり

Page 33: オープンに活動することと現場の改善~Zabbix導入による改善物語~

AWS・VMware環境監視自動化プラグイン

Page 34: オープンに活動することと現場の改善~Zabbix導入による改善物語~

HyClops機能詳細

OS

Zabbix

VMware

サポート環境

機能

CentOS,Ubutnuで動作確認済み

2.0系、2.2系対応

4.1および5.0、5.1(update1) ESXiで動作確認済(vCenter未対応)

クラウドAPI経由でインスタンス名およびインタフェース情報を取得し Zabbixホスト自動登録

ホスト自動登録

テンプレート自動割当

API経由での情報取得

複数インスタンス一括制御

GateOne連携

ホスト自動登録時にOS種別(LinuxかWindows)に応じて自動テンプレート割当・監視実行可能

AWS |インスタンス情報 (AZ,Type,Status等)、課金情報(CloudWatch BillingData)VMware|HV情報(CPU,Memory,Storageの全体量/割当量/使用量)、VM情報(CPU,Memory,Status等)

起動/停止/再起動を複数インスタンスに一括命令実行可能 (Zabbixグローバルスクリプト機能利用 )

Zabbixに登録したホストのインタフェース情報を使って Webブラウザ上でSSHコンソール接続可能

Page 35: オープンに活動することと現場の改善~Zabbix導入による改善物語~

使える可能性を高めていける

Page 36: オープンに活動することと現場の改善~Zabbix導入による改善物語~

ただし!

Page 37: オープンに活動することと現場の改善~Zabbix導入による改善物語~

あくまでZabbixは手段

Page 38: オープンに活動することと現場の改善~Zabbix導入による改善物語~

目的ではない

Page 39: オープンに活動することと現場の改善~Zabbix導入による改善物語~

Zabbixを使うためにではなく

運用をよくするために活動したい

改めて自戒をこめて。。。

Page 40: オープンに活動することと現場の改善~Zabbix導入による改善物語~

伝えたかったこと

Page 41: オープンに活動することと現場の改善~Zabbix導入による改善物語~

小さく初めて

Page 42: オープンに活動することと現場の改善~Zabbix導入による改善物語~

小さく初めて

少しのオープンな精神とともに

Page 43: オープンに活動することと現場の改善~Zabbix導入による改善物語~

小さく初めて

少しのオープンな精神とともに

目的を見失わず活動を続ける

Page 44: オープンに活動することと現場の改善~Zabbix導入による改善物語~

小さく初めて

少しのオープンな精神とともに

目的を見失わず活動を続ける

堅くて変え辛いところでも

変化を起こせるかも

Page 45: オープンに活動することと現場の改善~Zabbix導入による改善物語~

Thank you.

Let’s improve our future together!

@ike_dai2014/8/23 DevLOVE甲子園2014東日本大会