20130505 Z●bbix春の特別教室向け 監視項目のおさらい

5
2013/05/05 自自自自自自自自 #2.1 自自 Zabbix 自自自自 in 自自自 DC # 自自自自自自自自 自自自自自自自自自自自自自

description

#自宅ラック勉強会 2.1 監視祭りで使った資料です。

Transcript of 20130505 Z●bbix春の特別教室向け 監視項目のおさらい

Page 1: 20130505 Z●bbix春の特別教室向け 監視項目のおさらい

2013/05/05自宅ラック勉強会 #2.1

春の Zabbix 特別教室 in きりのDC

# 自宅ラック勉強会

かんしせっけいのふりかえり

Page 2: 20130505 Z●bbix春の特別教室向け 監視項目のおさらい

ユーザプロセスの監視の代表例

# 自宅ラック勉強会2

Kernel

Userland

Daemon

(Service)

UserProces

s

Hardware

サービスレスポンス監視例 ) Apache HTTP サーバの特定 URL に定期的にアクセスし、レスポンスコードやコンテンツ内容をチェックする

サービスコネクション監視例 ) TCP 80 番ポートに定期的に接続できるかチェックする  ( サービスレスポンス監視と異なり、あくまでコネクションを張れるかだけチェックする )

プロセス監視・デーモン監視例 ) pgrep httpd | wc –l のように特定のプロセスが指定個数あるかどうかチェックする  Linux の場合は service コマンドでも可

ログ監視例 ) tail –f /var/log/httpd/error_log | grep “[error]” のように定期的に監視対象ログファイルにエラー文字列が出ていないかチェックする

TCP/80

error_log

httpd

Page 3: 20130505 Z●bbix春の特別教室向け 監視項目のおさらい

OS カーネル監視の代表例

# 自宅ラック勉強会3

Kernel

Userland

Daemon

(Service)

UserProces

s

Hardware

ICMP(Ping)

logfile/syslog

Windows サービス監視例 ) net start | findstr “Task Scheduler” のように OS 標準で添付されている Windows サービスが起動していることをチェックする

ICMP 監視例 ) 外部の監視サーバから定期的に ICMP 応答をチェックする ※ ICMP サービスは OS のネットワークプロトコルスタックのかなり底辺にいるので、 OS が固まっているかどうかの判別に利用しやすい

ログ監視・ syslog 監視例 ) /var/log/messages に Fail, Err, Crit などの文字列が出力されていないか確認する ※ OS のシステムディスクにローカルでログファイルを書き出していると、 RAID コントローラ障害やシステムクラッシュ時のファイルシステム不整合により断末魔のログが消失することがあるので、できれば外部に syslog サーバを立てておきログを外部に転送しておくと良い。

Page 4: 20130505 Z●bbix春の特別教室向け 監視項目のおさらい

HW 監視の代表例

# 自宅ラック勉強会4

Kernel

Userland

Daemon

(Service)

UserProces

s

Hardware

SNMP Trap/Syslog

IPMI ステータス監視例 ) HP iLO や IBM IMA/RSA 、 Dell DRAC などのオンボードコントローラ経由でマザボ上の温度センサや電源状態を取得できる。  Zabbix だと最近のバージョンで IPMI に対応。

SNMP-Get 監視例 ) 上記オンボードコントローラ経由で、ものによっては SNMP Get による情報取得に対応するものもある。

SNMP-Trap/Syslog 監視例 ) オンボードコントローラから片系電源供給のダウンや、再起動イベントなどを、指定されたSNMP Trap/Syslog 送付先にリアルタイムに送ることができる。

ICMP(Ping)

IPMI 取得 /SNMP-Get

Page 5: 20130505 Z●bbix春の特別教室向け 監視項目のおさらい

NW 監視の代表例

# 自宅ラック勉強会5

Hardware

Operating System/Firmware

Network Service(Firewall/Routing/Switching/

etc)

サービスレスポンス監視 ( ヘルスチェック監視 )例 ) ロードバランサやファイアウォールの場合は、機器を通過する監視用ポリシーを用意しておき、定期的にサービス通信が通過していることを確認する。

SNMP-Get 監視例 ) NW 機器ではインターフェース上の転送量を取得できるので、一定間隔でチェックし時間毎の転送量をチェックする。

SNMP-Trap/Syslog 監視例 ) LinkDown や ColdStart など、インターフェースや機器の状況が変化した場合は基本的に外部の監視サーバに SNMP Trap や Syslog を飛ばすことができる。

ICMP 監視例 ) 外部の監視サーバから定期的に ICMP 応答をチェックする

ICMP(Ping)

SNMP Trap/SyslogSNMP-Get

Health Check