Zabbix 3.2 - мониторинг качественно нового уровня / Алексей...

Post on 06-Jan-2017

306 views 4 download

Transcript of Zabbix 3.2 - мониторинг качественно нового уровня / Алексей...

Zabbix 3.2 - мониторинг качественно нового уровняАлексей Владышев

Обо мне

Алексей Владышев

Создатель и руководитель Zabbix

Twitter: @avladishev

2

• Проблемы большого мониторинга

• Чем может помочь Zabbix 3.2?

3

План доклада

Большой мониторинг

4

Тысячи или десятки тысяч устройств

Шаблоны, макросы

5

Управление конфигурацией

Сетевое авто-обнаружение Низкоуровневое обнаружение

6

Динамическая конфигурация

Прокси Партиционирование Активные проверки

7

Масштабируемость

Master-master/slave replication Linux HA

Corosync/Pacemaker

8

Высокая доступность

Это убивает доверие к мониторингу

9

Ложные срабатывания

{server:mysql.status[Questions].avg(5m)} > 5000

10

MySQL server is overloaded

Умные триггеры

{server:mysql.status[Questions].avg(5m)} > 5000

11

Проблема: MySQL server is overloaded

Различные условия

{server:mysql.status[Questions].avg(10m)} < 1000Решение: MySQL server is back to normal

12

Парадокс: Чем лучше работает система мониторинга, тем больше

проблем она обнаруживает.

Но что со всем этим делать?

13

Два пути:

(1) уменьшить количество проблем (2) правильно их визуализировать

14

Теги событий

15

{server:mysql.status[Questions].avg(5m)} > 5000

16

MySQL server is overloaded

Tags Datacenter: AM2 Env: Production Service: DB Cluster

Теги дают нам возможность абстрагироваться от хостов и метрик и получить сервис-

ориентированный мониторинг

17

Service: DB Cluster

Service: Helpdesk

Service: WEB

Но мы не ограничены только сервисами!

18

Service: Oracle Service: {{ITEM.VALUE}.regsub(‘…’, ’\1 \2’)}

Datacenter: NY2 Datacenter: {$DATACENTER}

Area: Performance Area: Availability Area: Security

Environment: Staging Environment: Test

User impact: None User impact: Critical

19

Имя тега: ЗначениеZabbix 3.2.2

Различные измерения

Env: Production

20

Environment: Production

Значения тега

Datacenter: {$DATACENTER}

Service: {{ITEM.VALUE}.regsub(‘…’, ’\1 \2’)}

21

Так много проблем

22

Environment: Production

23

Datacenter: NY2

24

Impact: Critical

25

Impact: Critical AND in NY2

Отображение проблем

26

Сделано для людей

27

28

29

30

31

32

Фильтры!

33

34

Оповещения

35

36

Корреляция событий

37

Глобальная корреляция проблем

38

Port #33 on switch Cisco_050 is down

39

Мониторинг портов

Datacenter: AM2 Port: 33 Switch: Cisco_050

Port #33 on switch Cisco_050 is down

40

Мониторинг портов

Datacenter: AM2 Port: 33 Switch: Cisco_050

Port #40 on switch Cisco_050 is downDatacenter: AM2 Port: 40 Switch: Cisco_050

Нет корреляции Port 33 != Port 40

Port #33 on switch Cisco_050 is down

41

Мониторинг портов

Datacenter: AM2 Port: 33 Switch: Cisco_050

Port #40 on switch Cisco_050 is down

Port #33 on switch Cisco_050 is down

Datacenter: AM2 Port: 40 Switch: Cisco_050

Datacenter: AM2 Port: 33 Switch: Cisco_050

Корреляция!

Port #33 on switch Cisco_050 is down

42

Мониторинг портов

Datacenter: AM2 Port: 33 Switch: Cisco_050

Port #40 on switch Cisco_050 is down

Port #33 on switch Cisco_050 is down

Datacenter: AM2 Port: 40 Switch: Cisco_050

Datacenter: AM2 Port: 33 Switch: Cisco_050

Автоматически закрываем

Пример локальной корреляции

43

Мониторинг сервисов

44

… 10/Aug/2016:06:25:30 service Jira stopped 10/Aug/2016:06:25:32 service MySQL stopped 10/Aug/2016:06:26:11 service MySQL started 10/Aug/2016:06:26:22 service Redis stopped 10/Aug/2016:06:26:58 service Redis started 10/Aug/2016:06:27:31 service Jira started …

/var/log/services.log

Мониторинг сервисов

45

… 10/Aug/2016:06:25:30 service Jira stopped 10/Aug/2016:06:25:32 service MySQL stopped 10/Aug/2016:06:26:11 service MySQL started 10/Aug/2016:06:26:22 service Redis stopped 10/Aug/2016:06:26:58 service Redis started 10/Aug/2016:06:27:31 service Jira started

/var/log/services.log

Сколько триггеров и метрик нам необходимо для мониторинга состояния отдельно

каждого сервиса?

Zabbix 3.2:

Всего лишь одна метрика и один триггер!

46

47

Name: Service {{ITEM.VALUE}.regsub(“^.*service ([a-zA-Z]*).*$”,”\1”)} is down

Магический триггер

10/Aug/2016:06:25:30 service Jira stopped

48

Name: Service {{ITEM.VALUE}.regsub(“^.*service ([a-zA-Z]*).*$”,”\1”)} is down

Магический триггер

Tags: Datacenter: AM2 Env: Staging Service: {{ITEM.VALUE}.regsub(“^.*service ([a-zA-Z]*).*$”,”\1”)}

Tag for matching: Service

Как это работает?

49

10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM

10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” PROBLEM

50

Как это работает?

10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” RESOLVED 10/Aug/2016:06:28:11 service MySQL started

51

Как это работает?

10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” RESOLVED 10/Aug/2016:06:28:11 service MySQL started 10/Aug/2016:06:34:22 service Redis stopped “Redis stopped” PROBLEM

52

Как это работает?

10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” RESOLVED 10/Aug/2016:06:28:11 service MySQL started 10/Aug/2016:06:34:22 service Redis stopped “Redis stopped” RESOLVED 10/Aug/2016:06:37:58 service Redis started

53

Как это работает?

10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” RESOLVED 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” RESOLVED 10/Aug/2016:06:28:11 service MySQL started 10/Aug/2016:06:34:22 service Redis stopped “Redis stopped” RESOLVED 10/Aug/2016:06:37:58 service Redis started 10/Aug/2016:06:55:31 service Jira started

54

Как это работает?

Тэги проблем и корреляция - это фундамент для будущих улучшений

55

Ручное закрытие проблем

56

57

58

Что ещё нового в Zabbix 3.2?

59

Иерархические группы

60

Servers Servers/Physical Servers/VMs

Location/Africa Location/Europe Location/Japan Location/North America

Templates Templates/Official Templates/SNMP Templates/Services Templates/Vendors Templates/Vendors/HP

61

Более простое управление правами

62

Фильтрация

Полный список улучшений в

Документации Zabbix 3.2

63

Как перейти на 3.2?

64

Zabbix 3.2 является мажорной версией, но не LTS релизом,

период поддержки 6-7 месяцев

65

Сроки поддержки

66

http://www.zabbix.com/life_cycle_and_release_policy

Обновление. Как обычно, очень просто…

Устанавливаем новые бинарники Zabbix server и proxy

Файлы новой версии интерфейса

Всё!

67

The Universal Open Source Enterprise Level Monitoring Solution

Спасибо!

Twitter: @avladishev

Email: alex@zabbix.com

Подробности на нашем стенде!