Gnevshev мониторинг

Post on 16-Jun-2015

624 views 4 download

Transcript of Gnevshev мониторинг

Мониторинг Mail.Ru

О мониторинге в целом

Для чего нужен мониторинг?● Своевременное выявление неисправностей.● Составление графиков загруженности.● Снижение финансовых рисков компании.● Предоставление средств для анализа и

прогнозирования.

Каковы цели и функции мониторинга?● Обеспечение минимального простоя.● Сбор данных для анализа и планирования.● Автоматическое устранение неисправностей.

Требования к мониторингу:● скорость;● отказоустойчивость;● масштабируемость;● расширяемость;● средства анализа;● надёжность;● удобство.

Возможности open-source систем мониторинга

Мониторинг Mail.ru

Взгляд в прошлое● 12 лет развития мониторинга Mail.ru;● рост со 200 серверов до 10000, с 1 ЦОД до 9● 100-кратный рост числа и разнообразия сетевых

устройств;● 10000-кратный рост трафика.

Мониторинг Mail.Ru — это:● 140 типов мониторинга;● 160 тыс. объектов наблюдения;● 2,5 Тбайт графиков;● 150 млн записей об алертах.

Мониторинг Mail.Ru Свободные решениядля мониторинга

+ Распределённая конфигурация+ Быстрый: параллельный опрос в 1000+ потоков+ Отказоустойчив+ Адаптирован под наши бизнес-процессы+ Интегрирован с корпоративными системами учёта

☐ Медленнee работает☐ Требует больше ресурсов☐ Недостаточно масштабируется☐ Недостаточно резервируется☐ Недостаточно интегрируется☐ Неудобен в настройке☐ Практически не расширяется☐ Медленно исправляют ошибки

Устройство мониторинга Mail.ru

Главный экран

Основные типы мониторинга Mail.Ru

● HTTP● PING● POP3/IMAP● TCP● DNS

● Собственные протоколы iproto, statd

● Сетевая инфрастуктура: линки, роутинг, каналы

● Базы данных

● SNMP — состояние о десятках и сотнях объектов с каждого сервера

Управляющий сервер● демон на каждый протокол

или функцию;● асинхронный опрос в сотни

и тысячи потоков;● полная реплика конфигурации;● Perl, net-snmp и AnyEvent;● перехватчик trap'ов.

daemon-snmp

daemon-http

daemon-*

...

daemon-external

Управляющий сервер внешнего мониторинга● во всех крупных регионах;● усечённая конфигурация;● мониторинг только внешних объектов.

Графики: сбор данных и хранение● мгновенные замеры;● большой трафик: много пакетов;● большая нагрузка на диски;● агрегирование: avg, sum, count.

Серверы и др. оборудование

Управляющий сервер

БД

Хранилище

Веб- и API-серверы

мониторинга

Кластер мониторинга

Статистические данные

большой трафик

Резервирование и балансировка

Серверы

Кластер мониторинга

ЦОД 1

ЦОД NПользователи и потребители

ЦОД 2

Роутер Роутер

Синхронизация

Кластер мониторинга

ЦОД 1 Кластер мониторинга

ЦОД 2

Кластер мониторинга

ЦОД N

И всё-таки у нас есть и другиесистемы мониторинга

Мониторинг Mail.Ru

Протокол SNMP● универсальный;● поддерживается почти всем оборудованием;● имеет богатый набор программных решений.

Управляющий сервер

SNMP Get SNMP GetBulk

t

Response (OID)

Get (OID)

20–200 запросов 1–4 запроса

Управляемый сервер

Управляющий сервер

Управляемый сервер

Response (OID)

Get (OID)

Response (OID)

Get (OID)

...

Response (OID)

Get (OID)

Response (OIDs)

GetBulk(...)

Response (OIDs)

GetBulk(...)

SNMP GetBulkМассив OIDS:.1.3.6.1.4.1.2021.2.1.101.1.3.6.1.4.1.2021.2.1.100.1.3.6.1.4.1.2021.2.1.2.1.3.6.1.4.1.2021.8.1.101.1.3.6.1.4.1.2021.8.1.100.1.3.6.1.4.1.2021.8.1.2.1.3.6.1.4.1.2021.9.1.101.1.3.6.1.4.1.2021.9.1.100.1.3.6.1.4.1.2021.9.1.2

OID: .1.3.6.1.4.1.2021

GetBulk(N, M, OIDs...)

N — nonrepeaters — количество OID-ов от начала массива, для которых не нужно выводить всё дерево

M — max repeaters — количество ответных OID-ов в SNMP-ответе для последующих OID из массива запроса

N

M

FLAP-мониторинг● часто/регулярно ненадолго появляющиеся алерты не

ловятся невооружённым взглядом.

Особенности

Зоны ответственности● множество команд системных администраторов;● множество проектов;● гибкая настройка мониторинга под команду или проект;● возможность выделить аварийную зону в отдельный

экран.

Зоны ответственности

Мониторинг мониторинга● все ноды внутри кластера;● кластеры каждый с каждым;● особые тестовые алерты.

Повышение качества работы дежурных инженеров путём сбора и анализа статистики:1. Время появления алерта.2. Время принятия алерта в обработку дежурным. Фиксируется имя

дежурного.3. Время окончательного уведомления. Указывается имя нового

ответственного и время, за которое он обещал исправить проблему.4. Время устранения неполадки.5. Все звонки дежурных фиксируются в логах IP-телефонии. Они содержат

время звонка, вызываемый номер и результат: продолжительность разговора или причину неудачного звонка, когда номер был занят или недоступен.

Круглосуточная дежурная смена● смены по несколько дежурных инженеров;● в каждом дата-центре минимум по человеку;● координация работы.

Графики

Dashboard

statd

Учёт оборудования

Информация о сервере

Автоматический сбор сведений

Итак, мониторинг Mail.ru:● развивается независимо;● быстрый;● распределённый;● отказоустойчивый;● базируется на свободных решениях;● активно использует SNMP;● рисует графики;● сохраняет все события навечно;● интегрирован в корпоративные информационные системы;● предоставляет средства для анализа и планирования.

Александр ГневшевЗаместитель директора по эксплуатации

gnevshev@corp.mail.ru

СПАСИБО!