Оценка производительности hadoop кластера.

Post on 05-Jul-2015

601 views 4 download

description

В презентации описан подход к оценке производительности hadoop кластера. Описаны вероятные узкие места, влияющие на производительность кластера. Приведен пример сравнения производительности двух кластеров на различном железе.

Transcript of Оценка производительности hadoop кластера.

http://retailrocket.ru/Content/Img/promo/logo.png

Как измерить слона?Оценка производительности

кластера Hadoop

Мурашкин Вячеславmvjacheslav@gmail.com

RetailRocket сегодня

● 50M хостов в месяц● 40G логов в сутки● 15 машин в кластере● 5 часов ежедневно на регулярные задачи

0. Кластер Hadoop

1 Производительность

Число выполненных задач за единицу времени

● Время выполнения задачи● Воспроизводимость результатов

○ Одни и те же входные данные○ Одни и те же задачи

1.1 Как оцениваем?

github.com/intel-hadoop/HiBench

● Набор типовых задач○ Sort, WordCount, TeraSort, Nutch indexing,

PageRank, Bayesian classification, K-means clustering

● Утилиты для генерации входных данных

1.2 Чем оцениваем?

1.3 Время измерили

А дальше?

2 Поиск узких мест

● Железо (CPU, Disks, Network)● Конфигурация кластера● Оптимизация задачи

2.1 Утилиты

● sysbench (CPU, File IO)● iperf (Network)

2.2 Система мониторинга

● Cloudera Manager● Ganglia● Zabbix

2.2 Система мониторинга

● Число занятых слотов● Объем свободного места в HDFS● Jobtracker Heap Usage

2.3 Метрики hadoop

2.3 Метрики hadoop

● Dsik IO operations● CPU (load, context switches, iowait)● Network traffic● RAM

2.3 Системные метрики

2.3 Системные метрики

3 Устраняем перегрузки

● Оптимизируем число map/reduce слотов○ mapred.tasktracker.map.tasks.maximum○ mapred.tasktracker.reduce.tasks.maximum

3.1 CPU Context switches

● Используем несколько дисков○ mapred.local.dir

3.2 CPU iowait

3.3 CPU load

● Режим работы CPU○ devices/system/cpu/cpu0/cpufreq/scaling_governor○ userspace powersave conservative ondemand

performance

4 Пример из жизни: 2 кластера

● Дистрибутив Cloudera CDH4.1● по 4 машины в кластере● тестируем HiBench Sort 24G/node

4.1 Пример из жизни: 2 кластераA: Intel® Xeon® Processor E3-1245 v2# of Cores 4# of Threads 8# Clock Speed 3.4 GHz# Map/Reduce 4/3# Sort time 13,5 min# Cost 71 $

B: Intel® Xeon® Processor E5-2620 # of Cores 6

# of Threads 12# Clock Speed 2 GHz# Map/Reduce 6/5# Sort time 22,5 min# Cost 230 $

Спасибо!

Мурашкин Вячеславmvjacheslav@gmail.com

retailrocket.ru