5 мифов о производительности баз данных и Python

@maxmaxmaxmaxМАКСИМ КЛИМИШИНCTO GVMachines Inc.

Базы данных, python и пять заблуждений о производительности

Сегодня поговорим о

‣ Python

‣ Почему X не быстрее Y

‣Оптимизации в базах данных

‣Оптимизации и Python

При чем тут python

Базы данных и Python

При чем тут Python

‣ Надо хранить плоские данные

‣ Связанные данные

‣ Графы

‣ Состояния

‣ Следить на консистентностью

‣ Совершать выборки

Наша платформа

‣ CouchDB

‣ Solr

‣ Redis

‣ Уперлись в скорость создания индекса CouchDB

‣ Постепенно мигрируем с CouchDB в Redis

‣ Активно используем Redis для очередей

‣ Активно используем для Pub/Sub

Наш опыт

Заблуждение №1: База X быстрее базы Y

Алгоритмы

База X быстрее Y

‣ B-tree – O(log n) / most of DBs

‣ Hash – O(1) – O(n) / most of DBs

‣ Log-structured merge-tree – O(log n) / Cassandra

‣ K-D tree – O(log n) – O(n) / Postgres/graph DBs

‣ Boyer–Moore string search algorithm – O(n)

Если коротко, то выше головы не прыгнешь

Тем не менее, полным перебором возможно воспользоваться с дискретной детерминированной системой, состояния которой могут быть легко проанализированы

https://ru.wikipedia.org/wiki/Полный_перебор

Заблуждение №2: Проверенная временем–

значит быстрая

Базовые алгоритмы поиска не менялись.

Новая – значит говно

1961 – QuickSort 1968 – Binary Tree 1972 – B-Tree

Новая – значит говно

Заблуждение №3: В памяти – значит

быстрая

Хочу напомнить, что RAM – это очень круто!

Все упирается в ограничения:

В памяти – значит быстро

‣ CPU speed

‣ RAM speed

‣ Disk speed

А именно

‣ CPU speed – scheduled by OS, depends on LA

‣ RAM speed – fragmentation

‣ Storage speed – fragmentation, latency, depends on type and LA

Серьезный прирост производительности in-memory баз данных происходит потому, что вы убираете целое

измерение при работе с данными

Заблуждение №4: Больше железа – все

будет быстрее

Не все так просто

Железо и все дела

‣ Частота одного ядра CPU ограничена сверху

‣ Скорость памяти ограничена типом

‣ Скорость диска ограничена типом

Представим, что доступ к одному юниту равен 1ms

‣ для извлечения 1000 записей понадобится 1s, нормас

‣ 100K – 100s, долго

‣ 1M – ~16m!!!

16 долбанных минут, Карл!

Заблуждение №5: Распределенная – значит быстрая

Серьезный прирост производительности in-memory баз данных происходит потому, что убирается целое измерение

Шардим и лала

Падение производительности распределеных баз данных

происходит потому, что добавляется новое, ненадежное измерение при

работе с данными.

Что влечет за собой ряд проблем

‣ Consistency or availability

‣ Split-brain scenarios

‣ Conflicts resolution/merging (optimistic replication)

‣ Quorum-based reads/writes

‣ Manual/auto sharding configuration etc.

В частности с репликацией

‣ Будут возникать конфликты

‣ Вопрос только в том

1. Когда их разруливать

2. Кто их будет разруливать

Например

‣ Amazon Dynamo разруливает на этапе чтения и предоставляет это приложению

‣ А Apache CouchDB на этапе записи и last write win + отложенный механизм разруливания конфликтов

Оптимизации в БД

Как решается вопрос с чтением

Оптимизации

‣ Построение индекса при записи (Postgres, Redis с хранимыми процедурами)

‣ Устаревшие результаты (stale)

‣ Асинхронное создание/предвычисление индекса (вариант stale с внешним индексером)

‣ Шардинг, множественный запрос к нодам шард

Как решается вопрос с записью

‣ контроль над системным вызовом fsync для процесса БД

‣Отложенное создание индекса до первого чтения (CouchDB)

‣Отложенное создание индекса до (commit явно или по таймауту, Solr)

Оптимизации в Python-е

Как решается вопрос с чтением

‣ Read on writes (SQLAlchemy)

‣ Кеширование ответов БД

‣ Асинхронные запросы к БД

‣ Асинхронное кеширование

‣ Py3x – yield from, asyncio

‣ Py2x – gevent, threads pool

‣ For both – solid C implementations

Проблема с чтением в основном связана с внутренней организацией

структур данных Python и множества прослоек по пути между чистым запросом и чистым ответом

Как решается вопрос с записью

‣ Read on writes (SQLAlchemy)

‣ Pub/sub и асинхронная запись/очереди

‣ Прямая запись в БД с отложенным/асинхронным созданием индекса (CouchDB)

Спасибо.

Thanks!

@maxmaxmaxmax

5 мифов о производительности баз данных и Python

Software

Transcript of 5 мифов о производительности баз данных и Python

10 мифов о многоканальной розничной торговле

10 мифов о WordPress

Проектування баз данихeir.zntu.edu.ua/bitstream/123456789/1763/1/Korniienko_Database_D… · рекомендації з проектування баз даних,

Ловушки тестирования производительности

Разрушители мифов о ВИЧ

Повышение производительности бизнес-приложений

Тестирование производительности клиентсайда

10 ОСНОВНЫХ МИФОВ ОБ SMM

10 мифов о мечте

7 мифов о бизнесе в интернете

Автоматизированное тестирование клиентской производительности

Оптимизация производительности Python

5 мифов мобильного маркетинга рф 2015

Кремлёв с 10 мифов о 1941 годе (10 мифов) 2009

Уровень баз данных

5 мифов о работе рекламного стратега

Бизнес-кейс: примеры ROI при использовании Oracle Exadata для повышения производительности баз данных и работы

7 убийц производительности WordPress

10 мифов о человеческом теле

Разрушители мифов - SMM?