Download - Построение территориально распределенных ЦОД

Transcript

Построение территориально распределенных ЦОД

Эльдар Женсыкбаев Системный инженер-консультант [email protected] CCIE #36340

Распределённые ЦОД Цели создания

•  Катастрофоустойчивость •  Непрерывность обработки •  Мобильность приложений •  Миграция систем •  Наращивание производительности/ёмкости •  Распределённые сервисы •  Географически-локализованные сервисы

Page 3: Построение территориально распределенных ЦОД

Катастрофоустойчивость Точка восстановления и время восстановления

Время

Момент катастрофы

Последняя резервная копия или пригодные данные

Системы восстановлены и работоспособны

Время восстановления

Точка восстановления (Recovery point objective - RPO)

Меньше RPO/RTO •  Больше $$$ •  Репликация •  «Горячий резерв»

Больше RPO/RTO •  Меньше $$$ •  Резервирование на ленту •  «Холодный резерв»

«Нулевые» RPO/RTO – система непрерывной доступности

Page 4: Построение территориально распределенных ЦОД

§  Развитие кластеризации для защиты от сбоя §  Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД §  Некоторые приложения поддерживают кластеризацию через L3 сеть

Heartbeat Private LAN

Public LAN VIP Cluster

Cluster A Node 2

Cluster A Node 1

Непрерывность бизнеса Географически распределённые отказоустойчивые кластеры

Page 5: Построение территориально распределенных ЦОД

§  Мобильность виртуальных сервисов между разнесёнными сайтами §  Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN §  Основа для управления облачной нагрузкой и её миграции между «облаками»

DC 1 DC 2

Core Network

ESX-A source ESX-B target

DCI LAN extension

Cisco-VMware With EMC & NetApp Validated Design

& Certification for Virtualized Workload

Mobility

Мобильность виртуальных сервисов Перемещение VM между ЦОД

Page 6: Построение территориально распределенных ЦОД

Влияние расстояния Задержка (latency)

Скорость света в вакууме ~300,000 км/с Скорость света в оптоволокне: ~200,000 км/с Задержка сигнала: ~5 мкс/км, RTT ~10 мкс/км Для сравнения:

§  Среднее время доступа на (быстром) шпиндельном диске ~2-3 мс §  Среднее время доступа на SSD диске < 0.1 мс §  Максимальная задержка, допускаемая VMWare для vMotion: 5 мс

RTT (10 мс начиная с vSphere 5.1)

Page 7: Построение территориально распределенных ЦОД

Распределённые ЦОД Классификация по расстоянию

Расстояние – ключевой фактор Ближе:

§  Выше производительность §  Синхронная репликация §  Проще коммуникации

Дальше: §  Катастрофоусточивость §  Распределение сервисов

Компромисс!

Кампус 1–2 km

Метро 50-80 km

Региональное (extended

Metro) 200-400km Основной

ЦОД Резервный

ЦОД

Катастрофо- устойчивый

ЦОД

Гео

Распределённые ЦОД Технологические элементы

Связь сетей передачи данных §  L2/L3 смежность §  Мониторинг(heartbeat)/синхронизация в кластере §  Репликация по IP §  Подключение к транспортной сети

Связь сетей хранения данных §  Доступ к удаленным СХД/лентам §  Репликация массивов по FC

Оптимальный путь трафика §  Оптимизация исходящего трафика §  Оптимизация входящего трафика

Построение территориально распределенных ЦОД

Связь сетей хранения данных

Ограничено оптикой и BB_Credit

Влияние расстояния Варианты объединения Fibre Channel SAN

Темное Волокно CWDM DWDM

SONET/SDH

ЦОД Кампус Метро Регион Страна

Расстояние

Sync

Sync (1,2,4Gbps)

Sync (1,2Gbps + subrate)

Async (WAN,1/10Gbps) FCIP

Ограничено оптикой и BB_Credit

Ограничено BB_Credit

Оптика

Sync (1,2,4,10Gbps per λ)

Sync (Metro Eth)

Async

Земля

Page 11: Построение территориально распределенных ЦОД

•  BB_Credits нужны, чтобы «заполнить» соединение фреймами FC •  Полный (2112 байт) FC фрейм имеет «длину» примерно 2 км на 1 Gbps, 1 км на 2

Gbps,1/2 км на 4 Gbps, 1/4 км на 8 Gbps, 1/8 км на 16 Gbps •  Если BB_Credits не хватает для данного расстояния – снижается произодительность, соединение простаивает

•  Число BB_Credits определяется оборудованием и его настройками

16 Km

1 Gbps FC

4 Gbps FC ~½ km per Frame

~2 km per Frame

2 Gbps FC ~1 km per Frame

8 Gbps FC ~¼ km per Frame

BB_Credits и расстояние

Влияние расстояния Задержка (latency) и Fibre Channel

Page 12: Построение территориально распределенных ЦОД

FCoE для связи SAN между ЦОД? Да! C Nexus 7000/7000 и модулями F2E/F3

§  Поддерживаемые расстояния для FCoE транспорта:

§  Nexus 5500: до 3 км

§  Nexus 5600: до 20 км

§  Nexus 7000/7700 с F2E/F3 картами: до 80 км с DWDM SFP+

§  Использование отдельных соединений для LAN и SAN трафика

До 80 км Nexus 7000

Nexus 7000

Storage VDC

Page 13: Построение территориально распределенных ЦОД

FCIP: Fibre Channel over IP

Соединение «точка-точка» (туннель) между двумя FCIP устройствами Используется TCP – могут использоваться механизмы оптимизации (WAAS) Создаётся единая FC фабрика (общий FSPF домен) Транспорт – IP сеть, в том числе и на большие расстояния

FCIP: IETF стандарт для связи Fibre Channel SAN через IP (RFCs 3821 и 3643)

FC SAN FC SAN IP Network

FCIP Tunnel

Page 14: Построение территориально распределенных ЦОД

Расширение SAN и Inter-VSAN Routing (IVR)

§ Сбой на «транзитной» VSAN_20 (оборудование или кабель) не нарушит трафик в VSAN_10 или VSAN_30 § Работает с любым транспортом (FC, SONET/SDH, DWDM/CWDM, FCIP) § Нужно, если данные VSAN используются для локальной обработки

VSAN_5 - Site 1 Host Fabric VSAN_10 - Site 1 Replication Fabric VSAN_20 - Inter-site SAN Extension Fabric VSAN_30 - Site 2 Replication Fabric

Site 2

Site 1 Local VSAN_5

Transit VSAN_20

(IVR)

Replication VSAN_10

Replication VSAN_30

Page 15: Построение территориально распределенных ЦОД

Синхронная репликация данных: Приложение получает подтверждение I/O после его выполнения на обеих сторонах (zero RPO)

§  «Метро»расстояния

Асинхронная репликация данных: Приложение получает подтверждение I/O после его выполнения на основном (локальном) диске, в то время как его коприрование на удалённый массив продолжается

§  Неограниченные расстояния

2 1

4 1

Synchronous Data Replication

Asynchronous Data Replication

Расширение SAN Синхронная и асинхронная репликация

Page 16: Построение территориально распределенных ЦОД

§  SCSI протокол (FC) требует два round trip на операцию §  Вносимая задержка операции 20µs/км, 100 км = 2 мс §  В зависимости от приложения синхронную репликацию, как правило ограничивают 50-100 км §  I/O Acceleration «убирает» один round-trip

Local Storage Array Remote Storage Array

250 µs : Rec_Ready ?

250 µs : Wait for response?

250 µs : Send data

250 µs : Wait for Ack?

50 км 1ms

Расширение SAN Синхронная репликация

Page 17: Построение территориально распределенных ЦОД

DC 1 DC 2

Core Network

Virtual Center

ESX-A source ESX-B target

L2 extension for vMotion Network

Target

Volumes

Initiator

Доступ к СХД и связь ЦОД Вариант 1 – разделяемая СХД

Page 18: Построение территориально распределенных ЦОД

Core Network

DC 1 DC 2

Virtual Center

L2 extension for vMotion Network

ESX-A source ESX-B target

Повышение произодительности с использованием IOA на Cisco MDS

Доступ к СХД и связь ЦОД Разделяемая СХД – использование Cisco IO Acceleration

Page 19: Построение территориально распределенных ЦОД

Работа ускорения ввода/вывода

Ускорение синхронной репликации и резервирования на ленту: аналогичнные подходы На работу с лентой дополнительно влияют особенности физического носителя и ограничения буферизации Write Acceleration имитирует только Transfer Ready, Tape Acceleration имитирует Command Status

WRITE XFER_RDY

XFER_RDY

Write Acceleration (WA)

Reduction in I/O Latency ~equal to one round trip time (RTT)

STATUS

WA WA

DATA

WRITE-1 XFER_RDY

XFER_RDY

STATUS

DATA

Tape Acceleration (TA)

TA TA

STATUS WRITE-2

XFER_RDY DATA

STATUS XFER_RDY

STATUS

WRITE-1

WRITE-2

WRT file mark

WRT fm sts WRT fm sts

Page 20: Построение территориально распределенных ЦОД

http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html

Core Network

DC 1 DC 2

Virtual Center

L2 extension for vMotion Network

ESX-A source ESX-B target

Доступ к СХД и связь ЦОД Вариант 2 - NetApp FlexCache (Active/Cache)

Temp Cache

Read data 3 data

2 Read

§  FlexCache не работает как отложенный кеш записи §  FlexCache подтверждает операцию только после подтверждения от СХД

data 1 Write 3

2 Write

4 ACK

ACK data

data

Page 21: Построение территориально распределенных ЦОД

§  Хосты на обеих сторонах одновременно имеют доступ к распределённым виртуальным томам

§  Непрерыная синхронизация

§  Запись защищается на обоих сайтах

§  Чтение – с кеша VPLEX или местного тома ЦОД B ЦОД A

Fibre Channel

Distributed Virtual Volume Synchronous Latency

Доступ к СХД и связь ЦОД Вариант 3 - EMC VPLEX Metro (Active/Active)

Page 22: Построение территориально распределенных ЦОД

http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/ EMC/dciEmc.html

Core Network

Virtual Center

L2 extension for vMotion Network

ESX-A source ESX-B target

VPLEX Virtual Layer

DC 1 DC 2

Initiator

Target VPLEX Engine

EMC VMAX VPLEX

Engine

EMC CLARiiON

Target

From

the

Hos

From the S

torage

LUNv LUNv

Synchronous Latency requiments ~100 kms max

Доступ к СХД и связь ЦОД Вариант 3 - EMC VPLEX Metro (Active/Active)

Построение территориально распределенных ЦОД

Связь сетей передачи данных

Влияние расстояния Передача данных

Стандартные интерфейсы 10Гбит/с: §  10GBASE-LR – до 10 км §  10GBASE-ER – до 40 км §  10GBASE-ZR – до 80 км

Стандартные интерфейсы 40Гбит/с §  40GBASE-LR4 – до 10 км

Стандартные интерфейсы 100Гбит/с §  100GBASE-LR4 – до 10 км §  100GBASE-ER4 – до 40 км

DWDM – до 1000+ км при использовании оптического усиления, не ограничено при использовании регенерации Через сеть (IP, MPLS…) - без ограничений

Page 25: Построение территориально распределенных ЦОД

Связь сетей ЦОД != растягивание VLAN ! Много задач, требующих растягивания подсетей:

§  Отказоустойчивые кластеры §  Миграция виртуальных машин

- но это не значит, что вы всегда обязаны растягивать VLAN: §  Кластеризация на L3 §  Растягивание подсетей без растягивания VLAN (LISP) §  Катастрофоустойчивые ЦОДы – связь на L2 снижает степень изоляции

В любом случае, не забывайте про: §  Маршрутизацию между ЦОД §  Связь ЦОД с внешним миром – Интернетом или корпоративной магистралью

Page 26: Построение территориально распределенных ЦОД

Ethernet

Ø VSS & vPC, FabricPath? §  Multi-Chassis EtherChannel для связи пары ЦОД §  FabricPath для связи многих сайтов – обсуждение далее §  По тёмной оптике или xWDM §  “Технологии LAN"

Ø  OTV §  Внедрение на CE §  Подходит для корпоративных внедрений §  Малая зависимость от транспорта – требуется только IP сеть §  «Маршрутизация по MAC адресам»

Растягивание VLAN Варианты технологий

Транспорт Критерии применения

MPLS

Ø  EoMPLS & A-VPLS & H-VPLS §  Внедрение на PE §  Масштабирование и multi-tenancy §  Возможно поверх GRE §  Апробированный вариант, хорошо подходит SP

Page 27: Построение территориально распределенных ЦОД

Оптимальный путь В чём именно проблема?

Layer 3 Core

Access

Agg

Access

Agg

10.1.1.0/24 advertised into L3 Backup should main site go down

10.1.1.0/25 & 10.1.1.128/25 advertised into L3 DC A is the primary entry point

Node A

ESX ESX Virtual Machine Virtual Machine

VMware vCenter

Data Center 1 Data Center 2

Page 28: Построение территориально распределенных ЦОД

Оптимальный путь Хотелось бы так...

Access

Agg

Access

Agg

Node A

ESX ESX Virtual Machine

VMware vCenter

Data Center 1 Data Center 2

Layer 3 Core

Page 29: Построение территориально распределенных ЦОД

Исходящий трафик § Локализация FHRP

Входящий трафик § GSLB

— Выбор сайта с помощью DNS § Route Health Injection (RHI)

— Анонс /32 маршрутов на активные сервисы § Locator/ID Separation Protocol – LISP-VM

— Маршрутизация до сервиса

Оптимизация пути трафика

Page 30: Построение территориально распределенных ЦОД

Связь ЦОД и сетевые фабрики Какой подход выбрать?

Единая фабрика •  Ограниченная стабильность и изоляция сайтов

•  Если нет control plane – опора на фладинг

•  Единый домен multiсast •  Локализация «шлюза по умолчанию»?

•  В FabricPath, VXLAN – нет или затруднена

•  В ACI помогают proxy и anycast gateway

Fabric Небольшие расстояния – «тёмная оптика»/ DWDM

Fabric

Связь внутри кампуса

Фабрика: VxLAN, ACI, FabricPath

Подробный разбор вопроса для VXLAN: http://yves-louis.com/DCI/?p=965

Page 31: Построение территориально распределенных ЦОД

Связь ЦОД и сетевые фабрики Какой подход выбрать?

Любое расстояние

OTV/VPLS/EVPN

L3 WAN

vPC

Классическая модель DCI с выделенным устройством/сервисом •  Изоляция доменов отказов •  Локализация «шлюза по умолчанию»

•  Оптимизация исходящего трафика •  Оптимизация локальной маршрутизации

•  Rate limiting для нужных типов трафика •  Ограничение фладинга с OTV •  Трансляция VLAN, VNI •  Поддержка unicast L3 транспорта

Небольшие расстояния – «тёмная оптика»/ DWDM

или

Построение территориально распределенных ЦОД

Типы ЦОД и выбор подходов

Распределённые ЦОД Кампус – до нескольких км

•  Типичный сценарий – несколько ЦОД в комплексе зданий или на территории предприятия

•  Катастрофоустойчивость: минимальна •  Связь LAN: оптоволокно 10GBASE-LR/40GBASE-LR4/100GBASE-LR4 •  Связь SAN: оптоволокно -LW •  Оптимизация пути: не нужна •  Рассмотривать как часть единого модульного ЦОД

Page 34: Построение территориально распределенных ЦОД

Распределённые ЦОД «Метро» – несколько десятков (до 60-100) км

•  Типичный сценарий – «резервный ЦОД» в пределах города или «метро-области»

•  Катастрофоустойчивость: частично •  Связь LAN: оптоволокно 10GBASE-ER/ZR / DWDM, при необходимости

- IP+OTV или MPLS/VPLS •  Связь SAN: оптоволокно CWDM/DWDM, при необходимости - FCIP •  Оптимизация пути: по возможности •  При наличии возможности – использование «тёмного волокна» для

LAN и SAN, синхронная репликация, технологии метрокластеров, Vmotion

Page 35: Построение территориально распределенных ЦОД

Распределённые ЦОД «Регион» – до несколько сотен (300-400) км

•  Типичный сценарий – «резервный ЦОД» в другом городе в пределах региона

•  Катастрофоустойчивость: значительная •  Связь LAN: IP+OTV или MPLS/VPLS, DWDM (при наличии) •  Связь SAN: FCIP, DWDM (при наличии) •  Оптимизация пути: желательна •  Может использоваться для ряда «метрокластерных» технологий

(Vmotion). Асинхронная репликация или синхронная с ограничениями и дополнительными инструментами

Page 36: Построение территориально распределенных ЦОД

Распределённые ЦОД «Гео» – многие сотни и тысячи км

•  Типичный сценарий – ЦОД на случай катастрофы (DR) в другом регионе страны

•  Катастрофоустойчивость: высокая •  Связь LAN: IP+OTV или MPLS/VPLS - если требует технология кластера •  Связь SAN: FCIP – если требует технология кластера •  Оптимизация пути: необходима •  Асинхронная репликация, «log shipping» или иные средства катастрофоустойчивости. Высокое время восстановления (часы и более). Непосредственная связь между ЦОД – только если требует технология геокластера