Построение территориально распределенных ЦОД
Эльдар Женсыкбаев Системный инженер-консультант [email protected] CCIE #36340
10/1/15 © 2015 Cisco and/or its affiliates. All rights reserved.
Распределённые ЦОД Цели создания
• Катастрофоустойчивость • Непрерывность обработки • Мобильность приложений • Миграция систем • Наращивание производительности/ёмкости • Распределённые сервисы • Географически-локализованные сервисы
Катастрофоустойчивость Точка восстановления и время восстановления
Время
Момент катастрофы
Последняя резервная копия или пригодные данные
Системы восстановлены и работоспособны
Время восстановления
Точка восстановления (Recovery point objective - RPO)
Меньше RPO/RTO • Больше $$$ • Репликация • «Горячий резерв»
Больше RPO/RTO • Меньше $$$ • Резервирование на ленту • «Холодный резерв»
«Нулевые» RPO/RTO – система непрерывной доступности
§ Развитие кластеризации для защиты от сбоя § Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД § Некоторые приложения поддерживают кластеризацию через L3 сеть
Heartbeat Private LAN
Public LAN VIP Cluster
Cluster A Node 2
Cluster A Node 1
Непрерывность бизнеса Географически распределённые отказоустойчивые кластеры
§ Мобильность виртуальных сервисов между разнесёнными сайтами § Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN § Основа для управления облачной нагрузкой и её миграции между «облаками»
DC 1 DC 2
Core Network
ESX-A source ESX-B target
DCI LAN extension
Cisco-VMware With EMC & NetApp Validated Design
& Certification for Virtualized Workload
Mobility
Мобильность виртуальных сервисов Перемещение VM между ЦОД
Влияние расстояния Задержка (latency)
Скорость света в вакууме ~300,000 км/с Скорость света в оптоволокне: ~200,000 км/с Задержка сигнала: ~5 мкс/км, RTT ~10 мкс/км Для сравнения:
§ Среднее время доступа на (быстром) шпиндельном диске ~2-3 мс § Среднее время доступа на SSD диске < 0.1 мс § Максимальная задержка, допускаемая VMWare для vMotion: 5 мс
RTT (10 мс начиная с vSphere 5.1)
Распределённые ЦОД Классификация по расстоянию
Расстояние – ключевой фактор Ближе:
§ Выше производительность § Синхронная репликация § Проще коммуникации
Дальше: § Катастрофоусточивость § Распределение сервисов
Компромисс!
Кампус 1–2 km
Метро 50-80 km
Региональное (extended
Metro) 200-400km Основной
ЦОД Резервный
ЦОД
Катастрофо- устойчивый
ЦОД
Гео
Распределённые ЦОД Технологические элементы
Связь сетей передачи данных § L2/L3 смежность § Мониторинг(heartbeat)/синхронизация в кластере § Репликация по IP § Подключение к транспортной сети
Связь сетей хранения данных § Доступ к удаленным СХД/лентам § Репликация массивов по FC
Оптимальный путь трафика § Оптимизация исходящего трафика § Оптимизация входящего трафика
Построение территориально распределенных ЦОД
Связь сетей хранения данных
Ограничено оптикой и BB_Credit
Влияние расстояния Варианты объединения Fibre Channel SAN
Темное Волокно CWDM DWDM
SONET/SDH
ЦОД Кампус Метро Регион Страна
Расстояние
Sync
Sync (1,2,4Gbps)
Sync (1,2Gbps + subrate)
Async (WAN,1/10Gbps) FCIP
Ограничено оптикой и BB_Credit
Ограничено BB_Credit
Оптика
IP
Sync (1,2,4,10Gbps per λ)
Sync (Metro Eth)
Async
Земля
• BB_Credits нужны, чтобы «заполнить» соединение фреймами FC • Полный (2112 байт) FC фрейм имеет «длину» примерно 2 км на 1 Gbps, 1 км на 2
Gbps,1/2 км на 4 Gbps, 1/4 км на 8 Gbps, 1/8 км на 16 Gbps • Если BB_Credits не хватает для данного расстояния – снижается произодительность, соединение простаивает
• Число BB_Credits определяется оборудованием и его настройками
16 Km
1 Gbps FC
4 Gbps FC ~½ km per Frame
~2 km per Frame
2 Gbps FC ~1 km per Frame
8 Gbps FC ~¼ km per Frame
BB_Credits и расстояние
Влияние расстояния Задержка (latency) и Fibre Channel
FCoE для связи SAN между ЦОД? Да! C Nexus 7000/7000 и модулями F2E/F3
§ Поддерживаемые расстояния для FCoE транспорта:
§ Nexus 5500: до 3 км
§ Nexus 5600: до 20 км
§ Nexus 7000/7700 с F2E/F3 картами: до 80 км с DWDM SFP+
§ Использование отдельных соединений для LAN и SAN трафика
До 80 км Nexus 7000
Nexus 7000
Storage VDC
Storage VDC
Storage VDC
Storage VDC
FCIP: Fibre Channel over IP
Соединение «точка-точка» (туннель) между двумя FCIP устройствами Используется TCP – могут использоваться механизмы оптимизации (WAAS) Создаётся единая FC фабрика (общий FSPF домен) Транспорт – IP сеть, в том числе и на большие расстояния
FCIP: IETF стандарт для связи Fibre Channel SAN через IP (RFCs 3821 и 3643)
FC SAN FC SAN IP Network
FCIP Tunnel
Расширение SAN и Inter-VSAN Routing (IVR)
§ Сбой на «транзитной» VSAN_20 (оборудование или кабель) не нарушит трафик в VSAN_10 или VSAN_30 § Работает с любым транспортом (FC, SONET/SDH, DWDM/CWDM, FCIP) § Нужно, если данные VSAN используются для локальной обработки
VSAN_5 - Site 1 Host Fabric VSAN_10 - Site 1 Replication Fabric VSAN_20 - Inter-site SAN Extension Fabric VSAN_30 - Site 2 Replication Fabric
Site 2
Site 1 Local VSAN_5
Transit VSAN_20
(IVR)
Replication VSAN_10
Replication VSAN_30
Синхронная репликация данных: Приложение получает подтверждение I/O после его выполнения на обеих сторонах (zero RPO)
§ «Метро»расстояния
Асинхронная репликация данных: Приложение получает подтверждение I/O после его выполнения на основном (локальном) диске, в то время как его коприрование на удалённый массив продолжается
§ Неограниченные расстояния
1
1
1
2 1
3
1
4 1
1
1
3
1
2
Synchronous Data Replication
Asynchronous Data Replication
Расширение SAN Синхронная и асинхронная репликация
§ SCSI протокол (FC) требует два round trip на операцию § Вносимая задержка операции 20µs/км, 100 км = 2 мс § В зависимости от приложения синхронную репликацию, как правило ограничивают 50-100 км § I/O Acceleration «убирает» один round-trip
Local Storage Array Remote Storage Array
250 µs : Rec_Ready ?
250 µs : Wait for response?
250 µs : Send data
250 µs : Wait for Ack?
50 км 1ms
Расширение SAN Синхронная репликация
1
2
3
4
DC 1 DC 2
Core Network
Virtual Center
ESX-A source ESX-B target
L2 extension for vMotion Network
Target
Volumes
Initiator
Доступ к СХД и связь ЦОД Вариант 1 – разделяемая СХД
Core Network
DC 1 DC 2
Virtual Center
L2 extension for vMotion Network
ESX-A source ESX-B target
Повышение произодительности с использованием IOA на Cisco MDS
Доступ к СХД и связь ЦОД Разделяемая СХД – использование Cisco IO Acceleration
Работа ускорения ввода/вывода
Ускорение синхронной репликации и резервирования на ленту: аналогичнные подходы На работу с лентой дополнительно влияют особенности физического носителя и ограничения буферизации Write Acceleration имитирует только Transfer Ready, Tape Acceleration имитирует Command Status
WRITE XFER_RDY
XFER_RDY
Write Acceleration (WA)
Reduction in I/O Latency ~equal to one round trip time (RTT)
STATUS
WA WA
DATA
WRITE-1 XFER_RDY
XFER_RDY
STATUS
DATA
Tape Acceleration (TA)
TA TA
STATUS WRITE-2
XFER_RDY DATA
STATUS XFER_RDY
STATUS
WRITE-1
WRITE-2
WRT file mark
WRT file mark
WRT fm sts WRT fm sts
http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html
Core Network
DC 1 DC 2
Virtual Center
L2 extension for vMotion Network
ESX-A source ESX-B target
Доступ к СХД и связь ЦОД Вариант 2 - NetApp FlexCache (Active/Cache)
Temp Cache
1
?
4
Read data 3 data
2 Read
2
§ FlexCache не работает как отложенный кеш записи § FlexCache подтверждает операцию только после подтверждения от СХД
data 1 Write 3
2 Write
4 ACK
ACK data
data
§ Хосты на обеих сторонах одновременно имеют доступ к распределённым виртуальным томам
§ Непрерыная синхронизация
§ Запись защищается на обоих сайтах
§ Чтение – с кеша VPLEX или местного тома ЦОД B ЦОД A
Fibre Channel
Distributed Virtual Volume Synchronous Latency
Доступ к СХД и связь ЦОД Вариант 3 - EMC VPLEX Metro (Active/Active)
http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/ EMC/dciEmc.html
Core Network
Virtual Center
L2 extension for vMotion Network
ESX-A source ESX-B target
VPLEX Virtual Layer
DC 1 DC 2
Initiator
Initiator
Target VPLEX Engine
EMC VMAX VPLEX
Engine
EMC CLARiiON
Target
F
From
the
Hos
t
F
From the S
torage
LUNv LUNv
Synchronous Latency requiments ~100 kms max
Доступ к СХД и связь ЦОД Вариант 3 - EMC VPLEX Metro (Active/Active)
Построение территориально распределенных ЦОД
Связь сетей передачи данных
Влияние расстояния Передача данных
Стандартные интерфейсы 10Гбит/с: § 10GBASE-LR – до 10 км § 10GBASE-ER – до 40 км § 10GBASE-ZR – до 80 км
Стандартные интерфейсы 40Гбит/с § 40GBASE-LR4 – до 10 км
Стандартные интерфейсы 100Гбит/с § 100GBASE-LR4 – до 10 км § 100GBASE-ER4 – до 40 км
DWDM – до 1000+ км при использовании оптического усиления, не ограничено при использовании регенерации Через сеть (IP, MPLS…) - без ограничений
Связь сетей ЦОД != растягивание VLAN ! Много задач, требующих растягивания подсетей:
§ Отказоустойчивые кластеры § Миграция виртуальных машин
- но это не значит, что вы всегда обязаны растягивать VLAN: § Кластеризация на L3 § Растягивание подсетей без растягивания VLAN (LISP) § Катастрофоустойчивые ЦОДы – связь на L2 снижает степень изоляции
В любом случае, не забывайте про: § Маршрутизацию между ЦОД § Связь ЦОД с внешним миром – Интернетом или корпоративной магистралью
Ethernet
Ø VSS & vPC, FabricPath? § Multi-Chassis EtherChannel для связи пары ЦОД § FabricPath для связи многих сайтов – обсуждение далее § По тёмной оптике или xWDM § “Технологии LAN"
IP
Ø OTV § Внедрение на CE § Подходит для корпоративных внедрений § Малая зависимость от транспорта – требуется только IP сеть § «Маршрутизация по MAC адресам»
Растягивание VLAN Варианты технологий
Транспорт Критерии применения
MPLS
Ø EoMPLS & A-VPLS & H-VPLS § Внедрение на PE § Масштабирование и multi-tenancy § Возможно поверх GRE § Апробированный вариант, хорошо подходит SP
Оптимальный путь В чём именно проблема?
Layer 3 Core
Access
Agg
Access
Agg
10.1.1.0/24 advertised into L3 Backup should main site go down
10.1.1.0/25 & 10.1.1.128/25 advertised into L3 DC A is the primary entry point
Node A
ESX ESX Virtual Machine Virtual Machine
VMware vCenter
Data Center 1 Data Center 2
Оптимальный путь Хотелось бы так...
Access
Agg
Access
Agg
Node A
ESX ESX Virtual Machine
VMware vCenter
Data Center 1 Data Center 2
Layer 3 Core
Исходящий трафик § Локализация FHRP
Входящий трафик § GSLB
— Выбор сайта с помощью DNS § Route Health Injection (RHI)
— Анонс /32 маршрутов на активные сервисы § Locator/ID Separation Protocol – LISP-VM
— Маршрутизация до сервиса
Оптимизация пути трафика
Связь ЦОД и сетевые фабрики Какой подход выбрать?
Единая фабрика • Ограниченная стабильность и изоляция сайтов
• Если нет control plane – опора на фладинг
• Единый домен multiсast • Локализация «шлюза по умолчанию»?
• В FabricPath, VXLAN – нет или затруднена
• В ACI помогают proxy и anycast gateway
Fabric Небольшие расстояния – «тёмная оптика»/ DWDM
Fabric
Связь внутри кампуса
Фабрика: VxLAN, ACI, FabricPath
30
Подробный разбор вопроса для VXLAN: http://yves-louis.com/DCI/?p=965
Связь ЦОД и сетевые фабрики Какой подход выбрать?
Любое расстояние
OTV/VPLS/EVPN
L3 WAN
vPC
Классическая модель DCI с выделенным устройством/сервисом • Изоляция доменов отказов • Локализация «шлюза по умолчанию»
• Оптимизация исходящего трафика • Оптимизация локальной маршрутизации
• Rate limiting для нужных типов трафика • Ограничение фладинга с OTV • Трансляция VLAN, VNI • Поддержка unicast L3 транспорта
Небольшие расстояния – «тёмная оптика»/ DWDM
или
31
Построение территориально распределенных ЦОД
Типы ЦОД и выбор подходов
Распределённые ЦОД Кампус – до нескольких км
• Типичный сценарий – несколько ЦОД в комплексе зданий или на территории предприятия
• Катастрофоустойчивость: минимальна • Связь LAN: оптоволокно 10GBASE-LR/40GBASE-LR4/100GBASE-LR4 • Связь SAN: оптоволокно -LW • Оптимизация пути: не нужна • Рассмотривать как часть единого модульного ЦОД
Распределённые ЦОД «Метро» – несколько десятков (до 60-100) км
• Типичный сценарий – «резервный ЦОД» в пределах города или «метро-области»
• Катастрофоустойчивость: частично • Связь LAN: оптоволокно 10GBASE-ER/ZR / DWDM, при необходимости
- IP+OTV или MPLS/VPLS • Связь SAN: оптоволокно CWDM/DWDM, при необходимости - FCIP • Оптимизация пути: по возможности • При наличии возможности – использование «тёмного волокна» для
LAN и SAN, синхронная репликация, технологии метрокластеров, Vmotion
Распределённые ЦОД «Регион» – до несколько сотен (300-400) км
• Типичный сценарий – «резервный ЦОД» в другом городе в пределах региона
• Катастрофоустойчивость: значительная • Связь LAN: IP+OTV или MPLS/VPLS, DWDM (при наличии) • Связь SAN: FCIP, DWDM (при наличии) • Оптимизация пути: желательна • Может использоваться для ряда «метрокластерных» технологий
(Vmotion). Асинхронная репликация или синхронная с ограничениями и дополнительными инструментами
Распределённые ЦОД «Гео» – многие сотни и тысячи км
• Типичный сценарий – ЦОД на случай катастрофы (DR) в другом регионе страны
• Катастрофоустойчивость: высокая • Связь LAN: IP+OTV или MPLS/VPLS - если требует технология кластера • Связь SAN: FCIP – если требует технология кластера • Оптимизация пути: необходима • Асинхронная репликация, «log shipping» или иные средства катастрофоустойчивости. Высокое время восстановления (часы и более). Непосредственная связь между ЦОД – только если требует технология геокластера
Пример: собственные ЦОД Cisco Metro-Virtual DC (MVDC)
Непрерывность обработки, катастрофоустойчивость и оптимальное использование
DC1 (Texas)
DC2 (Texas)
“Disaster Recovery (DR)” Катастрофоустойчивый удалённый ЦОД (RTP)
“Operational Continuity” Единая пара ЦОД
с локальной отказоустойчивостью
Метро-разнесение (в пределах 50 оптических миль) Размещение непродуктивных приложений
Автоматическая смена функций при катастрофе с помощью сервисных профилей Cisco UCS
Георазнесение (> 200 миль)
http://www.cisco.com/web/about/ciscoitatwork/data_center/docs/Cisco_IT_Raleigh_Dual_Purpose_Data_Center_Case_Study.pdf
Data Center Interconnect Дополнительная информация
http://www.cisco.com/go/dci
http://yves-louis.com/DCI/
Ждем ваших сообщений с хештегом #CiscoConnectKZ
© 2015 Cisco and/or its affiliates. All rights reserved.
Спасибо Пожалуйста, заполните анкеты. Ваше мнение очень важно для нас. Эльдар Женсыкбаев Системный инженер-консультант [email protected]
Top Related