Post on 29-Apr-2018
Сентябрь 2016
End-to-End Ethernet решения Mellanox
© 2016 Mellanox Technologies 2- Mellanox Confidential -
Mellanox – Leading Interconnect, Leading Performance
Задержка
5usec
2.5usec1.3usec
0.7usec
<0.5usec
200Gb/s
100Gb/s
56Gb/s
40Gb/s20Gb/s
10Gb/s2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Полоса
Mellanox Ethernet и InfiniBand
0.6usec
© 2016 Mellanox Technologies 3- Mellanox Confidential -
Ticker: MLNXО компании Mellanox
Компания основана в Израиле в 1999г., IPO в 2007г.
Технологический лидер
• Лидер в InfiniBand
• Более 6 лет на рынке Ethernet, сегодня:
- Лидер в 40G сетевых картах,
- Самый быстрорастущий вендор в Ethernet Switching
• Уникальные технологии в Ethernet Switching
• Высокопроизводительные сетевые процессоры EZсhip
Все чипы собственной разработки
Полное портфолио Ethernet решений
• Коммутаторы, Сетевые карты, Трансиверы, Кабели
Технологический партнер ведущих производителей
• Мы внутри: HP, IBM, Lenovo, Oracle, EMC и др.
• На нас строят инфраструктуры для: Microsoft, VmWare,
OpenStack, RedHat, Oracle, SAP, Nutanix и др.
© 2016 Mellanox Technologies 4- Mellanox Confidential -
Mellanox – ведущий производитель высокоскоростных решений
Virtual Protocol Interconnect
Storage
Front / Back-EndServer / Compute Switch / Gateway
100G InfiniBand 100G InfiniBand
100G Ethernet 100G Ethernet
Virtual Protocol Interconnect
ПО и УслугиЧипы Коммутаторы/ШлюзыСетевые Карты Кабели/
ТрансиверыMetro / WAN
Скорость 10, 25, 40, 50, 56 и 100 Gb/s
End-to-End решения Ethernet и InfiniBand
© 2016 Mellanox Technologies 5- Mellanox Confidential -
Mellanox – высокопроизводительный
Ethernet на скоростях от 10G до 100G
Медные(Активные, Пассивные) Оптические (VCSEL) Silicon Photonics
Портфолио End-to-End 100G Ethernet
Сетевые карты 100GbE
(10 / 25 / 40 / 50 / 100GbE)
Multi Host Solution
32 100GbE Порта, 64 25/50GbE Порта
(10 / 25 / 40 / 50 / 100GbE)
Производительность 6.4Tb/s
© 2016 Mellanox Technologies 8- Mellanox Confidential -
Spectrum – 100G Ethernet ASIC
Лидер по производительности• Неблокирующая коммутация 6.4Tb/s
• <300ns задержки на L2/L3 от 64b до 9Kb
• Zero Packet Loss
Масштабируемость для облаков• Поддержка виртуализации
• Оптимизация пропускной способности
• Гибкие SDN возможности
Функциональность• 32 порта по 100 / 56 / 40GbE
• 64 порта по 50 / 25 / 10GbE
• RDMA over Converged Ethernet
• Программируемость для SDN и поддержка Overlay (VXLAN, NVGRE, Geneve) и MPLS Open source API
SAI
135 watts
© 2016 Mellanox Technologies 9- Mellanox Confidential -
SN2700 – 32x100GbE (64x10/25/50GbE)Идеален в качестве 100GbE ToR / уровня агрегации
SN2410 – 8x100GbE + 48x25GbEИдеален в качестве 25GbE ToR с 100GbE аплинками
SN2100 – 16x100GbE (64x25GbE)Идеален для подключения СХД/СУБД по 25/100GbE
Самая высокая плотность 25GbE на 1RU
Линейка Ethernet коммутаторов 25/50/100G
Zero Packet Loss
Задержка 300нс на L2/L3
+ модель 32x40GbE
+ модель 8x100GbE + 48x10GbE
+ модель 16x40GbE
© 2016 Mellanox Technologies 10- Mellanox Confidential -
Коммутатор с 16 портами QSFP28 40/100GbE шириной в половину RU
Поддерживает 64 порта 10/25GbE при использовании break-out кабелей
Отказоустойчивое ToR решение из двух коммутаторов в одном RU
Плотность – 128 портов 10/25G в одном RU.
Модель SN2100B – 16x40GbE / 64x10GbE. Самый бюджетный ToR коммутатор!
Модель SN2100 – 16x100GbE / 64x25GbE
Mellanox SN2100 – уникальное предложение
Идеальное решение для ToR
© 2016 Mellanox Technologies 12- Mellanox Confidential -
Чип Mellanox Spectrum vs Broadcom Tomahawk
50
60
70
80
90
100
Packet Size (Bytes)
Broadcom
50
60
70
80
90
100
Packet Size (Bytes)
Spectrum
LatencyFairness Zero Packet Loss
Стабильно низкая задержка для любого типа трафика и любых размеров пакетов
Равномерное распределение полосы
Отсутствие потерь пакетов любых размеров при любой
нагрузке
BroadcomSpectrum
www.zeropacketloss.com
www.Mellanox.com/tolly
• Отчет Tolly раскрывает фундаментальные различия в
характеристиках коммутаторов на базе Mellanox Spectrum и
Broadcom Tomahawk
• На базе Broadcom делают свои коммутаторы ведущие
производители – Cisco, Juniper, Extreme, Arista, Huawei и многие
другие
© 2016 Mellanox Technologies 13- Mellanox Confidential -
Сохранение инвестиций с коммутаторами Spectrum
100G 2x50G 4x25G 40G 4x10G 10G 1G
Поддержка скоростей 1G - 100G
• 100GbE
• 2x50GbE
• 4x25GbE
• 40GbE
• 4x10GbE
• 4x1GbE
• 10GbE
• 1GbE
Любой порт может работать в
одном из следующих режимов:
* Максимум 64 порта на коммутатор
100G коммутатор по цене 40G
25GbE 50GbE10GbE 40GbE
Возможность апгрейда на новые
скорости 25/50/100G без затрат на
замену сетевого оборудования
© 2016 Mellanox Technologies 20- Mellanox Confidential -
Переходим к скоростям 25/50/100G вместе с Mellanox
Compute
Nodes150% Higher
Bandwidth
Storage
Nodes25% Higher
Bandwidth
Network150% Higher
Bandwidth 100GbE
25GbE 50GbE
Тот же Ethernet
Тот же СКС
Ниже цена и
энергопотребление
Compute
NodesStorage
Nodes
40GbE
Network
10GbE
40GbE
25GbE – новый 10GbE
50GbE – новый 40GbE
100GbE – будущее ЦОД
Традиционный дизайн сети ЦОД Масштабируемый дизайн CLOS фабрики с Mellanox VMS
© 2016 Mellanox Technologies 21- Mellanox Confidential -
Ethernet фабрика от Mellanox для 10/25GbE серверов
SN2700SN2700
SN2700SN2700 16
32
25GbE 25GbE
100GbE
VMS на 512 портов
Стандартная L3 фабрика
• ECMP + OSPF/BGP
Автоматизация с NEO
• Настройка фабрики за минуты
Гибкость
• 10/25/40/50/100GbE порты
Экономия
• Недорогие DAC кабели для
подключения серверов и
коммутаторов в VMS
16
2*4=8
64
Всего = 80X64 = 5120 портов
Горизонтально масштабируемый ЦОД
на 5120 10/25G портов
c переподпиской 2.5:1
На базе SN2700 VMS и SN2100 ToR
MLAG MLAG
fiberfiber
copper
copper
SN2100SN2100
100GbE
40 серверов 40 серверов
© 2016 Mellanox Technologies 22- Mellanox Confidential -
Пример фабрики на 288 100GbE портов
• Clos фабрика - это конструкция из одинаковых
коммутаторов, когда часть из них выполняют
роль Leaf (аналог «Линейной» карты шассийного
коммутатора), а часть Spine (аналог «Фабрик»
карт шассийного коммутатора).
• Конструкция фабрики состоит из:
9х Spine коммутаторов
18х Leaf коммутаторов.
• Каждый Leaf коммутатор подключается к
каждому Spine коммутатору 1-2мя портами по
100Gb/s.
• Каждый Leaf коммутатор имеет 16 портов
свободных для подключения ToR коммутаторов.
• Конструкция занимает 27RU
• Энергопотребление всей конструкции <=5,4KW
Spine 1 - 9
Leaf 1 - 9
Leaf 10 - 18
99
9
Прим
ер у
ста
новки
в с
той
ку к
онстр
укц
ии
фаб
ри
ки
© 2016 Mellanox Technologies 26- Mellanox Confidential -
Почему Mellanox – Легко управлять
Мы построили систему управления следующего поколения:• На базе интерфейса REST
• Интегрированный в Облако Neutron plugin / NSX
Mellanox NEO• Облачный оркестратор и система управления сетью• Имеет графическую Web консоль для PC/мобильных устройств
• Нотификации по email и в мобильных приложениях
Новое поколение сетевого API• Графическая Web консоль для PC/Mobile/Tablet • Конфигурация сетевых элементов
• Интеграция со сторонними системами управления• Гибкие возможности интеграции и расширения
Командная строка знакомая специалистам Cisco:• Легко конфигурировать и мониторить
Дополнительные возможности:• Управление и мониторинг по SNMPv3, XML-Gateway, CLI Scripting
и другие...
Cisco BGP configuration example:
router bgp routerid
network <ip-prefix>
neighbor 10.10.10.2
Mellanox BGP configuration example:
router bgp routerid
network <ip-prefix> <length>
neighbor 10.10.10.2
Возможности будущей интеграции:
Prime
© 2016 Mellanox Technologies 27- Mellanox Confidential -
Mellanox NEO - Система управления фабрикой ЦОД
Фабрика Mellanox– Коммутаторы, NICs--- Control Plane (ETH/SDN)
--- Data Plane
Инструменты и системы
управления ЦОД
Cloud и Enterprise
Другие инструменты
управленияMellanox NEO
Мониторинг сети и оркестрация
End User GUI/API Access
Cloud / Data Center Network Management
Мониторинг и
управление
через API
Мониторинг и
управление
через API
© 2016 Mellanox Technologies 29- Mellanox Confidential -
Почему Mellanox – Совместимость
Мы проводим обширные тесты на совместимость с ведущими производителями:
• Физический уровень: Кабели и оптика
• Протоколы L2 (например STP, LACP)
• Протоколы L3 (например BGP, OSPF)
• Схемы контроля на подобии TACACS
• Оболочки безопасности типа SSH
Мы производим коммутаторы для
многих OEM производителей:
• Мы должны быть отличниками!
• HP,
• IBM,
• Lenovo,
• и многие другие…
© 2016 Mellanox Technologies 32- Mellanox Confidential -
Закрытая платформа- Привязка к одному вендору
- Дорого!
- Медленный цикл разработки
Open Ethernet – свобода выбора ПО
Возможность выбора- Лучшего железа
- Лучшего ПО
- Быстрое внедрение
hardware
operating system
app app app
Дезагрегация инфраструктуры:- ONIE, SDK API, SAI
SONiC
© 2016 Mellanox Technologies 33- Mellanox Confidential -
Cumulus Linux – сетевая ОС для Open Ethernet
Упрощенное развертывание и автоматизация в ЦОД
IPv4/IPv6 маршрутизация и коммутация в wirespeed (на ASIC коммутатора)
Настоящий Linux все стандартные инструменты Linux на коммутаторе
Единые инструменты автоматизации во всем ЦОД (Chef, Puppet, Ansible, скрипты и др.)
Управление сетью и траблшутинг с помощью знакомых команд
Поддержка Overlay сетей c VXLAN
Linux дистрибутив для Ethernet коммутаторов
С Linux сеть будет говорить на том же языке, что и весь остальной ЦОД
Hardware
Cumulus Linux
routing appsbridging
Mellanox ASICOther Switch
ASIC
© 2016 Mellanox Technologies 34- Mellanox Confidential -
Сетевые карты
© 2016 Mellanox Technologies 35- Mellanox Confidential -
Сетевые Адаптеры с богатым набором возможностей
https://community.mellanox.com/docs/DOC-2205
СкоростьGb/s Ethernet(кол. Интерф.)
PCIe Gen 3
RoCE v2
Storage Offload
Overlay Offload
Overlay Encap/ Decap
SRIOVCAPI
(OpenPower)
10 25 40 50 56 100 х8 х16 T10DIFErasure Coding
ConnectX-3 Pro 2 0 2 0 2 0 v v v v
ConnectX-4 Lx 2 2 1 1 0 0 v v v v v v
ConnectX-4 0 0 2 2 2 2 v v v v v v v v v
3 линейки сетевых адаптеров Ethernet дают вам возможность выбирать:
• Тип ASIC
• Скорость - 10/25/40/50/56/100G
• Количество портов (1 или 2)
• Интерфейс в сервер (PCIe G3: x8 или x16)
• Поддержка RDMA, DPDK, SR-IOV, Stateless offload, OVS offload, etc…
© 2016 Mellanox Technologies 36- Mellanox Confidential -
Connect. Accelerate. Outperform
ConnectX-5 - новая линейка 10/25/40/50/56/100Gb/s адаптеров
ConnectX-5: самый продвинутый функционал для HPC,
Storage, Cloud, NFV
VPI: InfiniBand and Ethernet
Single and Dual-port EDR / 100GbE
MPLS push/pop, header rewrite (NAT)
Adaptive Routing, Host chaining
RoCE over Overlay Networks
NVMe over Fabric offloads
2x 100Gb/s, <0.7usec latency
200 million message per second
PCIe Gen3 / Gen4 x16
PCIe Switch (16 lanes)
© 2016 Mellanox Technologies 40- Mellanox Confidential -
RDMA освобождает CPU от сетевых задач
~90% CPU
для приложений
Us
er
Sp
ac
eS
ys
tem
Sp
ac
e
~60% CPU
для приложений
~40% CPU
на сеть
~10% CPU
на сеть
Без RDMA С RDMA и Offload в NIC
Us
er
Sp
ac
eS
ys
tem
Sp
ac
e
© 2016 Mellanox Technologies 41- Mellanox Confidential -
RDMA – как это работает
RDMA поверх InfiniBand или Ethernet
KER
NEL
HA
RD
WA
RE
US
ER
RACK 1
ОС
NIC Buffer 1
Приложение
1Приложение
2
ОС
Buffer 1
NICBuffer 1
TCP/IP
RACK 2
NIC NIC
Buffer 1Buffer 1
Buffer 1
Buffer 1
Buffer 1
© 2016 Mellanox Technologies 42- Mellanox Confidential -
Какая польза от RDMA в ЦОДе?
Без RDMA С RDMA
Эффективное использование самого дорого
ресурса в ЦОД – ядер CPU
• То же количество виртуальных ресурсов с меньшем
количеством серверов
• Больше виртуальных Desktops на сервер
Производительность СХД:• Больше IOPS и снижение задержек при доступе к
системам хранения данных. Раскройте полный
потенциал SSD/FLASH.
Преимущества RDMA
• Лучше возврат на инвестиции!
© 2016 Mellanox Technologies 47- Mellanox Confidential -
Трансиверы и кабели
© 2016 Mellanox Technologies 48- Mellanox Confidential -
Наивысшее качество для любого применения
Кабели Mellanox производятся по высшим стандартам качества
• Bit Error Rate (BER) лучше чем 10-15
• Тестирование под трафиком в нагруженной сети
• Поддержка и консультация для сложных проектов
Подключите ваш бизнес!
Две собственные технологии: VCSEL & Silicone-Photonics
© 2016 Mellanox Technologies 49- Mellanox Confidential -
Собственные уникальные разработки Mellanox
Интегрируем лучшие технологии на физическом уровне сети
SiGe BiCMOS Чипы
Laser & Modulator Drivers
Trans-Impedance Amplifier
I/O Booster for Copper
CMOS Switch и NIC
Feature Rich
Low Power
25Gb/s SerDes
Упаковка и Сборка
High-speed
Electrical
and Optical
Silicon Photonics
Fastest, >25Gb/s
Optical Modulator
and Photo Diode
Лучшие в своем классе продукты
© 2016 Mellanox Technologies 50- Mellanox Confidential -
Разноцветные кабели
• QSFP/SFP+, Медь и оптика
Mellanox каталог продукции
Пассивные медные кабели
• QSFP/QSFP28/SFP+/SFP28: 0.5–7m
Гибридные кабели
• Медь и оптика: QSFP/QSFP28/SFP+/SFP28/MPO/LC
Активные оптические кабели (AOC)
• QSFP/QSFP28 : 3-300m, MMF
Трансиверы на ближние и дальние расстояния
• Short Range QSFP/QSFP28/SFP+/SFP28: 30-300m, MMF
• Long range QSFP/QSFP28/SFP+/SFP28: up to 10Km, SMF
Чипы и лазеры собственной разработки
• TIA, VD, VOA, Mux, De-mux
© 2016 Mellanox Technologies 51- Mellanox Confidential -
Применение Ethernet решений Mellanox
для СХД
© 2016 Mellanox Technologies 53- Mellanox Confidential -
Производительность СХД все больше упирается в
ограничения производительности сети
Быстрая сеть, Offload протоколов и RDMA необходимы для достижения максимальной
производительности СХД
0.1
10
1000
HD SSD NVM
Acc
ess
Tim
e (m
icro
-Sec
)
Storage Media Technology
50%
100%
Networked Storage
Storage Protocol (SW) Network
Storage Media
Network
HDD
SSD
Storage
Media
0.01
1
100
HD SSD NVM
FC, TCP RDMA RDMA+
Acc
ess
Tim
e (m
icro
-Sec
)
Protocol and Network
NVM
HDD
HDD
All-flash массивы
Software-Defined Storage
Scale-out Storage
Конвергентные и гиперконвергентныеинфраструктуры
NVMe over Fabrics
RoCE для RDMA
Ceph
Уменьшение доли FibreChannel
Ключевые тренды в развитии СХД:
© 2016 Mellanox Technologies 54- Mellanox Confidential -
Interconnect от Mellanox доминирует в решениях СХД
SMB Direct
Mellanox – лидер по производительности с RDMA
© 2016 Mellanox Technologies 55- Mellanox Confidential -
Партнеры по SDS – горизонтально масштабируемые СХД
© 2016 Mellanox Technologies 56- Mellanox Confidential -
Сеть Хранения данных в 2016+
Традицион-
ные СХД
Compute Storage HyperconvergeConverged
• Дезагрегация
• Выбор лучшего коммутатора СХД
• Легкость поиска неисправностей
• Лучше изоляция сети
• Лучшая масштабируемость и производительность
© 2016 Mellanox Technologies 57- Mellanox Confidential -
Дизайн СХД стойки от Mellanox
50GbE
100GbE
19’’
50GbE фабрика Mellanox для программно-определяемых
СХД и гиперконвергентных решений
100GbE
100GbE фабрика Mellanox Зачем 50GbE?
График производительности Ceph кластера:
- Отказоустойчивость в 1RU
- 64 порта 50GbE на 1RU
- Поддержка RDMA/RoCE для CPU offload
iSER
© 2016 Mellanox Technologies 58- Mellanox Confidential -
iSER – самый быстрый сетевой протокол для Блочного СХД
Что это такое: iSCSI с RDMA Transport
• Использует Ethernet или InfiniBand на скоростях 10, 40, 56 и 100Gb/s
• Прозрачная поддержка всех приложений работающих поверх iSCSI
Преимущества
• Полоса шире, IOPs больше, задержки и затраты CPU меньше
• Функционал iSCSI, управление и утилиты (security, HA, discovery...)
• Быстрее чем FC и FCoE
Идеален для
• Операций чувствительных к задержкам – маленькие блоки, random I/O
• СУБД, Виртуализация, VDI
© 2016 Mellanox Technologies 59- Mellanox Confidential -
Растущая экосистема iSER
Сеть с
поддержкой
RDMA
HP SL4500
iSER Initiators
NetApp E-series
iSER Targets
© 2016 Mellanox Technologies 60- Mellanox Confidential -
Дизайн СХД стойки от Mellanox
10/25/50GbE
40/100GbE
19’’
Преимущества Ethernet коммутаторов Mellanox в СХД
• Zero Packet Loss
• 300ns задержка
• Non-Blocking ToR
• Dual core IvyBridge CPU
• Mellanox = собственный чип
• SN2100 - самый бюджетный свич
• 128x 10/25GbE в одном RU!
• Mellanox NEO
Производительность
Цена
Плотность
Автоматизация
40/100GbE
© 2016 Mellanox Technologies 62- Mellanox Confidential -
Mellanox NEO™ – мониторинг и управление сетью
Fabric Monitoring (get)
• Fabric topology (Switch/NIC)
• Fan, power supply status
• Software version
• Interfaces speed
• Interface MTU
• Interface oper/admin state
• Traffic counters
• Congestion counters
• Events based on SNMP traps
monitoring/attributes
Fabric Configuration (set)
• Software Upgrade
• Switch reboot
• VLAN (+OpenStack Neutron)
• CLI Player
• mLAG
• RoCE (PFC + MTU)
• 56GbE
• LAG/LACP
• VMS Wizard (L2/L3)
• СХД нового поколения используют Ethernet
• Управление Ethernet сетью для СХД должна быть автоматизируемо
• Mellanox NEO предоставляет автоматическую конфигурацию и
мониторинг всей фабрики (коммутаторы и сетевые адаптеры в
серверах)
Storage
© 2016 Mellanox Technologies 63- Mellanox Confidential -
Требования к сети для CEPH
Высокопроизводительная сеть – ключ к максимальной доступности кластера
• Серверы узлов Clients, OSD, Monitors и Metadata взаимодействуют через несколько уровней сетей
• Требования Real-time взаимодействия для heartbeat, репликации, восстановления и ребалансинга
Производительность backend-сети диктует производительность и масштабируемость
самого кластера:
• “Network load between Ceph OSD Daemons easily dwarfs the network load between Ceph Clients
and the Ceph Storage Cluster” (Ceph Documentation)
© 2016 Mellanox Technologies 64- Mellanox Confidential -
Сравнение внедрений CEPH на 10/25/40/50GbE
Сравнение с Mellanox ConnectX-4 Lx
All flash массив: 3 NVMe SSDs каждом Ceph
сервере
Быстрая сеть = высокая производительность
• Увеличивается IOPS для малых блоков
• Увеличивается throughput для больших блоков
Mellanox Testing 10/25/40/50 GbE
Mellanox ConnectX-4 Lx adapters and Spectrum Ethernet switch
support 10, 25, 40, and 50GbE networking for Ceph
© 2016 Mellanox Technologies 65- Mellanox Confidential -
Ceph – оптимизация для высокопроизводительных сетей
Масштабируемость и производительность Ceph зависит от производительности сети
• Особенно ощутимо на большом количестве дисков
Ceph оптимизируется под flash память
Сквозная сеть 40/56 Gb/s улучшает производительность Ceph уже сегодня
• 100Gb/s уже на подходе!
• Доступно для множества решений и платформ на базе Ceph
RDMA – следующий шаг для оптимизации производительности flash Ceph 4KB Read IOPS: 40Gb TCP vs. 40Gb RDMA
© 2016 Mellanox Technologies 67- Mellanox Confidential -
Технология NVMe
Оптимизирована для flash и NV-памяти следующего поколения
• Традиционные SCSi интерфейсы проектировались под HDD
• NVMe отбрасывает ненужные прослойки SAS/SATA
NVMe flash значительно превосходят SAS/SATA flash
• 2x-2.5x больше BW, 40-50% меньше latency, в 3 раза больше IOPS
© 2016 Mellanox Technologies 68- Mellanox Confidential -
Эволюция СХД с NVMe over Fabrics
Традиционная архитектура на SAS/SATA
Архитектура на NVMe (в пределах одного сервера)
Архитектура распределенной СХД с NVMe over Fabric
Server or Array
Eth
HBA
NIC
CPU SAS
Expander
SAS/sATA
Controller
SAS
Expander
SSD
PCIe
Switch
PCIe
Switch
NVMe
SSD
NVMe
SSD
NVMe
SSD
Server or Array
Eth
HBA
NIC
CPU
* Принятие стандарта NVMf ожидается в 2016г
© 2016 Mellanox Technologies 69- Mellanox Confidential -
Быстрая СХД требует быструю сеть
Три NVMe Flash драйва
=
CPU
X X X XX X X X
CPU
Один 100GbE линкБыстрая СХД
требует поддержки RDMA
&
Without RoCE With RoCE
½ Bandwidth
10X CPU loadFull Bandwidth
1/10 CPU load
• 2xNVMe >100Gb/s 10GbE? FC16/FC32? – Really?
• «Прокачать» 100Gb/s с сервера на ~10-15% загрузке CPU – реальность с RDMA
© 2016 Mellanox Technologies 70- Mellanox Confidential -
Демо NVMf на Flash Memory Summit
Target Server
Micron FlashMicron Flash
Micron FlashMicron Flash
Mellanox NICMellanox NIC
PC
Ie
Initiator Server
Mellanox NICMellanox NIC
100GbE
Target Local
4KB
read
IOPS
Local
4KB
write
IOPS
Remote
read
IOPs
Remote
write
IOPs
Remote
write
added
latency
Remote
read
added
latency
Micron
1 NVMe
849K 330K 845K 330K 1.9us 4.76us
Micron
4 NVMe
3406K 1333K 3388K 1332K N/A N/A
© 2016 Mellanox Technologies 71- Mellanox Confidential -
Применение Ethernet решений Mellanox
для Виртуализации и VDI
© 2016 Mellanox Technologies 72- Mellanox Confidential -
CloudX: Референсная архитектура для виртуализации
Законченное решение
• Проверенная и поддерживаемая архитектура для
наиболее популярных систем виртуализации
Простота управления
• Интеграция в системы управления
виртуализацией
• Снижение OPEX
Повышение эффективности серверных
платформ
• Поддержка RDMA и Offloads на всех трех
платформах.
• Снижение CAPEX
Гибкие возможности масштабирования
• Единая архитектура для разных размеров
.
© 2016 Mellanox Technologies 73- Mellanox Confidential -
Технологии SR-IOV и eSwitch
OSVM
Para-
virtual
OSVM
OSVM
OSVM
tap tap SR-IOV
to the
VM
Развертывание VM и сетевых политик в hardware через стандартные APIs
Преимущества: Изоляция, функционал, производительность & встроенный SDN и
поддержка offload
Embedded
Switch
Mellanox
Neutron
Agent
Create/delete,
configure policy
per VM vNIC
Neutron
Plug-Ins
Серверы
Управление
OpenStack Manager
Сравнение eSwitch с OVS
Qperf (TCP) Latency
© 2016 Mellanox Technologies 74- Mellanox Confidential -
Технологии SR-IOV & DPDK на адаптерах Mellanox
NIC
Hypervisor
Guest OS
PHY
Server
TOR Switch
OVS
NIC
Hypervisor
Guest OS
PHY
Server
TOR Switch
OVS
Native Open vSwitch (OVS) DPDK Accelerated vSwitch (AVS)
~20-30% Line Rate ~80% Line Rate
NIC
Hypervisor
Guest OS
PHY
Server
TOR Switch
SR-IOV
Near Line Rate
© 2016 Mellanox Technologies 75- Mellanox Confidential -
Использует SR-IOV data path вместе с OVS control plane
• Прозрачно интегрируется с любыми SDN контроллерами, совместимыми с OVS
Можно использовать стандартный Open vSwitch как интерфейс для управления и
offload для OVS data-plane на аппаратный Mellanox eSwitch с помощью технологии
ASAP2 Direct
ASAP2 Direct: offload для Open vSwitch
OVS-eSwitch
Netdev
Representor
Netdev
Representor
Netdev
Representor
Netdev
Representor
eSwitch
PF (wire)
Host IP interface Host exception path (user-space)
VF VF VF
netdev netdev
Para-virt Para-virt
Hypervisor
Representor Ports
VM
ConnectX 4 eSwitch
VM
Hypervisor
OVS
SR-IOV
VFSR-IOV
VF
Data
Path
PF
© 2016 Mellanox Technologies 76- Mellanox Confidential -
Преимущества Overlay сетей
• Простота
• Автоматизация
• Масштабируемость
Проблема - производительность
• Overlay туннели вносят нагрузку
- Ограничивают полосу пропускания
- Загружают CPI
Решение: Overlay offload
• Акселерация Overlay на сетевых
адаптерах
• VXLAN, NVGRE, Geneve
Ускорение VXLAN в составе Overlay решений
Overlay offload на Mellanox – единственный способ масштабировать Overlay сети
© 2016 Mellanox Technologies 79- Mellanox Confidential -
CloudX: VMware
CloudX с VMware
Виртуализация
• Compute: ESXi + vSphere
• Network: NSX
Приложения
• VDI, Enterprise, Communications, Service Providers
СХД
• VSAN
© 2016 Mellanox Technologies 80- Mellanox Confidential -
Миграция VM (vMotion) поверх RDMA
70.6
45.3
0
10
20
30
40
50
60
70
80
TCP/IP RDMA
36% Быстрее
0:00 0:05 0:11 0:16 0:21 0:26 0:31 0:36 0:41 0:46 0:51 0:56 1:01 1:06 1:11 1:16
TCP/IP 1,37 21,5 47,8 47,5 48 43,1 47,8 45,1 43,9 44 40,1 34,9 35,3 34,9 41,1 36,5 45,6
RDMA 0,74 6,32 6,66 6,98 6,85 6,47 6,45 6,7 4,66 4,57
0
10
20
30
40
50
60
% C
PU
Uti
lizati
on
90% Меньше
Destination CPU overhead 92% lower
Source CPU overhead 84% lower
Загрузка CPUВремя миграции
*Source: VMware’s CTO office
http://cto.vmware.com/wp-content/uploads/2012/09/RDMAonvSphere.pdf
Tim
e (
seco
nd
s)
© 2016 Mellanox Technologies 81- Mellanox Confidential -
Ускорение ESXi за счет RDMA
В 10 раз больше пропускная способность
В 2.5 раза больше IOPS
Test Setup: ESXi 5.0, 2 VMs, 2 LUNS per VM
RDMA даёт прирост по всем показателям
• Пропускная способность и IOPS
• Снижение загрузки CPU
• Возможности масштабирования
iSER = iSCSI over RDMA
Higher is
Better
Higher is
Better
© 2016 Mellanox Technologies 82- Mellanox Confidential -
Повышение плотности VDI
RDMA устраняет узкие места сети хранения для VDI
• Сетевые карты Mellanox ускоряют доступ к кэшу СХД за счет RDMA
• 140 виртуальных рабочих мест с iSER/RoCE против 60 с TCP/IP
http://www.mellanox.com/related-docs/whitepapers/SB_Virtual_Desktop_Infrastructure_Storage_Acceleration_Final.pdf
RDMA позволяет запустить в 2 раза больше VDI на сервер
ConnectXiSCSI using RDMA
Nytro MegaRAIDFlash Cache
ConnectXiSCSI using RDMA
Nytro MegaRAIDFlash Cache
Active Active
© 2016 Mellanox Technologies 84- Mellanox Confidential -
CloudX: Microsoft Azure
CloudX: Microsoft Azure
Виртуализация
• Compute: Hyper-V
• Network: NVGRE
Windows Server 2012
• Azure Pack self service & multi-tenant provisioning
Приложения
• SQL Server, Office, Web Hosting
СХД на базе SMB Direct
• На базе стандартных x86 серверов
• Violin Memory, EchoStreams, DataOn, Iron Systems
.
© 2016 Mellanox Technologies 87- Mellanox Confidential -
Демонстрация облака Microsoft на 100Gb/s
Производительность удаленных разделов на Remote NVME Flash
• ConnectX-4 100Gb/s Ethernet адаптеры
• RoCE RDMA позволяет достичь максимальной производительности для flash
- Производительность подключения удаленных разделов без компромиссов
• В два раза больше полоса и утилизация CPU менее 15%
Click to Watch
Microsoft 100Gb/s
RoCE Presentation
0,00
2,00
4,00
6,00
8,00
10,00
12,00
1 2
Th
rou
gh
pu
t (G
byte
s/s
ec)
Microsoft Storage Spaces Throughput
© 2016 Mellanox Technologies 89- Mellanox Confidential -
CloudX: OpenStack
CloudX с OpenStack Linux
• Mirantis, Redhat, Ubuntu
Виртуализация
• Compute: KVM
• Network: VXLAN
Приложения
• Oracle, MongoDB, Hadoop
СХД
• Ceph – Object, block, file
• Cinder/iSER - block
• Swift - object
.
Click: CloudX
Reference
Architecture
© 2016 Mellanox Technologies 90- Mellanox Confidential -
Интеграция компонентов OpenStack с коммутаторами и
адаптерами Mellanox
Интеграция с
основными
OpenStack
дистрибутивами
Встроенная интеграция в
Havana, Ice House, & Juno
Ethernet
Neutron :
Hardware
support for
security and
isolation
Accelerating
storage
access by up
to 5x
Бесшовная интеграция с помощью OpenStack-плагинов на уровнях Control & Management
Neutron-ML2
mixed VM
environment
(VXLAN, PV,
SRIOV)
© 2016 Mellanox Technologies 92- Mellanox Confidential -
RDMA предоставляет самый быстрый доступ к СХД для OpenStack
Встроенные в OpenStack компоненты и инструменты управления
• Не требуется установка дополнительного ПО
• Поддержка RDMA уже есть в OpenStack и используется многими заказчиками !
Hypervisor (KVM)
OS
VM
OS
VM
OS
VM
Adapter
Open-iSCSI w iSER
Compute серверы
Switching Fabric
iSCSI/iSER Target (tgt)
Adapter Local Disks
RDMA Cache
Storage серверы
OpenStack (Cinder)
Использование
RDMA для
ускорения iSCSI
СХД
0
1
2
3
4
5
6
7
1 2 4 8 16 32 64 128 256
Ban
dw
idth
[G
Byt
es/
s]
I/O Size [KBytes]
iSER 16 VMs Write
iSCSI Write 16 VMs
PCIe Limit
6X
RDMA дает 6X прирост в полосе пропускания, 5X ниже задержки, и низкую
загрузку CPU
© 2016 Mellanox Technologies 93- Mellanox Confidential -
Mellanox OVS offload
OVS-vswitchd
OVS Kernel Module
User Space
Kernel
OVS-vswitchd
OVS Kernel Module
User Space
Kernel
ConnectX-4 eSwitchHardware
Традиционный OVS: All Software
Высокие задержки, низкий BW, нагрузка CPU
ConnectX-4: аппаратный OVS Offload
Низкие задержки, высокий BW, разгрузка CPU
First flow packet Fallback FRWD path HW forwarded Packets
© 2016 Mellanox Technologies 94- Mellanox Confidential -
Интеграция с OpenStack и vSphere
NEO + OpenStack NEO + vSphere
• Автоматический Provisioning фабрики
• Мониторинг событий и отказов в сети
• Видимость сетевой инфраструктуры
© 2016 Mellanox Technologies 95- Mellanox Confidential -
Nutanix Invisible Storage-Compute, теперь с коммутаторами
Mellanox
Уникальный форм-фактор• 2 коммутатора с mLAG в 1U (каждый занимает ½ 19’’)
Встроенная интеграция• Уникальное представление фабрики (REST API)
Низкие задержки• 220ns на любом размере пакетов
Низкое энергопотребление• 50W на коммутатор
Низкая цена• Незначительная в сравнении
с ценой всего решения
Масштабируемость• Начать с 12x10GbE, масштабировать 48x10GbE до 1,000 портов
Задел на будущее• Просто заменить кабель, это все-таки 40GbE коммутатор!
© 2016 Mellanox Technologies 96- Mellanox Confidential -
Ethernet от Mellanox – еще применения
СУБД: RDMA и широкая полоса = производительностьБольшие Данные: Хорошая интеграция с Hadoop и
другими Map-Reduce системами
Media&Entertainment: Высокая скорость = высокое
качество картинки
Торговля на бирже: Максимальное снижение
задержки = более быстрый трейдинг
© 2016 Mellanox Technologies 98- Mellanox Confidential -
Ключевые отличия Mellanox:
• Собственный ASIC с самой высокой производительностью и самыми низкими задержками
• Гибкий выбор необходимых скоростей 10/25/40/50/100G на единой аппаратной платформе
• Ключевая технология RDMA из InfiniBand поддерживается теперь и в Ethernet сетях
• Низкий CAPEX (лучшее соотношение цена/производительность)
• Низкий OPEX (простая эксплуатация)
• Открытая платформа и поддержка SDN
Кто строит свои сети на Mellanox:
• 4 из 5 крупнейших мировых Web компаний
• В России – Web компании, коммерческие ЦОД, крупные предприятия.
Заключение
© 2016 Mellanox Technologies 99- Mellanox Confidential -
Примеры внедрений
© 2016 Mellanox Technologies 100- Mellanox Confidential -
DataLine Cloud-V – отказоустойчивая облачная инфраструктура на базе
технологии Microsoft Hyper-V. Выбирая Cloud-V, клиенты DataLine получают в свое
распоряжение машины с предустановленным системным и платформенным ПО,
порталом управления Azure Pack и гарантированным SLA 99,95%.
Требования к сетевой инфраструктуре• Сетевая инфраструктура должна обеспечивать гарантированную полосу
пропускания и сверхнизкие задержи для Multi-tenant виртуальной среды,
использующей программно-определяемый СХД.
Бизнес задачи
• Коммутаторы Ethernet: SX1710 SwitchX®-2 с портами 40/56GbE и поддержкой
технологии Remote Direct Memory Access обеспечивают максимальную
пропускную способность между всеми компонентами решения.
• Сетевые карты: ConnectX®-3 Pro 40/56GbE с аппаратной разгрузкой
центральных процессоров повышают плотность размещения виртуальных
машин на гипервизорах.
• Интеграция: Полностью интегрированное решение с поддержкой технологий
Microsoft SMB-Direct и NVGRE offload обеспечивает высокую
производительность и гибкую масштабируемость.
Решение на основе Mellanox End-to-End Ethernet
“Высокая производительность сетевой инфраструктуры
делает Cloud-V оптимальным решением для сервисов,
связанных с обработкой больших объемов данных на
высокой скорости (анализ данных, управление базами
данных и т.д.)”
Михаил Соловьев
Руководитель направления виртуализации, DataLine
SX1710Архитектура решения
© 2016 Mellanox Technologies 101- Mellanox Confidential -
Сервионика – “MakeCloud”
Услуга IaaS на базе OpenStack
“MakeCloud” – первый в России коммерческий сервис публичного облака,
полностью построенный на OpenStack и предоставляющий пользователям
универсальные возможности самостоятельного развертывания и управления
ИТ-инфраструктурой любого масштаба и сложности. Разработан и
поддерживается компанией «Сервионика» (ГК «Ай-Теко»).
Требования к сетевой инфраструктуре MakeCloud:• Создание эластичной инфраструктуры для приложений, требовательных к
скорости обмена данными.
• Низкая стоимость владения.
• Высокая надежность, подкрепленная SLA.
• Совместимость на уровне L2/L3 с имеющейся сетевой инфраструктурой ЦОД.
Бизнес задачиАрхитектура решения
• Коммутаторы: На основе 40/56GbE коммутаторов SX1012 SwitchX®-2 строится
компактное Top-of-the-Rack решение размером в один RU с плотностью портов
96x10GbE или 24x40/56GbE.
• Сетевые карты: Двухпортовые 10GbE карты ConnectX®-3 Pro с аппаратным
offload и технологией RDMA обеспечивают лучшую в отрасли
производительность для облачных сред.
• Эластичность: Технология OPEN-MLAG обеспечивает отказоустойчивость и
повышает пропускную способность сети.
Решение на основе Mellanox End-to-End Ethernet
«Высокий уровень качества и безопасности облачных
сервисов – требование рынка, выполнить которое можно
только при условии постоянной оптимизации как
программной, так и аппаратной части решений.
Оборудование Mellanox наилучшим образом подходит для
поддержки наших облачных платформ, обеспечивая
высокую скорость передачи данных и гибкость
управления»
Алексей Черевков
Руководитель направления IaaS, «Сервионика»
Спасибо!