EVPN for Cloud Builders

85
Data Center Fabric Evolution EVPN for Cloud Builders The MARCH to IP Fabrics Juniper Networks,K.K. 2015/12

Transcript of EVPN for Cloud Builders

Data Center Fabric Evolution

EVPN for Cloud Builders

The MARCH to IP Fabrics

Juniper Networks,K.K.

2015/12

仮想化とクラウドDCの流れ

Data Center 仮想化された Data Center Private Cloud(より高度な仮想化とオートメーション化)

OrchestrationAutomationSelf-Service Portal

収容顧客毎のグルーピングとサービス・チェイニング

VM VM VM VMグループ(テナント)VMs or Servers• Applications, Tenants, ...

PolicyConditions + Actions

仮想化されたネットワーク

グループベースのポリシー

仮想化されたData Center を司るDCI(Data Center Interconnect)

Virtual Private CloudIaaS Provider 1

Private CloudData Center 1

Private CloudData Center 2

WAN

Gateway RedVPN

GreenVPN

VLANによるネットワークの仮想化“Traditionalな” アプローチ

VM VM

VM VM

VMVM

Bare Metal Server

Tenant / Application毎にVLANを割り当てる

Virtualized Server

VLANによるネットワークの仮想化

仮想化されたトポロジーが物理的な制約やVLAN IDの制限に縛られてしまう

Layer 3 POD Inter-connect

App 1

App 2

App 3

App 4

App 5

Deployment Silo Deployment Silo Deployment Silo

Layer 2 POD with VLANs Layer 2 POD with VLANs Layer 2 POD with VLANs

Overlayアーキテクチャ”新しいDCアーキテクチャ”による解決方法;L3VPN or EVPN over VXLAN over IP Fabric (or LSP over MPLS Fabric)

VM VM

VM VM

VMVM

VXLAN

BGP

IP Fabric

EVPN or L3VPNBGP Route-Reflector

App 1

App 2

App 3

App 4

App 5

Overlayアーキテクチャ

仮想化されたトポロジーと物理・論理的な制約を自由に切り離す事が可能に

Layer 3 IP Fabric + EVPN-VXLAN overlay

POD PODPOD

Software-Defined Networking (SDN)

SDN ControllerVMVMVM VM

VM VM

Cloud Management System

SDNやSDDCを実現するためには、この物理・論理的な制約からネットワークを解き放つ事がまず必要に!

Data Center Fabric Evolution

L3L2

L3L2

L3L2

L3L2

L3L2

L3 L3

L3 L3 L3

L3L2

L3L2

L2 L2 L2

Data Center Fabric EvolutionMarch Towards IP Fabrics

• ネットワーク管理負荷の軽減• ストレージ・コンバージェンス• Active-Active Forwarding

(L2/L3マルチパス)

• アプリケーションの制御• Overlayアーキテクチャ• ホスティング環境へのより柔

軟な適応

Traditional Ethernet Fabric IP Fabric

Ubiquitous L2/L3 Ubiquitous L2/L3 L3 Only

Mid

MarketF500 T2 SP T1 SP MSDC

Mid

MarketF500 T2 SP T1 SP MSDC

Mid

MarketF500 T2 SP T1 SP MSDC

IP Fabric

Edge / Transit Network

Physical Server

AppApp App

Physical Server

AppApp App

Physical Server

AppApp App

Peers Internet

なぜ IP Fabric か?3つの主なユースケース

• Software-Defined Data Center• Self-Service

• Over-the-Top Web Services• ハイパースケール

• マルチテナンシー• ハイパー論理スケール

IT-as-a-Service Software-as-a-Service Hosting / IX

UnderlayIP Fabric

Overlay

Server

Hypervisor

VMVM VM

Server

Hypervisor

VMVM VM

Server

Hypervisor

VMVM VM

OverlayController

VLAN Fabric – IP Fabric + VXLAN + EVPN

Edge / Transit Network

Physical Server – T2

AppApp App

Physical Server – T1

AppApp App

Physical Server – T3

AppApp App

Peers Internet

Data Center アーキテクチャの傾向イーサネット・ファブリックとIPファブリックのトレンド

0%

25%

50%

75%

100%

MidMarket

F500 T2 SP T1 SP MSDC

Traditional Ethernet Fabric IP Fabric

0%

25%

50%

75%

100%

MidMarket

F500 T2 SP T1 SP MSDC

Traditional Ethernet Fabric IP Fabric

Today Next Generation

Data Center TimelineJuniper はすべての選択肢を柔軟にサポート

L2 + STP + L3 + RVI

MC-LAG

JUNOS Fusion

QFabric

3-Stage

5-Stage Performance

5-Stage Real Estate

VXLAN + EPVN Fabric

Traditional Ethernet Fabric IP Fabric

Virtual Chassis Fabric

Virtual Chassis

QFX10002-36QFixed

QFX10002-72QFixed

QFX100088-slot modular

QFX1001616-slot modular

QFX5000

Multi-TierL2/L3

Ethernet FabricL2/L3

IP FabricAll L3

QFX10000EVPN VxLAN ISSUEVPN MPLS Segment Routing

AutomationAnalyticsIntegrated CloudManagement

あらゆるDCアーキテクチャに柔軟に対応することが可能な新世代のSpineスイッチ:

QFX10000-Series

3:1O/S

S S S S

L L L L L L L L L L L LL L L L

IP Fabric トポロジー必要なサイズはビジネスの傾向により変化

3-Stage IP Fabric 5-Stage IP FabricPerformance

5-Stage IP FabricReal Estate / POD

Spine Leaf AccessS L A

3:1O/S

A A A A A AA A

S S S S S SS S

L L L L L L L L L L L LL L L L

24:1O/S

3:1O/S

3:1O/S

3:1O/S

3:1O/S

A A A A A A A A A A A AA A A A

S S S S

L L L L L L L L

VXLAN Fabric アーキテクチャVXLAN Tunnelのフル・メッシュ構成

S S S S

BMS BMS BMS

L L L L L L L L L L L LL L L L

BMS

VXLAN Routing in the Spine

VXLAN L2 GW in Leaf

L2 / L3 Everywhere

CLOS IP Fabric Requirements

Requirement OSPF IS-IS BGP

Advertise prefixes Yes Yes Yes

Scale Limited Limited Yes

Traffic Engineering Limited Limited Yes

Traffic Tagging Limited Limited Yes

Multi-Vendor Stability Yes Yes Even more so

VPNs No No Yes

S1AS1

S2AS2

L1AS3

L2AS4

L3AS5

S1 S2

L1 L2 L3

IBGP vs. EBGP

iBGP eBGP

• BGP Route Reflection

• BGP AddPath

• Loopback peering

• OSPF or IS-IS

• 16-bit vs. 32-bit ASNs

• Relaxed multi-path

ASN 64,512

Introducing EVPN

Ethernet の進化

Ethernet Fast Ethernet Gigabit Ethernet 10GbE 40GbE 100GbE 400GbE

Faster

Link Aggregation IEEE 802.1ad IEEE 802.1AX

Link Aggregation

Ethernet Switching Provider Backbone Bridging TRILL and SPB

Ethernet Services

IEEE 802.1D IEEE 802.1w IEEE 802.1s IEEE 802.1aq

Loop Prevention

CCC L2VPN VPLS

Data Center Interconnect

VXLAN NVGRE MPLS-over-UDP

Data Center Overlays

業界的なチャレンジ(DCI)

DataCenterInterconect

VPLS

Data Center

1

Data Center

2

• No All-Active Forwarding

• No Control Plane Learning

• No Inter-Subnet Forwarding

• No MAC Mobility / トロンボーン・エフェクト

• No Advanced Ethernet Services

• VLAN-based

• VLAN Bundle

• VLAN Aware

業界的なチャレンジ(Overlay)

• 標準化されたコントロールプレーンがない

• 標準化されたデータプレーンもない

• ベンダーロックインによる独自技術は過去何度も失敗してきた…

IP Fabric

Overlay Networks

Controller

業界的なチャレンジ(Multi-Teanant)

Multi-Tenant Network

• 唯一解が存在せず

• 殆どの実装がproprietary

• 複雑なオペレーション

• 限定的なスケール

• 物理的な制約 – no L2 between PODs, etc.

Bare-Metal Servers

EVPN as a Solution

EVPN

DCI

Multi-

Tenancy

Overlay

Network

• All-Active フォワーディング

• 統合された L2・L3 サービス

• 馴染み深い L3VPN に類似したオペレーション

• Control plane learning

• Auto-Discovery

• 柔軟なデータプレーンの選択

EVPN(ETHERNET VPN)とは?

LAG

BGPをベースとしてStateを交換

EVPN router

EVPN router

LAN

WAN

複数のL2 domains (VLANs) を接続するための

新しい標準化ベースのプロトコル

Integrated Routing & Bridging (IRB) により

L2 & L3 コンバージェンスをネイティブにサポート

Juniper が業界のマルチベンダーイニシアチブを主導

-- JNPR, CSCO, ALU, ATT, Verizon, Bloomberg ….

次世代のデータセンターインターコネクトに最適

Use case #1: EVPN for Next Generation Ethernet Services

Benefits:• より効率的で機能豊かな E-LAN & E-LINE サービスを提供

• VPLSの欠点を補足; IP VPN likeな policy control を提供• 急激なトラフィックの伸び に対応可能

• Active/Active multi-homing with load balancing • ネットワークの 効率性 を改善

• BUM trafficのFloodingを最小化して/ MAC learningのスピードを改善

BGP signaling on WAN exchange MAC/IP routes

EVPNPE2

EVPNPE1

EVPN PE3

EVPNPE4

CE

CE

MPLS

MP-BGP

Use Case #2: EVPN For Data Center Interconnect

Benefits:• シームレスなデータセンター・インターコネクト – L3 を意識したDC間L2 ストレッチ

• シームレスなワークロードマイグレーション – DC間でのVM mobility を実現

• 広い流用性 – 旧来のL2 と MPLSやVxLANのようなOverlay DCテクノロジーとを接続

VLAN 1MAC1

VLAN 2MAC 2

VLAN 1MAC11

VLAN 2MAC22

Data Plane Learning BGP Control Plane based learning on WAN Data Plane Learning

MX Series MX Series

Data Center Site1 Data Center Site 2 Data Center Interconnect

MPLS/E-VPN Cloud

Legacy L2 VLAN

VXLAN Cloud

Use Case #3: EVPN-VXLAN for DC Overlay

• EVPN がコントロールプレーンとして動作

VNID がEthernet Tag IDの代わりとしてEVPNのシグナリングに利用される

• VxLAN はデータプレーンのEncapsulationとして利用される

Benefits of EVPN-VxLAN DC Overlay:• シンプルなAll IPファブリック のDC内利用を促進

• DC内における多段のL2セットアップ構成が不必要に

• VM/アプリケーションに対して L2 connectivity を提供

• ハイパーバイザーに対して直接L2VPNを提供

• すべてのIP DCにL2 マルチテナンシーを提供

• 各テナントが4094 VNIDを利用可能に

• VXLAN Tunnel Endpoints (VTEP) はネットワーク機器上にもハイパーバイザー上にも存在し、それらを結びつけることが可能

• EVPNにおけるあらゆるメリットをDCのLAN内でも利用可能に

Overlay environmentIP Fabric

TOR

VDS

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

Network Orchestrator

Management Plane API needed only

EVPN の概要

• 新しい MP-BGP family

• 統合された L2・L3 コントロールプレーン

• 選択可能なデータプレーン

• All-Active フォワーディング

EVPN アーキテクチャ

AppOS

Customer Edge (CE)

(switch, router, host, etc)

Single-Active Mode

All-Active Mode

EVPN Instance

(EVI)

LAG

BGP-RR

Provider Edge (PE)

Agnostic Data Plane Encapsulation(EVPNの場合、ここの転送手段はMPLSでもVXLANでも対応が可能)

Ethernet Segment (ES)

EVPN NLRI Types

Route Type Description Usage Standard

1 Ethernet Auto-Discovery PE Discovery and Mass Withdraw draft-ietf-l2vpn-evpn

2 MAC Advertisement MAC Advertisement draft-ietf-l2vpn-evpn

3 Multicast Route BUM Flooding draft-ietf-l2vpn-evpn

4 Ethernet Segment Route ES Discovery and DF Election draft-ietf-l2vpn-evpn

5 IP Prefix Route IP Route Advertisementdraft-rabadan-l2vpn-evpn-

prefix-advertisement※

※Roadmap

EVPN ServicesVLAN Based Service

VLAN Bundle Service

VLAN Aware Service

• 1:1 VLAN ID to EVI

• RT per VLAN – Label per VLAN

• Supports VLAN normalization

• Efficient flooding

• Requires more labels

• N:1 VLAN ID to EVI

• RT per VRF – Label per VRF

• No support for VLAN normalization

• Inefficient flooding

• Uses less labels

• N:1 VLAN ID to EVI

• RT per VRF – Label per VLAN

• Supports VLAN normalization

• Efficient flooding

• Requires more labels

EVPN Instance 4

EVPN Instance 1

EVPN Instance 2

EVPN Instance 3

vlan-id 1

vlan-id 2

vlan-id 3

vlan-id 4

vlan-id 11

vlan-id 12

vlan-id 13

vlan-id 14

EVPN Instance 1

vlan-id 1

vlan-id 2

vlan-id 3

vlan-id 4

vlan-id 1

vlan-id 2

vlan-id 3

vlan-id 4

Broadcast Domain 1

Broadcast Domain 2

Broadcast Domain 3

Broadcast Domain 4

EVPN Instance 1

vlan-id 1

vlan-id 2

vlan-id 3

vlan-id 4

vlan-id 11

vlan-id 12

vlan-id 13

vlan-id 14

VLAN-based EVPN Summary

PE1 PE2

VRF2

VRF1

VRF2

VRF1

vlan-id 1

vlan-id 2

vlan-id 11

vlan-id 22

EVI 1

EVI 2

L11 L21

L22L12

ラベ

ルは

ユニ

ーク

であ

る必

要あ

ラベルは同一でも別でも構わない

VLAN Bundle EVPN Summary

PE1 PE2VRF1 VRF1

vlan-id 1

vlan-id 2

vlan-id 11

vlan-id 22

EVI 1

L11 L21

ラベルは同一でも別でも構わない

VLAN Aware EVPN Summary

PE1 PE2VRF1 VRF1

vlan-id 1

vlan-id 2

vlan-id 11

vlan-id 22

EVI 1

ラベルは同一でも別でも構わない

L11 L21

L22L12

ラベ

ルは

ユニ

ーク

であ

る必

要あ

VXLAN EVPN Service – Hybrid

PE1 PE2VRF1 VRF1

vlan-id 1

vlan-id 2

vlan-id 11

vlan-id 22

VNI はユニークなName Spaceとなり、マッチしていないといけない

VNI55 VNI55

VNI55VNI55

ラベ

ルは

ユニ

ーク

であ

る必

要あ

bd bd

bd bd

Auto RT

routing-instance foo

{

type evpn;

route-target AS:auto;

bridge-domains {

bd1 {

vlan-id 1;

}

bd 2 {

vlan-id 2;

}

}

1,0x1 VNIDnew

0x02 Sub-Type ASNold

RT Format

EVPN サービス・マトリックス

Attribute VLAN-Based Service VLAN Bundle ServiceVLAN Aware

Service

VLAN to EVPN Instance Ratio 1:1 N:1 N:1

Route Target VLAN VRF VRF

Service Label VLAN VRF VLAN

VLAN Normalization Yes No Yes

Overlapping MAC Addresses Yes No Yes

Juniper Support Yes No Yes※

※Roadmap

Data Plane Meta Data

Transport Label Service Label PayloadMPLS

Outer IP Header VXLAN VNID PayloadVXLAN

• Forwarding

• Service Separation

• Split Horizon

• Hashing

EVPN Split Horizon – MPLS

EVPN Instance

CE 1

• 片側の DF だけが BUM トラフィクを転送する

• ESI毎にSplit Horizonラベルが付与される

• Single-homedのCE1に対してはSplit Horizonラベルは付与されず、転送が行われる

DF

ESI 2

CE 2

Split Horizon Label 1

Split Horizon Label, ESI

EVPN Mass Withdraw

App

OS

Customer Edge (CE)

(switch, router, host, etc.)

Single-Active Mode

All-Active Mode

LAG

BGP-RR

Provider Edge (PE)

• 障害時にはPE がEthernet Segment (ES) に関係するすべてのMACアドレスに対するWithdrawの告知を送信する

No need for MC-LAG(story)

EVPN MAC Aliasing

MAC learned

MAC not learned

EVPN ES UpdateAliasing

• 対向のPEは、該当のMacアドレスへはエイリアスを組んだ双方のPE越しでアクセス可能なことを学習しているため、ロードバランスしながら転送することが可能

App

OS

All-Active Mode

BGP-RR

Provider Edge (PE)

MAC NLRI Gen-ID++

App

OS

MAC NLRI Gen-ID++

EVPN MAC Mobility

• PE は MACの移動を検知するごとに、Gen-ID を付与したcommunity 情報を伝播

• 最も高い Gen-ID を発行したPE配下に該当MACが存在すると判断される

Deploying EVPN

DATA CENTER INTERCONNECT

DCI Use Case with EVPN Options

DCI OVERVIEW

DC2 DC3

DC1

Data Center Interconnect 物理的に離れたデータセンター間でデータをやり取りする L2とL3のデータ転送 データの分離と統合 ノードとリンク、耐障害性の確保

D1-R1

D1-R2

DCI w/ EVPN の利点

DC Fabric DC Gateway DC FabricDC Gateway

Link Efficiency

L2ループを回避しながら、A/Aのフォワーディングを提供

Convergence

MPLSにより培われた高速なコンバージェンスとルート変更をそのまま提供

L3 and L2

L2 & L3 をNativeに統合したプロトコル管理を提供

DC Optimized

DC間でのVMのモビリティにも柔軟に対応

MPLS IP Fabric

Virtual Machine Mobility

Custom Services

IPVPN のようなポロシーコントロールを持ってサービスを提供することが可能

EVPN の構成要素

DC1 DC Gateway2 DC2 DC Gateway4

MPLS IP Fabric

Data PlaneMAC learning

BGP Control PlaneMAC learning

Data PlaneMAC learning

DC Gateway1 DC Gateway3

MACsDF

Non DF

ESI -100

• Aliasing – すべてのActiveリンクにおいてロードバランスを提供• Mac Mass withdrawal – 高速なコンバージェンス• Mac mobility – VMの可動性をほぼヒットレスにサポート• 統合された L3 – 設定の簡素化を提供• Finer policy Control with BGP – より柔軟なコントロール• Built in HA – 高速なコンバージェンスとネットワークの堅牢化

Traffic for MAC1

Active-Active Modes of deployment

Aliasing

• MACアドレスが片側のPEでのみ学習された環境であっても、すべてのActive Linkを使用してトラフィックのロードバランスを提供

• PE はMAC Routeをアドバタイズする際にESIも併せて告知し、ES内のすべてのActiveな接続性を対向に告知する

• 対向側のPEは受け取ったESIに向けてトラフィックをロードバランスしながら転送する

PE2

PE1

PE3

PE4

CE

CE

MPLS

3.PE3とPE4は、EVIごとに受け取るRoute告知によりMAC1へはPE1とPE2経由でリーチできることを認識する

2.CEからのトラフィックを受信してMACアドレス1を学習したPE2だけが該当のMac Routeを対向に告知

2.PE1 と PE2 がEVIごとに同一のESIを含んだAD Routeを告知している

4.PE3 はMAC1へのトラフィックをロードバランスしながら転送

1.CEからはLAGによりトラフィックをバランシングして転送

MAC Mass Withdrawal

• ESIに関係するリンク障害が発生した場合、高速なコンバージェンスを提供

• ESI (link) に障害が発生すると、PEは(個別のMACアドレス毎のではなく)該当するESIに関するRoute削除更新を対向に送信する

• 対抗のすべてのPEは該当のESI経由で学習しているすべてのIP/MACアドレスに対するネクストホップ経路から該当のPEを削除する

• これにより学習しているMACアドレスの数量にかかわらず高速なコンバージェンスを提供

PE2

PE1

PE3

PE4CE

CE

9

2.PE2 はダウンしたリンクに該当するESIに関するwithdraw を送信

3.すべてのPEはそのESI宛のネクストホップからPE2 を即座に除外する

1.リンク障害が発生

DCI OPTIONS

QFX10K

DC 1QFX10K

DC 2

MX1 MX2

L3VPN-MPLS

EVPN-VXLAN

Option 1

QFX10K

DC 1QFX10K

DC 2

MX1 MX2

EVPN-VXLAN

EVPN-VXLAN

Option 3

既存の WANを流用 ASBRとしてのMX

QFX10K

DC 1QFX10K

DC 2

MX1 MX2

EVPN-MPLS

EVPN-VXLAN

Option 2

EVPN stitching 多少のデザインと移行プラ

ンニングが必要

既存のMPLS技術を流用 容易な実装

QFX10K

DC 1QFX10K

DC 2

EVPN-VXLAN

Option 4

直接接続 容易な実装 No MPLS

VXLAN VNID 100

DCI OPTION 1QFX10K

1

QFX10K

2

MX1 MX2

EVPN-VXLAN

MX1 MX2QFX10K 1 QFX10K 2

L3VPNVXLAN VNID 100

family mplsfamily inet family inet

loopback loopback

BGP-INET-VPN

BGP-EVPN

loopback loopback

(OTT WAN)

VXLAN VNID 200

DCI OPTION 2

MX1 MX2QFX10K 1 QFX10K 2

EVPN-MPLS (MPLS option A)

family mplsfamily inet family inet

loopback loopback

BGP-EVPNBGP-EVPN

loopback loopback

BGP-EVPN

QFX10K

1

QFX10K

2

MX1 MX2

EVPN-VXLAN

EVPN stitching /possible VNID transition

point

VXLAN VNID 100

MX2

EVI EVI

Logical Tunnels

EV

PN

-MPLS

EV

PN

-VXLAN

EVPN stitching /possible VNID transition

point

VXLAN VNID 300

DCI OPTION 3

MX1 MX2QFX10K 1 QFX10K 2

VXLAN VNID 200

family inetfamily inet family inet

loopback loopback

BGP-EVPNBGP-EVPN

loopback loopback

BGP-EVPN

QFX10K

1

QFX10K

2

MX1 MX2

EVPN-VXLAN

Possible VNID translation

Possible VNID translation

VXLAN VNID 100

(OTT Internet)

DCI OPTION 4

QFX10K 1 QFX10K 2

VXLAN VNID 100

family inet

loopback loopback

BGP-EVPN

QFX10K

1

QFX10K

2

EVPN-VXLAN

(Dark Fiber)

DATA CENTERMULTI-TENANT

Data Center Switching Use Case with EVPN Options

MULTI-TENANT DC OVERVIEW

T1 T2 T3 T4

Data Center Network

Multi-Tenant Data Center

Spine 1

Spine 2

Leaf 2 Leaf 3 Leaf 4Leaf 1

テナント毎の分離を提供 テナント毎に複数のサブネットを提供 L2とL3のトランジットを提供 物理・仮想的な負荷に応じて配置する必要がある

MULTI-TENANT DC OPTIONS

Spine 1

Spine 2

Leaf 2 Leaf 3 Leaf 4Leaf 1

Option 1

3-stage Clos トポロジー 小〜中規模構成 一般的にはひとつの BGPで構成 (iBGP)

Spine

1

Spine

2

Leaf 2 Leaf 3 Leaf 4Leaf 1

Spine

1

Spine

2

Leaf 2 Leaf 3 Leaf 4Leaf 1

Fabric1

Fabric2

Option 2

5-stage Clos トポロジー 中〜大規模構成 様々な BGP デザインオプションが検討可能

MULTI-TENANT DC FUNDAMENTALS

VRF 1 VRF 2

default.vs

VN

ID 1

VN

ID 2

VN

ID 3

VN

ID 4

IRB IFD

BD3 BD4BD1 BD2

Spin

eLeaf

VRF_1_VS

BD1 BD2

VRF_2_VS

BD3 BD4

VTEP – bound to lo0.0

VTEP – bound to lo0.0

routing-instances {

VRF_1 {

instance-type vrf;

interface irb.1;

route-distinguisher 1:1;

vrf-target target:1:1;

}

VRF_1_VS {

instance-type virtual-switch;

vtep-source-interface lo0.0;

route-distinguisher 11:1;

vrf-import VRF_1_VS_IN;

vrf-target target:11:1;

protocols {

evpn {

encapsulation vxlan;

extended-vni-list [ 1 2 ];

multicast-mode ingress-replication;

}

bridge-domains {

bd1 {

vlan-id 1;

routing-interface irb.1;

vxlan {

vni 1;

ingress-node-replication;

}

}

}

}

}

accept esi commaccept self RT

irb.1 irb.2 irb.3 irb.4

MULTI-TENANT DC FUNDAMENTALS

default.vs

VN

ID 1

VN

ID 2

VN

ID 3

VN

ID 4

BD3 BD4BD1 BD2

VTEP – bound to lo0.0

switching-options {

vtep-source-interface lo0.0;

vrf-import LEAF-IN;

vrf-target target:9999:9999;

}

vlans {

bd1 {

vlan-id 1;

vxlan {

vni 1;

}

bd2 {

vlan-id 2;

vxlan {

vni 2;

}

bd3 {

vlan-id 3;

vxlan {

vni 3;

}

bd4 {

vlan-id 4;

vxlan {

vni 4;

}

Leaf

protocols {

evpn {

encapsulation vxlan;

extended-vni-list [ 1 2 3 4 ];

multicast-mode ingress-replication;

vni-routing-options {

vni 1 {

vrf-target export target 1:1;

}

}

}

}

BUM REPLICATION OPTIONS

Spine 1

Spine 2

Leaf 2 Leaf 3 Leaf 4Leaf 1

Ingress Replication (IR)

Leaf がBUMパケットの複製を行う 関連するすべてのLeaf へコピーを転送 1000+ を超えるLeafが存在するような構成で

はスケールしない

Spine 1

Spine 2

Leaf 2 Leaf 3 Leaf 4Leaf 1

Assisted Replication (AS)

Leaf がBUMトラフィックのコピーをSpineに送信 Spine が各Leaf向けのBUMトラフィックの複製を

行う より大規模な構成に対応 Spine にはより強力なCPUパワーが要求される

FLOOD LIST – IR AND AR (SPINE)

VLANn

IP Remote PE5, (VNID derived from VLANn)

IP Remote PE4, (VNID derived from VLANn)

IP Remote PE3, (VNID derived from VLANn)

IP Remote PE2, (VNID derived from VLANn)

IP Remote PE1, (VNID derived from VLANn)

1 2 3 4 5 Flood Next Hop / List

Composite Next Hop

**AR does split horizon

VXLAN FABRIC BGP OPTIONS

Spine

RR

Leaf

1 2

Leaf

1 3

iBGP + RR

iBGP Spine == RR Leaf == RR client 同一のASNを使用 別途IGPが必要

Spine

Leaf

1 2

Leaf

1 3

eBGP

eBGP Leaf毎に異なった

ASNを設定

EBGP OR IBGP ?話はそうシンプルではなく、

デザイン構成時には、UnderlayとOverlayを考慮する必要があり

VXLAN FABRIC BGP RECOMMENDATION

Spine 1

Spine 2

Leaf 2 Leaf 3 Leaf 4Leaf 1

AS101 AS102

AS201 AS202 AS203 AS204

Underlayを構成するためのEBGP

シンプルなデザイン 物理インターフェイスでeBGPネイバを張る スイッチ毎にBGP ASN を設定 EVPN構成のために loopback の prefixeをExport IGP は必要なし

Spine 1

Spine 2

Leaf 2 Leaf 3 Leaf 4Leaf 1

AS64512 AS64512

AS64512 AS64512 AS64512 AS64512

EVPN Overlayを構成するためのIBGP

シンプルなデザイン LoopbackでiBGPネイバを張る ひとつの BGP ASN を設定 フルメッシュのPeeringを避けるためにSpineでRRを構成 EVPN コントロールプレーンでMAC と ESIを学習

RR RR

VXLAN FABRIC BGP RECOMMENDATION

group underlay {

type external;

family inet;

local-as 101;

multipath multiple-as;

neighbor 192.168.1.201 {

peer-as 201;

}

neighbor 192.168.1.202 {

peer-as 202;

}

}

group overlay {

type internal;

family evpn signaling;

local-as 64512;

multipath;

neighbor 172.16.1.201;

neighbor 172.16.1.202;

}

Spine

group underlay {

type external;

family inet;

local-as 201;

multipath multiple-as;

neighbor 192.168.1.101 {

peer-as 101;

}

neighbor 192.168.1.102 {

peer-as 102;

}

}

group overlay {

type internal;

family evpn signaling;

local-as 64512;

multipath;

neighbor 172.16.1.101;

neighbor 172.16.1.102;

}

Leaf

VXLAN FABRIC BGP SUMMARY

IBGP family evpn / bound to lo0

EBGP family inet / bound to ifd

両方の利点を最大限活用

100% BGP で構成することが可能で、IGPの管理は不必要に (NO OSPF, ISIS)

Underlayのトラブルシュート時 Full AS_PATHを確認

Overlayのトラブルシュート時 Global のFabric Viewを確認

iBGP overlay はトポロジーに依存させず、eBGP underlay にトポロジーを意識させる

5-stage CLOS になった場合にも同様のアーキテクチャを流用可能!

Spine

Leaf

DATA CENTERMULTI-TENANT

Moving on to 5-stage topologies

EVPN Type-5 Vs. L3VPN / INET-VPN“Same same, but different”

L L L L L L L L

PO

D 1

L L L L L L L L

PO

D 2

S S S S S S S S

F F F F

P P

Namespace: A/24 and B/24 Namespace: X/24 and Y/24

inet-v

pn

EVPN Type-2 EVPN Type-2

EVPN Type-5

EVPN Type-5 Vs. L3VPN / INET-VPN“Same same, but different”

L L L L L L L L

PO

D 1

L L L L L L L L

PO

D 2

S S S S S S S S

F F F F

P P

Namespace: A/24 and B/24 Namespace: A/24 and B/24

inet-v

pn

EVPN Type-2

EVPN Type-5 Vs. L3VPN / INET-VPN“Same same, but different”

L L L L L L L L

PO

D 1

L L L L L L L L

PO

D 2

S S S S S S S S

F F F F

P P

Namespace: A/24, B/24 + X/24 Namespace: X/24, Y/24 + A/24

inet-v

pn

EVPN Type-2

EVPN Type-5

Leaf

Spine

Fabric

EBGP FOR SUBSTRATE / UNDERLAY

AS

2101

AS

2102

3102 3103 31043101

AS

2201

AS

2202

3202 3203 32043201

AS

1001

AS1002

VXLAN L3 DISTRIBUTED GW OPTIONS

Spine GW

今日サポート可能な構成 SpineでL3State情報を中央集中化 LeafはVXLAN L2 GW として動作 上位のFabricスイッチには VXLAN機

能は必要なし

Fabric GW

今日サポート可能な構成 上位のFabricスイッチでL3State情報

を集中管理 LeafはVXLAN L2 GW として動作 SpineスイッチにはVXLAN機能は必

要なし

Leaf GW

将来ロードマップで対応予定(Leafスイッチに BRCM T2+ 以降のPFEが必要)

L3State情報はLeafスイッチ上に分散管理される

LeafはVXLAN L3 GW として動作 SpineスイッチにはVXLAN機能は必

要なし

BGP FAMILY EVPN OPTIONS

EVPN Intra-POD T2

POD内ではEVPN Type-2 POD間ではEVPN Type-5 POD毎にiBGP + RR

Type-2 Type-2

Type-5

AS

64512

AS

64512

AS64500

as-override

Type-5

Type-2

AS64512

BGP

RR

BGP

RR

VNI Range1 – 4K

VNI Range4 – 8K

EVPN Inter-POD T2

外部の BGP route reflectors VNIDで管理ドメインを分離 より大規模なスケールを提供

RR RR RR RR

EVPN Inter-POD T2

POD間でEVPN Type-2 POD間でEVPN Type-5 Inline での階層型 iBGP と RR

Type-5

Type-2

Cluster 10

AS

64512

Clu

ste

r 11

Cluster 11

Cluster 1AS64512

RR RR RR RR

RR RR

VRF A VRF A

x.1 x.101

H11 VNID

101

H21

H22 z.2

x.2

y.2 VNID

201

VNID

202

y.1

z.1

y.201

z.202

VRF B VRF B

c.1 c.102

H12

VNID

102 H23

d.2

c.2

e.2 VNID

203

e.1

e.203

d.1 d.103 VNID

103

Switch Δ

Switch Γ

INTER-VNID ROUTING SUMMARY

Γ Next Hop Scale = VNIDs,Hosts

Asymmetric

VRF A VRF A

x.1 x.101

H11 VNID

101

H21

H22

VNID

201

VNID

202

y.1

z.1

y.201

z.202

VRF B VRF B

c.1 c.102

H12

VNID

102 H23

VNID

203

e.1

e.203

d.1 d.103 VNID

103

Switch Δ

Switch Γ

VNID

55

VNID

56

Γ Next Hop Scale = VRFs,PE

Symmetric

ASYMMETRIC ROUTING DETAIL

y.201 (201, H21)z.202 (202, H22)

VRF A

e.203 (203, H23)VRF B

x.101 (101, H11)VRF A

c.102 (102, H12)d.103 (103, H12)

VRF B

VRF A VRF A

x.1 x.101

H11 VNID

101

H21

H22 z.2

x.2

y.2 VNID

201

VNID

202

y.1

z.1

y.201

z.202

VRF B VRF B

c.1 c.102

H12

VNID

102 H23

d.2

c.2

e.2 VNID

203

e.1

e.203

d.1 d.103 VNID

103

Switch Δ

Switch Γ

Γ route next-hop table Δ route next-hop table

SYMMETRIC ROUTING DETAIL

y.201

z.202 VRF A (55, Δ)

e.203 VRF B (56, Δ)

x.101 VRF A (55, Γ)

c.102

d.103 VRF B (56, Γ)

VRF A VRF A

x.1 x.101

H11 VNID

101

H21

H22

VNID

201

VNID

202

y.1

z.1

y.201

z.202

VRF B VRF B

c.1 c.102

H12

VNID

102 H23

VNID

203

e.1

e.203

d.1 d.103 VNID

103

Switch Δ

Switch Γ

VNID

55

VNID

56

Γ route next-hop table Δ route next-hop table

LOAD BALANCING HIERARCHY

Spine1 Spine2

Leaf2 Leaf3 Leaf4Leaf1

Host2

ESI

Host1

ESI

m n o p

Host2 ⇛ (o, p) VP-LAG(Spine1, Spine2) L3 ECMP(L1, L2) L2 ECMP

L3 LAGsL1, L2

VP-LAG L3 ECMP L2 ECMP

VIRTUAL PORT LAG (VP-LAG)

Spine1 Spine2

Leaf2 Leaf3 Leaf4Leaf1

Host2

ESI

Host1

ESI

m n o p

Host2 ⇛ (o, p) VP-LAG(Spine1, Spine2) L3 ECMP(L1, L2) L2 ECMP

L3 LAGsL1, L2

Spine1 Spine2

Leaf2 Leaf3 Leaf4Leaf1

Host2

ESI

Host1

ESI

m n o p

Host2 ⇛ (o) No VP-LAG(Spine1, Spine2) L3 ECMP(L1, L2) L2 ECMP

L3 LAGsL1, L2

Today VP-LAG RLI

SUMMARY

次世代データセンターアーキテクチャにベストなEVPN実装 冗長化とECMPを実現するVP-LAG マルチホーミング構成におけるESI MPLS and VXLAN データプレーン

業界で最も最適なSpine switch: QFX10000 高い論理スケール値 豊富な機能 将来を保証する様々なアーキテクチャの選択肢を提供 DC-LANとしてもDCIとしてもGatewayの役割を担うことが可能

EVPNアーキテクチャを最適化するJunos Fusion 管理ポイントの低減 複数のコントロールプレーンによる高い冗長性 容易なOSアップグレードと管理を提供

Thanks!!!Your ideas. Connected.

Backup Slides.

BGP Whitepaper

• http://www.juniper.net/us/en/local/pdf/whitepapers/2000565-en.pdf

• Googleで “QFX5100 IP Fabrics” と検索すればTop Hitで出てきます。

ベストプラクティス + 構成例 + 設定例

Spine : QFX10000-SeriesJuniper Q5 based switches

QFX10002-36QFixed

QFX10002-72QFixed

QFX100088-slot modular

QFX1001616-slot modular

36 x 40GEor 12 x 100 GE or 144 x 10GE

72 x 40GEor 24 x 100 GE or 288 x 10GE

30 x 100GE per slot

36 x 40GE per slotor 12 x 100 GE or 144 x 10GE

60 x 10GE + 2 x 100 GE per slotor 60 x 10 GE + 4 x 40 GE or 68 x 10 GE

Industry’s highest density 100GE switchesFlexible architectural support

EVPN/VXLAN supportSDN support (VMware NSX, Juniper Contrail)

Leaf : QFX5100-SeriesBroadcom Trident 2 based leaf switches

QFX5100-48S

QFX5100-48T

QFX5100-96S

QFX5100-24Q

48x10GE/1GE + 6x40GE

48x10GE/1GE + 6x40GE

96x10GE/1GE + 8x40GE

24x40GE + 2 slots, each 4x40GE

In Service Software Upgrades (ISSU)Flexible architectural support

EVPN/VXLAN supportSDN support (VMware NSX, Juniper Contrail, Openflow)