数据中心安全管理经验分享 - dmnet.sdjtu.edu.cndmnet.sdjtu.edu.cn/images/3.pdf ·...

54
数据中心安全管理经验分享 2016年12月 杨连磊

Transcript of 数据中心安全管理经验分享 - dmnet.sdjtu.edu.cndmnet.sdjtu.edu.cn/images/3.pdf ·...

数据中心安全管理经验分享 2016年12月

杨连磊

CONTENT 数据中心网络结构 1

管理流量安全审计 2

www.cernet.com

业务流量严格把控 3

合理利用运维工具 4

数据中心网络结构

1

3

www.cernet.com

机房环境介绍 数据中心建筑面积2100平米,其中建成机房面积553平米机房按照A级标准规范设计建设,所有设备均采用冗余设

计建设,目前已安装机柜110面,部署了120台服务器,600多台虚拟机,承载了44个大型业务系统。

www.cernet.com

数据中心区域划分

www.cernet.com

详细拓扑结构

管理流量安全审计

2

7

www.cernet.com

配置基础策略 NO 类别 检查内容 说明 1

远程登录管理

用户认证方式 启用本地或AAA认证

2 鉴别信息在网络传输过程中被窃听 使用SSH、https加密传输

3 系统设置ssh/https访问地址 管理员登录地址进行限制,指定ssh访问的地址

4 密码管理 用户口令加密并定期更换 防火墙的用户口令加密并定期更换(90天)

5 账号管理 检查无用账号和分配权限 现存账号符合运维工作要求,无无用账号

6 会话超时 定义会话超时时间 登录失败后应强制退出

7 日志管理

日志服务 必须指定log服务器 8 系统配置日志级别 定义日志级别

9 服务管理

修改系统默认snmp community

public、private团体名 修改snmp community

public/private默认团体名

10 时钟服务 指定NTP服务器或校对本地时间

www.cernet.com

安全登录及审计 互联网

业务区域

核心交换

出口网关

移动用户

管理流量

SSL-VPN设备

堡垒机

合理利用现有设备,针对外部管理流量尽量采

用VPN加密方式,所有操作日志需要有专门的

审计设备。

www.cernet.com

管理员安全认证

为保障管理流量的安全,所有管理员需要通过专用的SSL-VPN拨号进入内网,实现了

1、用户身份的认证

2、针对不同用户可操作资源区分

3、流量数据加密

www.cernet.com

设备分权管理

所有设备通过堡垒机统一进行管理,做到设备可管、可控、可查,保存相关的登录操作等日志三个月以上

www.cernet.com

数据库操作审计

设有专门的数据库审计设备,对数据库的所有增删改查做审计。保留相对应的日志文件,方便溯源。

业务流量严格把控

3

13

www.cernet.com

互联网接入区

www.cernet.com

DDOS防护

处于最外层的是防DDOS系统,针对DDOS流量进行识别,自动过滤非法流量,保障内部业务系统的安全性

www.cernet.com

域名智能解析

1.利用出口负载均衡设备,实现多链路的地址映射,

同一个内网系统,映射多家运营商地址。

2.智能DNS多区域解析,当某条链路故障时,可以不

影响用户业务访问。

www.cernet.com

访问控制策略

通过严格设置内部服务器的流量通过规则,使得服务器只向外开发对外服务的端口,其余端口的流量直接在防火墙上做拒绝操作,从网络层和传输层上杜绝了非法流量的进入。

www.cernet.com

入侵防御

采用专业的入侵防御系统,对于5-7层的数据流量进行检测。能够即时的中断、调整或隔离一些不正常或是具有伤害性的网络资料传输行为。

可根据厂商提供的信息,自动更新特征库,保障攻击识别率,提高系统安全性

www.cernet.com

WEB应用防护

WAF通过执行一系列针对HTTP/HTTPS的安全策略来专门为Web应用提供保护

对HTTP的请求进行异常检测,拒绝不符合HTTP标准的请求。可有效防止网页篡改、信息泄露、木马植入等恶意网络入侵行为。从而减小Web服务器被攻击的可能性。自动更新特征库,保障攻击识别率。

宁可错杀1000,也不放过一个

www.cernet.com

横向数据流安全

由于信息系统的系统众多,且整体规划采用的大二层设计。为防止各个系统之间的互相影响,采用了防火墙板

卡,对于各个业务系统之间进行横向隔离,只允许符合规则的流量通过,减小威胁的扩散范围。

www.cernet.com

数据备份 目前数据中心拥有600多台虚拟机,我们采用全备和增量备份的方式,将所有业务进行了数据备份。

数据库采用rman的方式,应用服务器采用快照方式。

www.cernet.com

异地灾备 信息系统灾备是一种对信息系统的正常运营具有重大破坏性的突发事件,其中最明显的影响是信息服务的

中断和延迟,致使业务无法正常运营。信息系统停顿的世界越长,单位的信息化程度越高,损失就越大。

1.典型的自然灾害,如火灾、地

震洪水等;

2.设备故障、软件错误、通讯和

电力故障等;

3.人为因素,误操作、攻击、破

坏等;

合理利用运维工具

4

23

www.cernet.com

为什么要部署监控软件

在一个IT环境中会存在各种各样的设备,例如,硬件设备、软件设备,其系统的构成也是非常复杂的,通

常由下图所示的模型构成

1、数据库:MySQL、MariaDB、Oracle、SQLServer及NOSQL(redis,memcached)

2.应用软件:nginx、Apache、PHP、Tomcat、Weblogic、Websphere,ERP业务应用等

1、网络:网络环境(内网环境,外网环境)

2、硬件:服务器、存储、网络设备等

1、操作系统:Linux、Unix、Windows等

2、虚拟化:Vmware、KVM、XEN、XenServer等

3、集群:LVS、Keepalived、HAProxy、RHCS、F5deng

上层应用

系统架构

底层支持

安全的前提是要保证数

据中心的稳定运行。

www.cernet.com

监控的实现原理

专用客户端angent

公用协议

1

2

专用协议

Telnet

SSH

SNMP

Server数据存

储分析告警展示

数据通信 专用客户端

angent

公用协议

主动模式

被动模式

一个监控系统的组成大题可以分为两部分:数据采集部分(客户端)和数据存储分析告警展示部

分(服务器端)。这两部分组成了监控系统的基本模型

www.cernet.com

常见的运维工具

在监控软件中,开源的解决方案有流量监控(MRTG、Cacti、SmokePing、Graphite等)和性

能告警(Nagios、Zabbix、Zenoss Core、Ganglia、OpenTSDB等)可供选择,并且每种软件都

有自己的特点和功能,各自的侧重点和目标不完全相同,在设计理念和实现方法上也大同小异,但

都具有共同特征,例如,采集数据、分析展示、告警以及简单的故障自动出来。

www.cernet.com

如何实现性能的监控

我们在虚拟机、服务器、数据库等性能的监控,部署了一个分布式监控系统,支持多种采集方式和采集客户

端,有专用的Agent,也可以支持SNMP、IPMI、JMX、Telnet、SSH等多种协议,它将采集到的数据存放到

数据库,然后对其进行分析整理,达到条件触发告警。

www.cernet.com

部署模式

因为目前数据中心虚拟机较多,环境复杂,我们目前是部署了多个server用来收

集,利用一个代理服务器负责整体的读取,然后展示出来。

www.cernet.com

数据获取方式

数据的获取方式主要有两种,一种是基于客户端方式,一种是基于公有协议,而我们的实

现除了将两种方式进行了结合,也基于虚拟化平台(vmware),通过vc的接口,实现了对虚

拟化环境的完全监控(包括存储、esxi系统等)

www.cernet.com

基于专用协议

专用协议一般都是利用SNMP来获取,我们一般用于监控设备的流量、可用性等参数。

www.cernet.com

实现流量的监控

www.cernet.com

基于客户端模式

设备性能监控,采用基于客户端模式,由客户端采集系统参数,发送到服务器端。

目前针对Linux和windows系统都可以良好的支持。

www.cernet.com

可以监控的参数

www.cernet.com

系统情况

为了保障数据中心的系统稳定,我们必须实时监测系统的各项性能参数,对系统问题做到预判。

www.cernet.com

数据库监控

可以监控到数据库的表空间使用率、会话数、用户情况。

www.cernet.com

虚拟化的监控

我们可以通过Vcenter提供的SOAP接口来获取XML格式信息,并通过解析XML格式的得到相

应的监控数据。

服务端必须支持—with-libxml2和—with-libcurl,(前者用来解析调用SOAP接口返回的

XML,后者用来调用vcenter的SOAP接口)

配置文件中也要增加对VM的支持

StartVMwareCollectors=5 #Number of pre-forked vmware collector instances.只有大于0时才能是该功能生效,意为预先配置的vmware监控实例数量。 (特别注意) VMwareFrequency=60 #Delay in seconds between data gathering from a single VMware service.zabbix获取更新vmware集群结构的最小间隔时间,单位为分钟。

VMwareCacheSize=8M #Shared memory size for storing VMware data.内存中维护的vmware集群结构的大小

www.cernet.com

配置步骤 Web界面添加Vcenter的监控

1.链接Template Virt VMware

2.添加SOAP接口的url和用户名密码

www.cernet.com

可以监控的参数

通过链接的模板通过DDL自动发现集群、主机、以及虚拟机信息,并添加到相应的群组

进行监控。当我们在VC中删除某台主机后,系统也会自动删除对应主机监控

www.cernet.com

物理机和存储监控

因为物理机和存储无法进行客户端的安装,我们通过和vc的接口,来获取各项参数。

www.cernet.com

监控展示

www.cernet.com

添加触发器

如何添加触发器,如为某一主机添加CPU触发器告警

1. 定义触发器名称

2. 编写触发器表达式,(表达式含义为5分钟内

Cpu使用率大于阈值或者15分钟内Cpu使用率

一直大于20%就触发报警)

www.cernet.com

添加触发器

触发器可以在模板中添加,也可以在主机总直接添加。当在模板中添加是,我们不能把阈值

写死,因为每台主机的具体情况是不同的,需要在模板中定义变量,并在触发器表达式中使用变

量代替具体的数值。

www.cernet.com

添加触发器

在使用模板的主机中修改为符合情况的数值

www.cernet.com

告警触发器

1.触发器名称:server is overloaded

{server:system.cpu.load[all,avg1].last(0)}>5|{www.zabbix.com:system.cpu.load[all,avg1].min(1

0m)}>2

当前cpu负载大于5或者最近10分内的cpu负载大于2,那么表达式将会返回true.

2.触发器名称:/etc/passwd has been changed 使用函数 diff():

server:vfs.file.cksum[/etc/passwd].diff(0)}>0

/etc/passwd最新的checksum与上一次获取到的checksum不同,表达式将会返回true. 我们可以

使用同样的方法监控系统重要的配置文件,例如/etc/passwd,/etc/inetd.conf等等。

www.cernet.com

告警触发器

3.触发器名称:Someone is downloading a large file from the Internet

使用函数 min:

server:net.if.in[eth0,bytes].min(5m)}>100K

当前主机网卡eth0最后5分钟内接收到的流量超过100KB那么触发器表达式将会返回true

4.触发器名称:Free disk space is too low

({TRIGGER.VALUE}=0&{server:vfs.fs.size[/,free].max(5m)}<10

G) |

({TRIGGER.VALUE}=1&{server:vfs.fs.size[/,free].min(10m)}<40

G) Problem: 最近5分钟剩余磁盘空间小于10GB。(异常) Recovery: 最近10分钟磁盘空间大于40GB。(恢复)

简单说便是一旦剩余空间小于10G就触发异常,然后接下来剩余空间必须大于40G才能解除这个异

常,就算你剩余空间达到了39G(不在报警条件里)那也是没用的

www.cernet.com

邮件告警

www.cernet.com

调用微信公众接口发送消息

1. 首先需要申请一个微信公众号,这对个人是开放的,然后编写发送消息的脚本

www.cernet.com

2. Web监控添加相应的监控媒介

调用微信公众接口发送消息

www.cernet.com

调用微信公众接口发送消息

3. 在动作中选定告警需要的触发媒介即可

www.cernet.com

邮件和微信告警

www.cernet.com

运维管理系统

www.cernet.com

日报系统

www.cernet.com

加强安全意识

1.密码的存放

密码与用户名、登陆方式应该分开存放,保证信息的安全。

另外采用二次加密的形式,自定义一些简单的密码方式。

2.系统的安装

尤其在维护大型的数据中心时,系统的安装会很多,在设置初始密码时,一定不能为了方便设置了简单

的密码,可能在你改密码前的这十几分钟的时间,你的系统就会被入侵。

3.运维软件、工具获取来源一定要可信

4.服务器禁止上网

运维工作不光要技术过硬,更重要的是一份责任,在安全意识上一定要提高。

54

赛尔网络有限公司感谢各方大力支持!

协同发展 共建共赢