数据中心安全管理经验分享 - dmnet.sdjtu.edu.cndmnet.sdjtu.edu.cn/images/3.pdf ·...
Transcript of 数据中心安全管理经验分享 - dmnet.sdjtu.edu.cndmnet.sdjtu.edu.cn/images/3.pdf ·...
www.cernet.com
机房环境介绍 数据中心建筑面积2100平米,其中建成机房面积553平米机房按照A级标准规范设计建设,所有设备均采用冗余设
计建设,目前已安装机柜110面,部署了120台服务器,600多台虚拟机,承载了44个大型业务系统。
www.cernet.com
配置基础策略 NO 类别 检查内容 说明 1
远程登录管理
用户认证方式 启用本地或AAA认证
2 鉴别信息在网络传输过程中被窃听 使用SSH、https加密传输
3 系统设置ssh/https访问地址 管理员登录地址进行限制,指定ssh访问的地址
4 密码管理 用户口令加密并定期更换 防火墙的用户口令加密并定期更换(90天)
5 账号管理 检查无用账号和分配权限 现存账号符合运维工作要求,无无用账号
6 会话超时 定义会话超时时间 登录失败后应强制退出
7 日志管理
日志服务 必须指定log服务器 8 系统配置日志级别 定义日志级别
9 服务管理
修改系统默认snmp community
public、private团体名 修改snmp community
public/private默认团体名
10 时钟服务 指定NTP服务器或校对本地时间
www.cernet.com
安全登录及审计 互联网
业务区域
核心交换
出口网关
移动用户
管理流量
SSL-VPN设备
堡垒机
合理利用现有设备,针对外部管理流量尽量采
用VPN加密方式,所有操作日志需要有专门的
审计设备。
www.cernet.com
域名智能解析
1.利用出口负载均衡设备,实现多链路的地址映射,
同一个内网系统,映射多家运营商地址。
2.智能DNS多区域解析,当某条链路故障时,可以不
影响用户业务访问。
www.cernet.com
入侵防御
采用专业的入侵防御系统,对于5-7层的数据流量进行检测。能够即时的中断、调整或隔离一些不正常或是具有伤害性的网络资料传输行为。
可根据厂商提供的信息,自动更新特征库,保障攻击识别率,提高系统安全性
www.cernet.com
WEB应用防护
WAF通过执行一系列针对HTTP/HTTPS的安全策略来专门为Web应用提供保护
对HTTP的请求进行异常检测,拒绝不符合HTTP标准的请求。可有效防止网页篡改、信息泄露、木马植入等恶意网络入侵行为。从而减小Web服务器被攻击的可能性。自动更新特征库,保障攻击识别率。
宁可错杀1000,也不放过一个
www.cernet.com
横向数据流安全
由于信息系统的系统众多,且整体规划采用的大二层设计。为防止各个系统之间的互相影响,采用了防火墙板
卡,对于各个业务系统之间进行横向隔离,只允许符合规则的流量通过,减小威胁的扩散范围。
www.cernet.com
异地灾备 信息系统灾备是一种对信息系统的正常运营具有重大破坏性的突发事件,其中最明显的影响是信息服务的
中断和延迟,致使业务无法正常运营。信息系统停顿的世界越长,单位的信息化程度越高,损失就越大。
1.典型的自然灾害,如火灾、地
震洪水等;
2.设备故障、软件错误、通讯和
电力故障等;
3.人为因素,误操作、攻击、破
坏等;
www.cernet.com
为什么要部署监控软件
在一个IT环境中会存在各种各样的设备,例如,硬件设备、软件设备,其系统的构成也是非常复杂的,通
常由下图所示的模型构成
1、数据库:MySQL、MariaDB、Oracle、SQLServer及NOSQL(redis,memcached)
2.应用软件:nginx、Apache、PHP、Tomcat、Weblogic、Websphere,ERP业务应用等
1、网络:网络环境(内网环境,外网环境)
2、硬件:服务器、存储、网络设备等
1、操作系统:Linux、Unix、Windows等
2、虚拟化:Vmware、KVM、XEN、XenServer等
3、集群:LVS、Keepalived、HAProxy、RHCS、F5deng
上层应用
系统架构
底层支持
安全的前提是要保证数
据中心的稳定运行。
www.cernet.com
监控的实现原理
专用客户端angent
公用协议
1
2
专用协议
Telnet
SSH
SNMP
Server数据存
储分析告警展示
数据通信 专用客户端
angent
公用协议
主动模式
被动模式
一个监控系统的组成大题可以分为两部分:数据采集部分(客户端)和数据存储分析告警展示部
分(服务器端)。这两部分组成了监控系统的基本模型
www.cernet.com
常见的运维工具
在监控软件中,开源的解决方案有流量监控(MRTG、Cacti、SmokePing、Graphite等)和性
能告警(Nagios、Zabbix、Zenoss Core、Ganglia、OpenTSDB等)可供选择,并且每种软件都
有自己的特点和功能,各自的侧重点和目标不完全相同,在设计理念和实现方法上也大同小异,但
都具有共同特征,例如,采集数据、分析展示、告警以及简单的故障自动出来。
www.cernet.com
如何实现性能的监控
我们在虚拟机、服务器、数据库等性能的监控,部署了一个分布式监控系统,支持多种采集方式和采集客户
端,有专用的Agent,也可以支持SNMP、IPMI、JMX、Telnet、SSH等多种协议,它将采集到的数据存放到
数据库,然后对其进行分析整理,达到条件触发告警。
www.cernet.com
数据获取方式
数据的获取方式主要有两种,一种是基于客户端方式,一种是基于公有协议,而我们的实
现除了将两种方式进行了结合,也基于虚拟化平台(vmware),通过vc的接口,实现了对虚
拟化环境的完全监控(包括存储、esxi系统等)
www.cernet.com
虚拟化的监控
我们可以通过Vcenter提供的SOAP接口来获取XML格式信息,并通过解析XML格式的得到相
应的监控数据。
服务端必须支持—with-libxml2和—with-libcurl,(前者用来解析调用SOAP接口返回的
XML,后者用来调用vcenter的SOAP接口)
配置文件中也要增加对VM的支持
StartVMwareCollectors=5 #Number of pre-forked vmware collector instances.只有大于0时才能是该功能生效,意为预先配置的vmware监控实例数量。 (特别注意) VMwareFrequency=60 #Delay in seconds between data gathering from a single VMware service.zabbix获取更新vmware集群结构的最小间隔时间,单位为分钟。
VMwareCacheSize=8M #Shared memory size for storing VMware data.内存中维护的vmware集群结构的大小
www.cernet.com
添加触发器
如何添加触发器,如为某一主机添加CPU触发器告警
1. 定义触发器名称
2. 编写触发器表达式,(表达式含义为5分钟内
Cpu使用率大于阈值或者15分钟内Cpu使用率
一直大于20%就触发报警)
www.cernet.com
添加触发器
触发器可以在模板中添加,也可以在主机总直接添加。当在模板中添加是,我们不能把阈值
写死,因为每台主机的具体情况是不同的,需要在模板中定义变量,并在触发器表达式中使用变
量代替具体的数值。
www.cernet.com
告警触发器
1.触发器名称:server is overloaded
{server:system.cpu.load[all,avg1].last(0)}>5|{www.zabbix.com:system.cpu.load[all,avg1].min(1
0m)}>2
当前cpu负载大于5或者最近10分内的cpu负载大于2,那么表达式将会返回true.
2.触发器名称:/etc/passwd has been changed 使用函数 diff():
server:vfs.file.cksum[/etc/passwd].diff(0)}>0
/etc/passwd最新的checksum与上一次获取到的checksum不同,表达式将会返回true. 我们可以
使用同样的方法监控系统重要的配置文件,例如/etc/passwd,/etc/inetd.conf等等。
www.cernet.com
告警触发器
3.触发器名称:Someone is downloading a large file from the Internet
使用函数 min:
server:net.if.in[eth0,bytes].min(5m)}>100K
当前主机网卡eth0最后5分钟内接收到的流量超过100KB那么触发器表达式将会返回true
4.触发器名称:Free disk space is too low
({TRIGGER.VALUE}=0&{server:vfs.fs.size[/,free].max(5m)}<10
G) |
({TRIGGER.VALUE}=1&{server:vfs.fs.size[/,free].min(10m)}<40
G) Problem: 最近5分钟剩余磁盘空间小于10GB。(异常) Recovery: 最近10分钟磁盘空间大于40GB。(恢复)
简单说便是一旦剩余空间小于10G就触发异常,然后接下来剩余空间必须大于40G才能解除这个异
常,就算你剩余空间达到了39G(不在报警条件里)那也是没用的
www.cernet.com
加强安全意识
1.密码的存放
密码与用户名、登陆方式应该分开存放,保证信息的安全。
另外采用二次加密的形式,自定义一些简单的密码方式。
2.系统的安装
尤其在维护大型的数据中心时,系统的安装会很多,在设置初始密码时,一定不能为了方便设置了简单
的密码,可能在你改密码前的这十几分钟的时间,你的系统就会被入侵。
3.运维软件、工具获取来源一定要可信
4.服务器禁止上网
运维工作不光要技术过硬,更重要的是一份责任,在安全意识上一定要提高。