IT 运维管理RUEI应用 - · PDF file企业it运维的挑战与机遇 –...

30
IT 运维管理RUEI应用

Transcript of IT 运维管理RUEI应用 - · PDF file企业it运维的挑战与机遇 –...

IT 运维管理RUEI应用

• 企业面临的IT运维挑战

• 企业运维系统常见的难题

• RUEI案例

• 总结

• 问答

<Insert Picture Here>

议程

企业IT运维的挑战与机遇

– 网络管理保障多种业务系统稳定运行

如面向协同办公系统、电力营销系统、人事管理系统等

专业信息系统,并提供持续、稳定的网络访问服务

– 数据集中实时管理

主要包括实时掌握各个业务系统运行情况。及时发 现

故障与异常,并迅速定位,尽快解决,及时发现潜在问

题;通过故障分析,优化业务流程,提高系统运行效率

– 事故的预防缺乏流程和手段

• 企业面临的IT运维挑战

• 企业运维系统常见的难题

• RUEI案例

• 总结

• 问答

<Insert Picture Here>

议程

企业运维系统常见的难题

核心业务系统出现各类故障。但很难快速定位出现故障的原因。无法做到迅速响应、尽快解决问题。

业务操作员发现系统报错,投诉时无法重现错误的场景和相关的前后步骤。

业务操作员投诉系统慢时。无法快速定位问题原因。

核心业务系统高峰期运行缓慢。但无法确定那个地方进行优化能最有成效。是网络引起的慢、还是数据库需要优化

开发人员在新版本上线后,无法确定新版本是否改善了系统性能。

系统维护、开发人员的辛苦工作,但无法提供系统运行满意度的量化的、图形化的报告。

• 企业面临的IT运维挑战

• 企业运维系统常见的难题

• RUEI案例

• 总结

• 问答

<Insert Picture Here>

议程

RUEI帮助解决这些问题

• RUEI全称是Real User Experience Insight,即真实客户体验洞察力

• RUEI是新一代的企业级业务系统监管工具

• RUEI通过实时监视用户真实活动,自动解析被监控的网络报文,做出对用户行为的智能分析,提供主动的通报和用户驱动式的趋势分析

RUEI提供管理到:

客户终端 网络 Web

服务器服务器

URL /

Objects

加载

执行负载均衡

• 实时地量化地监控关键生产业务系统

–跟踪 所有用户,在所有时间里的、所有应用操作的、所有体验障碍(如系统错误、性能差等)

–解析 导致不良客户体验的主要系统资源或应用服务瓶颈的根源

–回朔 任何时间点的任何用户的任何操作,甚至是用户屏幕错误重放

–评估 客户体验的满意度和趋势

–配合改进 通过快速准确定位问题,从而逐步解决问题,优化系统

•达到管理客户满意度和提高SLA的目标

部署Oracle RUEI

• 无嵌入代码,不重启服务器,无需

修改应用

• 被动的网络侦听,不影响应用性能

• 100%无遗漏的客户体验记录

• 100%无干扰的数据收集

用户的动作向网站支持系统发出请求,

1

监控系统活动和返回结果的质量

2

以实际内容和总体响应时间的形式,对实际返回的结果进行监控并提交深入的分析报告

3

RUEI的工作原理和主要特点:非侵害性的

实时监控业务

关键运维指标监控,遇到异常境况及时报警,实现主动管理

实时业务量统计

整体应用满意度走势分析

用户区域统计

出错页面定位

网络分析

1.2.3.4.5.

页面浏览量与点击数的时间分布图

网络流量变化时间分布图

并发用户数时间分布图

访问量最多的页面

服务器负载均衡情况

各地区的页面响应时间分析

分析举例:

4月5日情况 1.业务最高峰时,4月1日成都地区的响应时间最长:平均5.3秒。

2.业务平均时,例如4月5日的平均响应时间为2.3秒。

3.其中网络时间都稳定在2秒内,但服务器时间从平时的0.5秒延长到2.4秒! 说明CRM应用在压力情况下性能急剧下降。

4月1日情况

各地区的页面访问量情况

分析举例:

1.业务最高峰时,4月1日成都地区的页面访问量排在第7位!只有资阳、宜宾页面访问量的60%左右?

2.业务平均时,例如4月5日的成都地区的页面访问量排在第2位。

3.为何资阳的业务量这么大?

4月5日情况

4月1日情况

最消耗服务器资源的应用模块

4月1日情况

分析举例:

1. 前2个业务模块共计消耗服务器资源71%!

2. 如果能优化这2个业务模块,就能有效的提升系统最繁忙时期的系统性能!

最消耗服务器资源的业务页面

分析举例:

1. 前4个业务页面共计消耗服务器资源56%!

2. 如果能优化这4个业务页面,就能有效的提升系统最繁忙时期的系统性能!

4月1日情况

操作员满意度情况

4月5日情况

分析举例:

1. 操作最多的操作员,其不满意的程度也最高。

2. Yanshong这个工号每天的页面访问大于2.1万。据了解应该是客户人员共享的工号。是否可以根据这个特点,优化系统的查询功能,分担系统的压力。从而优化系统响应,提高满意度。

4月1日情况

页面访问量及满意度情况

4月1日情况 4月5日情况

分析举例:

1. 业务最高峰时,CRM1模块满意度最差。

2. 平时feemanage模块满意度差

页面访问量及满意度情况时间分布图

4月

4月1日情况

分析举例:

1. 4月1日9点半左右,系统业务量达到最大值!系统满意度下降到最大。不满意的页面占据28.5%5日情况

2. 平时不满意的页面占11%。

3. 业务量最大是,系统满意度比平时显著下降。

问题报告

1.2.3.4.5.

报错的链接表

系统出错情况时间分布图

业务模块页面出错情况

流量最大的页面

响应最差的页面

错误链接列表 Button_bg.gif为无效链接,但被大量引用。1天有9万多次引用。修正该问题应该可以优化系统性能。

Crm3/retain/chartdisplay.do 有3.5万次系统报错(internal 500)。需要重视!

系统出错情况时间分布图- 3月29日到4月4日

4月1日当天比平常时间错误页面数量增加近1倍。

而且增加的部分基本都是internal500错误。

业务模块页面出错情况

1.主要的出错模块为feemanage, crm3,crm1

2. 主要的出错类型为internal 500错、noserver response错。

流量最大的物体这个exe文件大小为10M

这些图片如果能压缩到10倍左右,能减轻系统的压力。

响应最差的页面端到端时间到超过42秒,最长的达到91秒!这里看到的17个页面4月1日调用过1500次。

访问量大且响应最差的页面

这5个页面,调用次数都上万次。响应时间都超过10秒!需要重点优化

操作员操作全程回放

• 操作员操作全程回放: 可以全面了解单个操作员的全部

操作步骤,可以回放出错的页面,从而分析出错的具体原因。

错误分析:-----操作回放,错误定位,错误页面显示

用户满意度分析---用户的页面回放:

页面装载时间37.3秒!!操作员该操作的满意度出问题。

Questions