首页 > 范文大全 > 正文

雨花互动电视系统应用性能监控和管理

开篇:润墨网以专业的文秘视角,为您筛选了一篇雨花互动电视系统应用性能监控和管理范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:本文分析了目前互动电视系统监控管理现状,指出了应用性能管理的必要性,最后给出了应用性能管理设备在互动系统中的实际部署应用。

关键词:互动电视系统;应用性能管理

1 互动电视系统监控管理现状

随着互动业务飞速发展,互动用户日益增长,系统稳定安全运行的重要性越显凸出,目前已有的监控管理管理手段主要提供是从网络层面进行监控,监控的主要指标包括:网络链路连通性、网络带宽利用率、网络重传率、设备内存使用情况等。但尚无较好的手段来从应用层面了解系统运行状况的好坏,比如用户访问点播系统的感知如何,页面加载情况等。

2 应用性能管理的必要性和技术趋势

目前互动电视业务多样,包括了游戏、商城、互联网、等多种增值业务,已经传统的点播类业务。用户在访问这些业务系统时所体会到的页面响应情况直接影响用户感知和体验。然而就目前的监控手段,系统运行管理人员针对用户反映的应用慢、系统中断的问题无从定位问题根源。

应用性能管理是一种新的网络以及应用管理的概念,从应用层面上,侧重对系统的关键业务应用进行监控、优化。提高关键应用的可靠性和服务质量,保障用户良好的用户体验。

简单的说,应用性能管理可以实现网络链路质量、硬件设备、流量分布、软件应用系统性能的自动关联分析。例如,一个用户通过机顶盒访问游戏系统,应用性能管理技术可以将该用户从发起请求到数据交互涉及的所有元素进行关联分析,包括用户终端到系统的游戏系统服务器性能,终端性能、线路带宽质量、数据经过的路由交换设备性能、有无异常流量干扰等,将各个元素用户用户访问体验的影响告知系统运行管理人员,直接定位应用访问性能低下的问题根源,实现复杂问题分析简单化。

相对于传统的网元分析技术,例如NMS(network management system),应用性能管理技术强调的是一整套关联元素的自动关联分析和智能定位,而非针对单一某网元进行分析(如关注于交换机管理),因为整套系统的应用性能问题和故障不仅仅是某一网元(如硬件设备)造成的,应用性能管理技术这一管理理念可以大大减轻系统运行管理人员的工作量。

3 应用性能管理设备在互动电视系统中的应用

有线互动电视系统用户已接近200万,信号覆盖全省13个地市50多个区县,互动业务种类多样,包含点播、回看、游戏、商城、电子营业厅等。随着互动业务飞速发展,互动用户日益增长,系统稳定安全运行的重要性越显凸出,之前已有的监控管理设备主要提供对网络设备,互动传输设备进行监控,但对于互动电视各业务系统,尚无较好的手段从应用层面来了解系统运行状况的好坏,对于用户反映页面响应慢等问题也无法定位问题根源,同时系统侧发现每日互动点播都会存在部分节目流无法释放的现象,这些未释放的节目流在系统中形成废流,对系统带宽资源、安全照成隐患,但之前的监控检测设备尚不能定位产生该问题的原因。

为根本解决上述问题,有线将应用性能管理设备采用镜像旁路部署模式,通过镜像用户对互动系统的访问进行分析,从而实现了实时监视指定的互动应用系统的性能、页面加载时间、所有页面元素的加载序、服务器时间、受影响用户数、错误等信息。实时了解用户感知,对于用户反映页面响应慢的问题 ,也可详细分析和定位原因;能够基于系统、主机、来源、多个角度进行分析,支持基于IP、端口等对数据包进行分析和网络监控,同时对于原先系统中存在废流的问题也找到了问题根源,使问题得到了解决。

以下是一用户反映访问高清电视剧页面时感到系统响应慢问题的排查过程。

通过应用性能管理设备可以将该用户访问的所有页面及其加载时间情况罗列,从图中可以方便的看到该用户访问所有页面时所有环节的耗时(服务器,网络,终端解析),该用户访问页面时消耗的服务器时间都比较少,同时当页面元素较多时,页面加载时间会更长,如图1红框标示。图2显示了该用户访问高清电视剧页面时页面加载时间的分布,由图可见终端耗时较大,引起这终端耗时较大的主要原因为页面元素较多,同时机顶盒解析能力不够导致。后续将用户机顶盒升级配置后,问题解决。

由此可以看出,通过应用性能的监控,可以方便定位用户对业务系统体验不好时问题产生的根本原因,分析是由于系统服务器,还是网络链路,或是终端性能造成。

以下是对于互动系统中存在节目流没有正常释放现象的问题排查过程。

应用性能管理设备通过用户对系统的访问分析,可以实时了解各区域系统网络的具体性能,图3显示了江苏有线各个地市系统网络情况总体性能,可以看到无锡区域网络传输的总流量和总数据包数明显高于其他各个地市,连接失败比例达78.21%。

图4为无锡网络异常事件详情,从数量上看,造成网络质量下降的主要原因是TCP连接失败(占网络异常事件比例99.89%),方便问题的进一步排查。

应用性能管理设备给出了用户访问的目标服务器及其连接情况,如图5所示,通过这一分析,系统管理人员很清楚的看到出现连接失败的服务器是推流服务器,而其他门户服务器和后台服务器未出现连接失败。然而通过检查推流服务器状态,推流服务器工作状态正常。

为进一步排查问题,系统管理人员通过应用性能管理设备将所有访问推流服务器出现大量连接失败的用户进行了统计,同时对这些用户对系统访问的细节进行了跟踪。下图为某一用户对推流服务器访问出现大量连接失败的具体细节。从图中看出该用户于13:00左右不断发起大量(2000次/秒)TCP连接,然后被推流服务器拒绝,系统管理人员通过用户点播记录的查询发现用户与13:00前就结束了点播行为,然后终端不断向系统发起大量无效连接,同时在系统侧排查后发现用户点的节目流没有随着用户点播行为的结束而释放,通过系统管理人员的归类统计,发现出现该问题的终端系同款机顶盒,联合终端厂商排查,发现正是由于该款机顶盒软件缺陷原因,导致用户节目点播结束后,不能正常释放节目流,将该款机顶盒升级处理后,原先系统中存在废流的问题得到解决。

4 总结

互动用户日益增长,系统稳定安全运行的重要性越显凸出,应用性能管理设备能够提供端到端的web应用系统的全流程监控和分析,实时了解用户体验,定位故障根源。

[参考文献]

[1]互动电视业务与网络性能研究.《 南京邮电大学学报》.

[2]互动电视系统与网络性能测试方案.广播科学研究院.

[3]应用性能管理方案.深信服科技公司.

[4]广电网络互动电视业务规划.深圳同洲电子有限公司.