阅读排行榜

评论排行榜

最新评论

顶一下。 --【匿名用户】:E-works热心网友
支持一下。E8.HelpDesk & E8.ITSM 您身边随需而变的IT服务管理专家 --【匿名用户】:E8
报表管理都有些什么啊?有界面吗? --【匿名用户】:E-works热心网友
报表管理都有些什么啊?有界面吗? --【匿名用户】:E-works热心网友
报表管理都有些什么啊?有界面吗?


--【匿名用户】:E-works热心网友
报表管理都有些什么啊?有界面吗? --【匿名用户】:E-works热心网友
报表管理都有些什么啊?有界面吗? --【匿名用户】:E-works热心网友
报表管理都有些什么啊?有界面吗? --【匿名用户】:E-works热心网友
报表管理都有些什么啊?有界面吗? --【匿名用户】:E-works热心网友
你好,想咨询一下,关于“每天生产监控报表”的功能。 --【匿名用户】:E-works热心网友

根本原因分析 关键事件关联 IT运维有序发展——中国联通通讯集团
本文标签: 监控 MochaBSM ITIL 网管 软件 

·案例背景
 
  中国联通经过几年的信息化建设,已经建成了统一信息平台Portal、BPM、OA等多个应用系统。企业各个业务所需要的应用系统,极大地提升了企业的信息化水平,提高了工作效率,基本实现了无纸化办公。
  随着应用系统越来越多、越来越深入,员工的日常工作已离不开这些应用系统,应用系统的运行状况直接影响着员工办公、企业生产,因此确保应用系统的安全、可靠、稳定地运行成为系统维护部门越来越重要的工作。
  目前中国联通的门户系统供全国的联通员工办公使用。在门户系统维护工作中存在着如下问题:
  ·系统需要人工监控,维护量巨大,并且无法一一监控到位,同时不能做到持续地实时监控。
  ·忙于应对已发生的故障,被动响应式的工作方式,解决故障的效率低。
  ·门户Portal无故宕机,很难及时发现和预见问题的发生。
  ·问题出现后,很难快速、准确地找到根本原因。
  ·找到问题后,缺乏流程化的故障处理机制。
  ·支持过程总是被打断和干扰。
  ·缺乏过程和变化的跟踪记录,如系统运行状况、主机配置变化、应用模块变更等。
  ·不能及时地统计、分析系统状况,供领导决策。
  结果造成维护部门在出现问题时疲于应付、导致维护工作的满意度较低,这些问题一直困扰着IT维护部门。维护部门迫切的希望改变目前的这种状况。
 
·方案介绍
 
  中国联通应用监控系统是基于Mocha BSM产品,该产品为联通总部提供了统一的、集中的IT服务管理平台。系统包括系统监控、报表展现、决策分析等主要功能。
系统监控功能
  通过对主机、平台、应用等方面的监控,实现了对门户系统在性能上、可用性上全方面的跟踪,能够及时发现故障、确定故障影响严重性并能定位故障根本原因。
主机信息监控:提供对各系统所在的服务器进行实时监控。
平台信息监控:监控WAS、WPS平台指标信息直接决定提供服务的性能,从根源上管理平台可用性。
应用信息监控:经过多年经验汇聚,提取WAS应用层面重要指标,预防为主。
数据库监控:监控Oracle数据库的多项指标信息,提供数据库服务的性能和可用性指标,从根源上管理数据库平台的可用性。
- 主机方面
  监控运行于集团公司、全国门户、Web应用的20台UNIX和Windows主机,包括CPU、内存、硬盘、OS文件系统等运行状况的重要指标。
  监控时间频度为1分钟采集1次(监控时间频度可以自行配置)。
- 平台方面
  包括运行于集团公司门户平台监控的指标主要包括:
→ WPS平台
·WPS服务可用性 ·WPS数据库可用性 ·LDAP可用性
·WebSphere Portal ·Server CPU利用率 ·系统CPU利用率
·JVM内存利用率 ·系统内存利用率 ·连接平均等待时间
·Cell名称 ·Node名称 ·主机名
·IP地址 ·WpsPid ·WpsHostPort
·WpsContextRoot ·WpsPersonalizedHome  
→ WAS平台
·WebSphere AS可用性 ·系统CPU利用率 ·WebSphere AS
·CPU利用率 ·系统内存利用率 ·JVM内存利用率
·活动的线程 ·最大百分比 ·活动线程利用率
·Pid ·主机名 ·IP地址
·操作系统 ·Cell名称 ·节点名称
·Server名称 ·Cluster名称 ·空闲内存
·使用的内存 ·分配总内存  
- 应用方面
  全国门户应用:包括各省公司及全地市的应用系统,分布在两台服务器上。
  集团门户应用:包括集团公司的所有用户的使用的办公系统,分布在两台服务器上。
  应用监控的内容主要包括:
·总部门户的全国应用 ·全国门户的全国应用 ·内容发布
·省份园地 ·网上调查与应用 ·业务论坛BBS
·工作流 ·工作流待办 ·工作流待阅
·全国门户Portal ·全国门户WebSeal ·总部门户Portal
·总部门户WebSeal    
监控时间频度:对于部分监控频度要求较高的指标为1分钟采集1次、对于部分监控频度要求较低的指标1小时采集1次(监控时间频度可以自行配置)。 
 
系统监控的其它功能点
→ 对于性能指标超标、宕机故障,通过手机短信、邮件直接发送给系统的管理员、维护人员及其他相关人员,在报警信息中明确哪台主机、哪个wps应用服务器、哪个应用、故障发生的时间、初步定位的故障原因等重要信息,方便维护人员了解故障并及时解决故障。 
 
→ Mocha BSM对门户系统的主机、平台、应用等各方面的过程和变化进行全面的跟踪记录,如系统运行状况、主机配置变化、WPS平台配置变化、应用模块变更等都会自动记录到系统中,非常方便查阅这些动态信息,做到了可追溯,同时这也符合SOX法案的要求。
 
- 数据库方面
·实例可用性 ·***可用性 ·系统CPU利用率
·Oracle DB CPU利用率 ·系统内存利用率 ·Oracle DB 内存利用率
·PGA命中率 ·库缓存命中率 ·高速缓冲缓存命中率
·物理读速率 ·物理写速率 ·数据块获取数/秒
·一致性获取数/秒 ·内存排序比率 ·当前连接会话数
·当前进程数 ·登陆会话数/秒 ·当前打开的游标数
·当前锁数量    
数据库管理的亮点数据库管理的亮点
  自动发现被监控的数据库,自动发现数据库上的数据库表和表空间,并对此进行监控。 对以下关键组件进行针对性的监控:数据库、表空间、数据文件、进程、操作系统的文件系统。 提供数据库配置的监控,提供70多个可用性和性能指标,Top 10 SQL语句排名 ,数据库可视化管理。
 
报表展现、决策分析功能
  Mocha BSM系统对监控主机、平台、应用等方面收集到的数据提供了各种直观形象的图表和报表展现,提供了统计报告,提供了资源和指标走势,用以辅助分析和决策。
  通过Mocha BSM提供的查询、统计功能、分析功能,中国联通客户可以统计1个月以来发生的故障次数以及解决故障的时间等等,作为提高维护质量的基础数据。
  Mocha BSM能够根据历史数据,并对未来趋势进行预测,使决策更有依据。例如,能够根据磁盘每天的增长率来预测磁盘扩容的时间点,提前向管理员提示,为主机扩容提供依据,同时避免了人为的检查疏漏而面临磁盘空间达到临近100%产生的风险。 
 
·功能亮点
 
  中国联合通信有限公司采用自行研发的摩卡业务服务管理(Mocha BSM)产品作为门户应用监控的解决方案。该方案解决了客户在实际工作中所面对的IT服务问题,该系统主要亮点如下:
  ·实时监控主机、WAS平台、WPS平台、WEB应用等基础设施、应用等IT资源的运行状态、性能和可用性。
  ·当监测到系统故障时,快速定位故障的主要原因,估算系统事件对业务的影响及其严重程度,并触发相应的故障处理流程。
  ·简单操作的系统管理配置,方便地配置所监控服务器的信息,应用数据自动获取。
  ·通过门户系统可以进行统一整合,实现单点登录SSO、统一授权和访问控制、集成展现和个性化等功能,使系统各模块之间实现无缝的协同工作,给IT服务经理、系统管理员、应用管理员等不同的用户群体和角色提供了可视化的工作平台。
  ·提供了丰富的报表,提供了统计报告,提供了资源或指标走势,用以辅助分析和决策。
  ·RTM监控定期的监控门户应用的可用性,可以在Web应用之上更细致的监控用户的登陆、点击的交换操作。使用户的体验过程的每个环节都得到有效的监控。

 
·客户收益
 
  目前Mocha BSM系统已经在中国联通总部正式上线使用并稳定运行。通过Mocha BSM对主机和应用系统的监控、管理,彻底改变了IT部门维护主机、应用系统的工作方式、解决了IT部门之前面临的种种问题。通过Mocha BSM的实施和使用:
  ·从被动响应式的工作方式转变为主动服务。
  ·主机系统维护的满意度不断提高。
  ·通过自动的资源监控系统及时发现问题,避免重大故障发生。
  ·问题出现后能够协助管理员快速找到问题原因,并及时地触发故障处理流程。
  ·自动化的流程推送和提醒功能,在多任务工作环境下得心应手。
  ·分析数据,展现报表,使公司领导更及时了解到相关信息。
  ·使人员分工、IT预算等决策更有依据。

更多详细内容,敬请点击 http://www.mochabsm.com

发表于: 2008-07-09 15:06 赖永锋 阅读(2244) 评论(1) 收藏 好文推荐
# re: 根本原因分析 关键事件关联 IT运维有序发展——中国联通通讯集团
2009-06-12 12:10 | 【匿名用户】:E-works热心网友 | 1楼
(web server软件)UFO不会出现一个字节的内存泄漏和一个线程的不能回收,使用UFO做Web Server的好处是网站能做得很稳定,永远也不会自己down掉;UFO在托管机房丢包率很高、遭受Hacker攻击、互联网 骨干网被黑等恶劣的环境条件下仍然能很好地运行;UFO在对付Hacker方面(防Hacker弄down和Hacker抓取不该访问的资源)也有足 够措施。
另外,UFO几乎不会进行垃圾回收,消耗CPU很少,在普通的PC Server上用UFO运行网站,平时CPU占用率<0.1%,最多时也不会超 过5%。您知道,JVM的垃圾回收会导致大量的运算,消耗很多CPU,从而导致Server的负载能力和响应速度下降。UFO在对象管理方面采 用了很好的机制和算法,做得很出色。用UFO运行网站,可以一直保证高负载能力,快速的响应速度和低CPU消耗。发布网址:www.gm365.com

发表评论(网友发言只代表个人观点,不代表本网站观点或立场。)

您尚未登录,请先【登录或注册