数据中心集中监控管理解决方案

方案背景

随着政府、企事业单位各种业务系统应用的不断拓展,对计算机系统的运维管理工作提出更高的要求。数据中心作为各单位各项业务经营活动的“心脏”,是全系统的网络中心、数据存储中心和业务处理中心。如果缺乏必要的技术手段,系统的运维管理工作将远远不能满足业务系统应用的需要,不能保证系统的安全、稳定、高效运行。

方案目标

采用先进的监控工具,实现对数据中心主要应用系统的IT基础设施进行全面、自动、实时的监控管理,实现主动的故障预警和实时报警;对关键系统性能进行深入分析和优化;建立符合ITIL(IT基础架构库)规范的IT服务管理平台,加强日常运维工作的规范化、流程化、自动化。有效降低运维风险,提高运维工作效率和质量。

系统描述

目前,大多数单位对于庞大的业务系统采用的是手工方式进行监控管理,监控内容和范围有限;故障预警能力差;在系统运维管理方面缺少相应的管理分析工具,不能对业务系统进行实时的性能监控分析,不能全面反映系统运行的性能状况,不能对故障进行跟踪、分析以提供解决故障的准确依据;同时,在故障管理、问题管理、配置管理、作业调度管理流程控制方面虽有制度但缺乏刚性约束。使得IT系统运行维护中的风险极大,运维服务质量也亟待改进。

  • 应用系统的运行监控管理
  • 系统性能分析和优化
  • 建立IT服务管理平台
  • 作业调度管理
  • 日常巡检管理
  • 运维操作管理

对数据中心主要应用系统的主机、软件、存储、网络等运行环境进行实时监控,及时发现系统运行中出现的故障,并通过自动电话呼叫以及在监控终端上以声音、画面等方式将故障信息实时通报运维人员进行处理;通过监控软件保存分析系统运行历史数据,全面反映系统的运行状况,为系统运行管理提供决策依据。

采用性能监控和分析软件工具,对综合业务系统的核心处理平台数据库、中间件进行实时的性能监控分析,全面反映系统运行的性能状况,提供解决性能故障的准确依据

采用符合ITIL(IT基础架构库)规范的平台和开发工具,建立运维服务管理平台,使运维工作工具化、规范化、制度化。包括:帮助台系统,各生产系统运维服务的总接口;包含基础软硬件资源信息的配置库;包含技术资源的知识库;事件管理和问题管理处理流程,用于故障的处理、事件的记录以及问题调查过程的控制,提高故障解决能力。

通过自动化作业调度控制管理工具,实现作业调度的自动化执行和作业的统一管理,并对执行过程和结果进行自动监控,必要时自动报警,完善、规范作业操作,消除人为作业调度风险,减轻运维压力。

通过日常巡检工作流定制平台,对运维中必须手工操作的日常巡检类工作,如环境(电源、温度、湿度等)检查、硬件轮询等,实现自动、有序、有效的提醒干预和统一管理。使操作人员在正确的时间、执行正确的操作和正确地执行操作,对于状态不正常任务或超时未完成任务,系统自动报警。从而将各种手工操作任务,以及相关人员进行规范化、统一管理,使多用户干预的业务按事先定义好的顺序展开执行,实现操作人员之间任务合理分配、专业分工、任务协作、知识共享,并通过任务的分配、提醒、记录达到责任明确、流程准确。

建立统一整合的运维操作管理平台:采用先进的操作管理平台软件,实现对系统运维管理人员在多套应用系统环境中操作权限的统一、灵活和严格控制,对其操作过程进行击键级记录和合规审计,在操作层面提供补丁、配置等的变更历史管理,并可实现历史配置版本重放等。通过这些控制和安全保障措施,可对维护人员的操作实现全面有效管理。

  • 地址:吉林省长春市高新区震宇街358号文泰科技园5号楼1门2层
  • 邮编:130000
  • 电话:+86-431-85156800
  • +86-431-85156900