智能化平台的出现,为数据中心运维管理转型注入了新的活力,在提升运维能力的同时,转变传统应对式的运维管理为主动管理,强化了管理者对操作人员以及和整个系统的控制和监管能力,在实现监测可知、可见的同时,更体现了基于强大数据分析能力实现的可控。
3.1 标准化运维流程
标准化运维流程包括业务流程标准化和监控数据模型标准化。
3.1.1 业务流程标准化
运维工作是由多个管理流程协同编制起来的运行空间。智能化平台提供给管理者一个管理和监督的综合平台,能够精准把控每个运维细节,并对不足之处做出调整。
业务流程标准化如图1所示。运维人员能够通过平台制定工作计划,实现对设备的实时监控。当设备出现故障或需要进行周期保养时,平台会根据预置的工作计划和人员安排,将任务生成工单,并派发给相应的工作人员,实现工单自动派发和流转,并根据预置的任务评分标准(故障恢复时间、已恢复状态设备运行参数等)完成工作评价,形成一个可知、可控和可循环的标准化流程。在借助软件手段之前,运营商必须花费一定的成本去梳理和定义业务流程。

图1 业务流程标准化
3.1.2 监控数据模型标准化
监控数据模型标准化是指为复杂异构的设备数据建立标准、统一的数据模型。数据中心基础设施是一个由多种技术和多个供应商组成的复杂环境,各种技术和各个厂家提供的原始监控数据封闭在各自的数据模型中。通过智能化平台,为异构数据搭建统一数据模型,实现监控数据的标准化,为实现设备自动化管理和综合性分析做好数据准备。
3.2 自动化运维手段
从数据中心发展趋势和现有规模来说,只有自动化的方式才能解决成本加大、运作复杂等问题,并满足客户对业务和服务的要求。智能化平台的出现,对实现自动、高可用、可优化、零延迟[1]的数据中心运维有重要价值。
3.2.1 自动化设备预警
传统的应对式管理主要是对设备故障进行处理。应对式管理已经无法满足数据中心客户对服务的要求,主动管理模式应运而生,设备预警是主动管理的重要手段。
在监控数据模型标准化的基础上,能够在智能平台上实现对各类设备告警的统一管理,包括设备故障告警和设备预警。智能化平台允许运维人员对设备指标设定报警上、下限,当设备运行至设定的上、下限时,平台向运维人员发送设备预警信息,一旦运维人员确认告警需要被处理,系统就会根据预警内容自动生成工单并派遣给指定的工作人员,如果告警信息形成干扰,则需要调整预警策略。自动化设备告警如图2所示。