在中国信息通信研究院与中国通信企业协会共同主办的第二届“鼎新杯”数字化转型应用大赛中,北京移动和嘉为蓝鲸联合申报的“北京移动云计算智能运维平台建设项目”,从两千余个申报案例中脱颖而出,最终荣获大赛二等奖。

  中国移动通信集团北京有限公司(下称北京移动)成立于1999年,隶属于中国移动通信集团公司,秉承“正德厚生,臻于至善”的企业核心价值观,紧密围绕“做世界一流企业,成为移动信息专家”的战略定位,以卓越品质锻造一流信息服务,用创新精神努力实现从优秀向卓越的新跨越,着力推动“移动改变生活”。

  一、初探自动化,转型亟需新动能

  自成立以来,北京移动始终保持行业信息化领跑者的身份,坚持“以追求卓越,让数字化生活更美好”为使命,志愿成为“客户首选的数字化服务的引领者”。为快速响应业务需求,IT团队前期从技术平台建设切入,使用开源软件搭建了基础的自动化运维系统,实现了脚本和文件的批量自动化,但仍存在如配置数据覆盖不全、作业执行管控手段欠缺、运维场景化能力不足、技术架构相对简单等问题。

  为提升系统稳定性,保障业务稳定运行,北京移动携手嘉为科技旗下研运品牌嘉为蓝鲸,打造智能运维平台,建设配置数据管理、监控管理、日志管理、统一告警管理、自动化巡检、运营服务报表等运维场景,实现管理流程创新,完善智能运维能力,向着具备业务价值的运维模式迈进。

  二、“平台+应用”,高效扩展应用场景

  通过PaaS平台+SaaS场景的方式构建一体化运维管理体系,1个基础平台融合了公共能力,支撑场景应用的运行、协同、服务。场景应用包括了配置管理CMDB、IT监控告警、日志平台、自动化巡检、运营服务报表等5大应用,后续可快速、灵活扩展各类应用。

  1、平台规模:当前生产环境按支持纳管200+节点服务器,纳管8套应用系统,部署运行16个运维场景工具;

  2、平台集成:与4A系统集成对接,与邮件系统集成实现消息通知;

  3、统一管控:采用管控平台纳管不同网络区域的主机。

  三、提速运维效能,保障业务稳定运行

  1、CMDB自动采集,资源统一管理

  构建云运维基石CMDB,实现资产数据的集中管理,为应用提供各种运维场景的配置数据服务。通过提供配置管理服务,以数据和模型相结合映射应用间的关系,保证数据的准确和一致性;并以整合的思路推进,最终面向应用消费,发挥配置服务的价值,实现IT资源集中规范化管理和消费。

  ·云平台A创建模型涵盖主机、业务、云虚拟资源、安全设备、基础设施、网络、服务器、云平台等共30+个;同时完成VMware、华为云资源的接入;纳管主机120+、接入业务6个;配置发现配置采集任务运行次数270+;

  ·云平台B创建模型包括数据中心、机房、机柜等共计30+个,完成模型数据录入;

  ·自动采集录入虚拟机实例近1600条,计算服务器160+条,存储服务器110+条,虚拟资源卷1200+条。

  2、海量对象纳管,一体化监控升级

  基于平台丰富的数据采集、数据处理及插件扩展能力,集成现有监控平台,实现对各类网络设备、主机设备、存储设备、中间件、数据库、关键应用进程的监控告警。通过集中管理告警信息,并采取统一的收敛、屏蔽、关联分析、自动化处理等手段提高告警有效性,减少误告与漏告,实现告警从接入、收敛、处理、分派的闭环管理,提升了告警处理效能,保障系统稳定运行。

  ·监控接入:纳管4个业务系统,共计120+台主机监控、4个网络端口拨测监控、20+个进程监控,3个自定义脚本监控,共计70+个监控指标;

  ·告警接入:告警接入华为云、Zabbix、VMware等13个告警源,完全覆盖1、2层硬件监控,3层监控覆盖4个业务系统。

  3、日志联动告警,网络健康随时保障

  完成日志监控数据告警配置,可通过网络设备的日志数据分析来获取网络设备健康状态,同时,对网络设备的日志级别进行数量统计及监控展示面板。共接入70+个网络日志数据源,创建10个网络任务接入任务,5个网络日志数据仪表盘,3个日志关键字告警任务。

  4、巡检自动化,安全防范更高效

  通过自定义巡检脚本和脚本对象,进行及时性、周期性等巡检工作的自动化执行,替代运维人员日常手工巡检,可根据不同运维角色,自定义不同的巡检工作计划,并生成标准可视化报告。辅助运维团队全面了解各类软硬件资源的生产健康状态,从全量的生产系统中提前发现隐患,保障业务稳定性。

  ·巡检模版:完成4个标准化主机巡检脚本,Linux巡检模版3个,各类巡检指标62个;

  ·巡检任务:配置巡检任务3个,32个主机巡检对象。

  5、数据可视化,IT运行全掌握

  北京移动原先并未使用专门的报表工具,用Excel手工记录资源资产信息,工作量大且时效性低,准确率也难以保证,制作、维护、查看均不方便。本项目基于蓝鲸平台,打造了一款轻量级、可自主分析的报表制作工具,实现对各类数据源的接入,帮助运维人员全方位掌握IT资源的运行状态及资源使用情况。

  ·云平台A:完成对接华为和VMware数据接口获取数据。在运营服务报表中创建华为报表数据源9个,VMware数据源7个,制作华为运维报表8个;制作VMware运维报表5个,包括日报,周报和月报,并实现字段筛选展示报表数据;

  ·云平台B:完成5个数据文件的解析,并封装为报表数据源接口,并根据需求生成5个类别共8张自动化运维报表,可根据时间或对象名称进行筛选展示。

  在数字化转型浪潮中,北京移动率先出击,打造了面向云计算运维场景的智能运维平台,推进更精细化、自动化、智能化运维体系建设,强化系统风险和故障的早发现、早定位、早处置,保障业务稳定运行,并建设完善的运维开发能力,实现从传统运维向运维开发的转型。