近年来,某银行总行中心业务持续发展,各项业务数量与复杂度复杂的逐年上升,信息系统数量增加且规模不断扩大,作为支撑的网络设备数量逐渐增长、类型不断增加。为保障业务连续性,其上线了各类运管工具,然而,现有运管工具多,相互独立,缺少关联,数据分散,导致工具联动弱、监控处置慢、运维效率低,且部分系统易用性差难以灵活扩展、配置。因此,急需一款集中运维监控平台,替换老旧监控平台,形成统一的运维管理,实现统一监控、统一告警、统一分析。
项目现状
某银行总行中心目前因设备类型与品牌型号复杂,采用了多种运管工具进行管理,工具相互独立,难以满足其日益丰富的运维需求。现急促统一监控运维平台对设备进行集中监控,打通数据孤岛,实现跨团队数据共享及宏观统一监控。
设备类型:Aix、Windows Server、Centos等操作系统;DB2、MySQL、Gbase等数据库;nginx、WAS、MQ等中间库;浪潮、华三、曙光等品牌服务器;浪潮、IBM等小型机;docker容器;存储设备、安全设备、网络设备等。
设备数量:1600+台设备。
部署需求:两地三中心部署。
功能需求:
国产信创产品:符合信创要求,自主可控;
集中监控管理:提供统一监控视图,可根据使用场景定制不同的展示页面,投放至大屏;
统一告警管理:支持告警规则统一配置,多个数据中心的告警规则可统一配置,支持告警统一显示;
业务监控运维:提供全局视角监测业务健康情况;
完善可视化:提供网络结构、链路关系可视化拓扑展示,报表、大屏等运维数据可视化呈现;
运维数据统一管理:告警数据、性能数据、配置数据等运维数据统一接入、处理、存储、关联、分析等;
具备完善的安全措施:完善的身份认证机制、权限控制体系、详细的日志信息记录等;
高灵活、可扩展:系统具有灵活的体系结构、良好的扩充性;
支持分布式部署,实现异地多中心统一管理。
智和信通方案
经过与某银行总行中心运维团队的深入交流和详细需求调研,智和信通通过分布式部署的方式支撑其两地三中心架构,在北京中心、北京灾备中心、某地分中心分别部署智和网管平台,同时提供容灾机制,任一中心出现问题可以无缝被其他中心接管。最终实现,运维数据全量同步,在任意中心均可查看全部数据的同时,各中心可分别管理各自下属的设备,北京中心可以对全部设备进行管理、查看。
平台部署架构示意图
兼容信创国产生态,产品安全可控
立足于北京智和信通10年的国产融合经验,智和信通全部产品与国产软硬件产品深度适配,涉及的产品与模块,均由北京智和信通自主研发,从功能模块、数据库、界面全部基于统一Java技术平台和统一数据关系模型,不包含任何第三方功能库。在支撑用户构建信创环境的同时,也针对各类信创设备、服务组件等提供相应的运维服务,在降本增效的同时,促进政企用户业务创新发展。
智能发现技术,一键发现网络设备
通过智能发现技术,在智和网管平台中用户仅需输入IP范围一步操作,即可自动完成网络设备发现、设备类型识别、设备链路发现、设备故障和性能采集、链路流量和状态以及网络拓扑生成。并且在自动发现的过程中可以搜索到网络设备,并识别设备类型和厂商型号,生成设备的面板图或搜索设备资源,如:板卡、端口、CPU、内存、磁盘等,并发现设备之间的链路关系。
网络设备:华为、华三、思科、锐捷、迪普、迈普、紫光、深信服、天融信、山石、Radware、F5、启明星辰、绿盟、Imperva等主流品牌
服务器硬件:华为、华三、思科、浪潮、曙光、IBM、HP、DELL、联想等主流品牌
存储设备:华为、浪潮、IBM、昆腾、群晖、EMC、DELL、HP、Netapp、OracleFS、宏杉、同有等主流品牌
操作系统:Windows 2008R2/2012/2016/2019、CentOS 5 以上、RHEL 5 以上、Suse 11/12、UOS V20、AIX6/7
云&虚拟化:VMWare、阿里云、腾讯云
数据库:DB2、Gbase8a、InfluxDB、MongoDB、MSSQL、MySQL、Oracle、PostgreSQL、Redis、达梦数据库
中间件:Apache、Nginx、RabbitMQ、Tomcat、TongWeb、WAS、ActiveMQ、Kafka、Zookeeper
其他设备:支持上述标准管理协议即可完成新增兼容
自动生产网络拓扑,网络架构可观测
已发现的设备、资源、链路可自动生产网络拓扑,以图形方式整体观测,并以声光进行告警提醒。实时分析资源当前性能和运行状态,直观反映资源的动态变化对支撑业务的影响。同时,采取统一数据标准,对整体网络中的IP地址进行梳理和管理,建立IP与MAC对应关系库,端到端规划、部署、管理和监控IP地址使用情况。
海量设备集中监控,统一管理
集中监控中心的各类设备,统一监控配置和策略,获取网络设备、硬件服务器、存储设备的性能运行数据、日志事件数据、流量数据等。监控策略根据资源类型的不同,涵盖状态信息、响应时长、使用率、输出输入流量、输入输出带宽、时延、命中率、读写速度等方方面面。整个监控指标体系,支持完全自定义,根据设备不同应用场景的不同进行差异化配置。
全网告警信息集中处理,告警无延迟
全量汇聚异常告警信息,基于故障模型和AI算法分析故障原因,分析、压缩、并归关联故障信息,降低故障风暴,秒级定位故障位置,主动出击快速排障,故障处置全流程展示。根据各省管理权限及人员排班安排,定义告警通知策略,从系统内声光闪烁到邮件、短信通知,运维人员第一时间获知告警信息,排障处置责任到人。
全网流量透视,端到端分析流量布局
支持通过Flow流量数据,提供端到端的流量监控能力,从设备、接口、IP、服务、应用、会话、QoS等层级的实时流量监控和历史流量分析,识别带宽消耗较大的应用程序、服务、协议或IP地址,避免网络容量过载,并提升最终网络体验。
全景业务观测,智能业务、应用监管
智能化、自动化的业务监管方案,支持可量化、可视化的技术手段,全面监控IT业务系统服务的响应性能,帮助用户准确感知整体业务的性能和质量状况。提供业务拓扑、可用性拨测、调用链追踪、业务告警、根因定位等能力。
7×24小时不间断监控,运维数据大屏展示
智和网管平台平台内置5种大屏样式与自定义大屏能力,适配各种应用场景,二十四小时不间断监控,细粒度可达网络中每个设备、资源和链路。所有的网络故障都一目了然地呈现,大大降低了管理成本,同时也提高了运维人员处理故障的能力,节省的故障处理时间,为运维人员管理网络提供了可靠的保证。
多维度权限划分,软件安全可靠
提供给该中心多角色管理员分权管理网络能力,角色与地域权限立体化管理,使各种角度的运维人员责权分明。对不同的管理人员分配不同的操作权限,可以对不同的管理人员分配不同的网络,做到粗、细粒度的权限控制,避免越权管理。同时,针对危险操作,能够有良好的提示以及提供日志记录。
二次开发平台,具备灵活扩展能力
二次开发平台在基础框架、可重用组件和软件功能之间保持隔离,既确保了快速定制又不损失组件化、架构化特性,该中心研发人员可选中API或代码的形式对平台进行二次开发,提高研发效率。同时,智和信通提供全套开发资料以及完善的培训服务,该中心可以随心定制出符合自身需求的运维监控功能。
应用价值
通过上线智和网管平台该中心实现两地三中心设备集中管理,当出现故障时可进行关联分析,通过跨岗位信息联动,为运维人员提供更加便捷的故障分析和处置手段,在降低故障发生概率的同时,在故障发生后,“早感知、快定位、急止损、优改进”,降低影响范围。为日常运维保障、高层管理决策提供支撑,助力保障业务连续性。