某塑料科技公司是由日本知名株式会社在中国投资的,以从事橡胶和塑料制品业为主的生产制造企业。随着企业信息化建设提速,信息化运用程度不断提高,对网络基础设施的管理也提出了更高要求,因此公司急需上线一款综合运维平台加强对整体网络的管理和维护。
项目现状
随着公司向智能制造转型,网络架构日趋复杂,支撑公司网络通信和业务开展的软硬件IT设施种类繁多,给运维工作造成极大压力。
设备类型:交换机、路由器、POE交换机、服务器、AC、AP、数据库、防火墙、虚拟机、语音网关、硬盘录像机、行为管理、光端机、打印机、动环监控等
设备品牌:H3C、华为、ARUBA阿鲁巴、HP、Lenovo、海康威视、飞塔、深信服、Cisco、国威、Windows Server、MySQL、PostgreSQL、SQL Server、Oracle、富士等
项目期望:
对网络中的所有网络设备、虚拟机、数据库等进行统一管理,并提供清晰的网络拓扑图;
对设备进行实时监控,在出现故障时可以及时预警;
解决告警数量多,误报、错报情况严重,无法获取真实故障信息的问题;
解决设备产生的trap日志存储展示分散,难以查看的问题;
解决目前巡检主要依靠人工进行的问题,提高巡检效率和准确率;
具有美观、清晰的界面和大屏,大屏支持上墙;
能够和动环系统进行对接。
智和信通方案
通过多次沟通了解到其网络内的设备种类、品牌型号均比较复杂,用户对设备监控运维的期待也较高,因此智和信通采用远程+现场支持的方式进行安装部署与支持,最终达成用户期待的效果。
自动发现异构设备并生成网络拓扑图
智和信通充分利用产品自身强大的模型库配置能力,在现有的监控模型基础进行丰富,快速实现了对用户全部品牌、型号设备的纳管。在项目部署过程中,仅需输入IP地址,即实现了设备发现与类型、品牌型号的识别,并自动搜索出相应的设备资源与设备间的链接关系,自动生成网络拓扑。
更细节的设备监控指标支持
智和信通对现有指标进行快速调整并根据用户需要新增了大量用户关注的核心指标,以满足用户对监控阈值、监控周期的需求。部分监控指标如下:
设备类型 |
监控指标 |
交换机/路由器 |
在线状态、响应时间、运行时间、CPU使用率、内存使用率、接口接收/发送流量、接口接收/发送带宽、接口接收/发送丢包率等 |
POE交换机 |
在线状态、电源状态、响应时间、运行时间、CPU使用率、内存使用率、端口状态、端口流量、光口、电口、语音口、包转发率等 |
服务器 |
在线状态、响应时间、CPU使用率、内存使用率、磁盘使用率、磁盘容量预测、进程、接口接收/发送流量等 |
AC |
在线状态、响应时间、CPU使用率、内存使用率、接口接收/发送流量、射频传输重传帧比率、当前连接用户数、当前断开连接用户数等 |
AP |
在线状态、接口接收/发送流量、关联的站点总数、关联失败的站点总数、用户在线时间等 |
数据库 |
在线状态、连接数、并发连接数、最大连接数、表空间、死锁等 |
防火墙 |
在线状态、CPU使用率、内存使用率、接口接收/发送流量、接口接收/发送速率、HTTP请求数、错误率等 |
虚拟机 |
在线状态、CPU使用率、内存使用率、磁盘读写IO、磁盘读写速率、网络接收/发送速率等 |
硬盘录像机 |
在线状态、CPU使用率、内存使用率、磁盘使用率、磁盘容量预测、 |
行为管理 |
在线状态、CPU使用率、内存使用率、活跃用户数、上线用户数等 |
差异呈现设备核心性能指标,感知设备运行态势
为不同类型和应用场景下的设备创建差异化性能指标,全面采集、存储、分析性能信息,并按照时间、资源、性能类型等多种维度,图形、表格等多种形式展示实时性能和历史性能。通过智能算法分析历史数据,对磁盘容量、交换机端口容量、机房机柜容量进行展示和预测分析,并根据容量可使用时间进行自定义预警。
事件、日志集中治理,异常告警
全面收集设备发送的Trap、Syslog、Filter Alarm等事件、日志数据,解析、提取有效信息,将其存储、展示为可统计分析的结构化数据,通过配置告警规则和场景,将异常事件、日志自动转化为告警,定位其影响范围。
深入分析、处理异常故障信息,精确告警
自定义配置告警阈值,并从众多的事件、日志和状态信息中分析提炼异常数据并转化为告警。在告警信息产生后,采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告警降噪机制,对各类告警进行自动压缩收敛,减少无效告警,一步定位发生故障的源头设备。快速检索异常问题关联涉及的各项维度与影响范围,快速定位问题边界,直达故障根因。
提供界面颜色、提示声、光效闪烁、信息列表、Email、短信、钉钉、企业微信、个人微信等多种通知渠道。
自动化巡检、全面解放人力
根据用户日常运维工作流程自定义巡检策略,对设备的运行情况进行统计和报表生成。通过平台内人工触发或定时触发的方式,将巡检工作托管至平台自动执行,减少人工干预,实现对设备的定期快速检查。
大屏上墙运维信息更集中
在实施的过程中,仅通过智能电视上的安卓浏览器访问平台,即实现运维大屏上墙,直观清晰地传达运维数据分析结果,帮助用户由宏观到微观更快地了解网络运维现状,做出更具时效性的决策。
无缝对接用户现有动环系统,实现联合监控
用户现场已在使用某厂商的动环监控系统,智和信通采取快速对接的方式打通和此系统间的数据流转。在智和信通平台内接收温度、湿度、漏水、烟感、配电、UPS、空调等设备的实时状态信息,并对异常数据进行清洗、告警。
应用价值
在项目的实施过程中,我们清晰地感知到纳入方案中监管的IT软硬件设施支撑着用户上层众多的,如品控、防错料、文件管理、合同管理、薪资、预算、人事等业务系统,网络的状态强烈影响着用户业务系统的可用性和性能,最终也将影响整体企业的办公体验。
通过部署智和信通综合监控运维方案实时监控用户网络与机房内大量异构的交换机、路由器、服务器、AC/AP、数据库、防火墙、虚拟机、语音网关、硬盘录像机、行为管理等设备,及时发现并预警潜在问题,从而避免或减少故障带来的负面影响。同时,通过快速对接现有动环系统的方式,实现机房动力、环境系统的补充监控,保障机房运行的物理安全和环境稳定。