线上服务器的监控告警,我们暂且从三个层级上分析;
业务层:业务相关的日志告警机制。跟业务设计强相关,比如客户端的业务上行请求数据异常之类的告警,业务上定义日志级别(INFO/WARN/ERROR),输出到指定日志文件并通过业务层逻辑抛出,数据分析的埋点、业务行为相关的辅助日志都在这里实现;
一套日志系统:
区分日志级别(INFO/WARN/ERROR),支持控制抛出告警的日志级别;
统一日志格式规范,支持外部采集解析(数据分析);
封装标准接口 API;
告警消息接入 OA 办公系统,比如 dingding 的群聊 robot 自动通知;
框架层:框架底层和组件抛出的 traceback 告警信息,业务层无法获取告警详情信息,需要外部使用日志采集服务监控框架层日志,通过指定关键词监听异常信息并抛出; 简单的理解:tail -f log.file | grep traceback
操作系统层:监控业务进程状态 / 数据库状态。相关业务进程是否存活、内存 & CPU 消耗;数据库连通性、内存 & CPU 消耗等等信息;核心实现方案都是:设置警告阈值定时检查,超出阈值 / 发生异常时抛出告警。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...