复工首日,送你一份超实用云主机监控告警指南!

发表时间:2022-06-01 18:00
普通用户在创建云主机后,需要查看云主机的运行状态、是否有异常等。而针对云运维管理员,管理成千上万云资源的压力更大。多云环境下如何以用户视角进行统一管理?
市面上的云平台都是以产品为管理模块,如果想查看RDS的资源详情,需要进入RDS的控制台;针对不同的产品,需要进入各自产品的控制台才能进行管理,公有云上有几百个资源,没办法直观地查看所有资源的运行状态和使用情况,当出现问题的时候,也无法及时收到告警通知,难以判断问题故障的原因,处理效率也较为低下。
骞云SmartCMP运维管理平台支持从不同的监控工具和平台采集运维数据,基于整个Prometheus生态体系,实现对物理设备、公有云、私有云、容器、数据库中间件等应用的全栈资源监控。同时支持灵活定义告警指标、告警策略,平台从监控聚合数据中,检查符合告警指标、告警策略的数据,判定符合后即触发告警,以邮件、短信等多种形式通知到指定用户,确保第一时间进行问题处理。

此外,平台支持灵活的告警处理流程,是ITIL流程和故障自愈的有机集成,支持多种自动化的故障自愈(故障工单、云资源自动化变更、Jenkins任务、外部系统集成等),从而降低故障处理时长,提升企业 IT 服务的可用性。

以下我们将从三个方面为您介绍:


1、如何快速监控您的云主机?

2、如何及时知道您的云主机运行异常?

3、在多云复杂环境下,如何快速清晰地查看大量云资源运行情况?

SmartCMP支持监控代理组件,可以为该组件配置默认的指标维度信息,供用户在添加组件监控时配置使用。为组件配置监控时,支持配置健康指数的JavaScript计算脚本,健康指数将在资源状态图上展示。

1
存量云主机安装监控
在监控您的云主机前,您需要对接资源所在的云平台和创建资源池,并将您的资源导入进行纳管。
快速对接基础设施和资源纳管具体步骤请参考【基础设施对接和存量纳管操作手册】(公众号推文:初次使用SmartCMP,你需要注意这几点!
在云主机详情中启用/切换监控为存量云主机安装监控,采集云主机数据。
在SmartCMP【我的部署】-【云主机】,
  • 单击某一个云主机进入其详情界面,选择「更多操作」-「监控和代理」-「启用/切换监控」。

  • 选择监控方式:云平台监控或者Prometheus代理监控,配置相应监控指标集。

  • 点击「确定」,提交安装监控申请。添加成功后,可在云资源详情页的监控标签页查看监控详情。

图片


2
通过云主机详情查看监控数据
为云主机安装监控后,您可以通过云主机详情查看监控数据包括该云主机CPU、内存、磁盘、网络等的监控数据,并可以按照需要调整时间跨度或者平均时间来查看历史监控数据。
在SmartCMP【我的部署】-【云主机】,
  • 单击某一个云主机进入其详情界面,选择「监控」标签页查看云资源监控详情。

  • 监控标签页:展示了该云主机CPU、内存、磁盘、网络等的监控数据(可以按照需要调整时间跨度或者平均时间来查看历史监控数据)。

图片


3
通过监控仪表盘查看监控数据
您也可以通过监控仪表盘查看云主机的监控数据。仪表盘能够直观展示各类云资源的监控数据,方便快速查找相关信息,协助用户通过趋势和异常值分析指标。
在SmartCMP【监控告警】-【仪表盘】,
  • 左侧展现仪表盘的分类,右侧显示相关分类的仪表盘基本信息,包括名称,描述,授权,创建者和创建时间。

  • 选择仪表盘(如Nginx监控仪表盘),下拉选择需要查看监控的云资源,查看该资源的监控仪表盘。

图片


监控可以帮助随时了解云主机的运行情况,如果云主机发生故障,用户要如何最快速得到通知并处理异常呢?平台支持定义告警策略或者集成第三方告警平台通知,使用户及时了解追溯警报的详细情况,手动对警报进行暂停、或解除操作,也可以进行快速提单,创建对应的工单,让服务支持团队成员进行处理。

1
配置告警策略
告警策略定义了所选的对象类型(如云主机/应用/容器等)触发警报的条件。
在SmartCMP【监控告警】-【告警策略】,
  • 点击「添加」,进入添加告警策略界面。

  • 在添加告警策略界面,定义告警策略的基本信息。依次输入告警策略的名字,选择告警类别和告警类型。

    • 支持对云主机(或应用和容器)的宕机告警、阈值告警和预测告警。可根据选择的不同告警类型定义告警策略的触发条件。


图片

同时平台支持告警集成,通过提供统一的WebHook的API,将第三方平台系统所发送的告警接入到系统中,实现告警的统一通知,统一分析和告警自愈。目前支持主流公有云平台,和业界常用的监控平台, 如Prometheus, Zabbix, SNMP等。

2
告警通知、处理和自愈
   (I) 定义所选告警策略应用到的范围以及触发的通知,配置触发告警后的自愈操作。
在SmartCMP【监控告警】-【告警】,
  • 点击「添加」,进入添加告警界面,定义告警的基本信息。

  • 输入告警的名字,选择已配置的告警策略、告警范围、告警对象以及警报级别;设定触发xx次后,自动升级为更高级别。

  • 定义触发告警后通知到的用户、角色或特定的邮件地址。平台将根据所选用户或角色已配置的消息通知平台发送通知。

  • 定义警报触发后的自愈操作包括云资源运维任务、告警任务在内的任务类型,设置相应输入参数与作用到的云资源。当告警产生时,已定义的自愈操作将被触发以修复资源。

图片

   (II) 查看已触发的警报,追溯警报的详细情况,并对警报进行恢复、暂停、解除操作,或者通过工单进行处理。
在SmartCMP【监控告警】-【已触发警报】,在当前页面可以查看由SmartCMP触发生成的警报,也可以查看第三方告警平台触发的警报。
  • 查看所有已触发警报的警报级别、告警名称、触发告警对象、告警类型、已触发次数以及告警状态等。

  • 任意选择一条已触发的警报,在工具栏中可选择「暂停」或「解除」警报。

  • 点击列表中的告警名称,可查看该警报的详细信息以及历史数据:包括告警触发的对象、警报级别,触发条件、所有者、IP地址、警报图表(可调控时间范围灵活查看各个时间段的警报数据)等。

  • 如果您需要为触发的告警新建一个工单任务,点击「提单」按钮。


  • Tips

    管理员可以预先设置服务团队处理工单任务,当用户提交工单任务时根据预先配置的服务流程和服务团队排班,相应的服务团队将接到工单进行处理。


图片


Tips
骞云SmartCMP运维管理平台支持展示海量资源的监控状态和监控信息,包括私有云、公有云、专有云的IaaS和PaaS资源(如公有云RDS)和网络、存储、容器、软件等多种云资源。

1
通过资源状态图查看
资源状态图能够显示云主机健康状态,根据性能指标的状态显示不同的颜色。若该云主机未配置监控,默认显示灰色。浅绿到深绿到红色,颜色越深代表使用的资源越多。
在SmartCMP【监控告警】-【资源状态图】,
  • 鼠标移至某一蜂窝模块上,将显示该云主机或容器名称,点击后显示资源的基本信息及性能监控指标等。

  • 可根据您的需求对展示内容进行筛选,如全部或已安装监控或未安装监控、按云平台筛选、业务组筛选、项目筛选、资源类型、标签等筛选。

图片


2
通过告警概览查看整体告警情况
在告警概览中可以整体查看当前平台已监控资源及资源告警的总体情况。
在SmartCMP【监控告警】-【告警概览】,
  • 展示了今日告警数、近期告警信息、告警趋势及告警平均解决时间等图表。

图片

更多产品功能详情,您可在骞云官网www.cloudchef.io登录SmartCMP SaaS平台免费试用


 
 
 联系方式
咨询电话:400-669-7728