资源与服务全方位监控,手把手教你使用云监控告警平台

发表时间:2021-08-12 15:35
根据本章节的教程,您可以了解如何通过骞云云监控告警平台实现云资源的监控安装、查看,告警策略的配置、通知、处理以及第三方告警集成。
图片
步骤一:基础设施对接和资源纳管
在使用监控告警功能前,管理员需要先完成云平台的对接,逻辑资源池的创建,并将要管理的虚拟机资源添加到云监控告警平台中。支持启用只读模式,限制云资源的修改,提升安全性。
图片
步骤二:云资源监控安装
对已纳管的存量资源和应用添加监控,可以应用组件添加应用监控,对云资源添加监控代理或启用云平台监控。
图片
步骤三:自定义监控仪表盘
支持自定义仪表盘,直观展示各类云组件的监控数据,通过趋势和异常值分析指标。
图片
步骤四:资源监控查看
支持在监控仪表盘、云资源详情及资源状态图中查看云资源监控信息。
图片
步骤五:告警策略配置
可以为已部署纳管资源创建自定义告警策略,定义触发警报的条件。
图片
步骤六:第三方告警集成
通过集成第三方告警实现告警通知、分析与自愈。
图片
步骤七:告警通知和处理
配置告警触发时通知的对象。查看已触发的云资源警报,追溯警报的详细情况,并对警报进行恢复、暂停、解除操作,或者通过工单进行处理。
图片
步骤八:告警自愈
允许为云资源告警配置修复资源的操作建议,在触发告警时支持根据操作建议修复资源实现自愈。
以下操作步骤以阿里云为例:
使用管理员账户登录骞云云监控告警平台,当前用户为平台管理员角色。
图片
步骤一:基础设施对接和资源纳管


基础设施对接和资源纳管具体步骤请参考【基础设施对接和存量纳管操作手册】

云监控告警平台支持云平台只读模式,当用户只需要监控告警功能时,可以开启云平台只读模式,限制资源的创建与修改,提升安全性。
在【基础设施】-【云平台管理】-【阿里云】,
  • 选择已对接的阿里云云平台,启用只读模式,在只读模式下,系统将对当前云平台做出如下限制:无法创建资源、无法修改资源:包括调整配置、创建磁盘、开机、关机等、无法删除资源。
图片
图片
步骤二:云资源监控安装


云监控告警平台支持监控代理组件,可以为该组件配置默认的指标维度信息,供用户在添加组件监控时配置使用。为组件配置监控时,支持配置健康指数的JavaScript计算脚本,健康指数将在资源状态图上展示。监控数据收集后,平台不仅能在部署或云资源的详情界面进行监控信息的展示,还能在全新的页面,统一展示监控信息。下面为您介绍云资源监控安装的方法:


1
存量云主机安装监控



在云资源详情中启用/切换监控为存量云资源安装监控,采集组件关联的仪表盘数据。


在【我的部署】-【云资源】,
  • 单击某一个云资源进入其详情界面,选择「更多操作」-「监控和代理」-「启用/切换监控」。
  • 选择监控方式:云平台监控或者Prometheus代理监控,配置相应监控指标集。
  • 点击「确定」,提交安装监控申请。添加成功后,可在云资源详情页的监控标签页查看监控详情。
图片
2
存量应用安装监控



在组件监控中选择已在平台中管理的云资源进行监控。根据组件中定义的监控指标,获取数据库中对应的监控数据并在监控仪表盘展示。

在【监控告警】-【组件监控】,
  • 点击「MySQL Exporter」, 您可以在基本信息页面查看平台对MySQL的基本监控信息,包括监控目标,监控状态,监控代理所安装的云主机,更新时间等。
  • 点击「添加」,选择需要监控的云资源类型和对应类型的具体云资源,您可以选择单个或者多个需要监控的云资源,点击「下一步」。
  • 请选择安装监控代理的云主机,您需要为每一个被监控的资源指定安装监控代理的云主机,并配置监控代理服务的参数。
  • 点击「下一步」,确认每个资源的监控代理的安装情况。点击「确认」,安装监控代理。
图片
图片
步骤三:自定义监控仪表盘



仪表盘能够直观展示各类云组件的监控数据,方便快速查找相关信息,协助用户通过趋势和异常值分析指标。


在【监控告警】-【仪表盘】,
  • 左侧展现仪表盘的分类,右侧显示相关分类的仪表盘基本信息,包括名称,描述,授权,创建者和创建时间。
  • 目前平台展现四种类型的仪表盘:
    • 我关注的:展现所有您感兴趣的仪表盘。点亮仪表盘的星号标识,仪表盘会自动移动至此分类;取消星标,仪表盘会相应地移动至最初的分类。
    • 我创建的:展现所有您创建的仪表盘。
    • 系统的:展现系统内置的仪表盘,类型包括云主机,Web Server, App Server,关系型数据库等。系统内置的仪表盘不能被删除和编辑,但是能够被归类至 <我关注的> 。
    • 共享的:展现平台管理员分享给您使用的仪表盘。
  • 选择仪表盘(如Nginx监控仪表盘),下拉选择需要查看监控的云资源,查看该资源的监控仪表盘。
图片



除了使用系统内置的仪表盘,用户也可以自建新的仪表盘来展现您关注的监控数据。


在【监控告警】-【仪表盘】,
  • 点击「添加」,进入创建仪表盘的界面。
  • 填写仪表盘的基本信息:
    • 允许共享:选择允许共享该仪表盘;
    • 业务组:请选择一个业务组,业务组中的用户都能使用该共享的仪表盘;
    • 角色:请选择一个或多个授权的角色,则在指定业务组中,拥有授权角色的用户才能使用该共享的仪表盘。如不选择任何角色,则指定业务组中所有用户都能使用共享的仪表盘;
    • 资源类型:请选择想要查看监 控信息的资源类型,可选类型包括IaaS、PaaS、CaaS、软件和代理。例如,当您选择Instance(vSphere),您可以查看被平台纳管且安装了监控的vSphere虚拟机的监控信息;
    • 基本信息: 自定义新建仪表盘的名称和相关描述;
    • 共享:平台管理员可以将仪表盘共享给指定业务组中授权角色的用户使用。
  • 点击「保存」按钮,进入仪表盘信息展示部分配置页面。
    • 新增或编辑仪表盘,在右上角选择:新建、保存、设置、查询模式、时间段、缩小(针对时间段进行放宽)、刷新等。
图片
图片
步骤四:资源监控查看


1
通过监控仪表盘查看
仪表盘能够直观展示各类云组件的监控数据,方便快速查找相关信息,协助用户通过趋势和异常值分析指标。参考步骤三使用监控仪表盘查看资源监控数据。

2
通过云资源详情查看


在已启用监控的云资源详情可以查看包括该云资源CPU、内存、磁盘、网络等的监控数据,并可以按照需要调整时间跨度或者平均时间来查看历史监控数据。

在【我的部署】-【云资源】,
  • 单击某一个云资源进入其详情界面,选择「监控」标签页查看云资源监控详情。
  • 监控标签页:展示了该云资源CPU、内存、磁盘、网络等的监控数据(可以按照需要调整时间跨度或者平均时间来查看历史监控数据)。
图片
3
通过资源状态图查看



资源状态图能够显示云主机、容器、软件等云资源的健康状态,根据性能指标的状态显示不同的颜色。若该云资源未配置监控,默认显示灰色。浅绿到深绿到红色,颜色越深代表使用的资源越多。


在【监控告警】-【资源状态图】,
  • 鼠标移至某一蜂窝模块上,将显示该云主机或容器名称。
  • 点击后显示详情:
    • 基本信息:IP地址、操作系统、vCPU数量、内存、磁盘总空间;
    • 组织信息:业务组、项目、所有者;
    • 已装软件、键值标签;
    • 性能监控指标:健康指数、内存使用率、CPU使用率、磁盘使用率、网络流量等。
  • 可根据您的需求对展示内容进行筛选,如全部或已安装监控或未安装监控、按云平台筛选、业务组筛选、项目筛选、资源类型、标签等筛选。
图片
图片
步骤五:告警策略配置


告警策略定义了所选的对象类型(如云主机/应用/容器等)触发警报的条件。


在【监控告警】-【告警策略】,
  • 点击「添加」,进入添加告警策略界面。
  • 在添加告警策略界面,定义告警策略的基本信息。依次输入告警策略的名字,选择告警类别和告警类型。
    • 宕机告警:输入时间(分钟),云主机在规定时间内失去响应后,将触发宕机警报;
    • 阈值告警:选择云主机/容器的xx指标(如内存使用(百分比)、CPU使用率(百分比)、POD内存使用等)的取最大值/最小值/平均值,在过去xx时间(分钟/小时),若该值小于/小于等于/大于/大于等于xx值后,将触发警报;
    • 预测告警:基于过去xx时间(分钟/小时/天)内的xx指标的值(如内存使用(百分比)、CPU使用率(百分比)等),预测未来xx时间(分钟/小时/天)内,若该指标的值小于/小于等于/大于/大于等于xx值后,将触发警报;
    • 告警类别支持对云主机、应用和容器的告警;
    • 告警类型支持对云主机的宕机告警、阈值告警和预测告警,支持对应用的阈值告警和预测告警和对容器的阈值和预测告警。可根据选择的不同告警类型定义告警策略的触发条件。
  • 点击「保存」,提示告警策略添加成功,返回告警策略列表界面。
图片
图片
步骤六:第三方告警集成



告警集成通过提供统一的WebHook的API,可以将第三方平台系统所发送的告警接入到系统中,实现告警的统一通知,统一分析和告警自愈。目前支持主流公有云平台,和业界常用的监控平台, 如Prometheus, Zabbix, SNMP等。


在【监控告警】-【告警集成】-【阿里云告警集成(图标)】,
  • 配置基本信息:输入策略名称,选择策略启用状态(默认启用),选择云平台入口(若下拉为空请首先添加云平台)。
    Tips
    若不选择云平台入口,告警触发后平台将无法匹配到触发告警的具体资源信息如云资源、业务组、项目等。
  • 点击「获取AppKey」。AppKey是告警回调唯一标识,点击后将自动生成接口回调地址Webhook URL。
  • 配置告警:选择警报级别(警告、紧急)并输入触发多少次后自动升级为更高级别。
  • 配置通知:您可以将通知发送到指定的用户、角色或特定的邮件地址。平台将根据所选用户或角色已配置的消息通知平台发送通知。设置最大通知次数,在通知次数达到上限后将不再发送通知(留空为无限制)。
  • 配置操作:您可以添加操作建议。当告警触发时,后续人员可以直接通过您预定义的操作建议修复资源。
  • 点击「保存」并返回告警集成列表页。
图片
在阿里云监控控制台配置报警回调以将云监控发送的报警通知集成到平台:
  • 登录云监控控制台,在左侧导航栏选择报警服务→报警规则。
  • 在阈值报警标签页,点击目标规则的「修改」按钮,您也可以创建新的报警规则。
  • 填写上文中获得的接口回调地址Webook URL并点击确认。
当报警规则被触发时,阿里云监控会将报警消息发送到您指定的URL地址,您在接收到报警通知后,可以根据通知内容做进一步处理。
图片
图片
步骤七:告警通知和处理



定义所选告警策略应用到的范围以及触发的通知,配置触发告警后的自愈操作。


在【监控告警】-【告警】,
  • 点击「添加」,进入添加告警界面,定义告警的基本信息。
  • 输入告警的名字,选择步骤五已配置的告警策略、告警范围、告警对象以及警报级别;设定触发xx次后,自动升级为更高级别。
    • 告警范围支持对业务组、项目、服务部署和云主机的告警;
    • 告警对象依据所选的告警范围;告警级别为轻微警告、比较危险、警告和紧急。
  • 定义触发告警后,通知到的用户、角色或特定的邮件地址。平台将根据所选用户或角色已配置的消息通知平台发送通知。
  • 点击「保存」,返回告警列表界面。
图片

查看已触发的云资源警报,追溯警报的详细情况,并对警报进行恢复、暂停、解除操作,或者通过工单进行处理。


在【监控告警】-【已触发警报】,在当前页面可以查看步骤五由平台触发生成的警报,也可以查看步骤六中第三方告警平台触发的警报。
  • 查看所有已触发警报的警报级别、告警名称、触发告警对象、告警类型、第一次触发时间、最后一次触发时间、已触发次数以及告警状态。
  • 任意选择一条已触发的警报,在工具栏中可选择「暂停」或「解除」警报。
  • 点击列表中的告警名称,可查看该警报的详细信息以及历史数据。该页显示了告警触发的对象、警报的级别,触发的条件、业务组、所有者、IP地址、警报图表(可调控时间范围灵活查看各个时间段的警报数据)、以及该告警的后续操作历史。
    • 服务类型:选择工单类型,可选类型包括通用工单,问题工单,事件工单,变更工单,请求工单;
    • 工单服务:根据服务类型选择具体的工单服务;
      Tips
      管理员可以预先设置服务团队处理工单任务,当用户提交工单任务时根据预先配置的服务流程和服务团队排班,相应的服务团队将接到工单进行处理。
    • 如果您需要为触发的告警新建一个工单任务,点击「提单」按钮。

点击告警触发的对象可跳转至该对象的监控页面,如服务部署链接至服务部署监控页面、云主机链接至云主机监控页面等。

图片
步骤八:告警自愈



在告警配置和告警集成配置时允许为云资源告警配置修复资源的操作建议,支持配置工单审批。在触发告警时支持根据操作建议修复资源实现自愈。


在告警配置和告警集成配置时允许为云资源告警配置修复资源的操作建议,支持配置工单审批。在触发告警时支持根据操作建议修复资源实现自愈。
以告警配置为例,在【监控告警】-【告警】:
  • 选择任意一条已创建告警,点击「编辑」,进入编辑告警界面。
  • 在【操作配置】模块定义警报触发后的自愈操作:
    • 点击「添加」,选择包括云资源运维任务、告警任务在内的任务类型,设置相应输入参数与作用到的云资源;
    • 执行设置:填写超时时间(例如:设置超时时间为360s,该任务执行时间超过360s代表任务执行失败);执行选项(选择失败后继续执行表示当前任务失败继续执行下一个任务,或选择失败后结束流程表示当前任务失败结束该流程,任务执行失败);执行方式(选择默认执行,或选择条件执行时需要设置条件执行表达式);
  • 点击「保存」并返回告警集成列表页;
  • 当告警产生时,已定义的自愈操作将被触发以修复资源。
Tips
如果自愈操作涉及修改云资源配置(除脚本执行),则需要将云平台设置为非只读模式。


图片

【如何使用云原生的监控告警平台】操作视频





登录骞云官网www.cloudchef.io,或扫描下方二维码,即刻试用骞云SmartCMP SaaS平台的强大功能吧!

图片


 
 
 联系方式
咨询电话:400-669-7728