大家好,我是小飞。
延续上一部分,主要讲解配置文件的用途和说明,上一部分链接如下:
Prometheus + Grafana 构建 IT 监控和告警最佳实践 (2)扩展交换机的数据采集,因为节点导出器采集器完善,使用官网模板采集数据基本满足当前需求,没有定制需求,而且Grafana的面板在Grafana官网上也有非常完整的模板, 所以我不会展开描述。
因为里面是华为交换机,正面是深信服设备,官方SNMPYML对华为的支持不够好,所以需要根据自己的需求从华为设备收集自定义数据,主要基于生成器使用生成器编辑和生成SNMP的YML文件YML 文件说明。
编辑生成器YML 文件模块: huawei: walk: -13.6.1.2.1.1.1 #sysdescr - snmpv2-mib - 1.3.6.1.2.1.1.3 #sysuptime - snmpv2-mib - 1.3.6.1.2.1.1.5 #sysname - snmpv2-mib - 1.3.6.1.2.1.2.1 #ifnumber - if-mib - 1.3.6.1.2.1.2.2.1.1 #ifindex - if-mib - 1.3.6.1.2.1.2.2.1.2 #ifdescr - if-mib - 1.3.6.1.2.1.2.2.1.3 #iftype - if-mib - 1.3.6.1.2.1.2.2.1.5 #ifspeed - if-mib - 1.3.6.1.2.1.31.1.1.1.15 #ifhighspeed - if-mib - 1.3.6.1.2.1.31.1.1.1.18 #ifalias - if-mib - 1.3.6.1.2.1.2.2.1.8 #ifoperstatus - if-mib - 1.3.6.1.2.1.2.2.1.13 #ifindiscards - if-mib - 1.3.6.1.2.1.2.2.1.14 #ifinerrors - if-mib - 1.3.6.1.2.1.2.2.1.19 #ifoutdiscards - if-mib - 1.3.6.1.2.1.2.2.1.20 #ifouterrors - if-mib - 1.3.6.1.2.1.31.1.1.1.1 #ifname - if-mib - 1.3.6.1.2.1.31.1.1.1.6 #ifhcinoctets - if-mib - 1.3.6.1.2.1.31.1.1.1.10 #ifhcoutoctets - if-mib - 1.3.6.1.2.1.2.2.1.10 #ifinoctets - if-mib - 1.3.6.1.2.1.2.2.1.16 #ifoutoctets - if-mib - 1.3.6.1.2.1.47.1.1.1.1.1 #entphysicalindex - entity-mib - 1.3.6.1.2.1.47.1.1.1.1.7 #entphysicalname - entity-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.1.1.5 #hwentitycpuusage - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.1.1.7 #hwentitymemusage - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.1.1.11 #hwentitytemperature - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.10.1.7 #hwentityfanstate - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.1.1.9 #hwentitymemsize - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.14.1.2 #hwsystempowertotalpower - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.14.1.3 #hwsystempowerusedpower - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.6.9.1.4.2.1.3 #hwstoragespace - huawei-flash-man-mib - 1.3.6.1.4.1.2011.6.9.1.4.2.1.4 #hwstoragespacefree - huawei-flash-man-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.3.1.1 #hwentityopticalmode - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.3.1.10 #hwentityopticaltype - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.3.1.8 #hwentityopticalrxpower - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.3.1.9 #hwentityopticaltxpower - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.246.1.1 #hwmadconflictdetect - huawei-dad-mib - 1.3.6.1.4.1.2011.5.25.246.1.2 #hwmadconflictresume - huawei-dad-mib - 1.3.6.1.2.1.14.1.2 #ospfadminstat - ospf-mib #max_repetitions: 3 #retries: 3 #timeout: 25s version: 2 auth: community: xxxxxx lookups: -source_indexes: [ifindex] lookup: ifalias - source_indexes: [ifindex] lookup: 1.3.6.1.2.1.2.2.1.2 # ifdescr - source_indexes: [ifindex] lookup: 1.3.6.1.2.1.31.1.1.1.1 # ifname - source_indexes: [entphysicalindex] lookup: 1.3.6.1.2.1.47.1.1.1.1.7 #entphysicalname overrides: ifalias: ignore: true # lookup metric ifdescr: ignore: true # lookup metric ifname: ignore: true # lookup metric iftype: ignore: true # lookup metric entphysicalindex: ignore: true # lookup metric entphysicalname: ignore: true # lookup metric
检查SNMP导出器收集器的状态:SNMP导出器在单个服务器上运行,可以在上一篇文章中查看。
SNMP导出器的状态[root@snmp SNMP导出器] systemctl 状态 SNMP 导出器 SNMP导出器service - snmp_exporter loaded: loaded (/etc/systemd/system/snmp_exporter.service; enabled;供应商预设:已禁用) 活动:自 2022-10-17 16:24:12 CST 以来处于活动状态(正在运行); 2 days ago main pid: 88082 (snmp_exporter) cgroup: /system.slice/snmp_exporter.service └─88082 /opt/snmp_exporter/snmp_exporter --config.file=/opt/snmp_exporter/snmp.yml 将生成器将 yml 文件复制到为编译指定的目录下,如下所示: [root@snmp生成器] pwd opt snmp exporter generator[root@snmp生成器] lsconfiggo format.md generator.yml main.go mibs mib-v200r021c00spc100.zip readme.md tree_test.godockerfile generator generator.yml_bak makefile mib-v200r019c10spc500.zip net_snmp.go tree.go 指定 mib 库的路径 服务器退出后,每次执行都需要执行这个命令,可以在etc配置文件中将环境变量写到死 profileexport mibdirs= opt snmp exporter generator mibs: opt snmp exporter generator mibs mib-v200r019c10spc500 mibs: opt snmp exporter generator mibs mib-v200r021c00spc100 mibs./generator generate[root@snmp generator]# export mibdirs=/opt/snmp_exporter/generator/mibs:/opt/snmp_exporter/generator/mibs/mib-v200r019c10spc500/mibs:/opt/snmp_exporter/generator/mibs/mib-v200r021c00spc100/mibs[root@snmp generator]# ./generator generatets=2022-10-20t03:06:52.055z caller=net_snmp.go:161 level=info msg="loading mibs" from=/opt/snmp_exporter/generator/mibs:/opt/snmp_exporter/generator/mibs/mib-v200r019c10spc500/mibs:/opt/snmp_exporter/generator/mibs/mib-v200r021c00spc100/mibsts=2022-10-20t03:06:52.472z caller=main.go:119 level=warn msg="netsnmp reported parse error(s)" errors=10ts=2022-10-20t03:06:52.703z caller=main.go:51 level=info msg="generating config for module" module=huaweits=2022-10-20t03:06:52.763z caller=main.go:66 level=info msg="generated metrics" module=huawei metrics=46ts=2022-10-20t03:06:52.768z caller=main.go:91 level=info msg="config written" file=/opt/snmp_exporter/generator/snmp.YML可以查看当前目录生成SNMPyml 文件 [root@snmp 生成器] ll | grep snmp-rw-r--r--.1 根根 6711 10 月 17 日 11:17 净 snmpgo-rw-r--r--.1 根根 22502 10 月 20 日 11:06 snmpYML 移动 SNMPyml 文件选择 snmp 导出器,因为 systemd 卡在 [root@snmp生成器] MV SNMP 的引导配置文件中yml opt snmp exporter systemd 配置文件显示 [root@snmp generator] cat etc systemd system snmp exporterservice[unit]description=snmp_exporterafter=network.target[service]execstart=/opt/snmp_exporter/snmp_exporter --config.file=/opt/snmp_exporter/snmp.ymlrestart=on-failure[install]wantedby=multi-user.目标重新启动 SNMP导出器[root@snmp生成器] systemctl 重新启动 SNMP导出器[root@snmp生成器] systemctl 状态 SNMP导出器 SNMP导出器service - snmp_exporter loaded: loaded (/etc/systemd/system/snmp_exporter.service; enabled;供应商预设:已禁用) 活动:自 2022-10-20 星期四 11:13:40 CST 以来处于活动状态(正在运行); 12s ago main pid: 99191 (snmp_exporter) cgroup: /system.slice/snmp_exporter.service └─99191 /opt/snmp_exporter/snmp_exporter --config.file=/opt/snmp_exporter/snmp.yml
看看你是否能看到数据:
单击“提交”,查看采集到的交换机数据,如下图所示
添加不超过 140 字的评论(可选)。
[root@it-monitor prometheus] pwd opt prometheus 编辑 prometheusyml 全球简介 全球简介: 刮擦间隔:15s 设置数据采集间隔为每次 15 秒,默认为 1 分钟 评估间隔:15s 每条评估规则每次15秒,默认为1分钟,此设置为告警规则 抓取超时:5秒 采集超时,默认 10s 告警插件告警: AlertManagers: -static configs: -targets: - alertmanager:9093 根据设置的参数扫描加载,用于自定义告警规则,告警媒介和路由路由由 alertmanager 插件规则文件实现: -"first_rules.yml" # - "second_rules.yml"设置要收集的对象。 这里既有静态设置,也有设置服务发现。 (服务发现只需要修改后续目标变更的规则,不需要重启 prometheus 守护进程) 抓取配置: -作业名称:"prometheus" metrics_path: /metrics scheme: http static_configs: -targets: ["172.17.40.25:9090"] labels: instance: prometheus - job_name: "localhost" metrics_path: /metrics scheme: http scrape_interval: 5s static_configs: -targets: ["172.17.40.25:9100"] labels: instance: localhost - job_name: "snmp" file_sd_configs: -files: -/opt/prometheus/targets/network-*.yml 刷新间隔:2m 抓取间隔:SNMP 收集节点为 5s 覆盖全局配置 15s 指标 path: SNMP params: module: -if mib community: 当 SNMP 导出器 SNMPYML 配置文件没有指定社区,这里定义的社区生效。 默认值通常为 public - zzpbptyciz1tm relabel configs: -source labels: ["__address__"] target_label: _param_target - source_labels: ["__param_target"修改目标标签:instance prometheus为SNMP导出器服务的IP地址-目标标签:地址替换:17217.40.5:9116 SNMP 导出器服务 IP 地址 - 源标签:[.]"mib"] 从自定义目标标签中获取 mib 模块的名称 target label: param module mount the directory to the container docker run -d --name prometheus -p 9090:9090 --restart always -v opt prometheus : etc prometheus prom prometheus --configfile=/etc/prometheus/prometheus.yml --web.enable-lifecycle --storage.tsdb.保留=90d 新建目录,在本地目录 opt prometheus 中新建一个目录和文件 mkdir -p,并创建一个新的集合目标文件 vim network-switchyml- labels: mib: huawei brand: huawei hostname: hzzb-b2l-ag-master model: s5720-36c-ei-ac targets: -172.18.48.2- labels: mib: huawei brand: huawei hostname: hzzb-b2l-access-master model: s5720s-52p-li-ac targets: -172.18.48.5- labels: mib: huawei brand: huawei hostname: hzzb-b2l-poe-master model: s5720s-28p-pwr-li-ac targets: -172.18.48.6- labels: mib: huawei brand: huawei hostname: hzzb-bljc-poe-master model: s5720s-28p-pwr-li-ac targets: -172.17.14.13- labels: mib: huawei brand: huawei hostname: hzzb-bljc-access-master model: s5720s-52p-li-ac targets: -172.17.14.14
参数说明:
静态配置 提示:您需要了解 YML 文件的基本语法。
静态配置:指定要捕获的目标地址 - targets: ["localhost:9090", "localhost:9191"] YML 文件的内联写入 将特定标签添加到已爬网的所有指标 label: name: label 指定标签值 model: label 指定标签值 静态配置: 指定要爬取的目标地址 - targets: -localhost:9090 yml 文件的标准写入 - localhost:9191 yml 文件的标准写入 为所有抓取的指标标签添加标签: name:label 指定标签值 model:label 指定标签值
文件 SD 配置。基于文件的自动发现,Prometheus 会周期性地读取并重新加载文件中的配置,可以是 YML、YAML 和 JSON 格式。
文件自动发现文件 sd configs: -files: -targets network-*json - targets/network-*.yml - node/vmware-host.yml 重新读取文件的默认间隔为 5m 刷新间隔:10m - files: -other *每个 YAML 目标在执行期间都有一个源标记,即 meta filepath,这是文件的路径
JSON文件格式:
YML 文件格式。
- targets: -labels: env: test service: app- targets: -labels: env: dev service: pc- targets: -labels: project: soulchild env: prod service: blog
重新标记配置。重新标记是一个功能强大的工具,可在爬网目标之前动态覆盖目标的标签集每个抓取都可以配置多个重新标签,以对不同的标签执行不同的操作重新贴标的过程可分为:重新贴标前、重贴中和重贴后。 重新标记配置不能操作指标中的标签,只能操作重新标记前的标签,即和的开头job重新贴标签;
除了自定义标签外,还有一些内置标签:
job tag 的值为配置文件 job=job nameinstance 中作业名称配置的值,重标前未设置,如果重标时未设置实例标签,则实例标签的值为当前目标实例地址的内容: 方案 HTTP 方案、HTTP 或 HTTPS 指标 目标服务访问地址路径 param 采集任务的目标服务中包含的请求参数为参数名称 重标完成后,以开头的标签将从标签集中移除,前缀标签不会出现在指标显示中 如果在重新标记过程中需要临时标签, 可以使用 tmp 前缀,此标签不会被 Prometheus 使用,以防止冲突
重新标记可以执行的操作:replace:将目标标签指定的标签值替换为 replacement 指定的内容。
keep:删除与常规目标不匹配的目标。
drop:删除与常规模式匹配的目标。
labelmap:将正则表达式与所有标签的名称进行匹配,然后将源标签的名称替换为 replacement 指定的内容,源标签无需填充。 它通常用于删除标签前缀以获取新的标签名称。
labeldrop:要删除与常规代码匹配的标签,labeldrop 只需要写入正则表达式字段。
labelkeep:删除与常规代码不匹配的标签,labelkeep 只需要写入正则表达式字段即可。
hashmod:设置为串联的哈希值,使用相同的配置列表,将爬虫目标哈希到不同的 Prometheus 服务器中,从而实现 Prometheus 数据采集的水平扩展。
relabel configs:从已有标签中指定源标签(可以指定多个),不要代表所有标签写入 - source labels: [address ,scrape port] 设置分隔符,多个标签的值会用一个分隔符连接,这个分隔符在正则化时需要考虑,默认为 “;”。”separator: ;使用正则表达式提取数据(如果源标记的内容为"10.0.0.10:8088;80",这与这三个部分相匹配。 默认正则表达式:(.)regex: (d+);d+)指定将结果值写入哪个标签,如果写入的标签不存在,则会创建一个新的目标标签:address 来替换新内容,默认为 $1 替换:$1:$3 指定要执行的动作,默认为 relace action: replace
有关标签演示的更多信息,请访问:
华为模板生成器文件。
modules: huawei: walk: -1.3.6.1.2.1.1.1 #sysdescr - snmpv2-mib - 1.3.6.1.2.1.1.3 #sysuptime - snmpv2-mib - 1.3.6.1.2.1.1.5 #sysname - snmpv2-mib - 1.3.6.1.2.1.2.1 #ifnumber - if-mib - 1.3.6.1.2.1.2.2.1.1 #ifindex - if-mib - 1.3.6.1.2.1.2.2.1.2 #ifdescr - if-mib - 1.3.6.1.2.1.2.2.1.3 #iftype - if-mib - 1.3.6.1.2.1.2.2.1.5 #ifspeed - if-mib - 1.3.6.1.2.1.31.1.1.1.15 #ifhighspeed - if-mib - 1.3.6.1.2.1.31.1.1.1.18 #ifalias - if-mib - 1.3.6.1.2.1.2.2.1.8 #ifoperstatus - if-mib - 1.3.6.1.2.1.2.2.1.13 #ifindiscards - if-mib - 1.3.6.1.2.1.2.2.1.14 #ifinerrors - if-mib - 1.3.6.1.2.1.2.2.1.19 #ifoutdiscards - if-mib - 1.3.6.1.2.1.2.2.1.20 #ifouterrors - if-mib - 1.3.6.1.2.1.31.1.1.1.1 #ifname - if-mib - 1.3.6.1.2.1.31.1.1.1.6 #ifhcinoctets - if-mib - 1.3.6.1.2.1.31.1.1.1.10 #ifhcoutoctets - if-mib ##ifinoctets - if-mib ##ifoutoctets - if-mib - 1.3.6.1.2.1.47.1.1.1.1.1 #entphysicalindex - entity-mib - 1.3.6.1.2.1.47.1.1.1.1.7 #entphysicalname - entity-mib - 1.3.6.1.4.1.2011.6.3.4.1.2 #hwcpudevduty - huawei-cpu-mib - 1.3.6.1.4.1.2011.6.3.4.1.3 #hw**gduty1min - huawei-cpu-mib - 1.3.6.1.4.1.2011.6.3.4.1.4 #hw**gduty5min - huawei-cpu-mib - 1.3.6.1.4.1.2011.6.3.5.1.1.2 #hwmemorydevsize - huawei-memory-mib - 1.3.6.1.4.1.2011.6.3.5.1.1.3 #hwmemorydevfree - huawei-memory-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.1.1.11 #hwentitytemperature - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.10.1.7 #hwentityfanstate - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.14.1.2 #hwsystempowertotalpower - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.14.1.3 #hwsystempowerusedpower - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.6.9.1.4.2.1.3 #hwstoragespace - huawei-flash-man-mib - 1.3.6.1.4.1.2011.6.9.1.4.2.1.4 #hwstoragespacefree - huawei-flash-man-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.3.1.1 #hwentityopticalmode - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.3.1.10 #hwentityopticaltype - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.3.1.8 #hwentityopticalrxpower - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.31.1.1.3.1.9 #hwentityopticaltxpower - huawei-entity-extent-mib - 1.3.6.1.4.1.2011.5.25.246.1.1 #hwmadconflictdetect - huawei-dad-mib - 1.3.6.1.4.1.2011.5.25.246.1.2 #hwmadconflictresume - huawei-dad-mib - 1.3.6.1.2.1.14.1.2 ospfadminstat - ospf-mib 最大重复次数:3 重试次数:3 超时次数:25s 版本:2 auth:社区:xxxx 组名称查找:-source indexes:[ifindex] 查找:ifalias - 源索引:[ifindex] 查找:1。3.6.1.2.1.2.2.1.2 # ifdescr - source_indexes: [ifindex] lookup: 1.3.6.1.2.1.31.1.1.1.1 # ifname - source_indexes: [entphysicalindex] lookup: 1.3.6.1.2.1.47.1.1.1.1.7 #entphysicalname overrides: ifalias: ignore: true # lookup metric ifdescr: ignore: true # lookup metric ifname: ignore: true # lookup metric iftype: ignore: true # lookup metric entphysicalindex: ignore: true # lookup metric entphysicalname: ignore: true # lookup metric
模板文件的解释:官方说明。
modules: 模块名称:模块名称,可自定义名称,模块名称需要与 Prometheus 一致YML 文件遍历:遍历 OID 列表,该列表也可以是 SNMP 对象名称或特定实例 - 13.6.1.2.1.1.1 # sysdescr - sysname # 1.3.6.1.2.1.1.5版本:2 SNMP版本,需要查看交换机上启用了哪个版本,华为交换机一般启用2c,如果是3版本,则需要添加身份验证 最大重复次数:25 如果不写,默认为 25 次重试:3 如果你不写它,它是 3 超时:5s 如果你不写它, 现在是 5 秒 身份验证: 社区: 123456 SNMP 版本 2,只需写入组名即可 SNMP版本需要完善以下信息: 社区不需要用户名: 用户密码: 在这里填写你自己的密码 身份验证协议:MD5 PRIV协议:AES PRIV 密码:在此处填写自己的密码 安全级别:authpriv noauthnopriv、authnopriv、 authpriv 上下文名称: 上下文查找:用于执行查找的可选查找列表,按 OID 进行数据查找 - 源索引:[ifindex] 基于 ifindex 索引的查找可以显示在 ifalias ifdescr ifname lookup: ifalias - 源索引: [ifindex] lookup: 13.6.1.2.1.2.2.1.2 # ifdescr - source_indexes: [ifindex] lookup: 1.3.6.1.2.1.31.1.1.1.1 ifName - 源索引:[entphysicalindex] 可以根据 entphysicalindex 索引找到以显示 entphysicalname 查找:13.6.1.2.1.47.1.1.1.1.7 # entphysicalname overrides: ifalias: ignore: true # lookup metric ifdescr: ignore: true # lookup metric ifname: ignore: true # lookup metric iftype: ignore: true # lookup metric entphysicalindex: ignore: true # lookup metric entphysicalname: ignore: true # lookup metric
删除了 iftype 覆盖:
iftype: ignore: true 删除 Prometheus 中的 iftype 指标
lookups:执行查找的可选数据列表,按 oids - 源索引:[ifindex] 根据 ifindex 索引搜索后,可以显示 ifalias ifdescr ifname lookup: ifalias - 源索引:[ifindex] lookup: 13.6.1.2.1.2.2.1.2 # ifalias - source_indexes: [ifindex] lookup: 1.3.6.1.2.1.31.1.1.1.1 ifname ifindex 指示符 将 ifalias ifalias ifname 插入查询
此外,还有关于 Service Discovery 中 5 个交换机的信息。
在 5 个开关的目标中也可以找到目标,通过切割标签可以看到内置和自定义系统。
第三篇文章到此结束,下一篇文章继续解释交换机收集的细节。