使用infiniband_exporter监控InfiniBand网络

最近监控有需求要监控计算网络,也就是infiniband网络,目前已有dcgm-exporter和node-exporter,就看看infiniband是否也有类似的expoter可以用来监控,于是查了下InfiniBand Exporter相关资料,InfiniBand Exporter是一个由 treydock 开发的 Prometheus Exporter,用于采集 InfiniBand 网络的监控指标。它从 InfiniBand 交换机和 HCA 收集指标,并通过/metrics端点暴露这些指标。

InfiniBand Exporter安装和配置
下载 InfiniBand Exporter 的二进制文件或使用容器部署。
如果使用二进制文件,需要创建一个运行账号,并确保infiniBand_exporter文件放置在可执行路径下,如/usr/local/bin/infiniband_exporter。
使用 SystemD 管理服务,启动 InfiniBand Exporter 服务。
启动 InfiniBand Exporter 后,它将在默认的 9315 端口暴露监控数据。
使用--collector.<name>和--no-collector.<name>参数来启用或禁用特定的收集器。
如果需要,可以指定ibnetdiscover和perfquery工具的路径。
InfiniBand Exporter 默认会从连接到运行主机的 fabric 的所有交换机端口收集监控数据。

可以使用--ibnetdiscover.node-name-map参数来使用节点名字的映射列表文件,从而获得更友好的名称。

我们从github上下载安装包:https://github.com/treydock/infiniband_exporter/tree/main,由于环境要求和差异,我们后续配置内容也稍作了改动顺便记录下来。

下载需要使用到的infiniband_exporter包,里面只有一个二进制文件,我们需要放置到相应位置这样全局就可以执行,由于我是使用root用户管理,所以就不像官方那样再创建用户,也不放置在/usr/sbin/下面了,直接放置到/usr/bin目录下

chmod +x infiniband_exporter
cp infiniband_exporter /usr/bin/

然后编写服务文件

tee /etc/systemd/system/infiniband_exporter.service <<EOF
[Unit]
Description=Prometheus InfiniBand Exporter
Wants=basic.target
After=basic.target network.target

[Service]
EnvironmentFile=-/etc/sysconfig/infiniband_exporter
ExecStart=/usr/bin/infiniband_exporter --web.listen-address=:9315
ExecReload=/bin/kill -HUP $MAINPID
KillMode=process
Restart=always
User=root

[Install]
WantedBy=multi-user.target
EOF

然后加载并设置开机启动和启动

systemctl daemon-reload
systemctl enable infiniband_exporter.service
systemctl start infiniband_exporter.service
systemctl status infiniband_exporter.service

202601051139487445036539.png

启动好以后我们就可以看到9315端口监听了,现在就可以加入到prometheus里面进行监控了。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://sulao.cn/post/1157

评论列表

0%