Zabbix 自动发现并监控磁盘IO、报警


引言 Zabbix并没有提供模板来监控磁盘的IO性能,所以我们需要自己来创建一个,由于一台服务器中磁盘众多,如果只有一两台可以手动添加,但服务集群达到几十那就非常麻烦,因此需要利用自动发现这个功能,自动发现后自动添加对服务器磁盘的监控,而且添加磁盘后也会自动添加到监控,实现自动化运维的效果,接下来我们就来看看怎么自动发现磁盘并自动监控磁盘的IO性能,再设置触发器,IO达到阈值后发出报警

iostat简介
iostat主要用于监控系统设备的IO负载情况,iostat首次运行时显示自系统启动开始的各项统计信息,之后运行iostat将显示自上次运行该命令以后的统计信息。用户可以通过指定统计的次数和时间来获得所需的统计信息。所以在使用iostat监控系统IO负载的时候,不要直接iostat取结果,而是iostat -dxkt 1 2取结果,否则得到的数据根本不正确

iostat安装

yum -y install sysstat
iostat常用参数说明

-c      # 仅显示CPU统计信息.与-d选项互斥.
-d      # 仅显示磁盘统计信息.与-c选项互斥.
-p      # 可以报告出每块磁盘的每个分区的使用情况
-k      # 以K为单位显示每秒的磁盘请求数,默认单位块.
-t      # 在输出数据时,打印搜集数据的时间.
-V      # 打印版本号和帮助信息.
-n    显示NFS(network filesystem)报告
-x      # 输出扩展信息.
iostat命令输出说明1

[root@centos181002 ~]# iostat 
Linux 3.10.0-957.el7.x86_64 (centos181002)  2019年03月17日     _x86_64_    (1 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.67    0.00    9.07    0.02    0.00   90.23

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda              55.56        65.91     27144.77     174751   71974361
sdb               0.04         1.03         0.00       2720          0
scd0              0.01         0.39         0.00       1028          0
dm-0             54.83        61.23     27144.00     162342   71972313
dm-1              0.03         0.93         0.00       2460          0


## avg-cpu段:
%user: 在用户级别运行所使用的CPU的百分比.
%nice: nice操作所使用的CPU的百分比.
%sys: 在系统级别(kernel)运行所使用CPU的百分比.
%iowait: CPU等待硬件I/O时,所占用CPU百分比.
%idle: CPU空闲时间的百分比.

## Device段:
tps    每秒I/O数(即IOPS。磁盘连续读和连续写之和)
Blk_read/s    每秒从设备读取的数据大小,单位是block/s(块每秒)
Blk_wrtn/s    每秒写入设备的数量,单位是block/s
Blk_read    从磁盘读出的块的总数
Blk_wrtn    写入磁盘的块的总数
iostat命令输出说明2

[root@centos181002 ~]# iostat dxkt
Linux 3.10.0-957.el7.x86_64 (centos181002)  2019年03月17日     _x86_64_    (1 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.65    0.00    9.05    0.56    0.00   89.73

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn


rrqm/s:每秒读请求被合并次数
wrqm/s:每秒写请求被合并次数
r/s:每秒完成的读次数
w/s:每秒完成的写次数
rkB/s:每秒读数据量(kb)
wkB/s:每秒写数据量(kb)
avgrq-sz:平均每次IO请求的扇区大小
avgqu-sz:平均每次IO请求的队列长度(越短越好)
await:平均每次IO请求等待时间(毫秒),一般的系统IO等待时间应该低于5ms,如果大于10ms就比较大了。
    这个时间包括了队列时间和服务时间,也就是说,一般情况下,await大于svctm,它们的差值越小,则说明队列时间越短
    反之差值越大,队列时间越长,说明系统出了问题。

r_await:读的平均耗时(毫秒)
w_await:写入平均耗时(毫秒)

svctm:平均每次IO请求处理时间(毫秒)
    如果svctm的值与await很接近,表示几乎没有I/O等待,磁盘性能很好
    如果await的值远高于svctm的值,则表示I/O队列等待太长,系统上运行的应用程序将变慢。

%util:IO队列非空比例,该参数暗示了设备的繁忙程度。一般地,如果该参数是100%表示设备已经接近满负荷运行了
环境

[root@centos181001 ~]# cat /etc/centos-release
CentOS Linux release 7.6.1810 (Core) 

[root@centos181001 ~]# zabbix_server -V
zabbix_server (Zabbix) 4.0.5
Revision 90164 25 February 2019, compilation time: Feb 25 2019 09:41:55

Copyright (C) 2019 Zabbix SIA
License GPLv2+: GNU GPL version 2 or later <http://gnu.org/licenses/gpl.html>.
This is free software: you are free to change and redistribute it according to
the license. There is NO WARRANTY, to the extent permitted by law.

This product includes software developed by the OpenSSL Project
for use in the OpenSSL Toolkit (http://www.openssl.org/).

Compiled with OpenSSL 1.0.1e-fips 11 Feb 2013
Running with OpenSSL 1.0.1e-fips 11 Feb 2013

[root@centos181001 ~]# zabbix_agentd -V
zabbix_agentd (daemon) (Zabbix) 4.0.5
Revision 90164 25 February 2019, compilation time: Feb 25 2019 09:42:17

Copyright (C) 2019 Zabbix SIA
License GPLv2+: GNU GPL version 2 or later <http://gnu.org/licenses/gpl.html>.
This is free software: you are free to change and redistribute it according to
the license. There is NO WARRANTY, to the extent permitted by law.

This product includes software developed by the OpenSSL Project
for use in the OpenSSL Toolkit (http://www.openssl.org/).

Compiled with OpenSSL 1.0.1e-fips 11 Feb 2013
Running with OpenSSL 1.0.1e-fips 11 Feb 2013
第一步:Zabbix Agent端设置
1.安装iostat

yum -y install sysstat
2.编写自动发现磁盘脚本并给予执行权限

mkdir -p /etc/zabbix/scripts/
cat > /etc/zabbix/scripts/disk_discovery.sh <<\EOF
#!/bin/bash
############################################################
# $Name:         disk_discovery.sh
# $Function:     DISK DISCOVERY
# $Author:       Xiaoliu.liu 1377133225@qq.com
# $organization: Xiaoliu.liu
# $Create Date:  2019/3/17
# $Description:  Monitor DISK DISCOVERY
############################################################

disk_array=(`grep -E "(vd[a-z]$|sd[a-z]$)" /proc/partitions | awk '{print $4}'`)
length=${#disk_array[@]}
printf "{\n"
printf  '\t'"\"data\":["
for ((i=0;i<$length;i++))
do
        printf '\n\t\t{'
        printf "\"{#DISK_NAME}\":\"${disk_array[$i]}\"}"
        if [ $i -lt $[$length-1] ];then
                printf ','
        fi
done
printf  "\n\t]\n"
printf "}\n"
EOF

cat /etc/zabbix/scripts/disk_discovery.sh
chmod +x /etc/zabbix/scripts/disk_discovery.sh
3.编写监控磁盘IO脚本

cat > /etc/zabbix/scripts/disk_io.sh <<\EOF
#!/bin/bash
############################################################
# $Name:         disk_discovery.sh
# $Function:     DISK DISCOVERY
# $Author:       Xiaoliu.liu 1377133225@qq.com
# $organization: Xiaoliu.liu
# $Create Date:  2019/3/17
# $Description:  Monitor DISK DISCOVERY
############################################################

Device=$1
DISK=$2

case $DISK in

#每秒读请求被合并次数
rrqm_s)
        iostat -dxkt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $2}'
;;

#每秒写请求被合并次数
wrqm_s)
        iostat -dxkt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $3}'
;;

#每秒完成的读次数
r_s)
        iostat -dxkt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $4}'
;;

#每秒完成的写次数
w_s)
        iostat -dxkt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $5}'
;;

#每秒读数据量(MB)
rkb_s)
        iostat -dxmt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $6}'
;;

#每秒写数据量(MB)
wkb_s)
        iostat -dxmt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $7}'
;;

#平均每次IO请求的扇区大小
avgrq_sz)
        iostat -dxkt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $8}'
;;

#平均每次IO请求的队列长度(越短越好)
avgqu_sz)
        iostat -dxkt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $9}'
;;

#平均每次IO请求等待时间(毫秒)
await)
        iostat -dxkt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $10}'
;;

#读的平均耗时(毫秒)
r_await)
        iostat -dxkt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $11}'
;;

#写入平均耗时(毫秒)
w_await)
        iostat -dxkt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $12}'
;;

#平均每次IO请求处理时间(毫秒)
svctm)
        iostat -dxkt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $13}'
;;

#IO队列非空比例
util)
        iostat -dxkt 1 2 | grep "\b$Device\b" | awk 'NR==2{print $14}'
;;

#IOPS
iops)
    iostat -dk 1 2 | grep "\bsda\b" | awk 'NR==2{print $2}'
;;
esac
EOF
cat /etc/zabbix/scripts/disk_io.sh
chmod +x /etc/zabbix/scripts/disk_io.sh
4.编辑zabbix_agentd的配置文件支持自定义脚本并

vim /etc/zabbix/zabbix_agentd.conf

UnsafeUserParameters=1
Include=/etc/zabbix/zabbix_agentd.d/*.conf
5.创建disk_io的key文件

cat > /etc/zabbix/zabbix_agentd.d/disk_status.conf <<\EOF
UserParameter=disk.discovery[*],/etc/zabbix/scripts/disk_discovery.sh
UserParameter=disk.io[*],/etc/zabbix/scripts/disk_io.sh $1 $2
EOF
cat /etc/zabbix/zabbix_agentd.d/disk_status.conf

    参数说明:
    其中的格式为UserParameter=<key>,<command>

    <key>:就是在web端添加监控脚本时的key值
    <command>:就是该key值对应的执行脚本,也就是脚本执行路径
6.重启Zabbix Agent服务

systemctl restart zabbix-agent.service
7.在Zabbix Server端测试

zabbix_get -s 11.11.11.62 -k 'disk.discovery[*]'

    [root@zabbix-new ~]# zabbix_get -s 192.168.1.118 -k 'disk.discovery[*]'
    {
        "data":[
            {"{#DISK_NAME}":"sda"}
        ]



第二步:Zabbix Server端导入模板并关联到主机即可。
模板下载:https://pan.baidu.com/s/10Jcwt2ScdjW_rwHdz7QBdw

提取码: tqzw



链接:https://pan.baidu.com/s/1sJ68wDarGP6I9aqxA5d5Ww  密码:ssq8

在被监控端上模拟磁盘写入进行测试
1
dd if=/dev/zero of=/a.txt bs=8k count=30000