这段时间把数据中心的mrtg换成了cacti.cacti和mrtg其实也本是同根生,经过一段时间在公司内部环境的测试,觉得可以在生产环境中部署.想要实现的功能是:1.获取网络设备的流量统计.(老板说将来给客户证明网络设备的持续高效运行;当然同时也是我们部门给老板证明我们让这些玩意在持续运行);2.将一些系统警告信息(比如服务器/网络设备宕机....)通过短信发送到我们的手机(其实不是好事,意味着24小时和这些东西绑在一起了)
       环境是一部跑在hyper-v上的opensuse.
1.安装cacti
基本上没啥好说,安装都比较简单.当然进行前必须看看cacti手册  .www.cacti.net  .  在安装过程中可能会碰到的问题是一些依附组件的缺失,按照提示补上就可以,我还碰到一个问题是net-snmp版本的问题,尽量用最新版本就可以.opensuse的安装可以通过yast2来做,比较方便,基本上要用的都可以通过它在internet获取最新的包.当然,有些免不了要自己额外去wget一些,然后编译一下.
2.配置cacti
   将设备加到监控台,有可能会出错.在确保目标设备和cacti server的snmp信息匹配后,基本上没问题.可以通过snmpwalk 去检查. 比如  snmpwalk -c public -v2c 192.168.1.1   (-c 标识  community name  ; -v 标识 version ;2c 表示 snmp2 ),正常的话会得到一堆关于这个设备的信息. 当中碰到一个问题是,所有的检查都是正常的,但是设备加入后,状态确是unknow.折腾了我不少时间(google了很久),也没找出个所以然.后来不断捣鼓,其实可以暂时先忽略这个问题,只管去配置设备的查询选项,然后核对查询状态,再生成图形,最后把设备放到控制台的"树"中,过一会儿,状态自然会up. (回头看,其实都是很简单,怎么当初花那么多时间干这个活呢???失败)
3.到www.cacti.net  去打补丁,该升级的都升级,然后装上插件  主要是monitor 和threshold 这2个插件很实用.具体安装的方法只管看官网手册,网上有很多前辈安装的过程,可以参考,但是这些教程都基本出自一个人,在网上被大家转来转去,这些雷同教程有些地方是有错误的(大家都以讹传讹),如果照着做的话有时或莫名其妙.所以根本之道就是看官网手册.
4.设置插件
   做一些threshold的设置,让那些"超标"的行为发出告警
5. 拿飞信机器人发送邮件通知
这个也是免费的.飞信机器人可以到www.it-adv.net 下载.  网上也有很多关于cacti如何使用飞信机器人的做法.很遗憾,我始终还是没按照他们所提到的方法 触发短信(email是没有问题的).由于中国电信的飞信服务器会升级,所以要留意飞信机器人是否能正常登陆.脚本发信可以通过命令行获取帮助.
    我自己的方法做了一个变通.将alert email 发送到cacti server本机的一个用户,然后写一个脚本,去检查该用户的邮件,如果有邮件,则通过飞信机器人脚本把邮件发出.因为我始终没实现通过更改thold_functions.php来出发sms 邮件.
    还有一个更简单的方式:可以通过139.com来接受这些警告信息.(当然也是免费).这些可以省去设置飞信机器人的力气,其实这个方法更为有效.
 
以上是做这个平台的一点心得.具体方法都是参考官方手册,因为版本经常升级,所以,how-to也会变.