如何使用ARMS配置tengine的日志监控

yuun · · 1236 次点击    
这是一个分享于 的资源,其中的信息可能已经有所发展或是发生改变。
摘要: 业务实时监控服务 ARMS 很好的提供了这么一个入口,为公司提供了一个实时查询Tengine运行情况的解决方案。在未来,ARMS将很好的和ODPS为公司监控形成互补方案,tengine日志日后可同时投递到ARMS和MaxCompute中: ARMS响应第一时间的多维度报警; MaxCompute来做深层次分析,例如接口的请求数、响应时长等,并有针对性地进行调优。 来自 深圳市小亿网络有限公司 王昕岩 最近公司通过业务实时监控服务 ARMS 成功搭建了基于tengine的日志监控系统。这里简单分享一下使用ARMS用于监控tengine日志的经验。 公司发展至今,现阶段所有接口都使用阿里的tengine作为web容器,类似nginx,在日志中也记录了包括host, url, ip, 包体大小,响应时长等信息。目前的业务需求场景是希望有一套系统来监控接口的异常,来及时发现系统的异常,并能具体到哪些项目、哪些服务器、甚至哪些URL出现异常,提高分析问题和解决问题的速度。 tengine日志分布到不同服务器上,首先使用日志服务来分别收集这些日志。再以logHub作为日志源,来进行监控。想到使用ARMS的其中一个最重要原因是因为我们系统tengine的日志格式有一定的定制,需要有一个端到端监控产品提供的定制化特别强的数据清洗功能,以及聚合计算+报警功能。 这里详细介绍一下ARMS吊炸天的日志切分功能。 第一步,一个开始节点; 第二步,LogHub数据源过来默认是JSON格式,进行JSON解析,如下图: 注意日期类型的时间格式,尤其是“小时”部分,默认格式是hh(12小时),需要改为HH(24小时)。 第三步,清洗,过滤掉这里不需要监控的host,如下图: 通过函数,过滤掉不以指定域名结尾的host。 第四步,解析URL。使用“单分隔符切分器”,将request字段按照空格切分,分别获取调用方式(GET/POST)、完整URL、协议版本。 第五步,区分错误码。这里主要是为了区分,返回码是代表正常、还是错误。这里只对错误的返回码进行监控。下图的例子是,返回码是4xx或5xx的表示错误,其他表示正常。新增字段is_error表示是否是“错误码”,赋值1或0表示是或否。 第六步,配置服务器IP和服务器名称的对应关系。配置了一个映射表如下: 注意,这里一定要配置一个127.0.0.1的k-v关系,否则日志切分预览的时候会看不到这个“服务器名称”字段。 最后,再简化一下host,把域名的后缀去掉,只保留前缀。 至此,日志切分全部结束。点击“日志切分预览”,即可查看切分效果。点击保存,下一步。 配置数据集,例如要监控接口的访问次数,使用count(_line);要监控平均包体大小,使用sum(包体大小)÷count(_line);要监控平均响应时长,使用sum(响应时长)÷count(_line)。维度根据需要配置,此处配置为先服务器,后接口域名。 至此配置全部结束,点击保存,完成配置。即可启动任务了。以上为简单示例。 这边展示我制作的其中几项监控的大盘。 请求数效果图: 响应时长效果图: 包体大小效果图: 错误码个数效果图: 运维人员通过对几个图表的观察分析,可以很快得出一些异常情况发生的原因,并及时处理掉。 一个年轻的互联网公司,需要不断的成长。系统也一样,需要不断的提升、优化。业务实时监控服务 ARMS 很好的提供了这么一个入口,为公司提供了一个实时查询Tengine运行情况的解决方案。在未来,ARMS将很好的和ODPS为公司监控形成互补方案,tengine日志日后可同时投递到ARMS和MaxCompute中: ARMS响应第一时间的多维度报警; MaxCompute来做深层次分析,例如接口的请求数、响应时长等,并有针对性地进行调优。 业务实时监控ARMS正在公测 了解全部阿里云互联网中间件产品和使用场景 原文链接:http://click.aliyun.com/m/28209/

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

1236 次点击  
加入收藏 微博
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传