当前位置:首页 > 短网址资讯 > 正文内容

FT12短网址:如何挖掘Nginx日志中隐藏的金矿?

www.ft12.com7年前 (2017-07-18)短网址资讯1734
作者|张晓庆
编辑|小智
对很多开发运维人员来说,Nginx 日志文件在被删除前可能都不会看上一眼。但实际上,Nginx 隐藏了相当丰富的信息,或许其中便蕴含着未知的金矿等你挖掘!
写在前面

Nginx(读作 Engine-X)是现在最流行的负载均衡和反向代理服务器之一。如果你是一名中小微型网站的开发运维人员,很可能像我们一样,仅 Nginx 每天就会产生上百 M 甚至数以十 G 的日志文件。如果没有出什么错误,在被 logrotate 定期分割并滚动删除以前,这些日志文件可能都不会被看上一眼。

实际上,Nginx 日志文件可以记录的信息相当丰富,而且格式可以定制,考虑到$time_local请求时间字段几乎必有,这是一个典型的基于文件的时间序列数据库。Nginx 日志被删除以前,或许我们可以想想,其中是否蕴含着未知的金矿等待挖掘?

请求访问分析

Nginx 中的每条记录是一个单独的请求,可能是某个页面或静态资源的访问,也可能是某个 API 的调用。通过几条简单的命令,了解一下系统的访问压力:

请求总数、平均每秒请求数、峰值请求数,可以大体了解系统压力,作为系统扩容、性能及压力测试时的直接参考。查询特定的 URL,比如下单页面,了解每天的下单状况,导出 CSV 格式,或使用可视化工具,更直观地了解一段时间内的请求、下单数据:

备注:本文使用 awk 命令处理,与 Nginx 日志的格式有关,如果您格式不同,请酌情修改命令。本文所用的 Nginx 日志格式:

示例:

流量速率分析

Nginx 日志如果开启,除了请求时间,一般会包含响应时间、页面尺寸等字段,据此很容易计算出网络流量、速率。

等等,你可能会有疑问,上面的请求访问分析,这里的流量速率分析,按时间轴画出来,不就是监控系统干的事儿吗,何苦这么麻烦查询 Nginx 日志?

的确如此,监控系统提供了更实时、更直观的方式。而 Nginx 日志文件的原始数据,可以从不同维度分析,使用得当,会如大浪淘沙般,发现属于我们的金子。

对一般网站来说,带宽是最珍贵的资源,可能一不小心,某些资源如文件、图片就占用了大量的带宽,执行命令检查一下:

备注:Nginx 配置文件中日志格式使用了 $body_sent_size,指 HTTP 响应体的大小,如果想查看整个响应的大小,应该使用变量 $sent_size。

不出意外,静态资源、图片类(如果还没有放 CDN)占据榜首,自然也是优化的重点:是否可以再压缩,某些页面中是否可以用缩略图片代替等。

与之相比,后台调用、API 接口等通常消耗更多的 CPU 资源,按照一贯“先衡量、再优化”的思路,可以根据响应时间大体了解某个 URL 占用的 CPU 时间:

不对,发现一个问题:由于拥有服务号、App、PC 浏览器等多种前端,并且使用不规范,URL 的格式可能乱七八糟。比如/page/a页面,有的带有.html 后缀,有的未带,有的请求路径则带有参数;分类页 /categories/food 带有slug等信息;订单、详情或个人中心的 URL 路径则有ID等标记...。

借助 sed 命令,通过三个方法对 URL 格式进行归一化处理:去掉所有的参数;去掉.html.json后缀;把数字替换为*。可以得到更准确的统计结果,:

备注:这里使用了扩展正则表达式,GNU sed 的参数为 -r,BSD sed 的参数为 -E。

那些累计占用了更多响应时间的请求,通常也耗用了更多的 CPU 时间,是性能优化重点照顾的对象。

慢查询分析

“服务号刚推送了文章,有用户反映点开很慢”,你刚端起桌子上的水杯,就听到产品经理的大嗓门从办公室角落呼啸而来。“用户用的什么网络”,你一边问着,一边打开服务号亲自尝试一下。是用户网络环境不好,还是后台系统有了访问压力?是这一个用户慢,还是很多用户都慢?你一边脑子里在翻腾,一边又打开命令行去查看日志。

与 PC 浏览器相比,微信服务号在网络环境、页面渲染上有较大的掣肘,在缓存策略上也不如 APP 自如,有时会遇到诡异的问题。如果手里恰好有 Nginx 日志,能做点什么呢?

考虑一下 MySQL 数据库,可以打开慢查询功能,定期查找并优化慢查询,与此类似,Nginx 日志中的响应时间,不相当于自带慢查询功能嘛。利用这一特性,我们分步进行慢查询分析:

第一步:是不是用户的网络状况不好?根据既往的经验,如果只有少量的请求较慢,而前后其他 IP 的请求都较快,通常是用户手机或网络状况不佳引起的。最简单的方法,统计慢查询所占比例:

慢查询所占比例极低,再根据用户手机型号、访问时间、访问页面等信息看能否定位到指定的请求,结合前后不同用户的请求,就可以确定是否用户的网络状况不好了。

第二步:是不是应用系统的瓶颈?对比应用服务器的返回时间 ($upstream_response_time 字段),与 Nginx 服务器的处理时间 ($request_time 字段),先快速排查是否某一台服务器抽风。

我们遇到过类似问题,平均响应时间 90ms,还算正常,但某台服务器明显变慢,平均响应时间达到了 200ms,影响了部分用户的访问体验。

不幸,市场部此次推广活动,访问压力增大,所有服务器都在变慢,更可能是应用系统的性能达到了瓶颈。如果此时带宽都没跑满,在硬件扩容之前,考虑优化重点 API、缓存、静态化策略吧,达到一个基本的要求:“优化系统,让瓶颈落到带宽上”。

第三步:应用系统没有瓶颈,是带宽的问题?快速查看一下每秒的流量:

峰值带宽接近出口带宽最大值了,幸福的烦恼,利用前面介绍的不同 URL 的带宽统计,做定向优化,或者加带宽吧。

还能做哪些优化?

SEO 团队抱怨优化了那么久,为什么页面索引量和排名上不去。打印出不同爬虫的请求频次($http_user_agent),或者查看某个特定的页面,最近有没有被爬虫爬过:

数据告诉我们,页面索引量上不去,不一定是某个爬虫未检索到页面,更多的是其他原因。

市场团队要上一个新品并且做促销活动,你建议避开周一周五,因为周三周四的转化率更高:

周三、周四的转换率比周末高不少,可能跟平台的发货周期有关,客户周三四下单,希望周末就能收到货,开始快乐的周末。你猜测到用户的心理和期望,连数据一起交市场品团队,期待更好地改善。

这样的例子可以有很多。事实上,上述分析限于 Nginx 日志,如果有系统日志,并且日志格式定义良好,可以做的事情远不止于此:这是一个时间序列数据库,可以查询 IT 系统的运行情况,可以分析营销活动的效果,也可以预测业务数据的趋势;这是一个比较小但够用的大数据源,运用你学会的大数据分析方法,也可以像滴滴那样,分并预测不同天气、时间段下不同地区的车辆供需,并作出优化。

几点建议
  1. 规范日志格式。这是很多团队容易忽略的地方,有时候多一个空格会让日志分析的复杂度大为增加。

  2. 无论如何,使用时间戳字段。以时间序列的方式看待日志文件,这也是很多公司把系统日志直接写入到时间序列数据库的原因;

  3. 如有可能,记录以下字段:用户(或者客户端)标识、单次请求标识、应用标识(如果单次请求会走到多个应用)。能够方便地查出用户链路、请求链路,是排查错误请求、分析用户行为的基础;

  4. 关注写的操作。就像业务建模时,需要特别关注具有时标性、状态会发生改变的模型一样,任何写的操作,都应记录到日志系统中。万一某个业务出错,不但可以通过业务模型复演,也可以通过日志系统复演。

  5. 规范 URL 格式。这一点同样容易遭到忽略,商品详情页面要不要添加"?from=XXX"来源参数?支付页面采用路径标记“payment/alipay”,还是参数标记“/payment?type=alipay”更合适?区别细微但影响不可忽略。

技术团队应该像对待协议一样对待这些规范。仔细定义并严格遵守,相当于拿到了金矿的钥匙。

还需要寻找一个合适的日志分析工具,基于 Python、Go、Lua,都有免费的日志分析工具可供使用;想更轻量,准备几条常用的 shell 脚本,比如作者整理了一些到 GitHub 的这个项目上(https://github.com/aqingsao/nana);或者基于 ELK 技术栈,把 Nginx 访问日志、业务日志统一存储,并通过 Kibana 进行不同维度的聚合分析,都是不错的办法。

或许你早就使用 Nginx 日志了,你是怎么使用的,有什么好的方法呢,欢迎一起交流。

今日荐文

点击下方图片即可阅读

蚂蚁金服 CTO 程立:技术的价值与意义,在我看来是这样的


扫描二维码推送至手机访问。

版权声明:本文由短链接发布,如需转载请注明出处。

本文链接:https://www.ft12.com/article_296.html

分享给朋友:

相关文章

不甘平庸是种怎样的体验?

不甘平庸是种怎样的体验?

平庸是个人主观感受,针对自己才是态度,针对他人的只是偏见。我对平庸最深刻的认识,是刚毕业第二年,22岁。22岁之前,也不知道哪里来的自信,总认为当前一切境遇不过只是韬光养晦而已,以后注定会光芒万丈,不自知,也没有能力清醒的看待世界,盲目乐观...

FT12短网址:用GAN去除(爱情)动作片中的马赛克和衣服

FT12短网址:用GAN去除(爱情)动作片中的马赛克和衣服

作为一名久经片场的老司机,早就想写一些探讨驾驶技术的文章。这篇就介绍利用生成式对抗网络(GAN)的两个基本驾驶技能:1) 去除(爱情)动作片中的马赛克2) 给(爱情)动作片中的女孩穿(tuo)衣服生成式模型上一篇《用GAN生成二维样本的小例...

百度外卖和顺丰快递即将成立合资公司

百度外卖和顺丰快递即将成立合资公司

baidu外卖或将被出售的消息从去年就开端成为关注的焦点,跟着时间的推进,与baidu外卖一再传出绯闻的顺丰逐渐浮出水面。近日有消息称顺丰创始人王卫质押百亿股票意欲收购baidu外卖,不过腾讯科技从顺丰内部人士处得悉,顺丰与baidu外卖的...

麦当劳惊曝丑闻刷爆全球!你一定没想到,我们吃的冰淇淋竟然.......

麦当劳惊曝丑闻刷爆全球!你一定没想到,我们吃的冰淇淋竟然.......

近几年,麦当劳和肯德基的食品丑闻,和他们总是毗邻相开的店面一样,此起彼伏,接二连三。而最近,麦当劳又摊上事儿了……具体什么事呢?故事还要从一位,在麦当劳打工的小哥说起……他叫Nick,18岁的他在麦当劳,路易斯安那州拉普拉斯店,找了一份后厨...

原来国内外互联网企业开的实体店都长这样

原来国内外互联网企业开的实体店都长这样

【FT12短网址】曾经,咱们都在说要从线下走到线上,现在却反过来了,不断添加互联网公司开端着手规划实体店。除了有国际电商巨子亚马逊、阿里、京东们的尝试之外,国内外还有一大波开线下店的“传统互联网公司”。能够想象一下,这将会给线下零售市场带来...

文旅IP与住宿业融合:无IP不文旅,有IP则称王

文旅IP与住宿业融合:无IP不文旅,有IP则称王

[ FT12短网址 ] 生命在于有意义和有意思,已经成为很多人的价值观和生存观。他们渴望一个更精彩的生存方式,而不仅仅是填饱肚皮。这就催生了各种文化娱乐产业的诞生,在旅游行业,就是文旅产业。图片来自“123rf.com.cn”大约...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。