众所周知,nginx是目前最流行的Web Server之一,也广泛应用于负载均衡、反向代理等服务,使用过程中可能因为对Nginx工作原理、变量含义、参数大小等问题的理解错误,导致Nginx工作异常。
因此,本文将从一个Nginx错误代码502引发的故障入手,谈谈如何分析和修复常见的Nginx异常。
故障简述
某一天游戏客服突然反应说,游戏x区出现502 Bad Gateway,于是上服务器进行检查
故障详情
这个网页游戏区是由三台腾讯云服务器提供的服务。
172.16.0.5Nginx反向代理172.16.0.8MDB+WEB172.16.0.16SDB+WEB172.16.0.5是一台调度器,后端两台服务器采用lnmp+memcached架构。每过一段时间玩家通过nginx转发机登录会报错如上图502错误,可是后端服务器访问正常,当我重启后端memcached之后,转发机恢复正常
处理过程
nginx出现502有很多原因,但大部分原因可以归结为资源数量不够用,也就是说后端php-fpm处理有问题,nginx将正确的客户端请求发给了后端的php-fpm进程,但是因为php-fpm进程的问题导致不能正确解析php代码,最终返回给了客户端502错误。所以我着重检查了php-fpm进程。将php-fpm进程调至64。
<value name="max_children">64</value>
清楚memcahced缓存之后恢复正常,可适当观察一段时间,前置代理机又会出现502错误,这就让人很头疼了。
看来调试php-fpm不管用,不是解决方法,不是原因所在。
进一步排查。502错误是由于后端无法正常提供服务造成的,所以敢断定一定是后端的问题。
我们进行内核优化,sysctl.conf中添加如下几行,
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_fin_timeout = 15
net.ipv4.tcp_keepalive_time = 600
net.ipv4.tcp_synack_retries = 2
net.ipv4.tcp_max_syn_backlog = 8192
net.core.somaxconn = 512
观察一段时间后没有结果依然不尽人意。后来想到了每当我重启memcached时候就会恢复正常。于是就把焦点转移到了memcahced上。由于游戏程序使用了memcached,关闭此服务,游戏程序会报错,所以我们决定对他进行调优。也只有这样一步一步排查了。
针对有8G内存的云主机上,在memcached启动脚本中修改了启动内存参数为256M,默认是64M,然后重启memcached,发现前置代理机恢复正常再也没有出现过502报错。
free -m
total used free shared buffers cached
Mem: 7870 6728 1141 32 151 2277
-/+ buffers/cache: 4299 3570
Swap: 0 0 0
经验教训
忽略对缓存的调优,针对内存大小进行调优
引申
上面介绍了Nginx 502错误的可能原因和解决办法,但实际工作中,我们遇到的可不止这么一点。于是,由此引申出去的是,针对那些Nginx常见错误如何去排查和解决。
403错误
403是很常见的错误代码,一般就是未授权被禁止访问的意思。
可能的原因有两种:
Nginx程序用户无权限访问web目录文件
Nginx需要访问目录,但是autoindex选项被关闭
修复方法:
授予Nginx程序用户权限读取web目录文件
设置autoindex目录为on
504错误
Nginx 504 Gateway Time-out的含义是所请求的网关没有请求到,简单来说就是没有请求到可以执行的PHP-CGI。
Nginx 504 Gateway Time-out一般与Nginx.conf的设置有关。
还没有评论,来说两句吧...